Evaluierung und Verbesserung von AI-Modellen

Aus FernFH MediaWiki
Zur Navigation springen Zur Suche springen

Evaluierung und Verbesserung von KI-Modellen

Evaluierung von Klassifikations- und Regressionsmodellen

Bewertungsmetriken zur Klassifizierung

Ein Klassifizierungsmodell wird anhand der Testdaten ausgewertet. Die zur Bewertung des Modells am häufigsten verwendeten allgemeinen Bewertungsmetriken (evaluation metrics) sind wie folgt aufgeführt:

  • Accuracy (Genauigkeit),
  • Konfusionsmatrix (confusion matrix),
  • Precision und Recall (Präzision und Rückruf),

Die Accuracy ist das Verhältnis der korrekt klassifizierten Beispiele zur Gesamtzahl der Beispiele im Testdaten. Definiert man wahre Beispiele (true examples - TE) und falsche Beispiele (false examples - FE) als Anzahl der korrekt und falsch klassifizierten Beispiele im Testdaten, kann die Accuracy wie folgt angegeben werden:

Die Konfusionsmatrix ist eine Metrik zur Visualisierung der Klassifizierungsleistung (classification performance). Die Zeilen der Matrix stellen die wahren Klassen dar und die Spalten zeigen die vorhergesagten Klassen. Das Element (i,j) der Matrix zeigt die Anzahl der Testbeispiele, die zur Klasse i gehören und als Klasse j klassifiziert sind. Die Konfusionsmatrix zeigt also nicht nur die Anzahl der korrekt klassifizierten Beispiele für jede Klasse, sondern auch eine Vorstellung von typischen Fehlklassifizierungen, die das Modell vornimmt. Eine Beispiel-Konfusionsmatrix ist in Abbildung 49 zu sehen.

Abbildung 49: Eine Beispiel-Konfusionsmatrix für ein Klassifizierungsmodell mit 3 Klassen.



Die Metriken Precision und Recall wurden ursprünglich für binäre Klassifizierungsmodelle eingeführt, ihre Verwendung kann jedoch auf Mehrklassenfälle (multiclass case) ausgeweitet werden. Daher werden sie zunächst für binäre Klassifizierungsmodelle definiert und erläutert.

In binärer Klassifizierungsaufgabe mit positiven und negativen Klassen kann das Ergebnis der Klassifizierungsaufgabe in einen von vier Fällen eingeteilt werden: richtig/falsch (correctly/incorrectly) klassifizierte Beispiele, die zur positiven/negativen Klasse (positive/negative class) gehören. Die Vorhersage ist true positive (TP), wenn ein positives Beispiel richtig klassifiziert wird, wie z. B. das Vorhandensein einer Krankheit. Eine false negative (FN) Vorhersage tritt auf, wenn ein positives Beispiel vom Modell als zur negativen Klasse gehörend klassifiziert wird. Ebenso tritt eine true negative (TN) Vorhersage auf, wenn ein negatives Beispiel richtig klassifiziert wird. Schließlich ist die Vorhersage false positive (FP), wenn ein negatives Beispiel als zur positiven Klasse gehörend klassifiziert wird. Diese Fälle sind in Tabelle 5 zusammengefasst.

Mögliche Fälle des Ergebnisses der Klassifizierungsaufgabe (=Vorhersage)
true predicted     positive     negative
positive     true positive (TP)     false negative (FN)
negative     false positive (FP)     true negative (TN) 


Für den Fall der binären Klassifizierung kann die Accuracy alternativ wie folgt definiert werden:

Die Begriffe TP, FN, TN und FP werden auch verwendet, um die Anzahl der entsprechenden Fälle zu bezeichnen, z. B. bezeichnet TP auch die Anzahl der echten positiven Ergebnisse.

Precision ist das Verhältnis der richtig klassifizierten positiven Beispiele zur Gesamtzahl der als positiv klassifizierten Beispiele:

Im Gegensatz dazu bezeichnet der Recall das Verhältnis der richtig klassifizierten Positivbeispiele zur Gesamtzahl der Positivbeispiele:

In einer Multi-Class-Setting werden die Metriken Precision und Recall zunächst für jede Klasse einzeln berechnet und dann gemittelt. Auf diese Weise quantifizieren sie die Gesamtklassifizierungsleistung (overall classification performance).

Die Verwendung der verschiedenen Metriken ist in der Tabelle 6 zusammengefasst

Die Verwendung der verschiedenen Metriken.
Bewertungsmetrik   Wann verwenden?  
Accuracy   Bei Klassifizierungsproblemen
  mit ausgeglichenen Klassen  
Precision   Wenn es wichtig ist, sich der positiven Vorhersage
  sicher zu sein, um negative Konsequenzen zu vermeiden,
  wie z.B. im Falle einer Verringerung des Kreditlimits,
  um Unzufriedenheit beim Kunden zu vermeiden.
Recall   Wenn es wichtig ist, positive Ereignisse mit
  geringer Wahrscheinlichkeit zu erfassen, wie z.B. um
  vorherzusagen ob eine Person krank ist oder nicht.


Evaluation metrics for regression

Die am häufigsten verwendeten Metriken, die zur Bewertung von Regressionsmodellen verwendet werden, sind hier aufgeführt.

  • Mean Squared Error - MSE (Mittlerer quadrierter Fehler),
  • Mean Absolute Error - MAE (Mittlerer absoluter Fehler),

Der Mean Squared Error (MSE) ist eine der grundlegenden Statistiken zur Bewertung der Qualität eines Regressionsmodells. Es handelt sich um den Durchschnitt der Quadrate der Differenz zwischen den tatsächlichen und den vorhergesagten Werten. Mit anderen Worten:

Je kleiner der MSE, desto besser passt das Regressionsmodell zu den tatsächlichen Werten.

Der Mean Absolute Error (MAE) ist die durchschnittliche absolute Differenz zwischen den tatsächlichen und den vorhergesagten Werten.

Eine schöne Eigenschaft des MAE ist, dass er weniger wahrscheinlich von Extremwerten beeinflusst wird. Er ist ein gängiges Maß, das in der Zeitreihenanalyse (time series analysis) als Prognosefehler (forecast error) verwendet wird.

Verbesserungen und Anpassungen von KI-Modellen

Die Konstruktion eines KI-Modells ist keine triviale Aufgabe. Die häufigsten Probleme sind die folgenden.

  1. Keine oder langsame Konvergenz während des Training.
  2. Unzureichende Leistung, z. B.
    • zu niedrige Accuracy oder
    • gestreute (nicht diagonal zentriert) Konfusionsmatrix.

Diese Probleme erfordern Verbesserungen bzw. Anpassungen am KI-Modell. Nachfolgend werden die häufigsten Ursachen für keine oder langsame Konvergenz während des Trainings sowie einige mögliche Lösungsansätze für sie aufgelistet.

  • Nicht optimale Stopping Kriterium oder leistungsswäche Hardware. In dem Fall können die folgenden Anpassungen helfen.
    • Einsetzen von Kriterium des „Early Stopping“.
    • Einsetsen von leistungsstärkere Hardware (einschließlich Prozessor,

RAM und Grafikkarte).

  • Unzureichende Optimierungsverfahren. Bei Verwendung einer unzureichenden Optimierungsmethode muss die potenziell beste Optimierungsmethode auf Grundlage früherer Erfahrungen mit Aufgaben in ähnlichen Fachgebieten ausgewählt werden. Diese Auswahl erfodert Erfahrung mit KI-Modelle und tiefes Verständnis der Aufgabe.
  • Unzureichende Initialisierung der Parameter. Dies kann durch Ändern oder Anpassen der (heuristischen) Initialisierungsstrategie verbessert werden.
  • Kein richtige Hyperparameter-Einstellungen (einschliesslich der Parameter von der verwendeten Optimierungsalgorithmus). Dieses Problem kann durch Ausprobieren mehrerer Hyperparameter-Einstellungen (einschliesslich Minibatch- Größe) oder Anwenden von Regularizationstechniken gelöst werden.
  • „Vanishing Gradient Problem“ (in DL mit Anzahl von Hidden Layers in der Größenordnung von 100s). Dies ist ein bekanntes und gut eingegrenztes Problem, welches durch die Verwendung eines etablierten Ansatzes, der zum KI-Modell passt, vermieden werden. (Etablierte Ansätze befinden sich unter Vanishing_gradient_problem)

Eine unvollständige Liste möglicher Ursachen für unzureichende Leistung auf Testdaten und einige mögliche Lösungsansätze für sie sind nachstehend aufgeführt.

  • Underfitting. Um Underfitting zu vermeiden, müssen die Größe der Trainingsdaten erhöht werden.
  • Overfitting. Es gibt mehrere Techniken um Overfitting zu reduzieren. Einige sind wie folgt aufgelistet.
    • Verwenden größerer Trainingsdaten.
    • Verwenden von Methoden wie Bootstrap-Aggregation oder Random Forest um die Varianz neben gleichem Bias zum reduzieren.
    • Verwenden von Dropout Layer - in CNN Modellen.
  • Class Imbalance: die Trainingsdaten sind ungleichmäßig auf die Klassen verteilt. Diese wirkt sich negativ auf die Leistung der CNN-Klassifizierung aus [Son et al.(2022)]. Das Problem von Class Imbalance kann gelöst werden, indem die Größe der Trainingsdaten für jede Klasse ausgeglichen wird. Dies kann auf verschiedene Weise erreicht werden, wie z.B.
    • Verwenden zusätzlicher Trainingsbeispiele,
    • Zusammenführen von Trainingsdaten aus mehreren Klassen oder
  • Nicht optimale Hyperparameter-Einstellungen. Siehe oben beim Ursachen von keiner oder langsamer Konvergenz während des Trainings.
  • Nicht optimale Initialisierung der Parameter. Siehe oben beim Ursachen von keiner oder langsamer Konvergenz während des Trainings.
  • Inadäquate KI-Modell. Das Design des geegneten KI-Modells erfolgt normalerweisse iterative. Jeder Schritt zur Verbesserung des KI-Modells führt zu einem besseren Verständnis der Aufgabe. Der Design von komplexerer KI-Modell/DL-Architektur efordert ein hohes Maß an Erfahrung mit KI-Modellen/DL-Architekturen.

Stärken und Schwächen von KI-Modellen

KI-Modelle haben wie alle technischen Lösungen Stärken und Schwächen.

Einige der Stärken von KI-Modellen können wie folgt aufgelistet werden.

  1. Eine ihre größte Stärke ist ihre Generalisierungsfähigkeit. ML-Algorithmen können ihren Aufgaben auch mit unbekannten Eingabebeispielen gut ausführen.
  2. KI-Modelle sind in der Lage, ihre Leistung für eine bestimmte Aufgabe durch zusätzliche Trainingsdaten zu verbessern.
  3. Sie können viele Aufgaben realisieren, die auf eine oder Kombination von mehreren der folgenden Intelligenz fordernden Aufgaben zurückgeführt werden können: Regression, Klassifizierung, Representation Learning und optimale Kontrolle.
  4. Sie haben eine sehr breite Anwendbarkeit: mit KI-Modellen können neue Anwendungen praktisch in allen möglichen Anwendungsbereichen implementiert werden.
  5. In den meisten Anwendungsfällen sind sie schneller als Menschen.
  6. Bei einigen Aufgaben sind sie leistungsfähiger (z. B. bei der Genauigkeit von Klassifizierungsaufgaben) als die menschliche Intelligenz.

Nachfolgend befindet sich eine unvollständige Liste der Schwächen von KI-Modellen.

  1. Enige KI-Modelle (z.B. NNs) sind als Black Box zu sehen, d.h. ihre Arbeitsweise ist nicht gut genug verstanden.
  2. Alle KI-Modelle machen eventuell Fehler z.B. bei Klassifikationsaufgaben.
  3. Indem sie potenziell fehlerhafte Ergebnisse produzieren, werfen sie ethische Fragen auf.
  4. Da sie potenziell fehlerhafte Ergebnisse produzieren, können sie nicht zur Entscheidungsfindung verwendet werden, sondern nur für Assistenzanwendungen.
  5. KI-Modelle sind nicht universell, der Anwendungsbereich jedes KI-Algorithmus ist spezifisch, d. h. jeder KI-Algorithmus hat einen begrenzten Anwendungsbereich.
  6. Heutige KI-Modelle können viele Fähigkeiten der menschlichen Intelligenz nicht ausführen (wie Abstraktion, Konzepterstellung, analytisches Denken usw.).