Version vom 14. September 2024, 22:07 Uhr

Einführung in Computational Intelligence und AI

Die Idee hinter der künstlichen Intelligenz, KI (Artificial Intelligence - AI), bestand darin, die Prozesse der menschlichen Wahrnehmung wie Denken, Lernen oder Mustererkennung (pattern recognition) nachzubilden. Das Erscheinen der KI in der akademischen Welt begann mit der Simulation des Verhaltens neuronaler Netze bei IBM im Jahr 1955. Dies führte zu einer Konferenz zu diesem Thema, die heute als Dartmouth-Konferenz bekannt ist und als Geburtsstunde der künstlichen Intelligenz gilt.

Die Geschichte der KI als akademische Disziplin hat einen langen, weitreichenden und abenteuerlichen Weg zurückgelegt, der optimistische und zweifelhafte, verrufene Phasen durchquerte und durch viele wissenschaftliche Bereiche führte. Es begann mit dem Studium der ,,formalen“Argumentation, das unter anderem zu Alan Turings Berechnungstheorie oder zur Programmiersprache Lisp sowie zum kommerziellen Erfolg von Expertensystemen (Abbildung 1) in den frühen 1980er Jahren führte. Es folgte eine eher zweifelhafte Zeitraum, während andere Ansätze wuchsen, wie z.B. Bewegen von technischen Maschinen.

Abbildung 1: Expertensystem (Quelle: Expertensystem).

Mit der rasanten Entwicklung der Rechengeschwindigkeit und -fähigkeiten der Computer entstanden spätestens in den 1990er Jahren rechenintensive Zweige der KI. Computational Intelligence (CI) umfasst die biologisch motivierten Bereiche der Informationsverarbeitung, wie z.B. evolutionäre Algorithmen.

Maschinelles Lernen (Machine Learning - ML) ist ein umfassender Zweig der KI, der viele rechenintensive Teilbereiche umfasst. Eine davon ist die auf statistischen Ansätzen basierende Mustererkennung, die Ende der 1990er Jahre zu einem großen kommerziellen Erfolg bei Befehls- und Kontrollsystemen (Command&Control Systems), Spracherkennungssystemen mit großem Vokabular (Large Vocabulary Speech Recognition Systems - LVSRS) und ihren Anwendungen in Callcentern und in der Radiologie führte. Diese technologische Ansätze haben sich in den 2000er Jahren abgeflacht, als sie die Rahmen des angewandten statistischen Ansatzes ausgeschöpft haben..

Abbildung 2: Large Vocabulary Speech Recognition System - Architektur (Quelle: LVSRS).

Mittlerweile führte die Entwicklung von Ideen zur Wissensdarstellung zu fortgeschritteneren Ansätzen wie Ontologie oder Wissensgraphen, WG (Knowledge Graph - KG).

Die wichtigste Entwicklung war jedoch die Wiederbelebung der neuronalen Netzwerkforschung, die zu vielen erfolgreichen Anwendungen führte, wie z.B. Erkennung handgeschriebener Ziffern (handwritten digit recognition). Der eigentliche Durchbruch bei der Verwendung neuronaler Netze (Neural Networks - NNs) kam mit Deep Learning, das erfolgreich auf die Klassifizierung großer Datenmengen angewendet werden kann, wie z.B. Bilder. Der Erfolg von Deep Learning führte zu einem enormen Anstieg des Interesses an und der Finanzierung von KI. Deep Reinforcement Learning ermöglicht die erfolgreiche Umsetzung automatischer Steuerungsaufgaben. Die Abbildung 3 zeigt mehrere funktionale Teilmengen der KI und ihre Beziehung zueinander.

Abbildung 3: Funktionale Teilmengen der KI und ihre Beziehung zueinander (Quelle: Teilmengen der KI).

Die jüngste Entwicklung im Bereich der KI ist die Anwendung spezifischer großer Sprachmodelle (Large Language Model) und fortschrittlicher Techniken wie beispielweise generatives Transformer (generative transformer), die zu Produkten führen, wie z. B. ChatGPT 3.5.

Im Wesentlichen soll KI die unterschiedlichen Fähigkeiten der menschlichen Intelligenz umsetzen. Dazu gehören Lernen, Wahrnehmung, logisches Denken, Abstraktion sowie komplexere Fähigkeiten wie z.B. Zusammenfassung, Kontrolle, Aufgabenlösungsfähigkeiten und vieles mehr. Eines der langfristigen Ziele ist die Schaffung einer allgemeinen Intelligenz, der sogenannten Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence - AGI), die eine Vielzahl von Problemen ähnlich der menschlichen Intelligenz lösen könnte.

Raymond Kurzweil, Pionier unter anderen der optischen Texterkennung, (auch optische Zeichenerkennung genannt, Optical Character Recognition - OCR),
Sprachsynthese (speech synthesis), Spracherkennung, ein Visionär der künstlichen Intelligenz hat vorhergesagt, dass (einfach formuliert) spätestens im Jahr 2029 die KI Systeme klüger sein werden als das Mensch. Kritiker sagen, dass in der Richtung der Entwicklung zukünftiger Technologien er wahrscheinlich Recht hat, aber die prognostizierte Zeitspanne stimmt nicht, er ist zu optimistisch.

KI ist eine unvermeidliche zukünftige Entwicklungsrichtung und eine der Kernfachgebiete der Wissenschaftsfeld Data Science.

Grundlagen von Computational Intelligence und AI

Es gibt keine Einheitliche Definition von KI. Eine mögliche ausdrucksvolle Definition kann wie folgt angegeben werden: KI ist das Teilgebiet der Informatik, das sich mit Entwicklung und Untersuchung von intelligenten Maschinen beschäftigt. Allerdings unter KI ist auch die ,,intelligente Maschine“ selbst zu verstehen.

Mathematische Grundkonzepte von KI

Die Ziele von KI sind Teilmenge möglicher Arten menschlicher intelligenter Aktivitäten zu implementieren. Dazu gehört Argumentation (reasoning), Planung (planning), Wissensrepräsentation (knowledge representation), Lernen (learning), Wahrnehmung (perception), Unterstützung für Robotik (support for robotics) und Verarbeitung natürlicher Sprache (natural language processing).

Im Folgenden geben wir eine kurze mathematische Beschreibung einiger ausgewählten grundlegender Konzepte der KI. Das beinhaltet

Wissensrepräsentation,
Linear regression,
Klassifikation - lineare Diskriminanzfunktionen,
Lernen aus Beispiele und
Learning durch Steuereung - MDP.

${\textstyle \mathrm {\ \ \ \ } }$ Wissensrepräsentation

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Sprachmodellierung

Die Darstellung von Wissen auf Wortebene kann durch ein probabilistisches Modell natürlicher Sprache realisiert werden, das als Sprachmodell (Language Model - LM) bezeichnet wird. Normalerweise wird ein LM verwendet, um die Wahrscheinlichkeit einer bestimmten Wortfolge ${\textstyle w_{1},w_{2},...,w_{n}}$ abzuschätzen. Die Wahrscheinlichkeit ${\textstyle p(w_{1},w_{2},...,w_{n})}$ kann als Produkt der bedingten Wahrscheinlichkeiten als

p(w_{1},w_{2},...,w_{n})=p(w_{1})p(w_{2}|w_{1})...p(w_{n}|w_{n-1},...,w_{2},w_{1})

angegeben werden. Im N-Gram-Sprachmodell (N-gram LM) wird angenommen, dass das Wort ${\textstyle w_{n}}$ einer Wortfolge, in der bedingten Wahrscheinlichkeit ${\textstyle p(w_{n}|w_{n-1},...,w_{2},w_{1})}$ näherungsweise nur von ${\textstyle (N-1)}$ Vorgengewörtern abhangig ist. Für ${\textstyle N=1}$ , ${\textstyle N=2}$ und ${\textstyle N=3}$ wird das N-Gram Sprachmodell als Unigram-Sprachmodell, Bigram-Sprachmodell bzw. Trigram-Sprachmodell genannt. Im
Bigram-Sprachmodell is est angenommen, dass das Wort ${\textstyle w_{n}}$ nur vom Vorgängewort ${\textstyle w_{i-1}}$ abhängt:

p(w_{n}|w_{n-1},...,w_{2},w_{1})\approx p(w_{n}|w_{n-1}).

In ähnlicher Weise wird in Trigram-Sprachmodell angenommen dass das Wort

{\textstyle w_{n}}

einer Wortfolge nur von zwei Vorgängewörtern abhängig wird:

p(w_{n}|w_{n-1},...,w_{2},w_{1})\approx p(w_{n}|w_{n-1},w_{n-2}).

Die bedingten Wahrscheinlichkeiten ${\textstyle p(w_{i}|w_{i-1},w_{i-2},...,w_{i-N+1})}$ eines N-Gram Sprachmodells können aus den relativen Häufigkeiten als

{\begin{aligned}p(w_{i}|w_{i-1},w_{i-2},...,w_{i-N+1})&={\frac {p(w_{i},w_{i-1},...,w_{i-N+1})}{p(w_{i-1},w_{i-2},...,w_{i-N+1})}}\\&\approx {\frac {c(w_{i},w_{i-1},...,w_{i-N+1})}{c(w_{i-1},w_{i-2},...,w_{i-N+1})}}\end{aligned}}

geschätzt werden, wobei ${\textstyle c(x_{1},\ldots ,x_{k})}$ für die Anzahl der Vorkommen der Zeichenfolge ${\textstyle x_{1},\ldots ,x_{k}}$ steht, die auch als count von ${\textstyle x}$ bezeichnet wird. Entsprechend wird ${\textstyle w_{i},w_{i-1},...,w_{i-N+1}}$ und die count ${\textstyle c(w_{i},w_{i-1},...,w_{i-N+1})}$ als N-Gram bzw. N-Gram-count bezeichnet. Die bedingten Wahrscheinlichkeiten
${\textstyle p(w_{i}|w_{i-1},w_{i-2},...,w_{i-N+1})}$ eines N-Gram Sprachmodells werden als N-Gram Wahrscheinlichkeiten bezeichnet.

Das N-Gram Sprachmodell ist ein rein statistisches Sprachmodell (statistical LM - SLM), da es auf N-Gram-Statistiken der Trainingskorpora (wie N-Gram-count) trainiert wird. Zuverlässige Schätzungen der bedingten Wahrscheinlichkeiten des N-Gram Sprachmodells ${\textstyle p(w_{i}|w_{i-1},w_{i-2},...,w_{i-N+1})}$ erfordern das Auftreten der entsprechenden N-Grams und (N-1)-Grams in den Trainingskorpora. Das Vorhandensein aller N-Grams und (N-1)-Grams in den Trainingskorpora ist jedoch praktisch nicht möglich, da hierfür ein sehr großer Trainingskorpus erforderlich wäre, um alle ${\textstyle |V|^{N}}$ mögliche N-Grams in den Trainingskorpora vorkommen haben. So große Trainingskorpora sind normalerweise nicht verfügbar. Die unsichtbaren N-Grams führen zu fehlenden Schätzungen, da der SLM den N-Grams, die nicht im Trainingskorpus erscheinen, keine Wahrscheinlichkeit zuordnen kann. Dieses Problem wird normalerweise durch die Anwendung von Glättung (smoothing) gelöst, bei denen ein kleiner Teil des Wahrscheinlichkeitsmaßes auf die unsichtbaren Grams aufgeteilt wird.

Die effektivste Glättungsmethode ist die Kneser-Ney-Glättung, bei der ein fester Rabattwert, ${\textstyle \delta }$ , von der Schätzung der bedingten Bigram-Wahrscheinlichkeiten mit niedrigeren Häufigkeiten abgezogen wird und werden die so gewonnenen Wahrscheinlichkeiten über alle nicht erscheinenden N-Gram Wahrscheinlichkeiten verteilt werden. Die Berechnungsformel der Bigram-Wahrscheinlichkeiten lautet:

{\begin{aligned}&p_{KN}(w_{i}|w_{i-1})={\frac {max(c(w_{i-1},w_{i})-\delta ,0)}{\sum _{w_{j}}c(w_{i-1},w_{j})}}+\lambda _{w_{i-1}}p_{KN}(w_{i})\mathrm {~and~} \\&p_{KN}(w_{i})={\frac {|{w_{j}:0<c(w_{j},w_{i})}|}{|{(w_{j},w_{k}):0<c(w_{j},w_{k})}|}}.\end{aligned}}

Hier ist ${\textstyle \lambda _{w_{i-1}}}$ eine Normalisierungskonstante, die so eingestellt ist, dass die Summe von ${\textstyle p_{KN}(w_{i}|w_{i_{1}})}$ über alle ${\textstyle w_{i}}$ gleich eins ist. Die unsichtbaren Bigram-Wahrscheinlichkeiten werden durch den ungewöhnlichen Term ${\textstyle p_{KN}(w_{i})}$ bestimmt, der eine Schätzung für eine unsichtbare Bigram-Wahrscheinlichkeit aus anderen Bigram-counts verbunden mit ${\textstyle w_{i}}$ realisiert. Genauer gesagt es ist die Bigram-count anderer Wörter ${\textstyle w_{j}}$ gesehen mit dem betrachteten Wort ${\textstyle w_{i}}$ dividiert durch die Summe der gesehenen Bigram-counts dieser ${\textstyle w_{j}}$ -s mit anderen Wörtern.

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Fortgeschrittene Sprachmodelle

Die Auswirkung der jüngsten Entwicklung von NN auf andere KI-Konzepte führte zu modernen KI-Modellkombinationen. Die beiden wichtigsten sind vielleicht die neuronale Sprachmodellierung und das große Sprachmodelle.

Neuronale Sprachmodelle (Neural LM - NLM) sind Sprachmodelle, die auf rekurrentes NN basieren. Sie werden auch als kontinuierlicher Raum-Sprachmodelle (continuous space LMs) bezeichnet. Sie transformieren die Sprachmodell Darstellung von Wörtern durch Einbettung in einen kontinuierlichen niedrigdimensionalen Vektorraum, den sogenannten Embedding Space. Dies hat den Vorteil, dass die semantisch ähnlichen Einheiten im Einbettungsraum näher beieinander liegen. Solche Einheiten können Korpusteile, Sätze, Wortteile oder Zeichen sein. Durch dieser Beziehungen können Sollche Sprachmodelle die unsichtbaren Grams gut abschätzen und daher mit dem Problem von unsichtbaren Grams von SLMs gut umgehen. Darüber hinaus stellen NLMs die Wörter als nichtlineare Kombinationen von Gewichten in einem neuronalen Netz dar [Bengio(2008)]. Die NLMs können entweder als nicht-kontextuelle Einbettungen (Non-contextual Embeddings) oder als kontextuelle Einbettungen (Contextual Embeddings) kategorisiert werden. Nicht-kontextuelle Einbettungen wenden dieselben Einbettungen für eine bestimmte semantische Einheit an, unabhängig vom gegebenen Kontext. Beispiele für nicht-kontextuelle Einbettungen sind Word2Vec [Mikolov et al.(2013)] oder Wikipedia2Vec [Yamada et al.(2018)]. Im Gegensatz dazu können kontextuelle Einbettungen unterschiedliche Semantiken der semantischen Einheiten in unterschiedlichen Kontexten darstellen. Beispiele für kontextuelle Einbettungen sind die von Google [Devlin et al.(2019)] eingeführten BERT (Bidirectional Encoder Representations from Transformers) oder Sentence-BERT (SBERT), eine verfeinerte Version von BERT. Das Transformer (transformer model) ist eine spezifische NN-Architektur, die von Vaswani et al. eingeführt wurde [Vaswani et al.(2017)].

Große Sprachmodelle (Large Language Models - LLM) sind Transformers-basierte LMs, die durch selbstüberwachtes Lernen vorab trainiert werden. LLMs lernen Milliarden von Parametern während des Trainings und benötigen große Rechenressourcen sowohl für das Training als auch während des Betriebs. Sie scheinen ein allgemeines Sprachverständnis erreichen zu können und können Antworten in Form von menschenähnlichem Text generieren. Diese LLMs werden in generativen KI-Systemen eingesetzt. Aktuelle Versionen können bestimmte Aufgaben mittels Promt Engineering erledigen. Promt Engineering ermöglicht eine Gestaltung von Eingaben für das System mittels Eingabeaufforderungen (promts), die vom LLM interpretiert werden können, und dadurch wird das Aufmerksamkeitsmechanismus des Modells auf das nähere Einschränken der Aufgabe gesteuert. Die bekanntesten Beispiele sind das GPT-3.5- und GPT-4-Modell von Open AI (verwendet in ChatGPT) und Googles PaLM (verwendet in Bard).

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Auf semantischen Relationen basierende Wissensrepräsentationen

Neben LMs gibt es noch andere Möglichkeiten der Wissensrepräsentation

Semantisches Netzwerk (Semantic network) – ein Diagramm, das semantische Relationen zwischen Konzepten darstellt. Die Konzepte werden durch die Knoten repräsentiert und die Kanten spezifizieren die semantischen Relationen Ein Grund für den Entwurf semantischer Netzwerke besteht darin, Wissen in maschinenlesbarer Form darzustellen. Wissensgraphen sind semantische Netzwerke mit begrenzten semantischen Relationen.
Ontology (ontology) – hierarchische Darstellung von Konzepten und ihren Relationen, die durch eine Standard-Ontologiesprache (standard ontology language) wie Web Ontology Language (OWL, Web Ontology Language) oder Resource Description Framework (RDF, Resource Description Framework) verwaltet werden kann.

${\textstyle \mathrm {\ \ \ \ } }$ Lineare Regression mit MSE-Framework

Die Aufgabe der linearen Regression (linear regression) besteht darin, eine lineare Vorhersage für die zufällige skalare Ausgabe ${\textstyle y\in \mathbb {R} }$ aus dem zufälligen Eingabevektor ${\textstyle {\bf {x}}}$ zu geben. Sei ${\textstyle {\hat {y}}}$ der vorhergesagte Wert von ${\textstyle y}$ . Es wird angenommen, dass ${\textstyle y}$ linear vom Vektor ${\textstyle {\bf {x}}}$ abhängt, daher kann der vorhergesagte Wert ${\textstyle {\hat {y}}}$ als Linearkombination von ${\textstyle {\bf {x}}}$ als ${\textstyle {\hat {y}}=w_{1}*x_{1}+\ldots +w_{n}*x_{n}}$ angegeben werden. Mit anderen Worten, in Vektorform gilt

{\hat {y}}={\bf {w}}^{T}{\bf {x}},

wobei ${\textstyle {\bf {w}}=(w_{1},\ldots ,w_{n})^{T}}$ ein Spaltenvektor von Parametern ist. Hier steht ${\textstyle ^{T}}$ für die Transponieren und die Vektoren sind standardmäßig Spaltenvektoren.

Die Parameter ${\textstyle w_{i}}$ können als Gewichte angesehen werden. Wenn der Eingabewert ${\textstyle x_{i}}$ ein positives Gewicht hat, erhöht eine Erhöhung von ${\textstyle x_{i}}$ auch den vorhergesagten Wert ${\textstyle {\hat {y}}}$ . Wenn ${\textstyle x_{i}}$ ein negatives Gewicht hat, verringert eine Erhöhung von ${\textstyle x_{i}}$ den vorhergesagten Wert ${\textstyle {\hat {y}}}$ . Wenn ${\textstyle w_{i}}$ ein großer Wert ist, dann hat ${\textstyle x_{i}}$ einen großen Einfluss auf ${\textstyle {\hat {y}}}$ . Wenn ${\textstyle w_{i}=0}$ , dann hat ${\textstyle x_{i}}$ keinen Einfluss auf ${\textstyle {\hat {y}}}$ .

Nehmen wir an, dass ${\textstyle K}$ Beispiele des Vektors ${\textstyle {\bf {x}}}$ und der korrekte Wert der Ausgabe ${\textstyle y}$ für jeden von ihnen angegeben sind. Wir ordnen die Eingabevektoren in einer Matrix ${\textstyle {\bf {X}}}$ so an, dass der Vektor ${\textstyle {\bf {x}}_{k}^{T}}$ in der ${\textstyle k}$ -ten Zeile der Matrix ${\textstyle {\bf {X}}}$ platziert wird, ${\textstyle k=1,\ldots ,K}$ . Die Ausgabewerte und die vorhergesagten Werte werden ebenfalls in einem Spaltenvektor ${\textstyle {\bf {y}}}$ und ${\textstyle {\bf {\hat {y}}}}$ angeordnet, sodass der korrekte Wert ${\textstyle y_{k}}$ und der vorhergesagte Wert ${\textstyle {\hat {y}}_{k}}$ , das zum Eingabevektor ${\textstyle {\bf {x}}_{k}}$ gehört, kommt an die ${\textstyle k}$ -te Position jeweils im Vektor ${\textstyle {\bf {y}}}$ und ${\textstyle {\bf {\hat {y}}}}$ .

Die Aufgabe, die Gewichte zu finden kann als Optimierungsaufgabe aufgestellt werden. Diese Optimierungsaufgabe wird durch das Extremum eines Leistungsmaßes, das die Qualität der Vorhersage quantifiziert, angegeben werden.

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Lineare Regression mit mittlerer quadratischen Abweichung

Eine mögliche Wahl um die Qualität der Vorhersage zu quantifizieren, ist die mittlere quadratische Abweichung, MQA (mean squared error - MSE), die auch als mittlere quadratische Fehler (MQF) genannt ist. Die MSE wird durch

MSE={\frac {1}{K}}\sum _{k}({\hat {y}}_{k}-y_{k})^{2}={\frac {1}{K}}\lVert {\bf {\hat {y}}}-{\bf {y}}\rVert _{2}^{2}

gegeben, wobei ${\textstyle \lVert {\bf {z}}\rVert _{2}}$ für die ${\textstyle \mathbb {L} _{2}}$ -Norm von ${\textstyle z}$ steht.

Der optimale Wert des Parametervektors ${\textstyle {\bf {w}}}$ wird durch Minimieren des MSE erhalten. Die notwendige Bedingung für ein lokales Minimum von MSE ist die Existenz eines Wertes des Parametervektors ${\textstyle {\bf {w}}}$ , für den der Gradient von MSE 0 ist. Es kann gezeigt werden, dass in unserem Fall MSE als Funktion von ${\textstyle {\bf {w}}}$ eine konvexe Funktion ist, und daher gibt es nur einen solchen Wert von ${\textstyle {\bf {w}}}$ und daher ist es auch der globale Minimalpunkt. So wird der beste Wert des Parametervektors ${\textstyle {\bf {w}}}$ durch Lösen der Gleichung

\nabla _{\bf {w}}MSE=\nabla _{\bf {w}}\left({\frac {1}{K}}\lVert {\bf {\hat {y}}}-{\bf {y}}\rVert _{2}^{2}\right)=0

erhalten, wobei ${\textstyle \nabla _{\bf {w}}}$ für den Gradienten bezüglich ${\textstyle {\bf {w}}}$ steht. Die vorhergesagten Ausgaben können in Vektormatrixform als ${\textstyle {\bf {\hat {y}}}={\bf {X}}{\bf {w}}}$ angegeben werden. Wenn man es in der obigen Beziehung anwendet, erhält man die Gleichung für ${\textstyle {\bf {w}}}$ als

\nabla _{\bf {w}}MSE=\nabla _{\bf {w}}\left({\frac {1}{K}}\lVert {\bf {X}}{\bf {w}}-{\bf {y}}\rVert _{2}^{2}\right)=0.

Wenn wir die Konstante ${\textstyle {\frac {1}{K}}}$ weglassen, den Gradienten auswerten und mehrere Umordnungen durchführen, erhalten wir

{\begin{aligned}\nabla _{\bf {w}}\left(\lVert {\bf {X}}{\bf {w}}-{\bf {y}}\rVert _{2}^{2}\right)&=\nabla _{\bf {w}}\left({\bf {X}}{\bf {w}}-{\bf {y}}\right)^{T}\left({\bf {X}}{\bf {w}}-{\bf {y}}\right)\\&=\nabla _{\bf {w}}\left({\bf {w}}^{T}{\bf {X}}^{T}{\bf {X}}{\bf {w}}-2{\bf {w}}^{T}{\bf {X}}^{T}{\bf {y}}+{\bf {y}}^{T}{\bf {y}}\right)=2{\bf {X}}^{T}{\bf {X}}{\bf {w}}-2{\bf {X}}^{T}{\bf {y}}=0,\end{aligned}}

wobei wir in der zweiten Gleichung verwendet haben, dass ${\textstyle {\bf {y}}^{T}{\bf {X}}{\bf {w}}={\bf {w}}^{T}{\bf {X}}^{T}{\bf {y}}}$ , da ${\textstyle {\bf {y}}^{T}{\bf {X}}{\bf {w}}}$ ein Skalar ist und entspricht daher seiner Transponierten. Zusätzlich haben wir in der letzten Gleichung verwendet, dass ${\textstyle \nabla _{\bf {w}}\left({\bf {w}}^{T}{\bf {X}}^{T}{\bf {X}}{\bf {w}}\right)}$ kann als ${\textstyle 2{\bf {X}}^{T}{\bf {X}}{\bf {w}}}$ ausgewertet werden, da die Matrix ${\textstyle {\bf {X}}^{T}{\bf {X}}}$ symmetrisch ist.

Schließlich kann die Lösung für den Parametervektor ${\textstyle {\bf {w}}}$ aus der obigen Gleichung als

{\bf {w}}=\left({\bf {X}}^{T}{\bf {X}}\right)^{-1}{\bf {X}}^{T}{\bf {y}}

ausgedrückt werden. Die Matrix ${\textstyle {\bf {X}}^{T}{\bf {X}}}$ ist quadratisch und daher im Prinzip invertierbar. Dennoch existiert die Inverse nur, wenn die Matrix ${\textstyle {\bf {X}}^{T}{\bf {X}}}$ nicht singulär ist, was normalerweise gilt, da die Matrix ${\textstyle {\bf {X}}}$ aus unabhängigen Eingabebeispielen erstellt wird.

Die obigen Gleichungen in Skalarform führen zu einem System linearer Gleichungen, die als Normalgleichungen bezeichnet werden.

Die lineare Regression wird auch für ein leicht erweitertes Vorhersagemodell verwendet, das durch

{\hat {y}}={\bf {w}}^{T}{\bf {x}}+b

angegeben wird. Hier wird der Skalar ${\textstyle b}$ Bias genannt und führt dazu, dass die durch die multivariate Funktion ${\textstyle {\hat {y}}({\bf {w}})}$ beschriebene Hyperebene nicht durch den Ursprung verläuft. Dieser erweiterte Fall kann auf den Basisfall zurückgeführt werden, indem die erweiterten Vektoren ${\textstyle {{\bf {x}}^{*}}^{T}=({\bf {x}},1)^{T}}$ und ${\textstyle {{\bf {w}}^{*}}^{T}=({\bf {w}},b)^{T}}$ eingeführt werden, was eine äquivalente Beschreibung ergibt.

{\hat {y}}={\bf {w}}^{*T}{\bf {x}}^{*}.

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Verbindung zwischen linearen Regression mit MSE und Maximum-Likelihood-Schätzung

Sei ${\textstyle {\bf {z}}=(z_{1},\ldots ,z_{M})}$ eine Folge von Stichproben aus der Grundgesamtheit, die unabhängige Stichproben ergeben. Jede Stichprobe wird durch derselbe Zufallsvariable ${\textstyle Z}$ mit einer Likelihood-Funktion (likelihood function) ${\textstyle p({\bf {z}}|{\boldsymbol {\theta }})}$ aus einer bekannten Verteilungsfamilie mit unbekanntem Parametervektor ${\textstyle {\boldsymbol {\theta }}}$ erzeugt. Die Likelihood-Funktion entspricht der Wahrscheinlichkeitsfunktion (probability mass function - pmf) und der Wahrscheinlichkeitsdichtefunktion (probability density function - pdf) mit dem Parametervektor als Variable, für diskrete bzw. stetige Verteilung. Die Maximum-Likelihood-Schätzung, kurz ML-Schätzung (Maximum Likelihood Estimation - ML estimation or MLE) des Parametervektors ${\textstyle {\bf {\theta }}}$ ist der Wert, der die Wahrscheinlichkeit der beobachteten Stichprobenfolge maximiert. Mit anderen Worten

{\boldsymbol {\theta }}_{ML}=\arg \max _{\boldsymbol {\theta }}p({\bf {z}}|{\boldsymbol {\theta }})=\arg \max _{\boldsymbol {\theta }}p(z_{1},\ldots ,z_{M}|{\boldsymbol {\theta }})=\arg \max _{\boldsymbol {\theta }}\prod _{m=1}^{M}p(z_{m}|{\boldsymbol {\theta }}),

wobei wir verwendet haben, dass die Ziehungen aus der Grundgesamtheit unabhängig von einander sind und die Stichproben werden von derselben Zufallsvariablen ${\textstyle Z}$ erzeugt.

Das Produkt mit mehreren Likelihood (likelihood) kann zu numerischen Problemen führen, z. B. numerischer Unterlauf. Daher ist es üblich, anstelle der Likelihood den Logarithmus der Likelihood zu verwenden. Diese Änderung führt zu keiner Änderung von argmax und max, da die Logarithmusfunktion monoton ist. Dies ergibt die übliche Form der ML-Schätzung des Parametervektors ${\textstyle {\bf {\theta }}}$ als

{\boldsymbol {\theta }}_{ML}=\arg \max _{\boldsymbol {\theta }}\log \left(\prod _{m=1}^{M}p(z_{m}|{\boldsymbol {\theta }})\right)=\arg \max _{\boldsymbol {\theta }}\sum _{m=1}^{M}\log ~p(z_{m}|{\boldsymbol {\theta }}).

Wenn man das MLE-Prinzip auf eine bedingte pmf or pdf ${\textstyle p(y|{\bf {x}})}$ anwendet, dann wird die bedingte Likelihood-Funktion aus einer bekannten Verteilungsfamilie mit unbekanntem Parametervektor zu ${\textstyle {\boldsymbol {\theta }}}$ zu ${\textstyle p(y|{\bf {x}},{\boldsymbol {\theta }})}$ . Somit ist die ML-Schätzung des Parametervektors ${\textstyle {\bf {\theta }}}$ wird für diesen Fall durch

{\boldsymbol {\theta }}_{ML}=\arg \max _{\boldsymbol {\theta }}\sum _{k=1}^{K}\log ~p(y_{k}|{\bf {x}}_{k},{\boldsymbol {\theta }})

gegeben.

Jetzt wählen wir die Normalverteilung als bekannte Verteilungsfamilie und legen den Mittelwert der Verteilung auf den vorhergesagten Ausgabewert ${\textstyle {\hat {y}}}$ und die Varianz der Verteilung auf einen festen Wert ${\textstyle \sigma ^{2}}$ fest. Dann wird die Likelihood-Funktion, die in diesem Fall ein bedingtes pdf ist, zu ${\textstyle p(y|{\bf {x}},{\boldsymbol {\theta }})=N(y|{\hat {y}}({\bf {x}},{\bf {w}}),\sigma ^{2})}$ , wobei ${\textstyle N(y|\mu ,\sigma ^{2})}$ für das pdf der Normalverteilung mit Mittelwert ${\textstyle \mu }$ und Varianz ${\textstyle \sigma ^{2}}$ steht. Durch Anwendung der Formel des pdf der Normalverteilung ${\textstyle N(y|\mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}exp\left(-{\frac {1}{2}}{\frac {(y-\mu )^{2}}{\sigma ^{2}}}\right)}$ erhalten wir für die ML-Schätzung der vorhergesagten Ausgabewerte ${\textstyle {\bf {\hat {y}}}}$ als

{\begin{aligned}{\bf {\hat {y}}}&=\arg \max _{\bf {\hat {y}}}\sum _{k=1}^{K}\log ~N(y_{k}|{\hat {y_{k}}}({\bf {x_{k}}},{\bf {w}}),\sigma ^{2})\\&=\arg \max _{\bf {\hat {y}}}\sum _{k=1}^{K}\log \left({\frac {1}{\sqrt {2\pi \sigma ^{2}}}}exp\left(-{\frac {1}{2}}{\frac {(y_{k}-{\hat {y_{k}}})^{2}}{\sigma ^{2}}}\right)\right)\\&=\arg \max _{\bf {\hat {y}}}\left(-K\log(\sigma )-{\frac {K}{2}}\log(2\pi )-\sum _{k=1}^{K}{\frac {(y_{k}-{\hat {y_{k}}})^{2}}{2\sigma ^{2}}}\right)\\&=\arg \max _{\bf {\hat {y}}}\left(-\sum _{k=1}^{K}(y_{k}-{\hat {y_{k}}})^{2}\right)=\arg \min _{\bf {\hat {y}}}\sum _{k=1}^{K}(y_{k}-{\hat {y_{k}}})^{2}=\arg \min _{\bf {\hat {y}}}\lVert {\bf {\hat {y}}}-{\bf {y}}\rVert _{2}^{2}.\end{aligned}}

Angenommen, dass die lineare Beziehung zwischen ${\textstyle {\hat {y}}}$ und ${\textstyle {\bf {x}}}$ als ${\textstyle {\hat {y}}={\bf {w}}^{T}{\bf {x}}}$ (oder äquivalent ${\textstyle {\bf {\hat {y}}}={\bf {X}}{\bf {w}}}$ ) steht, ergibt die oben aufgeführte Optimierung bezüglich ${\textstyle {\bf {w}}}$ die gleiche Schätzung für ${\textstyle {\bf {w}}}$ wie die Minimierung des MSE, was die Verwendung von MSE aufgrund der wünschenswerten statistischen Eigenschaften der ML-Schätzung rechtfertigt.

${\textstyle \mathrm {\ \ \ \ } }$ Klassifikation - lineare Diskriminanzfunktionen

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Allgemeine Diskriminanzfunktionen

Eine allgemeine Möglichkeit, einen Klassifikator (classifier) darzustellen, besteht darin, ihn durch eine Menge von Diskriminanzfunktionen (discriminant functions) ${\textstyle d_{i}({\bf {x}})}$ für ${\textstyle i=1,\ldots ,C}$ anzugeben. Der Klassifikator entscheidet, die Klasse ${\textstyle c_{i}}$ dem Feature Vektoren ${\textstyle {\bf {x}}}$ als Eingabe zuzuweisen, wenn

d_{i}({\bf {x}})>d_{j}({\bf {x}})\mathrm {fuer~alle~} j\neq i.

Also der Klassifikator entscheidet die Klasse mit dem höchsten Diskriminanzfunktionswert, was die Benennung Diskriminanzfunktion erklärt. Ein Beispiel für den Klassifikator ist der Klassifikator des minimalen Fehlerrates (minimum error-rate classifier). Sei ${\textstyle p(c_{j}|{\bf {x}})}$ , ${\textstyle j=1,\ldots ,C}$ die Wahrscheinlichkeit der Klasse ${\textstyle c_{j}}$ , gegeben der Feature Vector ${\textstyle {\bf {x}}}$ . Dann die Klasse ${\textstyle c_{i}}$ mit der höchsten ${\textstyle p(c_{i}|{\bf {x}})}$ ist gleichzeitig auch die Klasse mit dem minimalen Fehlerrate ${\textstyle (1-p(c_{i}|{\bf {x}}))}$ . Daher kann die Diskriminanzfunktion für den Klassifikator des minimalen Fehlerrates durch

d_{i}({\bf {x}})=p(c_{i}|{\bf {x}})

angegeben werden. Dies kann weiter vereinfacht werden, indem verwendet wird, dass der Nenner von

p(c_{i}|{\bf {x}})={\frac {p({\bf {x}}|c_{i})p(c_{i})}{\sum _{j=1}^{C}p({\bf {x}}|c_{j})p(c_{j})}}

unabhängib von

{\textstyle i}

ist, was zu einer alternativen Diskriminanzfunktion als

d_{i}({\bf {x}})=p({\bf {x}}|c_{i})p(c_{i})

führt. Auf Diskriminanzfunktionen kann jede monotone Funktion angewendet werden, da sie die zur Maximalfunktion gehörende Klasse nicht verändert. Daher kann mit Hilfe der monotonen Funktion

{\textstyle \log()}

as eine weitere Diskriminanzfunktion für den Klassifikator der minimalen Fehlerrate als

d_{i}({\bf {x}})=\log ~p({\bf {x}}|c_{i})+logp(c_{i}))

definiert werden.

In diesem Fall definieren alle oben genannten unterschiedlichen Diskriminanzfunktionen dieselbe Entscheidungsregel (decision rule). Die Diskriminanzfunktionen unterteilen den Feature Space (Merkmalsraum) in disjunkte Entscheidungsregionen (decision regions) ${\textstyle {{\mathcal {R}}_{1}},\ldots ,{{\mathcal {R}}_{C}}}$ . Ein Feature Vektor (Merkmalsvektor) ${\textstyle {\bf {x}}}$ fällt in der Entscheidungsregion ${\textstyle {{\mathcal {R}}_{i}}}$ , wenn ${\textstyle d_{i}({\bf {x}})>d_{j}({\bf {x}})}$ für jedes ${\textstyle j\neq i}$ gilt. Somit stellt die Entscheidungsregion ${\textstyle {{\mathcal {R}}_{i}}}$ die Menge der Feature Vektoren dar, für die der Klassifikator die Klasse ${\textstyle c_{i}}$ entscheidet. Die Entscheidungsregionen werden durch Entscheidungsgrenzen (decision boundaries) im ${\textstyle d}$ -dimensionalen Raum der Feature Vektoren getrennt.

Im Sonderfall eines Klassifikators mit zwei Klassen ist es üblich, statt ${\textstyle d_{1}({\bf {x}})}$ and ${\textstyle d_{2}({\bf {x}})}$ nur eine einzelne Diskriminanzfunktion

d({\bf {x}})=d_{1}({\bf {x}})-d_{2}({\bf {x}})

zu verwenden. Daher wird die Entscheidungsregel zu

\mathrm {~Entscheide~} c_{1}\mathrm {~wenn~} d({\bf {x}})>0,\mathrm {~sonst~} c_{2}.

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Lineare Diskriminanzfunktionen

Eine wichtige Klasse der Diskriminanzfunktionen sind die linearen Diskriminanzfunktionen (linear discriminant functions).

Lineare Diskriminanzfunktionen sind linear in den Komponenten des Feature Vektors ${\textstyle {\bf {x}}\in \mathbb {R} ^{d}}$ . Daher können sie als Linearkombination der Komponenten von ${\textstyle {\bf {x}}}$ angegeben werden. Für den Fall eines Klassifikators mit zwei Klassen gibt es nur eine Diskriminanzfunktion, ${\textstyle d({\bf {x}})={\bf {w}}^{T}{\bf {x}}+w_{0}}$ . Die Klasse ${\textstyle c_{1}}$ wird entschieden, wenn ${\textstyle {\bf {w}}^{T}{\bf {x}}}$ den Schwellwert ${\textstyle -w_{0}}$ überschreitet, andernfalls die Klasse ${\textstyle c_{2}}$ .

Das Funktionsprinzip des linearen Klassifikators mit zwei Klassen und einem d-dimensionalen Feature Vektor ist in Abbildung w1 dargestellt.

Figure w1.

Betrachten wir zwei Feature Vektoren ${\textstyle {\bf {x}}_{1}}$ und ${\textstyle {\bf {x}}_{2}}$ , beide auf der Entscheidungsgrenze. Dann gilt ${\textstyle d({\bf {x}}_{1})=d({\bf {x}}_{2})}$ , was bedeutet: ${\textstyle {\bf {w}}^{T}{\bf {x}}_{1}+w_{0}={\bf {w}}^{T}{\bf {x}}_{2}+w_{0}}$ , woraus

{\bf {w}}^{T}\left({\bf {x}}_{1}-{\bf {x}}_{2}\right)=0.

Daraus folgt, dass ${\textstyle {\bf {w}}}$ senkrecht zu jedem auf der Entscheidungsgrenze liegenden Vektor steht und daher die Entscheidungsgrenze eine Hyperebene mit ${\textstyle {\bf {w}}}$ als Normalenvektor ist. Somit wird die Entscheidungsgrenze der linearen Diskriminanzfunktionen zu einer zusammenhängenden Entscheidungsfläche (decision surface).

Die Diskriminanzfunktion ${\textstyle d({\bf {x}})}$ hat einen starken Zusammenhang mit dem vorzeichenbehafteten Abstand des Vektors ${\textstyle {\bf {x}}}$ zur Hyperebene. Dieser vorzeichenbehaftete Abstand wird mit ${\textstyle r}$ bezeichnet. Dies kann man sehen, indem man ${\textstyle {\bf {x}}}$ als die Summe der Projektion des Vektors ${\textstyle {\bf {x}}}$ auf die Hyperebene ${\textstyle {\bf {x}}_{p}}$ und ${\textstyle r}$ mal des Einheitsvektors in der Richtung von Vektor ${\textstyle {\bf {w}}}$ ausdrückt:

{\bf {x}}={\bf {x}}_{p}+r{\frac {\bf {w}}{\lVert {\bf {w}}\rVert }}.

Abbildung 4: Lineare Entscheidungsgrenze und ihre Eigenschaften. (In der Abbildung wird die Diskriminanzfunktion mit

{\textstyle g({\bf {x}})}

statt

{\textstyle d({\bf {x}})}

kennengezeichnet.) (Quelle: [Duda et al.(2001)]).

Wenn wir ${\textstyle 0=d({\bf {x}}_{p})={\bf {w}}^{T}{\bf {x}}_{p}+w_{0}}$ , für ${\textstyle d({\bf {x}})}$ verwenden, erhalten wir

d({\bf {x}})={\bf {w}}^{T}{\bf {x}}_{p}+{\bf {w}}^{T}r{\frac {\bf {w}}{\lVert {\bf {w}}\rVert }}+w_{0}=d({\bf {x}}_{p})+r{\frac {\lVert {\bf {w}}\rVert ^{2}}{\lVert {\bf {w}}\rVert }}=r\lVert {\bf {w}}\rVert ,

aus denen

r={\frac {d({\bf {x}})}{\lVert {\bf {w}}\rVert }}.

Wenn ${\textstyle d({\bf {x}})>0}$ , dann ist ${\textstyle {\bf {x}}\in {{\mathcal {R}}_{1}}}$ und somit ${\textstyle {\bf {w}}^{T}{\bf {x}}>0}$ . Dies impliziert, dass ${\textstyle {\bf {w}}}$ auf die gleiche Seite der Hyperebene zeigt wie ${\textstyle {\bf {x}}}$ , und daher zeigt der Normalenvektor ${\textstyle {\bf {w}}}$ in die Entscheidungsregion ${\textstyle {{\mathcal {R}}_{1}}}$ .

Der Abstand des Ursprungs zur Hyperebene beträgt ${\textstyle {\frac {w_{0}}{\lVert {\bf {w}}\rVert }}}$ , da ${\textstyle d({\bf {0}})=w_{0}}$ . Der Ursprung liegt in der Entscheidungsregion ${\textstyle {{\mathcal {R}}_{1}}}$ , wenn ${\textstyle w_{0}>0}$ und in ${\textstyle {{\mathcal {R}}_{2}}}$ , wenn ${\textstyle w_{0}<0}$ . Wenn ${\textstyle w_{0}=0}$ , dann verläuft die Hyperebene durch den Ursprung und die lineare Diskriminanzfunktion ${\textstyle d({\bf {x}})}$ hat eine homogene Form ${\textstyle d({\bf {x}})={\bf {w}}^{T}{\bf {x}}}$ .

Die oben genannten Eigenschaften werden geometrisch in Abbildung 4dargestellt.

Für den allgemeinen Fall eines Klassifikators mit ${\textstyle C}$ -Klassen werden die linearen Diskriminanzfunktionen wie folgt angegeben.

d_{i}({\bf {x}})={\bf {w}}_{i}^{T}{\bf {x}}+w_{i0},

Die Entscheidungsregel ist dieselbe wie für die allgemeinen Diskriminanzfunktionen:

\mathrm {~Entscheide~} c_{i}\mathrm {~wenn~} d_{i}({\bf {x}})>d_{j}({\bf {x}})\mathrm {~fuer~alle~} j\neq i.

Wenn die Werte zweier oder mehrerer Diskriminanzfunktionen für ein bestimmtes ${\textstyle {\bf {x}}}$ gleich sind, was (wie in der Statistik) Bindungen genannt wird, ist die Entscheidung undefiniert. Der Klassifikator mit linearen Diskriminanzfunktionen ${\textstyle C}$ wird auch als lineare Maschine (linear machine) bezeichnet. Es unterteilt den d-dimensionalen Feature Space in ${\textstyle C}$ disjunkte Entscheidungsregionen. Für die Grenze zwischen zwei benachbarten Entscheidungsregionen ${\textstyle {{\mathcal {R}}_{i}}}$ und ${\textstyle {{\mathcal {R}}_{j}}}$ gilt ${\textstyle d_{i}({\bf {x}})=d_{j}({\bf {x}})}$ , oder gleichwertig

\left({\bf {w}}_{i}-{\bf {w}}_{j}\right)^{T}{\bf {x}}+\left(w_{i0}-w_{j0}\right)=0.

Aus den Überlegungen zum Klassifikator mit zwei Klassen folgt, dass die betrachtete Entscheidungsgrenze eine Hyperebene mit dem Normalenvektor
${\textstyle \left({\bf {w}}_{i}-{\bf {w}}_{j}\right)}$ ist. Darüber hinaus wird der vorzeichenbehaftete Abstand von ${\textstyle {\bf {x}}}$ zu dieser Hyperebene als ${\textstyle {\frac {d_{i}({\bf {x}})-d_{j}({\bf {x}})}{\lVert {\bf {w}}_{i}-{\bf {w}}_{j}\rVert }}}$ angegeben. Diese Ausdrücke zeigen, dass in linearen Maschinen eher die Unterschiede der Gewichte wichtig sind, nicht die Gewichte selbst. Die Gesamtzahl der Hyperebenen kann kleiner sein als die mögliche Anzahl von Klassenpaaren, ${\textstyle {\frac {C(C-1)}{2}}}$ . Es kann gezeigt werden, dass die Entscheidungsregionen in ${\textstyle {\bf {x}}}$ konvex sind.

Verallgemeinerte lineare Diskriminanzfunktionen (generalized linear discriminant functions) sind in gewissen gegebenen Funktionen von ${\textstyle {\bf {x}}}$ , ${\textstyle h_{i}({\bf {x}})}$ linear und haben die Form

d({\bf {x}})=\sum _{i=1}^{d}a_{i}h_{i}({\bf {x}}).

Abgeschnittene Potenzreihen von ${\textstyle d({\bf {x}})}$ mit beliebigen ${\textstyle h_{i}}$ -s führen zu polynomialen Diskriminanzfunktionen (polynomial discriminant functions) als Unterklasse verallgemeinerter linearer Diskriminanzfunktionen. Ein Beispiel ist die quadratische Diskriminanzfunktion (quadratic discriminant function), die in der Form angegeben werden kann

d({\bf {x}})=w_{0}+\sum _{i=1}^{d}w_{i}x_{i}+\sum _{i=1}^{d}\sum _{j=1}^{d}w_{ij}x_{i}x_{j}.

Abgesehen davon, dass die Entscheidungsregionen in ${\textstyle {\bf {h}}}$ konvex sind, können sie jede beliebige Abhängigkeit in ${\textstyle {\bf {x}}}$ haben. Daher können verallgemeinerte lineare Diskriminanzfunktionen allgemeinere Feature Spaces beschreiben, was ihre vorteilhafte Eigenschaft ist, die zu ihrer Verwendung motiviert.

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Finden linearer Diskriminanzfunktionen

Die Parameter des Klassifikators mit linearen Diskriminanzfunktionen sind die Gewichte. Das Trainieren der Parameter des Klassifikators bedeutet also, die richtigen Gewichte für die linearen Diskriminanzfunktionen zu finden. Dies geschieht durch die Formulierung der Aufgabe als Optimierung. Eine natürliche Wahl für das Kriterium der Optimierung ist die Minimierung des Trainingsfehlers. Um eine solche Minimierung unter allgemeinen Bedingungen durchzuführen, werden bekannte numerische multivariate Optimierungsverfahren wie z. Gradientenverfahren (gradient method) verwendet und an der Eigenschaften der linearen Diskriminanzfunktionen angepasst.

${\textstyle \mathrm {\ \ \ \ } }$ Lernen aus Beispiele

Das Lernen aus Beispielen (learning from examples) ist ein grundlegender Ansatz beim maschinellen Lernen. Ziel ist es, durch das Training eines statistischen Modells Wissen aus Beispielen aufzubauen, das das Wissen auch für unsichtbare Beispiele darstellt. Auf diese Weise stellt das statistische Modell eine Verallgemeinerung des aus den Beispielen gewonnenen Wissens dar. In manchen Zusammenhängen wird dieses Lernen auch als Training bezeichnet.

Die klassische Form eines solchen Lernens geht davon aus, dass in jedem Beispiel die richtige Ausgabe für die Eingabe bereitgestellt wird (labeling). Es ist üblich, von einem beschrifteten Trainingsdaten zu sprechen, was bedeutet, dass in jedem Beispiel die Eingabe durch die richtige Ausgabe gekennzeichnet ist. Diese Art des Lernens wird überwachtes Lernen genannt.

Als Beispiel für Lernen aus Beispiele geben wir eine Beschreibung von Schätzung der Übergangswahrscheinlichkeiten einer Markov-Kette mit diskreter Zeit (Discrete-Time Markov Chain - DTMC) aus beobachteten Zustandssequenzen mittels des Verfahrens der Lagrange-Multiplikatoren.

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Das DTMC-Modell

Sei ${\textstyle {\mathcal {S}}={s_{1},\ldots ,s_{|{\mathcal {S}}|}}}$ die Menge der Zustände des DTMC. Weiterhin bezeichne ${\textstyle {\overrightarrow {\bf {z}}}=(z_{0},z_{1},\ldots ,z_{T})}$ die beobachtete Zustandsfolge. Die Übergangsmatrix der DTMC wird mit ${\textstyle {\bf {A}}}$ bezeichnet, d. h. ${\textstyle {\bf {A}}_{i,j}=p(z_{t}=s_{j}|z_{t-1}=s_{i})}$ für ${\textstyle s_{i},s_{j}\in {\mathcal {S}}}$ . Beobachte, dass eine gegebene Zustandsfolge ${\textstyle {\overrightarrow {\bf {z}}}}$ implizit viele labeled input (beschriftete Beispiele) in der Form ${\textstyle ..z_{t-1},z_{t}..}$ enthält, wobei die Eingabe ${\textstyle z_{t-1}}$ ist und der nächste Zustand ${\textstyle z_{t}}$ liefert die entsprechende korrekte Ausgabe.

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Problem Formulierung

Die Aufgabe der Schätzung der Parameter der Übergangsmatrix, ${\textstyle {\bf {A}}}$ , die in diesem Kontext als Parametermatrix bezeichnet wird, kann durch die Optimierungsproblem

{\bf {A}}^{*}=\arg \max _{\bf {A}}p({\overrightarrow {\bf {z}}}|{\bf {A}})

formuliert werden, wobei ${\textstyle {\bf {A}}^{*}}$ die geschätzte Parametermatrix ist.

Wir werden die Parametermatrix ${\textstyle {\bf {A}}^{*}}$ durch die statistische Punktschätzungsmethode ML-Schätzung bestimmen. Daher maximieren wir die logarithmische Likelihood von ${\textstyle p({\overrightarrow {\bf {z}}}|{\bf {A}})}$ , die an derselben Stelle ihr Maximum hat, an der die Likelihood.

Um eine einfachere Notation zu erhalten, lassen wir die Werte aus der Übergangswahrscheinlichkeiten weg und verwenden die vereinfachte Notation ${\textstyle {\bf {A}}_{z_{t-1},z_{t}}}$ für die Elemente der Übergangsmatrix ${\textstyle {\bf {A}}}$ . Mit dieser vereinfachten Notation kann die Log-Likelihood ${\textstyle \log ~p({\overrightarrow {\bf {z}}})}$ als

{\begin{aligned}\log ~p({\overrightarrow {\bf {z}}})&=\log ~p(z_{1},\ldots ,z_{T})\\&=\log ~\left(p(z_{T}|z_{T-1},\ldots ,z_{1})p(z_{T-1}|z_{T-2},\ldots ,z_{1})\ldots p(z_{1}|z_{0})p(z_{0})\right)\\&=\log ~\left(p(z_{T}|z_{T-1})p(z_{T-1}|z_{T-2})\ldots p(z_{1}|z_{0})p(z_{0})\right)\\&=\log ~\prod _{t=1}^{T}p(z_{t}|z_{t-1})p(z_{0})=\log ~\prod _{t=1}^{T}{\bf {A}}_{z_{t-1},z_{t}}p(z_{0})\\&=\sum _{t=1}^{T}\log ~{\bf {A}}_{z_{t-1},z_{t}}+\log ~p(z_{0})\end{aligned}}

ausgedrückt werden, wobei wir in der ersten Gleichung den Multiplikationssatz der Wahrscheinlichkeit (multiplication theorem of probability) und in der zweiten Gleichung die Markov-Eigenschaft (Markov property) verwendet haben.

Dies kann durch die Einführung einer Indikatorvariablen wie

\log ~p({\overrightarrow {\bf {z}}})=\sum _{i=1}^{|{\mathcal {S}}|}\sum _{j=1}^{|{\mathcal {S}}|}\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i},z_{t}=s_{j}\}}\log ~{\bf {A}}_{i,j}+\log ~p(z_{0})

weiter umgestaltet werden. Das Weglassen des Terms ${\textstyle \log ~p(z_{0})}$ hat keinen Einfluss auf den Ort des Maximums der Log-Likelihood, da dieser nicht von der Matrix ${\textstyle {\bf {A}}}$ abhängt. Darüber hinaus müssen bei der Optimierung einige Einschränkungen der Matrix ${\textstyle {\bf {A}}}$ berücksichtigt werden. Die Matrix ${\textstyle {\bf {A}}}$ ist stochastisch und daher

${\textstyle {\bf {A}}_{i,j}\neq 0}$ , d.h. die Elemente der Matrix ${\textstyle {\bf {A}}}$ sind nicht-negativ,
${\textstyle \sum _{j=1}^{|{\mathcal {S}}|}{\bf {A}}_{i,j}=1}$ for ${\textstyle i=1,\ldots ,|{\mathcal {S}}|}$ , d.h. die Zeilensummen der Matrix ${\textstyle {\bf {A}}}$ sind 1.

Diese Einschränkungen bilden die Nebenbedingungen für die Optimierungsaufgabe. Wir werden zur Optimierung das Verfahren der Lagrange-Multiplikatoren (method of Lagrange multiplicator) anwenden. Das Verfahren gewährleistet die Nichtnegativität der resultierenden Matrix ${\textstyle {\bf {A}}}$ , also diese in die Nebenbedingungen nicht einformuliert werden soll. Daher kann die Optimierungsproblem mit Nebenbedingungen als

{\begin{aligned}&\arg \max _{\bf {A}}\sum _{i=1}^{|{\mathcal {S}}|}\sum _{j=1}^{|{\mathcal {S}}|}\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i},z_{t}=s_{j}\}}\log ~{\bf {A}}_{i,j},~\\&\mathrm {~mit~Nebenbedingungen~} ~\sum _{j=1}^{|{\mathcal {S}}|}{\bf {A}}_{i,j}=1,\mathrm {~fuer~} i=1,\ldots ,|{\mathcal {S}}|\end{aligned}}

formuliert werden.

${\textstyle \mathrm {\ \ \ \ \ \ } }$ Lösung durch Anwendung des Verfahrens der Lagrange-Multiplikatoren

Die Anwendung des Verfahrens der Lagrange-Multiplikatoren erfordert die Einführung von ${\textstyle |S|}$ -fachen Lagrange-Multiplikatoren (Lagrange multipliers), ${\textstyle \alpha _{i}}$ für ${\textstyle i=1,\ldots ,|{\mathcal {S}}|}$ , die in einem Vektor ${\textstyle {\boldsymbol {\alpha }}}$ angeordnet werden können. Somit kann die Lagrange-Funktion (Lagrange function) als

{\mathcal {L}}({\bf {A}},{\boldsymbol {\alpha }})=\sum _{i=1}^{|{\mathcal {S}}|}\sum _{j=1}^{|{\mathcal {S}}|}\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i},z_{t}=s_{j}\}}\log ~{\bf {A}}_{i,j}+\sum _{i=1}^{|{\mathcal {S}}|}\alpha _{i}\left(1-\sum _{j=1}^{|{\mathcal {S}}|}{\bf {A}}_{i,j}\right)

angegeben werden.

Wenn man die erste Ableitung der Lagrange-Funktion nach ${\textstyle {\bf {A}}_{i,j}}$ nimmt und gleich 0 macht, erhält man

{\frac {\partial {\mathcal {L}}}{\partial {\bf {A}}_{i,j}}}={\frac {1}{{\bf {A}}_{i,j}}}\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i},z_{t}=s_{j}\}}-\alpha _{i}=0,~i,j=1,\ldots ,|{\mathcal {S}}|,

woraus

{\textstyle {\bf {A}}_{i,j}}

als

{\bf {A}}_{i,j}={\frac {1}{\alpha _{i}}}\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i},z_{t}=s_{j}\}},~i,j=1,\ldots ,|{\mathcal {S}}|

ausgedrückt werden kann. Nimmt man nun die erste Ableitung der Lagrange-Funktion nach ${\textstyle \alpha _{i}}$ , macht sie gleich 0 und wendet die obige Formel ${\textstyle {\bf {A}}_{i,j}}$ an, erhält man

{\frac {\partial {\mathcal {L}}}{\partial \alpha _{i}}}=1-\sum _{j=1}^{|{\mathcal {S}}|}{\bf {A}}_{i,j}=1-\sum _{j=1}^{|{\mathcal {S}}|}{\frac {1}{\alpha _{i}}}\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i},z_{t}=s_{j}\}}=0,

woraus wir die Lösung für

{\textstyle \alpha _{i}}

als

\alpha _{i}=\sum _{j=1}^{|{\mathcal {S}}|}\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i},z_{t}=s_{j}\}}=\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i}\}},~i=1,\ldots ,|{\mathcal {S}}|

erhalten. Wenn wir die Formel von ${\textstyle \alpha _{i}}$ in der Formel von ${\textstyle {\bf {A}}_{i,j}}$ anwenden, erhalten wir die Schätzung für ${\textstyle {\bf {A}}_{i,j}}$ als

{\bf {A}}_{i,j}={\frac {\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i},z_{t}=s_{j}\}}}{\sum _{t=1}^{T}\mathbf {1} _{\{z_{t-1}=s_{i}\}}}}~i,j=1,\ldots ,|{\mathcal {S}}|.

Diese Schätzung von ${\textstyle {\bf {A}}_{i,j}}$ kann als die Anzahl der Übergange ${\textstyle s_{i}\rightarrow s_{j}}$ geteilt durch die Anzahl der der Beobachtungen, die die DTMC im Zustand ${\textstyle s_{i}}$ finden, interpretiert werden. Diese Schätzung passt auch zur unserer menschlichen Intuition.

${\textstyle \mathrm {\ \ \ \ } }$ Learning durch Steuereung - MDP

Lernen durch Steuereung (learning through control) ist ein iterativer Prozess, bei dem der Akteur bei jedem Schritt mit einer Aktion auf die Antwort der Umgebung auf seine vorherige Aktion reagiert. So lernt der Akteur sein Verhalten schrittweise. Solche Prozesse kommen in der Natur sehr häufig vor, wie z.B. derjenige, der die Bewegung der Tiere bei der Nahrungssuche steuert.

Ein solcher Lernprozess kann durch das mathematische Modell des Markov-Entscheidungsprozesses, MEP (Markov decision process - MDP) beschrieben werden. MDP ist ein diskreter stochastischer Kontrollprozess (discrete stochastic controll process). In jedem Zustand ${\textstyle s}$ des MDP kann der Akteur eine Aktion ${\textstyle a}$ aus dem zulässigen Satz von Aktionen in diesem Zustand ausführen. Dann im nächsten Zeitschritt wechselt der MDP in den Zustand ${\textstyle s^{'}}$ und gibt dem Akteur eine Belohnung, die der Aktion ${\textstyle a}$ und dem Zustandsübergang ${\textstyle R_{a}(s,s^{'})}$ entspricht. Auf diese Weise realisiert das MDP ein Aktions- und Belohnungs-feedbackbasiertes Lernen.

Die mathematische Definition von MDP lautet wie folgt. MDP ist ein 4-Tupel ${\textstyle ({\mathcal {S}},{\mathcal {A}},P,{\mathcal {R}})}$ , wobei

${\textstyle {\mathcal {S}}}$ ist der Zustandsraum, d. h. eine Menge von Zuständen,
${\textstyle {\mathcal {A}}}$ ist der Aktionsraum, d. h. eine Menge von Aktionen,
${\textstyle P}$ , in Funktionsform ${\textstyle p_{a}(s,s^{'})=p(s(t+1)=s^{'}|s(t)=s,a(t)=a)}$ beschreibt den Zustandsübergang von ${\textstyle s}$ zu ${\textstyle s^{'}}$ , während die Aktion ${\textstyle a}$ ausgeführt wird und
${\textstyle {\mathcal {R}}}$ ist die Menge möglicher Belohnungen und ${\textstyle R_{a}(s,s^{'})}$ ist die Belohnung für den Zustandsübergang von ${\textstyle s}$ zu ${\textstyle s^{'}}$ , wenn die Aktion ${\textstyle a}$ ausgeführt wird.

Ein Beispieldiagramm eines MDP ist in Abbildung 5 gezeigt. Dieser MDP hat drei Zustände (grüne Kreise), zwei Aktionen (orange Kreise) und zwei Belohnungen (orange Pfeile).

Abbildung 5: Beispieldiagramm eines MDPs (Quelle: MDP_Beispiel).

MDP ist eine Erweiterung des DTMC, indem ihm Aktionen (die Auswahlmöglichkeiten ermöglichen) und Belohnungen (Feedback aus der Umgebung zum Lernen Lernzwecken) hinzugefügt werden. Dies impliziert, dass ein MDP mit nur einer Aktion und einer gemeinsamen Belohnung auf einen DTMC reduziert wird. MDP kann zur Lösung von Optimierungsaufgaben eingesetzt werden und wird üblicherweise durch dynamische Programmierung (dynamic programming) umgesetzt.

CI

Computational Intelligence, abgekürzt CI, ist ein Teilbereich der KI, der biologisch motivierte und daher rechenintensive Methoden und Ansätze umfasst.

${\textstyle \mathrm {\ \ \ \ } }$ Definition von CI

Es gibt keine allgemein akzeptierte eindeutige Definition von CI. Die erste Definition stammt aus dem Jahr 1994 von Bezdek (siehe in [Siddique et al.(2013)]) und definiert CI durch die folgenden Merkmalen:

befasst sich mit numerischen Daten,
hat eine Mustererkennungskomponente statt Wissensräpresentation,
verfügt über eine Methodik, die rechnerisch adaptive und Fehlertolerant ist und
kommt in Bezug auf Geschwindigkeit und Fehlerrate einer menschenähnlichen Leistung nahe.

CI kann auch anhand seiner Hauptmerkmale definiert werden:

ein Teilbereich von KI,
enthaltet mehrere Natur inspirierten Ansätze,
befasst sich mit komplexen realen Problemen, die einige Unsicherheiten enthalten oder stochastische Komponenten enthalten können.

${\textstyle \mathrm {\ \ \ \ } }$ Positionierung von CI gegenüber KI und seiner Geschichte zur Geschichte der KI

CI und KI haben beide das langfristige Ziel, allgemeine Intelligenz zu erreichen. KI basiert jedoch auf Hard-Computing-Techniken, die einer binären Logik mit zwei Werten folgen, der binären 0 oder 1. Dies kann so interpretiert werden, dass ein Element in einer Menge entweder enthalten ist oder nicht. Im Gegensatz dazu basiert CI auf Soft-Computing-Techniken, die der Fuzzy-Logik (fuzzy logic) folgen und reale Werte zwischen 0 und 1 ermöglichen, die als Grad der Zugehörigkeit eines Elements zu einer Menge angesehen werden können. Dies ist ein deutlicher Unterschied zwischen KI und CI. Andererseits kann CI als Teilbereich von KI im weiteren Sinne betrachtet werden.

Während die Geschichte der KI bereits in den 1950er Jahren begann, wurde der Begriff CI erstmals 1990 vom IEEE Neural Networks Council verwendet, der sich mit der Entwicklung biologischer und künstlicher neuronaler Netze befasste. Im Jahr 2001 wurde der Rat zur IEEE Computational Intelligence Society und einige Jahre später wurden neue Bereiche wie Fuzzy-Systeme und Evolutionsberechnungen in den Interessenbereich der Gesellschaft aufgenommen.

${\textstyle \mathrm {\ \ \ \ } }$ Hauptkomponenten der CI

Die Hauptkomponenten von CI (Abbildung 6) werden wie folgt angegeben:

Neuronale Netze, die Ähnlichkeit mit biologischen Netzten haben, die
- die Verarbeitung und das Lernen aus Erfahrungsdaten ermöglicht und
- in gewissem Umfang Fehlertoleranz anbietet.
Fuzzy-Logik ist eine der Hauptdisziplinen von CI, die
- Soft-Computing-Techniken zur Modellierung realer komplexer Prozesse durch die Anwendung probabilistischer Methoden ermöglicht und
- zum Approximate Reasoning, aber nicht zum Lernen verwendet werden kann.
Evolutionäre Berechnung stellt Evolutionäre Algorithmen (Evolutionary Algorithms - EAs) für die globale Optimierung bereit, die
- von der biologischen Evolution inspiriert sind und
- normalerweise auf einer Population von Kandidatenlösungen basiert.

Datei:CI.jpg

Abbildung 6: Computational Intelligence (Quelle: Computational_Intelligence).

${\textstyle \mathrm {\ \ \ \ } }$ Evolutionäre Algorithmen (EA)

Evolutionäre Algorithmen umfassen unter anderen die zwei am weitesten verbreiteten EA-Algorithmen:

Partikelschwarmoptimierung (Particle Swarm Optimisation - PSO, PSO) und
Genetischer Algorithmus (Genetic Algorithm - GA, GA).

Anwendungsgebiete von KI

Anwendungen von KG

In diesem Unterabschnitt beschäftigen wir uns mit der Anwendungen der KG.

(1) Information Retrieval, IR Systeme umfassen Aufgaben wie

Image Retrieval,
Music Retrieval,
Websuche (web search),
domänenspezifischer (domain-specific) Retrieval (z. B. geografisch, rechtlich usw.),
sprachübergreifendes (cross-lingual) Retrieval und
Textzusammenfassung (text summarization), hauptsächlich als extrahierte Teile des Originaltextes.

IR kann auch als Teilbereich des Data Mining (data mining) angesehen werden.

(2) Die semantische Suche (semantic search) wird durch die Integration von KG in die Ergebnisse der Suchmaschine realisiert. Dies führt zu einer verbesserten „Big Data“-Suchmaschine. Es erweitert die herkömmliche Suchmaschine um die folgenden neuen Funktionen

relevantere Informationen anbieten,
Entitäten im Text identifizieren und eindeutig machen (disambiguate),
stellt Links zu verwandten Entitäten bereit (explorative Suche - exploratory search).

Beispiele beinhalten

Google-Suchmaschine (search engine) implementiert durch Integration der Google KG,
Bing, die Microsoft-Suchmaschine, die durch die Integration von Microsofts KB Satori realisiert wurde.

(3) Das Question Answering System (QA, nicht verwechseln mit QA-System, das Quality-Assurance-System bedeutet) kann semantische Fragen beantworten, indem es semantische Informationen von KG in die Antwort einbezieht. Daher realisieren sie semantisch bewusste Fragebeantwortungsdienste (semantically aware question answering services). Beispiele beinhalten

Watson, das Question Answering System von IBM, das unter anderem YAGO, DBpedia und Freebase nutzt,
Digitale/virtuelle Assistenten (digital/virtual assistants) wie Siri, Cortana, Google Now.

Die Question Answering Systeme können in extraktive und generative Question Answering Systemen eingeteilt werden.

Bei dem extraktiven Question Answering System (extractive QA) wird die Antwort aus dem relevanten Kontext extrahiert (BERT-ähnliche Modelle).
Bei dem generativen Question Answering System (generative QA) generiert das Modell Freitext basierend auf dem Kontext, für den es Textgenerierungsmodelle (Text Generation models) verwendet.

Andererseits können die Question Answering System auch als offene oder geschlossene Question Answering Systeme (open or closed QA systems) klassifiziert werden.

Bei dem offenen Question Answering System wird die Antwort aus dem Kontext entnommen.
In dem geschlossenen Question Answering System wird kein Kontext bereitgestellt und daher ist die Antwort vollständig generiert.

Die schnelle Question Answering wird durch die Einfügung eines ersten Rankings mithilfe von Passage-Ranking-Modell (passage ranking model) ermöglicht. Passage-Ranking-Modell ist ein neues Ranking-Modell von Google zur Kategorisierung von Inhalten von Websites. Für akademische Benchmark-Tests stehen QA Datensätze zur Verfügung. Der am häufigsten verwendete QA Dataset(Datensatz) für den akademischen Benchmark extraktiver QA Systeme ist der Stanford Question Answering Dataset (SQuAD), der aus mehr als 100.000 QA Paaren zu mehr als 500 Artikeln besteht.

(4) Das Empfehlugssystem (Recommendation/Recommender System) ist eine Art IR-System, das personalisierte Empfehlungen gibt, die auf dem Verhalten, den gemeinsamen Präferenzen und Interessen der Benutzer basieren. Basierend auf der Analyse von Benutzerklicks können diese Content-Plattformen (content platforms) andere Inhalte vorschlagen, die die Benutzer ansehen oder lesen können. Bei solchen Anwendungen tragen KGs dazu bei, die Genauigkeit zu verbessern, die Vielfalt der empfohlenen Elemente durch die Einbeziehung externen Wissens zu erhöhen und die Interpretierbarkeit von Empfehlungen zu verbessern. Typische Beispiele für solche KG-Anwendungen sind Content-Plattformen, wie z.B. Social Media (social media), Netflix oder Suchmaschinenoptimierung (Search Engine Optimization - SEO), die ein Teilgebiet des Suchmaschinenmarketings ist.

(5) Natural Language Processing, NLP (Verarbeitung Natürlicher Sprache) befasst sich mit der Verarbeitung und dem Verstehen von Text und gesprochener Sprache durch die Anwendung hauptsächlich Techniken von Maschinelles Lernen. Informationsextraktion (information extraction - IE) ist eine NLP-Technik, die darauf abzielt, strukturierte Informationen aus typischerweise unstrukturiertem Text zu extrahieren. Genauer gesagt befindet sich IE im Schnittpunkt von IR und NLP. Zwischen KG und NLP besteht eine gegenseitig vorteilhafte Beziehung. Einerseits dient KG der Umsetzung von NLP-Techniken, wie z.B. Textzusammenfassung. Andererseits werden NLP-Techniken wie die Named Entity Recognition und die Relation Extraction verwendet, um KG zu erstellen.

(6) Beim Enterprise Knowledge Management geht es darum, KG im industriellen Bereich einzusetzen, um die Vorteile zu nutzen, die KG bietet. Zu diesen Vorteilen gehören:

Big Data (big data) nutzen, um neuen Geschäftswert zu schaffen,
Geschäftsansichten auf verschiedenen Granularitätsebenen erstellen,
durch hierarchische Einbeziehung unternehmensrelevanter Daten neue Erkenntnisse liefern und
Mitarbeitern einen erweiterten Zugriff auf Unternehmensinformationen bieten.

(7) Domänenspezifische Anwendungen (domain-specific applications) ermöglichen Mehrwerts durch die Anwendung von KG in verschiedenen Bereichen zu schaffen.

Biomedical KG-Anwendungen (biomedical KG applications) ermöglichen die Beantwortung von Fragen und die Entscheidungsunterstützung in den Biowissenschaften (life sciences) durch die Integration mehrerer Quellen biomedizinischer Informationen (biomedical information).
Medizinische Anwendungen (medical application) nutzen KG zur Integration textueller medizinischer Kenntnisse. Ein Beispiel hierfür ist das Abrufen spezifischer Informationen mittels Schlussfolgerung.
In Cybersicherheit-Anwendungen (cybersecurity applications) wird KG zum Speichern von Modellierungsmustern in großen Datensätzen von Transaktionen und Organisationen verwendet. Dies dient als Grundlage für Aufbau von Anwendungen, wie z.B. Angriffe zu erkennen und zu vorhersagen (d.h. potenzielle Arten von Wirtschaftskriminalität zu identifizieren) und Sicherheitsbedrohungen durch verdächtige Transaktionen (suspicious transactions), abnormales Benutzerverhalten (abnormal user behaviour) oder gefälschte Konten (fake accounts) zu identifizieren.
In E-Commerce-Anwendungen (e-commerce applications) wird KG verwendet, um semantische Informationen über die Interaktionen zwischen Kunden und Produkten und deren Merkmale zu speichern. Diese können für eine Vielzahl von Aufgaben verwendet werden, darunter die Suche nach ähnlichen oder kompatiblen Produkten, die Identifizierung von Produktklassen, das Abrufen relevanter Produkte für einen bestimmten Suchbegriff und das Abrufen ähnlicher Suchbegriffe.
In Finanzanwendungen (financial applications) wird die KG durch die Identifizierung Named Entities aus News von Unternehmen und durch die Extraktion von Geschäftsbeziehungen zwischen relevanten Aktien erstellt. Solche KGs können Aufgaben wie z.B. Vorhersage der Kursbewegung einer Aktie ausführen.
KG wird in der Bereitstellung von Nachrichten (KG in field of news) zur Umsetzung der Fake-News-Erkennung (fake news detection) eingesetzt.
Im Bildungsbereich (KG in field of education) werden KG-Knoten zum Speichern von didaktischen Konzepten (instructional concepts) verwendet, die für Aufgaben wie z.B. die Empfehlung von Lernressourcen (learning resource recommendation) und die Visualisierung von Konzepten (concept visualisation) verwendet werden.
In Geoscience Applications (Geoscience applications) KG speichert die geowissenschaftlichen Textdaten, die für Informationsextraktions- und Wissensentdeckungsdienste (information extraction and knowledge discovery services) verwendet werden.

Anwendungen von ML

ML Technologien haben sowohl viele allgemein bekannte Anwendungen als auch Anwendungen in einer Vielzahl von Fachgebieten, darunter Finanzen, Gesundheitswesen, Landwirtschaft und viel mehr.

Im Folgenden geben wir eine kurze Beschreibung einiger allgemein bekannter Anwendungen.

Spracherkennung (speech recognition) ist der Prozess der Umwandlung der gesprochenen Sprache in geschriebenen Text. Es wird auch als Speech to Text (STT) oder Automatic Speech Recognition (ASR oder einfach SR) bezeichnet. Spracherkennung wird z.B. in sprachgesteuerten Callcentern (speech automated call centers), Sprachsteuerung (voice dialling, speech enabled dialling) oder in Apples Sprachassistent Siri (Apple’s speech assistant Siri) verwendet.

Bei der Sprechererkennung (speaker recognition) handelt es sich um die Aufgabe, den Sprecher anhand einer kurzen Rede (normalerweise einige Sekunden) zu identifizieren.

Die Sprachsynthese (speech synthesis) umfasst die Aufgabe, geschriebenen Text in menschliche Sprache umzuwandeln. Es wird auch als Text-to-Speech (TTS) bezeichnet und ist die umgekehrte Aufgabe der Spracherkennung.

Sprachübersetzung (language translation), wie z.B. Google Translate kann geschriebenen Text in einer Sprache in den entsprechenden Text in einer anderen Sprache übersetzen. Es basiert auf NLP Techniken, einschließlich Part-of-speech-Tagging (POS-Tagging) und Named Entity Recognition.

Aufgabe der Bilderkennung (image recognition) ist Muster in einem Bild oder Video zu erkennen. Es kann unter anderem zur Gesichtsdetektion (face detection), Gesichtserkennung (face recognition) oder zur weiteren Analyse verwendet werden.

Vorhersage des Verkehrsmusters (traffic pattern prediction). Diese Aufgabe generiert Vorhersagen über den bevorstehenden Verkehr basierend auf dem tatsächlichen Verkehr, der z.B. verwendet wird um die schnellste Route zum gewünschten Ziel zu ermitteln und vorzuschlagen.

Ziel des Data Mining (data mining) ist es, Informationen aus einem (meist großen) Dataset zu extrahieren und in eine für die weitere Verwendung geeignete Struktur umzuwandeln. Data Mining wird z.B. durch Geheimdienste (secret services) oder zur Ausreißererkennung (outlier detection) in der Statistik angewendet.

Produktempfehlungen für den E-Commerce (E-commerce product recommendations). Es handelt sich um eine Marketinganwendung, die Produktempfehlungen basierend auf gesammelten Daten über früheres Kundenverhalten und vergangene Einkäufe generiert. Es ist ähnlich, unterscheidet sich aber vom Empfehlungssystem, das IR und KG anstelle von ML verwendet.

Die E-Mail-Spam-Erkennung/E-Mail-Filterung (email spam detection/email filtering) erfolgt mithilfe von Spam-Filtern, die ML-Algorithmen verwenden, um eingehende E-Mails als Spam zu klassifizieren oder nicht.

Die Malware-Erkennung (Malware detection) wird als ein Mustererkennungssystem realisiert, welches auf Features (Merkmalen) trainiert wird, die verdächtige Aktivitäten characterisieren.

Computer Vision (computer vision) nutzt ML-Techniken, um hochdimensionale reale Daten zu verarbeiten, zu analysieren, zu visualisieren oder zu interpretieren.

Die Transportanwendung (Transportation application), wie Uber, verwendet ML Verfahren, um die Verkehrsbedingungen zu analysieren und die voraussichtliche Ankunftszeit (Estimated Time of Arrival - ETA) am gewünschten Ziel abzuschätzen.

ML angewendet auf Geschäftsprobleme wird auch als Predictive Analytics bezeichnet. Wir geben zunächst kurze Interpretationen mehrerer Anwendungsbeispielen für ML- im Finanzwesen.

Die Betrugserkennung bei Banktransaktionen (Fraud Detection) wird durch einen ML-Algorithmus implementiert, der für jede Transaktion einen Wert angibt, der die Wahrscheinlichkeit eines Betrugs darstellt. Das Training des Algorithmus basiert auf Mustern für ungewöhnliches Verhalten, die aus großen Mengen an Transaktionsdaten identifiziert werden. Dies ist die wichtigste Anwendung von ML im Bank- und Finanzbereich.
Fokussierte Ausrichtung auf Kontoinhaber (Focused Account Holder Targeting). Dabei klassifizieren ML-Algorithmen die Kontoinhaber nach Segmenten mit vordefinierten Salden und Krediten.
Börse und Daytrading (Stock Market and Day Trading). In dieser Anwendung wird ML darauf trainiert, die Entwicklung der Preise an der Börse vorherzusagen.
Die Vorhersage der Kreditwürdigkeit (Loan Eligibility Prediction) wird durch verschiedene ML-Klassifikatoren (wie z. B. Random Forest, siehe 4.2.5 realisiert, um die Eignung der Kunden für die Gewährung eines Kredits zu beurteilen.

Zunächst werden wir einige Anwendungen von ML im Gesundheitswesen erwähnen.

In der personalisierten Behandlung/Medikation (Personalized Treatment,

Personalized Medication) wird ML verwendet, um
Genmuster/Ansprechmarker (gene patterns/response markers) von Patienten zu identifizieren, die gezielte Therapien ermöglichen könnten.

In der Genetik und Genomik (Genetics and Genomics) wird ML zur Identifizierung von Gensequenzen (gene sequences) bei der Genomsequenzierung (genome sequencing) und genetische Veränderung (gene modification) insbesondere mittels Hidden-Markov-Modelle ( Hidden Markov Models – HMMs) verwendet und wird auch in der Genforschung eingesetzt.
In der Krebsprognose und -vorhersage (Cancer Prognosis and Prediction) wird ML verwendet, um Vorhersagemodelle zu erstellen, um Entscheidungen über eine Therapie zu unterstützen und deren Entwicklung vorherzusagen.
Bei der Arzneimittelentwicklung (Drug development) kann der Prozess der Arzneimittelentdeckung durch den Einsatz von ML-Techniken beschleunigt werden.

Künstliche neuronale Netzwerke/Netze, KNN (Artificial Neural Networks - ANNs) oder einfache neuronale Netzwerke/Netze (NNs) kombinieren ML mit dem NN-Modell. Die große Mehrheit der Anwendungen (wie z. B. Krebsprognose und -vorhersage) hat von der Verwendung von ANN anstelle reiner ML-Algorithmen profitiert. Diese Anwendungen sind z.B. Bilderkennung, medizinische Diagnose, Spracherkennung, maschinelle Übersetzung, Computer Vision, Krebsprognose und -vorhersage, Filterung sozialer Netzwerke, Brett- und Videospiele.

Embedded Machine Learning (Embedded Machine Learning) ist ein Teilgebiet des ML, bei dem ML auf eingebettete Systeme (embedded systems) mit begrenzten Ressourcen angewendet wird. Zu diesen eingebetteten Systemen gehören z. B. Mikrocontroller (microcontrollers), tragbare Computer (wearable computers) und Edge-Geräte (edge devices). Der Einsatz von ML-Methoden in eingebetteten Systemen macht die Übertragung und Speicherung von Daten auf Cloud-Servern (cloud servers) überflüssig. Zu den Techniken des eingebetteten maschinellen Lernens gehören unter anderem Approximatives Rechnen (approximate computing) und Hardwarebeschleunigung (hardware acceleration).

Weitere Einzelheiten zur Anwendung von ML befinden sich z.B. auf der
Wikipedia-Seite Machine Learning.

Weitere Anwendungsgebiete von KI

Weitere Anwendungsgebiete von KI sind u.a

Ausbildungssektor (educational sector), z.B. durch die Erstellung automatisierter Nachrichten an Studierende oder durch die Gestaltung von Inhalten basierend auf den Interessen des Benutzers (Smart Content Creation),
Robotik (robotics) z.B. indem wir Entscheidungen in Echtzeit auf der Grundlage von NLP, Objekterkennung (object recognition) und Mensch-Roboter-Interaktion (Human-Robotics Interaction - HRI) ermöglichen,
Navigation (navigation) z.B. durch die Berechnung der besten Route basierend auf GPS- und KI-Technologien (GPS - Global Positioning System),
Gesundheitswesen (Healthcare), z.B. durch Patientenüberwachung (patient monitoring) oder chirurgische Assistenz (surgical assistance),
Automobile (automobiles) z.B. durch Advanced Driving Assistance System (ADAS) oder autonomes Fahren (autonomous driving),
Landwirtschaft (agriculture) z.B. durch Pflanzenüberwachung (crops monitoring), Supply Chain und Instandhaltung (supply chain maintenance) oder Wettervorhersage (weather forecasting),
Personalwesen (human resource), z.B. durch Screening,
Lebensstil (lifestyle) z.B. durch personalisierte Empfehlung (personalized recommendation), virtuelle Assistenz,
Gaming (gaming) z.B. durch Animation (animation),
Astronomie (astronomy) z.B. durch Analyse astronomischer Daten und Erkennung z.B. von Exoplaneten,
Reisen und Transporte (travel and transport), z.B. Platooning von LKWs (truck platooning) ermöglichen,
Militär (military), z.B. durch Erkennung von Cyberangriffen (detecting Cyberattacks) und Entscheidungsunterstützung (decision support) z.B. für die Ressourcenallokation (resource allocation).

Ethik in der KI

Ethik ist im allgemeinen eine Menge von moralischer Regeln und Leitfaden, die den Menschen helfen, zwischen Recht und Unrecht zu entscheiden. Es ist zu erwarten, das KI schon in der näheren Zukunft erhebliche Auswirkungen auf die ganze Menscheit und Welt haben wird. Deshalb ist es wichtig auf ethischen Fragen in Zusammenhang mit KI bedeutsam Aufmerksamkeit zu schenken.

In der vorigen Jahren haben Organisationen verschiedene Big Data Algoritmen und KI Lösungen eingesetzt meist um ihre Geschäftsergebnisse durch Automatisierung und datengesteuerte Entscheidungsfindung zu verbessern. Dabei wurden einige Unternehmen in Zusammenhang mit ihrer KI-Anwendungen mit unerwarteten negative Konsequenzen konfrontiert, insbesondere aufgrund unfairer Ergebnisse und durch Anwendung von mit Vorurteilen behafteten Datensätzen. Dies hat dazu geführt, dass führende Unternehmen und Forschungs-und Datenwissenschafts-Communities im Bereich der KI sich mit den ethischen Aspekten der KI eingehend befassen mussten. Mangel an angemessene Regeln in diesem Bereich kann zu Reputationsverlust, hohe Geldstrafen sowie zu regulatorischen und rechtlichen Problemen führen.

Ethik der KI (kurz KI-Ethik) ist ein Teilbereich der angewandten Ethik, der sich unten anderen mit der folgende Fragestellungen sich beschäftigt:

die gezielte Rolle von KI-Syteme und die ethische Aspekte die ihre Benützung entsprechend ihrer Rollen ermöglichen,
ethische Regeln, Leitpfaden für Menschen, die KI-Systeme planen, herstellen, testen, zertifizieren und benutzen.
gewünschtes ethische Verhalten von KI-Systemen (Maschinenethik).

Prinzipien und Elemente der KI-Ethik

Als Leitfaden für die Ethik in der experimentellen Forschung und der Entwicklung von Algorithmen sind der Belmont-Bericht (https://www.hhs.gov/ohrp/sites/default/files/the-belmont-report-508c_FINAL.pdf) in akademischer Gemeinschaft weit verbreitet. Die drei wesentliche Prinzipien des Belmont-Berichts lauten:

Respekt für Personen
Gutes tun
Gerechtigkeit (bzgl. Fairness und Gleichheit)

Obwohl eine vielzahl von ethischen Elemente, Prinzipien und Richtlinien für KI vorgeschlagen wurden, existiert derzeit keine einheitliche Richtlinien für KI-Ethik. Allerdings besteht eine gewisse Konsens über die folgende zwei Elemente in die KI-Ethik zu integrieren:

Governance - um die Einhaltung der gesetzlichen Vorschriften in Zusammenarbeit mit Regierungsbehörden sicherzustellen.
Erklärbarkeit - die Funktionsweise der KI Systeme zu erklären (Transparenz) um Vertrauen gegenüber KI-Systeme zu schaffen.

Es gibt mehrere Organisationen mit dem Ziel das KI-Ethik zu fördern. Dies sind die folgenden.

CHAI:Eine Kooperation verschiedener Universitäten und Institute ist das Center for Human-Compatible Artificial Intelligence

(https://humancompatible.ai/), welche dei vertrauenswürdige KI und nachweislich nutzbringender Systeme fördert.

DARPA: Die Defense Advanced Research Projects Agency des

US-Verteidigungs-ministeriums (https://www.darpa.mil/work-with-us/ai-next-campaign) fördert die erklärbarer KI-Forschung.

NASCAI: Die National Security Commission on Artificial Intelligence

(https://www.nscai.gov/) ist eine US Kommission ,,die die Methoden und Mittel prüft, die notwendig sind, um die Entwicklung von künstlicher Intelligenz, maschinellem Lernen und damit verbundenen Technologien voranzutreiben, um die nationalen Sicherheits- und Verteidigungsbedürfnisse der Vereinigten Staaten umfassend zu erfüllen.“

AlgorithmWatch: Eine gemeinnützige Organisation

(https://algorithmwatch.org/en/), die sich auf den Einsatz von erklärbaren und nachvollziehbaren Entscheidungsprozessen und Algorithmen abzielt.

AI Now Institute: Eine gemeinnützige Organisation an der New York University (https://ainowinstitute.org/), die sich mit der sozialen Auswirkungen der KI beschäftigt.

Laut Luciano Floridi und Josh Cowls herrscht eine weitgehende Übereinstimmung darüber, dass es möglich ist, die ethischen Prinzipien für gesellschaftlich nützlichen Einsatz von KI basierend auf die vier Prinzipien der Medizinethik und ein zusätzliches fünftes Prinzip, Erklärbarkeit aufzubauen [FloridiCowls(2019)]:

,,1. Fürsorge (Benefizienz): KI-Technologie soll der Menschheit nützen, das Wohlergehen fördern, die Menschenwürde wahren und der Erhaltung des Planeten dienen.
2. Schadensvermeidung (Non-Malefizienz): Negative Folgen eines übermäßigen oder missbräuchlichen Einsatzes von KI müssen vermieden werden, KI soll nur in einem sicheren Rahmen eingesetzt werden.
3. Autonomie: Menschen müssen die volle Entscheidungsfreiheit darüber haben, ob und welche Aufgaben sie an KI-Systeme delegieren, ihre Freiheit, sich eigene Normen und Standards zu setzen, muss gewahrt bleiben.
4. Gerechtigkeit: Wahrung der Solidarität, Vermeidung von Ungerechtigkeit, gleichberechtigter Zugang zu den Vorteilen der KI.
5. Erklärbarkeit (Verständlichkeit): Die Prinzipien 1 bis 4 sind nur realisierbar, wenn auch Laien nachvollziehen können, welchen Nutzen oder Schaden KI für die Gesellschaft hat und wer für welche Auswirkungen verantwortlich ist.“

Kritik und Debatten

Es gibt derzeit eine Reihe von ethischer Diskussionen bzgl. KI Systemen. Sollche KI-Ethik einbeziehende Debatten kommen in mehrere Bereichen vor. Autonomes Fahren stellt ein Musterbeispiel dar. Von automatisierter Systeme sind erwartet, dass sie im Vergleich zur menschlichen Fahrleistung zumindest eine Schadensminderung erzielen. Da derzeitige KI Syteme sehr selten, aber eventuell Fehlerhafte Reaktionen produzieren, ist es zumindest fragwürdig ob autonome Fahrzeuge diese Erwartung erfüllen können. Außerdem ist es auch problematisch, wie ein autonomes Fahrzeug in einem nicht normierbare dilemmatische Entscheidungen, wie z.B. Leben gegen Leben bei plötzlich auftretenden Gefahren, reagieren werden sollen. Ähnliche Debatte kommen auch im Bereiche Autonome Waffensysteme und Maschinenethik aber allgemeiner in Bereiche, wo Algorithmen verwendet werden (siehe Studie Diskriminierung), vor

Im Allgemeinen die folgende Debatte auslösende Quellen können identizifiert werden:

KI Systemen machen eventuell Fehler - durch Beschränkungen der Sammlung von Daten und Dokumentation sowie der algorithmischen Regeln und - Aufgrund der Unvollständigkeit der Korpora bei der Entscheidungsfindung (ist eine Angabe alle nötige Informationskanäle in die Korpora um die gleiche Entscheidung von KI zu haben, was ein Mensch machen würde, ist nicht möglich).
Bedenken hinsichtlich der Designziele des Systems, z.B. bessere Geschäftsergebnis zu schaffen statt öffentliches Interesse zu folgen. Eine andere Debatte bilden die Überlegungen über die technologische Singularität, i.e. wann die KI das Übertreffen die menschliche Intelligenz erreicht. Obwohl diese Superintelligenz steht nicht unmittelbar bevor, ist Sie mit Angst vor Gefahr auf die Menschheit verbunden. Allerdings ist diese Angst zumindest Teilweise unbegründet, da diese dadurch ausgelöst, dass die Funktionsweise der KI Systeme für meistens die Menschen nicht bekannt ist, also durch die fehlende Transparenz.

KI-Ethik-Vorgehensweisen

Eine mögliche Vorgehesweise in KI-Ethik ist die Verfassung einer KI-Ethikerklärung, zu deren Einhaltung sich jeder (Privatperson, Firma oder Institut) verpflichten kann, der sich an verantwortungsvollen Entwicklung der künstlichen Intelligenz befasst.

Eine sollche bekannte KI-Ethik-Erklärung ist die Montreal Declaration (https://www.montrealdeclaration-responsibleai.com/the-declaration). Die Prinzipien der Montreal Declaration lauten:

Wohlbefinden Respekt vor Autonomie
Schutz der Privatsphäre und Intimität
Solidarität
Demokratische Beteiligung
Gerechtigkeit
Vielfalt
Inklusion
Vorsichtsprinzip
Verantwortung
Nachhaltig
Entwicklung

Die Österreichische UNESCO-Kommission hat eine Empfehlung zur Ethik der KI ausgegeben Empfehlung zur Ethik der KI. Eine Zusammenfassung üblicher internationalen Vorgehensweisen und Handlungsempfehlungen befindet sich im Dokument https://ec.europa.eu/futurium/sites/futurium/files/ethik_im_zeitalter_der_kunstlichen_intelligenz_v05_haarich_0.pdf.

@@ Zeile 8: / Zeile 8: @@
 <div id="fig:Expert_System" class="figure">
-[[Datei:Expert_System.jpg|460px|thumb|center|Abbildung 1: Expertensystem (Quelle: [https://www.javatpoint.com/expert-systems-in-artificial-intelligence Expertensystem])]]
+[[Datei:Expert_System.jpg|460px|thumb|center|Abbildung 1: Expertensystem (Quelle: [https://www.javatpoint.com/expert-systems-in-artificial-intelligence Expertensystem]).]] <span id="fig:Expert_System" label="fig:Expert_System"></span>
 </div>
 Mit der rasanten Entwicklung der Rechengeschwindigkeit und -fähigkeiten der Computer entstanden spätestens in den 1990er Jahren rechenintensive Zweige der KI. Computational Intelligence (CI) umfasst die biologisch motivierten Bereiche der Informationsverarbeitung, wie z.B. evolutionäre Algorithmen.
@@ Zeile 17: / Zeile 20: @@
 <div id="fig:LVSRS" class="figure">
-[[File:./figs/LVSRS.pdf]]
+[[Datei:LVSRS.jpg|460px|thumb|center|Abbildung 2: Large Vocabulary Speech Recognition System - Architektur (Quelle: [https://www.researchgate.net/figure/Architecture-of-a-state-of-the-art-automatic-speech-recognition-system-and-its-components_fig1_259118437 LVSRS]).]] <span id="fig:LVSRS" label="fig:LVSRS"></span>
 </div>
 Mittlerweile führte die Entwicklung von Ideen zur Wissensdarstellung zu fortgeschritteneren Ansätzen wie Ontologie oder Wissensgraphen, WG (Knowledge Graph - KG).
@@ Zeile 26: / Zeile 32: @@
 <div id="fig:AI_subsets" class="figure">
-[[File:./figs/AI_subsets.jpg]]
+[[Datei:AI_subsets.jpg|460px|thumb|center|Abbildung 3: Funktionale Teilmengen der KI und ihre Beziehung zueinander (Quelle: [https://1spatial.com/news-events/2021/why-a-rules-based-plus-a-machine-learning-hybrid-approach/ Teilmengen der KI]).
+]] <span id="fig:AI_subsets" label="fig:AI_subsets"></span>
 </div>
 Die jüngste Entwicklung im Bereich der KI ist die Anwendung spezifischer großer Sprachmodelle (Large Language Model) und fortschrittlicher Techniken wie beispielweise generatives Transformer (generative transformer), die zu Produkten führen, wie z. B. ChatGPT 3.5.
@@ Zeile 91: / Zeile 100: @@
 Die Auswirkung der jüngsten Entwicklung von NN auf andere KI-Konzepte führte zu modernen KI-Modellkombinationen. Die beiden wichtigsten sind vielleicht die neuronale Sprachmodellierung und das große Sprachmodelle.
-Neuronale Sprachmodelle (Neural LM - NLM) sind Sprachmodelle, die auf rekurrentes NN basieren. Sie werden auch als kontinuierlicher Raum-Sprachmodelle (continuous space LMs) bezeichnet. Sie transformieren die Sprachmodell Darstellung von Wörtern durch Einbettung in einen kontinuierlichen niedrigdimensionalen Vektorraum, den sogenannten Embedding Space. Dies hat den Vorteil, dass die semantisch ähnlichen Einheiten im Einbettungsraum näher beieinander liegen. Solche Einheiten können Korpusteile, Sätze, Wortteile oder Zeichen sein. Durch dieser Beziehungen können Sollche Sprachmodelle die unsichtbaren Grams gut abschätzen und daher mit dem Problem von unsichtbaren Grams von SLMs gut umgehen. Darüber hinaus stellen NLMs die Wörter als nichtlineare Kombinationen von Gewichten in einem neuronalen Netz dar [@Bengio08]. Die NLMs können entweder als nicht-kontextuelle Einbettungen (Non-contextual Embeddings) oder als kontextuelle Einbettungen (Contextual Embeddings) kategorisiert werden. Nicht-kontextuelle Einbettungen wenden dieselben Einbettungen für eine bestimmte semantische Einheit an, unabhängig vom gegebenen Kontext. Beispiele für nicht-kontextuelle Einbettungen sind Word2Vec oder Wikipedia2Vec . Im Gegensatz dazu können kontextuelle Einbettungen unterschiedliche Semantiken der semantischen Einheiten in unterschiedlichen Kontexten darstellen. Beispiele für kontextuelle Einbettungen sind die von Google  eingeführten BERT (Bidirectional Encoder Representations from Transformers) oder Sentence-BERT (SBERT), eine verfeinerte Version von BERT. Das Transformer (transformer model) ist eine spezifische NN-Architektur, die von Vaswani et al. eingeführt wurde.
+Neuronale Sprachmodelle (Neural LM - NLM) sind Sprachmodelle, die auf rekurrentes NN basieren. Sie werden auch als kontinuierlicher Raum-Sprachmodelle (continuous space LMs) bezeichnet. Sie transformieren die Sprachmodell Darstellung von Wörtern durch Einbettung in einen kontinuierlichen niedrigdimensionalen Vektorraum, den sogenannten Embedding Space. Dies hat den Vorteil, dass die semantisch ähnlichen Einheiten im Einbettungsraum näher beieinander liegen. Solche Einheiten können Korpusteile, Sätze, Wortteile oder Zeichen sein. Durch dieser Beziehungen können Sollche Sprachmodelle die unsichtbaren Grams gut abschätzen und daher mit dem Problem von unsichtbaren Grams von SLMs gut umgehen. Darüber hinaus stellen NLMs die Wörter als nichtlineare Kombinationen von Gewichten in einem neuronalen Netz dar [Bengio(2008)]. Die NLMs können entweder als nicht-kontextuelle Einbettungen (Non-contextual Embeddings) oder als kontextuelle Einbettungen (Contextual Embeddings) kategorisiert werden. Nicht-kontextuelle Einbettungen wenden dieselben Einbettungen für eine bestimmte semantische Einheit an, unabhängig vom gegebenen Kontext. Beispiele für nicht-kontextuelle Einbettungen sind Word2Vec [Mikolov et al.(2013)] oder Wikipedia2Vec [Yamada et al.(2018)]. Im Gegensatz dazu können kontextuelle Einbettungen unterschiedliche Semantiken der semantischen Einheiten in unterschiedlichen Kontexten darstellen. Beispiele für kontextuelle Einbettungen sind die von Google [Devlin et al.(2019)] eingeführten BERT (Bidirectional Encoder Representations from Transformers) oder Sentence-BERT (SBERT), eine verfeinerte Version von BERT. Das Transformer (transformer model) ist eine spezifische NN-Architektur, die von Vaswani et al. eingeführt wurde [Vaswani et al.(2017)].
 Große Sprachmodelle (Large Language Models - LLM) sind Transformers-basierte LMs, die durch selbstüberwachtes Lernen vorab trainiert werden. LLMs lernen Milliarden von Parametern während des Trainings und benötigen große Rechenressourcen sowohl für das Training als auch während des Betriebs. Sie scheinen ein allgemeines Sprachverständnis erreichen zu können und können Antworten in Form von menschenähnlichem Text generieren. Diese LLMs werden in generativen KI-Systemen eingesetzt. Aktuelle Versionen können bestimmte Aufgaben mittels Promt Engineering erledigen. Promt Engineering ermöglicht eine Gestaltung von Eingaben für das System mittels Eingabeaufforderungen (promts), die vom LLM interpretiert werden können, und dadurch wird das Aufmerksamkeitsmechanismus des Modells auf das nähere Einschränken der Aufgabe gesteuert. Die bekanntesten Beispiele sind das GPT-3.5- und GPT-4-Modell von Open AI (verwendet in ChatGPT) und Googles PaLM (verwendet in Bard).
@@ Zeile 137: / Zeile 146: @@
 \nabla_{{\bf w}} \left( \lVert {\bf X}{\bf w}  - {\bf y} \rVert_2^2 \right) &= \nabla_{{\bf w}} \left({\bf X}{\bf w}  - {\bf y} \right)^T \left({\bf X}{\bf w}  - {\bf y} \right) \\
 &= \nabla_{{\bf w}} \left( {\bf w}^T {\bf X}^T{\bf X}{\bf w} - 2  {\bf w}^T {\bf X}^T {\bf y} +  {\bf y}^T  {\bf y}\right)
-= 2 {\bf X}^T{\bf X}{\bf w} - 2 {\bf X}^T {\bf y} = 0, \nonumber
+= 2 {\bf X}^T{\bf X}{\bf w} - 2 {\bf X}^T {\bf y} = 0,
 \end{aligned}</math>
@@ Zeile 179: / Zeile 188: @@
 &= \arg \max_{\bf \hat{y}} \left(-K \log(\sigma) -\frac{K}{2} \log(2 \pi) - \sum_{k=1}^{K} \frac{(y_k-\hat{y_k})^2}{2\sigma^2} \right) \\
 &= \arg \max_{\bf \hat{y}} \left(-\sum_{k=1}^{K} (y_k-\hat{y_k})^2\right)
-= \arg \min_{\bf \hat{y}} \sum_{k=1}^{K} (y_k-\hat{y_k})^2 =  \arg \min_{\bf \hat{y}} \lVert {\bf \hat{y}} - {\bf y} \rVert_2^2 \nonumber.
+= \arg \min_{\bf \hat{y}} \sum_{k=1}^{K} (y_k-\hat{y_k})^2 =  \arg \min_{\bf \hat{y}} \lVert {\bf \hat{y}} - {\bf y} \rVert_2^2.
 \end{aligned}</math>
@@ Zeile 188: / Zeile 197: @@
 <span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Allgemeine Diskriminanzfunktionen''</span>
-Eine allgemeine Möglichkeit, einen Klassifikator (classifier) darzustellen, besteht darin, ihn durch eine Menge von Diskriminanzfunktionen (discriminant functions) <math display="inline">d_i({\bf x})</math> für <math display="inline">i=1,\ldots,C</math> anzugeben. Der Klassifikator entscheidet, die Klasse <math display="inline">c_i</math> dem Feature Vektoren <math display="inline">{\bf x}</math> als Eingabe zuzuweisen, wenn <math display="block">d_i({\bf x}) > d_j({\bf x})   \mathrm{~für~alle~} j \neq i.</math>
+Eine allgemeine Möglichkeit, einen Klassifikator (classifier) darzustellen, besteht darin, ihn durch eine Menge von Diskriminanzfunktionen (discriminant functions) <math display="inline">d_i({\bf x})</math> für <math display="inline">i=1,\ldots,C</math> anzugeben. Der Klassifikator entscheidet, die Klasse <math display="inline">c_i</math> dem Feature Vektoren <math display="inline">{\bf x}</math> als Eingabe zuzuweisen, wenn <math display="block">d_i({\bf x}) > d_j({\bf x})   \mathrm{fuer~alle~} j \neq i.</math>
 Also der Klassifikator entscheidet die Klasse mit dem höchsten Diskriminanzfunktionswert, was die Benennung Diskriminanzfunktion erklärt. Ein Beispiel für den Klassifikator ist der Klassifikator des minimalen Fehlerrates (minimum error-rate classifier). Sei <math display="inline">p(c_j|{\bf x})</math>, <math display="inline">j=1,\ldots,C</math> die Wahrscheinlichkeit der Klasse <math display="inline">c_j</math>, gegeben der Feature Vector <math display="inline">{\bf x}</math>. Dann die Klasse <math display="inline">c_i</math> mit der höchsten <math display="inline">p(c_i|{\bf x})</math> ist gleichzeitig auch die Klasse mit dem minimalen Fehlerrate <math display="inline">(1-p(c_i|{\bf x}))</math>. Daher kann die Diskriminanzfunktion für den Klassifikator des minimalen Fehlerrates durch <math display="block">d_i({\bf x}) = p(c_i|{\bf x})</math> angegeben werden. Dies kann weiter vereinfacht werden, indem verwendet wird, dass der Nenner von <math display="block">p(c_i|{\bf x})= \frac{p({\bf x}|c_i ) p(c_i)}{\sum_{j=1}^{C} p({\bf x}|c_j ) p(c_j) }</math> unabhängib von <math display="inline">i</math> ist, was zu einer alternativen Diskriminanzfunktion als <math display="block">d_i({\bf x}) = p({\bf x}|c_i ) p(c_i)</math> führt. Auf Diskriminanzfunktionen kann jede monotone Funktion angewendet werden, da sie die zur Maximalfunktion gehörende Klasse nicht verändert. Daher kann mit Hilfe der monotonen Funktion <math display="inline">\log()</math> as eine weitere Diskriminanzfunktion für den Klassifikator der minimalen Fehlerrate als <math display="block">d_i({\bf x}) = \log~ p({\bf x}|c_i ) + log p(c_i))</math> definiert werden.
@@ Zeile 224: / Zeile 233: @@
 <div id="fig:LinDiscrFuncHyperProp" class="figure">
-[[File:./figs/LinDiscrFuncHyperProp.pdf]]
+[[Datei:LinDiscrFuncHyperProp.jpg|460px|thumb|center|Abbildung 4: Lineare Entscheidungsgrenze und ihre Eigenschaften. (In der Abbildung wird die Diskriminanzfunktion mit <math display="inline">g({\bf x})</math> statt <math display="inline">d({\bf x})</math> kennengezeichnet.) (Quelle: [Duda et al.(2001)]).]] <span id="fig:LinDiscrFuncHyperProp" label="fig:LinDiscrFuncHyperProp"></span>
 </div>
 Wenn wir <math display="inline">0 = d({\bf x}_p) = {\bf w}^T {\bf x}_p + w_0</math>, für <math display="inline">d({\bf x})</math> verwenden, erhalten wir
@@ Zeile 243: / Zeile 255: @@
 Die Entscheidungsregel ist dieselbe wie für die allgemeinen Diskriminanzfunktionen:
-<math display="block">\mathrm{~Entscheide~} c_i  \mathrm{~wenn~} d_i({\bf x}) > d_j({\bf x})   \mathrm{~für~alle~} j \neq i.</math>
+<math display="block">\mathrm{~Entscheide~} c_i  \mathrm{~wenn~} d_i({\bf x}) > d_j({\bf x})   \mathrm{~fuer~alle~} j \neq i.</math>
 Wenn die Werte zweier oder mehrerer Diskriminanzfunktionen für ein bestimmtes <math display="inline">{\bf x}</math> gleich sind, was (wie in der Statistik) Bindungen genannt wird, ist die Entscheidung undefiniert. Der Klassifikator mit linearen Diskriminanzfunktionen <math display="inline">C</math> wird auch als lineare Maschine (linear machine) bezeichnet. Es unterteilt den d-dimensionalen Feature Space in <math display="inline">C</math> disjunkte Entscheidungsregionen. Für die Grenze zwischen zwei benachbarten Entscheidungsregionen <math display="inline">{\mathcal{R}_i}</math> und <math display="inline">{\mathcal{R}_j}</math> gilt <math display="inline">d_i({\bf x}) = d_j({\bf x})</math>, oder gleichwertig
@@ Zeile 300: / Zeile 312: @@
 ausgedrückt werden, wobei wir in der ersten Gleichung den Multiplikationssatz der Wahrscheinlichkeit (multiplication theorem of probability) und in der zweiten Gleichung die Markov-Eigenschaft (Markov property) verwendet haben.
-Dies kann durch die Einführung einer Indikatorvariablen wie <math display="block">\log~ p(\overrightarrow{\bf z})=\sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\} } \log~ {\bf A}_{i,j} + \log~ p(z_0)</math>
+Dies kann durch die Einführung einer Indikatorvariablen wie <math display="block">\log~ p(\overrightarrow{\bf z})=\sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i, z_{t} = s_j\} } \log~ {\bf A}_{i,j} + \log~ p(z_0)</math>
 weiter umgestaltet werden. Das Weglassen des Terms <math display="inline">\log~ p(z_0)</math> hat keinen Einfluss auf den Ort des Maximums der Log-Likelihood, da dieser nicht von der Matrix <math display="inline">{\bf A}</math> abhängt. Darüber hinaus müssen bei der Optimierung einige Einschränkungen der Matrix <math display="inline">{\bf A}</math> berücksichtigt werden. Die Matrix <math display="inline">{\bf A}</math> ist stochastisch und daher
@@ Zeile 310: / Zeile 322: @@
 <math display="block">\begin{aligned}
-&\arg\max_{{\bf A}} \sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} \log~ {\bf A}_{i,j}, ~  \\
+&\arg\max_{{\bf A}} \sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} \log~ {\bf A}_{i,j}, ~  \\
-&\mathrm{~mit~Nebenbedingungen~}~\sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1,  \mathrm{~for~} i = 1, \ldots, |\mathcal{S}|
+&\mathrm{~mit~Nebenbedingungen~}~\sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1,  \mathrm{~fuer~} i = 1, \ldots, |\mathcal{S}|
 \end{aligned}</math> formuliert werden.
@@ Zeile 318: / Zeile 330: @@
 Die Anwendung des Verfahrens der Lagrange-Multiplikatoren erfordert die Einführung von <math display="inline">|S|</math>-fachen Lagrange-Multiplikatoren (Lagrange multipliers), <math display="inline">\alpha_i</math> für <math display="inline">i = 1, \ldots, |\mathcal{S}|</math>, die in einem Vektor <math display="inline">{\boldsymbol{\alpha}}</math> angeordnet werden können. Somit kann die Lagrange-Funktion (Lagrange function) als
-<math display="block">\mathcal{L}({\bf A}, {\boldsymbol{\alpha}}) = \sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} \log~{\bf A}_{i,j} + \sum_{i=1}^{|\mathcal{S}|} \alpha_i \left(1 - \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} \right)</math> angegeben werden.
+<math display="block">\mathcal{L}({\bf A}, {\boldsymbol{\alpha}}) = \sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} \log~{\bf A}_{i,j} + \sum_{i=1}^{|\mathcal{S}|} \alpha_i \left(1 - \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} \right)</math> angegeben werden.
 Wenn man die erste Ableitung der Lagrange-Funktion nach <math display="inline">{\bf A}_{i,j}</math> nimmt und gleich 0 macht, erhält man
-<math display="block">\frac{\partial \mathcal{L}}{\partial {\bf A}_{i,j}} = \frac{1}{{\bf A}_{i,j}}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} - \alpha_i = 0, ~ i,j = 1, \ldots, |\mathcal{S}|,</math> woraus <math display="inline">{\bf A}_{i,j}</math> als <math display="block">{\bf A}_{i,j} = \frac{1}{\alpha_i}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}}, ~ i,j = 1, \ldots, |\mathcal{S}|</math>
+<math display="block">\frac{\partial \mathcal{L}}{\partial {\bf A}_{i,j}} = \frac{1}{{\bf A}_{i,j}}\sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} - \alpha_i = 0, ~ i,j = 1, \ldots, |\mathcal{S}|,</math> woraus <math display="inline">{\bf A}_{i,j}</math> als <math display="block">{\bf A}_{i,j} = \frac{1}{\alpha_i}\sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}}, ~ i,j = 1, \ldots, |\mathcal{S}|</math>
-ausgedrückt werden kann. Nimmt man nun die erste Ableitung der Lagrange-Funktion nach <math display="inline">\alpha_i</math>, macht sie gleich 0 und wendet die obige Formel <math display="inline">{\bf A}_{i,j}</math> an, erhält man <math display="block">\frac{\partial \mathcal{L}}{\partial \alpha_i} = 1 - \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1 - \sum_{j=1}^{|\mathcal{S}|} \frac{1}{\alpha_i}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} = 0,</math> woraus wir die Lösung für <math display="inline">\alpha_i</math> als <math display="block">\alpha_i = \sum_{j=1}^{|\mathcal{S}|} \sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} = \sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i\}}, ~ i = 1, \ldots, |\mathcal{S}|</math>
+ausgedrückt werden kann. Nimmt man nun die erste Ableitung der Lagrange-Funktion nach <math display="inline">\alpha_i</math>, macht sie gleich 0 und wendet die obige Formel <math display="inline">{\bf A}_{i,j}</math> an, erhält man <math display="block">\frac{\partial \mathcal{L}}{\partial \alpha_i} = 1 - \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1 - \sum_{j=1}^{|\mathcal{S}|} \frac{1}{\alpha_i}\sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} = 0,</math> woraus wir die Lösung für <math display="inline">\alpha_i</math> als <math display="block">\alpha_i = \sum_{j=1}^{|\mathcal{S}|} \sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} = \sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i\}}, ~ i = 1, \ldots, |\mathcal{S}|</math>
-erhalten. Wenn wir die Formel von <math display="inline">\alpha_i</math> in der Formel von <math display="inline">{\bf A}_{i,j}</math> anwenden, erhalten wir die Schätzung für <math display="inline">{\bf A}_{i,j}</math> als <math display="block">{\bf A}_{i,j} = \frac{\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}}}{\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i\}}} ~ i,j = 1, \ldots, |\mathcal{S}|.</math>
+erhalten. Wenn wir die Formel von <math display="inline">\alpha_i</math> in der Formel von <math display="inline">{\bf A}_{i,j}</math> anwenden, erhalten wir die Schätzung für <math display="inline">{\bf A}_{i,j}</math> als <math display="block">{\bf A}_{i,j} = \frac{\sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}}}{\sum_{t=1}^{T} \mathbf{1}_{\{z_{t-1} = s_i\}}} ~ i,j = 1, \ldots, |\mathcal{S}|.</math>
 Diese Schätzung von <math display="inline">{\bf A}_{i,j}</math> kann als die Anzahl der Übergange <math display="inline">s_i \rightarrow s_j</math> geteilt durch die Anzahl der der Beobachtungen, die die DTMC im Zustand <math display="inline">s_i</math> finden, interpretiert werden. Diese Schätzung passt auch zur unserer menschlichen Intuition.
@@ Zeile 347: / Zeile 359: @@
 <div id="fig:MDP_example" class="figure">
-[[File:./figs/MDP_example.pdf]]
+[[Datei:MDP_example.jpg|460px|thumb|center|Abbildung 5: Beispieldiagramm eines MDPs (Quelle: [https://en.wikipedia.org/wiki/Markov_decision_process MDP_Beispiel]).]] <span id="fig:MDP_example" label="fig:MDP_example"></span>
 </div>
 MDP ist eine Erweiterung des DTMC, indem ihm Aktionen (die Auswahlmöglichkeiten ermöglichen) und Belohnungen (Feedback aus der Umgebung zum Lernen Lernzwecken) hinzugefügt werden. Dies impliziert, dass ein MDP mit nur einer Aktion und einer gemeinsamen Belohnung auf einen DTMC reduziert wird. MDP kann zur Lösung von Optimierungsaufgaben eingesetzt werden und wird üblicherweise durch dynamische Programmierung (dynamic programming) umgesetzt.
@@ Zeile 359: / Zeile 374: @@
 <span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Definition von CI'''''</span>
-Es gibt keine allgemein akzeptierte eindeutige Definition von CI. Die erste Definition stammt aus dem Jahr 1994 von Bezdek (siehe in ) und definiert CI durch die folgenden Merkmalen:
+Es gibt keine allgemein akzeptierte eindeutige Definition von CI. Die erste Definition stammt aus dem Jahr 1994 von Bezdek (siehe in [Siddique et al.(2013)]) und definiert CI durch die folgenden Merkmalen:
 * befasst sich mit numerischen Daten,
@@ Zeile 394: / Zeile 409: @@
 <div id="fig:CI" class="figure">
-[[File:./figs/CI.pdf]]
+[[Datei:CI.jpg|460px|thumb|center|Abbildung 6: Computational Intelligence (Quelle: [https://botpenguin.com/glossary/computational-intelligence Computational_Intelligence]).]] <span id="fig:CI" label="fig:CI"></span>
 </div>
 <span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Evolutionäre Algorithmen (EA)'''''</span>
@@ Zeile 584: / Zeile 602: @@
 * AI Now Institute: Eine gemeinnützige Organisation an der New York University (https://ainowinstitute.org/), die sich mit der sozialen Auswirkungen der KI beschäftigt.
-Laut Luciano Floridi und Josh Cowls herrscht eine weitgehende Übereinstimmung darüber, dass es möglich ist, die ethischen Prinzipien für gesellschaftlich nützlichen Einsatz von KI basierend auf die vier Prinzipien der Medizinethik und ein zusätzliches fünftes Prinzip, Erklärbarkeit aufzubauen :
+Laut Luciano Floridi und Josh Cowls herrscht eine weitgehende Übereinstimmung darüber, dass es möglich ist, die ethischen Prinzipien für gesellschaftlich nützlichen Einsatz von KI basierend auf die vier Prinzipien der Medizinethik und ein zusätzliches fünftes Prinzip, Erklärbarkeit aufzubauen [FloridiCowls(2019)]:
 ,,1. Fürsorge (Benefizienz): KI-Technologie soll der Menschheit nützen, das Wohlergehen fördern, die Menschenwürde wahren und der Erhaltung des Planeten dienen.<br />

Einführung in Computational Intelligence und AI: Unterschied zwischen den Versionen