Einführung in Computational Intelligence und AI: Unterschied zwischen den Versionen
(Die Seite wurde geleert.) Markierung: Geleert |
|||
Zeile 1: | Zeile 1: | ||
<span id="einführung-in-computational-intelligence-und-ai"></span> | |||
= Einführung in Computational Intelligence und AI = | |||
Die Idee hinter der künstlichen Intelligenz, KI (Artificial Intelligence - AI), bestand darin, die Prozesse der menschlichen Wahrnehmung wie Denken, Lernen oder Mustererkennung (pattern recognition) nachzubilden. Das Erscheinen der KI in der akademischen Welt begann mit der Simulation des Verhaltens neuronaler Netze bei IBM im Jahr 1955. Dies führte zu einer Konferenz zu diesem Thema, die heute als Dartmouth-Konferenz bekannt ist und als Geburtsstunde der künstlichen Intelligenz gilt. | |||
Die Geschichte der KI als akademische Disziplin hat einen langen, weitreichenden und abenteuerlichen Weg zurückgelegt, der optimistische und zweifelhafte, verrufene Phasen durchquerte und durch viele wissenschaftliche Bereiche führte. Es begann mit dem Studium der ,,formalen“Argumentation, das unter anderem zu Alan Turings Berechnungstheorie oder zur Programmiersprache Lisp sowie zum kommerziellen Erfolg von Expertensystemen (Abbildung [[#fig:Expert_System|1]]) in den frühen 1980er Jahren führte. Es folgte eine eher zweifelhafte Zeitraum, während andere Ansätze wuchsen, wie z.B. Bewegen von technischen Maschinen. | |||
<div id="fig:Expert_System" class="figure"> | |||
[[File:./figs/Expert_System.pdf]] | |||
</div> | |||
Mit der rasanten Entwicklung der Rechengeschwindigkeit und -fähigkeiten der Computer entstanden spätestens in den 1990er Jahren rechenintensive Zweige der KI. Computational Intelligence (CI) umfasst die biologisch motivierten Bereiche der Informationsverarbeitung, wie z.B. evolutionäre Algorithmen. | |||
Maschinelles Lernen (Machine Learning - ML) ist ein umfassender Zweig der KI, der viele rechenintensive Teilbereiche umfasst. Eine davon ist die auf statistischen Ansätzen basierende Mustererkennung, die Ende der 1990er Jahre zu einem großen kommerziellen Erfolg bei Befehls- und Kontrollsystemen (Command&Control Systems), Spracherkennungssystemen mit großem Vokabular (Large Vocabulary Speech Recognition Systems - LVSRS) und ihren Anwendungen in Callcentern und in der Radiologie führte. Diese technologische Ansätze haben sich in den 2000er Jahren abgeflacht, als sie die Rahmen des angewandten statistischen Ansatzes ausgeschöpft haben.. | |||
<div id="fig:LVSRS" class="figure"> | |||
[[File:./figs/LVSRS.pdf]] | |||
</div> | |||
Mittlerweile führte die Entwicklung von Ideen zur Wissensdarstellung zu fortgeschritteneren Ansätzen wie Ontologie oder Wissensgraphen, WG (Knowledge Graph - KG). | |||
Die wichtigste Entwicklung war jedoch die Wiederbelebung der neuronalen Netzwerkforschung, die zu vielen erfolgreichen Anwendungen führte, wie z.B. Erkennung handgeschriebener Ziffern (handwritten digit recognition). Der eigentliche Durchbruch bei der Verwendung neuronaler Netze (Neural Networks - NNs) kam mit Deep Learning, das erfolgreich auf die Klassifizierung großer Datenmengen angewendet werden kann, wie z.B. Bilder. Der Erfolg von Deep Learning führte zu einem enormen Anstieg des Interesses an und der Finanzierung von KI. Deep Reinforcement Learning ermöglicht die erfolgreiche Umsetzung automatischer Steuerungsaufgaben. Die Abbildung [[#fig:AI_subsets|3]] zeigt mehrere funktionale Teilmengen der KI und ihre Beziehung zueinander. | |||
<div id="fig:AI_subsets" class="figure"> | |||
[[File:./figs/AI_subsets.jpg]] | |||
</div> | |||
Die jüngste Entwicklung im Bereich der KI ist die Anwendung spezifischer großer Sprachmodelle (Large Language Model) und fortschrittlicher Techniken wie beispielweise generatives Transformer (generative transformer), die zu Produkten führen, wie z. B. ChatGPT 3.5. | |||
Im Wesentlichen soll KI die unterschiedlichen Fähigkeiten der menschlichen Intelligenz umsetzen. Dazu gehören Lernen, Wahrnehmung, logisches Denken, Abstraktion sowie komplexere Fähigkeiten wie z.B. Zusammenfassung, Kontrolle, Aufgabenlösungsfähigkeiten und vieles mehr. Eines der langfristigen Ziele ist die Schaffung einer allgemeinen Intelligenz, der sogenannten Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence - AGI), die eine Vielzahl von Problemen ähnlich der menschlichen Intelligenz lösen könnte. | |||
Raymond Kurzweil, Pionier unter anderen der optischen Texterkennung, (auch optische Zeichenerkennung genannt, Optical Character Recognition - OCR),<br /> | |||
Sprachsynthese (speech synthesis), Spracherkennung, ein Visionär der künstlichen Intelligenz hat vorhergesagt, dass (einfach formuliert) spätestens im Jahr 2029 die KI Systeme klüger sein werden als das Mensch. Kritiker sagen, dass in der Richtung der Entwicklung zukünftiger Technologien er wahrscheinlich Recht hat, aber die prognostizierte Zeitspanne stimmt nicht, er ist zu optimistisch. | |||
KI ist eine unvermeidliche zukünftige Entwicklungsrichtung und eine der Kernfachgebiete der Wissenschaftsfeld Data Science. | |||
<span id="grundlagen-von-computational-intelligence-und-ai"></span> | |||
== Grundlagen von Computational Intelligence und AI == | |||
Es gibt keine Einheitliche Definition von KI. Eine mögliche ausdrucksvolle Definition kann wie folgt angegeben werden: KI ist das Teilgebiet der Informatik, das sich mit Entwicklung und Untersuchung von intelligenten Maschinen beschäftigt. Allerdings unter KI ist auch die ,,intelligente Maschine“ selbst zu verstehen. | |||
<span id="mathematische-grundkonzepte-von-ki"></span> | |||
=== Mathematische Grundkonzepte von KI === | |||
Die Ziele von KI sind Teilmenge möglicher Arten menschlicher intelligenter Aktivitäten zu implementieren. Dazu gehört Argumentation (reasoning), Planung (planning), Wissensrepräsentation (knowledge representation), Lernen (learning), Wahrnehmung (perception), Unterstützung für Robotik (support for robotics) und Verarbeitung natürlicher Sprache (natural language processing). | |||
Im Folgenden geben wir eine kurze mathematische Beschreibung einiger ausgewählten grundlegender Konzepte der KI. Das beinhaltet | |||
# Wissensrepräsentation, | |||
# Linear regression, | |||
# Klassifikation - lineare Diskriminanzfunktionen, | |||
# Lernen aus Beispiele und | |||
# Learning durch Steuereung - MDP. | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Wissensrepräsentation'''''</span> | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Sprachmodellierung''</span> | |||
Die Darstellung von Wissen auf Wortebene kann durch ein probabilistisches Modell natürlicher Sprache realisiert werden, das als Sprachmodell (Language Model - LM) bezeichnet wird. Normalerweise wird ein LM verwendet, um die Wahrscheinlichkeit einer bestimmten Wortfolge <math display="inline">w_1,w_2,...,w_n</math> abzuschätzen. Die Wahrscheinlichkeit <math display="inline">p(w_1,w_2,...,w_n)</math> kann als Produkt der bedingten Wahrscheinlichkeiten als | |||
<math display="block">p(w_1,w_2,...,w_n) =p(w_1)p(w_2|w_1)...p(w_n|w_{n-1},...,w_2,w_1)</math> | |||
angegeben werden. Im N-Gram-Sprachmodell (N-gram LM) wird angenommen, dass das Wort <math display="inline">w_n</math> einer Wortfolge, in der bedingten Wahrscheinlichkeit <math display="inline">p(w_n|w_{n-1},...,w_2,w_1)</math> näherungsweise nur von <math display="inline">(N-1)</math> Vorgengewörtern abhangig ist. Für <math display="inline">N=1</math>, <math display="inline">N=2</math> und <math display="inline">N=3</math> wird das N-Gram Sprachmodell als Unigram-Sprachmodell, Bigram-Sprachmodell bzw. Trigram-Sprachmodell genannt. Im<br /> | |||
Bigram-Sprachmodell is est angenommen, dass das Wort <math display="inline">w_n</math> nur vom Vorgängewort <math display="inline">w_{i-1}</math> abhängt: <math display="block">p(w_n|w_{n-1},...,w_2,w_1) \approx p(w_n|w_{n-1}).</math> In ähnlicher Weise wird in Trigram-Sprachmodell angenommen dass das Wort <math display="inline">w_n</math> einer Wortfolge nur von zwei Vorgängewörtern abhängig wird: <math display="block">p(w_n|w_{n-1},...,w_2,w_1) \approx p(w_n|w_{n-1},w_{n-2}).</math> | |||
Die bedingten Wahrscheinlichkeiten <math display="inline">p(w_i|w_{i-1},w_{i-2},...,w_{i-N+1})</math> eines N-Gram Sprachmodells können aus den relativen Häufigkeiten als | |||
<math display="block">\begin{aligned} | |||
p(w_i|w_{i-1},w_{i-2},...,w_{i-N+1}) &= \frac{p(w_{i},w_{i-1},...,w_{i-N+1})}{p(w_{i-1},w_{i-2},...,w_{i-N+1})} \\ | |||
&\approx \frac{c(w_{i},w_{i-1},...,w_{i-N+1})}{c(w_{i-1},w_{i-2},...,w_{i-N+1})} | |||
\end{aligned}</math> | |||
geschätzt werden, wobei <math display="inline">c(x_1,\ldots,x_k)</math> für die Anzahl der Vorkommen der Zeichenfolge <math display="inline">x_1,\ldots,x_k</math> steht, die auch als count von <math display="inline">x</math> bezeichnet wird. Entsprechend wird <math display="inline">w_{i},w_{i-1},...,w_{i-N+1}</math> und die count <math display="inline">c(w_{i},w_{i-1},...,w_{i-N+1})</math> als N-Gram bzw. N-Gram-count bezeichnet. Die bedingten Wahrscheinlichkeiten<br /> | |||
<math display="inline">p(w_i|w_{i-1},w_{i-2},...,w_{i-N+1})</math> eines N-Gram Sprachmodells werden als N-Gram Wahrscheinlichkeiten bezeichnet. | |||
Das N-Gram Sprachmodell ist ein rein statistisches Sprachmodell (statistical LM - SLM), da es auf N-Gram-Statistiken der Trainingskorpora (wie N-Gram-count) trainiert wird. Zuverlässige Schätzungen der bedingten Wahrscheinlichkeiten des N-Gram Sprachmodells <math display="inline">p(w_i|w_{i-1},w_{i-2},...,w_{i-N+1})</math> erfordern das Auftreten der entsprechenden N-Grams und (N-1)-Grams in den Trainingskorpora. Das Vorhandensein aller N-Grams und (N-1)-Grams in den Trainingskorpora ist jedoch praktisch nicht möglich, da hierfür ein sehr großer Trainingskorpus erforderlich wäre, um alle <math display="inline">|V|^N</math> mögliche N-Grams in den Trainingskorpora vorkommen haben. So große Trainingskorpora sind normalerweise nicht verfügbar. Die unsichtbaren N-Grams führen zu fehlenden Schätzungen, da der SLM den N-Grams, die nicht im Trainingskorpus erscheinen, keine Wahrscheinlichkeit zuordnen kann. Dieses Problem wird normalerweise durch die Anwendung von Glättung (smoothing) gelöst, bei denen ein kleiner Teil des Wahrscheinlichkeitsmaßes auf die unsichtbaren Grams aufgeteilt wird. | |||
Die effektivste Glättungsmethode ist die Kneser-Ney-Glättung, bei der ein fester Rabattwert, <math display="inline">\delta</math>, von der Schätzung der bedingten Bigram-Wahrscheinlichkeiten mit niedrigeren Häufigkeiten abgezogen wird und werden die so gewonnenen Wahrscheinlichkeiten über alle nicht erscheinenden N-Gram Wahrscheinlichkeiten verteilt werden. Die Berechnungsformel der Bigram-Wahrscheinlichkeiten lautet: | |||
<math display="block">\begin{aligned} | |||
&p_{KN}(w_i|w_{i-1}) = \frac{max(c(w_{i-1},w_i)-\delta,0)}{\sum_{w_j} c(w_{i-1},w_j)} + \lambda_{w_{i-1}}p_{KN}(w_i) \mathrm{~and~} \\ &p_{KN}(w_i) = \frac{|{w_j: 0 < c(w_j,w_i)}|}{|{(w_j,w_k): 0 < c(w_j,w_k)}|}. | |||
\end{aligned}</math> | |||
Hier ist <math display="inline">\lambda_{w_{i-1}}</math> eine Normalisierungskonstante, die so eingestellt ist, dass die Summe von <math display="inline">p_{KN}(w_i|w_{i_1})</math> über alle <math display="inline">w_i</math> gleich eins ist. Die unsichtbaren Bigram-Wahrscheinlichkeiten werden durch den ungewöhnlichen Term <math display="inline">p_{KN}(w_i)</math> bestimmt, der eine Schätzung für eine unsichtbare Bigram-Wahrscheinlichkeit aus anderen Bigram-counts verbunden mit <math display="inline">w_i</math> realisiert. Genauer gesagt es ist die Bigram-count anderer Wörter <math display="inline">w_j</math> gesehen mit dem betrachteten Wort <math display="inline">w_i</math> dividiert durch die Summe der gesehenen Bigram-counts dieser <math display="inline">w_j</math>-s mit anderen Wörtern. | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Fortgeschrittene Sprachmodelle''</span> | |||
Die Auswirkung der jüngsten Entwicklung von NN auf andere KI-Konzepte führte zu modernen KI-Modellkombinationen. Die beiden wichtigsten sind vielleicht die neuronale Sprachmodellierung und das große Sprachmodelle. | |||
Neuronale Sprachmodelle (Neural LM - NLM) sind Sprachmodelle, die auf rekurrentes NN basieren. Sie werden auch als kontinuierlicher Raum-Sprachmodelle (continuous space LMs) bezeichnet. Sie transformieren die Sprachmodell Darstellung von Wörtern durch Einbettung in einen kontinuierlichen niedrigdimensionalen Vektorraum, den sogenannten Embedding Space. Dies hat den Vorteil, dass die semantisch ähnlichen Einheiten im Einbettungsraum näher beieinander liegen. Solche Einheiten können Korpusteile, Sätze, Wortteile oder Zeichen sein. Durch dieser Beziehungen können Sollche Sprachmodelle die unsichtbaren Grams gut abschätzen und daher mit dem Problem von unsichtbaren Grams von SLMs gut umgehen. Darüber hinaus stellen NLMs die Wörter als nichtlineare Kombinationen von Gewichten in einem neuronalen Netz dar [@Bengio08]. Die NLMs können entweder als nicht-kontextuelle Einbettungen (Non-contextual Embeddings) oder als kontextuelle Einbettungen (Contextual Embeddings) kategorisiert werden. Nicht-kontextuelle Einbettungen wenden dieselben Einbettungen für eine bestimmte semantische Einheit an, unabhängig vom gegebenen Kontext. Beispiele für nicht-kontextuelle Einbettungen sind Word2Vec oder Wikipedia2Vec . Im Gegensatz dazu können kontextuelle Einbettungen unterschiedliche Semantiken der semantischen Einheiten in unterschiedlichen Kontexten darstellen. Beispiele für kontextuelle Einbettungen sind die von Google eingeführten BERT (Bidirectional Encoder Representations from Transformers) oder Sentence-BERT (SBERT), eine verfeinerte Version von BERT. Das Transformer (transformer model) ist eine spezifische NN-Architektur, die von Vaswani et al. eingeführt wurde. | |||
Große Sprachmodelle (Large Language Models - LLM) sind Transformers-basierte LMs, die durch selbstüberwachtes Lernen vorab trainiert werden. LLMs lernen Milliarden von Parametern während des Trainings und benötigen große Rechenressourcen sowohl für das Training als auch während des Betriebs. Sie scheinen ein allgemeines Sprachverständnis erreichen zu können und können Antworten in Form von menschenähnlichem Text generieren. Diese LLMs werden in generativen KI-Systemen eingesetzt. Aktuelle Versionen können bestimmte Aufgaben mittels Promt Engineering erledigen. Promt Engineering ermöglicht eine Gestaltung von Eingaben für das System mittels Eingabeaufforderungen (promts), die vom LLM interpretiert werden können, und dadurch wird das Aufmerksamkeitsmechanismus des Modells auf das nähere Einschränken der Aufgabe gesteuert. Die bekanntesten Beispiele sind das GPT-3.5- und GPT-4-Modell von Open AI (verwendet in ChatGPT) und Googles PaLM (verwendet in Bard). | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Auf semantischen Relationen basierende Wissensrepräsentationen''</span> | |||
Neben LMs gibt es noch andere Möglichkeiten der Wissensrepräsentation | |||
* Semantisches Netzwerk (Semantic network) – ein Diagramm, das semantische Relationen zwischen Konzepten darstellt. Die Konzepte werden durch die Knoten repräsentiert und die Kanten spezifizieren die semantischen Relationen Ein Grund für den Entwurf semantischer Netzwerke besteht darin, Wissen in maschinenlesbarer Form darzustellen. Wissensgraphen sind semantische Netzwerke mit begrenzten semantischen Relationen. | |||
* Ontology (ontology) – hierarchische Darstellung von Konzepten und ihren Relationen, die durch eine Standard-Ontologiesprache (standard ontology language) wie Web Ontology Language (OWL, [https://en.wikipedia.org/wiki/Web_Ontology_Language Web Ontology Language]) oder Resource Description Framework (RDF, [https://en.wikipedia.org/wiki/Resource_Description_Framework Resource Description Framework]) verwaltet werden kann. | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Lineare Regression mit MSE-Framework'''''</span> | |||
Die Aufgabe der linearen Regression (linear regression) besteht darin, eine lineare Vorhersage für die zufällige skalare Ausgabe <math display="inline">y \in \mathbb{R}</math> aus dem zufälligen Eingabevektor <math display="inline">{\bf x}</math> zu geben. Sei <math display="inline">\hat{y}</math> der vorhergesagte Wert von <math display="inline">y</math>. Es wird angenommen, dass <math display="inline">y</math> linear vom Vektor <math display="inline">{\bf x}</math> abhängt, daher kann der vorhergesagte Wert <math display="inline">\hat{y}</math> als Linearkombination von <math display="inline">{\bf x}</math> als <math display="inline">\hat{y}= w_1*x_1 + \ldots + w_n*x_n</math> angegeben werden. Mit anderen Worten, in Vektorform gilt | |||
<math display="block">\hat{y}= {\bf w}^T {\bf x},</math> | |||
wobei <math display="inline">{\bf w} = (w_1,\ldots,w_n)^T</math> ein Spaltenvektor von Parametern ist. Hier steht <math display="inline">^T</math> für die Transponieren und die Vektoren sind standardmäßig Spaltenvektoren. | |||
Die Parameter <math display="inline">w_i</math> können als Gewichte angesehen werden. Wenn der Eingabewert <math display="inline">x_i</math> ein positives Gewicht hat, erhöht eine Erhöhung von <math display="inline">x_i</math> auch den vorhergesagten Wert <math display="inline">\hat{y}</math>. Wenn <math display="inline">x_i</math> ein negatives Gewicht hat, verringert eine Erhöhung von <math display="inline">x_i</math> den vorhergesagten Wert <math display="inline">\hat{y}</math>. Wenn <math display="inline">w_i</math> ein großer Wert ist, dann hat <math display="inline">x_i</math> einen großen Einfluss auf <math display="inline">\hat{y}</math>. Wenn <math display="inline">w_i=0</math>, dann hat <math display="inline">x_i</math> keinen Einfluss auf <math display="inline">\hat{y}</math>. | |||
Nehmen wir an, dass <math display="inline">K</math> Beispiele des Vektors <math display="inline">{\bf x}</math> und der korrekte Wert der Ausgabe <math display="inline">y</math> für jeden von ihnen angegeben sind. Wir ordnen die Eingabevektoren in einer Matrix <math display="inline">{\bf X}</math> so an, dass der Vektor <math display="inline">{\bf x}_k^T</math> in der <math display="inline">k</math>-ten Zeile der Matrix <math display="inline">{\bf X}</math> platziert wird, <math display="inline">k=1,\ldots,K</math>. Die Ausgabewerte und die vorhergesagten Werte werden ebenfalls in einem Spaltenvektor <math display="inline">{\bf y}</math> und <math display="inline">{\bf \hat{y}}</math> angeordnet, sodass der korrekte Wert <math display="inline">y_k</math> und der vorhergesagte Wert <math display="inline">\hat {y}_k</math>, das zum Eingabevektor <math display="inline">{\bf x}_k</math> gehört, kommt an die <math display="inline">k</math>-te Position jeweils im Vektor <math display="inline">{\bf y}</math> und <math display="inline">{\bf \hat{y}}</math>. | |||
Die Aufgabe, die Gewichte zu finden kann als Optimierungsaufgabe aufgestellt werden. Diese Optimierungsaufgabe wird durch das Extremum eines Leistungsmaßes, das die Qualität der Vorhersage quantifiziert, angegeben werden. | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Lineare Regression mit mittlerer quadratischen Abweichung''</span> | |||
Eine mögliche Wahl um die Qualität der Vorhersage zu quantifizieren, ist die mittlere quadratische Abweichung, MQA (mean squared error - MSE), die auch als mittlere quadratische Fehler (MQF) genannt ist. Die MSE wird durch | |||
<math display="block">MSE = \frac{1}{K} \sum_{k} ({\hat{y}}_k - y_k)^2 = \frac{1}{K} \lVert {\bf \hat{y}} - {\bf y} \rVert_2^2</math> | |||
gegeben, wobei <math display="inline">\lVert {\bf z} \rVert_2</math> für die <math display="inline">\mathbb{L}_2</math>-Norm von <math display="inline">z</math> steht. | |||
Der optimale Wert des Parametervektors <math display="inline">{\bf w}</math> wird durch Minimieren des MSE erhalten. Die notwendige Bedingung für ein lokales Minimum von MSE ist die Existenz eines Wertes des Parametervektors <math display="inline">{\bf w}</math>, für den der Gradient von MSE 0 ist. Es kann gezeigt werden, dass in unserem Fall MSE als Funktion von <math display="inline">{\bf w}</math> eine konvexe Funktion ist, und daher gibt es nur einen solchen Wert von <math display="inline">{\bf w}</math> und daher ist es auch der globale Minimalpunkt. So wird der beste Wert des Parametervektors <math display="inline">{\bf w}</math> durch Lösen der Gleichung | |||
<math display="block">\nabla_{{\bf w}} MSE = \nabla_{{\bf w}} \left( \frac{1}{K} \lVert {\bf \hat{y}} - {\bf y} \rVert_2^2 \right) = 0</math> | |||
erhalten, wobei <math display="inline">\nabla_{{\bf w}}</math> für den Gradienten bezüglich <math display="inline">{\bf w}</math> steht. Die vorhergesagten Ausgaben können in Vektormatrixform als <math display="inline">{\bf \hat{y}} = {\bf X}{\bf w}</math> angegeben werden. Wenn man es in der obigen Beziehung anwendet, erhält man die Gleichung für <math display="inline">{\bf w}</math> als | |||
<math display="block">\nabla_{{\bf w}} MSE = \nabla_{{\bf w}} \left( \frac{1}{K} \lVert {\bf X}{\bf w} - {\bf y} \rVert_2^2 \right) = 0.</math> | |||
Wenn wir die Konstante <math display="inline">\frac{1}{K}</math> weglassen, den Gradienten auswerten und mehrere Umordnungen durchführen, erhalten wir | |||
<math display="block">\begin{aligned} | |||
\nabla_{{\bf w}} \left( \lVert {\bf X}{\bf w} - {\bf y} \rVert_2^2 \right) &= \nabla_{{\bf w}} \left({\bf X}{\bf w} - {\bf y} \right)^T \left({\bf X}{\bf w} - {\bf y} \right) \\ | |||
&= \nabla_{{\bf w}} \left( {\bf w}^T {\bf X}^T{\bf X}{\bf w} - 2 {\bf w}^T {\bf X}^T {\bf y} + {\bf y}^T {\bf y}\right) | |||
= 2 {\bf X}^T{\bf X}{\bf w} - 2 {\bf X}^T {\bf y} = 0, \nonumber | |||
\end{aligned}</math> | |||
wobei wir in der zweiten Gleichung verwendet haben, dass <math display="inline">{\bf y}^T {\bf X} {\bf w} = {\bf w}^T {\bf X}^T {\bf y}</math>, da <math display="inline">{\bf y}^T {\bf X} {\bf w}</math> ein Skalar ist und entspricht daher seiner Transponierten. Zusätzlich haben wir in der letzten Gleichung verwendet, dass <math display="inline">\nabla_{{\bf w}}\left( {\bf w}^T {\bf X}^T{\bf X}{\bf w}\right)</math> kann als <math display="inline">2 {\bf X}^T{\bf X}{\bf w}</math> ausgewertet werden, da die Matrix <math display="inline">{\bf X}^T{\bf X}</math> symmetrisch ist. | |||
Schließlich kann die Lösung für den Parametervektor <math display="inline">{\bf w}</math> aus der obigen Gleichung als <math display="block">{\bf w} = \left({\bf X}^T{\bf X}\right)^{-1} {\bf X}^T {\bf y}</math> | |||
ausgedrückt werden. Die Matrix <math display="inline">{\bf X}^T{\bf X}</math> ist quadratisch und daher im Prinzip invertierbar. Dennoch existiert die Inverse nur, wenn die Matrix <math display="inline">{\bf X}^T{\bf X}</math> nicht singulär ist, was normalerweise gilt, da die Matrix <math display="inline">{\bf X}</math> aus unabhängigen Eingabebeispielen erstellt wird. | |||
Die obigen Gleichungen in Skalarform führen zu einem System linearer Gleichungen, die als Normalgleichungen bezeichnet werden. | |||
Die lineare Regression wird auch für ein leicht erweitertes Vorhersagemodell verwendet, das durch | |||
<math display="block">\hat{y}= {\bf w}^T {\bf x} + b</math> | |||
angegeben wird. Hier wird der Skalar <math display="inline">b</math> Bias genannt und führt dazu, dass die durch die multivariate Funktion <math display="inline">\hat{y}({\bf w})</math> beschriebene Hyperebene nicht durch den Ursprung verläuft. Dieser erweiterte Fall kann auf den Basisfall zurückgeführt werden, indem die erweiterten Vektoren <math display="inline">{{\bf x}^*}^T = ({\bf x}, 1)^T</math> und <math display="inline">{{\bf w}^*}^T = ({\bf w}, b)^T</math> eingeführt werden, was eine äquivalente Beschreibung ergibt. | |||
<math display="block">\hat{y}= {\bf w}^{*T} {\bf x}^*.</math> | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Verbindung zwischen linearen Regression mit MSE und Maximum-Likelihood-Schätzung''</span> | |||
Sei <math display="inline">{\bf z} = (z_1,\ldots,z_M)</math> eine Folge von Stichproben aus der Grundgesamtheit, die unabhängige Stichproben ergeben. Jede Stichprobe wird durch derselbe Zufallsvariable <math display="inline">Z</math> mit einer Likelihood-Funktion (likelihood function) <math display="inline">p({\bf z}|{\boldsymbol{\theta}})</math> aus einer bekannten Verteilungsfamilie mit unbekanntem Parametervektor <math display="inline">{\boldsymbol{\theta}}</math> erzeugt. Die Likelihood-Funktion entspricht der Wahrscheinlichkeitsfunktion (probability mass function - pmf) und der Wahrscheinlichkeitsdichtefunktion (probability density function - pdf) mit dem Parametervektor als Variable, für diskrete bzw. stetige Verteilung. Die Maximum-Likelihood-Schätzung, kurz ML-Schätzung (Maximum Likelihood Estimation - ML estimation or MLE) des Parametervektors <math display="inline">{\bf \theta}</math> ist der Wert, der die Wahrscheinlichkeit der beobachteten Stichprobenfolge maximiert. Mit anderen Worten | |||
<math display="block">{\boldsymbol{\theta}}_{ML} = \arg \max_{{\boldsymbol{\theta}}} p({\bf z}|{\boldsymbol{\theta}}) = \arg \max_{{\boldsymbol{\theta}}} p(z_1,\ldots,z_M|{\boldsymbol{\theta}}) = \arg \max_{{\boldsymbol{\theta}}} \prod_{m=1}^{M} p(z_m|{\boldsymbol{\theta}}),</math> | |||
wobei wir verwendet haben, dass die Ziehungen aus der Grundgesamtheit unabhängig von einander sind und die Stichproben werden von derselben Zufallsvariablen <math display="inline">Z</math> erzeugt. | |||
Das Produkt mit mehreren Likelihood (likelihood) kann zu numerischen Problemen führen, z. B. numerischer Unterlauf. Daher ist es üblich, anstelle der Likelihood den Logarithmus der Likelihood zu verwenden. Diese Änderung führt zu keiner Änderung von argmax und max, da die Logarithmusfunktion monoton ist. Dies ergibt die übliche Form der ML-Schätzung des Parametervektors <math display="inline">{\bf \theta}</math> als <math display="block">{\boldsymbol{\theta}}_{ML} = \arg \max_{{\boldsymbol{\theta}}} \log\left( \prod_{m=1}^{M} p(z_m|{\boldsymbol{\theta}})\right) = \arg \max_{{\boldsymbol{\theta}}}\sum_{m=1}^{M} \log~ p(z_m|{\boldsymbol{\theta}}).</math> | |||
Wenn man das MLE-Prinzip auf eine bedingte pmf or pdf <math display="inline">p(y|{\bf x})</math> anwendet, dann wird die bedingte Likelihood-Funktion aus einer bekannten Verteilungsfamilie mit unbekanntem Parametervektor zu <math display="inline">{\boldsymbol{\theta}}</math> zu <math display="inline">p(y|{\bf x}, {\boldsymbol{\theta}})</math>. Somit ist die ML-Schätzung des Parametervektors <math display="inline">{\bf \theta}</math> wird für diesen Fall durch | |||
<math display="block">{\boldsymbol{\theta}}_{ML} = \arg \max_{{\boldsymbol{\theta}}}\sum_{k=1}^{K} \log~ p(y_k|{\bf x}_k, {\boldsymbol{\theta}})</math> | |||
gegeben. | |||
Jetzt wählen wir die Normalverteilung als bekannte Verteilungsfamilie und legen den Mittelwert der Verteilung auf den vorhergesagten Ausgabewert <math display="inline">\hat{y}</math> und die Varianz der Verteilung auf einen festen Wert <math display="inline">\sigma^2</math> fest. Dann wird die Likelihood-Funktion, die in diesem Fall ein bedingtes pdf ist, zu <math display="inline">p(y|{\bf x},{\boldsymbol{\theta}}) = N(y| \hat{y}({\bf x},{ \bf w}),\sigma^2)</math>, wobei <math display="inline">N(y|\mu,\sigma^2)</math> für das pdf der Normalverteilung mit Mittelwert <math display="inline">\mu</math> und Varianz <math display="inline">\sigma^2</math> steht. Durch Anwendung der Formel des pdf der Normalverteilung <math display="inline">N(y|\mu,\sigma^2)= \frac{1}{\sqrt{2 \pi \sigma^2}}exp\left(-\frac{ 1}{2} \frac{(y-\mu)^2}{\sigma^2} \right)</math> erhalten wir für die ML-Schätzung der vorhergesagten Ausgabewerte <math display="inline">{\bf \hat{y}}</math> als | |||
<math display="block">\begin{aligned} | |||
{\bf \hat{y}} &= \arg \max_{\bf \hat{y}}\sum_{k=1}^{K} \log~ N(y_k| \hat{y_k}({\bf x_k},{\bf w}),\sigma^2) \\ | |||
&= \arg \max_{\bf \hat{y}}\sum_{k=1}^{K} \log\left(\frac{1}{\sqrt{2 \pi \sigma^2}}exp\left(-\frac{1}{2} \frac{(y_k-\hat{y_k})^2}{\sigma^2} \right)\right) \\ | |||
&= \arg \max_{\bf \hat{y}} \left(-K \log(\sigma) -\frac{K}{2} \log(2 \pi) - \sum_{k=1}^{K} \frac{(y_k-\hat{y_k})^2}{2\sigma^2} \right) \\ | |||
&= \arg \max_{\bf \hat{y}} \left(-\sum_{k=1}^{K} (y_k-\hat{y_k})^2\right) | |||
= \arg \min_{\bf \hat{y}} \sum_{k=1}^{K} (y_k-\hat{y_k})^2 = \arg \min_{\bf \hat{y}} \lVert {\bf \hat{y}} - {\bf y} \rVert_2^2 \nonumber. | |||
\end{aligned}</math> | |||
Angenommen, dass die lineare Beziehung zwischen <math display="inline">\hat{y}</math> und <math display="inline">{\bf x}</math> als <math display="inline">\hat{y} = {\bf w}^T{\bf x}</math> (oder äquivalent <math display="inline">{\bf \hat {y}} = {\bf X}{\bf w}</math>) steht, ergibt die oben aufgeführte Optimierung bezüglich <math display="inline">{\bf w}</math> die gleiche Schätzung für <math display="inline">{\bf w}</math> wie die Minimierung des MSE, was die Verwendung von MSE aufgrund der wünschenswerten statistischen Eigenschaften der ML-Schätzung rechtfertigt. | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Klassifikation - lineare Diskriminanzfunktionen'''''</span> | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Allgemeine Diskriminanzfunktionen''</span> | |||
Eine allgemeine Möglichkeit, einen Klassifikator (classifier) darzustellen, besteht darin, ihn durch eine Menge von Diskriminanzfunktionen (discriminant functions) <math display="inline">d_i({\bf x})</math> für <math display="inline">i=1,\ldots,C</math> anzugeben. Der Klassifikator entscheidet, die Klasse <math display="inline">c_i</math> dem Feature Vektoren <math display="inline">{\bf x}</math> als Eingabe zuzuweisen, wenn <math display="block">d_i({\bf x}) > d_j({\bf x}) \mathrm{~für~alle~} j \neq i.</math> | |||
Also der Klassifikator entscheidet die Klasse mit dem höchsten Diskriminanzfunktionswert, was die Benennung Diskriminanzfunktion erklärt. Ein Beispiel für den Klassifikator ist der Klassifikator des minimalen Fehlerrates (minimum error-rate classifier). Sei <math display="inline">p(c_j|{\bf x})</math>, <math display="inline">j=1,\ldots,C</math> die Wahrscheinlichkeit der Klasse <math display="inline">c_j</math>, gegeben der Feature Vector <math display="inline">{\bf x}</math>. Dann die Klasse <math display="inline">c_i</math> mit der höchsten <math display="inline">p(c_i|{\bf x})</math> ist gleichzeitig auch die Klasse mit dem minimalen Fehlerrate <math display="inline">(1-p(c_i|{\bf x}))</math>. Daher kann die Diskriminanzfunktion für den Klassifikator des minimalen Fehlerrates durch <math display="block">d_i({\bf x}) = p(c_i|{\bf x})</math> angegeben werden. Dies kann weiter vereinfacht werden, indem verwendet wird, dass der Nenner von <math display="block">p(c_i|{\bf x})= \frac{p({\bf x}|c_i ) p(c_i)}{\sum_{j=1}^{C} p({\bf x}|c_j ) p(c_j) }</math> unabhängib von <math display="inline">i</math> ist, was zu einer alternativen Diskriminanzfunktion als <math display="block">d_i({\bf x}) = p({\bf x}|c_i ) p(c_i)</math> führt. Auf Diskriminanzfunktionen kann jede monotone Funktion angewendet werden, da sie die zur Maximalfunktion gehörende Klasse nicht verändert. Daher kann mit Hilfe der monotonen Funktion <math display="inline">\log()</math> as eine weitere Diskriminanzfunktion für den Klassifikator der minimalen Fehlerrate als <math display="block">d_i({\bf x}) = \log~ p({\bf x}|c_i ) + log p(c_i))</math> definiert werden. | |||
In diesem Fall definieren alle oben genannten unterschiedlichen Diskriminanzfunktionen dieselbe Entscheidungsregel (decision rule). Die Diskriminanzfunktionen unterteilen den Feature Space (Merkmalsraum) in disjunkte Entscheidungsregionen (decision regions) <math display="inline">{\mathcal{R}_1}, \ldots, {\mathcal{R}_C}</math>. Ein Feature Vektor (Merkmalsvektor) <math display="inline">{\bf x}</math> fällt in der Entscheidungsregion <math display="inline">{\mathcal{R}_i}</math>, wenn <math display="inline">d_i({\bf x}) > d_j({\bf x})</math> für jedes <math display="inline">j \neq i</math> gilt. Somit stellt die Entscheidungsregion <math display="inline">{\mathcal{R}_i}</math> die Menge der Feature Vektoren dar, für die der Klassifikator die Klasse <math display="inline">c_i</math> entscheidet. Die Entscheidungsregionen werden durch Entscheidungsgrenzen (decision boundaries) im <math display="inline">d</math>-dimensionalen Raum der Feature Vektoren getrennt. | |||
Im Sonderfall eines Klassifikators mit zwei Klassen ist es üblich, statt <math display="inline">d_1({\bf x})</math> and <math display="inline">d_2({\bf x})</math> nur eine einzelne Diskriminanzfunktion | |||
<math display="block">d({\bf x}) = d_1({\bf x}) - d_2({\bf x})</math> | |||
zu verwenden. Daher wird die Entscheidungsregel zu | |||
<math display="block">\mathrm{~Entscheide~} c_1 \mathrm{~wenn~} d({\bf x}) > 0 , \mathrm{~sonst~} c_2.</math> | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Lineare Diskriminanzfunktionen''</span> | |||
Eine wichtige Klasse der Diskriminanzfunktionen sind die linearen Diskriminanzfunktionen (linear discriminant functions). | |||
Lineare Diskriminanzfunktionen sind linear in den Komponenten des Feature Vektors <math display="inline">{\bf x} \in \mathbb{R}^d</math>. Daher können sie als Linearkombination der Komponenten von <math display="inline">{\bf x}</math> angegeben werden. Für den Fall eines Klassifikators mit zwei Klassen gibt es nur eine Diskriminanzfunktion, <math display="inline">d({\bf x}) = {\bf w}^T {\bf x} + w_0</math>. Die Klasse <math display="inline">c_1</math> wird entschieden, wenn <math display="inline">{\bf w}^T {\bf x}</math> den Schwellwert <math display="inline">-w_0</math> überschreitet, andernfalls die Klasse <math display="inline">c_2</math>. | |||
Das Funktionsprinzip des linearen Klassifikators mit zwei Klassen und einem d-dimensionalen Feature Vektor ist in Abbildung w1 dargestellt. | |||
Figure w1. | |||
Betrachten wir zwei Feature Vektoren <math display="inline">{\bf x}_1</math> und <math display="inline">{\bf x}_2</math>, beide auf der Entscheidungsgrenze. Dann gilt <math display="inline">d({\bf x}_1) = d({\bf x}_2)</math>, was bedeutet: <math display="inline">{\bf w}^T {\bf x}_1 + w_0 = {\bf w} ^T {\bf x}_2 + w_0</math>, woraus | |||
<math display="block">{\bf w}^T \left({\bf x}_1 - {\bf x}_2\right) = 0.</math> | |||
Daraus folgt, dass <math display="inline">{\bf w}</math> senkrecht zu jedem auf der Entscheidungsgrenze liegenden Vektor steht und daher die Entscheidungsgrenze eine Hyperebene mit <math display="inline">{\bf w}</math> als Normalenvektor ist. Somit wird die Entscheidungsgrenze der linearen Diskriminanzfunktionen zu einer zusammenhängenden Entscheidungsfläche (decision surface). | |||
Die Diskriminanzfunktion <math display="inline">d({\bf x})</math> hat einen starken Zusammenhang mit dem vorzeichenbehafteten Abstand des Vektors <math display="inline">{\bf x}</math> zur Hyperebene. Dieser vorzeichenbehaftete Abstand wird mit <math display="inline">r</math> bezeichnet. Dies kann man sehen, indem man <math display="inline">{\bf x}</math> als die Summe der Projektion des Vektors <math display="inline">{\bf x}</math> auf die Hyperebene <math display="inline">{\bf x}_p</math> und <math display="inline">r</math> mal des Einheitsvektors in der Richtung von Vektor <math display="inline">{\bf w}</math> ausdrückt: | |||
<math display="block">{\bf x} = {\bf x}_p + r \frac{{\bf w}}{\lVert {\bf w} \rVert}.</math> | |||
<div id="fig:LinDiscrFuncHyperProp" class="figure"> | |||
[[File:./figs/LinDiscrFuncHyperProp.pdf]] | |||
</div> | |||
Wenn wir <math display="inline">0 = d({\bf x}_p) = {\bf w}^T {\bf x}_p + w_0</math>, für <math display="inline">d({\bf x})</math> verwenden, erhalten wir | |||
<math display="block">d({\bf x}) = {\bf w}^T {\bf x}_p + {\bf w}^T r \frac{{\bf w}}{\lVert {\bf w} \rVert} + w_0 = d({\bf x}_p) + r \frac{\lVert {\bf w} \rVert^2}{\lVert {\bf w} \rVert} = r \lVert {\bf w} \rVert,</math> aus denen <math display="block">r = \frac{d({\bf x})}{\lVert {\bf w} \rVert}.</math> | |||
Wenn <math display="inline">d({\bf x}) > 0</math>, dann ist <math display="inline">{\bf x} \in {\mathcal{R}_1}</math> und somit <math display="inline">{\bf w}^T{\bf x} > 0</math>. Dies impliziert, dass <math display="inline">{\bf w}</math> auf die gleiche Seite der Hyperebene zeigt wie <math display="inline">{\bf x}</math>, und daher zeigt der Normalenvektor <math display="inline">{\bf w}</math> in die Entscheidungsregion <math display="inline">{\mathcal{R }_1}</math>. | |||
Der Abstand des Ursprungs zur Hyperebene beträgt <math display="inline">\frac{w_0}{\lVert {\bf w} \rVert}</math>, da <math display="inline">d({\bf 0})=w_0</math>. Der Ursprung liegt in der Entscheidungsregion <math display="inline">{\mathcal{R}_1}</math>, wenn <math display="inline">w_0 > 0</math> und in <math display="inline">{\mathcal{R}_2}</math>, wenn <math display="inline">w_0 < 0</math>. Wenn <math display="inline">w_0= 0</math>, dann verläuft die Hyperebene durch den Ursprung und die lineare Diskriminanzfunktion <math display="inline">d({\bf x})</math> hat eine homogene Form <math display="inline">d({\bf x})= {\bf w}^T {\bf x}</math>. | |||
Die oben genannten Eigenschaften werden geometrisch in Abbildung [[#fig:LinDiscrFuncHyperProp|4]]dargestellt. | |||
Für den allgemeinen Fall eines Klassifikators mit <math display="inline">C</math>-Klassen werden die linearen Diskriminanzfunktionen wie folgt angegeben. | |||
<math display="block">d_i({\bf x}) = {\bf w}_i^T {\bf x} + w_{i0},</math> | |||
Die Entscheidungsregel ist dieselbe wie für die allgemeinen Diskriminanzfunktionen: | |||
<math display="block">\mathrm{~Entscheide~} c_i \mathrm{~wenn~} d_i({\bf x}) > d_j({\bf x}) \mathrm{~für~alle~} j \neq i.</math> | |||
Wenn die Werte zweier oder mehrerer Diskriminanzfunktionen für ein bestimmtes <math display="inline">{\bf x}</math> gleich sind, was (wie in der Statistik) Bindungen genannt wird, ist die Entscheidung undefiniert. Der Klassifikator mit linearen Diskriminanzfunktionen <math display="inline">C</math> wird auch als lineare Maschine (linear machine) bezeichnet. Es unterteilt den d-dimensionalen Feature Space in <math display="inline">C</math> disjunkte Entscheidungsregionen. Für die Grenze zwischen zwei benachbarten Entscheidungsregionen <math display="inline">{\mathcal{R}_i}</math> und <math display="inline">{\mathcal{R}_j}</math> gilt <math display="inline">d_i({\bf x}) = d_j({\bf x})</math>, oder gleichwertig | |||
<math display="block">\left({\bf w}_i-{\bf w}_j\right)^T {\bf x} + \left(w_{i0}- w_{j0}\right) = 0.</math> | |||
Aus den Überlegungen zum Klassifikator mit zwei Klassen folgt, dass die betrachtete Entscheidungsgrenze eine Hyperebene mit dem Normalenvektor<br /> | |||
<math display="inline">\left({\bf w}_i-{\bf w}_j\right)</math> ist. Darüber hinaus wird der vorzeichenbehaftete Abstand von <math display="inline">{\bf x}</math> zu dieser Hyperebene als <math display="inline">\frac{d_i({\bf x}) - d_j({\bf x})}{\lVert {\bf w}_i - {\bf w}_j \rVert}</math> angegeben. Diese Ausdrücke zeigen, dass in linearen Maschinen eher die Unterschiede der Gewichte wichtig sind, nicht die Gewichte selbst. Die Gesamtzahl der Hyperebenen kann kleiner sein als die mögliche Anzahl von Klassenpaaren, <math display="inline">\frac{C (C-1)}{2}</math>. Es kann gezeigt werden, dass die Entscheidungsregionen in <math display="inline">{\bf x}</math> konvex sind. | |||
Verallgemeinerte lineare Diskriminanzfunktionen (generalized linear discriminant functions) sind in gewissen gegebenen Funktionen von <math display="inline">{\bf x}</math>, <math display="inline">h_i({\bf x})</math> linear und haben die Form | |||
<math display="block">d({\bf x}) = \sum_{i=1}^{d} a_i h_i({\bf x}).</math> | |||
Abgeschnittene Potenzreihen von <math display="inline">d({\bf x})</math> mit beliebigen <math display="inline">h_i</math>-s führen zu polynomialen Diskriminanzfunktionen (polynomial discriminant functions) als Unterklasse verallgemeinerter linearer Diskriminanzfunktionen. Ein Beispiel ist die quadratische Diskriminanzfunktion (quadratic discriminant function), die in der Form angegeben werden kann | |||
<math display="block">d({\bf x}) = w_0 + \sum_{i=1}^{d} w_i x_i + \sum_{i=1}^{d}\sum_{j=1}^{d}w_{ij} x_i x_j.</math> | |||
Abgesehen davon, dass die Entscheidungsregionen in <math display="inline">{\bf h}</math> konvex sind, können sie jede beliebige Abhängigkeit in <math display="inline">{\bf x}</math> haben. Daher können verallgemeinerte lineare Diskriminanzfunktionen allgemeinere Feature Spaces beschreiben, was ihre vorteilhafte Eigenschaft ist, die zu ihrer Verwendung motiviert. | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Finden linearer Diskriminanzfunktionen''</span> | |||
Die Parameter des Klassifikators mit linearen Diskriminanzfunktionen sind die Gewichte. Das Trainieren der Parameter des Klassifikators bedeutet also, die richtigen Gewichte für die linearen Diskriminanzfunktionen zu finden. Dies geschieht durch die Formulierung der Aufgabe als Optimierung. Eine natürliche Wahl für das Kriterium der Optimierung ist die Minimierung des Trainingsfehlers. Um eine solche Minimierung unter allgemeinen Bedingungen durchzuführen, werden bekannte numerische multivariate Optimierungsverfahren wie z. Gradientenverfahren (gradient method) verwendet und an der Eigenschaften der linearen Diskriminanzfunktionen angepasst. | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Lernen aus Beispiele'''''</span> | |||
Das Lernen aus Beispielen (learning from examples) ist ein grundlegender Ansatz beim maschinellen Lernen. Ziel ist es, durch das Training eines statistischen Modells Wissen aus Beispielen aufzubauen, das das Wissen auch für unsichtbare Beispiele darstellt. Auf diese Weise stellt das statistische Modell eine Verallgemeinerung des aus den Beispielen gewonnenen Wissens dar. In manchen Zusammenhängen wird dieses Lernen auch als Training bezeichnet. | |||
Die klassische Form eines solchen Lernens geht davon aus, dass in jedem Beispiel die richtige Ausgabe für die Eingabe bereitgestellt wird (labeling). Es ist üblich, von einem beschrifteten Trainingsdaten zu sprechen, was bedeutet, dass in jedem Beispiel die Eingabe durch die richtige Ausgabe gekennzeichnet ist. Diese Art des Lernens wird überwachtes Lernen genannt. | |||
Als Beispiel für Lernen aus Beispiele geben wir eine Beschreibung von Schätzung der Übergangswahrscheinlichkeiten einer Markov-Kette mit diskreter Zeit (Discrete-Time Markov Chain - DTMC) aus beobachteten Zustandssequenzen mittels des [https://de.wikipedia.org/wiki/Lagrange-Multiplikator Verfahrens der Lagrange-Multiplikatoren]. | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Das DTMC-Modell''</span> | |||
Sei <math display="inline">\mathcal{S}={s_1, \ldots, s_{|\mathcal{S}|}}</math> die Menge der Zustände des DTMC. Weiterhin bezeichne <math display="inline">\overrightarrow{\bf z} = (z_0, z_1,\ldots,z_T)</math> die beobachtete Zustandsfolge. Die Übergangsmatrix der DTMC wird mit <math display="inline">{\bf A}</math> bezeichnet, d. h. <math display="inline">{\bf A}_{i,j}= p(z_t=s_j|z_{t-1}=s_i)</math> für <math display="inline">s_i, s_j \in \mathcal{S}</math>. Beobachte, dass eine gegebene Zustandsfolge <math display="inline">\overrightarrow{\bf z}</math> implizit viele labeled input (beschriftete Beispiele) in der Form <math display="inline">..z_{t-1}, z_t..</math> enthält, wobei die Eingabe <math display="inline">z_{t-1}</math> ist und der nächste Zustand <math display="inline">z_t</math> liefert die entsprechende korrekte Ausgabe. | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Problem Formulierung''</span> | |||
Die Aufgabe der Schätzung der Parameter der Übergangsmatrix, <math display="inline">{\bf A}</math>, die in diesem Kontext als Parametermatrix bezeichnet wird, kann durch die Optimierungsproblem | |||
<math display="block">{\bf A}^* = \arg\max_{{\bf A}} p(\overrightarrow{\bf z}|{\bf A})</math> | |||
formuliert werden, wobei <math display="inline">{\bf A}^*</math> die geschätzte Parametermatrix ist. | |||
Wir werden die Parametermatrix <math display="inline">{\bf A}^*</math> durch die statistische Punktschätzungsmethode ML-Schätzung bestimmen. Daher maximieren wir die logarithmische Likelihood von <math display="inline">p(\overrightarrow{\bf z}|{\bf A})</math>, die an derselben Stelle ihr Maximum hat, an der die Likelihood. | |||
Um eine einfachere Notation zu erhalten, lassen wir die Werte aus der Übergangswahrscheinlichkeiten weg und verwenden die vereinfachte Notation <math display="inline">{\bf A}_{z_{t-1},z_{t}}</math> für die Elemente der Übergangsmatrix <math display="inline">{\bf A}</math>. Mit dieser vereinfachten Notation kann die Log-Likelihood <math display="inline">\log~ p(\overrightarrow{\bf z})</math> als | |||
<math display="block">\begin{aligned} | |||
\log~ p(\overrightarrow{\bf z})&= \log~ p(z_1,\ldots,z_T) \\ | |||
&= \log~ \left(p(z_T|z_{T-1},\ldots, z_1)p(z_{T-1}|z_{T-2},\ldots, z_1) \ldots p(z_1|z_0) p(z_0)\right) \\ | |||
&= \log~ \left(p(z_T|z_{T-1}) p(z_{T-1}|z_{T-2})\ldots p(z_1|z_0)p(z_0)\right)\\ | |||
& = \log~ \prod_{t=1}^{T}p(z_{t}|z_{t-1}) p(z_0) = \log~ \prod_{t=1}^{T}{\bf A}_{z_{t-1},z_{t}}p(z_0) \\ | |||
& = \sum_{t=1}^{T} \log~{\bf A}_{z_{t-1},z_{t}} + \log~ p(z_0) | |||
\end{aligned}</math> | |||
ausgedrückt werden, wobei wir in der ersten Gleichung den Multiplikationssatz der Wahrscheinlichkeit (multiplication theorem of probability) und in der zweiten Gleichung die Markov-Eigenschaft (Markov property) verwendet haben. | |||
Dies kann durch die Einführung einer Indikatorvariablen wie <math display="block">\log~ p(\overrightarrow{\bf z})=\sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\} } \log~ {\bf A}_{i,j} + \log~ p(z_0)</math> | |||
weiter umgestaltet werden. Das Weglassen des Terms <math display="inline">\log~ p(z_0)</math> hat keinen Einfluss auf den Ort des Maximums der Log-Likelihood, da dieser nicht von der Matrix <math display="inline">{\bf A}</math> abhängt. Darüber hinaus müssen bei der Optimierung einige Einschränkungen der Matrix <math display="inline">{\bf A}</math> berücksichtigt werden. Die Matrix <math display="inline">{\bf A}</math> ist stochastisch und daher | |||
# <math display="inline">{\bf A}_{i,j} \neq 0</math>, d.h. die Elemente der Matrix <math display="inline">{\bf A}</math> sind nicht-negativ, | |||
# <math display="inline">\sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1</math> for <math display="inline">i = 1, \ldots, |\mathcal{S}|</math>, d.h. die Zeilensummen der Matrix <math display="inline">{\bf A}</math> sind 1. | |||
Diese Einschränkungen bilden die Nebenbedingungen für die Optimierungsaufgabe. Wir werden zur Optimierung das Verfahren der Lagrange-Multiplikatoren (method of Lagrange multiplicator) anwenden. Das Verfahren gewährleistet die Nichtnegativität der resultierenden Matrix <math display="inline">{\bf A}</math>, also diese in die Nebenbedingungen nicht einformuliert werden soll. Daher kann die Optimierungsproblem mit Nebenbedingungen als | |||
<math display="block">\begin{aligned} | |||
&\arg\max_{{\bf A}} \sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} \log~ {\bf A}_{i,j}, ~ \\ | |||
&\mathrm{~mit~Nebenbedingungen~}~\sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1, \mathrm{~for~} i = 1, \ldots, |\mathcal{S}| | |||
\end{aligned}</math> formuliert werden. | |||
<span>''<math display="inline">\mathrm{\ \ \ \ \ \ }</math> Lösung durch Anwendung des Verfahrens der Lagrange-Multiplikatoren''</span> | |||
Die Anwendung des Verfahrens der Lagrange-Multiplikatoren erfordert die Einführung von <math display="inline">|S|</math>-fachen Lagrange-Multiplikatoren (Lagrange multipliers), <math display="inline">\alpha_i</math> für <math display="inline">i = 1, \ldots, |\mathcal{S}|</math>, die in einem Vektor <math display="inline">{\boldsymbol{\alpha}}</math> angeordnet werden können. Somit kann die Lagrange-Funktion (Lagrange function) als | |||
<math display="block">\mathcal{L}({\bf A}, {\boldsymbol{\alpha}}) = \sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} \log~{\bf A}_{i,j} + \sum_{i=1}^{|\mathcal{S}|} \alpha_i \left(1 - \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} \right)</math> angegeben werden. | |||
Wenn man die erste Ableitung der Lagrange-Funktion nach <math display="inline">{\bf A}_{i,j}</math> nimmt und gleich 0 macht, erhält man | |||
<math display="block">\frac{\partial \mathcal{L}}{\partial {\bf A}_{i,j}} = \frac{1}{{\bf A}_{i,j}}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} - \alpha_i = 0, ~ i,j = 1, \ldots, |\mathcal{S}|,</math> woraus <math display="inline">{\bf A}_{i,j}</math> als <math display="block">{\bf A}_{i,j} = \frac{1}{\alpha_i}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}}, ~ i,j = 1, \ldots, |\mathcal{S}|</math> | |||
ausgedrückt werden kann. Nimmt man nun die erste Ableitung der Lagrange-Funktion nach <math display="inline">\alpha_i</math>, macht sie gleich 0 und wendet die obige Formel <math display="inline">{\bf A}_{i,j}</math> an, erhält man <math display="block">\frac{\partial \mathcal{L}}{\partial \alpha_i} = 1 - \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1 - \sum_{j=1}^{|\mathcal{S}|} \frac{1}{\alpha_i}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} = 0,</math> woraus wir die Lösung für <math display="inline">\alpha_i</math> als <math display="block">\alpha_i = \sum_{j=1}^{|\mathcal{S}|} \sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} = \sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i\}}, ~ i = 1, \ldots, |\mathcal{S}|</math> | |||
erhalten. Wenn wir die Formel von <math display="inline">\alpha_i</math> in der Formel von <math display="inline">{\bf A}_{i,j}</math> anwenden, erhalten wir die Schätzung für <math display="inline">{\bf A}_{i,j}</math> als <math display="block">{\bf A}_{i,j} = \frac{\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}}}{\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i\}}} ~ i,j = 1, \ldots, |\mathcal{S}|.</math> | |||
Diese Schätzung von <math display="inline">{\bf A}_{i,j}</math> kann als die Anzahl der Übergange <math display="inline">s_i \rightarrow s_j</math> geteilt durch die Anzahl der der Beobachtungen, die die DTMC im Zustand <math display="inline">s_i</math> finden, interpretiert werden. Diese Schätzung passt auch zur unserer menschlichen Intuition. | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Learning durch Steuereung - MDP'''''</span> | |||
Lernen durch Steuereung (learning through control) ist ein iterativer Prozess, bei dem der Akteur bei jedem Schritt mit einer Aktion auf die Antwort der Umgebung auf seine vorherige Aktion reagiert. So lernt der Akteur sein Verhalten schrittweise. Solche Prozesse kommen in der Natur sehr häufig vor, wie z.B. derjenige, der die Bewegung der Tiere bei der Nahrungssuche steuert. | |||
Ein solcher Lernprozess kann durch das mathematische Modell des Markov-Entscheidungsprozesses, MEP (Markov decision process - MDP) beschrieben werden. MDP ist ein diskreter stochastischer Kontrollprozess (discrete stochastic controll process). In jedem Zustand <math display="inline">s</math> des MDP kann der Akteur eine Aktion <math display="inline">a</math> aus dem zulässigen Satz von Aktionen in diesem Zustand ausführen. Dann im nächsten Zeitschritt wechselt der MDP in den Zustand <math display="inline">s^{'}</math> und gibt dem Akteur eine Belohnung, die der Aktion <math display="inline">a</math> und dem Zustandsübergang <math display="inline">R_a(s, s^{'})</math> entspricht. Auf diese Weise realisiert das MDP ein Aktions- und Belohnungs-feedbackbasiertes Lernen. | |||
Die mathematische Definition von MDP lautet wie folgt. MDP ist ein 4-Tupel <math display="inline">(\mathcal{S}, \mathcal{A}, P, \mathcal{R})</math>, wobei | |||
* <math display="inline">\mathcal{S}</math> ist der Zustandsraum, d. h. eine Menge von Zuständen, | |||
* <math display="inline">\mathcal{A}</math> ist der Aktionsraum, d. h. eine Menge von Aktionen, | |||
* <math display="inline">P</math>, in Funktionsform <math display="inline">p_a(s,s^{'}) = p(s(t+1) = s^{'}| s(t) = s, a(t) = a)</math> beschreibt den Zustandsübergang von <math display="inline">s</math> zu <math display="inline">s^{'}</math>, während die Aktion <math display="inline">a</math> ausgeführt wird und | |||
* <math display="inline">\mathcal{R}</math> ist die Menge möglicher Belohnungen und <math display="inline">R_a(s,s^{'})</math> ist die Belohnung für den Zustandsübergang von <math display="inline">s</math> zu <math display="inline">s^{'}</math>, wenn die Aktion <math display="inline">a</math> ausgeführt wird. | |||
Ein Beispieldiagramm eines MDP ist in Abbildung [[#fig:MDP_example|5]] gezeigt. Dieser MDP hat drei Zustände (grüne Kreise), zwei Aktionen (orange Kreise) und zwei Belohnungen (orange Pfeile). | |||
<div id="fig:MDP_example" class="figure"> | |||
[[File:./figs/MDP_example.pdf]] | |||
</div> | |||
MDP ist eine Erweiterung des DTMC, indem ihm Aktionen (die Auswahlmöglichkeiten ermöglichen) und Belohnungen (Feedback aus der Umgebung zum Lernen Lernzwecken) hinzugefügt werden. Dies impliziert, dass ein MDP mit nur einer Aktion und einer gemeinsamen Belohnung auf einen DTMC reduziert wird. MDP kann zur Lösung von Optimierungsaufgaben eingesetzt werden und wird üblicherweise durch dynamische Programmierung (dynamic programming) umgesetzt. | |||
<span id="ci"></span> | |||
=== CI === | |||
Computational Intelligence, abgekürzt CI, ist ein Teilbereich der KI, der biologisch motivierte und daher rechenintensive Methoden und Ansätze umfasst. | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Definition von CI'''''</span> | |||
Es gibt keine allgemein akzeptierte eindeutige Definition von CI. Die erste Definition stammt aus dem Jahr 1994 von Bezdek (siehe in ) und definiert CI durch die folgenden Merkmalen: | |||
* befasst sich mit numerischen Daten, | |||
* hat eine Mustererkennungskomponente statt Wissensräpresentation, | |||
* verfügt über eine Methodik, die rechnerisch adaptive und Fehlertolerant ist und | |||
* kommt in Bezug auf Geschwindigkeit und Fehlerrate einer menschenähnlichen Leistung nahe. | |||
CI kann auch anhand seiner Hauptmerkmale definiert werden: | |||
* ein Teilbereich von KI, | |||
* enthaltet mehrere Natur inspirierten Ansätze, | |||
* befasst sich mit komplexen realen Problemen, die einige Unsicherheiten enthalten oder stochastische Komponenten enthalten können. | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Positionierung von CI gegenüber KI und seiner Geschichte zur Geschichte der KI'''''</span> | |||
CI und KI haben beide das langfristige Ziel, allgemeine Intelligenz zu erreichen. KI basiert jedoch auf Hard-Computing-Techniken, die einer binären Logik mit zwei Werten folgen, der binären 0 oder 1. Dies kann so interpretiert werden, dass ein Element in einer Menge entweder enthalten ist oder nicht. Im Gegensatz dazu basiert CI auf Soft-Computing-Techniken, die der Fuzzy-Logik (fuzzy logic) folgen und reale Werte zwischen 0 und 1 ermöglichen, die als Grad der Zugehörigkeit eines Elements zu einer Menge angesehen werden können. Dies ist ein deutlicher Unterschied zwischen KI und CI. Andererseits kann CI als Teilbereich von KI im weiteren Sinne betrachtet werden. | |||
Während die Geschichte der KI bereits in den 1950er Jahren begann, wurde der Begriff CI erstmals 1990 vom IEEE Neural Networks Council verwendet, der sich mit der Entwicklung biologischer und künstlicher neuronaler Netze befasste. Im Jahr 2001 wurde der Rat zur IEEE Computational Intelligence Society und einige Jahre später wurden neue Bereiche wie Fuzzy-Systeme und Evolutionsberechnungen in den Interessenbereich der Gesellschaft aufgenommen. | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Hauptkomponenten der CI'''''</span> | |||
Die Hauptkomponenten von CI (Abbildung [[#fig:CI|6]]) werden wie folgt angegeben: | |||
# Neuronale Netze, die Ähnlichkeit mit biologischen Netzten haben, die | |||
#* die Verarbeitung und das Lernen aus Erfahrungsdaten ermöglicht und | |||
#* in gewissem Umfang Fehlertoleranz anbietet. | |||
# Fuzzy-Logik ist eine der Hauptdisziplinen von CI, die | |||
#* Soft-Computing-Techniken zur Modellierung realer komplexer Prozesse durch die Anwendung probabilistischer Methoden ermöglicht und | |||
#* zum Approximate Reasoning, aber nicht zum Lernen verwendet werden kann. | |||
# Evolutionäre Berechnung stellt Evolutionäre Algorithmen (Evolutionary Algorithms - EAs) für die globale Optimierung bereit, die | |||
#* von der biologischen Evolution inspiriert sind und | |||
#* normalerweise auf einer Population von Kandidatenlösungen basiert. | |||
<div id="fig:CI" class="figure"> | |||
[[File:./figs/CI.pdf]] | |||
</div> | |||
<span>'''''<math display="inline">\mathrm{\ \ \ \ }</math> Evolutionäre Algorithmen (EA)'''''</span> | |||
Evolutionäre Algorithmen umfassen unter anderen die zwei am weitesten verbreiteten EA-Algorithmen: | |||
* Partikelschwarmoptimierung (Particle Swarm Optimisation - PSO, [https://en.wikipedia.org/wiki/Particle_swarm_optimization PSO]) und | |||
* Genetischer Algorithmus (Genetic Algorithm - GA, [https://en.wikipedia.org/wiki/Genetic_algorithm GA]). | |||
<span id="anwendungsgebiete-von-ki"></span> | |||
== Anwendungsgebiete von KI == | |||
<span id="anwendungen-von-kg"></span> | |||
=== Anwendungen von KG === | |||
In diesem Unterabschnitt beschäftigen wir uns mit der Anwendungen der KG. | |||
(1) Information Retrieval, IR Systeme umfassen Aufgaben wie | |||
* Image Retrieval, | |||
* Music Retrieval, | |||
* Websuche (web search), | |||
* domänenspezifischer (domain-specific) Retrieval (z. B. geografisch, rechtlich usw.), | |||
* sprachübergreifendes (cross-lingual) Retrieval und | |||
* Textzusammenfassung (text summarization), hauptsächlich als extrahierte Teile des Originaltextes. | |||
IR kann auch als Teilbereich des Data Mining (data mining) angesehen werden. | |||
(2) Die semantische Suche (semantic search) wird durch die Integration von KG in die Ergebnisse der Suchmaschine realisiert. Dies führt zu einer verbesserten „Big Data“-Suchmaschine. Es erweitert die herkömmliche Suchmaschine um die folgenden neuen Funktionen | |||
* relevantere Informationen anbieten, | |||
* Entitäten im Text identifizieren und eindeutig machen (disambiguate), | |||
* stellt Links zu verwandten Entitäten bereit (explorative Suche - exploratory search). | |||
Beispiele beinhalten | |||
* Google-Suchmaschine (search engine) implementiert durch Integration der Google KG, | |||
* Bing, die Microsoft-Suchmaschine, die durch die Integration von Microsofts KB Satori realisiert wurde. | |||
(3) Das Question Answering System (QA, nicht verwechseln mit QA-System, das Quality-Assurance-System bedeutet) kann semantische Fragen beantworten, indem es semantische Informationen von KG in die Antwort einbezieht. Daher realisieren sie semantisch bewusste Fragebeantwortungsdienste (semantically aware question answering services). Beispiele beinhalten | |||
* Watson, das Question Answering System von IBM, das unter anderem YAGO, DBpedia und Freebase nutzt, | |||
* Digitale/virtuelle Assistenten (digital/virtual assistants) wie Siri, Cortana, Google Now. | |||
Die Question Answering Systeme können in extraktive und generative Question Answering Systemen eingeteilt werden. | |||
* Bei dem extraktiven Question Answering System (extractive QA) wird die Antwort aus dem relevanten Kontext extrahiert (BERT-ähnliche Modelle). | |||
* Bei dem generativen Question Answering System (generative QA) generiert das Modell Freitext basierend auf dem Kontext, für den es Textgenerierungsmodelle (Text Generation models) verwendet. | |||
Andererseits können die Question Answering System auch als offene oder geschlossene Question Answering Systeme (open or closed QA systems) klassifiziert werden. | |||
* Bei dem offenen Question Answering System wird die Antwort aus dem Kontext entnommen. | |||
* In dem geschlossenen Question Answering System wird kein Kontext bereitgestellt und daher ist die Antwort vollständig generiert. | |||
Die schnelle Question Answering wird durch die Einfügung eines ersten Rankings mithilfe von Passage-Ranking-Modell (passage ranking model) ermöglicht. Passage-Ranking-Modell ist ein neues Ranking-Modell von Google zur Kategorisierung von Inhalten von Websites. Für akademische Benchmark-Tests stehen QA Datensätze zur Verfügung. Der am häufigsten verwendete QA Dataset(Datensatz) für den akademischen Benchmark extraktiver QA Systeme ist der Stanford Question Answering Dataset (SQuAD), der aus mehr als 100.000 QA Paaren zu mehr als 500 Artikeln besteht. | |||
(4) Das Empfehlugssystem (Recommendation/Recommender System) ist eine Art IR-System, das personalisierte Empfehlungen gibt, die auf dem Verhalten, den gemeinsamen Präferenzen und Interessen der Benutzer basieren. Basierend auf der Analyse von Benutzerklicks können diese Content-Plattformen (content platforms) andere Inhalte vorschlagen, die die Benutzer ansehen oder lesen können. Bei solchen Anwendungen tragen KGs dazu bei, die Genauigkeit zu verbessern, die Vielfalt der empfohlenen Elemente durch die Einbeziehung externen Wissens zu erhöhen und die Interpretierbarkeit von Empfehlungen zu verbessern. Typische Beispiele für solche KG-Anwendungen sind Content-Plattformen, wie z.B. Social Media (social media), Netflix oder Suchmaschinenoptimierung (Search Engine Optimization - SEO), die ein Teilgebiet des Suchmaschinenmarketings ist. | |||
(5) Natural Language Processing, NLP (Verarbeitung Natürlicher Sprache) befasst sich mit der Verarbeitung und dem Verstehen von Text und gesprochener Sprache durch die Anwendung hauptsächlich Techniken von Maschinelles Lernen. Informationsextraktion (information extraction - IE) ist eine NLP-Technik, die darauf abzielt, strukturierte Informationen aus typischerweise unstrukturiertem Text zu extrahieren. Genauer gesagt befindet sich IE im Schnittpunkt von IR und NLP. Zwischen KG und NLP besteht eine gegenseitig vorteilhafte Beziehung. Einerseits dient KG der Umsetzung von NLP-Techniken, wie z.B. Textzusammenfassung. Andererseits werden NLP-Techniken wie die Named Entity Recognition und die Relation Extraction verwendet, um KG zu erstellen. | |||
(6) Beim Enterprise Knowledge Management geht es darum, KG im industriellen Bereich einzusetzen, um die Vorteile zu nutzen, die KG bietet. Zu diesen Vorteilen gehören: | |||
* Big Data (big data) nutzen, um neuen Geschäftswert zu schaffen, | |||
* Geschäftsansichten auf verschiedenen Granularitätsebenen erstellen, | |||
* durch hierarchische Einbeziehung unternehmensrelevanter Daten neue Erkenntnisse liefern und | |||
* Mitarbeitern einen erweiterten Zugriff auf Unternehmensinformationen bieten. | |||
(7) Domänenspezifische Anwendungen (domain-specific applications) ermöglichen Mehrwerts durch die Anwendung von KG in verschiedenen Bereichen zu schaffen. | |||
* Biomedical KG-Anwendungen (biomedical KG applications) ermöglichen die Beantwortung von Fragen und die Entscheidungsunterstützung in den Biowissenschaften (life sciences) durch die Integration mehrerer Quellen biomedizinischer Informationen (biomedical information). | |||
* Medizinische Anwendungen (medical application) nutzen KG zur Integration textueller medizinischer Kenntnisse. Ein Beispiel hierfür ist das Abrufen spezifischer Informationen mittels Schlussfolgerung. | |||
* In Cybersicherheit-Anwendungen (cybersecurity applications) wird KG zum Speichern von Modellierungsmustern in großen Datensätzen von Transaktionen und Organisationen verwendet. Dies dient als Grundlage für Aufbau von Anwendungen, wie z.B. Angriffe zu erkennen und zu vorhersagen (d.h. potenzielle Arten von Wirtschaftskriminalität zu identifizieren) und Sicherheitsbedrohungen durch verdächtige Transaktionen (suspicious transactions), abnormales Benutzerverhalten (abnormal user behaviour) oder gefälschte Konten (fake accounts) zu identifizieren. | |||
* In E-Commerce-Anwendungen (e-commerce applications) wird KG verwendet, um semantische Informationen über die Interaktionen zwischen Kunden und Produkten und deren Merkmale zu speichern. Diese können für eine Vielzahl von Aufgaben verwendet werden, darunter die Suche nach ähnlichen oder kompatiblen Produkten, die Identifizierung von Produktklassen, das Abrufen relevanter Produkte für einen bestimmten Suchbegriff und das Abrufen ähnlicher Suchbegriffe. | |||
* In Finanzanwendungen (financial applications) wird die KG durch die Identifizierung Named Entities aus News von Unternehmen und durch die Extraktion von Geschäftsbeziehungen zwischen relevanten Aktien erstellt. Solche KGs können Aufgaben wie z.B. Vorhersage der Kursbewegung einer Aktie ausführen. | |||
* KG wird in der Bereitstellung von Nachrichten (KG in field of news) zur Umsetzung der Fake-News-Erkennung (fake news detection) eingesetzt. | |||
* Im Bildungsbereich (KG in field of education) werden KG-Knoten zum Speichern von didaktischen Konzepten (instructional concepts) verwendet, die für Aufgaben wie z.B. die Empfehlung von Lernressourcen (learning resource recommendation) und die Visualisierung von Konzepten (concept visualisation) verwendet werden. | |||
* In Geoscience Applications (Geoscience applications) KG speichert die geowissenschaftlichen Textdaten, die für Informationsextraktions- und Wissensentdeckungsdienste (information extraction and knowledge discovery services) verwendet werden. | |||
<span id="anwendungen-von-ml"></span> | |||
=== Anwendungen von ML === | |||
ML Technologien haben sowohl viele allgemein bekannte Anwendungen als auch Anwendungen in einer Vielzahl von Fachgebieten, darunter Finanzen, Gesundheitswesen, Landwirtschaft und viel mehr. | |||
Im Folgenden geben wir eine kurze Beschreibung einiger allgemein bekannter Anwendungen. | |||
Spracherkennung (speech recognition) ist der Prozess der Umwandlung der gesprochenen Sprache in geschriebenen Text. Es wird auch als Speech to Text (STT) oder Automatic Speech Recognition (ASR oder einfach SR) bezeichnet. Spracherkennung wird z.B. in sprachgesteuerten Callcentern (speech automated call centers), Sprachsteuerung (voice dialling, speech enabled dialling) oder in Apples Sprachassistent Siri (Apple’s speech assistant Siri) verwendet. | |||
Bei der Sprechererkennung (speaker recognition) handelt es sich um die Aufgabe, den Sprecher anhand einer kurzen Rede (normalerweise einige Sekunden) zu identifizieren. | |||
Die Sprachsynthese (speech synthesis) umfasst die Aufgabe, geschriebenen Text in menschliche Sprache umzuwandeln. Es wird auch als Text-to-Speech (TTS) bezeichnet und ist die umgekehrte Aufgabe der Spracherkennung. | |||
Sprachübersetzung (language translation), wie z.B. Google Translate kann geschriebenen Text in einer Sprache in den entsprechenden Text in einer anderen Sprache übersetzen. Es basiert auf NLP Techniken, einschließlich Part-of-speech-Tagging (POS-Tagging) und Named Entity Recognition. | |||
Aufgabe der Bilderkennung (image recognition) ist Muster in einem Bild oder Video zu erkennen. Es kann unter anderem zur Gesichtsdetektion (face detection), Gesichtserkennung (face recognition) oder zur weiteren Analyse verwendet werden. | |||
Vorhersage des Verkehrsmusters (traffic pattern prediction). Diese Aufgabe generiert Vorhersagen über den bevorstehenden Verkehr basierend auf dem tatsächlichen Verkehr, der z.B. verwendet wird um die schnellste Route zum gewünschten Ziel zu ermitteln und vorzuschlagen. | |||
Ziel des Data Mining (data mining) ist es, Informationen aus einem (meist großen) Dataset zu extrahieren und in eine für die weitere Verwendung geeignete Struktur umzuwandeln. Data Mining wird z.B. durch Geheimdienste (secret services) oder zur Ausreißererkennung (outlier detection) in der Statistik angewendet. | |||
Produktempfehlungen für den E-Commerce (E-commerce product recommendations). Es handelt sich um eine Marketinganwendung, die Produktempfehlungen basierend auf gesammelten Daten über früheres Kundenverhalten und vergangene Einkäufe generiert. Es ist ähnlich, unterscheidet sich aber vom Empfehlungssystem, das IR und KG anstelle von ML verwendet. | |||
Die E-Mail-Spam-Erkennung/E-Mail-Filterung (email spam detection/email filtering) erfolgt mithilfe von Spam-Filtern, die ML-Algorithmen verwenden, um eingehende E-Mails als Spam zu klassifizieren oder nicht. | |||
Die Malware-Erkennung (Malware detection) wird als ein Mustererkennungssystem realisiert, welches auf Features (Merkmalen) trainiert wird, die verdächtige Aktivitäten characterisieren. | |||
Computer Vision (computer vision) nutzt ML-Techniken, um hochdimensionale reale Daten zu verarbeiten, zu analysieren, zu visualisieren oder zu interpretieren. | |||
Die Transportanwendung (Transportation application), wie Uber, verwendet ML Verfahren, um die Verkehrsbedingungen zu analysieren und die voraussichtliche Ankunftszeit (Estimated Time of Arrival - ETA) am gewünschten Ziel abzuschätzen. | |||
ML angewendet auf Geschäftsprobleme wird auch als Predictive Analytics bezeichnet. Wir geben zunächst kurze Interpretationen mehrerer Anwendungsbeispielen für ML- im Finanzwesen. | |||
* Die Betrugserkennung bei Banktransaktionen (Fraud Detection) wird durch einen ML-Algorithmus implementiert, der für jede Transaktion einen Wert angibt, der die Wahrscheinlichkeit eines Betrugs darstellt. Das Training des Algorithmus basiert auf Mustern für ungewöhnliches Verhalten, die aus großen Mengen an Transaktionsdaten identifiziert werden. Dies ist die wichtigste Anwendung von ML im Bank- und Finanzbereich. | |||
* Fokussierte Ausrichtung auf Kontoinhaber (Focused Account Holder Targeting). Dabei klassifizieren ML-Algorithmen die Kontoinhaber nach Segmenten mit vordefinierten Salden und Krediten. | |||
* Börse und Daytrading (Stock Market and Day Trading). In dieser Anwendung wird ML darauf trainiert, die Entwicklung der Preise an der Börse vorherzusagen. | |||
* Die Vorhersage der Kreditwürdigkeit (Loan Eligibility Prediction) wird durch verschiedene ML-Klassifikatoren (wie z. B. Random Forest, siehe [[#subsub:RF|4.2.5]] realisiert, um die Eignung der Kunden für die Gewährung eines Kredits zu beurteilen. | |||
Zunächst werden wir einige Anwendungen von ML im Gesundheitswesen erwähnen. | |||
* In der personalisierten Behandlung/Medikation (Personalized Treatment,<br /> | |||
Personalized Medication) wird ML verwendet, um<br /> | |||
Genmuster/Ansprechmarker (gene patterns/response markers) von Patienten zu identifizieren, die gezielte Therapien ermöglichen könnten. | |||
* In der Genetik und Genomik (Genetics and Genomics) wird ML zur Identifizierung von Gensequenzen (gene sequences) bei der Genomsequenzierung (genome sequencing) und genetische Veränderung (gene modification) insbesondere mittels Hidden-Markov-Modelle ( Hidden Markov Models – HMMs) verwendet und wird auch in der Genforschung eingesetzt. | |||
* In der Krebsprognose und -vorhersage (Cancer Prognosis and Prediction) wird ML verwendet, um Vorhersagemodelle zu erstellen, um Entscheidungen über eine Therapie zu unterstützen und deren Entwicklung vorherzusagen. | |||
* Bei der Arzneimittelentwicklung (Drug development) kann der Prozess der Arzneimittelentdeckung durch den Einsatz von ML-Techniken beschleunigt werden. | |||
Künstliche neuronale Netzwerke/Netze, KNN (Artificial Neural Networks - ANNs) oder einfache neuronale Netzwerke/Netze (NNs) kombinieren ML mit dem NN-Modell. Die große Mehrheit der Anwendungen (wie z. B. Krebsprognose und -vorhersage) hat von der Verwendung von ANN anstelle reiner ML-Algorithmen profitiert. Diese Anwendungen sind z.B. Bilderkennung, medizinische Diagnose, Spracherkennung, maschinelle Übersetzung, Computer Vision, Krebsprognose und -vorhersage, Filterung sozialer Netzwerke, Brett- und Videospiele. | |||
Embedded Machine Learning (Embedded Machine Learning) ist ein Teilgebiet des ML, bei dem ML auf eingebettete Systeme (embedded systems) mit begrenzten Ressourcen angewendet wird. Zu diesen eingebetteten Systemen gehören z. B. Mikrocontroller (microcontrollers), tragbare Computer (wearable computers) und Edge-Geräte (edge devices). Der Einsatz von ML-Methoden in eingebetteten Systemen macht die Übertragung und Speicherung von Daten auf Cloud-Servern (cloud servers) überflüssig. Zu den Techniken des eingebetteten maschinellen Lernens gehören unter anderem Approximatives Rechnen (approximate computing) und Hardwarebeschleunigung (hardware acceleration). | |||
Weitere Einzelheiten zur Anwendung von ML befinden sich z.B. auf der<br /> | |||
Wikipedia-Seite [https://en.wikipedia.org/wiki/Machine_learning Machine Learning]. | |||
<span id="weitere-anwendungsgebiete-von-ki"></span> | |||
=== Weitere Anwendungsgebiete von KI === | |||
Weitere Anwendungsgebiete von KI sind u.a | |||
# Ausbildungssektor (educational sector), z.B. durch die Erstellung automatisierter Nachrichten an Studierende oder durch die Gestaltung von Inhalten basierend auf den Interessen des Benutzers (Smart Content Creation), | |||
# Robotik (robotics) z.B. indem wir Entscheidungen in Echtzeit auf der Grundlage von NLP, Objekterkennung (object recognition) und Mensch-Roboter-Interaktion (Human-Robotics Interaction - HRI) ermöglichen, | |||
# Navigation (navigation) z.B. durch die Berechnung der besten Route basierend auf GPS- und KI-Technologien (GPS - Global Positioning System), | |||
# Gesundheitswesen (Healthcare), z.B. durch Patientenüberwachung (patient monitoring) oder chirurgische Assistenz (surgical assistance), | |||
# Automobile (automobiles) z.B. durch Advanced Driving Assistance System (ADAS) oder autonomes Fahren (autonomous driving), | |||
# Landwirtschaft (agriculture) z.B. durch Pflanzenüberwachung (crops monitoring), Supply Chain und Instandhaltung (supply chain maintenance) oder Wettervorhersage (weather forecasting), | |||
# Personalwesen (human resource), z.B. durch Screening, | |||
# Lebensstil (lifestyle) z.B. durch personalisierte Empfehlung (personalized recommendation), virtuelle Assistenz, | |||
# Gaming (gaming) z.B. durch Animation (animation), | |||
# Astronomie (astronomy) z.B. durch Analyse astronomischer Daten und Erkennung z.B. von Exoplaneten, | |||
# Reisen und Transporte (travel and transport), z.B. Platooning von LKWs (truck platooning) ermöglichen, | |||
# Militär (military), z.B. durch Erkennung von Cyberangriffen (detecting Cyberattacks) und Entscheidungsunterstützung (decision support) z.B. für die Ressourcenallokation (resource allocation). | |||
<span id="ethik-in-der-ki"></span> | |||
== Ethik in der KI == | |||
Ethik ist im allgemeinen eine Menge von moralischer Regeln und Leitfaden, die den Menschen helfen, zwischen Recht und Unrecht zu entscheiden. Es ist zu erwarten, das KI schon in der näheren Zukunft erhebliche Auswirkungen auf die ganze Menscheit und Welt haben wird. Deshalb ist es wichtig auf ethischen Fragen in Zusammenhang mit KI bedeutsam Aufmerksamkeit zu schenken. | |||
In der vorigen Jahren haben Organisationen verschiedene Big Data Algoritmen und KI Lösungen eingesetzt meist um ihre Geschäftsergebnisse durch Automatisierung und datengesteuerte Entscheidungsfindung zu verbessern. Dabei wurden einige Unternehmen in Zusammenhang mit ihrer KI-Anwendungen mit unerwarteten negative Konsequenzen konfrontiert, insbesondere aufgrund unfairer Ergebnisse und durch Anwendung von mit Vorurteilen behafteten Datensätzen. Dies hat dazu geführt, dass führende Unternehmen und Forschungs-und Datenwissenschafts-Communities im Bereich der KI sich mit den ethischen Aspekten der KI eingehend befassen mussten. Mangel an angemessene Regeln in diesem Bereich kann zu Reputationsverlust, hohe Geldstrafen sowie zu regulatorischen und rechtlichen Problemen führen. | |||
Ethik der KI (kurz KI-Ethik) ist ein Teilbereich der angewandten Ethik, der sich unten anderen mit der folgende Fragestellungen sich beschäftigt: | |||
* die gezielte Rolle von KI-Syteme und die ethische Aspekte die ihre Benützung entsprechend ihrer Rollen ermöglichen, | |||
* ethische Regeln, Leitpfaden für Menschen, die KI-Systeme planen, herstellen, testen, zertifizieren und benutzen. | |||
* gewünschtes ethische Verhalten von KI-Systemen (Maschinenethik). | |||
<span id="prinzipien-und-elemente-der-ki-ethik"></span> | |||
=== Prinzipien und Elemente der KI-Ethik === | |||
Als Leitfaden für die Ethik in der experimentellen Forschung und der Entwicklung von Algorithmen sind der Belmont-Bericht (https://www.hhs.gov/ohrp/sites/default/files/the-belmont-report-508c_FINAL.pdf) in akademischer Gemeinschaft weit verbreitet. Die drei wesentliche Prinzipien des Belmont-Berichts lauten: | |||
# Respekt für Personen | |||
# Gutes tun | |||
# Gerechtigkeit (bzgl. Fairness und Gleichheit) | |||
Obwohl eine vielzahl von ethischen Elemente, Prinzipien und Richtlinien für KI vorgeschlagen wurden, existiert derzeit keine einheitliche Richtlinien für KI-Ethik. Allerdings besteht eine gewisse Konsens über die folgende zwei Elemente in die KI-Ethik zu integrieren: | |||
* Governance - um die Einhaltung der gesetzlichen Vorschriften in Zusammenarbeit mit Regierungsbehörden sicherzustellen. | |||
* Erklärbarkeit - die Funktionsweise der KI Systeme zu erklären (Transparenz) um Vertrauen gegenüber KI-Systeme zu schaffen. | |||
Es gibt mehrere Organisationen mit dem Ziel das KI-Ethik zu fördern. Dies sind die folgenden. | |||
* CHAI:Eine Kooperation verschiedener Universitäten und Institute ist das Center for Human-Compatible Artificial Intelligence<br /> | |||
(https://humancompatible.ai/), welche dei vertrauenswürdige KI und nachweislich nutzbringender Systeme fördert. | |||
* DARPA: Die Defense Advanced Research Projects Agency des<br /> | |||
US-Verteidigungs-ministeriums (https://www.darpa.mil/work-with-us/ai-next-campaign) fördert die erklärbarer KI-Forschung. | |||
* NASCAI: Die National Security Commission on Artificial Intelligence<br /> | |||
(https://www.nscai.gov/) ist eine US Kommission ,,die die Methoden und Mittel prüft, die notwendig sind, um die Entwicklung von künstlicher Intelligenz, maschinellem Lernen und damit verbundenen Technologien voranzutreiben, um die nationalen Sicherheits- und Verteidigungsbedürfnisse der Vereinigten Staaten umfassend zu erfüllen.“ | |||
* AlgorithmWatch: Eine gemeinnützige Organisation<br /> | |||
(https://algorithmwatch.org/en/), die sich auf den Einsatz von erklärbaren und nachvollziehbaren Entscheidungsprozessen und Algorithmen abzielt. | |||
* AI Now Institute: Eine gemeinnützige Organisation an der New York University (https://ainowinstitute.org/), die sich mit der sozialen Auswirkungen der KI beschäftigt. | |||
Laut Luciano Floridi und Josh Cowls herrscht eine weitgehende Übereinstimmung darüber, dass es möglich ist, die ethischen Prinzipien für gesellschaftlich nützlichen Einsatz von KI basierend auf die vier Prinzipien der Medizinethik und ein zusätzliches fünftes Prinzip, Erklärbarkeit aufzubauen : | |||
,,1. Fürsorge (Benefizienz): KI-Technologie soll der Menschheit nützen, das Wohlergehen fördern, die Menschenwürde wahren und der Erhaltung des Planeten dienen.<br /> | |||
2. Schadensvermeidung (Non-Malefizienz): Negative Folgen eines übermäßigen oder missbräuchlichen Einsatzes von KI müssen vermieden werden, KI soll nur in einem sicheren Rahmen eingesetzt werden.<br /> | |||
3. Autonomie: Menschen müssen die volle Entscheidungsfreiheit darüber haben, ob und welche Aufgaben sie an KI-Systeme delegieren, ihre Freiheit, sich eigene Normen und Standards zu setzen, muss gewahrt bleiben.<br /> | |||
4. Gerechtigkeit: Wahrung der Solidarität, Vermeidung von Ungerechtigkeit, gleichberechtigter Zugang zu den Vorteilen der KI.<br /> | |||
5. Erklärbarkeit (Verständlichkeit): Die Prinzipien 1 bis 4 sind nur realisierbar, wenn auch Laien nachvollziehen können, welchen Nutzen oder Schaden KI für die Gesellschaft hat und wer für welche Auswirkungen verantwortlich ist.“ | |||
<span id="kritik-und-debatten"></span> | |||
=== Kritik und Debatten === | |||
Es gibt derzeit eine Reihe von ethischer Diskussionen bzgl. KI Systemen. Sollche KI-Ethik einbeziehende Debatten kommen in mehrere Bereichen vor. Autonomes Fahren stellt ein Musterbeispiel dar. Von automatisierter Systeme sind erwartet, dass sie im Vergleich zur menschlichen Fahrleistung zumindest eine Schadensminderung erzielen. Da derzeitige KI Syteme sehr selten, aber eventuell Fehlerhafte Reaktionen produzieren, ist es zumindest fragwürdig ob autonome Fahrzeuge diese Erwartung erfüllen können. Außerdem ist es auch problematisch, wie ein autonomes Fahrzeug in einem nicht normierbare dilemmatische Entscheidungen, wie z.B. Leben gegen Leben bei plötzlich auftretenden Gefahren, reagieren werden sollen. Ähnliche Debatte kommen auch im Bereiche Autonome Waffensysteme und Maschinenethik aber allgemeiner in Bereiche, wo Algorithmen verwendet werden (siehe Studie [https://www.antidiskriminierungsstelle.de/SharedDocs/downloads/DE/publikationen/Expertisen/studie_diskriminierungsrisiken_durch_verwendung_von_algorithmen.pdf?__blob=publicationFile&v=3 Diskriminierung]), vor | |||
Im Allgemeinen die folgende Debatte auslösende Quellen können identizifiert werden: | |||
# KI Systemen machen eventuell Fehler - durch Beschränkungen der Sammlung von Daten und Dokumentation sowie der algorithmischen Regeln und - Aufgrund der Unvollständigkeit der Korpora bei der Entscheidungsfindung (ist eine Angabe alle nötige Informationskanäle in die Korpora um die gleiche Entscheidung von KI zu haben, was ein Mensch machen würde, ist nicht möglich). | |||
# Bedenken hinsichtlich der Designziele des Systems, z.B. bessere Geschäftsergebnis zu schaffen statt öffentliches Interesse zu folgen. Eine andere Debatte bilden die Überlegungen über die technologische Singularität, i.e. wann die KI das Übertreffen die menschliche Intelligenz erreicht. Obwohl diese Superintelligenz steht nicht unmittelbar bevor, ist Sie mit Angst vor Gefahr auf die Menschheit verbunden. Allerdings ist diese Angst zumindest Teilweise unbegründet, da diese dadurch ausgelöst, dass die Funktionsweise der KI Systeme für meistens die Menschen nicht bekannt ist, also durch die fehlende Transparenz. | |||
<span id="ki-ethik-vorgehensweisen"></span> | |||
=== KI-Ethik-Vorgehensweisen === | |||
Eine mögliche Vorgehesweise in KI-Ethik ist die Verfassung einer KI-Ethikerklärung, zu deren Einhaltung sich jeder (Privatperson, Firma oder Institut) verpflichten kann, der sich an verantwortungsvollen Entwicklung der künstlichen Intelligenz befasst. | |||
Eine sollche bekannte KI-Ethik-Erklärung ist die Montreal Declaration (https://www.montrealdeclaration-responsibleai.com/the-declaration). Die Prinzipien der Montreal Declaration lauten: | |||
<div class="small"> | |||
# Wohlbefinden Respekt vor Autonomie | |||
# Schutz der Privatsphäre und Intimität | |||
# Solidarität | |||
# Demokratische Beteiligung | |||
# Gerechtigkeit | |||
# Vielfalt | |||
# Inklusion | |||
# Vorsichtsprinzip | |||
# Verantwortung | |||
# Nachhaltig | |||
# Entwicklung | |||
</div> | |||
Die Österreichische UNESCO-Kommission hat eine Empfehlung zur Ethik der KI ausgegeben [https://www.unesco.at/fileadmin/Redaktion/Wissenschaft/Wissenschafts-_und_Bioethik/UNESCO-Empfehlung_zur_Ethik_der_Kuenstlichen_Intelligenz.pdf Empfehlung zur Ethik der KI]. Eine Zusammenfassung üblicher internationalen Vorgehensweisen und Handlungsempfehlungen befindet sich im Dokument https://ec.europa.eu/futurium/sites/futurium/files/ethik_im_zeitalter_der_kunstlichen_intelligenz_v05_haarich_0.pdf. |
Version vom 10. September 2024, 20:24 Uhr
Einführung in Computational Intelligence und AI
Die Idee hinter der künstlichen Intelligenz, KI (Artificial Intelligence - AI), bestand darin, die Prozesse der menschlichen Wahrnehmung wie Denken, Lernen oder Mustererkennung (pattern recognition) nachzubilden. Das Erscheinen der KI in der akademischen Welt begann mit der Simulation des Verhaltens neuronaler Netze bei IBM im Jahr 1955. Dies führte zu einer Konferenz zu diesem Thema, die heute als Dartmouth-Konferenz bekannt ist und als Geburtsstunde der künstlichen Intelligenz gilt.
Die Geschichte der KI als akademische Disziplin hat einen langen, weitreichenden und abenteuerlichen Weg zurückgelegt, der optimistische und zweifelhafte, verrufene Phasen durchquerte und durch viele wissenschaftliche Bereiche führte. Es begann mit dem Studium der ,,formalen“Argumentation, das unter anderem zu Alan Turings Berechnungstheorie oder zur Programmiersprache Lisp sowie zum kommerziellen Erfolg von Expertensystemen (Abbildung 1) in den frühen 1980er Jahren führte. Es folgte eine eher zweifelhafte Zeitraum, während andere Ansätze wuchsen, wie z.B. Bewegen von technischen Maschinen.
[[File:./figs/Expert_System.pdf]]
Mit der rasanten Entwicklung der Rechengeschwindigkeit und -fähigkeiten der Computer entstanden spätestens in den 1990er Jahren rechenintensive Zweige der KI. Computational Intelligence (CI) umfasst die biologisch motivierten Bereiche der Informationsverarbeitung, wie z.B. evolutionäre Algorithmen.
Maschinelles Lernen (Machine Learning - ML) ist ein umfassender Zweig der KI, der viele rechenintensive Teilbereiche umfasst. Eine davon ist die auf statistischen Ansätzen basierende Mustererkennung, die Ende der 1990er Jahre zu einem großen kommerziellen Erfolg bei Befehls- und Kontrollsystemen (Command&Control Systems), Spracherkennungssystemen mit großem Vokabular (Large Vocabulary Speech Recognition Systems - LVSRS) und ihren Anwendungen in Callcentern und in der Radiologie führte. Diese technologische Ansätze haben sich in den 2000er Jahren abgeflacht, als sie die Rahmen des angewandten statistischen Ansatzes ausgeschöpft haben..
[[File:./figs/LVSRS.pdf]]
Mittlerweile führte die Entwicklung von Ideen zur Wissensdarstellung zu fortgeschritteneren Ansätzen wie Ontologie oder Wissensgraphen, WG (Knowledge Graph - KG).
Die wichtigste Entwicklung war jedoch die Wiederbelebung der neuronalen Netzwerkforschung, die zu vielen erfolgreichen Anwendungen führte, wie z.B. Erkennung handgeschriebener Ziffern (handwritten digit recognition). Der eigentliche Durchbruch bei der Verwendung neuronaler Netze (Neural Networks - NNs) kam mit Deep Learning, das erfolgreich auf die Klassifizierung großer Datenmengen angewendet werden kann, wie z.B. Bilder. Der Erfolg von Deep Learning führte zu einem enormen Anstieg des Interesses an und der Finanzierung von KI. Deep Reinforcement Learning ermöglicht die erfolgreiche Umsetzung automatischer Steuerungsaufgaben. Die Abbildung 3 zeigt mehrere funktionale Teilmengen der KI und ihre Beziehung zueinander.
[[File:./figs/AI_subsets.jpg]]
Die jüngste Entwicklung im Bereich der KI ist die Anwendung spezifischer großer Sprachmodelle (Large Language Model) und fortschrittlicher Techniken wie beispielweise generatives Transformer (generative transformer), die zu Produkten führen, wie z. B. ChatGPT 3.5.
Im Wesentlichen soll KI die unterschiedlichen Fähigkeiten der menschlichen Intelligenz umsetzen. Dazu gehören Lernen, Wahrnehmung, logisches Denken, Abstraktion sowie komplexere Fähigkeiten wie z.B. Zusammenfassung, Kontrolle, Aufgabenlösungsfähigkeiten und vieles mehr. Eines der langfristigen Ziele ist die Schaffung einer allgemeinen Intelligenz, der sogenannten Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence - AGI), die eine Vielzahl von Problemen ähnlich der menschlichen Intelligenz lösen könnte.
Raymond Kurzweil, Pionier unter anderen der optischen Texterkennung, (auch optische Zeichenerkennung genannt, Optical Character Recognition - OCR),
Sprachsynthese (speech synthesis), Spracherkennung, ein Visionär der künstlichen Intelligenz hat vorhergesagt, dass (einfach formuliert) spätestens im Jahr 2029 die KI Systeme klüger sein werden als das Mensch. Kritiker sagen, dass in der Richtung der Entwicklung zukünftiger Technologien er wahrscheinlich Recht hat, aber die prognostizierte Zeitspanne stimmt nicht, er ist zu optimistisch.
KI ist eine unvermeidliche zukünftige Entwicklungsrichtung und eine der Kernfachgebiete der Wissenschaftsfeld Data Science.
Grundlagen von Computational Intelligence und AI
Es gibt keine Einheitliche Definition von KI. Eine mögliche ausdrucksvolle Definition kann wie folgt angegeben werden: KI ist das Teilgebiet der Informatik, das sich mit Entwicklung und Untersuchung von intelligenten Maschinen beschäftigt. Allerdings unter KI ist auch die ,,intelligente Maschine“ selbst zu verstehen.
Mathematische Grundkonzepte von KI
Die Ziele von KI sind Teilmenge möglicher Arten menschlicher intelligenter Aktivitäten zu implementieren. Dazu gehört Argumentation (reasoning), Planung (planning), Wissensrepräsentation (knowledge representation), Lernen (learning), Wahrnehmung (perception), Unterstützung für Robotik (support for robotics) und Verarbeitung natürlicher Sprache (natural language processing).
Im Folgenden geben wir eine kurze mathematische Beschreibung einiger ausgewählten grundlegender Konzepte der KI. Das beinhaltet
- Wissensrepräsentation,
- Linear regression,
- Klassifikation - lineare Diskriminanzfunktionen,
- Lernen aus Beispiele und
- Learning durch Steuereung - MDP.
Wissensrepräsentation
Sprachmodellierung
Die Darstellung von Wissen auf Wortebene kann durch ein probabilistisches Modell natürlicher Sprache realisiert werden, das als Sprachmodell (Language Model - LM) bezeichnet wird. Normalerweise wird ein LM verwendet, um die Wahrscheinlichkeit einer bestimmten Wortfolge abzuschätzen. Die Wahrscheinlichkeit kann als Produkt der bedingten Wahrscheinlichkeiten als
angegeben werden. Im N-Gram-Sprachmodell (N-gram LM) wird angenommen, dass das Wort einer Wortfolge, in der bedingten Wahrscheinlichkeit näherungsweise nur von Vorgengewörtern abhangig ist. Für , und wird das N-Gram Sprachmodell als Unigram-Sprachmodell, Bigram-Sprachmodell bzw. Trigram-Sprachmodell genannt. Im
Bigram-Sprachmodell is est angenommen, dass das Wort nur vom Vorgängewort abhängt:
Die bedingten Wahrscheinlichkeiten eines N-Gram Sprachmodells können aus den relativen Häufigkeiten als
geschätzt werden, wobei für die Anzahl der Vorkommen der Zeichenfolge steht, die auch als count von bezeichnet wird. Entsprechend wird und die count als N-Gram bzw. N-Gram-count bezeichnet. Die bedingten Wahrscheinlichkeiten
eines N-Gram Sprachmodells werden als N-Gram Wahrscheinlichkeiten bezeichnet.
Das N-Gram Sprachmodell ist ein rein statistisches Sprachmodell (statistical LM - SLM), da es auf N-Gram-Statistiken der Trainingskorpora (wie N-Gram-count) trainiert wird. Zuverlässige Schätzungen der bedingten Wahrscheinlichkeiten des N-Gram Sprachmodells erfordern das Auftreten der entsprechenden N-Grams und (N-1)-Grams in den Trainingskorpora. Das Vorhandensein aller N-Grams und (N-1)-Grams in den Trainingskorpora ist jedoch praktisch nicht möglich, da hierfür ein sehr großer Trainingskorpus erforderlich wäre, um alle mögliche N-Grams in den Trainingskorpora vorkommen haben. So große Trainingskorpora sind normalerweise nicht verfügbar. Die unsichtbaren N-Grams führen zu fehlenden Schätzungen, da der SLM den N-Grams, die nicht im Trainingskorpus erscheinen, keine Wahrscheinlichkeit zuordnen kann. Dieses Problem wird normalerweise durch die Anwendung von Glättung (smoothing) gelöst, bei denen ein kleiner Teil des Wahrscheinlichkeitsmaßes auf die unsichtbaren Grams aufgeteilt wird.
Die effektivste Glättungsmethode ist die Kneser-Ney-Glättung, bei der ein fester Rabattwert, , von der Schätzung der bedingten Bigram-Wahrscheinlichkeiten mit niedrigeren Häufigkeiten abgezogen wird und werden die so gewonnenen Wahrscheinlichkeiten über alle nicht erscheinenden N-Gram Wahrscheinlichkeiten verteilt werden. Die Berechnungsformel der Bigram-Wahrscheinlichkeiten lautet:
Hier ist eine Normalisierungskonstante, die so eingestellt ist, dass die Summe von über alle gleich eins ist. Die unsichtbaren Bigram-Wahrscheinlichkeiten werden durch den ungewöhnlichen Term bestimmt, der eine Schätzung für eine unsichtbare Bigram-Wahrscheinlichkeit aus anderen Bigram-counts verbunden mit realisiert. Genauer gesagt es ist die Bigram-count anderer Wörter gesehen mit dem betrachteten Wort dividiert durch die Summe der gesehenen Bigram-counts dieser -s mit anderen Wörtern.
Fortgeschrittene Sprachmodelle
Die Auswirkung der jüngsten Entwicklung von NN auf andere KI-Konzepte führte zu modernen KI-Modellkombinationen. Die beiden wichtigsten sind vielleicht die neuronale Sprachmodellierung und das große Sprachmodelle.
Neuronale Sprachmodelle (Neural LM - NLM) sind Sprachmodelle, die auf rekurrentes NN basieren. Sie werden auch als kontinuierlicher Raum-Sprachmodelle (continuous space LMs) bezeichnet. Sie transformieren die Sprachmodell Darstellung von Wörtern durch Einbettung in einen kontinuierlichen niedrigdimensionalen Vektorraum, den sogenannten Embedding Space. Dies hat den Vorteil, dass die semantisch ähnlichen Einheiten im Einbettungsraum näher beieinander liegen. Solche Einheiten können Korpusteile, Sätze, Wortteile oder Zeichen sein. Durch dieser Beziehungen können Sollche Sprachmodelle die unsichtbaren Grams gut abschätzen und daher mit dem Problem von unsichtbaren Grams von SLMs gut umgehen. Darüber hinaus stellen NLMs die Wörter als nichtlineare Kombinationen von Gewichten in einem neuronalen Netz dar [@Bengio08]. Die NLMs können entweder als nicht-kontextuelle Einbettungen (Non-contextual Embeddings) oder als kontextuelle Einbettungen (Contextual Embeddings) kategorisiert werden. Nicht-kontextuelle Einbettungen wenden dieselben Einbettungen für eine bestimmte semantische Einheit an, unabhängig vom gegebenen Kontext. Beispiele für nicht-kontextuelle Einbettungen sind Word2Vec oder Wikipedia2Vec . Im Gegensatz dazu können kontextuelle Einbettungen unterschiedliche Semantiken der semantischen Einheiten in unterschiedlichen Kontexten darstellen. Beispiele für kontextuelle Einbettungen sind die von Google eingeführten BERT (Bidirectional Encoder Representations from Transformers) oder Sentence-BERT (SBERT), eine verfeinerte Version von BERT. Das Transformer (transformer model) ist eine spezifische NN-Architektur, die von Vaswani et al. eingeführt wurde.
Große Sprachmodelle (Large Language Models - LLM) sind Transformers-basierte LMs, die durch selbstüberwachtes Lernen vorab trainiert werden. LLMs lernen Milliarden von Parametern während des Trainings und benötigen große Rechenressourcen sowohl für das Training als auch während des Betriebs. Sie scheinen ein allgemeines Sprachverständnis erreichen zu können und können Antworten in Form von menschenähnlichem Text generieren. Diese LLMs werden in generativen KI-Systemen eingesetzt. Aktuelle Versionen können bestimmte Aufgaben mittels Promt Engineering erledigen. Promt Engineering ermöglicht eine Gestaltung von Eingaben für das System mittels Eingabeaufforderungen (promts), die vom LLM interpretiert werden können, und dadurch wird das Aufmerksamkeitsmechanismus des Modells auf das nähere Einschränken der Aufgabe gesteuert. Die bekanntesten Beispiele sind das GPT-3.5- und GPT-4-Modell von Open AI (verwendet in ChatGPT) und Googles PaLM (verwendet in Bard).
Auf semantischen Relationen basierende Wissensrepräsentationen
Neben LMs gibt es noch andere Möglichkeiten der Wissensrepräsentation
- Semantisches Netzwerk (Semantic network) – ein Diagramm, das semantische Relationen zwischen Konzepten darstellt. Die Konzepte werden durch die Knoten repräsentiert und die Kanten spezifizieren die semantischen Relationen Ein Grund für den Entwurf semantischer Netzwerke besteht darin, Wissen in maschinenlesbarer Form darzustellen. Wissensgraphen sind semantische Netzwerke mit begrenzten semantischen Relationen.
- Ontology (ontology) – hierarchische Darstellung von Konzepten und ihren Relationen, die durch eine Standard-Ontologiesprache (standard ontology language) wie Web Ontology Language (OWL, Web Ontology Language) oder Resource Description Framework (RDF, Resource Description Framework) verwaltet werden kann.
Lineare Regression mit MSE-Framework
Die Aufgabe der linearen Regression (linear regression) besteht darin, eine lineare Vorhersage für die zufällige skalare Ausgabe aus dem zufälligen Eingabevektor zu geben. Sei der vorhergesagte Wert von . Es wird angenommen, dass linear vom Vektor abhängt, daher kann der vorhergesagte Wert als Linearkombination von als angegeben werden. Mit anderen Worten, in Vektorform gilt
wobei ein Spaltenvektor von Parametern ist. Hier steht für die Transponieren und die Vektoren sind standardmäßig Spaltenvektoren.
Die Parameter Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle w_i} können als Gewichte angesehen werden. Wenn der Eingabewert ein positives Gewicht hat, erhöht eine Erhöhung von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle x_i} auch den vorhergesagten Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \hat{y}} . Wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle x_i} ein negatives Gewicht hat, verringert eine Erhöhung von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle x_i} den vorhergesagten Wert . Wenn ein großer Wert ist, dann hat Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle x_i} einen großen Einfluss auf Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \hat{y}} . Wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle w_i=0} , dann hat Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle x_i} keinen Einfluss auf .
Nehmen wir an, dass Beispiele des Vektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} und der korrekte Wert der Ausgabe Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle y} für jeden von ihnen angegeben sind. Wir ordnen die Eingabevektoren in einer Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf X}} so an, dass der Vektor in der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle k} -ten Zeile der Matrix platziert wird, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle k=1,\ldots,K} . Die Ausgabewerte und die vorhergesagten Werte werden ebenfalls in einem Spaltenvektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf y}} und angeordnet, sodass der korrekte Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle y_k} und der vorhergesagte Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \hat {y}_k} , das zum Eingabevektor gehört, kommt an die Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle k} -te Position jeweils im Vektor und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf \hat{y}}} .
Die Aufgabe, die Gewichte zu finden kann als Optimierungsaufgabe aufgestellt werden. Diese Optimierungsaufgabe wird durch das Extremum eines Leistungsmaßes, das die Qualität der Vorhersage quantifiziert, angegeben werden.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ \ \ }} Lineare Regression mit mittlerer quadratischen Abweichung
Eine mögliche Wahl um die Qualität der Vorhersage zu quantifizieren, ist die mittlere quadratische Abweichung, MQA (mean squared error - MSE), die auch als mittlere quadratische Fehler (MQF) genannt ist. Die MSE wird durch
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle MSE = \frac{1}{K} \sum_{k} ({\hat{y}}_k - y_k)^2 = \frac{1}{K} \lVert {\bf \hat{y}} - {\bf y} \rVert_2^2}
gegeben, wobei für die -Norm von steht.
Der optimale Wert des Parametervektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} wird durch Minimieren des MSE erhalten. Die notwendige Bedingung für ein lokales Minimum von MSE ist die Existenz eines Wertes des Parametervektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} , für den der Gradient von MSE 0 ist. Es kann gezeigt werden, dass in unserem Fall MSE als Funktion von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} eine konvexe Funktion ist, und daher gibt es nur einen solchen Wert von und daher ist es auch der globale Minimalpunkt. So wird der beste Wert des Parametervektors durch Lösen der Gleichung
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \nabla_{{\bf w}} MSE = \nabla_{{\bf w}} \left( \frac{1}{K} \lVert {\bf \hat{y}} - {\bf y} \rVert_2^2 \right) = 0}
erhalten, wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \nabla_{{\bf w}}} für den Gradienten bezüglich steht. Die vorhergesagten Ausgaben können in Vektormatrixform als angegeben werden. Wenn man es in der obigen Beziehung anwendet, erhält man die Gleichung für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} als
Wenn wir die Konstante Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \frac{1}{K}} weglassen, den Gradienten auswerten und mehrere Umordnungen durchführen, erhalten wir
Fehler beim Parsen (Unbekannte Funktion „\nonumber“): {\displaystyle \begin{aligned} \nabla_{{\bf w}} \left( \lVert {\bf X}{\bf w} - {\bf y} \rVert_2^2 \right) &= \nabla_{{\bf w}} \left({\bf X}{\bf w} - {\bf y} \right)^T \left({\bf X}{\bf w} - {\bf y} \right) \\ &= \nabla_{{\bf w}} \left( {\bf w}^T {\bf X}^T{\bf X}{\bf w} - 2 {\bf w}^T {\bf X}^T {\bf y} + {\bf y}^T {\bf y}\right) = 2 {\bf X}^T{\bf X}{\bf w} - 2 {\bf X}^T {\bf y} = 0, \nonumber \end{aligned}}
wobei wir in der zweiten Gleichung verwendet haben, dass , da Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf y}^T {\bf X} {\bf w}} ein Skalar ist und entspricht daher seiner Transponierten. Zusätzlich haben wir in der letzten Gleichung verwendet, dass Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \nabla_{{\bf w}}\left( {\bf w}^T {\bf X}^T{\bf X}{\bf w}\right)} kann als ausgewertet werden, da die Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf X}^T{\bf X}} symmetrisch ist.
Schließlich kann die Lösung für den Parametervektor aus der obigen Gleichung als
ausgedrückt werden. Die Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf X}^T{\bf X}} ist quadratisch und daher im Prinzip invertierbar. Dennoch existiert die Inverse nur, wenn die Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf X}^T{\bf X}} nicht singulär ist, was normalerweise gilt, da die Matrix aus unabhängigen Eingabebeispielen erstellt wird.
Die obigen Gleichungen in Skalarform führen zu einem System linearer Gleichungen, die als Normalgleichungen bezeichnet werden.
Die lineare Regression wird auch für ein leicht erweitertes Vorhersagemodell verwendet, das durch
angegeben wird. Hier wird der Skalar Bias genannt und führt dazu, dass die durch die multivariate Funktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \hat{y}({\bf w})} beschriebene Hyperebene nicht durch den Ursprung verläuft. Dieser erweiterte Fall kann auf den Basisfall zurückgeführt werden, indem die erweiterten Vektoren Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {{\bf x}^*}^T = ({\bf x}, 1)^T} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {{\bf w}^*}^T = ({\bf w}, b)^T} eingeführt werden, was eine äquivalente Beschreibung ergibt.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ \ \ }} Verbindung zwischen linearen Regression mit MSE und Maximum-Likelihood-Schätzung
Sei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf z} = (z_1,\ldots,z_M)} eine Folge von Stichproben aus der Grundgesamtheit, die unabhängige Stichproben ergeben. Jede Stichprobe wird durch derselbe Zufallsvariable Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle Z} mit einer Likelihood-Funktion (likelihood function) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle p({\bf z}|{\boldsymbol{\theta}})} aus einer bekannten Verteilungsfamilie mit unbekanntem Parametervektor erzeugt. Die Likelihood-Funktion entspricht der Wahrscheinlichkeitsfunktion (probability mass function - pmf) und der Wahrscheinlichkeitsdichtefunktion (probability density function - pdf) mit dem Parametervektor als Variable, für diskrete bzw. stetige Verteilung. Die Maximum-Likelihood-Schätzung, kurz ML-Schätzung (Maximum Likelihood Estimation - ML estimation or MLE) des Parametervektors ist der Wert, der die Wahrscheinlichkeit der beobachteten Stichprobenfolge maximiert. Mit anderen Worten
wobei wir verwendet haben, dass die Ziehungen aus der Grundgesamtheit unabhängig von einander sind und die Stichproben werden von derselben Zufallsvariablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle Z} erzeugt.
Das Produkt mit mehreren Likelihood (likelihood) kann zu numerischen Problemen führen, z. B. numerischer Unterlauf. Daher ist es üblich, anstelle der Likelihood den Logarithmus der Likelihood zu verwenden. Diese Änderung führt zu keiner Änderung von argmax und max, da die Logarithmusfunktion monoton ist. Dies ergibt die übliche Form der ML-Schätzung des Parametervektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf \theta}} als
Wenn man das MLE-Prinzip auf eine bedingte pmf or pdf Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle p(y|{\bf x})} anwendet, dann wird die bedingte Likelihood-Funktion aus einer bekannten Verteilungsfamilie mit unbekanntem Parametervektor zu Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\boldsymbol{\theta}}} zu . Somit ist die ML-Schätzung des Parametervektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf \theta}} wird für diesen Fall durch
gegeben.
Jetzt wählen wir die Normalverteilung als bekannte Verteilungsfamilie und legen den Mittelwert der Verteilung auf den vorhergesagten Ausgabewert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \hat{y}} und die Varianz der Verteilung auf einen festen Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \sigma^2} fest. Dann wird die Likelihood-Funktion, die in diesem Fall ein bedingtes pdf ist, zu Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle p(y|{\bf x},{\boldsymbol{\theta}}) = N(y| \hat{y}({\bf x},{ \bf w}),\sigma^2)} , wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle N(y|\mu,\sigma^2)} für das pdf der Normalverteilung mit Mittelwert und Varianz steht. Durch Anwendung der Formel des pdf der Normalverteilung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle N(y|\mu,\sigma^2)= \frac{1}{\sqrt{2 \pi \sigma^2}}exp\left(-\frac{ 1}{2} \frac{(y-\mu)^2}{\sigma^2} \right)} erhalten wir für die ML-Schätzung der vorhergesagten Ausgabewerte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf \hat{y}}} als
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} {\bf \hat{y}} &= \arg \max_{\bf \hat{y}}\sum_{k=1}^{K} \log~ N(y_k| \hat{y_k}({\bf x_k},{\bf w}),\sigma^2) \\ &= \arg \max_{\bf \hat{y}}\sum_{k=1}^{K} \log\left(\frac{1}{\sqrt{2 \pi \sigma^2}}exp\left(-\frac{1}{2} \frac{(y_k-\hat{y_k})^2}{\sigma^2} \right)\right) \\ &= \arg \max_{\bf \hat{y}} \left(-K \log(\sigma) -\frac{K}{2} \log(2 \pi) - \sum_{k=1}^{K} \frac{(y_k-\hat{y_k})^2}{2\sigma^2} \right) \\ &= \arg \max_{\bf \hat{y}} \left(-\sum_{k=1}^{K} (y_k-\hat{y_k})^2\right) = \arg \min_{\bf \hat{y}} \sum_{k=1}^{K} (y_k-\hat{y_k})^2 = \arg \min_{\bf \hat{y}} \lVert {\bf \hat{y}} - {\bf y} \rVert_2^2 \nonumber. \end{aligned}}
Angenommen, dass die lineare Beziehung zwischen und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} als (oder äquivalent Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf \hat {y}} = {\bf X}{\bf w}} ) steht, ergibt die oben aufgeführte Optimierung bezüglich Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} die gleiche Schätzung für wie die Minimierung des MSE, was die Verwendung von MSE aufgrund der wünschenswerten statistischen Eigenschaften der ML-Schätzung rechtfertigt.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ }} Klassifikation - lineare Diskriminanzfunktionen
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ \ \ }} Allgemeine Diskriminanzfunktionen
Eine allgemeine Möglichkeit, einen Klassifikator (classifier) darzustellen, besteht darin, ihn durch eine Menge von Diskriminanzfunktionen (discriminant functions) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d_i({\bf x})} für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle i=1,\ldots,C} anzugeben. Der Klassifikator entscheidet, die Klasse dem Feature Vektoren Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} als Eingabe zuzuweisen, wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle d_i({\bf x}) > d_j({\bf x}) \mathrm{~für~alle~} j \neq i.}
Also der Klassifikator entscheidet die Klasse mit dem höchsten Diskriminanzfunktionswert, was die Benennung Diskriminanzfunktion erklärt. Ein Beispiel für den Klassifikator ist der Klassifikator des minimalen Fehlerrates (minimum error-rate classifier). Sei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle p(c_j|{\bf x})} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle j=1,\ldots,C} die Wahrscheinlichkeit der Klasse , gegeben der Feature Vector Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} . Dann die Klasse Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle c_i} mit der höchsten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle p(c_i|{\bf x})} ist gleichzeitig auch die Klasse mit dem minimalen Fehlerrate Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle (1-p(c_i|{\bf x}))} . Daher kann die Diskriminanzfunktion für den Klassifikator des minimalen Fehlerrates durch
In diesem Fall definieren alle oben genannten unterschiedlichen Diskriminanzfunktionen dieselbe Entscheidungsregel (decision rule). Die Diskriminanzfunktionen unterteilen den Feature Space (Merkmalsraum) in disjunkte Entscheidungsregionen (decision regions) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\mathcal{R}_1}, \ldots, {\mathcal{R}_C}} . Ein Feature Vektor (Merkmalsvektor) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} fällt in der Entscheidungsregion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\mathcal{R}_i}} , wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d_i({\bf x}) > d_j({\bf x})} für jedes gilt. Somit stellt die Entscheidungsregion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\mathcal{R}_i}} die Menge der Feature Vektoren dar, für die der Klassifikator die Klasse entscheidet. Die Entscheidungsregionen werden durch Entscheidungsgrenzen (decision boundaries) im Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d} -dimensionalen Raum der Feature Vektoren getrennt.
Im Sonderfall eines Klassifikators mit zwei Klassen ist es üblich, statt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d_1({\bf x})} and nur eine einzelne Diskriminanzfunktion
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle d({\bf x}) = d_1({\bf x}) - d_2({\bf x})}
zu verwenden. Daher wird die Entscheidungsregel zu
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ \ \ }} Lineare Diskriminanzfunktionen
Eine wichtige Klasse der Diskriminanzfunktionen sind die linearen Diskriminanzfunktionen (linear discriminant functions).
Lineare Diskriminanzfunktionen sind linear in den Komponenten des Feature Vektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x} \in \mathbb{R}^d} . Daher können sie als Linearkombination der Komponenten von angegeben werden. Für den Fall eines Klassifikators mit zwei Klassen gibt es nur eine Diskriminanzfunktion, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d({\bf x}) = {\bf w}^T {\bf x} + w_0} . Die Klasse Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle c_1} wird entschieden, wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}^T {\bf x}} den Schwellwert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle -w_0} überschreitet, andernfalls die Klasse .
Das Funktionsprinzip des linearen Klassifikators mit zwei Klassen und einem d-dimensionalen Feature Vektor ist in Abbildung w1 dargestellt.
Figure w1.
Betrachten wir zwei Feature Vektoren und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}_2} , beide auf der Entscheidungsgrenze. Dann gilt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d({\bf x}_1) = d({\bf x}_2)} , was bedeutet: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}^T {\bf x}_1 + w_0 = {\bf w} ^T {\bf x}_2 + w_0} , woraus
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {\bf w}^T \left({\bf x}_1 - {\bf x}_2\right) = 0.}
Daraus folgt, dass Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} senkrecht zu jedem auf der Entscheidungsgrenze liegenden Vektor steht und daher die Entscheidungsgrenze eine Hyperebene mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} als Normalenvektor ist. Somit wird die Entscheidungsgrenze der linearen Diskriminanzfunktionen zu einer zusammenhängenden Entscheidungsfläche (decision surface).
Die Diskriminanzfunktion hat einen starken Zusammenhang mit dem vorzeichenbehafteten Abstand des Vektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} zur Hyperebene. Dieser vorzeichenbehaftete Abstand wird mit bezeichnet. Dies kann man sehen, indem man als die Summe der Projektion des Vektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} auf die Hyperebene Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}_p} und mal des Einheitsvektors in der Richtung von Vektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} ausdrückt:
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {\bf x} = {\bf x}_p + r \frac{{\bf w}}{\lVert {\bf w} \rVert}.}
[[File:./figs/LinDiscrFuncHyperProp.pdf]]
Wenn wir , für verwenden, erhalten wir
Wenn , dann ist und somit . Dies impliziert, dass auf die gleiche Seite der Hyperebene zeigt wie , und daher zeigt der Normalenvektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf w}} in die Entscheidungsregion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\mathcal{R }_1}} .
Der Abstand des Ursprungs zur Hyperebene beträgt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \frac{w_0}{\lVert {\bf w} \rVert}} , da Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d({\bf 0})=w_0} . Der Ursprung liegt in der Entscheidungsregion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\mathcal{R}_1}} , wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle w_0 > 0} und in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\mathcal{R}_2}} , wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle w_0 < 0} . Wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle w_0= 0} , dann verläuft die Hyperebene durch den Ursprung und die lineare Diskriminanzfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d({\bf x})} hat eine homogene Form Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d({\bf x})= {\bf w}^T {\bf x}} .
Die oben genannten Eigenschaften werden geometrisch in Abbildung 4dargestellt.
Für den allgemeinen Fall eines Klassifikators mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle C} -Klassen werden die linearen Diskriminanzfunktionen wie folgt angegeben.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle d_i({\bf x}) = {\bf w}_i^T {\bf x} + w_{i0},}
Die Entscheidungsregel ist dieselbe wie für die allgemeinen Diskriminanzfunktionen:
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathrm{~Entscheide~} c_i \mathrm{~wenn~} d_i({\bf x}) > d_j({\bf x}) \mathrm{~für~alle~} j \neq i.}
Wenn die Werte zweier oder mehrerer Diskriminanzfunktionen für ein bestimmtes Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} gleich sind, was (wie in der Statistik) Bindungen genannt wird, ist die Entscheidung undefiniert. Der Klassifikator mit linearen Diskriminanzfunktionen wird auch als lineare Maschine (linear machine) bezeichnet. Es unterteilt den d-dimensionalen Feature Space in disjunkte Entscheidungsregionen. Für die Grenze zwischen zwei benachbarten Entscheidungsregionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\mathcal{R}_i}} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\mathcal{R}_j}} gilt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle d_i({\bf x}) = d_j({\bf x})} , oder gleichwertig
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \left({\bf w}_i-{\bf w}_j\right)^T {\bf x} + \left(w_{i0}- w_{j0}\right) = 0.}
Aus den Überlegungen zum Klassifikator mit zwei Klassen folgt, dass die betrachtete Entscheidungsgrenze eine Hyperebene mit dem Normalenvektor
ist. Darüber hinaus wird der vorzeichenbehaftete Abstand von zu dieser Hyperebene als angegeben. Diese Ausdrücke zeigen, dass in linearen Maschinen eher die Unterschiede der Gewichte wichtig sind, nicht die Gewichte selbst. Die Gesamtzahl der Hyperebenen kann kleiner sein als die mögliche Anzahl von Klassenpaaren, . Es kann gezeigt werden, dass die Entscheidungsregionen in konvex sind.
Verallgemeinerte lineare Diskriminanzfunktionen (generalized linear discriminant functions) sind in gewissen gegebenen Funktionen von , linear und haben die Form
Abgeschnittene Potenzreihen von mit beliebigen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle h_i} -s führen zu polynomialen Diskriminanzfunktionen (polynomial discriminant functions) als Unterklasse verallgemeinerter linearer Diskriminanzfunktionen. Ein Beispiel ist die quadratische Diskriminanzfunktion (quadratic discriminant function), die in der Form angegeben werden kann
Abgesehen davon, dass die Entscheidungsregionen in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf h}} konvex sind, können sie jede beliebige Abhängigkeit in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf x}} haben. Daher können verallgemeinerte lineare Diskriminanzfunktionen allgemeinere Feature Spaces beschreiben, was ihre vorteilhafte Eigenschaft ist, die zu ihrer Verwendung motiviert.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ \ \ }} Finden linearer Diskriminanzfunktionen
Die Parameter des Klassifikators mit linearen Diskriminanzfunktionen sind die Gewichte. Das Trainieren der Parameter des Klassifikators bedeutet also, die richtigen Gewichte für die linearen Diskriminanzfunktionen zu finden. Dies geschieht durch die Formulierung der Aufgabe als Optimierung. Eine natürliche Wahl für das Kriterium der Optimierung ist die Minimierung des Trainingsfehlers. Um eine solche Minimierung unter allgemeinen Bedingungen durchzuführen, werden bekannte numerische multivariate Optimierungsverfahren wie z. Gradientenverfahren (gradient method) verwendet und an der Eigenschaften der linearen Diskriminanzfunktionen angepasst.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ }} Lernen aus Beispiele
Das Lernen aus Beispielen (learning from examples) ist ein grundlegender Ansatz beim maschinellen Lernen. Ziel ist es, durch das Training eines statistischen Modells Wissen aus Beispielen aufzubauen, das das Wissen auch für unsichtbare Beispiele darstellt. Auf diese Weise stellt das statistische Modell eine Verallgemeinerung des aus den Beispielen gewonnenen Wissens dar. In manchen Zusammenhängen wird dieses Lernen auch als Training bezeichnet.
Die klassische Form eines solchen Lernens geht davon aus, dass in jedem Beispiel die richtige Ausgabe für die Eingabe bereitgestellt wird (labeling). Es ist üblich, von einem beschrifteten Trainingsdaten zu sprechen, was bedeutet, dass in jedem Beispiel die Eingabe durch die richtige Ausgabe gekennzeichnet ist. Diese Art des Lernens wird überwachtes Lernen genannt.
Als Beispiel für Lernen aus Beispiele geben wir eine Beschreibung von Schätzung der Übergangswahrscheinlichkeiten einer Markov-Kette mit diskreter Zeit (Discrete-Time Markov Chain - DTMC) aus beobachteten Zustandssequenzen mittels des Verfahrens der Lagrange-Multiplikatoren.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ \ \ }} Das DTMC-Modell
Sei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathcal{S}={s_1, \ldots, s_{|\mathcal{S}|}}} die Menge der Zustände des DTMC. Weiterhin bezeichne die beobachtete Zustandsfolge. Die Übergangsmatrix der DTMC wird mit bezeichnet, d. h. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}_{i,j}= p(z_t=s_j|z_{t-1}=s_i)} für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle s_i, s_j \in \mathcal{S}} . Beobachte, dass eine gegebene Zustandsfolge Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \overrightarrow{\bf z}} implizit viele labeled input (beschriftete Beispiele) in der Form Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle ..z_{t-1}, z_t..} enthält, wobei die Eingabe ist und der nächste Zustand Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle z_t} liefert die entsprechende korrekte Ausgabe.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ \ \ }} Problem Formulierung
Die Aufgabe der Schätzung der Parameter der Übergangsmatrix, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}} , die in diesem Kontext als Parametermatrix bezeichnet wird, kann durch die Optimierungsproblem
formuliert werden, wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}^*} die geschätzte Parametermatrix ist.
Wir werden die Parametermatrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}^*} durch die statistische Punktschätzungsmethode ML-Schätzung bestimmen. Daher maximieren wir die logarithmische Likelihood von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle p(\overrightarrow{\bf z}|{\bf A})} , die an derselben Stelle ihr Maximum hat, an der die Likelihood.
Um eine einfachere Notation zu erhalten, lassen wir die Werte aus der Übergangswahrscheinlichkeiten weg und verwenden die vereinfachte Notation Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}_{z_{t-1},z_{t}}} für die Elemente der Übergangsmatrix . Mit dieser vereinfachten Notation kann die Log-Likelihood als
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} \log~ p(\overrightarrow{\bf z})&= \log~ p(z_1,\ldots,z_T) \\ &= \log~ \left(p(z_T|z_{T-1},\ldots, z_1)p(z_{T-1}|z_{T-2},\ldots, z_1) \ldots p(z_1|z_0) p(z_0)\right) \\ &= \log~ \left(p(z_T|z_{T-1}) p(z_{T-1}|z_{T-2})\ldots p(z_1|z_0)p(z_0)\right)\\ & = \log~ \prod_{t=1}^{T}p(z_{t}|z_{t-1}) p(z_0) = \log~ \prod_{t=1}^{T}{\bf A}_{z_{t-1},z_{t}}p(z_0) \\ & = \sum_{t=1}^{T} \log~{\bf A}_{z_{t-1},z_{t}} + \log~ p(z_0) \end{aligned}}
ausgedrückt werden, wobei wir in der ersten Gleichung den Multiplikationssatz der Wahrscheinlichkeit (multiplication theorem of probability) und in der zweiten Gleichung die Markov-Eigenschaft (Markov property) verwendet haben.
Dies kann durch die Einführung einer Indikatorvariablen wie Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \log~ p(\overrightarrow{\bf z})=\sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\} } \log~ {\bf A}_{i,j} + \log~ p(z_0)}
weiter umgestaltet werden. Das Weglassen des Terms Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \log~ p(z_0)} hat keinen Einfluss auf den Ort des Maximums der Log-Likelihood, da dieser nicht von der Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}} abhängt. Darüber hinaus müssen bei der Optimierung einige Einschränkungen der Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}} berücksichtigt werden. Die Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}} ist stochastisch und daher
- , d.h. die Elemente der Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}} sind nicht-negativ,
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1} for , d.h. die Zeilensummen der Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}} sind 1.
Diese Einschränkungen bilden die Nebenbedingungen für die Optimierungsaufgabe. Wir werden zur Optimierung das Verfahren der Lagrange-Multiplikatoren (method of Lagrange multiplicator) anwenden. Das Verfahren gewährleistet die Nichtnegativität der resultierenden Matrix , also diese in die Nebenbedingungen nicht einformuliert werden soll. Daher kann die Optimierungsproblem mit Nebenbedingungen als
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} &\arg\max_{{\bf A}} \sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} \log~ {\bf A}_{i,j}, ~ \\ &\mathrm{~mit~Nebenbedingungen~}~\sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1, \mathrm{~for~} i = 1, \ldots, |\mathcal{S}| \end{aligned}} formuliert werden.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ \ \ }} Lösung durch Anwendung des Verfahrens der Lagrange-Multiplikatoren
Die Anwendung des Verfahrens der Lagrange-Multiplikatoren erfordert die Einführung von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle |S|} -fachen Lagrange-Multiplikatoren (Lagrange multipliers), für , die in einem Vektor angeordnet werden können. Somit kann die Lagrange-Funktion (Lagrange function) als
Fehler beim Parsen (Unbekannte Funktion „\mathbbm“): {\displaystyle \mathcal{L}({\bf A}, {\boldsymbol{\alpha}}) = \sum_{i=1}^{|\mathcal{S}|}\sum_{j=1}^{|\mathcal{S}|}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} \log~{\bf A}_{i,j} + \sum_{i=1}^{|\mathcal{S}|} \alpha_i \left(1 - \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} \right)} angegeben werden.
Wenn man die erste Ableitung der Lagrange-Funktion nach Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}_{i,j}} nimmt und gleich 0 macht, erhält man
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \frac{\partial \mathcal{L}}{\partial {\bf A}_{i,j}} = \frac{1}{{\bf A}_{i,j}}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} - \alpha_i = 0, ~ i,j = 1, \ldots, |\mathcal{S}|,} woraus Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}_{i,j}} als Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {\bf A}_{i,j} = \frac{1}{\alpha_i}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}}, ~ i,j = 1, \ldots, |\mathcal{S}|}
ausgedrückt werden kann. Nimmt man nun die erste Ableitung der Lagrange-Funktion nach Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \alpha_i} , macht sie gleich 0 und wendet die obige Formel Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}_{i,j}} an, erhält man Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \frac{\partial \mathcal{L}}{\partial \alpha_i} = 1 - \sum_{j=1}^{|\mathcal{S}|} {\bf A}_{i,j} = 1 - \sum_{j=1}^{|\mathcal{S}|} \frac{1}{\alpha_i}\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} = 0,} woraus wir die Lösung für als Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \alpha_i = \sum_{j=1}^{|\mathcal{S}|} \sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}} = \sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i\}}, ~ i = 1, \ldots, |\mathcal{S}|}
erhalten. Wenn wir die Formel von in der Formel von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}_{i,j}} anwenden, erhalten wir die Schätzung für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\bf A}_{i,j}} als Fehler beim Parsen (Unbekannte Funktion „\mathbbm“): {\displaystyle {\bf A}_{i,j} = \frac{\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i, z_{t} = s_j\}}}{\sum_{t=1}^{T} \mathbbm{1}_{\{z_{t-1} = s_i\}}} ~ i,j = 1, \ldots, |\mathcal{S}|.}
Diese Schätzung von kann als die Anzahl der Übergange Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle s_i \rightarrow s_j} geteilt durch die Anzahl der der Beobachtungen, die die DTMC im Zustand Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle s_i} finden, interpretiert werden. Diese Schätzung passt auch zur unserer menschlichen Intuition.
Learning durch Steuereung - MDP
Lernen durch Steuereung (learning through control) ist ein iterativer Prozess, bei dem der Akteur bei jedem Schritt mit einer Aktion auf die Antwort der Umgebung auf seine vorherige Aktion reagiert. So lernt der Akteur sein Verhalten schrittweise. Solche Prozesse kommen in der Natur sehr häufig vor, wie z.B. derjenige, der die Bewegung der Tiere bei der Nahrungssuche steuert.
Ein solcher Lernprozess kann durch das mathematische Modell des Markov-Entscheidungsprozesses, MEP (Markov decision process - MDP) beschrieben werden. MDP ist ein diskreter stochastischer Kontrollprozess (discrete stochastic controll process). In jedem Zustand des MDP kann der Akteur eine Aktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle a} aus dem zulässigen Satz von Aktionen in diesem Zustand ausführen. Dann im nächsten Zeitschritt wechselt der MDP in den Zustand Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle s^{'}} und gibt dem Akteur eine Belohnung, die der Aktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle a} und dem Zustandsübergang Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle R_a(s, s^{'})} entspricht. Auf diese Weise realisiert das MDP ein Aktions- und Belohnungs-feedbackbasiertes Lernen.
Die mathematische Definition von MDP lautet wie folgt. MDP ist ein 4-Tupel , wobei
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathcal{S}} ist der Zustandsraum, d. h. eine Menge von Zuständen,
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathcal{A}} ist der Aktionsraum, d. h. eine Menge von Aktionen,
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle P} , in Funktionsform Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle p_a(s,s^{'}) = p(s(t+1) = s^{'}| s(t) = s, a(t) = a)} beschreibt den Zustandsübergang von zu , während die Aktion ausgeführt wird und
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathcal{R}} ist die Menge möglicher Belohnungen und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle R_a(s,s^{'})} ist die Belohnung für den Zustandsübergang von zu Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle s^{'}} , wenn die Aktion ausgeführt wird.
Ein Beispieldiagramm eines MDP ist in Abbildung 5 gezeigt. Dieser MDP hat drei Zustände (grüne Kreise), zwei Aktionen (orange Kreise) und zwei Belohnungen (orange Pfeile).
[[File:./figs/MDP_example.pdf]]
MDP ist eine Erweiterung des DTMC, indem ihm Aktionen (die Auswahlmöglichkeiten ermöglichen) und Belohnungen (Feedback aus der Umgebung zum Lernen Lernzwecken) hinzugefügt werden. Dies impliziert, dass ein MDP mit nur einer Aktion und einer gemeinsamen Belohnung auf einen DTMC reduziert wird. MDP kann zur Lösung von Optimierungsaufgaben eingesetzt werden und wird üblicherweise durch dynamische Programmierung (dynamic programming) umgesetzt.
CI
Computational Intelligence, abgekürzt CI, ist ein Teilbereich der KI, der biologisch motivierte und daher rechenintensive Methoden und Ansätze umfasst.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ }} Definition von CI
Es gibt keine allgemein akzeptierte eindeutige Definition von CI. Die erste Definition stammt aus dem Jahr 1994 von Bezdek (siehe in ) und definiert CI durch die folgenden Merkmalen:
- befasst sich mit numerischen Daten,
- hat eine Mustererkennungskomponente statt Wissensräpresentation,
- verfügt über eine Methodik, die rechnerisch adaptive und Fehlertolerant ist und
- kommt in Bezug auf Geschwindigkeit und Fehlerrate einer menschenähnlichen Leistung nahe.
CI kann auch anhand seiner Hauptmerkmale definiert werden:
- ein Teilbereich von KI,
- enthaltet mehrere Natur inspirierten Ansätze,
- befasst sich mit komplexen realen Problemen, die einige Unsicherheiten enthalten oder stochastische Komponenten enthalten können.
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ }} Positionierung von CI gegenüber KI und seiner Geschichte zur Geschichte der KI
CI und KI haben beide das langfristige Ziel, allgemeine Intelligenz zu erreichen. KI basiert jedoch auf Hard-Computing-Techniken, die einer binären Logik mit zwei Werten folgen, der binären 0 oder 1. Dies kann so interpretiert werden, dass ein Element in einer Menge entweder enthalten ist oder nicht. Im Gegensatz dazu basiert CI auf Soft-Computing-Techniken, die der Fuzzy-Logik (fuzzy logic) folgen und reale Werte zwischen 0 und 1 ermöglichen, die als Grad der Zugehörigkeit eines Elements zu einer Menge angesehen werden können. Dies ist ein deutlicher Unterschied zwischen KI und CI. Andererseits kann CI als Teilbereich von KI im weiteren Sinne betrachtet werden.
Während die Geschichte der KI bereits in den 1950er Jahren begann, wurde der Begriff CI erstmals 1990 vom IEEE Neural Networks Council verwendet, der sich mit der Entwicklung biologischer und künstlicher neuronaler Netze befasste. Im Jahr 2001 wurde der Rat zur IEEE Computational Intelligence Society und einige Jahre später wurden neue Bereiche wie Fuzzy-Systeme und Evolutionsberechnungen in den Interessenbereich der Gesellschaft aufgenommen.
Hauptkomponenten der CI
Die Hauptkomponenten von CI (Abbildung 6) werden wie folgt angegeben:
- Neuronale Netze, die Ähnlichkeit mit biologischen Netzten haben, die
- die Verarbeitung und das Lernen aus Erfahrungsdaten ermöglicht und
- in gewissem Umfang Fehlertoleranz anbietet.
- Fuzzy-Logik ist eine der Hauptdisziplinen von CI, die
- Soft-Computing-Techniken zur Modellierung realer komplexer Prozesse durch die Anwendung probabilistischer Methoden ermöglicht und
- zum Approximate Reasoning, aber nicht zum Lernen verwendet werden kann.
- Evolutionäre Berechnung stellt Evolutionäre Algorithmen (Evolutionary Algorithms - EAs) für die globale Optimierung bereit, die
- von der biologischen Evolution inspiriert sind und
- normalerweise auf einer Population von Kandidatenlösungen basiert.
[[File:./figs/CI.pdf]]
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\ \ \ \ }} Evolutionäre Algorithmen (EA)
Evolutionäre Algorithmen umfassen unter anderen die zwei am weitesten verbreiteten EA-Algorithmen:
- Partikelschwarmoptimierung (Particle Swarm Optimisation - PSO, PSO) und
- Genetischer Algorithmus (Genetic Algorithm - GA, GA).
Anwendungsgebiete von KI
Anwendungen von KG
In diesem Unterabschnitt beschäftigen wir uns mit der Anwendungen der KG.
(1) Information Retrieval, IR Systeme umfassen Aufgaben wie
- Image Retrieval,
- Music Retrieval,
- Websuche (web search),
- domänenspezifischer (domain-specific) Retrieval (z. B. geografisch, rechtlich usw.),
- sprachübergreifendes (cross-lingual) Retrieval und
- Textzusammenfassung (text summarization), hauptsächlich als extrahierte Teile des Originaltextes.
IR kann auch als Teilbereich des Data Mining (data mining) angesehen werden.
(2) Die semantische Suche (semantic search) wird durch die Integration von KG in die Ergebnisse der Suchmaschine realisiert. Dies führt zu einer verbesserten „Big Data“-Suchmaschine. Es erweitert die herkömmliche Suchmaschine um die folgenden neuen Funktionen
- relevantere Informationen anbieten,
- Entitäten im Text identifizieren und eindeutig machen (disambiguate),
- stellt Links zu verwandten Entitäten bereit (explorative Suche - exploratory search).
Beispiele beinhalten
- Google-Suchmaschine (search engine) implementiert durch Integration der Google KG,
- Bing, die Microsoft-Suchmaschine, die durch die Integration von Microsofts KB Satori realisiert wurde.
(3) Das Question Answering System (QA, nicht verwechseln mit QA-System, das Quality-Assurance-System bedeutet) kann semantische Fragen beantworten, indem es semantische Informationen von KG in die Antwort einbezieht. Daher realisieren sie semantisch bewusste Fragebeantwortungsdienste (semantically aware question answering services). Beispiele beinhalten
- Watson, das Question Answering System von IBM, das unter anderem YAGO, DBpedia und Freebase nutzt,
- Digitale/virtuelle Assistenten (digital/virtual assistants) wie Siri, Cortana, Google Now.
Die Question Answering Systeme können in extraktive und generative Question Answering Systemen eingeteilt werden.
- Bei dem extraktiven Question Answering System (extractive QA) wird die Antwort aus dem relevanten Kontext extrahiert (BERT-ähnliche Modelle).
- Bei dem generativen Question Answering System (generative QA) generiert das Modell Freitext basierend auf dem Kontext, für den es Textgenerierungsmodelle (Text Generation models) verwendet.
Andererseits können die Question Answering System auch als offene oder geschlossene Question Answering Systeme (open or closed QA systems) klassifiziert werden.
- Bei dem offenen Question Answering System wird die Antwort aus dem Kontext entnommen.
- In dem geschlossenen Question Answering System wird kein Kontext bereitgestellt und daher ist die Antwort vollständig generiert.
Die schnelle Question Answering wird durch die Einfügung eines ersten Rankings mithilfe von Passage-Ranking-Modell (passage ranking model) ermöglicht. Passage-Ranking-Modell ist ein neues Ranking-Modell von Google zur Kategorisierung von Inhalten von Websites. Für akademische Benchmark-Tests stehen QA Datensätze zur Verfügung. Der am häufigsten verwendete QA Dataset(Datensatz) für den akademischen Benchmark extraktiver QA Systeme ist der Stanford Question Answering Dataset (SQuAD), der aus mehr als 100.000 QA Paaren zu mehr als 500 Artikeln besteht.
(4) Das Empfehlugssystem (Recommendation/Recommender System) ist eine Art IR-System, das personalisierte Empfehlungen gibt, die auf dem Verhalten, den gemeinsamen Präferenzen und Interessen der Benutzer basieren. Basierend auf der Analyse von Benutzerklicks können diese Content-Plattformen (content platforms) andere Inhalte vorschlagen, die die Benutzer ansehen oder lesen können. Bei solchen Anwendungen tragen KGs dazu bei, die Genauigkeit zu verbessern, die Vielfalt der empfohlenen Elemente durch die Einbeziehung externen Wissens zu erhöhen und die Interpretierbarkeit von Empfehlungen zu verbessern. Typische Beispiele für solche KG-Anwendungen sind Content-Plattformen, wie z.B. Social Media (social media), Netflix oder Suchmaschinenoptimierung (Search Engine Optimization - SEO), die ein Teilgebiet des Suchmaschinenmarketings ist.
(5) Natural Language Processing, NLP (Verarbeitung Natürlicher Sprache) befasst sich mit der Verarbeitung und dem Verstehen von Text und gesprochener Sprache durch die Anwendung hauptsächlich Techniken von Maschinelles Lernen. Informationsextraktion (information extraction - IE) ist eine NLP-Technik, die darauf abzielt, strukturierte Informationen aus typischerweise unstrukturiertem Text zu extrahieren. Genauer gesagt befindet sich IE im Schnittpunkt von IR und NLP. Zwischen KG und NLP besteht eine gegenseitig vorteilhafte Beziehung. Einerseits dient KG der Umsetzung von NLP-Techniken, wie z.B. Textzusammenfassung. Andererseits werden NLP-Techniken wie die Named Entity Recognition und die Relation Extraction verwendet, um KG zu erstellen.
(6) Beim Enterprise Knowledge Management geht es darum, KG im industriellen Bereich einzusetzen, um die Vorteile zu nutzen, die KG bietet. Zu diesen Vorteilen gehören:
- Big Data (big data) nutzen, um neuen Geschäftswert zu schaffen,
- Geschäftsansichten auf verschiedenen Granularitätsebenen erstellen,
- durch hierarchische Einbeziehung unternehmensrelevanter Daten neue Erkenntnisse liefern und
- Mitarbeitern einen erweiterten Zugriff auf Unternehmensinformationen bieten.
(7) Domänenspezifische Anwendungen (domain-specific applications) ermöglichen Mehrwerts durch die Anwendung von KG in verschiedenen Bereichen zu schaffen.
- Biomedical KG-Anwendungen (biomedical KG applications) ermöglichen die Beantwortung von Fragen und die Entscheidungsunterstützung in den Biowissenschaften (life sciences) durch die Integration mehrerer Quellen biomedizinischer Informationen (biomedical information).
- Medizinische Anwendungen (medical application) nutzen KG zur Integration textueller medizinischer Kenntnisse. Ein Beispiel hierfür ist das Abrufen spezifischer Informationen mittels Schlussfolgerung.
- In Cybersicherheit-Anwendungen (cybersecurity applications) wird KG zum Speichern von Modellierungsmustern in großen Datensätzen von Transaktionen und Organisationen verwendet. Dies dient als Grundlage für Aufbau von Anwendungen, wie z.B. Angriffe zu erkennen und zu vorhersagen (d.h. potenzielle Arten von Wirtschaftskriminalität zu identifizieren) und Sicherheitsbedrohungen durch verdächtige Transaktionen (suspicious transactions), abnormales Benutzerverhalten (abnormal user behaviour) oder gefälschte Konten (fake accounts) zu identifizieren.
- In E-Commerce-Anwendungen (e-commerce applications) wird KG verwendet, um semantische Informationen über die Interaktionen zwischen Kunden und Produkten und deren Merkmale zu speichern. Diese können für eine Vielzahl von Aufgaben verwendet werden, darunter die Suche nach ähnlichen oder kompatiblen Produkten, die Identifizierung von Produktklassen, das Abrufen relevanter Produkte für einen bestimmten Suchbegriff und das Abrufen ähnlicher Suchbegriffe.
- In Finanzanwendungen (financial applications) wird die KG durch die Identifizierung Named Entities aus News von Unternehmen und durch die Extraktion von Geschäftsbeziehungen zwischen relevanten Aktien erstellt. Solche KGs können Aufgaben wie z.B. Vorhersage der Kursbewegung einer Aktie ausführen.
- KG wird in der Bereitstellung von Nachrichten (KG in field of news) zur Umsetzung der Fake-News-Erkennung (fake news detection) eingesetzt.
- Im Bildungsbereich (KG in field of education) werden KG-Knoten zum Speichern von didaktischen Konzepten (instructional concepts) verwendet, die für Aufgaben wie z.B. die Empfehlung von Lernressourcen (learning resource recommendation) und die Visualisierung von Konzepten (concept visualisation) verwendet werden.
- In Geoscience Applications (Geoscience applications) KG speichert die geowissenschaftlichen Textdaten, die für Informationsextraktions- und Wissensentdeckungsdienste (information extraction and knowledge discovery services) verwendet werden.
Anwendungen von ML
ML Technologien haben sowohl viele allgemein bekannte Anwendungen als auch Anwendungen in einer Vielzahl von Fachgebieten, darunter Finanzen, Gesundheitswesen, Landwirtschaft und viel mehr.
Im Folgenden geben wir eine kurze Beschreibung einiger allgemein bekannter Anwendungen.
Spracherkennung (speech recognition) ist der Prozess der Umwandlung der gesprochenen Sprache in geschriebenen Text. Es wird auch als Speech to Text (STT) oder Automatic Speech Recognition (ASR oder einfach SR) bezeichnet. Spracherkennung wird z.B. in sprachgesteuerten Callcentern (speech automated call centers), Sprachsteuerung (voice dialling, speech enabled dialling) oder in Apples Sprachassistent Siri (Apple’s speech assistant Siri) verwendet.
Bei der Sprechererkennung (speaker recognition) handelt es sich um die Aufgabe, den Sprecher anhand einer kurzen Rede (normalerweise einige Sekunden) zu identifizieren.
Die Sprachsynthese (speech synthesis) umfasst die Aufgabe, geschriebenen Text in menschliche Sprache umzuwandeln. Es wird auch als Text-to-Speech (TTS) bezeichnet und ist die umgekehrte Aufgabe der Spracherkennung.
Sprachübersetzung (language translation), wie z.B. Google Translate kann geschriebenen Text in einer Sprache in den entsprechenden Text in einer anderen Sprache übersetzen. Es basiert auf NLP Techniken, einschließlich Part-of-speech-Tagging (POS-Tagging) und Named Entity Recognition.
Aufgabe der Bilderkennung (image recognition) ist Muster in einem Bild oder Video zu erkennen. Es kann unter anderem zur Gesichtsdetektion (face detection), Gesichtserkennung (face recognition) oder zur weiteren Analyse verwendet werden.
Vorhersage des Verkehrsmusters (traffic pattern prediction). Diese Aufgabe generiert Vorhersagen über den bevorstehenden Verkehr basierend auf dem tatsächlichen Verkehr, der z.B. verwendet wird um die schnellste Route zum gewünschten Ziel zu ermitteln und vorzuschlagen.
Ziel des Data Mining (data mining) ist es, Informationen aus einem (meist großen) Dataset zu extrahieren und in eine für die weitere Verwendung geeignete Struktur umzuwandeln. Data Mining wird z.B. durch Geheimdienste (secret services) oder zur Ausreißererkennung (outlier detection) in der Statistik angewendet.
Produktempfehlungen für den E-Commerce (E-commerce product recommendations). Es handelt sich um eine Marketinganwendung, die Produktempfehlungen basierend auf gesammelten Daten über früheres Kundenverhalten und vergangene Einkäufe generiert. Es ist ähnlich, unterscheidet sich aber vom Empfehlungssystem, das IR und KG anstelle von ML verwendet.
Die E-Mail-Spam-Erkennung/E-Mail-Filterung (email spam detection/email filtering) erfolgt mithilfe von Spam-Filtern, die ML-Algorithmen verwenden, um eingehende E-Mails als Spam zu klassifizieren oder nicht.
Die Malware-Erkennung (Malware detection) wird als ein Mustererkennungssystem realisiert, welches auf Features (Merkmalen) trainiert wird, die verdächtige Aktivitäten characterisieren.
Computer Vision (computer vision) nutzt ML-Techniken, um hochdimensionale reale Daten zu verarbeiten, zu analysieren, zu visualisieren oder zu interpretieren.
Die Transportanwendung (Transportation application), wie Uber, verwendet ML Verfahren, um die Verkehrsbedingungen zu analysieren und die voraussichtliche Ankunftszeit (Estimated Time of Arrival - ETA) am gewünschten Ziel abzuschätzen.
ML angewendet auf Geschäftsprobleme wird auch als Predictive Analytics bezeichnet. Wir geben zunächst kurze Interpretationen mehrerer Anwendungsbeispielen für ML- im Finanzwesen.
- Die Betrugserkennung bei Banktransaktionen (Fraud Detection) wird durch einen ML-Algorithmus implementiert, der für jede Transaktion einen Wert angibt, der die Wahrscheinlichkeit eines Betrugs darstellt. Das Training des Algorithmus basiert auf Mustern für ungewöhnliches Verhalten, die aus großen Mengen an Transaktionsdaten identifiziert werden. Dies ist die wichtigste Anwendung von ML im Bank- und Finanzbereich.
- Fokussierte Ausrichtung auf Kontoinhaber (Focused Account Holder Targeting). Dabei klassifizieren ML-Algorithmen die Kontoinhaber nach Segmenten mit vordefinierten Salden und Krediten.
- Börse und Daytrading (Stock Market and Day Trading). In dieser Anwendung wird ML darauf trainiert, die Entwicklung der Preise an der Börse vorherzusagen.
- Die Vorhersage der Kreditwürdigkeit (Loan Eligibility Prediction) wird durch verschiedene ML-Klassifikatoren (wie z. B. Random Forest, siehe 4.2.5 realisiert, um die Eignung der Kunden für die Gewährung eines Kredits zu beurteilen.
Zunächst werden wir einige Anwendungen von ML im Gesundheitswesen erwähnen.
- In der personalisierten Behandlung/Medikation (Personalized Treatment,
Personalized Medication) wird ML verwendet, um
Genmuster/Ansprechmarker (gene patterns/response markers) von Patienten zu identifizieren, die gezielte Therapien ermöglichen könnten.
- In der Genetik und Genomik (Genetics and Genomics) wird ML zur Identifizierung von Gensequenzen (gene sequences) bei der Genomsequenzierung (genome sequencing) und genetische Veränderung (gene modification) insbesondere mittels Hidden-Markov-Modelle ( Hidden Markov Models – HMMs) verwendet und wird auch in der Genforschung eingesetzt.
- In der Krebsprognose und -vorhersage (Cancer Prognosis and Prediction) wird ML verwendet, um Vorhersagemodelle zu erstellen, um Entscheidungen über eine Therapie zu unterstützen und deren Entwicklung vorherzusagen.
- Bei der Arzneimittelentwicklung (Drug development) kann der Prozess der Arzneimittelentdeckung durch den Einsatz von ML-Techniken beschleunigt werden.
Künstliche neuronale Netzwerke/Netze, KNN (Artificial Neural Networks - ANNs) oder einfache neuronale Netzwerke/Netze (NNs) kombinieren ML mit dem NN-Modell. Die große Mehrheit der Anwendungen (wie z. B. Krebsprognose und -vorhersage) hat von der Verwendung von ANN anstelle reiner ML-Algorithmen profitiert. Diese Anwendungen sind z.B. Bilderkennung, medizinische Diagnose, Spracherkennung, maschinelle Übersetzung, Computer Vision, Krebsprognose und -vorhersage, Filterung sozialer Netzwerke, Brett- und Videospiele.
Embedded Machine Learning (Embedded Machine Learning) ist ein Teilgebiet des ML, bei dem ML auf eingebettete Systeme (embedded systems) mit begrenzten Ressourcen angewendet wird. Zu diesen eingebetteten Systemen gehören z. B. Mikrocontroller (microcontrollers), tragbare Computer (wearable computers) und Edge-Geräte (edge devices). Der Einsatz von ML-Methoden in eingebetteten Systemen macht die Übertragung und Speicherung von Daten auf Cloud-Servern (cloud servers) überflüssig. Zu den Techniken des eingebetteten maschinellen Lernens gehören unter anderem Approximatives Rechnen (approximate computing) und Hardwarebeschleunigung (hardware acceleration).
Weitere Einzelheiten zur Anwendung von ML befinden sich z.B. auf der
Wikipedia-Seite Machine Learning.
Weitere Anwendungsgebiete von KI
Weitere Anwendungsgebiete von KI sind u.a
- Ausbildungssektor (educational sector), z.B. durch die Erstellung automatisierter Nachrichten an Studierende oder durch die Gestaltung von Inhalten basierend auf den Interessen des Benutzers (Smart Content Creation),
- Robotik (robotics) z.B. indem wir Entscheidungen in Echtzeit auf der Grundlage von NLP, Objekterkennung (object recognition) und Mensch-Roboter-Interaktion (Human-Robotics Interaction - HRI) ermöglichen,
- Navigation (navigation) z.B. durch die Berechnung der besten Route basierend auf GPS- und KI-Technologien (GPS - Global Positioning System),
- Gesundheitswesen (Healthcare), z.B. durch Patientenüberwachung (patient monitoring) oder chirurgische Assistenz (surgical assistance),
- Automobile (automobiles) z.B. durch Advanced Driving Assistance System (ADAS) oder autonomes Fahren (autonomous driving),
- Landwirtschaft (agriculture) z.B. durch Pflanzenüberwachung (crops monitoring), Supply Chain und Instandhaltung (supply chain maintenance) oder Wettervorhersage (weather forecasting),
- Personalwesen (human resource), z.B. durch Screening,
- Lebensstil (lifestyle) z.B. durch personalisierte Empfehlung (personalized recommendation), virtuelle Assistenz,
- Gaming (gaming) z.B. durch Animation (animation),
- Astronomie (astronomy) z.B. durch Analyse astronomischer Daten und Erkennung z.B. von Exoplaneten,
- Reisen und Transporte (travel and transport), z.B. Platooning von LKWs (truck platooning) ermöglichen,
- Militär (military), z.B. durch Erkennung von Cyberangriffen (detecting Cyberattacks) und Entscheidungsunterstützung (decision support) z.B. für die Ressourcenallokation (resource allocation).
Ethik in der KI
Ethik ist im allgemeinen eine Menge von moralischer Regeln und Leitfaden, die den Menschen helfen, zwischen Recht und Unrecht zu entscheiden. Es ist zu erwarten, das KI schon in der näheren Zukunft erhebliche Auswirkungen auf die ganze Menscheit und Welt haben wird. Deshalb ist es wichtig auf ethischen Fragen in Zusammenhang mit KI bedeutsam Aufmerksamkeit zu schenken.
In der vorigen Jahren haben Organisationen verschiedene Big Data Algoritmen und KI Lösungen eingesetzt meist um ihre Geschäftsergebnisse durch Automatisierung und datengesteuerte Entscheidungsfindung zu verbessern. Dabei wurden einige Unternehmen in Zusammenhang mit ihrer KI-Anwendungen mit unerwarteten negative Konsequenzen konfrontiert, insbesondere aufgrund unfairer Ergebnisse und durch Anwendung von mit Vorurteilen behafteten Datensätzen. Dies hat dazu geführt, dass führende Unternehmen und Forschungs-und Datenwissenschafts-Communities im Bereich der KI sich mit den ethischen Aspekten der KI eingehend befassen mussten. Mangel an angemessene Regeln in diesem Bereich kann zu Reputationsverlust, hohe Geldstrafen sowie zu regulatorischen und rechtlichen Problemen führen.
Ethik der KI (kurz KI-Ethik) ist ein Teilbereich der angewandten Ethik, der sich unten anderen mit der folgende Fragestellungen sich beschäftigt:
- die gezielte Rolle von KI-Syteme und die ethische Aspekte die ihre Benützung entsprechend ihrer Rollen ermöglichen,
- ethische Regeln, Leitpfaden für Menschen, die KI-Systeme planen, herstellen, testen, zertifizieren und benutzen.
- gewünschtes ethische Verhalten von KI-Systemen (Maschinenethik).
Prinzipien und Elemente der KI-Ethik
Als Leitfaden für die Ethik in der experimentellen Forschung und der Entwicklung von Algorithmen sind der Belmont-Bericht (https://www.hhs.gov/ohrp/sites/default/files/the-belmont-report-508c_FINAL.pdf) in akademischer Gemeinschaft weit verbreitet. Die drei wesentliche Prinzipien des Belmont-Berichts lauten:
- Respekt für Personen
- Gutes tun
- Gerechtigkeit (bzgl. Fairness und Gleichheit)
Obwohl eine vielzahl von ethischen Elemente, Prinzipien und Richtlinien für KI vorgeschlagen wurden, existiert derzeit keine einheitliche Richtlinien für KI-Ethik. Allerdings besteht eine gewisse Konsens über die folgende zwei Elemente in die KI-Ethik zu integrieren:
- Governance - um die Einhaltung der gesetzlichen Vorschriften in Zusammenarbeit mit Regierungsbehörden sicherzustellen.
- Erklärbarkeit - die Funktionsweise der KI Systeme zu erklären (Transparenz) um Vertrauen gegenüber KI-Systeme zu schaffen.
Es gibt mehrere Organisationen mit dem Ziel das KI-Ethik zu fördern. Dies sind die folgenden.
- CHAI:Eine Kooperation verschiedener Universitäten und Institute ist das Center for Human-Compatible Artificial Intelligence
(https://humancompatible.ai/), welche dei vertrauenswürdige KI und nachweislich nutzbringender Systeme fördert.
- DARPA: Die Defense Advanced Research Projects Agency des
US-Verteidigungs-ministeriums (https://www.darpa.mil/work-with-us/ai-next-campaign) fördert die erklärbarer KI-Forschung.
- NASCAI: Die National Security Commission on Artificial Intelligence
(https://www.nscai.gov/) ist eine US Kommission ,,die die Methoden und Mittel prüft, die notwendig sind, um die Entwicklung von künstlicher Intelligenz, maschinellem Lernen und damit verbundenen Technologien voranzutreiben, um die nationalen Sicherheits- und Verteidigungsbedürfnisse der Vereinigten Staaten umfassend zu erfüllen.“
- AlgorithmWatch: Eine gemeinnützige Organisation
(https://algorithmwatch.org/en/), die sich auf den Einsatz von erklärbaren und nachvollziehbaren Entscheidungsprozessen und Algorithmen abzielt.
- AI Now Institute: Eine gemeinnützige Organisation an der New York University (https://ainowinstitute.org/), die sich mit der sozialen Auswirkungen der KI beschäftigt.
Laut Luciano Floridi und Josh Cowls herrscht eine weitgehende Übereinstimmung darüber, dass es möglich ist, die ethischen Prinzipien für gesellschaftlich nützlichen Einsatz von KI basierend auf die vier Prinzipien der Medizinethik und ein zusätzliches fünftes Prinzip, Erklärbarkeit aufzubauen :
,,1. Fürsorge (Benefizienz): KI-Technologie soll der Menschheit nützen, das Wohlergehen fördern, die Menschenwürde wahren und der Erhaltung des Planeten dienen.
2. Schadensvermeidung (Non-Malefizienz): Negative Folgen eines übermäßigen oder missbräuchlichen Einsatzes von KI müssen vermieden werden, KI soll nur in einem sicheren Rahmen eingesetzt werden.
3. Autonomie: Menschen müssen die volle Entscheidungsfreiheit darüber haben, ob und welche Aufgaben sie an KI-Systeme delegieren, ihre Freiheit, sich eigene Normen und Standards zu setzen, muss gewahrt bleiben.
4. Gerechtigkeit: Wahrung der Solidarität, Vermeidung von Ungerechtigkeit, gleichberechtigter Zugang zu den Vorteilen der KI.
5. Erklärbarkeit (Verständlichkeit): Die Prinzipien 1 bis 4 sind nur realisierbar, wenn auch Laien nachvollziehen können, welchen Nutzen oder Schaden KI für die Gesellschaft hat und wer für welche Auswirkungen verantwortlich ist.“
Kritik und Debatten
Es gibt derzeit eine Reihe von ethischer Diskussionen bzgl. KI Systemen. Sollche KI-Ethik einbeziehende Debatten kommen in mehrere Bereichen vor. Autonomes Fahren stellt ein Musterbeispiel dar. Von automatisierter Systeme sind erwartet, dass sie im Vergleich zur menschlichen Fahrleistung zumindest eine Schadensminderung erzielen. Da derzeitige KI Syteme sehr selten, aber eventuell Fehlerhafte Reaktionen produzieren, ist es zumindest fragwürdig ob autonome Fahrzeuge diese Erwartung erfüllen können. Außerdem ist es auch problematisch, wie ein autonomes Fahrzeug in einem nicht normierbare dilemmatische Entscheidungen, wie z.B. Leben gegen Leben bei plötzlich auftretenden Gefahren, reagieren werden sollen. Ähnliche Debatte kommen auch im Bereiche Autonome Waffensysteme und Maschinenethik aber allgemeiner in Bereiche, wo Algorithmen verwendet werden (siehe Studie Diskriminierung), vor
Im Allgemeinen die folgende Debatte auslösende Quellen können identizifiert werden:
- KI Systemen machen eventuell Fehler - durch Beschränkungen der Sammlung von Daten und Dokumentation sowie der algorithmischen Regeln und - Aufgrund der Unvollständigkeit der Korpora bei der Entscheidungsfindung (ist eine Angabe alle nötige Informationskanäle in die Korpora um die gleiche Entscheidung von KI zu haben, was ein Mensch machen würde, ist nicht möglich).
- Bedenken hinsichtlich der Designziele des Systems, z.B. bessere Geschäftsergebnis zu schaffen statt öffentliches Interesse zu folgen. Eine andere Debatte bilden die Überlegungen über die technologische Singularität, i.e. wann die KI das Übertreffen die menschliche Intelligenz erreicht. Obwohl diese Superintelligenz steht nicht unmittelbar bevor, ist Sie mit Angst vor Gefahr auf die Menschheit verbunden. Allerdings ist diese Angst zumindest Teilweise unbegründet, da diese dadurch ausgelöst, dass die Funktionsweise der KI Systeme für meistens die Menschen nicht bekannt ist, also durch die fehlende Transparenz.
KI-Ethik-Vorgehensweisen
Eine mögliche Vorgehesweise in KI-Ethik ist die Verfassung einer KI-Ethikerklärung, zu deren Einhaltung sich jeder (Privatperson, Firma oder Institut) verpflichten kann, der sich an verantwortungsvollen Entwicklung der künstlichen Intelligenz befasst.
Eine sollche bekannte KI-Ethik-Erklärung ist die Montreal Declaration (https://www.montrealdeclaration-responsibleai.com/the-declaration). Die Prinzipien der Montreal Declaration lauten:
- Wohlbefinden Respekt vor Autonomie
- Schutz der Privatsphäre und Intimität
- Solidarität
- Demokratische Beteiligung
- Gerechtigkeit
- Vielfalt
- Inklusion
- Vorsichtsprinzip
- Verantwortung
- Nachhaltig
- Entwicklung
Die Österreichische UNESCO-Kommission hat eine Empfehlung zur Ethik der KI ausgegeben Empfehlung zur Ethik der KI. Eine Zusammenfassung üblicher internationalen Vorgehensweisen und Handlungsempfehlungen befindet sich im Dokument https://ec.europa.eu/futurium/sites/futurium/files/ethik_im_zeitalter_der_kunstlichen_intelligenz_v05_haarich_0.pdf.