Methoden der Datenanalyse - Faktorenanalyse: Unterschied zwischen den Versionen

Aus FernFH MediaWiki
Zur Navigation springen Zur Suche springen
(Die Seite wurde neu angelegt: „= Multidimensionale Skalierung = ''Die multidimensionale Skalierung bedient sich ähnlicher Techniken und Ideen wie die Clusteranalyse und die Faktorenanalyse. Ziel der Lektion ist es, Unterschiede und Gemeinsamkeiten herauszuarbeiten sowie exemplarisch in eine Analyse in R einzuführen.'' Wir verlassen nun jene statistischen Analyseverfahren, die primär das Ziel haben, über die beobachteten Daten Voraussagen zu treffen und wechseln zu solchen, die au…“)
 
 
(10 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
= Multidimensionale Skalierung =
= Faktorenanalyse =


''Die multidimensionale Skalierung bedient sich ähnlicher Techniken und Ideen wie die Clusteranalyse und die Faktorenanalyse. Ziel der Lektion ist es, Unterschiede und Gemeinsamkeiten herauszuarbeiten sowie exemplarisch in eine Analyse in R einzuführen.''
''Wichtiges Ziel der Lektion ist die Erkenntnis, welche Aussagen über nichtbeobachtbare Merkmale aufgrund der Korrelationsstruktur eines Satzes von vorhandenen Variablen abgeleitet werden können. Die Grundlagen der Faktorenanalyse als Basis von Strukturmodellen und die Darstellung der subjektiven Entscheidungen, die im Zuge einer Faktorenanalyse getroffen werden müssen sind ebenso Schwerpunkte, wie die Analyse der Daten in R.''


Wir verlassen nun jene statistischen Analyseverfahren, die primär das Ziel haben, über die beobachteten Daten Voraussagen zu treffen und wechseln zu solchen, die auch latente (nicht messbare) Dimensionen („Faktoren“) zur Erklärung der beobachteten Daten zulassen.
== Einführung  ==


Die Analyse mittels „multidimensionaler Skalierung“ (MDS) wird in diesem Skriptum nicht zufällig zwischen Clusteranalyse und Faktorenanalyse behandelt, sondern vereint auch Elemente aus beiden Analysemethoden in sich und nimmt damit eine Zwischenstellung ein.
Die in den ersten beiden Lektionen besprochenen Verfahren der Regressions- bzw. Varianzanalyse eignen sich, um den Zusammenhang zwischen einem Satz an ausgewählten Variablen und einer davon abhängigen Variable zu testen. Oft kommt es allerdings vor, dass die Menge an potentiellen Variablen relativ groß ist, einzelne Variablen hoch miteinander korrelieren, oder man nicht am Einfluss der Variablen auf eine abhängige Variable, sondern an der Korrelationsstruktur bzw. an latenten (=nicht beobachtbaren), den Daten zugrundeliegenden Faktoren interessiert ist. Den zweiten Fall haben wir bei Beispiel 1 gehabt. Hier waren Spritverbrauch in der Stadt bzw. auf der Autobahn klarerweise hoch korreliert und damit war schwer abzuschätzen, wie groß der Anteil jeder der beiden Variablen an der Erklärung des Preises ist (im gewählten Modell kam dann jedoch ohnehin keine der beiden Variablen vor). Für den Fall, dass man an latenten Faktoren interessiert ist, gibt es folgende Beispiele:


Ziel des Verfahrens ist es, eine Anzahl von [[File:media/image174.png]][[File:media/image174.png]] Objekten hinsichtlich ihrer Ähnlichkeit in der subjektiven Wahrnehmung durch eine oder mehrere Personen in einem für den Anwender übersichtlichen „Raum“ zu positionieren und abzubilden.
* Menschliches Verhalten ist beispielsweise von einer Vielzahl an Einflussfaktoren abhängig. In Fragebögen, die das Verhalten in bestimmten Situationen abfragen, werden oft viele ähnliche Fragen, die miteinander hoch korrelieren, gestellt. Letztendlich will man dabei aber latente Konstrukte, wie z.B. „Aggresionspotential“ oder „Verlässlichkeit“ erheben.
* Erhebung von Prädiktoren für die Kreditwürdigkeit von Kunden einer Bank. Bekannt sind zahlreiche Kundenvariablen, die hoch korreltiert sind und verdichtet werden können.
* Welche Fähigkeiten liegen Leistungen in Intelligenztests zugrunde? Es existieren viele verschiedene (ähnliche Tests), bei denen hochkorrelierte Leistungen zu beobachten sind. Welche (nicht beobachtbaren) Faktoren liegen diesen Leistungen zugrunde?
<p>Die Faktorenanalyse bedient sich nun mathematischer Verfahren, die es ermöglichen, viele, miteinander hoch korrelierende Variablen auf einige wenige, nicht korrelierenden Faktoren umzurechnen, sodass die Information (Varianz) der Daten aber weitgehend vorhanden bleibt.</p>
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Beispiel 10 (Extrembeispiel)'''


Merkmale, die einen Raum aufspannen, können hier nicht abgefragt werden, weil sie oft nicht bewusst sind und nur assoziativ angesprochen werden. Personen sollen lediglich Ähnlichkeits- und Distanzaussagen machen.
Angenommen Sie wollen den Umsatz von Speiseeis in Wien in Abhängigkeit von der jeweils um 12h in der Wiener Innenstadt gemessenen Temperatur vorhersagen. Sie messen die Temperatur in Grad Celsius, in Fahrenheit und in Kelvin. Anschließend führen Sie eine multiple lineare Regression des Speiseeisumsatzes, die alle drei Variablen als Erklärung enthält, durch.


Die Gemeinsamkeit zur in der vorigen Lektion besprochenen Clusteranalyse besteht darin, dass Distanzen zwischen verschiedenen Objekten die zentrale Rolle in diesem Verfahren spielen. Der Unterschied ist jedoch, dass diese Distanzen oft nicht – wie in der Clusteranalyse – aufgrund von beobachtbaren Merkmals­ausprägungen in verschiedenen Variablen objektiv berechnet werden können, sondern diese Distanzen nur in der Vorstellung der Personen existieren. Als Ergebnis einer MDS ist daher nicht nur die Darstellung von Objekten im Raum zu nennen, sondern ggf. auch die Interpretation der diesen Raum aufspannenden Dimensionen. Diese latenten Dimensionen bilden die Verbindung zur Faktoren­analyse, die im nächsten Abschnitt besprochen wird. Den Aspekt der Datenreduktion ist den beiden Verfahren ebenfalls gemein.
Aufgrund der Tatsache, dass zwischen den drei Skalen mittels Linear­transformation umgerechnet werden kann  <ref>Kelvin= Celsius+273,15 bzw. Fahrenheit=32+9/5*Celsius.</ref>  (exakte Multikollinearität), ergeben sich für die Koeffizientenschätzungen unendlich große Varianzen und beliebige Werte. Die Information, die in allen drei Variablen steckt, kann ohne Verlust mit einer der drei Temperaturvariablen dargestellt werden.
|}
Die im folgenden dargestellten Methoden betreffen die explorative Faktorenanalyse. Mit ihrer Hilfe können keine Wirkzusammenhänge inferenzstatistisch geprüft werden, sondern es können nur Zusammenhangsstrukturen exploriert werden. Dem­gegenüber steht die konfirmatorische Faktorenanalyse, bei der hypothesen­prüfend vorgegangen wird. Diese ist ein Spezialfall der in der folgenden Lektion vorgestellten Strukturgleichungsmodelle und wird dort betrachtet.
 
Für die explorative Faktorenanalyse gilt weiters, dass hier einige subjektive Entscheidungen des Anwenders im Analyseprozess erforderlich sind. Man ist mehr als bei anderen statistischen Verfahren auf Vermutungen angewiesen. Die Faktorenanalyse versteht sich eher als mathematisches Hilfsmittel, welches logisch begründeten Strukturtheorien zur Seite gestellt wird.
 
Die Faktorenanalyse geht zurück auf Spearman, der diese ursprünglich 1904 zum Zwecke der Intelligenzmessung verwendet hat. Das einleitende Beispiel im folgenden Abschnitt widmet sich daher diesem Thema.
 
== Modellvorstellung  ==
 
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Beispiel 11'''
 
Schulnoten sind Indikatoren für den unbekannten Faktor Intelligenz. Es werden aus Gründen der Einfachheit zwei voneinander unabhängige Intelligenzen (quantitative Intelligenz, Q, und verbale Intelligenz, V) postuliert.
 
Folgende beispielhafte Annahme über das Zustandekommen der Noten in sechs verschiedenen Fächern werden getroffen:


== Grundlagen und Annahmen ==
<math>\text { Math }=0,80 * Q+0,20 * V+A_{m}</math>


Die Grundannahme besteht darin, dass ein Raum existiert, der durch orthogonale Achsen gebildet wird und die [[File:media/image174.png]][[File:media/image174.png]] Objekte so darstellt, dass einander ähnliche Objekte beisammen liegen (eine niedrige Distanz aufweisen) und einander unähnliche Objekte weit voneinander entfernt sind. Idealerweise gilt für alle Paare von je zwei Objekten zueinander [[File:media/image175.png]][[File:media/image175.png]], falls die Objekte [[File:media/image42.png]][[File:media/image42.png]] und [[File:media/image92.png]][[File:media/image92.png]] als einander ähnlicher eingestuft werden als die Objekte [[File:media/image15.png]][[File:media/image15.png]] und [[File:media/image91.png]][[File:media/image91.png]] ([[File:media/image176.png]][[File:media/image176.png]] und [[File:media/image177.png]][[File:media/image177.png]] sind die im gewählten Raum ersichtlichen Distanzen der Objekte [[File:media/image42.png]][[File:media/image42.png]] und [[File:media/image92.png]][[File:media/image92.png]] bzw. [[File:media/image15.png]][[File:media/image15.png]] und [[File:media/image91.png]][[File:media/image91.png]] zueinander).
<math>\text { Phys }=0,70 * Q+0,30 * V+A_{p}</math>


{|
<math>\text { Chem }=0,60 * Q+0,30 * V+A_{c}</math>
! width="100%" | '''Beispiel 5'''


Die beliebte Einordnung von politischen Parteien in Links- und Rechtsparteien könnte als eindimensionales Ergebnis einer MDS gesehen werden. Ergibt sich für eine Person z.B. die Einteilung „Grüne“ – „SPÖ“ – „ÖVP“ – „FPÖ“, so heißt dies, dass die „FPÖ“ der „ÖVP“ jedenfalls näher steht als der „SPÖ“. Wahlanalysen zeigen jedoch oft, dass gerade „SPÖ“ und „FPÖ“ oft ähnliche Wählerschichten ansprechen, was eine derartige Einteilung unzureichend machen würde.
<math>\text { Eng }=0,20 * Q+0,80 * V+A_{e}</math>
 
<math>\text { Hist }=0,15 * Q+0,82 * V+A_{h}</math>
 
<math>\text { Fran }=0,25 * Q+0,85 * V+A_{f}</math>
 
Die Noten setzen sich also mittels Linearkombination aus den beiden Intelligenzen plus einem spezifischen Faktor für das jeweilige Fach zusammen.
|}
|}
{|
Die Koeffizienten der Regressiongleichungen aus Beispiel 11 heißen „Ladungen“. <math>Q</math> und <math>V</math> heißen „gemeinsame Faktoren“.
! width="100%" | '''Beispiel 6'''
 
Wird nun ein derartiger Zusammenhang unterstellt, können auch die paarweisen Korrelationen zwischen je zwei Schulnoten (Fächern) daraus abgeleitet werden.
 
Bei der Faktorenanalyse kennt man die in Beispiel 11 getroffene Annahme nicht. Man beschreitet hier den umgekehrten Weg. Gegeben sind alle paarweisen Korre­lationen (im Beispiel die Korrelationen zwischen den Schulnoten) und gesucht sind die (in Beispiel 11) gegebenen Ladungen.
 
Es werden dann einige mathematisch-statistische Restriktionen gemacht, um das Schätzproblem bei der Faktorenanalyse etwas genauer zu spezifizieren. Beispiels­weise muss gefordert werden, dass die gemeinsamen Faktoren untereinander unabhängig sind. Das heißt, wenn jemand eine hohe quantitative Intelligenz hat, dann kann daraus keine Tendenz über die verbale Intelligenz geschlossen werden. Außerdem wir gefordert, dass die gemeinsamen Faktoren von den spezifischen Faktoren unabhängig sind.
 
Notiert wird das Modell der Faktorenanalyse in den gängigen Lehrbüchern in Matrixschreibweise (analog zu Beispiel 11):
 
<math display="block">
Y=F L^{t}+E
</math>
 


Die MDS kann auch verwendet werden, um Marktlücken ausfindig zu machen. Hat man beispielsweise die in Abbildung 25 dargestellte Vorstellung über den Fast-Food-Markt in Österreich, können hier „freie Flecken“ identifiziert werden (z.B. rechts oben für eine neue Fastfood-Kette „Food 4 FUN“).
wobei <math>Y</math> die bereits spaltenweise auf Mittelwert Null zentrierte Datenmatrix (<math>n \times p, n</math> Versuchseinheiten und <math>p</math> Variablen), <math>F</math> die Matrix (<math>(n \times k)</math>), die die gemeinsamen Faktoren enthält, <math>L</math> die Ladungsmatrix (<math>p \times k</math>) und <math>E</math> die (<math>n \times p</math>)- Matrix der Einzel­restwerte ist. In Beispiel 11 ist <math>P=6</math> und <math>K=2</math>.


[[file:img1642219546831.png|300px|none|thumb|Hypothetische Positionierung von Fast-Food-Ketten<br class="mwt-preserveHtml" data-mwt-sameline="true" data-mwt-spaces="" /><span class="mwt-placeHolder mwt-singleLinebreak mwt-slbltr mwt-hidePlaceholder" title="Non-displayed single linebreak" contenteditable="false" draggable="true"> </span>in einem zweidimensionalen Raum]]
Aufgrund der vielen Unbekannten in diesem Modell ist dieses nicht empirisch überprüfbar bzw. uneindeutig. Durch die erwähnten mathematischen Annahmen lässt sich aber die für die Faktorenanalyse zentrale, unter bestimmten Umständen eindeutige Zerlegung bilden: <math>\boldsymbol{\Sigma}=\mathbf{L} \mathbf{L}^{\mathrm{t}}+\mathbf{V}</math>
|}
Der Input bei dieser Analyse ist jeweils eine [[File:media/image179.png]][[File:media/image179.png]]Matrix, die entweder metrische Distanzen zwischen je zwei Objekten enthält (beispielsweise aufgrund des Ratings einer Person, die alle Paare von Objekten hinsichtlich ihrer Distanzen bewertet) – man spricht hier von metrischer MDS – oder schlichtweg die Reihenfolge der Ähnlichkeiten zwischen je zwei Objekten. Im letzten Fall spricht man von „nichtmetrischer MDS“. Ein Beispiel für eine metrische MDS könnte die örtliche Positionierung von Städten zueinander auf Basis der angegebenen Entfernungen der Städte zueinander sein (wie in einem Autoatlas ersichtlich). Die Verfahren, die metrische MDS durchführen, reduzieren sich im wesentlichen auf Fragestellungen, die in der Faktorenanalyse in der nächsten Lektion behandelt werden. In weiterer Folge wird hier daher auf die nichtmetrische MDS, die als Ziel die Optimierung der Ordnungsstruktur der Distanzen hat, eingegangen.


Etwas verkürzt kann man also sagen, dass eine Ordnung der Objektpaare als Input in diesem Verfahren übergeben wird und eine metrische Information das Ergebnis ist. Es findet damit eine Transformation auf eine Skala höherer Ordnung statt (metrisch statt ordinal). Bis jetzt ist noch unzureichend geklärt, ob es gerechtfertigt ist, aus empirisch ermittelten Ähnlichkeiten auf die Lage der Objekte im mehrdimensionalen Raum zu schließen.
<math>\Sigma</math> ist die sogenannte „Varianz-Kovarianzmatrix“ der Daten. Sie enthält in der Hauptdiagonale alle Varianzen der <math>p</math> Variablen und abseits davon alle Kovarianzen. Die Varianz-Kovarianz-Matrix (bzw. bei standardisierten Variablen die Korrelations­matrix) ist der wesentliche Input bei einer Faktorenanalyse, den es zu analysieren gilt. <math>L</math> ist eine Diagonalmatrix mit den Varianzen der spezifischen Faktoren. Das wesentliche Ziel bei der Faktorenanalyse ist es nun, eine jener Matrizen <math>L</math> zu finden, für die diese Zerlegung möglich ist, und zwar für eine minimale Anzahl an <math>k</math>zugrundeliegenden gemeinsamen Faktoren.


Um die ordinale Information über die Ähnlichkeitsbeziehungen abzufragen, wird häufig eine der folgenden drei Methoden angewandt:
== Faktorextraktion ==


* Eine vollständige Rangordnung aller möglichen Paare. Die Person muss alle [[File:media/image180.png]][[File:media/image180.png]] Paare von Beziehungen hinsichtlich ihrer Ähnlichkeit ordnen.
Es gibt nun verschiedene Schätzmethoden, um die Ladungsmatrix <math>L</math> zu schätzen.
* Die Tetradenmethode: Bei allen Paaren von Objektpaaren muss bestimmt werden, welche einander ähnlicher sind.
* Die Ankerpunktmethode: Es werden einzelne Objekte herausgegriffen und die Ähnlichkeiten zu zumindest zwei anderen Objekten miteinander verglichen.


{|
=== Die Maximum-Likelihood-Methode ===
! width="100%" | '''Beispiel 7'''


Bei vier Objekten müssten folgende Kombinationen bewertet werden
Diese bedient sich einem in der Statistik weit verbreiteten Konzept zur Konstruktion von Schätzern. Es wird hier eine multivariate Normalverteilung der beobachteten Daten unterstellt. Als Folge davon kann analytisch jener Schätzer für die Ladungsmatrix <math>L</math>] ermittelt werden, der unter dieser Annahme am plausibelsten ist. Hier wird also stochastisch durch Verteilungsannahmen argumentiert. Die Wahl, wieviele Faktoren (<math>k</math>) gewählt werden, kann unter anderem durch statistische Hypothesentests erfolgen.


Vollständige Rangordnung: 12, 13, 14, 23, 24, 34
=== Die Hauptkomponentenanalyse ===


Tetradenmethode: 12 vs. 13, 12 vs. 14, 12 vs 23, 12 vs. 24, 12 vs. 34, 13 vs. 14, 13 vs. 23, 13 vs. 24, 13 vs. 34, 14 vs. 23, 14 vs. 24, 14 vs. 34, 23 vs. 24, 23 vs. 34, 24 vs. 34
Die Ergebnisse der Hauptkomponentenanalyse erhält man ebenfalls durch Optimierung. Kriterium ist, dass die (zentrierte) Datenmatrix <math>Z</math> durch Multiplikation mit einer <math>k \times k-</math>-Matrix (mit orthonormalen Spalten) derart transformiert wird, dass die Spalten der so transformierten Matrix jeweils schrittweise die höchste Varianz erzeugen. Dieser Vorgang wird Hauptachsentransformation genannt. Diese sehr theoretisch beschriebene Vorgehensweise soll anhand eines Beispieles skizziert werden (Abbildung 32).


Ankerpunktmethode mit drei Objekten:
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Beispiel 12'''


'''1'''2 vs. '''1'''3, '''2'''1 vs. '''2'''3, '''3'''1 vs. '''3'''2
[[file:img1642203546153.png|300px|none|thumb|Sieben Datenpunkte im zweidimensionalen Raum, vor und nach der Achsendrehung]]


'''1'''2 vs. '''1'''4, '''2'''1 vs. '''2'''4, '''4'''1 vs. '''4'''2
Abbildung 32 zeigt sieben Datenpunkte in zwei Variablen. In der linken Abbildung kann die Varianz in X- bzw. Y-Richtung durch Normalprojektion an die jeweiligen Achsen geschätzt werden. Die Daten sind so gewählt, dass sowohl die Varianz in X- als auch in Y-Richtung gleich 1 ist. Geometrisch gesehen wird bei der Hauptachsentransformation das Koordinatensystem solange gedreht, bis die größte der Varianzen der projizierten Datenpunkte auf die neuen Achsen maximal wird. Diese Drehung entspricht in diesem Beispiel 45 Grad und führt dazu, dass die Varianz der Daten auf der Achse von links unten nach rechts oben 1,501 beträgt. Dies ist die größte erzielbare Varianz auf einer Achse. Die Werte auf der zweiten Achse weisen eine Varianz von 0,499 auf. Nachdem die Daten nur zwei Dimensionen haben, bleibt für die zweite Achse nur mehr eine Richtung. Im allgemeinen wird jedoch für die zweite Achse jene Richtung gewählt, die ihrerseits wieder die maximale Varianz liefert.


'''1'''3 vs. '''1'''4, '''3'''1 vs. '''3'''4, '''4'''1 vs. '''4'''3
In Summe sind die Varianzen in beiden Richtungen sowohl in der Grafik links als auch rechts gleich 2. Sie teilen sich nur anders auf. Um wieder zu obigen Text zurückzukehren: Die hier angewandte Transformation bedeutet rechnerisch eine Multiplikation der Datenmatrix mit der Matrix


'''2'''3 vs. '''2'''4, '''3'''2 vs. '''3'''4, '''4'''2 vs. '''4'''3
<math display="block">
\mathbf{L}=\left(\begin{array}{cc} \frac{\sqrt{2}}{2} & -\frac{\sqrt{2}}{2}  \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \end{array}\right)
</math>
|}
|}
{|
Wird <math>k=p</math> gewählt, heißt das, dass die volle Varianz erklärt wird (d.h. die volle Information erhalten bleibt). Die (bei hoher Korrelation in den Daten stark) ungleiche Varianzzerlegung macht man sich aber zunutze um nun die ersten <math>k</math> interessierenden Achsen zu wählen und die anderen zu eliminieren. Damit erzielt man einen Kompromiss zwischen Datenreduktion und Informationsverlust. Der Anteil der Summe aller bis zur <math>k</math>-ten Achse erklärten Varianzen an der Gesamtzahl <math>p</math>der Variablen im Originaldatensatz ist der erklärte Varianzanteil. Dieser ist ein Kriterium zur Bestimmung, auf wieviele Achsen die Daten reduziert werden sollen.
! width="100%" | '''Aufgabe 12'''
 
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Fortsetzung Beispiel 12'''


Wieviele Relationen müssen bei 15 Objekten verglichen werden (nach der Methode der vollständigen Rangordnung bzw. der Tetradenmethode)?
Die Varianz der Daten an der ersten transformierten Achse beträgt 1,501. Die Anzahl der Originalvariablen bzw. die Summe derer Varianzen beträgt 2. Daher beträgt der erklärte Varianzanteil bei alleiniger Datenreduktion auf eine Achse <math>\frac{1.501}{2}=75 \%</math>.
|}
|}
Sieht man von möglichen Problemen ab, die durch solche Bewertungen auftreten können – z.B. nicht transitive bzw. nicht symmetrische Ordnungen, die ein Hinweis sein können, dass Objekte nicht in einem metrischen Raum wahrgenommen werden – gestaltet sich die Aufgabe, aus einer solcherart gefundenen Ordnung die Lage der Punkte zueinander abzuleiten, relativ eindeutig.
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Aufgabe 15'''


Weiters zu entscheiden ist nun einerseits, in welcher Metrik das Ergebnis (die sogenannte „Konfiguration“) berechnet werden soll. Hier werden üblicherweise die schon erwähnten Minkowski-q-Metriken gewählt und unter diesen jene für [[File:media/image142.png]][[File:media/image142.png]] (euklidische Distanz). Dies vor allem wegen der auch in der Faktorenanalyse wichtigen Invarianz der Lösung bezüglich Drehungen oder Spiegelungen <ref>Man kann die Achsen in einem Koordinatensystem beliebig drehen, ohne dass sich die L<sub>2</sub>-Distanz (Luftlinie) ändert..</ref> . Andererseits ist die Dimensionalität des zu erzeugenden Raumes zu wählen. Hier hat man zunächst keine Anhaltspunkte, da das finden von Dimensionen gerade die Aufgabe der MDS ist. Jedoch kommen die meisten Autoren aufgrund der Tatsache, dass die menschliche Vorstellung bei dreidimensionalen Räumen endet zu der Auffassung, dass zwei oder drei Dimensionen ausreichend sind. Hinweise, ob zwei oder drei Dimensionen besser sind, folgen noch. Das Vorgehen bei einer nichtlinearen MDS wird im folgenden Abschnitt beispielhaft demonstriert.
Angenommen es liegt ein Satz von acht (auf Varianz gleich Eins) standardisierten, korrelierten Variablen vor, der mittels Hauptkomponentenmethode reduziert werden soll.


== Konkretes Vorgehen bei der MDS ==
<ol style="list-style-type: lower-alpha;">
<li style="text-align: left;"><p>Sie entschließen sich, die Daten auf drei Achsen zu reduzieren. Wie groß sollte die Summe der drei erklärten Varianzen jedenfalls sein?</p></li>
<li style="text-align: left;"><p>Wie groß sollte der erklärte Varianzanteil dann jedenfalls sein?</p></li>
<li><p style="text-align: left;">Angenommen Sie erzielen eine Varianzerklärung von 74%. Wieviele Achsen haben Sie dabei maximal gewählt?</p></li>
</ol>
|}
Die eben diskutierte Vorgehensweise nur <math>k<p</math> Achsen aus der transformierten Matrix zur Erklärung der Originaldaten auszuwählen, wird „Hauptkomponenten­methode“ genannt. Während bei <math>k=p</math> nur eine Lösung existiert, den gesamt erklärten Varianzanteil zu maximieren, ist die Lösung bei <math>1<k<p</math> gewählten Achsen nicht eindeutig. Darauf wird in Abschnitt 5.6 eingegangen.


{|
Die Lösung der Hauptkomponentenanalyse wird im Normalfall nicht graphisch durchgeführt, sondern reduziert sich – mathematisch gesehen – auf das Finden der Eigenwerte der Korrelations- bzw. Kovarianzmatrix der Daten. Deshalb liest man statt erklärten Varianzanteilen in Software-Outputs von Faktorenanalysen auch immer wieder von Eigenwerten. Die Varianzen der Daten in den einzelnen Richtungen sind gerade durch diese Eigenwerte gegeben.
! width="100%" | '''Beispiel 8'''


Gegeben seien fünf Objekte A-E. Anhand folgender Ordnungsrelation der Ähnlichkeiten von je zwei Objekten soll eine MDS durchgeführt werden:
Die Hauptkomponentenmethode ist die am häufigsten angewandte Methode zur Extraktion von Faktoren. Der Grund ist auch, dass hier im Gegensatz zu anderen Berechnungsmethoden kein iteratives Vorgehen benötigt wird. Im Hinblick zur eigentlichen Faktorenanalyse wird hier kein Modell zugrundegelegt, sondern es wird lediglich eine technische Optimierungsaufgabe zur Datenreduktion durchgeführt. Eine Methode, die die Hauptkomponentenmethode verwendet um in einem iterativen Prozess (wie vorher erwünscht) statt den Varianzen die Anpassung an die Korrelationsmatrix optimiert, ist die Hauptfaktorenanalyse. Auf diese wird aber aus Platzgründen nicht weiter eingegangen.


[[File:media/image181.png]]
== Bestimmung der Anzahl an Faktoren  ==


Die Angabe bedeutet, dass sich die Objekte A und D am ähnlichsten und die Objekte B und D am unähnlichsten sind.
Die wesentlichste Frage, wenn mittels Hauptkomponentenanalyse versucht wird, einen Satz von <math>k<p</math> Dimensionen – die „gemeinsamen Faktoren“ – zu ermitteln, ist, wie groß <math>k</math> nun sein soll. Dazu gibt es drei häufig verwendete Kriterien.
|}
{|
! width="100%" | '''Aufgabe 13'''


Zeigen Sie, dass die Objekte A bis E aus Beispiel 8 nicht in einer Dimension positioniert werden können, ohne zumindest eine der beschriebenen Ungleichungen zu verletzen.
=== Die erklärte Varianz ===
|}


=== Wahl einer Startkonfiguration ===
Ein mögliches Kriterium kann sein, dass man einen gewissen Anteil an erklärter Varianz nicht unterschreiten will, da man sonst nicht mehr das Gefühl hat, die ursprünglichen Daten mit dem reduzierten Datensatz gut zu beschreiben.


Zu Beginn der Analyse wird die Dimension der Lösung, sowie die Metrik festgelegt. Wir entscheiden uns aufgrund der sehr geringen Anzahl an Objekten für eine zweidimensionale Lösung und für die euklidische Distanz. Es kann nun eine beliebige Positionierung der Punkte im zweidimensionalen Raum als Startlösung gewählt werden.
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Beispiel 13'''


{|
Im diesem Beispiel (Backhaus et al., 2003) sind die mittels Fragebogen von mehreren Personen erhobenen Eigenschaften von sechs Margarinesorten er­hoben. Die Daten beschreiben die Mittelwerte der Stichprobe, die auf einer Rating­skala zwischen 1 und 7 bewertet wurden.
! width="100%" | '''Fortsetzung Beispiel 8'''


Wir wählen folgende Startkonfiguration:
{| style="border-collapse: collapse; height: 196px; background-color: rgb(149, 165, 166);" border="1"
! style="height: 28px; width: 284.468px;" |
! style="height: 28px; width: 219.352px;" | Anteil ungesättigter Fettsäuren
! style="height: 28px; width: 232.373px;" | Kaloriengehalt
! style="height: 28px; width: 219.352px;" | Vitamingehalt
! style="height: 28px; width: 180.278px;" | Haltbarkeit
! style="height: 28px; width: 115.22px;" | Preis
|- style="height: 28px;"
| style="height: 28px; width: 284.468px;" | Rama
| style="height: 28px; width: 219.352px;" | 1
| style="height: 28px; width: 232.373px;" | 1
| style="height: 28px; width: 219.352px;" | 2
| style="height: 28px; width: 180.278px;" | 1
| style="height: 28px; width: 115.22px;" | 2
|- style="height: 28px;"
| style="height: 28px; width: 284.468px;" | Sanella
| style="height: 28px; width: 219.352px;" | 2
| style="height: 28px; width: 232.373px;" | 6
| style="height: 28px; width: 219.352px;" | 3
| style="height: 28px; width: 180.278px;" | 3
| style="height: 28px; width: 115.22px;" | 4
|- style="height: 28px;"
| style="height: 28px; width: 284.468px;" | Becel
| style="height: 28px; width: 219.352px;" | 4
| style="height: 28px; width: 232.373px;" | 5
| style="height: 28px; width: 219.352px;" | 4
| style="height: 28px; width: 180.278px;" | 4
| style="height: 28px; width: 115.22px;" | 5
|- style="height: 28px;"
| style="height: 28px; width: 284.468px;" | Du darfst
| style="height: 28px; width: 219.352px;" | 5
| style="height: 28px; width: 232.373px;" | 6
| style="height: 28px; width: 219.352px;" | 6
| style="text-align: left; height: 28px; width: 180.278px;" | 2
| style="text-align: left; height: 28px; width: 115.22px;" | 3
|- style="text-align: left; height: 28px;"
| style="height: 28px; width: 284.468px;" | Holländische Butter
| style="height: 28px; width: 219.352px;" | 2
| style="height: 28px; width: 232.373px;" | 3
| style="height: 28px; width: 219.352px;" | 3
| style="height: 28px; width: 180.278px;" | 5
| style="height: 28px; width: 115.22px;" | 7
|- style="text-align: left; height: 28px;"
| style="height: 28px; width: 284.468px;" | Weihnachtsbutter
| style="height: 28px; width: 219.352px;" | 3
| style="height: 28px; width: 232.373px;" | 4
| style="height: 28px; width: 219.352px;" | 4
| style="height: 28px; width: 180.278px;" | 6
| style="height: 28px; width: 115.22px;" | 7
|}Es soll nun untersucht werden, ob sich die fünf beobachteten Variablen auf wenige latente Faktoren reduzieren lassen.Ausgangspunkt ist die Korrelations-Matrix der Daten:
* '''Margarine&lt;-read.csv(&quot;C:\\...\\...\\Margarine.csv&quot;,header=TRUE,dec=&quot;,&quot;,sep=&quot;;&quot;)'''
* '''Marke&lt;-Margarine[,1]'''
* '''Margarine&lt;-Margarine[,-1]'''
In der ersten Spalte des Datensatzes sind die Markennamen. Diese werden gespeichert. Weitergerechnet wird dann ohne die erste Spalte.


{|
* '''cor(Margarine)'''
! width="36%" |
! width="13%" | A
! width="15%" | B
! width="11%" | C
! width="11%" | D
! width="11%" | E
|-
| Dimension 1
| 7
| 10
| 5
| 9
| 1
|-
| Dimension 2
| 1
| 10
| 6
| 0
| 3
|}Die sich daraus ergebenden quadrierten <ref>Da nur die Reihenfolge der Distanzen eine Rolle spielt, können auch – um „Wurzel“-Zahlen zu vermeiden – quadrierte euklidische Distanzen verwendet werden.</ref>  euklidischen Distanzen lauten (vgl. Minkowski-Metrik in Abschnitt 3.2.1):


{|
{| style="border-collapse: collapse; height: 168px; background-color: rgb(149, 165, 166); float: left;" border="1"
! width="12%" |  
! style="height: 28px; width: 179.236px;" |
! width="28%" | A
! style="height: 28px; width: 169.167px;" | Anteil unge-sättigter FS
! width="21%" | B
! style="height: 28px; width: 179.236px;" | Kaloriengehalt
! width="18%" | C
! style="height: 28px; width: 169.167px;" | Vitamingehalt
! width="18%" | D
! style="height: 28px; width: 138.958px;" | Haltbarkeit
|-
! style="height: 28px; width: 118.854px;" | Preis
| B
|- style="height: 28px;"
| 90 (Rang 8)
| style="height: 28px; width: 179.236px;" | Anteil unge-sättigter FS
|
| style="height: 28px; width: 169.167px;" | 1
<br>
| style="height: 28px; width: 179.236px;" | ,712
|
| style="height: 28px; width: 169.167px;" | ,961
<br>
| style="height: 28px; width: 138.958px;" | ,109
|
| style="height: 28px; width: 118.854px;" | ,044
<br>
|- style="height: 28px;"
|-  
| style="height: 28px; width: 179.236px;" | Kaloriengehalt
| C
| style="height: 28px; width: 169.167px;" | ,712
| 29 (3)
| style="height: 28px; width: 179.236px;" | 1
| 41 (5)
| style="height: 28px; width: 169.167px;" | ,704
|
| style="height: 28px; width: 138.958px;" | ,138
<br>
| style="height: 28px; width: 118.854px;" | ,067
|
|- style="height: 28px;"
<br>
| style="height: 28px; width: 179.236px;" | Vitamingehalt
|-  
| style="height: 28px; width: 169.167px;" | ,961
| D
| style="height: 28px; width: 179.236px;" | ,704
| 5 (1)
| style="height: 28px; width: 169.167px;" | 1
| 101 (9)
| style="height: 28px; width: 138.958px;" | ,078
| 52 (6)
| style="height: 28px; width: 118.854px;" | ,024
|
|- style="height: 28px;"
<br>
| style="height: 28px; width: 179.236px;" | Haltbarkeit
|-  
| style="height: 28px; width: 169.167px;" | ,109
| E
| style="height: 28px; width: 179.236px;" | ,138
| 40 (4)
| style="height: 28px; width: 169.167px;" | ,078
| 130 (10)
| style="height: 28px; width: 138.958px;" | 1
| 25 (2)
| style="height: 28px; width: 118.854px;" | ,983
| 73 (7)
|- style="height: 28px;"
|}
| style="height: 28px; width: 179.236px;" | Preis
| style="height: 28px; width: 169.167px;" | ,044
| style="height: 28px; width: 179.236px;" | ,067
| style="height: 28px; width: 169.167px;" | ,024
| style="height: 28px; width: 138.958px;" | ,983
| style="height: 28px; width: 118.854px;" | 1
|}
|}


=== Monotoniebedingung und Disparitäten ===


Vergleicht man die Größenordnung der Distanzen mit der geforderten Größen­ordnung sorgfältig, erkennt man beispielsweise, dass die Distanz zwischen A und D – wie gefordert – die kleinste ist. Wir würden diese Tatsache mit [[File:media/image182.png]][[File:media/image182.png]] notieren. Die Distanz zwischen B und E hingegen sollte die zweitkleinste sein ([[File:media/image183.png]][[File:media/image183.png]]), ist aber die größte [[File:media/image184.png]][[File:media/image184.png]]. Einen Eindruck über die Gesamtanpassung bekommt man, wenn man die [[File:media/image185.png]][[File:media/image185.png]]- und [[File:media/image186.png]][[File:media/image186.png]]-Werte einander im sogenannten „Shepard-Diagramm“ gegenüberstellt (Abbildung 26, linke Seite). Im Idealfall würden wir nun eine monoton nichtfallende Funktion in [[File:media/image185.png]][[File:media/image185.png]] sehen, was offensichtlich nicht der Fall ist.


[[file:img1642153130811.png|300px|none|thumb|Darstellung der Güte der Startkonfiguration (Shepard-Diagramm)]]
<span id="_Ref249874007" class="anchor"></span>Die Disparitäten sind mit „x“ gekennzeichnet


Die Darstellung in Abbildung 26 rechts zeigt aber, wie man sich Abhilfe schafft. Es werden zehn neue Werte [[File:media/image188.png]][[File:media/image188.png]] (die „Disparitäten“) derart generiert, dass diese nach einem Optimierungskriterium (Kleinste Quadrate) möglichst nah an den ursprünglichen [[File:media/image186.png]][[File:media/image186.png]]-Werten liegen, aber eine monoton nichtfallende Funktion in [[File:media/image185.png]][[File:media/image185.png]] erzeugen (siehe Abbildung 26, rechts).


Die Disparitäten finden nun auf zweierlei Art Verwendung. Erstens kann aus ihnen eine Maßzahl für die Güte der Anpassung – ein Stressmaß – generiert werden. Ein weit verbreitetes Stressmaß ist folgendes:


[[File:media/image189.png]]


Die Anpassung ist umso besser, je kleiner das Stressmaß ist.


Zweitens hat Kruskal (1964, zitiert in Backhaus et al., 2003) einen Algorithmus vorgeschlagen, wie auf Basis der Disparitäten Richtungen ermittelt werden können, in die die Datenpunkte im Raum verschoben werden müssen, um das Stressmaß zu verbessern.


Die neuen Koordinaten berechnen sich folgendermaßen:


[[File:media/image190.png]]


Hier ist [[File:media/image191.png]][[File:media/image191.png]] die Anzahl der Objekte, [[File:media/image15.png]][[File:media/image15.png]] das Objekt, dass verschoben werden soll, [[File:media/image192.png]][[File:media/image192.png]] jene Koordinate, die neu berechnet wird und [[File:media/image193.png]][[File:media/image193.png]] das Ausmaß in dem der Punkt entlang der Richtung verschoben wird.


{|
! width="100%" | '''Fortsetzung Beispiel 8'''


Im folgenden sind die nach dem Kleinste-Quadrate-Kriterium berechneten Disparitäten, sowie das resultierende Stressmaß angegeben:


{|
! width="34%" | Objektpaar k,l
! width="11%" | [[File:media/image194.png]]
! width="9%" | [[File:media/image195.png]]
! width="9%" | [[File:media/image196.png]]
! width="21%" | [[File:media/image197.png]]
! width="14%" | [[File:media/image198.png]]
|-
| AD
| 1
| 1
| 1
| 0
| 1
|-
| BE
| 2
| 8
| 5,4
| 6,76
| 64
|-
| AC
| 3
| 3
| 5,4
| 5,76
| 9
|-
| CD
| 4
| 7
| 5,4
| 2,56
| 49
|-
| BC
| 5
| 5
| 5,4
| 0,16
| 25
|-
| DE
| 6
| 4
| 5,4
| 1,96
| 16
|-
| AE
| 7
| 6
| 6
| 0
| 36
|-
| CE
| 8
| 9
| 7
| 4
| 81
|-
| AB
| 9
| 10
| 7
| 9
| 100
|-
| BD
| 10
| 2
| 7
| 25
| 4
|-
| Summe
|
<br>
|
<br>
|
<br>
| 55,2
| 385
|}[[File:media/image199.png]]


Die Monotonie ist noch lange nicht erreicht. Eine neue, bessere Positionierung wird mittels obiger Formel für a=2 berechnet. An dieser Stelle wird dies beispielhaft für die erste Koordinate von Punkt C skizziert:
Es zeigen sich hier sehr schön zwei untereinander jeweils hoch korrelierte Blöcke von Variablen. Auf Basis der Korrelationsmatrix könnte ein Faktor für die ersten drei und ein Faktor für die letzten zwei Variablen gewählt werden. Aufgrund der niedrigen Korrelationen abseits dieser Blöcke wäre die Unkorreliertheit der beiden Faktoren wohl auch einigermaßen sichergestellt.
* '''Margarine&lt;-scale(Margarine)'''
# bewirkt, dass die Variablen auf Mittelwert 0 und Varianz 1 standardisiert werden.
Bei der Faktorenanalyse ist dieses Vorgehen durchaus üblich, da man im wesentlichen an der Korrelationsstruktur (statt an den Kovarianzen) interessiert ist.
 
Die eigentliche Analyse geschieht nun mit der Funktion „prcomp“ (Abbildung 33). Der Output der Funktion liefert einerseits die Standardabweichungen der extrahierten Faktoren und andererseits die Hauptachsentransformation (unter „Rotation“). Dass die Methode schrittweise jene Richtungen extrahiert, die größtmögliche Varianz erklären, sieht man auch an der absteigenden Folge der Standardabweichungen. Die erste Komponente hat Standardabweichung 1,6264 und damit Varianz 1,6264<sup>2</sup>=2,645. Nachdem eine Gesamtvarianz von 5 aufzuteilen ist, bedeutet das, dass die erste Komponente bereits 2,645/5=52,9% an Varianz erklärt. Die zweite Komponente hat eine Varianz von 1,3907<sup>2</sup>=1,934 und liefert damit weitere 1,934/5=38,7% an Erklärung. Zusammen sind das bereits 91,6%. Mit dem Befehl „summary“ (siehe weiter Abbildung 33) bekommt man diese Varianzzerlegung ausgegeben.
|}
[[file:img1642217907396.png|300px|none|thumb|Faktorenanalyse in R - Teil 1]]
 
Hat man für sich selbst z.B. im Vorhinein bestimmt, dass jene Faktorenzahl gewählt wird, dass zumindest 80% der Varianz erklärt werden, würde man sich mittels dieses Kriteriums für zwei Variablen entscheiden.
 
=== Das Kaiser-Kriterium ===


[[File:media/image200.png]]
Das Kaiser-Kriterium (Kaiser &amp; Dickman, 1959, zitiert in Fahrmeir et al., 1996, S. 669) wählt jene Komponenten aus, die überdurchschnittlich an Varianz beitragen. Bei auf Varianz 1 skalierten Daten ist bei<math></math> Variablen eine Varianz von <math></math> aufzuteilen. Es werden daher jene Komponenten gewählt, deren Varianz größer als 1 ist.


[[File:media/image201.png]]
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Fortsetzung Beispiel 13'''


Die neuen Koordinaten aller Punkte sind in Abbildung 27 dargestellt. Das Stressmaß verbessert sich auf 0,32. In der vollständigen Analyse können tatsächlich die ursprünglich geforderten neun Ungleichungen (die Monotoniebedingung der [[File:media/image177.png]][[File:media/image177.png]]) erfüllt werden und es ergibt sich 0 als Stressmaß.
Nur die ersten beiden Standardabweichungen/Varianzen (Eigenwerte) sind größer 1. Daher werden nach diesem Kriterium ebenfalls zwei Komponenten gewählt.
|}
|}
[[file:img1642232511851.png|300px|none|thumb|Die Punkte der Startkonfiguration („alt“)]]
<span id="_Ref249874091" class="anchor"></span>
und der Ergebnisse nach der ersten Iteration


=== Beurteilung der Lösung ===
=== Der Scree-Plot ===
 
Ein visuelles Kriterium stellt der Screeplot dar, der die einzelnen Varianzen ab­steigend nebeneinander aufträgt und mit Linien verbindet (Abbildung 34). Gewählt werden nun (von links) alle Komponenten bis zu jenem Punkt (exklusive), an dem der weitere Linienverlauf nach rechts im wesentlichen einer Gerade entspricht.
 
[[file:img1642160505806.png|300px|none|thumb|Screeplot Beispiel 13]]
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Fortsetzung Beispiel 13'''
 
In Abbildung 34 ist ersichtlich, dass der größte Abfall von Komponente 2 auf Komponente 3 passiert. Dann fällt die Linie relativ flach weiter. Nach diesem Kriterium können zwei, eventuell auch drei Komponenten gewählt werden.
|}


Die in Beispiel 8 schlussendlich erhaltene Lösung ist invariant gegenüber Drehungen von oder Spiegelungen an den Achsen.
== Weitere Analyse und Interpretation ==


Im konkreten Fall sind zwei Dimensionen mehr als ausreichend. In einer Analyse mit deutlich mehr Objekten gibt es folgende Kriterien, um die Frage der Dimensionszahl zu beantworten:
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! style="text-align: left;" width="100%" | '''Fortsetzung Beispiel 13'''


Beurteilung nach dem Stressmaß
Laut der Analyse im letzten Abschnitt empfiehlt sich die Wahl von zwei Hauptkomponenten. Das heißt, dass in Abbildung 33 die ersten beiden Spalten der Transformationsmatrix gewählt und interpretiert werden müssen. Die Koeffizienten geben die relative Bedeutung an.


Ein errechnetes Stressmaß kann laut Tabelle 5 klassifiziert werden. Zu beachten ist, dass sich das Stressmaß bei Hinzunahme einer weiteren Dimension nur verbessern kann. Dimensionen sollen nur dann hinzugefügt werden, wenn diese Verbesserung deutlich ausfällt.
Faktor 1 berechnet sich als


<span id="_Ref249874155" class="anchor"></span>Tabelle 5: Klassifikation des Stressmaßes
0,576 * Anteil ungesättigter Fettsäuren + 0,518 * Kaloriengehalt


{|
+0,571 * Vit.-Gehalt + 0,211 * Haltbarkeit + 0,170 * Preis.
! width="28%" | Anpassung
! width="11%" | Perfekt
! width="15%" | Sehr gut
! width="11%" | Gut
! width="16%" | Ausreichend
! width="15%" | Gering
|-  
|-  
| Wert des Stressmaßes
| style="text-align: left;" |
| &lt;0,025
Demnach sind im ersten extrahierten Faktor eher die ersten drei Variablen in etwa gleicher Stärke ausgedrückt. Inhaltlich könnte dieser Faktor mit „Gesundheit“ bezeichnet werden.
| 0,025-0,05
 
| 0,05-0,1
In Komponente 2 sind die letzten beiden Variablen stärker gewichtet. Daher kann Komponente 2 als „Wirtschaftlichkeit“ interpretiert werden.
| 0,1-0,2
| &gt;0,2
|}
|}
Beurteilung nach einem Datenverdichtungskoeffizient
Der Zweck der Faktorenanalyse ist Datenreduktion. Daher ist das nächste Ziel, die (standardisierten) Originaldaten nun in den neuen gemeinsamen Faktoren darzustellen. Dazu wird die Datenmatrix mit den ersten <math></math> Spalten der Transformationsmatrix multipliziert.


Der Datenverdichtungskoeffizient setzt die Anzahl der Ähnlichkeiten zur Anzahl der Koordinaten im Output in Bezug. Im Beispiel 8 waren zehn Ähnlichkeiten in eine Reihenfolge zu bringen und zehn Koordinaten (5 mal 2) zu errechnen, was einen Koeffizient von 1 ergibt. Nach einer Faustregel sollte der Koeffizient größer oder gleich 2 sein.
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! style="text-align: left;" width="100%" | '''Fortsetzung Beispiel 13'''


{|
Die Werte der ursprünglichen Variablen in den neuen gemeinsamen Faktoren werden in der Matrix „Scores“ zusammengefasst (Abbildung 35). Hohe Werte stehen für gute Gesundheitswerte bzw. hohe Wirtschaftlichkeit. Man kann so die Datenpunkte im neuen Datenraum veranschaulichen und auch in einem XY-Scatterplot darstellen. Beispielsweise ist „Du darfst“ am „gesündesten“, und hat den niedrigsten Wert bzgl. Wirtschaftlichkeit, was geringem Preis und geringer Haltbarkeit entspricht.
! width="100%" | '''Aufgabe 14'''
|-
| style="text-align: left;" |
[[file:img1642166365426.png|300px|none|thumb|Faktorenanalyse in R - Teil 2]]


Bestimmen Sie, ab welcher Anzahl an Objekten erst nach diesem Kriterium zwei, bzw. drei Dimensionen verwendet werden dürfen.
Berechnet man nun von beiden Faktoren die Varianzen, erhält man wieder die bekannten Werte von vorhin.
|}
|}
Beurteilung nach Interpretierbarkeit der Dimensionen
Multipliziert man die Spalten der Transformationsmatrix mit der jeweiligen Standardabweichung (Abbildung 33), erhält man die Ladungsmatrix mit den Einträgen <math>l_{i j}</math>. Diese ist insofern interessant, als hier die Korrelationen der einzelnen Variablen mit den einzelnen Faktoren abgelesen werden können. Außerdem kann dort für jede Variable die sogenannte „Kommunalität“ <math>h_{i}^{2}</math> ermittelt werden. Diese gibt jeweils an, wieviel Prozent der Varianz der Variable durch den gewählten Satz gemeinsamer Faktoren erklärt wird. Die Formel lautet


Nachdem ein optionales Ziel der MDS darin besteht, die Dimensionen, die den Raum aufspannen, zu interpretieren, kann auch dies als Kriterium benutzt werden. Er­möglicht eine zwei- oder dreidimensionale Lösung eine bessere Interpretation der jeweiligen Konfiguration? Die Interpretierbarkeit der Dimensionen erhöht Anschaulichkeit und bestärkt jedenfalls die Validität der gefundenen Lösung.
<math display="block">
h_{i}^{2}=\sum_{j=1}^{k} l_{i j}^{2}
</math>


=== Vorgehensweise bei Vorliegen der Daten von mehreren Personen ===
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Fortsetzung Beispiel 13'''


Die bisherige Vorgehensweise, bei der nur eine Person ein Ranking abgibt, wird auch „klassische MDs“ genannt. Fließen Urteile von mehreren Personen ein, bestehen grundsätzlich drei Möglichkeiten:
Abbildung 36 zeigt die Erzeugung der Ladungsmatrix <math>L</math> aus der Transformationsmatrix in R. Wir sehen, dass die ersten drei Variablen eine sehr hohe Korrelation mit dem ersten Faktor aufweisen. Haltbarkeit und Preis hingegen korrelieren mit dem zweiten gewählten Faktor zu 0,94 bzw. 0,96. Auch hier sieht man, dass ein dritter Faktor nicht mehr erforderlich ist, da hier kaum noch hohe Korrelationen zu den Variablen zu beobachten sind.


<ul>
Welche Variablen werden nun durch die ersten beiden Komponenten gut erklärt?
<li><p>Aggregation der Urteile auf bekannte statistische Maßzahlen (Median, Mittelwert) – hier ist wichtig, dass die Personengruppen homogen sind</p></li>
<li><p>Getrennte MDs für jede einzelne Person und Aggregation der Ergebnisse</p></li>
<li><p>Eine gemeinsame Analyse der Ähnlichkeitsdaten (Replicated MDS)</p>
<ol style="list-style-type: decimal;">
<li>== Multidimensionale Skalierung in R ==</li>
</ol></li>
</ul>
Die MDS kann beispielsweise in SPSS durchgeführt werden, oder auch mit Soft­ware, die auf MDS spezialisiert ist (MDSCAL, KYST, POLYCON). Wir verwenden aus Kontinuitätsgründen für unsere Analyse wieder R.


{|
Die Kommunalität des „Anteils ungesättigter Fettsäuren“ beträgt z.B. <math>h_{1}^{2}=0,937^{2}+(-0,229)^{2}=93,1 \%</math>. Also werden 93,1% der Varianz der Variable „Anteil ungesättigter Fettsäuren“ durch die beiden Komponenten erklärt.
! width="100%" | '''Beispiel 9'''


Der vorliegende Datensatz ist im package „flexclust“ in R zu finden und beinhaltet die Daten über die Bestandteile der Milch von 25 verschiedenen Säugetieren („water“, „protein“, „fat“, „lactose“, „ash“) in Prozent. Ziel ist es, die Daten in zwei Dimensionen darzustellen, sodass Tiere, deren Milch ähnlich ist auch im XY-Scatterplot umso näher beisammen sind.
[[file:img1642174987811.png|300px|none|thumb|Faktorenanalyse in R - Teil 3]]


Wir wählen die Funktion „isoMDS“ aus dem Package „MASS“, die eine nichtmetrische MDS durchführt, also die Rangordnung der Input-Distanzen zueinander verarbeitet.
Der Kreis schließt sich nun wieder, da unser ursprüngliches Ziel war, die Kor­relationsstruktur der Daten zu erklären. Wie gut das gelingt, kann durch die Matrix der durch die zwei gemeinsamen Faktoren reproduzierten Korrelationen er­mittelt werden. Diese ist nun mit der ursprünglichen Korrelationsmatrix zu vergleichen.


* '''library(MASS)'''
Beispielsweise beträgt die Korrelation zwischen Kalorien- und Vitamingehalt ursprünglich 0,704. Aufgrund der beiden gewählten Faktoren kommt man auf eine Korrelation von 0,823. Für diese Korrelation ergibt sich daher ein Residuum von <math>0,704-0,823=-0,119</math>. Die Residuen der Hauptdiagonalelemente (<math>\left(1-h_{i}^{2}\right)</math>) sind die durch die Faktoren nicht erklärten Varianzanteile der Variablen.
* '''library(flexclust)'''
|}
* '''data(milk)'''
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
<blockquote># laden der beiden benötigten Zusatzpackages und des Datensatzes „milk“ aus „flexclust“. Nicht alle Packages sind schon in R vorinstalliert. Gegebenenfalls müssen diese dann erst installiert werden (Menü „Pakete“).</blockquote>
! width="100%" | '''Aufgabe 16'''
* '''milk[1:5,]'''
<blockquote># liefert einen Ausschnitt der Daten


[[file:img1642231716423.png|300px|none|thumb|Ausschnitt des „Milk“-Datensatzes]]</blockquote>
Berechnen Sie die Kommunalitäten für die restlichen vier Variablen aus Beispiel 13 und vergleichen Sie ihre Werte mit den Hauptdiagonalelementen der reproduzierten Korrelationsmatrix.
<blockquote>Input des Verfahrens ist nun die Matrix der „Distanzen“ zwischen den Tieren. Die Wahl fällt hier nun auf die Summe der Abweichungen in den Prozentpunkten in allen fünf Merkmalen, also die Minkowski-1-Metrik. Will man die relativen Unterschiede in die Distanzen eingehen lassen, muss der Datensatz an dieser Stelle standardisiert werden ([[File:media/image204.png]][[File:media/image204.png]]). In R kann man das mit „scale(milk)“ erreichen. Wir rechnen hier aber mit den Originaldaten weiter. Die weitere Vorgehensweise ist in Abbildung 29 ersichtlich.</blockquote>
|}
<blockquote>[[file:img1642176145462.png|300px|none|thumb|Nichtmetrische MDS in R]]</blockquote>
Zuerst wird eine Distanzmatrix der L<sub>1</sub>-Distanzen („L1dist“) erzeugt. Diese ist Input für die nichtmetrische MDS, die in R mit der Funktion „isoMDS“ durchgeführt werden kann. Das Ergebnis wird im Objekt „result“ gespeichert. Ergebnis sind die Koordinaten in den gewünschten zwei Dimensionen. Der Stress-Wert wird in Prozent angegeben. Das Ergebnis ist lt. Tabelle 5 daher „ausgezeichnet“.


Schließlich soll das Ergebnis noch mittels zweier Plots veranschaulicht werden:
== Faktorrotation  ==


* '''plot(result$points[,1], result$points[,2],type=“n“)'''
Wie bereits erwähnt, gibt es für <math>1<k<p</math> mehrere (unendlich viele) Lösungen für <math>L</math>, die allesamt die maximale Varianz erklären. Diese unterscheiden sich wieder durch „Drehungen“ im Raum. Das heißt, die gefundene Matrix <math>L</math> kann durch Multiplikation einer beliebigen <math>k \times k</math>-Matrix mit orthonormalen Spalten transformiert werden, sodass die neue Matrix <math>L^t</math> den gleichen maximal erklärten Varianzanteil liefert. Dies macht man sich zunutze, um jene Lösungen für<math>L</math> auszuwählen, die besonders leicht zu interpretieren sind. Das ist dann möglich, wenn die Ladungen entweder nahe bei 1 oder nahe bei 0 sind. Mit anderen Worten heißt das, dass die Varianz der Koeffizienten maximiert werden soll. Die Faktorrotationsmethoden, die die Varianz der Ladungen spalten- bzw. zeilenweise maximieren, heißen Varimax bzw. Quartimax.
* '''text(result$points[,1], result$points[,2],dimnames(milk)[[1]])'''
# Ergebnis: Abbildung 30
* '''sh.coords&lt;-Shepard(L1dist,result$points)'''
* '''matplot(sh.coords$x,cbind(sh.coords$yf,sh.coords$y),pch=c(4,16),col=1,cex=c(1,0.5),xlab=&quot;geordnete Distanzen&quot;,ylab=&quot;&quot;)'''
* '''legend(20,80,c(&quot;Disparitäten&quot;,&quot;Distanzen&quot;),pch=c(4,16))'''
# Ergebnis: Abbildung 31. Mit der Funktion „Shepard“ können die Disparitäten ausgegeben und im Shepard-Diagramm dargestellt werden.
Abbildung 30 zeigt also die Lage der Objekte zueinander im Raum. Beachtet werden muss hier, dass die X- und Y-Achse (aus Platzgründen) nicht gleich skaliert sind (um einen Faktor 4), was gerade bei der MDS wichtig wäre, da die Distanzen sonst verzerren. In diesem Fall ist die X-Achse viel bedeutender als die Y-Achse (Seehund und Delphin sind in Wirklichkeit viel weiter vom Rest entfernt, als der Elefant). Entweder Abbildung 30 müsste viermal so breit gezeichnet werden, oder man zieht die inhaltliche Konsequenz, dass möglicherweise sogar eine Dimension ausreichend ist. In der Tat ergibt sich mit einem Stress-Wert von 4,1% auch bei einer Dimension ein „sehr gutes“ Ergebnis.


[[file:img1642180658335.png|300px|none|thumb|Die Objekte im gewählten Zielraum]][[file:img1642228833489.png|300px|none|thumb|Distanzen und Disparitäten gegenübergestellt]]
{| style="border-collapse: collapse; background-color: rgb(206, 212, 217);"
! width="100%" | '''Fortsetzung Beispiel 13'''


Der perfekte Zusammenhang zwischen Distanzen und Disparitäten ist ebenfalls ein Hinweis, dass eine Reduktion auf eine Dimension in Betracht kommen könnte.
Die Ladungskoeffizienten in Beispiel 13 enthalten bereits inhaltlich gut interpretierbare Werte und müssen nicht weiter transformiert werden. Wird dennoch eine Transformation durchgeführt, heißt das, dass sich an der erklärten Varianz von 91,6% nichts ändert. Lediglich die Aufteilung 52,9%:38,7% ändert sich zugunsten des zweiten Faktors, da nicht mehr erforderlich ist, dass die erste Komponente die maximale Varianz erklärt.
|}
|}


== Wiederholungsaufgaben und Zusammenfassung  ==
== Wiederholungsaufgaben und Zusammenfassung  ==


# Wiederholen Sie die Begriffe Konfiguration, Distanzen und Disparitäten im Zusammenhang mit der MDS.
# Berechnen Sie die Residuen der reproduzierten Korrelationen in Beispiel 13 und geben Sie an, welche Korrelation am schlechtesten durch die gefundene Faktorlösung dargestellt wird.
# Beschreiben Sie Unterschiede und Gemeinsamkeiten zwischen Clusteranalyse und MDS.
# Sie erhalten als Ergebnis einer Faktorenanalyse folgende erklärte Varianzen:
# Berechnen Sie für die in Abbildung 27 dargestellten Datenpunkte „D“ und „E“ die neuen Koordinaten (jeweils a=2).
<blockquote>[[Datei:Mt422 a1.png|300px|none|thumb]]</blockquote>
# Gegeben sei ein nichtlineares MDS-Problem mit vier Objekten. Bestimmen Sie, ob (1) oder (2) die richtigen Disparitäten sind und berechnen Sie das Stressmaß.
* Wieviele Faktoren müssen Sie nehmen, wenn Sie zumindest 90% der Varianz erklären wollen?
* Wieviele Faktoren müssen Sie nach dem Kaiser-Kriterium wählen?
* Für wieviele Faktoren würden Sie sich mittels zugehörigem Scree-Plot entscheiden?
<ol style="list-style-type: decimal;" start="3">
<li><p>Zeichnen Sie für die ersten beiden Spalten der Matrix <math>L</math> (Abbildung 36) einen XY-Scatterplot (in R: „'''plot(x,y)'''“) und beschreiben Sie verbal das Ergebnis der Analyse.</p></li>
</ol>


{|
==== Zusammenfassung ====
! width="25%" | Paare k,l
 
! width="13%" | 1,2
Im Gegensatz zu den vorangegangenen Lektionen wird bei den Verfahren der Faktorenanalyse die (Korrelations-)Struktur eines Satzes von Variablen untersucht. Die Fragestellung ist, ob und wie diese Struktur durch einige wenige Variablen erklärt werden kann. Der Input bei diesen Verfahren ist daher die Kovarianz- bzw. Korrelationsmatrix, der Output im wesentlichen die Ladungsmatrix, die bestimmt, in welcher Art und Weise die gefundenen Faktoren durch die Originalvariablen bestimmt werden.
! width="10%" | 1,4
! width="13%" | 3,4
! width="12%" | 2,3
! width="12%" | 2,4
! width="12%" | 1,3
|-  
| [[File:media/image194.png]]
| 1
| 2
| 3
| 4
| 5
| 6
|-
| [[File:media/image195.png]]
| 3
| 1
| 2
| 4
| 6
| 5
|-  
|
# [[File:media/image196.png]][[File:media/image196.png]]
| 2
| 2
| 2
| 4
| 5,5
| 5,5
|-
|
<ol style="list-style-type: decimal;" start="2">
<li><p>[[File:media/image196.png]][[File:media/image196.png]]</p></li>
</ol>
| 3
| 1,5
| 1,5
| 5
| 5
| 5
|}
Zusammenfassung


Die multidimensionale Skalierung erweitert die Idee der Clusteranalyse dahingehend, dass anstelle von Distanzen zwischen beobachtbaren Merkmalen von Objekten hier Distanzen der Objekte in latenten Dimensionen die zentrale Rolle spielen. Diese bilden hier im Gegensatz zur Clusteranalyse den Output der Analyse. Die Vorstellung, dass Beurteilungen von Ähnlichkeit zwischen Objekten oft nicht durch objektive, beobachtbare Messungen ermittelt werden können, sondern teilweise unbewusst existieren, bildet das Grundgerüst dieser vor allem in der Psychologie, aber auch in der Ökologie unter dem Begriff „Ordination“ verbreiteten Methode.
Es existieren viele Methoden, Faktoren zu bestimmen. Neben der Maximum-Likelihood-Faktorenanalyse hat sich die Hauptkomponentenanalyse als beliebtes und häufig verwendetes Verfahren herausgestellt. In deren Rahmen wird zunächst eine Hauptachsentransformation in Komponenten, die schrittweise maximale Varianz an den Originaldaten erklären, durchgeführt. Setzt man dieses Verfahren dazu ein, um einen guten Satz an Variablen zu bekommen, wird dies die „Hauptkomponentenmethode“ genannt. Eine weitere sich aus dem Verfahren ableitende, iterative Vorgehensweise, bei der das Gewicht stärker auf der Erklärung der Kovarianzen anstelle der Varianzen liegt, ist die Hauptfaktorenanalyse.


Datengrundlage bildet bei den nichtmetrischen MDS-Verfahren eine Ordnung von Ähnlichkeiten zwischen den interessierenden Objekten. Mittels iterativer Optimierungsverfahren kann – ausgehend von einer Startlösung – eine bezüglich eines Stressmaßes optimale Lösung erzielt werden.
Die Anzahl an ausgewählten Faktoren wird zumeist durch einen vorgegebenen minimal erforderlichen, erklärten Varianzanteil, durch das Kaiser-Kriterium oder den Scree-Plot ermittelt und sind daher teilweise subjektiv. Die vollständige Darstellung der Faktorenanalyse umfasst schließlich noch eine Darstellung der Beobachtungseinheiten im neu transformierten Raum sowie weiteren, die Güte der Analyse beschreibenden Darstellungen, wie z.B. der Matrix der reproduzierten Korrelationen.


Bei der gefundenen Lösung ist die Lage der Punkte zueinander bei Wahl der euklidischen Distanz eindeutig. Die orthogonalen Achsen können schließlich beliebig gedreht werden, auch mit dem Ziel möglichst gut interpretierbare Dimensionen zu erhalten.
Wichtig ist nochmals zu erwähnen, dass die Verfahren der (exploratorischen) Faktorenanalyse praktisch keine Hypothesenprüfungen zulassen. Die Ergebnisse sind auch nicht „richtig“ oder „falsch“, sondern bieten eine mathematische Unterstützung zur Dokumentation von Zusammenhangsstrukturen.

Aktuelle Version vom 9. März 2023, 10:12 Uhr

Faktorenanalyse

Wichtiges Ziel der Lektion ist die Erkenntnis, welche Aussagen über nichtbeobachtbare Merkmale aufgrund der Korrelationsstruktur eines Satzes von vorhandenen Variablen abgeleitet werden können. Die Grundlagen der Faktorenanalyse als Basis von Strukturmodellen und die Darstellung der subjektiven Entscheidungen, die im Zuge einer Faktorenanalyse getroffen werden müssen sind ebenso Schwerpunkte, wie die Analyse der Daten in R.

Einführung

Die in den ersten beiden Lektionen besprochenen Verfahren der Regressions- bzw. Varianzanalyse eignen sich, um den Zusammenhang zwischen einem Satz an ausgewählten Variablen und einer davon abhängigen Variable zu testen. Oft kommt es allerdings vor, dass die Menge an potentiellen Variablen relativ groß ist, einzelne Variablen hoch miteinander korrelieren, oder man nicht am Einfluss der Variablen auf eine abhängige Variable, sondern an der Korrelationsstruktur bzw. an latenten (=nicht beobachtbaren), den Daten zugrundeliegenden Faktoren interessiert ist. Den zweiten Fall haben wir bei Beispiel 1 gehabt. Hier waren Spritverbrauch in der Stadt bzw. auf der Autobahn klarerweise hoch korreliert und damit war schwer abzuschätzen, wie groß der Anteil jeder der beiden Variablen an der Erklärung des Preises ist (im gewählten Modell kam dann jedoch ohnehin keine der beiden Variablen vor). Für den Fall, dass man an latenten Faktoren interessiert ist, gibt es folgende Beispiele:

  • Menschliches Verhalten ist beispielsweise von einer Vielzahl an Einflussfaktoren abhängig. In Fragebögen, die das Verhalten in bestimmten Situationen abfragen, werden oft viele ähnliche Fragen, die miteinander hoch korrelieren, gestellt. Letztendlich will man dabei aber latente Konstrukte, wie z.B. „Aggresionspotential“ oder „Verlässlichkeit“ erheben.
  • Erhebung von Prädiktoren für die Kreditwürdigkeit von Kunden einer Bank. Bekannt sind zahlreiche Kundenvariablen, die hoch korreltiert sind und verdichtet werden können.
  • Welche Fähigkeiten liegen Leistungen in Intelligenztests zugrunde? Es existieren viele verschiedene (ähnliche Tests), bei denen hochkorrelierte Leistungen zu beobachten sind. Welche (nicht beobachtbaren) Faktoren liegen diesen Leistungen zugrunde?

Die Faktorenanalyse bedient sich nun mathematischer Verfahren, die es ermöglichen, viele, miteinander hoch korrelierende Variablen auf einige wenige, nicht korrelierenden Faktoren umzurechnen, sodass die Information (Varianz) der Daten aber weitgehend vorhanden bleibt.

Beispiel 10 (Extrembeispiel)

Angenommen Sie wollen den Umsatz von Speiseeis in Wien in Abhängigkeit von der jeweils um 12h in der Wiener Innenstadt gemessenen Temperatur vorhersagen. Sie messen die Temperatur in Grad Celsius, in Fahrenheit und in Kelvin. Anschließend führen Sie eine multiple lineare Regression des Speiseeisumsatzes, die alle drei Variablen als Erklärung enthält, durch.

Aufgrund der Tatsache, dass zwischen den drei Skalen mittels Linear­transformation umgerechnet werden kann [1] (exakte Multikollinearität), ergeben sich für die Koeffizientenschätzungen unendlich große Varianzen und beliebige Werte. Die Information, die in allen drei Variablen steckt, kann ohne Verlust mit einer der drei Temperaturvariablen dargestellt werden.

Die im folgenden dargestellten Methoden betreffen die explorative Faktorenanalyse. Mit ihrer Hilfe können keine Wirkzusammenhänge inferenzstatistisch geprüft werden, sondern es können nur Zusammenhangsstrukturen exploriert werden. Dem­gegenüber steht die konfirmatorische Faktorenanalyse, bei der hypothesen­prüfend vorgegangen wird. Diese ist ein Spezialfall der in der folgenden Lektion vorgestellten Strukturgleichungsmodelle und wird dort betrachtet.

Für die explorative Faktorenanalyse gilt weiters, dass hier einige subjektive Entscheidungen des Anwenders im Analyseprozess erforderlich sind. Man ist mehr als bei anderen statistischen Verfahren auf Vermutungen angewiesen. Die Faktorenanalyse versteht sich eher als mathematisches Hilfsmittel, welches logisch begründeten Strukturtheorien zur Seite gestellt wird.

Die Faktorenanalyse geht zurück auf Spearman, der diese ursprünglich 1904 zum Zwecke der Intelligenzmessung verwendet hat. Das einleitende Beispiel im folgenden Abschnitt widmet sich daher diesem Thema.

Modellvorstellung

Beispiel 11

Schulnoten sind Indikatoren für den unbekannten Faktor Intelligenz. Es werden aus Gründen der Einfachheit zwei voneinander unabhängige Intelligenzen (quantitative Intelligenz, Q, und verbale Intelligenz, V) postuliert.

Folgende beispielhafte Annahme über das Zustandekommen der Noten in sechs verschiedenen Fächern werden getroffen:

Die Noten setzen sich also mittels Linearkombination aus den beiden Intelligenzen plus einem spezifischen Faktor für das jeweilige Fach zusammen.

Die Koeffizienten der Regressiongleichungen aus Beispiel 11 heißen „Ladungen“. und heißen „gemeinsame Faktoren“.

Wird nun ein derartiger Zusammenhang unterstellt, können auch die paarweisen Korrelationen zwischen je zwei Schulnoten (Fächern) daraus abgeleitet werden.

Bei der Faktorenanalyse kennt man die in Beispiel 11 getroffene Annahme nicht. Man beschreitet hier den umgekehrten Weg. Gegeben sind alle paarweisen Korre­lationen (im Beispiel die Korrelationen zwischen den Schulnoten) und gesucht sind die (in Beispiel 11) gegebenen Ladungen.

Es werden dann einige mathematisch-statistische Restriktionen gemacht, um das Schätzproblem bei der Faktorenanalyse etwas genauer zu spezifizieren. Beispiels­weise muss gefordert werden, dass die gemeinsamen Faktoren untereinander unabhängig sind. Das heißt, wenn jemand eine hohe quantitative Intelligenz hat, dann kann daraus keine Tendenz über die verbale Intelligenz geschlossen werden. Außerdem wir gefordert, dass die gemeinsamen Faktoren von den spezifischen Faktoren unabhängig sind.

Notiert wird das Modell der Faktorenanalyse in den gängigen Lehrbüchern in Matrixschreibweise (analog zu Beispiel 11):


wobei die bereits spaltenweise auf Mittelwert Null zentrierte Datenmatrix ( Versuchseinheiten und Variablen), die Matrix (), die die gemeinsamen Faktoren enthält, die Ladungsmatrix () und die ()- Matrix der Einzel­restwerte ist. In Beispiel 11 ist und .

Aufgrund der vielen Unbekannten in diesem Modell ist dieses nicht empirisch überprüfbar bzw. uneindeutig. Durch die erwähnten mathematischen Annahmen lässt sich aber die für die Faktorenanalyse zentrale, unter bestimmten Umständen eindeutige Zerlegung bilden:

ist die sogenannte „Varianz-Kovarianzmatrix“ der Daten. Sie enthält in der Hauptdiagonale alle Varianzen der Variablen und abseits davon alle Kovarianzen. Die Varianz-Kovarianz-Matrix (bzw. bei standardisierten Variablen die Korrelations­matrix) ist der wesentliche Input bei einer Faktorenanalyse, den es zu analysieren gilt. ist eine Diagonalmatrix mit den Varianzen der spezifischen Faktoren. Das wesentliche Ziel bei der Faktorenanalyse ist es nun, eine jener Matrizen zu finden, für die diese Zerlegung möglich ist, und zwar für eine minimale Anzahl an zugrundeliegenden gemeinsamen Faktoren.

Faktorextraktion

Es gibt nun verschiedene Schätzmethoden, um die Ladungsmatrix zu schätzen.

Die Maximum-Likelihood-Methode

Diese bedient sich einem in der Statistik weit verbreiteten Konzept zur Konstruktion von Schätzern. Es wird hier eine multivariate Normalverteilung der beobachteten Daten unterstellt. Als Folge davon kann analytisch jener Schätzer für die Ladungsmatrix ] ermittelt werden, der unter dieser Annahme am plausibelsten ist. Hier wird also stochastisch durch Verteilungsannahmen argumentiert. Die Wahl, wieviele Faktoren () gewählt werden, kann unter anderem durch statistische Hypothesentests erfolgen.

Die Hauptkomponentenanalyse

Die Ergebnisse der Hauptkomponentenanalyse erhält man ebenfalls durch Optimierung. Kriterium ist, dass die (zentrierte) Datenmatrix durch Multiplikation mit einer -Matrix (mit orthonormalen Spalten) derart transformiert wird, dass die Spalten der so transformierten Matrix jeweils schrittweise die höchste Varianz erzeugen. Dieser Vorgang wird Hauptachsentransformation genannt. Diese sehr theoretisch beschriebene Vorgehensweise soll anhand eines Beispieles skizziert werden (Abbildung 32).

Beispiel 12
Sieben Datenpunkte im zweidimensionalen Raum, vor und nach der Achsendrehung

Abbildung 32 zeigt sieben Datenpunkte in zwei Variablen. In der linken Abbildung kann die Varianz in X- bzw. Y-Richtung durch Normalprojektion an die jeweiligen Achsen geschätzt werden. Die Daten sind so gewählt, dass sowohl die Varianz in X- als auch in Y-Richtung gleich 1 ist. Geometrisch gesehen wird bei der Hauptachsentransformation das Koordinatensystem solange gedreht, bis die größte der Varianzen der projizierten Datenpunkte auf die neuen Achsen maximal wird. Diese Drehung entspricht in diesem Beispiel 45 Grad und führt dazu, dass die Varianz der Daten auf der Achse von links unten nach rechts oben 1,501 beträgt. Dies ist die größte erzielbare Varianz auf einer Achse. Die Werte auf der zweiten Achse weisen eine Varianz von 0,499 auf. Nachdem die Daten nur zwei Dimensionen haben, bleibt für die zweite Achse nur mehr eine Richtung. Im allgemeinen wird jedoch für die zweite Achse jene Richtung gewählt, die ihrerseits wieder die maximale Varianz liefert.

In Summe sind die Varianzen in beiden Richtungen sowohl in der Grafik links als auch rechts gleich 2. Sie teilen sich nur anders auf. Um wieder zu obigen Text zurückzukehren: Die hier angewandte Transformation bedeutet rechnerisch eine Multiplikation der Datenmatrix mit der Matrix

Wird gewählt, heißt das, dass die volle Varianz erklärt wird (d.h. die volle Information erhalten bleibt). Die (bei hoher Korrelation in den Daten stark) ungleiche Varianzzerlegung macht man sich aber zunutze um nun die ersten interessierenden Achsen zu wählen und die anderen zu eliminieren. Damit erzielt man einen Kompromiss zwischen Datenreduktion und Informationsverlust. Der Anteil der Summe aller bis zur -ten Achse erklärten Varianzen an der Gesamtzahl der Variablen im Originaldatensatz ist der erklärte Varianzanteil. Dieser ist ein Kriterium zur Bestimmung, auf wieviele Achsen die Daten reduziert werden sollen.

Fortsetzung Beispiel 12

Die Varianz der Daten an der ersten transformierten Achse beträgt 1,501. Die Anzahl der Originalvariablen bzw. die Summe derer Varianzen beträgt 2. Daher beträgt der erklärte Varianzanteil bei alleiniger Datenreduktion auf eine Achse .

Aufgabe 15

Angenommen es liegt ein Satz von acht (auf Varianz gleich Eins) standardisierten, korrelierten Variablen vor, der mittels Hauptkomponentenmethode reduziert werden soll.

  1. Sie entschließen sich, die Daten auf drei Achsen zu reduzieren. Wie groß sollte die Summe der drei erklärten Varianzen jedenfalls sein?

  2. Wie groß sollte der erklärte Varianzanteil dann jedenfalls sein?

  3. Angenommen Sie erzielen eine Varianzerklärung von 74%. Wieviele Achsen haben Sie dabei maximal gewählt?

Die eben diskutierte Vorgehensweise nur Achsen aus der transformierten Matrix zur Erklärung der Originaldaten auszuwählen, wird „Hauptkomponenten­methode“ genannt. Während bei nur eine Lösung existiert, den gesamt erklärten Varianzanteil zu maximieren, ist die Lösung bei gewählten Achsen nicht eindeutig. Darauf wird in Abschnitt 5.6 eingegangen.

Die Lösung der Hauptkomponentenanalyse wird im Normalfall nicht graphisch durchgeführt, sondern reduziert sich – mathematisch gesehen – auf das Finden der Eigenwerte der Korrelations- bzw. Kovarianzmatrix der Daten. Deshalb liest man statt erklärten Varianzanteilen in Software-Outputs von Faktorenanalysen auch immer wieder von Eigenwerten. Die Varianzen der Daten in den einzelnen Richtungen sind gerade durch diese Eigenwerte gegeben.

Die Hauptkomponentenmethode ist die am häufigsten angewandte Methode zur Extraktion von Faktoren. Der Grund ist auch, dass hier im Gegensatz zu anderen Berechnungsmethoden kein iteratives Vorgehen benötigt wird. Im Hinblick zur eigentlichen Faktorenanalyse wird hier kein Modell zugrundegelegt, sondern es wird lediglich eine technische Optimierungsaufgabe zur Datenreduktion durchgeführt. Eine Methode, die die Hauptkomponentenmethode verwendet um in einem iterativen Prozess (wie vorher erwünscht) statt den Varianzen die Anpassung an die Korrelationsmatrix optimiert, ist die Hauptfaktorenanalyse. Auf diese wird aber aus Platzgründen nicht weiter eingegangen.

Bestimmung der Anzahl an Faktoren

Die wesentlichste Frage, wenn mittels Hauptkomponentenanalyse versucht wird, einen Satz von Dimensionen – die „gemeinsamen Faktoren“ – zu ermitteln, ist, wie groß nun sein soll. Dazu gibt es drei häufig verwendete Kriterien.

Die erklärte Varianz

Ein mögliches Kriterium kann sein, dass man einen gewissen Anteil an erklärter Varianz nicht unterschreiten will, da man sonst nicht mehr das Gefühl hat, die ursprünglichen Daten mit dem reduzierten Datensatz gut zu beschreiben.

Beispiel 13

Im diesem Beispiel (Backhaus et al., 2003) sind die mittels Fragebogen von mehreren Personen erhobenen Eigenschaften von sechs Margarinesorten er­hoben. Die Daten beschreiben die Mittelwerte der Stichprobe, die auf einer Rating­skala zwischen 1 und 7 bewertet wurden.

Anteil ungesättigter Fettsäuren Kaloriengehalt Vitamingehalt Haltbarkeit Preis
Rama 1 1 2 1 2
Sanella 2 6 3 3 4
Becel 4 5 4 4 5
Du darfst 5 6 6 2 3
Holländische Butter 2 3 3 5 7
Weihnachtsbutter 3 4 4 6 7
Es soll nun untersucht werden, ob sich die fünf beobachteten Variablen auf wenige latente Faktoren reduzieren lassen.Ausgangspunkt ist die Korrelations-Matrix der Daten:
  • Margarine<-read.csv("C:\\...\\...\\Margarine.csv",header=TRUE,dec=",",sep=";")
  • Marke<-Margarine[,1]
  • Margarine<-Margarine[,-1]

In der ersten Spalte des Datensatzes sind die Markennamen. Diese werden gespeichert. Weitergerechnet wird dann ohne die erste Spalte.

  • cor(Margarine)
Anteil unge-sättigter FS Kaloriengehalt Vitamingehalt Haltbarkeit Preis
Anteil unge-sättigter FS 1 ,712 ,961 ,109 ,044
Kaloriengehalt ,712 1 ,704 ,138 ,067
Vitamingehalt ,961 ,704 1 ,078 ,024
Haltbarkeit ,109 ,138 ,078 1 ,983
Preis ,044 ,067 ,024 ,983 1








Es zeigen sich hier sehr schön zwei untereinander jeweils hoch korrelierte Blöcke von Variablen. Auf Basis der Korrelationsmatrix könnte ein Faktor für die ersten drei und ein Faktor für die letzten zwei Variablen gewählt werden. Aufgrund der niedrigen Korrelationen abseits dieser Blöcke wäre die Unkorreliertheit der beiden Faktoren wohl auch einigermaßen sichergestellt.

  • Margarine<-scale(Margarine)
  1. bewirkt, dass die Variablen auf Mittelwert 0 und Varianz 1 standardisiert werden.

Bei der Faktorenanalyse ist dieses Vorgehen durchaus üblich, da man im wesentlichen an der Korrelationsstruktur (statt an den Kovarianzen) interessiert ist.

Die eigentliche Analyse geschieht nun mit der Funktion „prcomp“ (Abbildung 33). Der Output der Funktion liefert einerseits die Standardabweichungen der extrahierten Faktoren und andererseits die Hauptachsentransformation (unter „Rotation“). Dass die Methode schrittweise jene Richtungen extrahiert, die größtmögliche Varianz erklären, sieht man auch an der absteigenden Folge der Standardabweichungen. Die erste Komponente hat Standardabweichung 1,6264 und damit Varianz 1,62642=2,645. Nachdem eine Gesamtvarianz von 5 aufzuteilen ist, bedeutet das, dass die erste Komponente bereits 2,645/5=52,9% an Varianz erklärt. Die zweite Komponente hat eine Varianz von 1,39072=1,934 und liefert damit weitere 1,934/5=38,7% an Erklärung. Zusammen sind das bereits 91,6%. Mit dem Befehl „summary“ (siehe weiter Abbildung 33) bekommt man diese Varianzzerlegung ausgegeben.

Faktorenanalyse in R - Teil 1

Hat man für sich selbst z.B. im Vorhinein bestimmt, dass jene Faktorenzahl gewählt wird, dass zumindest 80% der Varianz erklärt werden, würde man sich mittels dieses Kriteriums für zwei Variablen entscheiden.

Das Kaiser-Kriterium

Das Kaiser-Kriterium (Kaiser & Dickman, 1959, zitiert in Fahrmeir et al., 1996, S. 669) wählt jene Komponenten aus, die überdurchschnittlich an Varianz beitragen. Bei auf Varianz 1 skalierten Daten ist bei Variablen eine Varianz von aufzuteilen. Es werden daher jene Komponenten gewählt, deren Varianz größer als 1 ist.

Fortsetzung Beispiel 13

Nur die ersten beiden Standardabweichungen/Varianzen (Eigenwerte) sind größer 1. Daher werden nach diesem Kriterium ebenfalls zwei Komponenten gewählt.

Der Scree-Plot

Ein visuelles Kriterium stellt der Screeplot dar, der die einzelnen Varianzen ab­steigend nebeneinander aufträgt und mit Linien verbindet (Abbildung 34). Gewählt werden nun (von links) alle Komponenten bis zu jenem Punkt (exklusive), an dem der weitere Linienverlauf nach rechts im wesentlichen einer Gerade entspricht.

Screeplot Beispiel 13
Fortsetzung Beispiel 13

In Abbildung 34 ist ersichtlich, dass der größte Abfall von Komponente 2 auf Komponente 3 passiert. Dann fällt die Linie relativ flach weiter. Nach diesem Kriterium können zwei, eventuell auch drei Komponenten gewählt werden.

Weitere Analyse und Interpretation

Fortsetzung Beispiel 13

Laut der Analyse im letzten Abschnitt empfiehlt sich die Wahl von zwei Hauptkomponenten. Das heißt, dass in Abbildung 33 die ersten beiden Spalten der Transformationsmatrix gewählt und interpretiert werden müssen. Die Koeffizienten geben die relative Bedeutung an.

Faktor 1 berechnet sich als

0,576 * Anteil ungesättigter Fettsäuren + 0,518 * Kaloriengehalt

+0,571 * Vit.-Gehalt + 0,211 * Haltbarkeit + 0,170 * Preis.

Demnach sind im ersten extrahierten Faktor eher die ersten drei Variablen in etwa gleicher Stärke ausgedrückt. Inhaltlich könnte dieser Faktor mit „Gesundheit“ bezeichnet werden.

In Komponente 2 sind die letzten beiden Variablen stärker gewichtet. Daher kann Komponente 2 als „Wirtschaftlichkeit“ interpretiert werden.

Der Zweck der Faktorenanalyse ist Datenreduktion. Daher ist das nächste Ziel, die (standardisierten) Originaldaten nun in den neuen gemeinsamen Faktoren darzustellen. Dazu wird die Datenmatrix mit den ersten Spalten der Transformationsmatrix multipliziert.

Fortsetzung Beispiel 13

Die Werte der ursprünglichen Variablen in den neuen gemeinsamen Faktoren werden in der Matrix „Scores“ zusammengefasst (Abbildung 35). Hohe Werte stehen für gute Gesundheitswerte bzw. hohe Wirtschaftlichkeit. Man kann so die Datenpunkte im neuen Datenraum veranschaulichen und auch in einem XY-Scatterplot darstellen. Beispielsweise ist „Du darfst“ am „gesündesten“, und hat den niedrigsten Wert bzgl. Wirtschaftlichkeit, was geringem Preis und geringer Haltbarkeit entspricht.

Faktorenanalyse in R - Teil 2

Berechnet man nun von beiden Faktoren die Varianzen, erhält man wieder die bekannten Werte von vorhin.

Multipliziert man die Spalten der Transformationsmatrix mit der jeweiligen Standardabweichung (Abbildung 33), erhält man die Ladungsmatrix mit den Einträgen . Diese ist insofern interessant, als hier die Korrelationen der einzelnen Variablen mit den einzelnen Faktoren abgelesen werden können. Außerdem kann dort für jede Variable die sogenannte „Kommunalität“ ermittelt werden. Diese gibt jeweils an, wieviel Prozent der Varianz der Variable durch den gewählten Satz gemeinsamer Faktoren erklärt wird. Die Formel lautet

Fortsetzung Beispiel 13

Abbildung 36 zeigt die Erzeugung der Ladungsmatrix aus der Transformationsmatrix in R. Wir sehen, dass die ersten drei Variablen eine sehr hohe Korrelation mit dem ersten Faktor aufweisen. Haltbarkeit und Preis hingegen korrelieren mit dem zweiten gewählten Faktor zu 0,94 bzw. 0,96. Auch hier sieht man, dass ein dritter Faktor nicht mehr erforderlich ist, da hier kaum noch hohe Korrelationen zu den Variablen zu beobachten sind.

Welche Variablen werden nun durch die ersten beiden Komponenten gut erklärt?

Die Kommunalität des „Anteils ungesättigter Fettsäuren“ beträgt z.B. . Also werden 93,1% der Varianz der Variable „Anteil ungesättigter Fettsäuren“ durch die beiden Komponenten erklärt.

Faktorenanalyse in R - Teil 3

Der Kreis schließt sich nun wieder, da unser ursprüngliches Ziel war, die Kor­relationsstruktur der Daten zu erklären. Wie gut das gelingt, kann durch die Matrix der durch die zwei gemeinsamen Faktoren reproduzierten Korrelationen er­mittelt werden. Diese ist nun mit der ursprünglichen Korrelationsmatrix zu vergleichen.

Beispielsweise beträgt die Korrelation zwischen Kalorien- und Vitamingehalt ursprünglich 0,704. Aufgrund der beiden gewählten Faktoren kommt man auf eine Korrelation von 0,823. Für diese Korrelation ergibt sich daher ein Residuum von . Die Residuen der Hauptdiagonalelemente () sind die durch die Faktoren nicht erklärten Varianzanteile der Variablen.

Aufgabe 16

Berechnen Sie die Kommunalitäten für die restlichen vier Variablen aus Beispiel 13 und vergleichen Sie ihre Werte mit den Hauptdiagonalelementen der reproduzierten Korrelationsmatrix.

Faktorrotation

Wie bereits erwähnt, gibt es für mehrere (unendlich viele) Lösungen für , die allesamt die maximale Varianz erklären. Diese unterscheiden sich wieder durch „Drehungen“ im Raum. Das heißt, die gefundene Matrix kann durch Multiplikation einer beliebigen -Matrix mit orthonormalen Spalten transformiert werden, sodass die neue Matrix den gleichen maximal erklärten Varianzanteil liefert. Dies macht man sich zunutze, um jene Lösungen für auszuwählen, die besonders leicht zu interpretieren sind. Das ist dann möglich, wenn die Ladungen entweder nahe bei 1 oder nahe bei 0 sind. Mit anderen Worten heißt das, dass die Varianz der Koeffizienten maximiert werden soll. Die Faktorrotationsmethoden, die die Varianz der Ladungen spalten- bzw. zeilenweise maximieren, heißen Varimax bzw. Quartimax.

Fortsetzung Beispiel 13

Die Ladungskoeffizienten in Beispiel 13 enthalten bereits inhaltlich gut interpretierbare Werte und müssen nicht weiter transformiert werden. Wird dennoch eine Transformation durchgeführt, heißt das, dass sich an der erklärten Varianz von 91,6% nichts ändert. Lediglich die Aufteilung 52,9%:38,7% ändert sich zugunsten des zweiten Faktors, da nicht mehr erforderlich ist, dass die erste Komponente die maximale Varianz erklärt.

Wiederholungsaufgaben und Zusammenfassung

  1. Berechnen Sie die Residuen der reproduzierten Korrelationen in Beispiel 13 und geben Sie an, welche Korrelation am schlechtesten durch die gefundene Faktorlösung dargestellt wird.
  2. Sie erhalten als Ergebnis einer Faktorenanalyse folgende erklärte Varianzen:
Mt422 a1.png
  • Wieviele Faktoren müssen Sie nehmen, wenn Sie zumindest 90% der Varianz erklären wollen?
  • Wieviele Faktoren müssen Sie nach dem Kaiser-Kriterium wählen?
  • Für wieviele Faktoren würden Sie sich mittels zugehörigem Scree-Plot entscheiden?
  1. Zeichnen Sie für die ersten beiden Spalten der Matrix (Abbildung 36) einen XY-Scatterplot (in R: „plot(x,y)“) und beschreiben Sie verbal das Ergebnis der Analyse.

Zusammenfassung

Im Gegensatz zu den vorangegangenen Lektionen wird bei den Verfahren der Faktorenanalyse die (Korrelations-)Struktur eines Satzes von Variablen untersucht. Die Fragestellung ist, ob und wie diese Struktur durch einige wenige Variablen erklärt werden kann. Der Input bei diesen Verfahren ist daher die Kovarianz- bzw. Korrelationsmatrix, der Output im wesentlichen die Ladungsmatrix, die bestimmt, in welcher Art und Weise die gefundenen Faktoren durch die Originalvariablen bestimmt werden.

Es existieren viele Methoden, Faktoren zu bestimmen. Neben der Maximum-Likelihood-Faktorenanalyse hat sich die Hauptkomponentenanalyse als beliebtes und häufig verwendetes Verfahren herausgestellt. In deren Rahmen wird zunächst eine Hauptachsentransformation in Komponenten, die schrittweise maximale Varianz an den Originaldaten erklären, durchgeführt. Setzt man dieses Verfahren dazu ein, um einen guten Satz an Variablen zu bekommen, wird dies die „Hauptkomponentenmethode“ genannt. Eine weitere sich aus dem Verfahren ableitende, iterative Vorgehensweise, bei der das Gewicht stärker auf der Erklärung der Kovarianzen anstelle der Varianzen liegt, ist die Hauptfaktorenanalyse.

Die Anzahl an ausgewählten Faktoren wird zumeist durch einen vorgegebenen minimal erforderlichen, erklärten Varianzanteil, durch das Kaiser-Kriterium oder den Scree-Plot ermittelt und sind daher teilweise subjektiv. Die vollständige Darstellung der Faktorenanalyse umfasst schließlich noch eine Darstellung der Beobachtungseinheiten im neu transformierten Raum sowie weiteren, die Güte der Analyse beschreibenden Darstellungen, wie z.B. der Matrix der reproduzierten Korrelationen.

Wichtig ist nochmals zu erwähnen, dass die Verfahren der (exploratorischen) Faktorenanalyse praktisch keine Hypothesenprüfungen zulassen. Die Ergebnisse sind auch nicht „richtig“ oder „falsch“, sondern bieten eine mathematische Unterstützung zur Dokumentation von Zusammenhangsstrukturen.

  1. Kelvin= Celsius+273,15 bzw. Fahrenheit=32+9/5*Celsius.