|
|
(5 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) |
Zeile 1: |
Zeile 1: |
| = Faktorenanalyse =
| |
|
| |
| ''Wichtiges Ziel der Lektion ist die Erkenntnis, welche Aussagen über nichtbeobachtbare Merkmale aufgrund der Korrelationsstruktur eines Satzes von vorhandenen Variablen abgeleitet werden können. Die Grundlagen der Faktorenanalyse als Basis von Strukturmodellen und die Darstellung der subjektiven Entscheidungen, die im Zuge einer Faktorenanalyse getroffen werden müssen sind ebenso Schwerpunkte, wie die Analyse der Daten in R.''
| |
|
| |
| == Einführung ==
| |
|
| |
| Die in den ersten beiden Lektionen besprochenen Verfahren der Regressions- bzw. Varianzanalyse eignen sich, um den Zusammenhang zwischen einem Satz an ausgewählten Variablen und einer davon abhängigen Variable zu testen. Oft kommt es allerdings vor, dass die Menge an potentiellen Variablen relativ groß ist, einzelne Variablen hoch miteinander korrelieren, oder man nicht am Einfluss der Variablen auf eine abhängige Variable, sondern an der Korrelationsstruktur bzw. an latenten (=nicht beobachtbaren), den Daten zugrundeliegenden Faktoren interessiert ist. Den zweiten Fall haben wir bei Beispiel 1 gehabt. Hier waren Spritverbrauch in der Stadt bzw. auf der Autobahn klarerweise hoch korreliert und damit war schwer abzuschätzen, wie groß der Anteil jeder der beiden Variablen an der Erklärung des Preises ist (im gewählten Modell kam dann jedoch ohnehin keine der beiden Variablen vor). Für den Fall, dass man an latenten Faktoren interessiert ist, gibt es folgende Beispiele:
| |
|
| |
| * Menschliches Verhalten ist beispielsweise von einer Vielzahl an Einflussfaktoren abhängig. In Fragebögen, die das Verhalten in bestimmten Situationen abfragen, werden oft viele ähnliche Fragen, die miteinander hoch korrelieren, gestellt. Letztendlich will man dabei aber latente Konstrukte, wie z.B. „Aggresionspotential“ oder „Verlässlichkeit“ erheben.
| |
| * Erhebung von Prädiktoren für die Kreditwürdigkeit von Kunden einer Bank. Bekannt sind zahlreiche Kundenvariablen, die hoch korreltiert sind und verdichtet werden können.
| |
| * Welche Fähigkeiten liegen Leistungen in Intelligenztests zugrunde? Es existieren viele verschiedene (ähnliche Tests), bei denen hochkorrelierte Leistungen zu beobachten sind. Welche (nicht beobachtbaren) Faktoren liegen diesen Leistungen zugrunde?
| |
| Die Faktorenanalyse bedient sich nun mathematischer Verfahren, die es ermöglichen, viele, miteinander hoch korrelierende Variablen auf einige wenige, nicht korrelierenden Variablen umzurechnen, sodass die Information (Varianz) der Daten aber weitgehend vorhanden bleibt.
| |
|
| |
| {|
| |
| ! width="100%" | '''Beispiel 10 (Extrembeispiel)'''
| |
|
| |
| Angenommen Sie wollen den Umsatz von Speiseeis in Wien in Abhängigkeit von der jeweils um 12h in der Wiener Innenstadt gemessenen Temperatur vorhersagen. Sie messen die Temperatur in Grad Celsius, in Fahrenheit und in Kelvin. Anschließend führen Sie eine multiple lineare Regression des Speiseeisumsatzes, die alle drei Variablen als Erklärung enthält, durch.
| |
|
| |
| Aufgrund der Tatsache, dass zwischen den drei Skalen mittels Lineartransformation umgerechnet werden kann <ref>Kelvin= Celsius+273,15 bzw. Fahrenheit=32+9/5*Celsius.</ref> (exakte Multikollinearität), ergeben sich für die Koeffizientenschätzungen unendlich große Varianzen und beliebige Werte. Die Information, die in allen drei Variablen steckt, kann ohne Verlust mit einer der drei Temperaturvariablen dargestellt werden.
| |
| |}
| |
| Die im folgenden dargestellten Methoden betreffen die explorative Faktorenanalyse. Mit ihrer Hilfe können keine Wirkzusammenhänge inferenzstatistisch geprüft werden, sondern es können nur Zusammenhangsstrukturen exploriert werden. Demgegenüber steht die konfirmatorische Faktorenanalyse, bei der hypothesenprüfend vorgegangen wird. Diese ist ein Spezialfall der in der folgenden Lektion vorgestellten Strukturgleichungsmodelle und wird dort betrachtet.
| |
|
| |
| Für die explorative Faktorenanalyse gilt weiters, dass hier einige subjektive Entscheidungen des Anwenders im Analyseprozess erforderlich sind. Man ist mehr als bei anderen statistischen Verfahren auf Vermutungen angewiesen. Die Faktorenanalyse versteht sich eher als mathematisches Hilfsmittel, welches logisch begründeten Strukturtheorien zur Seite gestellt wird.
| |
|
| |
| Die Faktorenanalyse geht zurück auf Spearman, der diese ursprünglich 1904 zum Zwecke der Intelligenzmessung verwendet hat. Das einleitende Beispiel im folgenden Abschnitt widmet sich daher diesem Thema.
| |
|
| |
| == Modellvorstellung ==
| |
|
| |
| {|
| |
| ! width="100%" | '''Beispiel 11'''
| |
|
| |
| Schulnoten sind Indikatoren für den unbekannten Faktor Intelligenz. Es werden aus Gründen der Einfachheit zwei voneinander unabhängige Intelligenzen (quantitative Intelligenz, Q, und verbale Intelligenz, V) postuliert.
| |
|
| |
| Folgende beispielhafte Annahme über das Zustandekommen der Noten in sechs verschiedenen Fächern werden getroffen:
| |
|
| |
| [[File:media/image208.png]]
| |
|
| |
| [[File:media/image209.png]]
| |
|
| |
| [[File:media/image210.png]]
| |
|
| |
| [[File:media/image211.png]]
| |
|
| |
| [[File:media/image212.png]]
| |
|
| |
| [[File:media/image213.png]]
| |
|
| |
| Die Noten setzen sich also mittels Linearkombination aus den beiden Intelligenzen plus einem spezifischen Faktor für das jeweilige Fach zusammen.
| |
| |}
| |
| Die Koeffizienten der Regressiongleichungen aus Beispiel 11 heißen „Ladungen“. [[File:media/image214.png]][[File:media/image214.png]] und [[File:media/image215.png]][[File:media/image215.png]] heißen „gemeinsame Faktoren“.
| |
|
| |
| Wird nun ein derartiger Zusammenhang unterstellt, können auch die paarweisen Korrelationen zwischen je zwei Schulnoten (Fächern) daraus abgeleitet werden.
| |
|
| |
| Bei der Faktorenanalyse kennt man die in Beispiel 11 getroffene Annahme nicht. Man beschreitet hier den umgekehrten Weg. Gegeben sind alle paarweisen Korrelationen (im Beispiel die Korrelationen zwischen den Schulnoten) und gesucht sind die (in Beispiel 11) gegebenen Ladungen.
| |
|
| |
| Es werden dann einige mathematisch-statistische Restriktionen gemacht, um das Schätzproblem bei der Faktorenanalyse etwas genauer zu spezifizieren. Beispielsweise muss gefordert werden, dass die gemeinsamen Faktoren untereinander unabhängig sind. Das heißt, wenn jemand eine hohe quantitative Intelligenz hat, dann kann daraus keine Tendenz über die verbale Intelligenz geschlossen werden. Außerdem wir gefordert, dass die gemeinsamen Faktoren von den spezifischen Faktoren unabhängig sind.
| |
|
| |
| Notiert wird das Modell der Faktorenanalyse in den gängigen Lehrbüchern in Matrixschreibweise (analog zu Beispiel 11):
| |
|
| |
| [[File:media/image216.png]][[File:media/image216.png]]''','''
| |
|
| |
| wobei[[File:media/image217.png]][[File:media/image217.png]] die bereits spaltenweise auf Mittelwert Null zentrierte Datenmatrix ([[File:media/image218.png]][[File:media/image218.png]], [[File:media/image143.png]][[File:media/image143.png]] Versuchseinheiten und [[File:media/image219.png]][[File:media/image219.png]] Variablen), [[File:media/image220.png]][[File:media/image220.png]] die Matrix ([[File:media/image221.png]][[File:media/image221.png]]), die die gemeinsamen Faktoren enthält, [[File:media/image222.png]][[File:media/image222.png]] die Ladungsmatrix ([[File:media/image223.png]][[File:media/image223.png]]) und [[File:media/image224.png]][[File:media/image224.png]] die ([[File:media/image218.png]][[File:media/image218.png]])- Matrix der Einzelrestwerte ist. In Beispiel 11 ist [[File:media/image225.png]][[File:media/image225.png]] und [[File:media/image226.png]][[File:media/image226.png]].
| |
|
| |
| Aufgrund der vielen Unbekannten in diesem Modell ist dieses nicht empirisch überprüfbar bzw. uneindeutig. Durch die erwähnten mathematischen Annahmen lässt sich aber die für die Faktorenanalyse zentrale, unter bestimmten Umständen eindeutige Zerlegung bilden: [[File:media/image227.png]][[File:media/image227.png]]
| |
|
| |
| [[File:media/image228.png]][[File:media/image228.png]] ist die sogenannte „Varianz-Kovarianzmatrix“ der Daten. Sie enthält in der Hauptdiagonale alle Varianzen der [[File:media/image219.png]][[File:media/image219.png]] Variablen und abseits davon alle Kovarianzen. Die Varianz-Kovarianz-Matrix (bzw. bei standardisierten Variablen die Korrelationsmatrix) ist der wesentliche Input bei einer Faktorenanalyse, den es zu analysieren gilt. '''V''' ist eine Diagonalmatrix mit den Varianzen der spezifischen Faktoren. Das wesentliche Ziel bei der Faktorenanalyse ist es nun, eine jener Matrizen [[File:media/image229.png]][[File:media/image229.png]] zu finden, für die diese Zerlegung möglich ist, und zwar für eine minimale Anzahl an [[File:media/image15.png]][[File:media/image15.png]] zugrundeliegenden gemeinsamen Faktoren.
| |
|
| |
| == Faktorextraktion ==
| |
|
| |
| Es gibt nun verschiedene Schätzmethoden, um die Ladungsmatrix [[File:media/image229.png]][[File:media/image229.png]] zu schätzen.
| |
|
| |
| === Die Maximum-Likelihood-Methode ===
| |
|
| |
| Diese bedient sich einem in der Statistik weit verbreiteten Konzept zur Konstruktion von Schätzern. Es wird hier eine multivariate Normalverteilung der beobachteten Daten unterstellt. Als Folge davon kann analytisch jener Schätzer für die Ladungsmatrix [[File:media/image229.png]][[File:media/image229.png]] ermittelt werden, der unter dieser Annahme am plausibelsten ist. Hier wird also stochastisch durch Verteilungsannahmen argumentiert. Die Wahl, wieviele Faktoren ([[File:media/image15.png]][[File:media/image15.png]]) gewählt werden, kann unter anderem durch statistische Hypothesentests erfolgen.
| |
|
| |
| === Die Hauptkomponentenanalyse ===
| |
|
| |
| Die Ergebnisse der Hauptkomponentenanalyse erhält man ebenfalls durch Optimierung. Kriterium ist, dass die (zentrierte) Datenmatrix [[File:media/image230.png]][[File:media/image230.png]] durch Multiplikation mit einer [[File:media/image231.png]][[File:media/image231.png]]-Matrix (mit orthonormalen Spalten) derart transformiert wird, dass die Spalten der so transformierten Matrix jeweils schrittweise die höchste Varianz erzeugen. Dieser Vorgang wird Hauptachsentransformation genannt. Diese sehr theoretisch beschriebene Vorgehensweise soll anhand eines Beispieles skizziert werden (Abbildung 32).
| |
|
| |
| {|
| |
| ! width="100%" | '''Beispiel 12'''
| |
|
| |
| [[file:img1642203546153.png|300px|none|thumb|Sieben Datenpunkte im zweidimensionalen Raum,<br class="mwt-preserveHtml" data-mwt-sameline="true" data-mwt-spaces="" /><span class="mwt-placeHolder mwt-singleLinebreak mwt-slbltr mwt-hidePlaceholder" title="Non-displayed single linebreak" contenteditable="false" draggable="true"> </span>vor und nach der Achsendrehung]]
| |
|
| |
| Abbildung 32 zeigt sieben Datenpunkte in zwei Variablen. In der linken Abbildung kann die Varianz in X- bzw. Y-Richtung durch Normalprojektion an die jeweiligen Achsen geschätzt werden. Die Daten sind so gewählt, dass sowohl die Varianz in X- als auch in Y-Richtung gleich 1 ist. Geometrisch gesehen wird bei der Hauptachsentransformation das Koordinatensystem solange gedreht, bis die größte der Varianzen der projizierten Datenpunkte auf die neuen Achsen maximal wird. Diese Drehung entspricht in diesem Beispiel 45 Grad und führt dazu, dass die Varianz der Daten auf der Achse von links unten nach rechts oben 1,501 beträgt. Dies ist die größte erzielbare Varianz auf einer Achse. Die Werte auf der zweiten Achse weisen eine Varianz von 0,499 auf. Nachdem die Daten nur zwei Dimensionen haben, bleibt für die zweite Achse nur mehr eine Richtung. Im allgemeinen wird jedoch für die zweite Achse jene Richtung gewählt, die ihrerseits wieder die maximale Varianz liefert.
| |
|
| |
| In Summe sind die Varianzen in beiden Richtungen sowohl in der Grafik links als auch rechts gleich 2. Sie teilen sich nur anders auf. Um wieder zu obigen Text zurückzukehren: Die hier angewandte Transformation bedeutet rechnerisch eine Multiplikation der Datenmatrix mit der Matrix
| |
|
| |
| [[File:media/image233.png]][[File:media/image233.png]] .
| |
| |}
| |
| Wird [[File:media/image234.png]][[File:media/image234.png]] gewählt, heißt das, dass die volle Varianz erklärt wird (d.h. die volle Information erhalten bleibt). Die (bei hoher Korrelation in den Daten stark) ungleiche Varianzzerlegung macht man sich aber zunutze um nun die ersten [[File:media/image15.png]][[File:media/image15.png]] interessierenden Achsen zu wählen und die anderen zu eliminieren. Damit erzielt man einen Kompromiss zwischen Datenreduktion und Informationsverlust. Der Anteil der Summe aller bis zur [[File:media/image15.png]][[File:media/image15.png]]-ten Achse erklärten Varianzen an der Gesamtzahl [[File:media/image219.png]][[File:media/image219.png]] der Variablen im Originaldatensatz ist der erklärte Varianzanteil. Dieser ist ein Kriterium zur Bestimmung, auf wieviele Achsen die Daten reduziert werden sollen.
| |
|
| |
| {|
| |
| ! width="100%" | '''Fortsetzung Beispiel 12'''
| |
|
| |
| Die Varianz der Daten an der ersten transformierten Achse beträgt 1,501. Die Anzahl der Originalvariablen bzw. die Summe derer Varianzen beträgt 2. Daher beträgt der erklärte Varianzanteil bei alleiniger Datenreduktion auf eine Achse [[File:media/image235.png]][[File:media/image235.png]].
| |
| |}
| |
| {|
| |
| ! width="100%" | '''Aufgabe 15'''
| |
|
| |
| Angenommen es liegt ein Satz von acht (auf Varianz gleich Eins) standardisierten, korrelierten Variablen vor, der mittels Hauptkomponentenmethode reduziert werden soll.
| |
|
| |
| <ol style="list-style-type: lower-alpha;">
| |
| <li><p>Sie entschließen sich, die Daten auf drei Achsen zu reduzieren. Wie groß sollte die Summe der drei erklärten Varianzen jedenfalls sein?</p></li>
| |
| <li><p>Wie groß sollte der erklärte Varianzanteil dann jedenfalls sein?</p></li>
| |
| <li><p>Angenommen Sie erzielen eine Varianzerklärung von 74%. Wieviele Achsen haben Sie dabei maximal gewählt?</p></li>
| |
| </ol>
| |
| |}
| |
| Die eben diskutierte Vorgehensweise nur [[File:media/image236.png]][[File:media/image236.png]] Achsen aus der transformierten Matrix zur Erklärung der Originaldaten auszuwählen, wird „Hauptkomponentenmethode“ genannt. Während bei [[File:media/image234.png]][[File:media/image234.png]] nur eine Lösung existiert, den gesamt erklärten Varianzanteil zu maximieren, ist die Lösung bei [[File:media/image237.png]][[File:media/image237.png]] gewählten Achsen nicht eindeutig. Darauf wird in Abschnitt 5.6 eingegangen.
| |
|
| |
| Die Lösung der Hauptkomponentenanalyse wird im Normalfall nicht graphisch durchgeführt, sondern reduziert sich – mathematisch gesehen – auf das Finden der Eigenwerte der Korrelations- bzw. Kovarianzmatrix der Daten. Deshalb liest man statt erklärten Varianzanteilen in Software-Outputs von Faktorenanalysen auch immer wieder von Eigenwerten. Die Varianzen der Daten in den einzelnen Richtungen sind gerade durch diese Eigenwerte gegeben.
| |
|
| |
| Die Hauptkomponentenmethode ist die am häufigsten angewandte Methode zur Extraktion von Faktoren. Der Grund ist auch, dass hier im Gegensatz zu anderen Berechnungsmethoden kein iteratives Vorgehen benötigt wird. Im Hinblick zur eigentlichen Faktorenanalyse wird hier kein Modell zugrundegelegt, sondern es wird lediglich eine technische Optimierungsaufgabe zur Datenreduktion durchgeführt. Eine Methode, die die Hauptkomponentenmethode verwendet um in einem iterativen Prozess (wie vorher erwünscht) statt den Varianzen die Anpassung an die Korrelationsmatrix optimiert, ist die Hauptfaktorenanalyse. Auf diese wird aber aus Platzgründen nicht weiter eingegangen.
| |
|
| |
| == Bestimmung der Anzahl an Faktoren ==
| |
|
| |
| Die wesentlichste Frage, wenn mittels Hauptkomponentenanalyse versucht wird, einen Satz von [[File:media/image236.png]][[File:media/image236.png]] Dimensionen – die „gemeinsamen Faktoren“ – zu ermitteln, ist, wie groß [[File:media/image15.png]][[File:media/image15.png]] nun sein soll. Dazu gibt es drei häufig verwendete Kriterien.
| |
|
| |
| === Die erklärte Varianz ===
| |
|
| |
| Ein mögliches Kriterium kann sein, dass man einen gewissen Anteil an erklärter Varianz nicht unterschreiten will, da man sonst nicht mehr das Gefühl hat, die ursprünglichen Daten mit dem reduzierten Datensatz gut zu beschreiben.
| |
|
| |
| {|
| |
| ! width="100%" | '''Beispiel 13'''
| |
|
| |
| Im diesem Beispiel (Backhaus et al., 2003) sind die mittels Fragebogen von mehreren Personen erhobenen Eigenschaften von sechs Margarinesorten erhoben. Die Daten beschreiben die Mittelwerte der Stichprobe, die auf einer Ratingskala zwischen 1 und 7 bewertet wurden.
| |
|
| |
| {|
| |
| ! width="22%" |
| |
| ! width="17%" | Anteil ungesättigter Fettsäuren
| |
| ! width="18%" | Kaloriengehalt
| |
| ! width="17%" | Vitamingehalt
| |
| ! width="14%" | Haltbarkeit
| |
| ! width="9%" | Preis
| |
| |-
| |
| | Rama
| |
| | 1
| |
| | 1
| |
| | 2
| |
| | 1
| |
| | 2
| |
| |-
| |
| | Sanella
| |
| | 2
| |
| | 6
| |
| | 3
| |
| | 3
| |
| | 4
| |
| |-
| |
| | Becel
| |
| | 4
| |
| | 5
| |
| | 4
| |
| | 4
| |
| | 5
| |
| |-
| |
| | Du darfst
| |
| | 5
| |
| | 6
| |
| | 6
| |
| | 2
| |
| | 3
| |
| |-
| |
| | Holländische Butter
| |
| | 2
| |
| | 3
| |
| | 3
| |
| | 5
| |
| | 7
| |
| |-
| |
| | Weihnachtsbutter
| |
| | 3
| |
| | 4
| |
| | 4
| |
| | 6
| |
| | 7
| |
| |}Es soll nun untersucht werden, ob sich die fünf beobachteten Variablen auf wenige latente Faktoren reduzieren lassen.
| |
|
| |
| Ausgangspunkt ist die Korrelations-Matrix der Daten:
| |
|
| |
| * '''Margarine<-read.csv("C:\\...\\...\\Margarine.csv",header=TRUE,dec=",",sep=";")'''
| |
| * '''Marke<-Margarine[,1]'''
| |
| * '''Margarine<-Margarine[,-1]'''
| |
| In der ersten Spalte des Datensatzes sind die Markennamen. Diese werden gespeichert. Weitergerechnet wird dann ohne die erste Spalte.
| |
|
| |
| * '''cor(Margarine)'''
| |
|
| |
| {|
| |
| ! width="18%" |
| |
| ! width="17%" | Anteil unge-sättigter FS
| |
| ! width="18%" | Kaloriengehalt
| |
| ! width="17%" | Vitamingehalt
| |
| ! width="14%" | Haltbarkeit
| |
| ! width="12%" | Preis
| |
| |-
| |
| | Anteil unge-sättigter FS
| |
| | 1
| |
| | ,712
| |
| | ,961
| |
| | ,109
| |
| | ,044
| |
| |-
| |
| | Kaloriengehalt
| |
| | ,712
| |
| | 1
| |
| | ,704
| |
| | ,138
| |
| | ,067
| |
| |-
| |
| | Vitamingehalt
| |
| | ,961
| |
| | ,704
| |
| | 1
| |
| | ,078
| |
| | ,024
| |
| |-
| |
| | Haltbarkeit
| |
| | ,109
| |
| | ,138
| |
| | ,078
| |
| | 1
| |
| | ,983
| |
| |-
| |
| | Preis
| |
| | ,044
| |
| | ,067
| |
| | ,024
| |
| | ,983
| |
| | 1
| |
| |}Es zeigen sich hier sehr schön zwei untereinander jeweils hoch korrelierte Blöcke von Variablen. Auf Basis der Korrelationsmatrix könnte ein Faktor für die ersten drei und ein Faktor für die letzten zwei Variablen gewählt werden. Aufgrund der niedrigen Korrelationen abseits dieser Blöcke wäre die Unkorreliertheit der beiden Faktoren wohl auch einigermaßen sichergestellt.
| |
|
| |
| * '''Margarine<-scale(Margarine)'''
| |
| # bewirkt, dass die Variablen auf Mittelwert 0 und Varianz 1 standardisiert werden.
| |
| Bei der Faktorenanalyse ist dieses Vorgehen durchaus üblich, da man im wesentlichen an der Korrelationsstruktur (statt an den Kovarianzen) interessiert ist.
| |
|
| |
| Die eigentliche Analyse geschieht nun mit der Funktion „prcomp“ (Abbildung 33). Der Output der Funktion liefert einerseits die Standardabweichungen der extrahierten Faktoren und andererseits die Hauptachsentransformation (unter „Rotation“). Dass die Methode schrittweise jene Richtungen extrahiert, die größtmögliche Varianz erklären, sieht man auch an der absteigenden Folge der Standardabweichungen. Die erste Komponente hat Standardabweichung 1,6264 und damit Varianz 1,6264<sup>2</sup>=2,645. Nachdem eine Gesamtvarianz von 5 aufzuteilen ist, bedeutet das, dass die erste Komponente bereits 2,645/5=52,9% an Varianz erklärt. Die zweite Komponente hat eine Varianz von 1,3907<sup>2</sup>=1,934 und liefert damit weitere 1,934/5=38,7% an Erklärung. Zusammen sind das bereits 91,6%. Mit dem Befehl „summary“ (siehe weiter Abbildung 33) bekommt man diese Varianzzerlegung ausgegeben.
| |
| |}
| |
| [[file:img1642217907396.png|300px|none|thumb|Faktorenanalyse in R - Teil 1]]
| |
|
| |
| Hat man für sich selbst z.B. im Vorhinein bestimmt, dass jene Faktorenzahl gewählt wird, dass zumindest 80% der Varianz erklärt werden, würde man sich mittels dieses Kriteriums für zwei Variablen entscheiden.
| |
|
| |
| === Das Kaiser-Kriterium ===
| |
|
| |
| Das Kaiser-Kriterium (Kaiser & Dickman, 1959, zitiert in Fahrmeir et al., 1996, S. 669) wählt jene Komponenten aus, die überdurchschnittlich an Varianz beitragen. Bei auf Varianz 1 skalierten Daten ist bei[[File:media/image239.png]][[File:media/image239.png]] Variablen eine Varianz von [[File:media/image219.png]][[File:media/image219.png]] aufzuteilen. Es werden daher jene Komponenten gewählt, deren Varianz größer als 1 ist.
| |
|
| |
| {|
| |
| ! width="100%" | '''Fortsetzung Beispiel 13'''
| |
|
| |
| Nur die ersten beiden Standardabweichungen/Varianzen (Eigenwerte) sind größer 1. Daher werden nach diesem Kriterium ebenfalls zwei Komponenten gewählt.
| |
| |}
| |
|
| |
| === Der Scree-Plot ===
| |
|
| |
| Ein visuelles Kriterium stellt der Screeplot dar, der die einzelnen Varianzen absteigend nebeneinander aufträgt und mit Linien verbindet (Abbildung 34). Gewählt werden nun (von links) alle Komponenten bis zu jenem Punkt (exklusive), an dem der weitere Linienverlauf nach rechts im wesentlichen einer Gerade entspricht.
| |
|
| |
| [[file:img1642160505806.png|300px|none|thumb|Screeplot Beispiel 13]]
| |
| {|
| |
| ! width="100%" | '''Fortsetzung Beispiel 13'''
| |
|
| |
| In Abbildung 34 ist ersichtlich, dass der größte Abfall von Komponente 2 auf Komponente 3 passiert. Dann fällt die Linie relativ flach weiter. Nach diesem Kriterium können zwei, eventuell auch drei Komponenten gewählt werden.
| |
| |}
| |
|
| |
| == Weitere Analyse und Interpretation ==
| |
|
| |
| {|
| |
| ! width="100%" | '''Fortsetzung Beispiel 13'''
| |
|
| |
| Laut der Analyse im letzten Abschnitt empfiehlt sich die Wahl von zwei Hauptkomponenten. Das heißt, dass in Abbildung 33 die ersten beiden Spalten der Transformationsmatrix gewählt und interpretiert werden müssen. Die Koeffizienten geben die relative Bedeutung an.
| |
|
| |
| Faktor 1 berechnet sich als
| |
|
| |
| 0,576 * Anteil ungesättigter Fettsäuren + 0,518 * Kaloriengehalt
| |
|
| |
| +0,571 * Vit.-Gehalt + 0,211 * Haltbarkeit + 0,170 * Preis.
| |
| |-
| |
| |
| |
| Demnach sind im ersten extrahierten Faktor eher die ersten drei Variablen in etwa gleicher Stärke ausgedrückt. Inhaltlich könnte dieser Faktor mit „Gesundheit“ bezeichnet werden.
| |
|
| |
| In Komponente 2 sind die letzten beiden Variablen stärker gewichtet. Daher kann Komponente 2 als „Wirtschaftlichkeit“ interpretiert werden.
| |
| |}
| |
| Der Zweck der Faktorenanalyse ist Datenreduktion. Daher ist das nächste Ziel, die (standardisierten) Originaldaten nun in den neuen gemeinsamen Faktoren darzustellen. Dazu wird die Datenmatrix mit den ersten [[File:media/image15.png]][[File:media/image15.png]] Spalten der Transformationsmatrix multipliziert.
| |
|
| |
| {|
| |
| ! width="100%" | '''Fortsetzung Beispiel 13'''
| |
|
| |
| Die Werte der ursprünglichen Variablen in den neuen gemeinsamen Faktoren werden in der Matrix „Scores“ zusammengefasst (Abbildung 35). Hohe Werte stehen für gute Gesundheitswerte bzw. hohe Wirtschaftlichkeit. Man kann so die Datenpunkte im neuen Datenraum veranschaulichen und auch in einem XY-Scatterplot darstellen. Beispielsweise ist „Du darfst“ am „gesündesten“, und hat den niedrigsten Wert bzgl. Wirtschaftlichkeit, was geringem Preis und geringer Haltbarkeit entspricht.
| |
| |-
| |
| |
| |
| [[file:img1642166365426.png|300px|none|thumb|Faktorenanalyse in R - Teil 2]]
| |
|
| |
| Berechnet man nun von beiden Faktoren die Varianzen, erhält man wieder die bekannten Werte von vorhin.
| |
| |}
| |
| Multipliziert man die Spalten der Transformationsmatrix mit der jeweiligen Standardabweichung (Abbildung 33), erhält man die Ladungsmatrix mit den Einträgen [[File:media/image242.png]][[File:media/image242.png]]. Diese ist insofern interessant, als hier die Korrelationen der einzelnen Variablen mit den einzelnen Faktoren abgelesen werden können. Außerdem kann dort für jede Variable die sogenannte „Kommunalität“ [[File:media/image243.png]][[File:media/image243.png]] ermittelt werden. Diese gibt jeweils an, wieviel Prozent der Varianz der Variable durch den gewählten Satz gemeinsamer Faktoren erklärt wird. Die Formel lautet
| |
|
| |
| [[File:media/image244.png]][[File:media/image244.png]].
| |
|
| |
| {|
| |
| ! width="100%" | '''Fortsetzung Beispiel 13'''
| |
|
| |
| Abbildung 36 zeigt die Erzeugung der Ladungsmatrix [[File:media/image229.png]][[File:media/image229.png]] aus der Transformationsmatrix in R. Wir sehen, dass die ersten drei Variablen eine sehr hohe Korrelation mit dem ersten Faktor aufweisen. Haltbarkeit und Preis hingegen korrelieren mit dem zweiten gewählten Faktor zu 0,94 bzw. 0,96. Auch hier sieht man, dass ein dritter Faktor nicht mehr erforderlich ist, da hier kaum noch hohe Korrelationen zu den Variablen zu beobachten sind.
| |
|
| |
| Welche Variablen werden nun durch die ersten beiden Komponenten gut erklärt?
| |
|
| |
| Die Kommunalität des „Anteils ungesättigter Fettsäuren“ beträgt z.B. [[File:media/image245.png]][[File:media/image245.png]]. Also werden 93,1% der Varianz der Variable „Anteil ungesättigter Fettsäuren“ durch die beiden Komponenten erklärt.
| |
|
| |
| [[file:img1642174987811.png|300px|none|thumb|Faktorenanalyse in R - Teil 3]]
| |
|
| |
| Der Kreis schließt sich nun wieder, da unser ursprüngliches Ziel war, die Korrelationsstruktur der Daten zu erklären. Wie gut das gelingt, kann durch die Matrix der durch die zwei gemeinsamen Faktoren reproduzierten Korrelationen ermittelt werden. Diese ist nun mit der ursprünglichen Korrelationsmatrix zu vergleichen.
| |
|
| |
| Beispielsweise beträgt die Korrelation zwischen Kalorien- und Vitamingehalt ursprünglich 0,704. Aufgrund der beiden gewählten Faktoren kommt man auf eine Korrelation von 0,823. Für diese Korrelation ergibt sich daher ein Residuum von [[File:media/image247.png]][[File:media/image247.png]]. Die Residuen der Hauptdiagonalelemente ([[File:media/image248.png]][[File:media/image248.png]]) sind die durch die Faktoren nicht erklärten Varianzanteile der Variablen.
| |
| |}
| |
| {|
| |
| ! width="100%" | '''Aufgabe 16'''
| |
|
| |
| Berechnen Sie die Kommunalitäten für die restlichen vier Variablen aus Beispiel 13 und vergleichen Sie ihre Werte mit den Hauptdiagonalelementen der reproduzierten Korrelationsmatrix.
| |
| |}
| |
|
| |
| == Faktorrotation ==
| |
|
| |
| Wie bereits erwähnt, gibt es für [[File:media/image237.png]][[File:media/image237.png]] mehrere (unendlich viele) Lösungen für [[File:media/image229.png]][[File:media/image229.png]], die allesamt die maximale Varianz erklären. Diese unterscheiden sich wieder durch „Drehungen“ im Raum. Das heißt, die gefundene Matrix [[File:media/image229.png]][[File:media/image229.png]] kann durch Multiplikation einer beliebigen [[File:media/image231.png]][[File:media/image231.png]]-Matrix mit orthonormalen Spalten transformiert werden, sodass die neue Matrix [[File:media/image249.png]][[File:media/image249.png]] den gleichen maximal erklärten Varianzanteil liefert. Dies macht man sich zunutze, um jene Lösungen für [[File:media/image250.png]][[File:media/image250.png]] auszuwählen, die besonders leicht zu interpretieren sind. Das ist dann möglich, wenn die Ladungen entweder nahe bei 1 oder nahe bei 0 sind. Mit anderen Worten heißt das, dass die Varianz der Koeffizienten maximiert werden soll. Die Faktorrotationsmethoden, die die Varianz der Ladungen spalten- bzw. zeilenweise maximieren, heißen Varimax bzw. Quartimax.
| |
|
| |
| {|
| |
| ! width="100%" | '''Fortsetzung Beispiel 13'''
| |
|
| |
| Die Ladungskoeffizienten in Beispiel 13 enthalten bereits inhaltlich gut interpretierbare Werte und müssen nicht weiter transformiert werden. Wird dennoch eine Transformation durchgeführt, heißt das, dass sich an der erklärten Varianz von 91,6% nichts ändert. Lediglich die Aufteilung 52,9%:38,7% ändert sich zugunsten des zweiten Faktors, da nicht mehr erforderlich ist, dass die erste Komponente die maximale Varianz erklärt.
| |
| |}
| |
|
| |
| == Wiederholungsaufgaben und Zusammenfassung ==
| |
|
| |
| # Berechnen Sie die Residuen der reproduzierten Korrelationen in Beispiel 13 und geben Sie an, welche Korrelation am schlechtesten durch die gefundene Faktorlösung dargestellt wird.
| |
| <ol style="list-style-type: decimal;" start="12">
| |
| <li><p>Sie erhalten als Ergebnis einer Faktorenanalyse folgende erklärte Varianzen:</p></li>
| |
| </ol>
| |
| <blockquote>[[File:media/image251.emf]]</blockquote>
| |
| * Wieviele Faktoren müssen Sie nehmen, wenn Sie zumindest 90% der Varianz erklären wollen?
| |
| * Wieviele Faktoren müssen Sie nach dem Kaiser-Kriterium wählen?
| |
| * Für wieviele Faktoren würden Sie sich mittels zugehörigem Scree-Plot entscheiden?
| |
| <ol style="list-style-type: decimal;" start="13">
| |
| <li><p>Zeichnen Sie für die ersten beiden Spalten der Matrix [[File:media/image229.png]][[File:media/image229.png]] (Abbildung 36) einen XY-Scatterplot (in R: „'''plot(x,y)'''“) und beschreiben Sie verbal das Ergebnis der Analyse.</p></li>
| |
| </ol>
| |
|
| |
| ==== Zusammenfassung ====
| |
|
| |
| Im Gegensatz zu den vorangegangenen Lektionen wird bei den Verfahren der Faktorenanalyse die (Korrelations-)Struktur eines Satzes von Variablen untersucht. Die Fragestellung ist, ob und wie diese Struktur durch einige wenige Variablen erklärt werden kann. Der Input bei diesen Verfahren ist daher die Kovarianz- bzw. Korrelationsmatrix, der Output im wesentlichen die Ladungsmatrix, die bestimmt, in welcher Art und Weise die gefundenen Faktoren durch die Originalvariablen bestimmt werden.
| |
|
| |
| Es existieren viele Methoden, Faktoren zu bestimmen. Neben der Maximum-Likelihood-Faktorenanalyse hat sich die Hauptkomponentenanalyse als beliebtes und häufig verwendetes Verfahren herausgestellt. In deren Rahmen wird zunächst eine Hauptachsentransformation in Komponenten, die schrittweise maximale Varianz an den Originaldaten erklären, durchgeführt. Setzt man dieses Verfahren dazu ein, um einen guten Satz an Variablen zu bekommen, wird dies die „Hauptkomponentenmethode“ genannt. Eine weitere sich aus dem Verfahren ableitende, iterative Vorgehensweise, bei der das Gewicht stärker auf der Erklärung der Kovarianzen anstelle der Varianzen liegt, ist die Hauptfaktorenanalyse.
| |
|
| |
| Die Anzahl an ausgewählten Faktoren wird zumeist durch einen vorgegebenen minimal erforderlichen, erklärten Varianzanteil, durch das Kaiser-Kriterium oder den Scree-Plot ermittelt und sind daher teilweise subjektiv. Die vollständige Darstellung der Faktorenanalyse umfasst schließlich noch eine Darstellung der Beobachtungseinheiten im neu transformierten Raum sowie weiteren, die Güte der Analyse beschreibenden Darstellungen, wie z.B. der Matrix der reproduzierten Korrelationen.
| |
|
| |
| Wichtig ist nochmals zu erwähnen, dass die Verfahren der (exploratorischen) Faktorenanalyse praktisch keine Hypothesenprüfungen zulassen. Die Ergebnisse sind auch nicht „richtig“ oder „falsch“, sondern bieten eine mathematische Unterstützung zur Dokumentation von Zusammenhangsstrukturen.
| |
|
| |
|
| |
|
| |
| = Strukturgleichungsmodelle = | | = Strukturgleichungsmodelle = |
|
| |
|
Zeile 370: |
Zeile 17: |
| In der folgenden Darstellung geht es weniger um den komplexen mathematischen Hintergrund der Methode – dies würde den Rahmen deutlich sprengen – sondern um die Vorstellung der Idee dahinter. | | In der folgenden Darstellung geht es weniger um den komplexen mathematischen Hintergrund der Methode – dies würde den Rahmen deutlich sprengen – sondern um die Vorstellung der Idee dahinter. |
|
| |
|
| <ol style="list-style-type: decimal;">
| | == Grundlagen und Beispiele == |
| <li>== Grundlagen und Beispiele ==
| | |
| | === Modelldarstellung, Terminologie und Notation === |
|
| |
|
| <ol style="list-style-type: decimal;">
| |
| <li>=== Modelldarstellung, Terminologie und Notation ===</li>
| |
| </ol></li>
| |
| </ol>
| |
| Die Datengrundlage für die Analyse mittels Strukturgleichungsmodellen sind wie in der Faktorenanalyse Kovarianzen bzw. Korrelationen zwischen den beobachtbaren Variablen. Output des Verfahrens sind wieder Modellparameter, zu denen in diesem Fall auch Signifikanzen berechnet werden können. Es kann also (wie übrigens auch bei der Regression) statistisch getestet werden, welche Parameter überzufällig von Null verschieden sind. Das Modell gilt dann als durch die Daten “bestätigt”, wenn sich die Korrelationen durch die Modellparameter (direkte oder indirekte Pfadkoeffizienten) rekonstruieren lässt. | | Die Datengrundlage für die Analyse mittels Strukturgleichungsmodellen sind wie in der Faktorenanalyse Kovarianzen bzw. Korrelationen zwischen den beobachtbaren Variablen. Output des Verfahrens sind wieder Modellparameter, zu denen in diesem Fall auch Signifikanzen berechnet werden können. Es kann also (wie übrigens auch bei der Regression) statistisch getestet werden, welche Parameter überzufällig von Null verschieden sind. Das Modell gilt dann als durch die Daten “bestätigt”, wenn sich die Korrelationen durch die Modellparameter (direkte oder indirekte Pfadkoeffizienten) rekonstruieren lässt. |
|
| |
|
Zeile 389: |
Zeile 33: |
| Die dort dargestellte Struktur ist prototypisch für die Darstellung von Strukturgleichungsmodellen. Die Komponenten sind einerseits die Messmodelle der latenten Variablen. In ihnen wird spezifiziert, in welcher Form die entscheidenden latenten Variablen von den manifesten abhängen, also wie das, was von Interesse ist, gemessen wird. Es werden die latent endogenen Variablen (Zielvariablen, erklärten Variablen) und die latent exogenen Variablen (erklärenden Variablen) unterschieden. Die zweite Komponente ist das Strukturmodell, das angibt, wie die latenten Variablen untereinander zusammenhängen. Im vorliegenden Fall ist die Einstellung die verursachende Variable und das Kaufverhalten die davon abhängige Variable. Ein vollständiges Strukturgleichungsmodell besteht immer aus einem Strukturmodell und zwei Messmodellen. | | Die dort dargestellte Struktur ist prototypisch für die Darstellung von Strukturgleichungsmodellen. Die Komponenten sind einerseits die Messmodelle der latenten Variablen. In ihnen wird spezifiziert, in welcher Form die entscheidenden latenten Variablen von den manifesten abhängen, also wie das, was von Interesse ist, gemessen wird. Es werden die latent endogenen Variablen (Zielvariablen, erklärten Variablen) und die latent exogenen Variablen (erklärenden Variablen) unterschieden. Die zweite Komponente ist das Strukturmodell, das angibt, wie die latenten Variablen untereinander zusammenhängen. Im vorliegenden Fall ist die Einstellung die verursachende Variable und das Kaufverhalten die davon abhängige Variable. Ein vollständiges Strukturgleichungsmodell besteht immer aus einem Strukturmodell und zwei Messmodellen. |
|
| |
|
| [[File:media/image253.png]][[File:media/image254.png]] | | [[file:img1642212323899.png|300px|none|thumb|Pfaddiagramm eines Strukturgleichungsmodells]] |
|
| |
|
| [[File:media/image255.png]]
| | Wie in Abbildung 38 ersichtlich, müssen auch die in den Gleichungen vorkommenden Fehler- bzw. Residualvariablen eingetragen werden. Hierfür werden die griechischen Buchstaben <math>\delta</math> („Delta“; Fehlerterm für Indikatoren der exogenen Variablen), <math>\varepsilon</math> („Epsilon“; Fehlerterm für die Indikatoren der endogenen Variablen) und <math>\zeta</math> („Zeta“; Fehlerterm für die latenten endogenen Variablen) verwendet. <math>\xi</math> („Ksi“) und <math>\eta</math> („Eta“) stehen für die latenten Variablen selbst. |
|
| |
|
| [[File:media/image256.png]]
| | Aus der Darstellung der Wirkweise der Variablen zueinander folgen die resultierenden Gleichungen, die im Zuge der Analyse geschätzt werden müssen. Für das Beispiel in Abbildung 38 bedeutet das konkret: |
| | | |
| [[File:media/image257.png]][[File:media/image258.png]]
| |
| | |
| [[File:media/image259.png]][[File:media/image260.png]][[File:media/image261.png]]
| |
| | |
| [[File:media/image262.png]][[File:media/image263.png]]
| |
|
| |
|
| [[File:media/image264.png]][[File:media/image265.png]]
| |
|
| |
|
|
| |
|
| | <math>X_{1}=\lambda_{x 1} * \xi_{1}+\delta_{1} </math> |
|
| |
|
| [[file:img1642212323899.png|300px|none|thumb|Pfaddiagramm eines Strukturgleichungsmodells]]
| | <math>X_{2}=\lambda_{x 2} * \xi_{1}+\delta_{2}</math> |
|
| |
|
| Wie in Abbildung 38 ersichtlich, müssen auch die in den Gleichungen vorkommenden Fehler- bzw. Residualvariablen eingetragen werden. Hierfür werden die griechischen Buchstaben [[File:media/image266.png]][[File:media/image266.png]] („Delta“; Fehlerterm für Indikatoren der exogenen Variablen), [[File:media/image267.png]][[File:media/image267.png]] („Epsilon“; Fehlerterm für die Indikatoren der endogenen Variablen) und [[File:media/image268.png]][[File:media/image268.png]] („Zeta“; Fehlerterm für die latenten endogenen Variablen) verwendet. [[File:media/image269.png]][[File:media/image269.png]] („Ksi“) und [[File:media/image270.png]][[File:media/image270.png]] („Eta“) stehen für die latenten Variablen selbst.
| | <math>Y_{1}=\lambda_{y 1} * \eta_{1}+\varepsilon_{1} </math> |
|
| |
|
| Aus der Darstellung der Wirkweise der Variablen zueinander folgen die resultierenden Gleichungen, die im Zuge der Analyse geschätzt werden müssen. Für das Beispiel in Abbildung 38 bedeutet das konkret:
| | <math>\eta_{1}=\gamma * \xi_{1}+\zeta</math> |
|
| |
|
| [[File:media/image271.png]]
| | Auf die übliche Notation in Matrixschreibweise wird an dieser Stelle verzichtet. Man beachte, dass in den Gleichungen lediglich <math>X_1</math>, <math>X_2</math> und <math>X_3</math> bekannt sind. Die Möglichkeit, die <math>\lambda</math>- und <math>\gamma</math>-Parameter dennoch zu schätzen ergibt sich aus der Erweiterung der einfachen Korrelation (vgl. Anzur, 2007) zur „partiellen Korrelation“. |
| | |
| [[File:media/image272.png]]
| |
| | |
| [[File:media/image273.png]]
| |
| | |
| [[File:media/image274.png]]
| |
| | |
| Auf die übliche Notation in Matrixschreibweise wird an dieser Stelle verzichtet. Man beachte, dass in den Gleichungen lediglich [[File:media/image275.png]][[File:media/image275.png]], [[File:media/image276.png]][[File:media/image276.png]] und [[File:media/image277.png]][[File:media/image277.png]] bekannt sind. Die Möglichkeit, die [[File:media/image278.png]][[File:media/image278.png]]- und [[File:media/image279.png]][[File:media/image279.png]]-Parameter dennoch zu schätzen ergibt sich aus der Erweiterung der einfachen Korrelation (vgl. Anzur, 2007) zur „partiellen Korrelation“. | |
|
| |
|
| Wichtig ist hier, nochmals zu betonen, dass die Zusammenhänge und das daraus resultierende Gleichungssystem aus intensiven sachlogischen Überlegungen zustandekommen sollen. Dies erleichtert im Anschluss an die Parameterschätzungen das Auffinden etwaiger Widersprüche. | | Wichtig ist hier, nochmals zu betonen, dass die Zusammenhänge und das daraus resultierende Gleichungssystem aus intensiven sachlogischen Überlegungen zustandekommen sollen. Dies erleichtert im Anschluss an die Parameterschätzungen das Auffinden etwaiger Widersprüche. |
Zeile 425: |
Zeile 56: |
| === Partielle Korrelation === | | === Partielle Korrelation === |
|
| |
|
| Um zu widerlegen, dass zwei Variablen, [[File:media/image280.png]][[File:media/image280.png]] und [[File:media/image281.png]][[File:media/image281.png]], vollständig kausal <ref>Vgl. dazu auch die Beispiele von Anzur (2007, S.95).</ref> miteinander in Zusammenhang stehen, muss eine Korrelation zwischen den beiden Variablen unter Ausschaltung potentieller Störvariablen berechnet werden. Im Falle einer Störvariable [[File:media/image282.png]][[File:media/image282.png]] kann dies durch Berechnung der „partiellen Korrelation zwischen [[File:media/image280.png]][[File:media/image280.png]] und [[File:media/image281.png]][[File:media/image281.png]] unter Auspartialisierung von [[File:media/image282.png]][[File:media/image282.png]]“ mittels folgender Formel erreicht werden: | | Um zu widerlegen, dass zwei Variablen, <math>X</math> und <math>Y</math>, vollständig kausal <ref>Vgl. dazu auch die Beispiele von Anzur (2007, S.95).</ref> miteinander in Zusammenhang stehen, muss eine Korrelation zwischen den beiden Variablen unter Ausschaltung potentieller Störvariablen berechnet werden. Im Falle einer Störvariable <math>Z</math> kann dies durch Berechnung der „partiellen Korrelation zwischen <math>X</math> und <math>Y</math> unter Auspartialisierung von <math>Z^{\prime \prime}</math>“ mittels folgender Formel erreicht werden: |
| | |
| | <math display="block"> |
| | r_{X Y, Z}=\frac{r_{X Y}-r_{X Z} r_{Y Z}}{\sqrt{\left(1-r_{X Z}^{2}\right) *\left(1-r_{Y Z}^{2}\right)}} |
| | </math> |
|
| |
|
| [[File:media/image283.png]]
| |
|
| |
|
| {| | | {| style="border-collapse: collapse; background-color: rgb(206, 212, 217);" |
| ! width="100%" | '''Beispiel 14''' | | ! width="100%" | '''Beispiel 14''' |
|
| |
|
| Zwischen Pro-Kopf-BIP ([[File:media/image280.png]][[File:media/image280.png]]) und Lebenserwartung ([[File:media/image281.png]][[File:media/image281.png]]) sei in verschiedenen Ländern eine Korrelation von 0,57 beobachtet worden. Bekannt sind aber auch Daten über die Bildung, beispielsweise die Analphabetenquote ([[File:media/image282.png]][[File:media/image282.png]]). Hier sei weiters bekannt [[File:media/image284.png]][[File:media/image284.png]] und [[File:media/image285.png]][[File:media/image285.png]]. Will man nun den Einfluss von [[File:media/image282.png]][[File:media/image282.png]] ausschalten, berechnet man in Wirklichkeit so etwas wie die mittlere Korrelation zwischen [[File:media/image280.png]][[File:media/image280.png]] und [[File:media/image281.png]][[File:media/image281.png]] für Gruppen von Länder, die jeweils dieselben (konstanten) <ref>Man spricht daher auch von „partieller Korrelation unter Konstanthaltung einer weiteren Variablen.</ref> Analphabetenquoten haben. Konkret ergibt sich: | | Zwischen Pro-Kopf-BIP (<math>X</math>) und Lebenserwartung ([<math>Y</math>) sei in verschiedenen Ländern eine Korrelation von 0,57 beobachtet worden. Bekannt sind aber auch Daten über die Bildung, beispielsweise die Analphabetenquote (<math>Z</math>). Hier sei weiters bekannt <math>r_{X Z}=-0,43</math> und <math>r_{Y Z}=-0,76</math>. Will man nun den Einfluss von <math>Z</math> ausschalten, berechnet man in Wirklichkeit so etwas wie die mittlere Korrelation zwischen <math>X</math> und <math>Y</math> für Gruppen von Länder, die jeweils dieselben (konstanten) <ref>Man spricht daher auch von „partieller Korrelation unter Konstanthaltung einer weiteren Variablen.</ref> Analphabetenquoten haben. Konkret ergibt sich: |
| | |
| | <math display="block"> |
| | r_{X Y . Z}=\frac{0,57-(-0,43) *(-0,76)}{\sqrt{\left(1-(-0,43)^{2}\right) *\left(1-(-0,76)^{2}\right)}}=0,41 |
| | </math> |
|
| |
|
| [[File:media/image286.png]]
| |
|
| |
|
| Der positive Zusammenhang zwischen pro-Kopf-BIP und Lebenserwartung reduziert sich bei Ausschaltung des Einflusses der Analphabetenrate und ist daher teilweise durch diese verursacht. | | Der positive Zusammenhang zwischen pro-Kopf-BIP und Lebenserwartung reduziert sich bei Ausschaltung des Einflusses der Analphabetenrate und ist daher teilweise durch diese verursacht. |
Zeile 453: |
Zeile 90: |
| <ul> | | <ul> |
| <li><p>Latente Variablen: Kaufsituation, Unternehmensgröße (exogen); Buying Center-Struktur, Geschäftsbeziehungen, Transaktionsprozess (endogen)</p></li> | | <li><p>Latente Variablen: Kaufsituation, Unternehmensgröße (exogen); Buying Center-Struktur, Geschäftsbeziehungen, Transaktionsprozess (endogen)</p></li> |
| <li><p>Indikatoren: Konjunktur, Produktwert, Größe, Technikerzahl (für die exogenen Variablen); Buying-Center-Größe, Umsatz, Aufträge, Verhandlungsdauer, Telefonkontakt (für die endogenen Variablen)</p> | | <li><p>Indikatoren: Konjunktur, Produktwert, Größe, Technikerzahl (für die exogenen Variablen); Buying-Center-Größe, Umsatz, Aufträge, Verhandlungsdauer, Telefonkontakt (für die endogenen Variablen)</p></li> |
| <ol style="list-style-type: decimal;"> | | </ul> |
| <li>== Durchführung == | |
|
| |
|
| <ol style="list-style-type: decimal;">
| | == Durchführung == |
| <li>=== Vorgehen nach Vorliegen des Pfaddiagrammes ===</li>
| | |
| </ol></li>
| | === Vorgehen nach Vorliegen des Pfaddiagrammes === |
| </ol></li>
| | |
| </ul>
| | Nach Aufstellen von Hypothesen und der Spezifikation des Modells müssen – wie bei den meisten hier vorgestellten Verfahren – Zusatzannahmen getroffen werden. Auch hier ist die Unkorreliertheit der Fehler wieder eine entscheidende Annahme, sowohl untereinander (<math>\zeta</math>, <math>\varepsilon</math> und <math>\delta</math>) als auch mit den jeweils zugehörigen latenten Variablen (<math>\zeta</math> und <math>\delta</math> mit <math>\xi</math>, sowie <math>\varepsilon</math> mit <math>\eta</math>). |
| Nach Aufstellen von Hypothesen und der Spezifikation des Modells müssen – wie bei den meisten hier vorgestellten Verfahren – Zusatzannahmen getroffen werden. Auch hier ist die Unkorreliertheit der Fehler wieder eine entscheidende Annahme, sowohl untereinander ([[File:media/image268.png]][[File:media/image268.png]], [[File:media/image267.png]][[File:media/image267.png]] und [[File:media/image266.png]][[File:media/image266.png]]) als auch mit den jeweils zugehörigen latenten Variablen ([[File:media/image268.png]][[File:media/image268.png]] und [[File:media/image266.png]][[File:media/image266.png]] mit [[File:media/image269.png]][[File:media/image269.png]], sowie [[File:media/image267.png]][[File:media/image267.png]] mit [[File:media/image270.png]][[File:media/image270.png]]). | |
|
| |
|
| Bevor nun Parameter geschätzt werden können, ist weiters erforderlich, zu untersuchen, ob das vorliegende Gleichungssystem überhaupt gelöst werden kann. Hierfür muss sichergestellt sein, dass genügend viele Indikatoren in Bezug auf die Zahl der zu schätzenden Parameter im Modell enthalten sind. Sei [[File:media/image143.png]][[File:media/image143.png]] die Anzahl der verwendeten Indikatorvariablen, so darf die Anzahl der zu schätzenden Parameter maximal [[File:media/image287.png]][[File:media/image287.png]] sein. Für das Pfaddiagramm in Abbildung 38 ergeben sich maximal [[File:media/image288.png]][[File:media/image288.png]] Parameter. Daher sind die vier Parameter eindeutig schätzbar. | | Bevor nun Parameter geschätzt werden können, ist weiters erforderlich, zu untersuchen, ob das vorliegende Gleichungssystem überhaupt gelöst werden kann. Hierfür muss sichergestellt sein, dass genügend viele Indikatoren in Bezug auf die Zahl der zu schätzenden Parameter im Modell enthalten sind. Sei <math>n</math> die Anzahl der verwendeten Indikatorvariablen, so darf die Anzahl der zu schätzenden Parameter maximal <math>\frac{n(n+1)}{2}</math> sein. Für das Pfaddiagramm in Abbildung 38 ergeben sich maximal <math>\frac{1}{2} * 3 * 4=6</math> Parameter. Daher sind die vier Parameter eindeutig schätzbar. |
|
| |
|
| Parameterschätzung | | Parameterschätzung |
|
| |
|
| Ziel ist es nun, die Parameter derart zu schätzen, dass die durch die geschätzten Parameterwerte resultierenden Kovarianzen (Korrelationen) bestmöglich zur empirischen Varianz-Kovarianz-Matrix (Korrelationsmatrix) passt. Dieses Vorgehen ist schon aus der Faktorenanalyse bekannt. Dafür, was jedoch „bestmöglich“ heißen kann, gibt es ebenfalls wieder verschiedene Vorschläge, die aber überwiegend in den wichtigsten statistischen Schätzprinzipien „Kleinste quadrierte Abweichungen“ bzw. „Maximum Likelihood“ <ref>Vgl. ein grundlegendes Statistik-Lehrbuch (z.B. Bortz, 1999, Abschnitt 3.4).</ref> resultieren. Kriterien für die Wahl des Verfahrens sind (lt. Adler, 1996, zitiert in Backhaus et al., 2003) die Annahme der multivariaten Normalverteilung der Daten, die Skaleninvarianz der Schätzfunktion, der erforderliche Stichprobenumfang und ob Inferenzstatistiken verfügbar sein sollen. | | Ziel ist es nun, die Parameter derart zu schätzen, dass die durch die geschätzten Parameterwerte resultierenden Kovarianzen (Korrelationen) bestmöglich zur empirischen Varianz-Kovarianz-Matrix (Korrelationsmatrix) passt. Dieses Vorgehen ist schon aus der Faktorenanalyse bekannt. Dafür, was jedoch „bestmöglich“ heißen kann, gibt es ebenfalls wieder verschiedene Vorschläge, die aber überwiegend in den wichtigsten statistischen Schätzprinzipien „Kleinste quadrierte Abweichungen“ bzw. „Maximum Likelihood“ <ref>Vgl. ein grundlegendes Statistik-Lehrbuch (z.B. Bortz, 1999, Abschnitt 3.4).</ref> resultieren. Kriterien für die Wahl des Verfahrens sind (lt. Adler, 1996, zitiert in Backhaus et al., 2003) die Annahme der multivariaten Normalverteilung der Daten, die Skaleninvarianz der Schätzfunktion, der erforderliche Stichprobenumfang und ob Inferenzstatistiken verfügbar sein sollen. |
|
| |
|
| Inferenzstatistische Beurteilung des geschätzten Modells | | Inferenzstatistische Beurteilung des geschätzten Modells |
Zeile 474: |
Zeile 109: |
| Hinweise, ob das geschätzte Modell die Daten gut beschreibt gibt es einige. Zuerst sollten die Schätzergebnisse auf Plausibilität überprüft werden. Korrelationen, die betragsmäßig größer als 1 sind, negative Varianzen, Koeffizienten, deren Vorzeichen umgekehrt zum postulierten Zusammenhang sind oder nicht positiv definite Korrelationsmatrizen sind einige Indikatoren, die auf eine Fehlspezifikation des Modells hinweisen. | | Hinweise, ob das geschätzte Modell die Daten gut beschreibt gibt es einige. Zuerst sollten die Schätzergebnisse auf Plausibilität überprüft werden. Korrelationen, die betragsmäßig größer als 1 sind, negative Varianzen, Koeffizienten, deren Vorzeichen umgekehrt zum postulierten Zusammenhang sind oder nicht positiv definite Korrelationsmatrizen sind einige Indikatoren, die auf eine Fehlspezifikation des Modells hinweisen. |
|
| |
|
| Ist offensichtlich keine der Minimalforderungen verletzt, kann man für dieses Setting verschiedene prototypische statistische Tests, wie beispielsweise den t-Test oder den [[File:media/image289.png]][[File:media/image289.png]]-Test (Anzur, 2007) adaptieren. Während der t-Test Hypothesen über einzelne Parameter testet ([[File:media/image290.png]][[File:media/image290.png]] versus [[File:media/image291.png]][[File:media/image291.png]]), führt der [[File:media/image289.png]][[File:media/image289.png]]-Test einen globalen Test durch ([[File:media/image292.png]][[File:media/image292.png]] „Die empirische Kovarianzmatrix entspricht dem Modell“ versus [[File:media/image293.png]][[File:media/image293.png]] „Die empirische Kovarianzmatrix entspricht nicht dem Modell“). | | Ist offensichtlich keine der Minimalforderungen verletzt, kann man für dieses Setting verschiedene prototypische statistische Tests, wie beispielsweise den t-Test oder den <math>\chi^{2}</math>-Test (Anzur, 2007) adaptieren. Während der t-Test Hypothesen über einzelne Parameter testet ([<math>H_{0}: \lambda_{i}=0 \text { versus } H_{1}: \lambda_{i} \neq 0</math>), führt der <math>\chi^{2}</math>-Test einen globalen Test durch (<math>H_{0}</math> „Die empirische Kovarianzmatrix entspricht dem Modell“ versus <math>H_{1}</math> „Die empirische Kovarianzmatrix entspricht nicht dem Modell“). |
|
| |
|
| Als Maßzahlen für die Zuverlässigkeit können außerdem noch das aus Lektion 1 bekannte Bestimmtheitsmaß (wie zuverlässig werden die latenten Variablen gemessen) sowie die paarweise Korrelationen zwischen den Parameterschätzungen angegeben werden. Falls sehr hohe Werte vorkommen, müssen einzelne Parameter entfernt werden. | | Als Maßzahlen für die Zuverlässigkeit können außerdem noch das aus Lektion 1 bekannte Bestimmtheitsmaß (wie zuverlässig werden die latenten Variablen gemessen) sowie die paarweise Korrelationen zwischen den Parameterschätzungen angegeben werden. Falls sehr hohe Werte vorkommen, müssen einzelne Parameter entfernt werden. |
Zeile 487: |
Zeile 122: |
| Zwei häufig in der Literatur genannten Softwarepakete zur Schätzung von Strukturgleichungsmodellen sind AMOS und LISREL, jedoch können derartige Analysen auch mit R durchgeführt werden. Wir werden uns nun ein kurzes Beispiel ansehen, wie ein Modelle in R spezifiziert und geschätzt werden kann. | | Zwei häufig in der Literatur genannten Softwarepakete zur Schätzung von Strukturgleichungsmodellen sind AMOS und LISREL, jedoch können derartige Analysen auch mit R durchgeführt werden. Wir werden uns nun ein kurzes Beispiel ansehen, wie ein Modelle in R spezifiziert und geschätzt werden kann. |
|
| |
|
| {| | | {| style="border-collapse: collapse; background-color: rgb(206, 212, 217);" |
| ! width="100%" | '''Beispiel 15''' | | ! style="text-align: left;" width="100%" | '''Beispiel 15''' |
|
| |
|
| Die Daten stammen aus einer Untersuchung des Einflusses von Freunden („peer group“) und Familie auf den beruflichen Ehrgeiz (Duncan, Haller und Portes, 1968). In diesem einfachen Beispiel sollen die Zusammenhangsstrukturen von sechs manifesten Variablen untersucht werden. Gemessen wurde der berufliche Ehrgeiz („occupational aspiration“) der Respondenten („R“) bzw. des besten Freundes/der besten Freundin („F“) des/der Respondenten/in. Der Index korreliert u.a. mit persönliche Erfolgsorientierung, dem Selbstkonzept zur Zielerreichung und der „Wertigkeit“ des tatsächlich realisierten Berufes. | | Die Daten stammen aus einer Untersuchung des Einflusses von Freunden („peer group“) und Familie auf den beruflichen Ehrgeiz (Duncan, Haller und Portes, 1968). In diesem einfachen Beispiel sollen die Zusammenhangsstrukturen von sechs manifesten Variablen untersucht werden. Gemessen wurde der berufliche Ehrgeiz („occupational aspiration“) der Respondenten („R“) bzw. des besten Freundes/der besten Freundin („F“) des/der Respondenten/in. Der Index korreliert u.a. mit persönliche Erfolgsorientierung, dem Selbstkonzept zur Zielerreichung und der „Wertigkeit“ des tatsächlich realisierten Berufes. |
Zeile 494: |
Zeile 129: |
| Für beide „Ehrgeiz“-Variablen gibt es je zwei erklärende Variablen, den Intelligenzquotienten („IQ“) und den sozioökonomische Status („SES“) der Familie der betreffenden Person. Folgendes Pfaddiagramm (Abbildung 40) veranschaulicht das zu spezifizierende Modell: | | Für beide „Ehrgeiz“-Variablen gibt es je zwei erklärende Variablen, den Intelligenzquotienten („IQ“) und den sozioökonomische Status („SES“) der Familie der betreffenden Person. Folgendes Pfaddiagramm (Abbildung 40) veranschaulicht das zu spezifizierende Modell: |
|
| |
|
| [[File:media/image294.png]]
| |
|
| |
| [[File:media/image295.png]]
| |
|
| |
| [[File:media/image296.png]]
| |
|
| |
| [[File:media/image297.png]][[File:media/image298.png]][[File:media/image299.png]]
| |
|
| |
| [[File:media/image300.png]]
| |
|
| |
| [[File:media/image301.png]]
| |
|
| |
|
| [[File:media/image302.png]]
| |
|
| |
|
| <span id="_Toc249868226" class="anchor"></span> | | <span id="_Toc249868226" class="anchor"></span> |
Zeile 516: |
Zeile 139: |
| Für das Modell ergeben sich folgende Gleichungen: | | Für das Modell ergeben sich folgende Gleichungen: |
|
| |
|
| [[File:media/image303.png]]
| | <math display="block"> |
| | \text { ROccAsp }=\lambda_{51} * R I Q+\lambda_{52} * R S E S+\gamma_{56} * \text { FOccAsp }+\varepsilon_{7} |
| | </math> |
| | <math display="block"> |
| | \text { FOccAsp }=\lambda_{63} * \text { FIQ }+\lambda_{64} * \text { FSES }+\gamma_{65} * \text { ROccAsp }+\varepsilon_{8} |
| | </math> |
|
| |
|
| [[File:media/image304.png]]
| |
|
| |
|
| Ziel ist nun, die Koeffizienten dieser Gleichungen zu schätzen. In R kann das Modell mithilfe des Paketes „sem“ (structural bzw. simultaneous equation modeling) eingegeben werden. Abbildung 41 zeigt, wie die Matrix der Korrelationen als untere Dreiecksmatrix in R selbst eingegeben werden kann und wie anschließend das Modell spezifiziert wird. Alle Wirkungen in den Gleichungen müssen zeilenweise eingegeben werden, sowie der Name des Koeffizienten und – falls verfügbar – ein Startwert. | | Ziel ist nun, die Koeffizienten dieser Gleichungen zu schätzen. In R kann das Modell mithilfe des Paketes „sem“ (structural bzw. simultaneous equation modeling) eingegeben werden. Abbildung 41 zeigt, wie die Matrix der Korrelationen als untere Dreiecksmatrix in R selbst eingegeben werden kann und wie anschließend das Modell spezifiziert wird. Alle Wirkungen in den Gleichungen müssen zeilenweise eingegeben werden, sowie der Name des Koeffizienten und – falls verfügbar – ein Startwert. |
Zeile 529: |
Zeile 156: |
|
| |
|
| * '''sem.DHP.1 <- sem(model.DHP.1, R.DHP, 329,fixed.x=c('RIQ', 'RSES', 'FSES', 'FIQ'))''' | | * '''sem.DHP.1 <- sem(model.DHP.1, R.DHP, 329,fixed.x=c('RIQ', 'RSES', 'FSES', 'FIQ'))''' |
| Die Zusammenfassung des Modells erscheint mittels der generischen Funktion „summary“ (Abbildung 42). Diese kann auf die verschiedensten R-Objekte angewandt werden. Ausgegeben werden zunächst die gängigen globalen Fit-Statistiken. Der oben erwähnte [[File:media/image289.png]][[File:media/image289.png]]-Test erzielt einen p-Wert von 0,245. Dieser ist größer als der übliche [[File:media/image65.png]][[File:media/image65.png]]-Fehler von 0,05 und damit entscheidet der Test für die Nullhypothese, dass die Varianz-Kovarianz-Matrix der Daten durch das Modell adäquat abgebildet wird. | | Die Zusammenfassung des Modells erscheint mittels der generischen Funktion „summary“ (Abbildung 42). Diese kann auf die verschiedensten R-Objekte angewandt werden. Ausgegeben werden zunächst die gängigen globalen Fit-Statistiken. Der oben erwähnte <math>\chi^{2}</math>-Test erzielt einen p-Wert von 0,245. Dieser ist größer als der übliche <math>\alpha</math>-Fehler von 0,05 und damit entscheidet der Test für die Nullhypothese, dass die Varianz-Kovarianz-Matrix der Daten durch das Modell adäquat abgebildet wird. |
|
| |
|
| Unterhalb stehen die t-Tests für jeden einzelnen Koeffizienten. Die p-Werte sind allesamt kleiner als 0,05, daher sind alle Koeffizienten signifikant von Null verschieden. | | Unterhalb stehen die t-Tests für jeden einzelnen Koeffizienten. Die p-Werte sind allesamt kleiner als 0,05, daher sind alle Koeffizienten signifikant von Null verschieden. |
Zeile 535: |
Zeile 162: |
| Die geschätzten Gleichungen lauten: | | Die geschätzten Gleichungen lauten: |
|
| |
|
| [[File:media/image306.png]]
| | <math display="block"> |
| | R O C C A s p=0,24 * R I Q+0,18 * R S E S+0,40 * F O C C A s p+\varepsilon_{7} |
| | </math> |
| | <math display="block"> |
| | F O C C A s p=0,22 * F I Q+0,31 * F S E S+0,42 * R O C C A s p+\varepsilon_{8} |
| | </math> |
|
| |
|
| [[File:media/image307.png]]
| |
|
| |
|
| Als Varianzschätzungen ergeben sich: [[File:media/image308.png]][[File:media/image308.png]] und [[File:media/image309.png]][[File:media/image309.png]] | | Als Varianzschätzungen ergeben sich: <math>\sigma_{7}^{2}=0,79</math> und <math>\sigma_{8}^{2}=0,72</math> |
|
| |
|
| Als Kovarianzschätzung für die Fehlerterme ergibt sich:[[File:media/image310.png]][[File:media/image310.png]] | | Als Kovarianzschätzung für die Fehlerterme ergibt sich: <math>\sigma_{78}=-0,50</math> |
|
| |
|
| [[file:img1642238453677.png|300px|none|thumb|SEM-Analyse in R- Teil 2]] | | [[file:img1642238453677.png|300px|none|thumb|SEM-Analyse in R- Teil 2]] |
Strukturgleichungsmodelle
Die abschließende Lektion dient vor allem als Ausblick, wie die bestehenden Verfahren kombiniert bzw. erweitert werden können. Dies geschieht in der Theorie hinter Strukturgleichungsmodellen. Die Basiskomponenten und deren Darstellung, sowie eine überblicksartige Beschreibung des Prozesses vom Aufstellen von Hypothesen bis zur Schätzung des gewählten Modells sind Kernpunkt und Ziel dieser letzten Lektion.
Einführung und Begriffsabgrenzung
Die Strukturgleichungsmodelle stellen eine Kombination zweier in diesem Skriptum behandelter Verfahren dar. Wie in der Faktorenanalyse soll hier eine Korrelationsstruktur von manifesten Variablen durch latente Faktoren erklärt werden. Weiters sollen aber die Beziehungen zwischen verschiedenen latenten Faktoren durch regressionsanalytische Methoden festgestellt werden. Das ist hier gewissermaßen die Besonderheit. Wichtig ist dabei, dass die Art des kausalen Zusammenhanges identifiziert wird. Daher werden derartige Methoden auch als Kausalanalyse bezeichnet. Andere Bezeichnungen sind „Kovarianzstrukturanalyse“ oder auch Pfadanalyse, wobei letztere ein Spezialfall ist, da dort nur manifeste Variablen („Indikatoren“) im Kausalmodell zugelassen sind. Daher steht die Pfadanalyse auch der schon besprochenen Regressionsanalyse näher. Die „Latent Structure Analyse“ – ein ebenfalls verwandter Begriff – ist hingegen eine übergeordnete Bezeichnung für Verfahren, die auch diskrete, ordinale oder sogar dichotome Variablen zulassen.
Die Feststellung der Kausalität ist wichtig, da eine hohe Korrelation nur für „immer wenn, dann“ und nicht notwendig für „deswegen, weil“ steht. Mögliche Entsprechungen einer hohen Korrelation zwischen zwei Variablen X und Y können sein (vgl. Bortz, 1999, S. 226):
- X beeinflusst Y kausal
- Y beeinflusst X kausal
- X und Y werden von einer dritten Variable kausal beeinflusst
- X und Y beeinflussen sich wechselseitig kausal
Im Rahmen von Strukturgleichungsmodellen wird die Faktorenanalyse konfirmatorisch (im Gegensatz zur exploratorischen FA in Lektion 5) durchgeführt, d.h. es wird bereits konkret unterstellt von welchen latenten Variablen die manifesten abhängen. Mehr als bei anderen Verfahren ist der Anwender hier – auch in Hinblick auf Identifizierbarkeit und Eindeutigkeit der Schätzungen – gefordert, sich zu überlegen, welcher Art die Zusammenhänge sein könnten. Es fließen hier sehr viele unbekannte Größen in die Modellierung ein.
In der folgenden Darstellung geht es weniger um den komplexen mathematischen Hintergrund der Methode – dies würde den Rahmen deutlich sprengen – sondern um die Vorstellung der Idee dahinter.
Grundlagen und Beispiele
Modelldarstellung, Terminologie und Notation
Die Datengrundlage für die Analyse mittels Strukturgleichungsmodellen sind wie in der Faktorenanalyse Kovarianzen bzw. Korrelationen zwischen den beobachtbaren Variablen. Output des Verfahrens sind wieder Modellparameter, zu denen in diesem Fall auch Signifikanzen berechnet werden können. Es kann also (wie übrigens auch bei der Regression) statistisch getestet werden, welche Parameter überzufällig von Null verschieden sind. Das Modell gilt dann als durch die Daten “bestätigt”, wenn sich die Korrelationen durch die Modellparameter (direkte oder indirekte Pfadkoeffizienten) rekonstruieren lässt.
Die Modelle werden üblicherweise in Pfaddiagrammen dargestellt, wobei die Variablen als Knoten und die Wirkungen zwischen den Variablen als Kanten eingezeichnet werden. Manifeste Variablen („Indikatoren“) werden oft als Rechtecke und latente Variablen („Faktoren“) als Ellipsen gezeichnet. Abbildung 37 zeigt die Regressionsanalyse und die Faktorenanalyse als solches Pfaddiagramm. Für jeden Pfeil wird in den Verfahren ein Parameter geschätzt.
Pfaddiagramm einer einfachen Regression (links) und einer Faktorenanalyse (rechts)
Die Erweiterung der Regressions- und Faktorenanalyse zu allgemeinen Strukturgleichungsmodellen besteht nun darin, dass Wirkungen zwischen latenten Variablen untersucht werden können, also auch „Pfeile zwischen Ellipsen“ zugelassen werden. Beispielsweise könnte man daran interessiert sein, inwiefern die Einstellung zu einem Produkt das Kaufverhalten beeinflusst. Die latente Variable „Einstellung zum Produkt“ kann durch verschiedene psychologische Einstellungsskalen z.B. mittels Fragebogen (manifest) erhoben werden, das Kaufverhalten womöglich am ehesten durch die Zahl der Käufe (manifest). Abbildung 38 zeigt das Pfaddiagramm eines solchen Modells (Backhaus et al., 2003).
Die dort dargestellte Struktur ist prototypisch für die Darstellung von Strukturgleichungsmodellen. Die Komponenten sind einerseits die Messmodelle der latenten Variablen. In ihnen wird spezifiziert, in welcher Form die entscheidenden latenten Variablen von den manifesten abhängen, also wie das, was von Interesse ist, gemessen wird. Es werden die latent endogenen Variablen (Zielvariablen, erklärten Variablen) und die latent exogenen Variablen (erklärenden Variablen) unterschieden. Die zweite Komponente ist das Strukturmodell, das angibt, wie die latenten Variablen untereinander zusammenhängen. Im vorliegenden Fall ist die Einstellung die verursachende Variable und das Kaufverhalten die davon abhängige Variable. Ein vollständiges Strukturgleichungsmodell besteht immer aus einem Strukturmodell und zwei Messmodellen.
Pfaddiagramm eines Strukturgleichungsmodells
Wie in Abbildung 38 ersichtlich, müssen auch die in den Gleichungen vorkommenden Fehler- bzw. Residualvariablen eingetragen werden. Hierfür werden die griechischen Buchstaben
(„Delta“; Fehlerterm für Indikatoren der exogenen Variablen),
(„Epsilon“; Fehlerterm für die Indikatoren der endogenen Variablen) und
(„Zeta“; Fehlerterm für die latenten endogenen Variablen) verwendet.
(„Ksi“) und
(„Eta“) stehen für die latenten Variablen selbst.
Aus der Darstellung der Wirkweise der Variablen zueinander folgen die resultierenden Gleichungen, die im Zuge der Analyse geschätzt werden müssen. Für das Beispiel in Abbildung 38 bedeutet das konkret:
Auf die übliche Notation in Matrixschreibweise wird an dieser Stelle verzichtet. Man beachte, dass in den Gleichungen lediglich
,
und
bekannt sind. Die Möglichkeit, die
- und
-Parameter dennoch zu schätzen ergibt sich aus der Erweiterung der einfachen Korrelation (vgl. Anzur, 2007) zur „partiellen Korrelation“.
Wichtig ist hier, nochmals zu betonen, dass die Zusammenhänge und das daraus resultierende Gleichungssystem aus intensiven sachlogischen Überlegungen zustandekommen sollen. Dies erleichtert im Anschluss an die Parameterschätzungen das Auffinden etwaiger Widersprüche.
Partielle Korrelation
Um zu widerlegen, dass zwei Variablen,
und
, vollständig kausal [1] miteinander in Zusammenhang stehen, muss eine Korrelation zwischen den beiden Variablen unter Ausschaltung potentieller Störvariablen berechnet werden. Im Falle einer Störvariable
kann dies durch Berechnung der „partiellen Korrelation zwischen
und
unter Auspartialisierung von
“ mittels folgender Formel erreicht werden:

Beispiel 14
Zwischen Pro-Kopf-BIP ( ) und Lebenserwartung ([ ) sei in verschiedenen Ländern eine Korrelation von 0,57 beobachtet worden. Bekannt sind aber auch Daten über die Bildung, beispielsweise die Analphabetenquote ( ). Hier sei weiters bekannt und . Will man nun den Einfluss von ausschalten, berechnet man in Wirklichkeit so etwas wie die mittlere Korrelation zwischen und für Gruppen von Länder, die jeweils dieselben (konstanten) [2] Analphabetenquoten haben. Konkret ergibt sich:

Der positive Zusammenhang zwischen pro-Kopf-BIP und Lebenserwartung reduziert sich bei Ausschaltung des Einflusses der Analphabetenrate und ist daher teilweise durch diese verursacht.
|
Das Konzept der partiellen Korrelation kann für beliebig viele auszuschaltende Variablen verallgemeinert werden.
Beispielfragestellungen
Nachdem nun das Grundprinzip und die Bauart von Strukturgleichungsmodellen skizziert wurde, sollen nun einige Beispiele deren Einsatz zeigen:
- Welche Auswirkung haben Familie und Schule auf die Schulleistung eines Kindes?
- Latente Variablen: Familie und Schule (exogen); Schulleistung (endogen)
- Indikatoren: Beruf und Schulbildung der Eltern, Ausmaß an Nachhilfe, Ausbildungsniveau des Lehrers, Wissenstest, Interessentest
- Inwieweit nehmen Rollenunsicherheit und Arbeitsmotivation eines Verkäufers Einfluss auf seine Selbstwertschätzung, seine Berufszufriedenheit und den erzielten Umsatz?
- Latente Variablen: Rollenverständnis und Arbeitsmotivation (exogen); Selbstwertschätzung, Berufszufriedenheit und Leistung (endogen)
- Indikatoren: Verschiedene Messmodelle, Umsatz
- Wie beeinflussen bestimmte Rahmenbedingungen das Interaktionsverhalten bei Verhandlungsprozessen im Investitionsgüter-Marketing?
Latente Variablen: Kaufsituation, Unternehmensgröße (exogen); Buying Center-Struktur, Geschäftsbeziehungen, Transaktionsprozess (endogen)
Indikatoren: Konjunktur, Produktwert, Größe, Technikerzahl (für die exogenen Variablen); Buying-Center-Größe, Umsatz, Aufträge, Verhandlungsdauer, Telefonkontakt (für die endogenen Variablen)
Durchführung
Vorgehen nach Vorliegen des Pfaddiagrammes
Nach Aufstellen von Hypothesen und der Spezifikation des Modells müssen – wie bei den meisten hier vorgestellten Verfahren – Zusatzannahmen getroffen werden. Auch hier ist die Unkorreliertheit der Fehler wieder eine entscheidende Annahme, sowohl untereinander (
,
und
) als auch mit den jeweils zugehörigen latenten Variablen (
und
mit
, sowie
mit
).
Bevor nun Parameter geschätzt werden können, ist weiters erforderlich, zu untersuchen, ob das vorliegende Gleichungssystem überhaupt gelöst werden kann. Hierfür muss sichergestellt sein, dass genügend viele Indikatoren in Bezug auf die Zahl der zu schätzenden Parameter im Modell enthalten sind. Sei
die Anzahl der verwendeten Indikatorvariablen, so darf die Anzahl der zu schätzenden Parameter maximal
sein. Für das Pfaddiagramm in Abbildung 38 ergeben sich maximal
Parameter. Daher sind die vier Parameter eindeutig schätzbar.
Parameterschätzung
Ziel ist es nun, die Parameter derart zu schätzen, dass die durch die geschätzten Parameterwerte resultierenden Kovarianzen (Korrelationen) bestmöglich zur empirischen Varianz-Kovarianz-Matrix (Korrelationsmatrix) passt. Dieses Vorgehen ist schon aus der Faktorenanalyse bekannt. Dafür, was jedoch „bestmöglich“ heißen kann, gibt es ebenfalls wieder verschiedene Vorschläge, die aber überwiegend in den wichtigsten statistischen Schätzprinzipien „Kleinste quadrierte Abweichungen“ bzw. „Maximum Likelihood“ [3] resultieren. Kriterien für die Wahl des Verfahrens sind (lt. Adler, 1996, zitiert in Backhaus et al., 2003) die Annahme der multivariaten Normalverteilung der Daten, die Skaleninvarianz der Schätzfunktion, der erforderliche Stichprobenumfang und ob Inferenzstatistiken verfügbar sein sollen.
Inferenzstatistische Beurteilung des geschätzten Modells
Hinweise, ob das geschätzte Modell die Daten gut beschreibt gibt es einige. Zuerst sollten die Schätzergebnisse auf Plausibilität überprüft werden. Korrelationen, die betragsmäßig größer als 1 sind, negative Varianzen, Koeffizienten, deren Vorzeichen umgekehrt zum postulierten Zusammenhang sind oder nicht positiv definite Korrelationsmatrizen sind einige Indikatoren, die auf eine Fehlspezifikation des Modells hinweisen.
Ist offensichtlich keine der Minimalforderungen verletzt, kann man für dieses Setting verschiedene prototypische statistische Tests, wie beispielsweise den t-Test oder den
-Test (Anzur, 2007) adaptieren. Während der t-Test Hypothesen über einzelne Parameter testet ([
), führt der
-Test einen globalen Test durch (
„Die empirische Kovarianzmatrix entspricht dem Modell“ versus
„Die empirische Kovarianzmatrix entspricht nicht dem Modell“).
Als Maßzahlen für die Zuverlässigkeit können außerdem noch das aus Lektion 1 bekannte Bestimmtheitsmaß (wie zuverlässig werden die latenten Variablen gemessen) sowie die paarweise Korrelationen zwischen den Parameterschätzungen angegeben werden. Falls sehr hohe Werte vorkommen, müssen einzelne Parameter entfernt werden.
All diese Prüfungen (und einige mehr) bestimmen letztendlich, ob das gewählte Modell die Daten und damit den Sachverhalt gut erklärt. Abschließend sei hier nun nochmals der Gesamtablauf während der Analyse mit Strukturgleichungsmodellen schematisch dargestellt (Reinecke, 2005, S. 11):
Ablauf der Analyse von Strukturgleichungsmodellen
Strukturgleichungsmodelle in R
Zwei häufig in der Literatur genannten Softwarepakete zur Schätzung von Strukturgleichungsmodellen sind AMOS und LISREL, jedoch können derartige Analysen auch mit R durchgeführt werden. Wir werden uns nun ein kurzes Beispiel ansehen, wie ein Modelle in R spezifiziert und geschätzt werden kann.
Beispiel 15
Die Daten stammen aus einer Untersuchung des Einflusses von Freunden („peer group“) und Familie auf den beruflichen Ehrgeiz (Duncan, Haller und Portes, 1968). In diesem einfachen Beispiel sollen die Zusammenhangsstrukturen von sechs manifesten Variablen untersucht werden. Gemessen wurde der berufliche Ehrgeiz („occupational aspiration“) der Respondenten („R“) bzw. des besten Freundes/der besten Freundin („F“) des/der Respondenten/in. Der Index korreliert u.a. mit persönliche Erfolgsorientierung, dem Selbstkonzept zur Zielerreichung und der „Wertigkeit“ des tatsächlich realisierten Berufes.
Für beide „Ehrgeiz“-Variablen gibt es je zwei erklärende Variablen, den Intelligenzquotienten („IQ“) und den sozioökonomische Status („SES“) der Familie der betreffenden Person. Folgendes Pfaddiagramm (Abbildung 40) veranschaulicht das zu spezifizierende Modell:
'
.
Für das Modell ergeben sich folgende Gleichungen:


Ziel ist nun, die Koeffizienten dieser Gleichungen zu schätzen. In R kann das Modell mithilfe des Paketes „sem“ (structural bzw. simultaneous equation modeling) eingegeben werden. Abbildung 41 zeigt, wie die Matrix der Korrelationen als untere Dreiecksmatrix in R selbst eingegeben werden kann und wie anschließend das Modell spezifiziert wird. Alle Wirkungen in den Gleichungen müssen zeilenweise eingegeben werden, sowie der Name des Koeffizienten und – falls verfügbar – ein Startwert.
Die Berechnung der Parameter erfolgt hernach durch die Funktion „sem“, die als Input das spezifizierte Modell, den Stichprobenumfang (zur Bestimmung von Signifikanzen) und die Information, welches die manifesten exogenen Variablen sind, verlangt. Für sie müssen keine Varianzen und Kovarianzen spezifiziert werden.
Das Ergebnis wird dem Objekt „sem.DHP.1“ zugewiesen:
- sem.DHP.1 <- sem(model.DHP.1, R.DHP, 329,fixed.x=c('RIQ', 'RSES', 'FSES', 'FIQ'))
Die Zusammenfassung des Modells erscheint mittels der generischen Funktion „summary“ (Abbildung 42). Diese kann auf die verschiedensten R-Objekte angewandt werden. Ausgegeben werden zunächst die gängigen globalen Fit-Statistiken. Der oben erwähnte -Test erzielt einen p-Wert von 0,245. Dieser ist größer als der übliche -Fehler von 0,05 und damit entscheidet der Test für die Nullhypothese, dass die Varianz-Kovarianz-Matrix der Daten durch das Modell adäquat abgebildet wird.
Unterhalb stehen die t-Tests für jeden einzelnen Koeffizienten. Die p-Werte sind allesamt kleiner als 0,05, daher sind alle Koeffizienten signifikant von Null verschieden.
Die geschätzten Gleichungen lauten:


Als Varianzschätzungen ergeben sich: und
Als Kovarianzschätzung für die Fehlerterme ergibt sich:
|
Wiederholungsaufgaben und Zusammenfassung
- Wiederholen Sie die Schritte bei der Analyse eines Strukturgleichungsmodells
- Was ist ein Messmodell? Was ein Strukturmodell?
- Zeigen Sie anhand der Bedingung für die maximale Parameteranzahl, dass das Beispiel 15 lösbar ist.
Zusammenfassung
In der statistischen Analyse mittels Strukturgleichungsmodellen (SEM) steht wie in keinem anderen der in diesem Studienheft vorgestellten Verfahren die Bildung von Hypothesen über die Wirkzusammenhänge zwischen manifesten und latenten Variablen im Vordergrund. Dieses konfirmatorische Vorgehen unterscheidet sich wesentlich von der (explorativen) Faktorenanalyse, die sich „blind“ auf die Daten stürzt. Es können komplexe Abhängigkeitsstrukturen unterstellt werden und durch ein Pfaddiagramm beschrieben werden. Dies enthält im Allgemeinen sowohl Messmodelle für latente Variablen, als auch ein Strukturmodell für den Zusammenhang zwischen latenten Variablen. Für die Lösbarkeit des dadurch entstehenden Gleichungssystems ist es von Bedeutung, dass – bezogen auf die Zahl der zu schätzenden Parameter – genügend Daten in Form von Kovarianzen zwischen beobachtbaren Merkmalen verfügbar sind. Geschätzt werden die Gleichungssysteme dann mit der in der Statistik üblichen Methode der Kleinsten-Quadrate- bzw. der Maximum-Likelihood-Schätzung. Wesentlicher Unterschied zur Faktorenanalyse ist auch, dass Hypothesen über die geschätzten Parameter getestet werden können.
- ↑ Vgl. dazu auch die Beispiele von Anzur (2007, S.95).
- ↑ Man spricht daher auch von „partieller Korrelation unter Konstanthaltung einer weiteren Variablen.
- ↑ Vgl. ein grundlegendes Statistik-Lehrbuch (z.B. Bortz, 1999, Abschnitt 3.4).