Methoden der Datenanalyse - Varianzanalyse
Modell der zweifachen Varianzanalyse für unabhängige Stichproben
Bei Vorliegen eines zweiten Faktors erweitert sich das einfaktorielle Modell zu
wobei die Werte der metrischen Variable sind (-ter Wert bei Preispolitik und Kommunikationsstrategie ), [ der unbedingte Erwartungswert (ohne Kenntnis der Gruppe), der Effekt der jeweiligen Preispolitik, der Effekt der jeweiligen Kommunikationsstrategie, jener Effekt ist, der sich aus der Kombination der Preispolitik mit der Kommunikationsstrategie zusätzlich ergeben könnte und der durch die drei Effektgruppen nicht erklärte Teil der abhängigen Variable ist. Die Annahmen für sind analog zum einfaktoriellen Modell.
Es kommen bei zwei erklärenden Faktoren also nicht zwei sondern drei Parametergruppen vor, weil es möglich ist, dass Kombinationen von Effekten andere Mittelwerte in der abhängigen Variable liefern. Dies wird im weiteren Verlauf der Analyse klarer.
Schätzen und Testen bei der zweifachen Varianzanalyse
Wie bei der einfachen Varianzanalyse können die einzelnen „Anteile“ an der Messung nun geschätzt werden.
Schätzung der durchschnittlichen Kaufmenge durch
Schätzung des Effekts der Preispolitik i, , durch
Schätzung des Effekts der Kommunikationsstrategie j, , durch
Schätzung des Interaktionseffektes (Preispolitik vs. Kommunikationsstrategie) durch
Schätzung des Fehlers durch das Residuum
Aufgabe 9
Berechnen Sie die Schätzungen für |
---|
Ob die in Aufgabe 9 berechneten deskriptiven Effekte signifikant sind, kann wieder analog obiger Vorgehensweise berechnet werden. Geprüft werden können nun drei Hypothesenpaare:
Interaktionen () bzw. keine Interaktionen () zwischen Preispolitik und Komm.-Strategie in Bezug auf den Absatz.
Für jede Hypothese kann nun wieder eine Quadratsumme, eine daraus abgeleitete, unter H0 F-verteilte Prüfgröße , sowie zur Bestimmung der Signifikanz ein p-Wert berechnet werden.
Fortsetzung Beispiel 3
In R wird das lineare Modell nun so spezifiziert:
Man erhält dann folgende Tabelle (Abbildung 14): Alle p-Werte (Spalte rechts) sind kleiner als 5%. Daher wird in allen drei Fällen die Nullhypothese verworfen. Das Ergebnis ist (in Zusammenhang mit Aufgabe 9):
Die einzelnen Effekte (jene, die ausreichen, um das lineare Modell vollständig zu schätzen) können auch wieder mittels „lm1$coefficients“ ausgegeben werden. Folgender Befehl visualisiert diese Zusammenhänge schließlich noch in einem einfachen Liniendiagramm der Mittelwerte:
|
---|
Ist ein balanciertes Design vorhanden (wie im Beispiel), macht es keinen Unterschied, in welcher Reihenfolge die Faktoren in die Gleichung eingegeben werden. Bei unbalancierten Designs ist die Interpretation der Signifikanzen schwieriger, da die Reihenfolge, in der die einzelnen Faktoren in die Gleichung eingehen, entscheidend ist.
Weitere Beispiele für varianzanalytische Designs
Varianzanalyse bei abhängigen Stichproben
Einfache Varianzanalyse für abhängige Stichproben
Wie beim t-Test für abhängige Stichproben kann auch eine Varianzanalyse für abhängige Stichproben berechnet werden. Beispielsweise, wenn Messung von Personen zu drei oder mehr Zeitpunkten vorliegen. In diesem Design können zwei Effekte geprüft werden: Unterschiede in der Versuchsbedingung (hier: Messzeitpunkt) und Unterschiede in den Versuchseinheiten (hier Personen).
Zweifache Varianzanalyse mit Messwiederholung
Hier können die Daten zum Beispiel zwei Gruppen von Personen (z.B. Männer und Frauen) sein, an denen je drei Messungen durchgeführt werden.
Unvollständige varianzanalytische Designs
Wenn nicht in allen Faktorkombinationen Daten erhoben werden, heißt das varianzanalytische Design „unvollständig“. Im folgenden werden zwei Beispiele für unvollständige Designs erwähnt.
Hierarchisches Design
Ein hierarchisches Design könnte sich beispielsweise dann ergeben, wenn man an der Wirkung eines Medikamentes, sowie am Behandlungserfolg verschiedener Spitäler interessiert ist. Sollen acht Medikamente und zwei Spitäler untersucht werden, ergibt sich ein Versuchsplan mit 2*8=12 Faktorkombinationen. Falls nun die Medikamente 1-4 nur in Spital 1 verwendet werden und die Medikamente 5-8 nur in Spital 2, dann können nicht wie in Beispiel 3 auch Wechselwirkungen auf Signifikanz getestet werden. Man sagt, dass der Faktor Medikament im Faktor Spital geschachtelt ist (auch „nested“). Dementsprechend müssen die Formeln der zweifaktoriellen ANOVA im vollständigen Design adaptiert werden.
Lateinisches Quadrat
Ein unvollständiges Design, das nicht durch mangelnde Verfügbarkeit der Daten, sondern vom Versuchsplaner selbst erzeugt wird, ist das „lateinische Quadrat“. Als Beispiel sei eine dreifaktorielle Varianzanalyse mit je drei Faktorstufen gegeben. Bei 10 Versuchseinheiten in jeder Kombination müsste man insgesamt 3*3*3*n Versuchseinheiten zur Verfügung haben. Stattdessen wird das Design auf z.B. 3*3 Faktorkombinationen gekürzt, sodass allerdings immer noch jede Faktorstufe und jede Kombination aus zwei Faktorstufen gleich oft vorkommt (Tabelle 1 und Tabelle 2). Der Vorteil dieses Designs liegt in der Kostenersparnis der Erhebung. Der Nachteil ist, dass nicht alle Hypothesen des vollständigen Designs prüfbar sind. Ist man ohnehin nur an den Einzelwirkungen der drei Faktoren und nicht an Interaktionen interessiert, fällt dieser Nachteil weg.
Tabelle 1: Übersicht über die gewählten Faktorkombinationen bei einer Kürzung
auf ein lateinisches Quadrat. Die Marker (X) geben an, welche Kombinationen tatsächlich gewählt werden
B1 | B2 | B3 | |||||||
---|---|---|---|---|---|---|---|---|---|
|
C1 | C2 | C3 | C1 | C2 | C3 | C1 | C2 | C3 |
A1 | X |
|
|
|
|
X |
|
X |
|
A2 |
|
X |
|
X |
|
|
|
|
X |
A3 |
|
|
X |
|
X |
|
X |
|
|
Tabelle 2: Lateinisches Quadrat aus Tabelle 1 in Kurzschreibweise
C1 | C2 | C3 | |
---|---|---|---|
A1 | B1 | B3 | B2 |
A2 | B2 | B1 | B3 |
A3 | B3 | B2 | B1 |
Wiederholungsaufgaben und Zusammenfassung
- Welche Bedeutung kommt der Quadratsummenzerlegung in der Varianzanalyse zu?
- Warum ist es wichtig, dass die Fehler normalverteilt sind?
- Sie erhalten bei einer einfaktoriellen Varianzanalyse mit ein signifikantes Ergebnis. Wäre das Ergebnis auch signifikant, wenn Sie
- einen gleichgroßen Effekt (gleich große Mittelwertsdifferenzen) bei einem doppelt so großen Stichprobenumfang beobachten würden?
- einen gleichgroßen Effekt (gleich große Mittelwertsdifferenzen) bei einem halb so großen Stichprobenumfang beobachten würden?
- auf testen?
Wie verändert sich der kritische Wert der F-Verteilung bei der Varianzanalyse, wenn von 5% auf 1% gesenkt wird?
Zusammenfassung
Der Begriff „Varianzanalyse“ steht für eine große Zahl an Verfahren, bei denen mithilfe der Berechnung von Varianzen bzw. Quadratsummen inferenzstatistische Aussagen über Beziehungen verschiedener Variablen gemacht werden können („Quadratsummenzerlegung“). Dabei ist die Modellvorstellung immer, dass es eine oder mehrere gruppierende Variablen gibt, die auf eine metrische Variable einwirken (univariate ANOVA). Die Gruppeneinteilung kann „randomisiert“ erfolgen (indem die Versuchseinheiten zu verschiedenen Gruppen zugeordnet werden “Experiment“; Kausalschluss möglich) oder schon vorgegeben sein („Kranke vs. Gesunde“, „Männer vs. Frauen“, „Raucher vs. Nichtraucher“ „Beobachtungsstudie“; Kausalschluss nicht möglich).
Die Rechenschritte im Zuge einer Varianzanalyse betreffen einerseits die Parameterschätzungen des Modells welche auf die Berechnung von Gruppenmittelwerten und deren Differenzen hinauslaufen. Andererseits geschieht die Beurteilung, ob die in der Stichprobe gefundenen Unterschiede für die Grundgesmtheit verallgemeinert werden können, erst jeweils mittels des F-Tests, mittels Verteilungsannahmen, die sich aus der Forderung von normalverteilten Daten ableiten. Grundsätzlich gilt, dass soviele Hypothesen wie Effektgruppen vorhanden sind, getestet werden können.
Die Ergebnisse der Hypothesenprüfung werden jeweils in einer „Tafel der Varianzanalyse“ übersichtlich zusammengefasst.