Methoden der Datenanalyse - Varianzanalyse: Unterschied zwischen den Versionen

Aus FernFH MediaWiki
Zur Navigation springen Zur Suche springen
Markierung: Zurückgesetzt
Markierung: Zurückgesetzt
Zeile 12: Zeile 12:
Die Gesamtvariabilität der Daten QT kann also in zwei additive Teile gespalten werden. Dadurch bietet sich als weitere deskriptive Größe analog zur Regressions­analyse das Bestimmtheitsmaß an, welches als Quotient aus QZ und QT berechnet wird und wieder den Anteil an der durch das Modell erklärten Varianz an der Zielgröße angibt.
Die Gesamtvariabilität der Daten QT kann also in zwei additive Teile gespalten werden. Dadurch bietet sich als weitere deskriptive Größe analog zur Regressions­analyse das Bestimmtheitsmaß an, welches als Quotient aus QZ und QT berechnet wird und wieder den Anteil an der durch das Modell erklärten Varianz an der Zielgröße angibt.


{|
! width="100%" | '''Aufgabe 4'''
Denken Sie sich zwei Datensätze aus (je drei Gruppen mit je fünf Beobachtungen pro Gruppe). Einen, bei dem das Bestimmtheitsmaß 100% beträgt und einen, bei dem das Bestimmtheitsmaß 0% beträgt. Welche Charakteristik haben die Daten jeweils.
|}
[[file:img1642169593358.png|300px|none|thumb|Vier Datenreihen mit je zwei Gruppen,<br class="mwt-preserveHtml" data-mwt-sameline="true" data-mwt-spaces="" /><span class="mwt-placeHolder mwt-singleLinebreak mwt-slbltr mwt-hidePlaceholder" title="Non-displayed single linebreak" contenteditable="false" draggable="true"> </span>die gut bzw. schlecht getrennt werden können]]


Um nun inferenzstatistische Aussagen zu machen, wird nun die Quadratsumme „Zwischen“ nicht zur totalen Quadratsumme, sondern zur Quadratsumme „Innerhalb“ in Beziehung gesetzt. Dies liefert auch dann die Prüfgröße F <ref>Die Prüfgröße F bzw. die Prüfverteilung ist benannt nach Sir Ronald A. Fisher, der erstmals im Jahre 1935 mit Erscheinen seines Buches „The Design of Experiments“ eine ausführliche Darstellung von Varianzanalyse und Versuchsplanung veröffentlichte (Hartung, 1998, S.12).</ref>  für unsere Hypothese:
Um nun inferenzstatistische Aussagen zu machen, wird nun die Quadratsumme „Zwischen“ nicht zur totalen Quadratsumme, sondern zur Quadratsumme „Innerhalb“ in Beziehung gesetzt. Dies liefert auch dann die Prüfgröße F <ref>Die Prüfgröße F bzw. die Prüfverteilung ist benannt nach Sir Ronald A. Fisher, der erstmals im Jahre 1935 mit Erscheinen seines Buches „The Design of Experiments“ eine ausführliche Darstellung von Varianzanalyse und Versuchsplanung veröffentlichte (Hartung, 1998, S.12).</ref>  für unsere Hypothese:

Version vom 17. Jänner 2022, 10:58 Uhr


Getestet wird also, ob alle Erwartungswerte gleich sind, oder zumindest zwei Erwartungswerte existieren, die ungleich sind.

Beim t-Test (Anzur, 2007, S. 71) wurde als relevante Prüfgröße die Differenz der Mittel­werte der beiden Gruppen bezogen auf den Standardfehler der Mittelwerts­differenz berechnet. Dieses Konzept ist nun nicht mehr möglich, da die Differenzen von mehr als zwei Gruppen berechnet werden müssten (die „mittlere“, die „maximale“, die „minimale“?). Anstelle der Differenz kommt nun das Konzept mit den Varianzen ins Spiel.

Abbildung 11 zeigt anhand von zwei Gruppen das Problem aber auch gleichzeitig die Lösung. Ziel der Varianzanalyse ist es, herauszufinden, ob die (durch­schnittliche) Lage der Beobachtungen auf dem Zahlenstrahl in beiden Gruppen gleich ist. In Fall 1 besteht zwischen Gruppe 1 und Gruppe 2 bei a und b dieselbe Mittelwertsdifferenz. Es ist aber mit freiem Auge ersichtlich, dass in Fall 1a besser zwischen den beiden Gruppen getrennt werden kann, als in Fall 1b. Grund sind die größeren Varianzen innerhalb der beiden Gruppen im Fall 1b. Bei Fall 2 streuen nun die Werte aller Gruppen gleich um ihren Mittelwert. Demnach sind die Varianzen innerhalb der Gruppen jeweils gleich. Nun kann besser zwischen jenen Gruppen getrennt werden, die den größeren Mittelwertsunterschied haben. Zusammen­gefasst heißt das, dass umso mehr Evidenz für eine unterschiedliche Lage der Gruppen gegeben ist, je größer die Mittelwertsdifferenz ist und je kleiner die Streuung der Werte um ihren eigenen Mittelwert ist. Im Fall von mehr als zwei Gruppen wird die Mittelwertsdifferenz einfach durch die Streuung (Varianz) der Gruppenmittelwerte ersetzt.

Gegenübergestellt werden in der Varianzanalyse also die Varianzen (Quadrat­summen [1] ) „innerhalb“ der Gruppen und „zwischen“ den Gruppen. Die Hilfsgrößen, um einen Test für oben genanntes Hypothesenpaar durchzuführen sind solche Quadrat­summen. In der einfachen Varianzanalyse gilt immer folgende Quadratsummenzerlegung:


Die Gesamtvariabilität der Daten QT kann also in zwei additive Teile gespalten werden. Dadurch bietet sich als weitere deskriptive Größe analog zur Regressions­analyse das Bestimmtheitsmaß an, welches als Quotient aus QZ und QT berechnet wird und wieder den Anteil an der durch das Modell erklärten Varianz an der Zielgröße angibt.


Um nun inferenzstatistische Aussagen zu machen, wird nun die Quadratsumme „Zwischen“ nicht zur totalen Quadratsumme, sondern zur Quadratsumme „Innerhalb“ in Beziehung gesetzt. Dies liefert auch dann die Prüfgröße F [2] für unsere Hypothese:


Es kann gezeigt werden, dass unter Gültigkeit der Nullhypothese (die Erwar­tungswerte aller Gruppen sind gleich) und den anderen vorher erwähnten Modell­annahmen (Normalverteilung der Fehler) nach einer F-Verteilung mit und Freiheitsgraden verteilt ist. Dadurch werden Schranken definiert, bis zu wel­chen Werten von eine Entscheidung für die Nullhypothese und ab wann eine Ent­scheidung für die Alternativhypothese erfolgt. Was man weiters wie bei jedem statistischen Test benötigt, ist , die “Irrtumswahrscheinlichkeit“ (=die Wahr­scheinlichkeit, die zu verwerfen, obwohl sie zutrifft).

  1. Unter Quadratsumme wird die Summe von quadrierten Zahlen verstanden. In der Varianzanalyse geht es immer um die Summe von quadrierten Abweichungen von Mittelwerten. Im Prinzip ist eine Quadratsumme eine Varianz, die nicht durch den Stichprobenumfang dividiert wurde.
  2. Die Prüfgröße F bzw. die Prüfverteilung ist benannt nach Sir Ronald A. Fisher, der erstmals im Jahre 1935 mit Erscheinen seines Buches „The Design of Experiments“ eine ausführliche Darstellung von Varianzanalyse und Versuchsplanung veröffentlichte (Hartung, 1998, S.12).