Methoden der Datenanalyse - Varianzanalyse: Unterschied zwischen den Versionen

Aus FernFH MediaWiki
Zur Navigation springen Zur Suche springen
Zeile 1: Zeile 1:
Abbildung 11 zeigt anhand von zwei Gruppen das Problem aber auch gleichzeitig die Lösung. Ziel der Varianzanalyse ist es, herauszufinden, ob die (durch­schnittliche) Lage der Beobachtungen auf dem Zahlenstrahl in beiden Gruppen gleich ist. In Fall 1 besteht zwischen Gruppe 1 und Gruppe 2 bei a und b dieselbe Mittelwertsdifferenz. Es ist aber mit freiem Auge ersichtlich, dass in Fall 1a besser zwischen den beiden Gruppen getrennt werden kann, als in Fall 1b. Grund sind die größeren Varianzen innerhalb der beiden Gruppen im Fall 1b. Bei Fall 2 streuen nun die Werte aller Gruppen gleich um ihren Mittelwert. Demnach sind die Varianzen innerhalb der Gruppen jeweils gleich. Nun kann besser zwischen jenen Gruppen getrennt werden, die den größeren Mittelwertsunterschied haben. Zusammen­gefasst heißt das, dass umso mehr Evidenz für eine unterschiedliche Lage der Gruppen gegeben ist, je größer die Mittelwertsdifferenz ist und je kleiner die Streuung der Werte um ihren eigenen Mittelwert ist. Im Fall von mehr als zwei Gruppen wird die Mittelwertsdifferenz einfach durch die Streuung (Varianz) der Gruppenmittelwerte ersetzt.
QT…Quadratsumme „Total“


Gegenübergestellt werden in der Varianzanalyse also die Varianzen (Quadrat­summen <ref>Unter Quadratsumme wird die Summe von quadrierten Zahlen verstanden. In der Varianzanalyse geht es immer um die Summe von quadrierten Abweichungen von Mittelwerten. Im Prinzip ist eine Quadratsumme eine Varianz, die nicht durch den Stichprobenumfang dividiert wurde.</ref> ) „innerhalb“ der Gruppen und „zwischen“ den Gruppen. Die Hilfsgrößen, um einen Test für oben genanntes Hypothesenpaar durchzuführen sind solche Quadrat­summen. In der einfachen Varianzanalyse gilt immer folgende Quadratsummenzerlegung:
QI…Quadratsumme „Innerhalb“
 
QZ…Quadratsumme „Zwischen“
 
Die Gesamtvariabilität der Daten QT kann also in zwei additive Teile gespalten werden. Dadurch bietet sich als weitere deskriptive Größe analog zur Regressions­analyse das Bestimmtheitsmaß an, welches als Quotient aus QZ und QT berechnet wird und wieder den Anteil an der durch das Modell erklärten Varianz an der Zielgröße angibt.
 
{|
! width="100%" | '''Aufgabe 4'''
 
Denken Sie sich zwei Datensätze aus (je drei Gruppen mit je fünf Beobachtungen pro Gruppe). Einen, bei dem das Bestimmtheitsmaß 100% beträgt und einen, bei dem das Bestimmtheitsmaß 0% beträgt. Welche Charakteristik haben die Daten jeweils.
|}
[[file:img1642169593358.png|300px|none|thumb|Vier Datenreihen mit je zwei Gruppen,<br class="mwt-preserveHtml" data-mwt-sameline="true" data-mwt-spaces="" /><span class="mwt-placeHolder mwt-singleLinebreak mwt-slbltr mwt-hidePlaceholder" title="Non-displayed single linebreak" contenteditable="false" draggable="true"> </span>die gut bzw. schlecht getrennt werden können]]
 
Um nun inferenzstatistische Aussagen zu machen, wird nun die Quadratsumme „Zwischen“ nicht zur totalen Quadratsumme, sondern zur Quadratsumme „Innerhalb“ in Beziehung gesetzt. Dies liefert auch dann die Prüfgröße F <ref>Die Prüfgröße F bzw. die Prüfverteilung ist benannt nach Sir Ronald A. Fisher, der erstmals im Jahre 1935 mit Erscheinen seines Buches „The Design of Experiments“ eine ausführliche Darstellung von Varianzanalyse und Versuchsplanung veröffentlichte (Hartung, 1998, S.12).</ref> für unsere Hypothese:


<math display="block">
<math display="block">
\underbrace{\sum_{i=1}^{k} \sum_{j=1}^{n_{1}}\left(y_{i j}-\hat{\mu}\right)^{2}}_{\mathrm{QT}}=\underbrace{\sum_{i=1}^{k} \sum_{j=1}^{n_{1}}\left(y_{i j}-\hat{\mu}_{i}\right)^{2}}_{\mathrm{QI}}+\underbrace{\sum_{i=1}^{k} n_{i}\left(\hat{\mu}_{i}-\hat{\mu}\right)^{2}}_{\mathrm{QZ}}
F=\frac{M Q Z}{M Q I}=\frac{\frac{1}{k-1} Q Z}{\frac{1}{N-k} Q I}=\frac{(N-k) Q Z}{(k-1) Q I} \qquad
{\left[N=n_{1}+n_{2}+n_{3}\right]}
</math>
</math>

Version vom 17. Jänner 2022, 13:46 Uhr

QT…Quadratsumme „Total“

QI…Quadratsumme „Innerhalb“

QZ…Quadratsumme „Zwischen“

Die Gesamtvariabilität der Daten QT kann also in zwei additive Teile gespalten werden. Dadurch bietet sich als weitere deskriptive Größe analog zur Regressions­analyse das Bestimmtheitsmaß an, welches als Quotient aus QZ und QT berechnet wird und wieder den Anteil an der durch das Modell erklärten Varianz an der Zielgröße angibt.

Aufgabe 4

Denken Sie sich zwei Datensätze aus (je drei Gruppen mit je fünf Beobachtungen pro Gruppe). Einen, bei dem das Bestimmtheitsmaß 100% beträgt und einen, bei dem das Bestimmtheitsmaß 0% beträgt. Welche Charakteristik haben die Daten jeweils.

Vier Datenreihen mit je zwei Gruppen,
die gut bzw. schlecht getrennt werden können

Um nun inferenzstatistische Aussagen zu machen, wird nun die Quadratsumme „Zwischen“ nicht zur totalen Quadratsumme, sondern zur Quadratsumme „Innerhalb“ in Beziehung gesetzt. Dies liefert auch dann die Prüfgröße F [1] für unsere Hypothese:

  1. Die Prüfgröße F bzw. die Prüfverteilung ist benannt nach Sir Ronald A. Fisher, der erstmals im Jahre 1935 mit Erscheinen seines Buches „The Design of Experiments“ eine ausführliche Darstellung von Varianzanalyse und Versuchsplanung veröffentlichte (Hartung, 1998, S.12).