Methoden der Datenanalyse - Lösungen: Unterschied zwischen den Versionen

Aus FernFH MediaWiki
Zur Navigation springen Zur Suche springen
(Die Seite wurde neu angelegt: „= Lösungen zu den Aufgaben und zu den Wiederholungsaufgaben = Lösungen zu den Aufgaben Aufgabe 1 File:media/image312.jpeg Wie auch schon Abbildung 2 vermuten lässt, ist – wenig überraschend – der lineare Zusammenhang zwischen dem Benzinverbrauch in der Stadt und auf der Autobahn betragsmäßig am größten (0,94). Aufgabe 2 File:media/image313.jpeg Die Regressionskoeffizienten ändern sich geringfügig. Die lineare Korrelation zwisc…“)
 
 
(6 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
= Lösungen zu den Aufgaben und zu den Wiederholungsaufgaben =
= Lösungen zu den Aufgaben und zu den Wiederholungsaufgaben =


Lösungen zu den Aufgaben
== Lösungen zu den Aufgaben ==


Aufgabe 1
Aufgabe 1


[[File:media/image312.jpeg]]
[[Datei:Mt422 a2.png|300px|none|thumb]]


Wie auch schon Abbildung 2 vermuten lässt, ist – wenig überraschend – der lineare Zusammenhang zwischen dem Benzinverbrauch in der Stadt und auf der Autobahn betragsmäßig am größten (0,94).
Wie auch schon Abbildung 2 vermuten lässt, ist – wenig überraschend – der lineare Zusammenhang zwischen dem Benzinverbrauch in der Stadt und auf der Autobahn betragsmäßig am größten (0,94).
Zeile 11: Zeile 11:
Aufgabe 2
Aufgabe 2


[[File:media/image313.jpeg]]
[[Datei:Mt422 a3.png|300px|none|thumb]]


Die Regressionskoeffizienten ändern sich geringfügig. Die lineare Korrelation zwischen den Vorhersagewerten und der Originalvariable verändert sich durch Wegnahme einer einzigen Beobachtung immerhin von 0,80 auf 0,83.
Die Regressionskoeffizienten ändern sich geringfügig. Die lineare Korrelation zwischen den Vorhersagewerten und der Originalvariable verändert sich durch Wegnahme einer einzigen Beobachtung immerhin von 0,80 auf 0,83.
Zeile 19: Zeile 19:
Analog zum Beispiel:
Analog zum Beispiel:


{|
{| style="border-collapse: collapse;" border="1"
!width="14%"| Versuch
! width="14%" | Versuch
!width="13%"| 1
! width="13%" | 1
!width="13%"| 2
! width="13%" | 2
!width="13%"| 3
! width="13%" | 3
!width="11%"| 4
! width="11%" | 4
!width="11%"| 5
! width="11%" | 5
!width="11%"| 6
! width="11%" | 6
!width="11%"| 7
! width="11%" | 7
|-
|-  
| Sorte 1
| Sorte 1
| 0,229
| 0,229
Zeile 37: Zeile 37:
| 2,029
| 2,029
| -1,971
| -1,971
|-
|-  
| Sorte 2
| Sorte 2
| -4,660
| -4,660
Zeile 46: Zeile 46:
| -
| -
| -
| -
|-
|-  
| Sorte 3
| Sorte 3
| 3,050
| 3,050
Zeile 56: Zeile 56:
| -
| -
|}
|}
Draht Nr. 2 von Sorte 1 weicht am stärksten von der Prognose ab.
Draht Nr. 2 von Sorte 1 weicht am stärksten von der Prognose ab.


Aufgabe 4
Aufgabe 4


{|
{| style="border-collapse: collapse; height: 197px;" border="1"
!width="17%"| '''Datensatz 1'''
! style="height: 28px; width: 111.771px;" | '''Datensatz 1'''
!width="9%"|
! style="height: 28px; width: 58.2292px;" |  
!width="9%"|
! style="height: 28px; width: 58.2292px;" |  
!width="9%"|
! style="height: 28px; width: 58.2292px;" |  
!width="8%"|
! style="height: 28px; width: 51.5394px;" |  
!width="17%"| '''Datensatz 2'''
! style="height: 28px; width: 111.771px;" | '''Datensatz 2'''
!width="9%"|
! style="height: 28px; width: 58.2292px;" |  
!width="9%"|
! style="height: 28px; width: 58.2292px;" |  
!width="9%"|
! style="height: 28px; width: 58.2755px;" |  
|-
|- style="height: 28px;"
| Beobachtung Nr.
| style="height: 28px; width: 111.771px;" | Beobachtung Nr.
|
| style="height: 28px; width: 58.2292px;" |
| X<sub>1</sub>
<br>
| X<sub>2</sub>
| style="height: 28px; width: 58.2292px;" | X<sub>1</sub>
| X<sub>3</sub>
| style="height: 28px; width: 58.2292px;" | X<sub>2</sub>
| Beobachtung Nr.
| style="height: 28px; width: 51.5394px;" | X<sub>3</sub>
| X<sub>1</sub>
| style="height: 28px; width: 111.771px;" | Beobachtung Nr.
| X<sub>2</sub>
| style="height: 28px; width: 58.2292px;" | X<sub>1</sub>
| X<sub>3</sub>
| style="height: 28px; width: 58.2292px;" | X<sub>2</sub>
|-
| style="height: 28px; width: 58.2755px;" | X<sub>3</sub>
| 1
|- style="height: 28px;"
|
| style="height: 28px; width: 111.771px;" | 1
| 3
| style="height: 28px; width: 58.2292px;" |
| 14
<br>
| 5
| style="height: 28px; width: 58.2292px;" | 3
| 1
| style="height: 28px; width: 58.2292px;" | 14
| 4
| style="height: 28px; width: 51.5394px;" | 5
| 14
| style="height: 28px; width: 111.771px;" | 1
| 7
| style="height: 28px; width: 58.2292px;" | 4
|-
| style="height: 28px; width: 58.2292px;" | 14
| 2
| style="height: 28px; width: 58.2755px;" | 7
|
|- style="height: 29px;"
| 3
| style="height: 29px; width: 111.771px;" | 2
| 14
| style="height: 29px; width: 58.2292px;" |
| 5
<br>
| 2
| style="height: 29px; width: 58.2292px;" | 3
| 5
| style="height: 29px; width: 58.2292px;" | 14
| 2
| style="height: 29px; width: 51.5394px;" | 5
| 3
| style="height: 29px; width: 111.771px;" | 2
|-
| style="height: 29px; width: 58.2292px;" | 5
| 3
| style="height: 29px; width: 58.2292px;" | 2
|
| style="height: 29px; width: 58.2755px;" | 3
| 3
|- style="height: 28px;"
| 14
| style="height: 28px; width: 111.771px;" | 3
| 5
| style="height: 28px; width: 58.2292px;" |
| 3
<br>
| 6
| style="height: 28px; width: 58.2292px;" | 3
| 8
| style="height: 28px; width: 58.2292px;" | 14
| 3
| style="height: 28px; width: 51.5394px;" | 5
|-
| style="height: 28px; width: 111.771px;" | 3
| 4
| style="height: 28px; width: 58.2292px;" | 6
|
| style="height: 28px; width: 58.2292px;" | 8
| 3
| style="height: 28px; width: 58.2755px;" | 3
| 14
|- style="height: 28px;"
| 5
| style="height: 28px; width: 111.771px;" | 4
| 4
| style="height: 28px; width: 58.2292px;" |
| 7
<br>
| 1
| style="height: 28px; width: 58.2292px;" | 3
| 7
| style="height: 28px; width: 58.2292px;" | 14
|-
| style="height: 28px; width: 51.5394px;" | 5
| 5
| style="height: 28px; width: 111.771px;" | 4
|
| style="height: 28px; width: 58.2292px;" | 7
| 3
| style="height: 28px; width: 58.2292px;" | 1
| 14
| style="height: 28px; width: 58.2755px;" | 7
| 5
|- style="height: 28px;"
| 5
| style="height: 28px; width: 111.771px;" | 5
| 8
| style="height: 28px; width: 58.2292px;" |
| 5
<br>
| 10
| style="height: 28px; width: 58.2292px;" | 3
| style="height: 28px; width: 58.2292px;" | 14
| style="height: 28px; width: 51.5394px;" | 5
| style="height: 28px; width: 111.771px;" | 5
| style="height: 28px; width: 58.2292px;" | 8
| style="height: 28px; width: 58.2292px;" | 5
| style="height: 28px; width: 58.2755px;" | 10
|}
|}
Datensatz 1 hat Bestimmtheitsmaß 100%, da alle drei Spalten (Variablen) keine Varianz aufweisen und die Mittelwerte unterschiedlich sind. Die Gesamtstreuung der Daten entfällt daher vollständig auf die Streuung ''zwischen'' den Gruppen­(mittelwerten). Datensatz 2 hat Bestimmtheitsmaß 0, da alle drei Spalten den glei­chen Mittelwert und Varianzen größer als Null aufweisen. Die Gesamtstreuung der Daten entfällt daher vollständig auf die Streuung ''innerhalb'' der einzelnen Gruppen.
Datensatz 1 hat Bestimmtheitsmaß 100%, da alle drei Spalten (Variablen) keine Varianz aufweisen und die Mittelwerte unterschiedlich sind. Die Gesamtstreuung der Daten entfällt daher vollständig auf die Streuung ''zwischen'' den Gruppen­(mittelwerten). Datensatz 2 hat Bestimmtheitsmaß 0, da alle drei Spalten den glei­chen Mittelwert und Varianzen größer als Null aufweisen. Die Gesamtstreuung der Daten entfällt daher vollständig auf die Streuung ''innerhalb'' der einzelnen Gruppen.


Aufgabe 5
Aufgabe 5


Bestimmtheitsmaß: [[File:media/image314.png]][[File:media/image314.png]]
Bestimmtheitsmaß: <math>R^{2}=\frac{Q Z}{Q T}=\frac{Q Z}{Q Z+Q I}=\frac{123,744}{123,744+199,361}=38,3 \%</math>


Aufgabe 6
Aufgabe 6
Zeile 143: Zeile 147:
Die Testentscheidung, ob H<sub>0</sub> oder H<sub>1</sub> gewählt werden soll, kann auf zwei Arten erfolgen.
Die Testentscheidung, ob H<sub>0</sub> oder H<sub>1</sub> gewählt werden soll, kann auf zwei Arten erfolgen.


Entweder es wird die Prüfgröße (im Beispiel 4,655) mit einem kritischen Wert, der von [[File:media/image65.png]][[File:media/image65.png]] abhängt und einer Verteilungstabelle entstammt verglichen (im Beispiel 3,68). In diesem Fall wird für H<sub>1</sub> entschieden, da 4,655&gt;3,68. Im umgekehrten Fall wäre für H<sub>0</sub> entschieden worden.
Entweder es wird die Prüfgröße (im Beispiel 4,655) mit einem kritischen Wert, der von <math>\alpha</math> abhängt und einer Verteilungstabelle entstammt verglichen (im Beispiel 3,68). In diesem Fall wird für H<sub>1</sub> entschieden, da 4,655&gt;3,68. Im umgekehrten Fall wäre für H<sub>0</sub> entschieden worden.


Die von Softwarepaketen durchgeführte, äquivalente Vorgehensweise dazu ist die Berechnung des p-Werts. Es wird also berechnet, mit welcher Wahrscheinlichkeit die F-Verteilung (im Beispiel mit 2 und 15 Freiheitsgraden) einen Wert größer als die Prüfgröße erzielt (in Excel: „'''FVERT(4,655;2;15)'''“ was als p-Wert 0,0267 liefert). Anschließend erfolgt die Testentscheidung, indem der p-Wert mit [[File:media/image65.png]][[File:media/image65.png]] verglichen wird. Im vorliegenden Fall gilt: p-Wert[[File:media/image315.png]][[File:media/image315.png]], daher Entscheidung für H<sub>1</sub>. Der Vorteil nach letzterer Methode ist, dass auf einen Blick bestimmt werden kann, ab welchem [[File:media/image65.png]][[File:media/image65.png]] der Test für H<sub>1</sub> entscheidet. Der p-Wert wird auch bei Publikationen verwendet.
Die von Softwarepaketen durchgeführte, äquivalente Vorgehensweise dazu ist die Berechnung des p-Werts. Es wird also berechnet, mit welcher Wahrscheinlichkeit die F-Verteilung (im Beispiel mit 2 und 15 Freiheitsgraden) einen Wert größer als die Prüfgröße erzielt (in Excel: „'''FVERT(4,655;2;15)'''“ was als p-Wert 0,0267 liefert). Anschließend erfolgt die Testentscheidung, indem der p-Wert mit <math>\alpha</math>verglichen wird. Im vorliegenden Fall gilt: p-Wert<math><\alpha=5%</math>, daher Entscheidung für H<sub>1</sub>. Der Vorteil nach letzterer Methode ist, dass auf einen Blick bestimmt werden kann, ab welchem <math>\alpha</math> der Test für H<sub>1</sub> entscheidet. Der p-Wert wird auch bei Publikationen verwendet.


Aufgabe 7
Aufgabe 7
Zeile 155: Zeile 159:
Alpha=5%: in Excel: „'''FINV(0,05;2;15)'''“ liefert 3,68 (vgl. Aufgabe 6)
Alpha=5%: in Excel: „'''FINV(0,05;2;15)'''“ liefert 3,68 (vgl. Aufgabe 6)


[[File:media/image316.png]][[File:media/image316.png]]
<math display="block">
\frac{Q Z}{Q I}=3,68 \Leftrightarrow \frac{Q Z}{Q Z+Q I}=\frac{3,68}{3,68+1}=78,6 \%=R^{2}
</math>
 


Alpha=1%: in Excel: „'''FINV(0,01;2;15)'''“ liefert 6,36
Alpha=1%: in Excel: „'''FINV(0,01;2;15)'''“ liefert 6,36


[[File:media/image317.png]][[File:media/image317.png]]
<math display="block">
\frac{Q Z}{Q I}=6,36 \Leftrightarrow \frac{Q Z}{Q Z+Q I}=\frac{6,36}{6,36+1}=86,4 \%=R^{2}
</math>


Aufgabe 9
Aufgabe 9


[[File:media/image318.png]][[File:media/image318.png]] ''';''' [[File:media/image319.png]][[File:media/image319.png]] (PP niedrig); [[File:media/image320.png]][[File:media/image320.png]] (PP mittel) ; [[File:media/image321.png]][[File:media/image321.png]] (PP hoch); [[File:media/image322.png]][[File:media/image322.png]] (Postwurf); [[File:media/image323.png]][[File:media/image323.png]] (Anzeigen)
<math>\hat{\mu}=49,80 ; \widehat{\alpha_{1}}=59,05-49,80=9,25</math> (PP niedrig)
<math>\widehat{\alpha_{2}}=49,45-49,80=-0,35</math> (PP mittel)
<math>\widehat{\alpha_{3}}=40,90-49,80=-8,90</math> (PP hoch)
<math>\widehat{\beta_{1}}=50,73-49,80=0,93</math> (Postwurf)
<math>\widehat{\beta_{2}}=48,87-49,80=-0,93</math> (Anzeigen)


Interaktionen:
Interaktionen:


[[File:media/image324.png]][[File:media/image324.png]] ; [[File:media/image325.png]][[File:media/image325.png]] ; [[File:media/image326.png]][[File:media/image326.png]] ; [[File:media/image327.png]][[File:media/image327.png]] ; [[File:media/image328.png]][[File:media/image328.png]] ; [[File:media/image329.png]][[File:media/image329.png]]
<math display="block">
 
\widehat{\alpha \beta_{11}}=63,80-(49,80+9,25+0,93)=3,82;  
\widehat{\alpha \beta_{12}}=54,30-(49,80+9,25-0,93)=-3,82;  
\widehat{\alpha \beta_{21}}=51,50-(49,80-0,35+0,93)=1,12;  
\widehat{\alpha \beta_{22}}=47,40-(49,80-0,35-0,93)=-1,12;  
\widehat{\alpha \beta_{31}}=36,90-(49,80-8,90+0,93)=-4,93;  
\widehat{\alpha \beta_{32}}=44,90-(49,80-8,90-0,93)=4,93
</math>
Interpretation (Beispiel): Bei Hochpreispolitik und Anzeigenwerbung werden durchschnittlich um 4,93 Stück mehr verkauft als aufgrund der getrennten Effekte zu erwarten gewesen wäre (d.h. der reduzierte Verkauf bei Hochpreispolitik wirkt sich eher bei der Werbeart „Postwurfsendung“) aus.
Interpretation (Beispiel): Bei Hochpreispolitik und Anzeigenwerbung werden durchschnittlich um 4,93 Stück mehr verkauft als aufgrund der getrennten Effekte zu erwarten gewesen wäre (d.h. der reduzierte Verkauf bei Hochpreispolitik wirkt sich eher bei der Werbeart „Postwurfsendung“) aus.


Aufgabe 10
Aufgabe 10


{|
{| style="border-collapse: collapse;" border="1"
!width="12%"|
! style="width: 69.4792px;" |  
!width="12%"|
! style="width: 69.4792px;" |  
!width="14%"| Objektpaar
! style="width: 81.0532px;" | Objektpaar
!width="12%"|
! style="width: 69.4792px;" |  
!width="12%"|
! style="width: 66.4699px;" |  
!width="12%"|
! style="width: 72.4769px;" |  
!width="12%"|
! style="width: 69.4792px;" |  
!width="12%"|
! style="width: 69.4792px;" |  
|-
|-  
|
| style="width: 69.4792px;" |
|
<br>
| 12
| style="width: 69.4792px;" |
| 13
<br>
| 14
| style="width: 81.0532px;" | 12
| 23
| style="width: 69.4792px;" | 13
| 24
| style="width: 66.4699px;" | 14
| 34
| style="width: 72.4769px;" | 23
|-
| style="width: 69.4792px;" | 24
| L<sub>1</sub>-Distanz
| style="width: 69.4792px;" | 34
| Wert
|-  
| 12
| style="width: 69.4792px;" | L<sub>1</sub>-Distanz
| 11
| style="width: 69.4792px;" | Wert
| 10
| style="width: 81.0532px;" | 12
| 5
| style="width: 69.4792px;" | 11
| 4
| style="width: 66.4699px;" | 10
| 9
| style="width: 72.4769px;" | 5
|-
| style="width: 69.4792px;" | 4
|
| style="width: 69.4792px;" | 9
| Rang
|-  
| 6
| style="width: 69.4792px;" |
| 5
<br>
| 4
| style="width: 69.4792px;" | Rang
| 2
| style="width: 81.0532px;" | 6
| 1
| style="width: 69.4792px;" | 5
| 3
| style="width: 66.4699px;" | 4
|-
| style="width: 72.4769px;" | 2
| L<sub>2</sub>-Distanz
| style="width: 69.4792px;" | 1
| Wert
| style="width: 69.4792px;" | 3
| 7,87
|-  
| 6,71
| style="width: 69.4792px;" | L<sub>2</sub>-Distanz
| 8,12
| style="width: 69.4792px;" | Wert
| 3,61
| style="width: 81.0532px;" | 7,87
| 2,45
| style="width: 69.4792px;" | 6,71
| 5,74
| style="width: 66.4699px;" | 8,12
|-
| style="width: 72.4769px;" | 3,61
|
| style="width: 69.4792px;" | 2,45
| Rang
| style="width: 69.4792px;" | 5,74
| 5
|-  
| 4
| style="width: 69.4792px;" |
| 6
<br>
| 2
| style="width: 69.4792px;" | Rang
| 1
| style="width: 81.0532px;" | 5
| 3
| style="width: 69.4792px;" | 4
| style="width: 66.4699px;" | 6
| style="width: 72.4769px;" | 2
| style="width: 69.4792px;" | 1
| style="width: 69.4792px;" | 3
|}
|}
Die Rangfolgen der Distanzen zwischen den Objektpaaren sind nicht für beide Distanzmaße ident.
Die Rangfolgen der Distanzen zwischen den Objektpaaren sind nicht für beide Distanzmaße ident.


Zeile 235: Zeile 257:
Bei vier Objekten sind lt. Bell’schen Zahlen 15 Partitionen möglich:
Bei vier Objekten sind lt. Bell’schen Zahlen 15 Partitionen möglich:


{|
{| style="border-collapse: collapse;" border="1"
!width="20%"| 1 / 2 / 3 / 4
! width="20%" | 1 / 2 / 3 / 4
!width="20%"| 12 / 3 / 4
! width="20%" | 12 / 3 / 4
!width="20%"| 13 / 2 / 4
! width="20%" | 13 / 2 / 4
!width="20%"| 14 / 2 / 3
! width="20%" | 14 / 2 / 3
!width="20%"| 23 / 1 / 4
! width="20%" | 23 / 1 / 4
|-
|-  
| 24 / 1 / 3
| 24 / 1 / 3
| 34 / 1 / 2
| 34 / 1 / 2
Zeile 247: Zeile 269:
| 13 / 24
| 13 / 24
| 14 / 23
| 14 / 23
|-
|-  
| 123 / 4
| 123 / 4
| 124 / 3
| 124 / 3
Zeile 254: Zeile 276:
| 1234
| 1234
|}
|}
Aufgabe 12
Aufgabe 12


Vollständige Rangordnung: [[File:media/image330.png]][[File:media/image330.png]]; Tetradenmethode: [[File:media/image331.png]][[File:media/image331.png]]
Vollständige Rangordnung: <math>\left(\begin{array}{c}
15 \\
2
\end{array}\right)=105</math>]; Tetradenmethode: <math>\left(\begin{array}{c}\left(\begin{array}{c}
15 \\
2 \\
\end{array}\right)
2
\end{array}\right)=\left(\begin{array}{c}
105 \\
2
\end{array}\right)=5460</math>


Bei 105 Vergleichen werden die Paare schrittweise sortiert (alle Paare werden z.B. auf Kärtchen präsentiert; diese werden vorerst in ähnliche und unähnliche Paare geteilt; die Untergruppen werden weiter geteilt). Bei 5460 Vergleichen muss jede Person nur einige Vergleiche durchführen.
Bei 105 Vergleichen werden die Paare schrittweise sortiert (alle Paare werden z.B. auf Kärtchen präsentiert; diese werden vorerst in ähnliche und unähnliche Paare geteilt; die Untergruppen werden weiter geteilt). Bei 5460 Vergleichen muss jede Person nur einige Vergleiche durchführen.
Zeile 266: Zeile 298:


{|
{|
!width="22%"| B
! width="22%" | B
!width="17%"|
! width="17%" |  
!width="23%"|
! width="23%" |  
!width="17%"| A
! width="17%" | A
!width="17%"| D
! width="17%" | D
|}
|}
C und E müssten an den freien Stellen eingetragen werden. Nachdem die Distanz AE lt. Angabe größer als DE sein muss, ergibt sich hier ein Widerspruch.
C und E müssten an den freien Stellen eingetragen werden. Nachdem die Distanz AE lt. Angabe größer als DE sein muss, ergibt sich hier ein Widerspruch.


Aufgabe 14
Aufgabe 14


Bei 2 Dimensionen muss [[File:media/image332.png]][[File:media/image332.png]] gelten, also muss [[File:media/image333.png]][[File:media/image333.png]] sein.
Bei 2 Dimensionen muss <math>\left(\begin{array}{l}
K \\
2
\end{array}\right) \geq 2 * K * 2</math> gelten, also muss <math>K \geq 9</math> sein.


Bei 3 Dimensionen muss [[File:media/image334.png]][[File:media/image334.png]], also muss [[File:media/image335.png]][[File:media/image335.png]] sein.
Bei 3 Dimensionen muss <math>\left(\begin{array}{l}
K \\
2
\end{array}\right) \geq 2 * K * 3</math>, also muss <math>K \geq 13</math> sein.


Aufgabe 15
Aufgabe 15
Zeile 285: Zeile 322:
<ol style="list-style-type: lower-alpha;">
<ol style="list-style-type: lower-alpha;">
<li><p>Standardisierte Variablen haben Varianzen gleich Eins; die mittels Hauptachsentransformation rotierten Komponenten haben daher ebenfalls im Durchschnitt eine Varianz gleich Eins; es wird daher eine Varianzsumme gleich Acht aufgeteilt; die drei Achsen mit der höchsten Varianz haben demnach zumindest eine Varianzsumme größer als Drei, und…</p></li>
<li><p>Standardisierte Variablen haben Varianzen gleich Eins; die mittels Hauptachsentransformation rotierten Komponenten haben daher ebenfalls im Durchschnitt eine Varianz gleich Eins; es wird daher eine Varianzsumme gleich Acht aufgeteilt; die drei Achsen mit der höchsten Varianz haben demnach zumindest eine Varianzsumme größer als Drei, und…</p></li>
<li><p>…erklären damit mindestens [[File:media/image336.png]][[File:media/image336.png]] der Varianzsumme. Bei hochkorrelierten Variablen sollte die Varianzerklärung jedoch wesentlich höher liegen.</p></li>
<li><p>…erklären damit mindestens <math>\frac{3}{8}=37,5 \%</math> der Varianzsumme. Bei hochkorrelierten Variablen sollte die Varianzerklärung jedoch wesentlich höher liegen.</p></li>
<li><p>Eine Varianzerklärung von 74% bedeutet, dass maximal fünf Achsen gewählt werden, da bei den besten sechs Achsen der erklärte Anteil jedenfalls zumindest [[File:media/image337.png]][[File:media/image337.png]] wäre.</p></li></ol>
<li><p>Eine Varianzerklärung von 74% bedeutet, dass maximal fünf Achsen gewählt werden, da bei den besten sechs Achsen der erklärte Anteil jedenfalls zumindest <math>\frac{6}{8}=75 \%</math>wäre.</p></li>
 
</ol>
Aufgabe 16
Aufgabe 16


[[File:media/image338.png]][[File:media/image338.png]]; [[File:media/image339.png]][[File:media/image339.png]]; [[File:media/image340.png]][[File:media/image340.png]]; [[File:media/image341.png]][[File:media/image341.png]]
<math display="block">
\begin{array}{lr}
h_{2}^{2}=0,843^{2}+(-0,160)^{2}=73,6 \% ; & h_{3}^{2}=0,929^{2}+(-0,254)^{2}=92,7 \% \\
h_{4}^{2}=0,342^{2}+0,936^{2}=99,3 \% ; h_{5}^{2}=0,277^{2}+0,957^{2}=99,2 \% &
\end{array}
</math>


Die errechneten Kommunalitäten finden sich alle in der Hauptdiagonale der reproduzierten Korrelationsmatrix. „Haltbarkeit“ wird durch die gewählten Komponenten am besten erklärt (99,3%).
Die errechneten Kommunalitäten finden sich alle in der Hauptdiagonale der reproduzierten Korrelationsmatrix. „Haltbarkeit“ wird durch die gewählten Komponenten am besten erklärt (99,3%).


Lösungen zu den Wiederholungsaufgaben
== Lösungen zu den Wiederholungsaufgaben ==


'''Lektion 1'''
'''Lektion 1'''
Zeile 300: Zeile 342:
<u>Aufgabe 1</u>
<u>Aufgabe 1</u>


Da die Modellvoraussetzungen erfüllt sind, kann die geschätzte lineare Beziehung grundsätzlich vernünftig interpretiert werden, jedoch weist das niedrige Bestimmtheitsmaß auf eine schlechte Voraussage durch die erklärenden Variablen hin. Die Korrelation zwischen beobachteten Werten der Zielvariable und den geschätzten Werten beträgt lediglich [[File:media/image342.png]][[File:media/image342.png]].
Da die Modellvoraussetzungen erfüllt sind, kann die geschätzte lineare Beziehung grundsätzlich vernünftig interpretiert werden, jedoch weist das niedrige Bestimmtheitsmaß auf eine schlechte Voraussage durch die erklärenden Variablen hin. Die Korrelation zwischen beobachteten Werten der Zielvariable und den geschätzten Werten beträgt lediglich <math>\pm \sqrt{0,1}=\pm 0,32</math>.


<u>Aufgabe 2</u>
<u>Aufgabe 2</u>
Zeile 307: Zeile 349:
<li><p>Die Korrelation ist 1</p></li>
<li><p>Die Korrelation ist 1</p></li>
<li><p>Die Varianz der Residuen ist gleich Null</p></li>
<li><p>Die Varianz der Residuen ist gleich Null</p></li>
<li><p>Alle Punkte liegen in einer (Hyper-)Ebene</p></li></ol>
<li><p>Alle Punkte liegen in einer (Hyper-)Ebene</p></li>
</ol>


<u>Aufgabe 3</u>
<u>Aufgabe 3</u>


Grundsätzlich ist der Einfluss einer Variablen, die einmal ein positives und einmal ein negatives Vorzeichen annimmt, fraglich. Man weiß nicht, ob der Einfluss nun positiv oder negativ ist (oder überhaupt Null?). Das trifft für die Variablen, zu denen die Koeffizienten [[File:media/image343.png]][[File:media/image343.png]] und [[File:media/image344.png]][[File:media/image344.png]] geschätzt worden sind, zu. Auch [[File:media/image345.png]][[File:media/image345.png]] ist fraglich. Objektiv lässt sich das nachprüfen, indem jeweils der Mittelwert über die drei Stichproben der Standardabweichung gegenübergestellt wird:
Grundsätzlich ist der Einfluss einer Variablen, die einmal ein positives und einmal ein negatives Vorzeichen annimmt, fraglich. Man weiß nicht, ob der Einfluss nun positiv oder negativ ist (oder überhaupt Null?). Das trifft für die Variablen, zu denen die Koeffizienten <math>\widehat{\beta_{1}}</math> und <math>\widehat{\beta_{2}}</math> geschätzt worden sind, zu. Auch <math>\widehat{\beta_{3}}</math> ist fraglich. Objektiv lässt sich das nachprüfen, indem jeweils der Mittelwert über die drei Stichproben der Standardabweichung gegenübergestellt wird:


{|
{| style="border-collapse: collapse;" border="1"
!width="36%"|
! width="36%" |  
!width="12%"| [[File:media/image32.png]]
! width="12%" | <math>\widehat{\beta_{0}}</math>
!width="12%"| [[File:media/image33.png]]
! width="12%" | <math>\widehat{\beta_{1}}</math>
!width="12%"| [[File:media/image34.png]]
! width="12%" | <math>\widehat{\beta_{2}}</math>
!width="12%"| [[File:media/image35.png]]
! width="12%" | <math>\widehat{\beta_{3}}</math>
!width="12%"| [[File:media/image36.png]]
! width="12%" | <math>\widehat{\beta_{4}}</math>
|-
|-  
| Mittelwert
| Mittelwert
| -0,30
| -0,30
Zeile 327: Zeile 370:
| 23,00
| 23,00
| 0,47
| 0,47
|-
|-  
| Standardabweichung
| Standardabweichung
| 0,02
| 0,02
Zeile 334: Zeile 377:
| 20,97
| 20,97
| 2,58
| 2,58
|-
|-  
| Mittelwert/Standardabweichung
| Mittelwert/Standardabweichung
| -19,86
| -19,86
Zeile 342: Zeile 385:
| '''0,18'''
| '''0,18'''
|}
|}
Die letzte Zeile zeigt auch die Prüfgröße, die üblicherweise bei einem statistischen Test für die Regressionsschätzer verwendet wird. Alle Zahlen nahe Null (insbesondere zwischen -2 und 2) deuten daraufhin, dass der zugrundeliegende Populations-Parameter eventuell nicht von Null verschieden ist.
Die letzte Zeile zeigt auch die Prüfgröße, die üblicherweise bei einem statistischen Test für die Regressionsschätzer verwendet wird. Alle Zahlen nahe Null (insbesondere zwischen -2 und 2) deuten daraufhin, dass der zugrundeliegende Populations-Parameter eventuell nicht von Null verschieden ist.


Zeile 385: Zeile 427:
<u>Aufgabe 5</u>
<u>Aufgabe 5</u>


{|
{| style="border-collapse: collapse;" border="1"
!width="30%"| Schritt Nr.
! width="30%" | Schritt Nr.
!width="30%"| Partition
! width="30%" | Partition
!width="39%"| Heterogenität
! width="39%" | Heterogenität
|-
|-  
| 0
| 0
| 1 / 2 / 3 / 4
| 1 / 2 / 3 / 4
| 0
| 0
|-
|-  
| 1
| 1
| 1 / 3 / 24
| 1 / 3 / 24
| 2,45
| 2,45
|-
|-  
| 2
| 2
| 1 / 234
| 1 / 234
| 4,68
| 4,68
|-
|-  
| 3
| 3
| 1234
| 1234
| 7,57
| 7,57
|}
|}
[[Datei:Mt422 a4.png|300px|none|thumb]]


[[File:media/image346.png]]


'''Lektion 4'''
'''Lektion 4'''
Zeile 425: Zeile 467:
<u>Aufgabe 3</u>
<u>Aufgabe 3</u>


D: [[File:media/image347.png]][[File:media/image347.png]]; [[File:media/image348.png]][[File:media/image348.png]];
D: <math>x_{41}^{+}=8,69 ; x_{42}^{+}=-12,34</math>;


E: [[File:media/image349.png]][[File:media/image349.png]]; [[File:media/image350.png]][[File:media/image350.png]]
E: <math>x_{51}^{+}=0,04 ; x_{52}^{+}=5,00</math>


<u><br />
<u><br>
Aufgabe 4</u>
Aufgabe 4</u>


Die Disparitäten bilden eine monoton nicht fallende Funktion in [[File:media/image351.png]][[File:media/image351.png]]. Daher sind (1) die richtigen Disparitäten.
Die Disparitäten bilden eine monoton nicht fallende Funktion in <math>u_{k l}</math>. Daher sind (1) die richtigen Disparitäten.


Das Stressmaß beträgt: [[File:media/image352.png]][[File:media/image352.png]].
Das Stressmaß beträgt: <math>S T R E S S_{1}=\sqrt{\frac{\sum\left(d_{k !}-\alpha_{k !}^{2}\right)^{2}}{\sum d_{k !}^{2}}}=\sqrt{\frac{2,5}{91}}=0,17</math>.


Daher kann die gefundene Konfiguration nur als „ausreichend“ bezeichnet werden.
Daher kann die gefundene Konfiguration nur als „ausreichend“ bezeichnet werden.
Zeile 444: Zeile 486:
Die Residuen der Korrelationen sind wie folgt:
Die Residuen der Korrelationen sind wie folgt:


{|
{| style="border-collapse: collapse;" border="1"
!width="21%"|
! width="21%" |  
!width="22%"| Kaloriengehalt
! width="22%" | Kaloriengehalt
!width="20%"| Vitamingehalt
! width="20%" | Vitamingehalt
!width="18%"| Haltbarkeit
! width="18%" | Haltbarkeit
!width="16%"| Preis
! width="16%" | Preis
|-
|-  
| Fettsäuren
| Fettsäuren
| 0,115
| 0,115
Zeile 456: Zeile 498:
| -0,003
| -0,003
| -0,003
| -0,003
|-
|-  
| Kaloriengehalt
| Kaloriengehalt
|
|
<br>
| 0,119
| 0,119
| 0,001
| 0,001
| 0,014
| 0,014
|-
|-  
| Vitamingehalt
| Vitamingehalt
|
|
<br>
|
|
<br>
| 0,002
| 0,002
| -0,009
| -0,009
|-
|-  
| Haltbarkeit
| Haltbarkeit
|
|
<br>
|
|
<br>
|
|
<br>
| 0,007
| 0,007
|}
|}
Die Korrelation zwischen Kaloriengehalt und Vitamingehalt wird mittels der beiden gewählten Komponenten am schlechtesten erklärt.
Die Korrelation zwischen Kaloriengehalt und Vitamingehalt wird mittels der beiden gewählten Komponenten am schlechtesten erklärt.


Zeile 484: Zeile 531:
Nach dem Kaiser-Kriterium werden nur Komponenten gewählt, die einen Eigenwert größer Eins haben, also überdurchschnittlich beitragen. Im Beispiel wäre das nur die erste Komponente.
Nach dem Kaiser-Kriterium werden nur Komponenten gewählt, die einen Eigenwert größer Eins haben, also überdurchschnittlich beitragen. Im Beispiel wäre das nur die erste Komponente.


Screeplot: Von rechts kommend wird der Linienverlauf erstmals merkbar an der Stelle [[File:media/image353.png]][[File:media/image353.png]] abgelenkt. Das würde für zwei Komponenten sprechen.
Screeplot: Von rechts kommend wird der Linienverlauf erstmals merkbar an der Stelle <math>x=3</math> abgelenkt. Das würde für zwei Komponenten sprechen.
 
[[File:media/image354.png]]


<u><br />
[[Datei:Mt422 a5.png|300px|none|thumb]]
<u><br>
Aufgabe 3</u>
Aufgabe 3</u>


[[File:media/image355.png]]
[[Datei:Mt422 a6.png|300px|none|thumb]]


Die Darstellung zeigt, welche Variablen in den beiden Komponenten hoch laden. Komponente 1 fasst im wesentlichen die Variablen „Fettsäuren“, „Vitamingehalt“ und „Kaloriengehalt“, die untereinander hoch korrelieren zusammen. Haltbarkeit und Preis sind hier vernachlässigbar, jedoch am ehesten für Komponente 2 repräsentativ. Hier wird deutlich, was hohe bzw. niedrige Werte der beiden Komponenten bei den verschiedenen Produkten bedeuten.
Die Darstellung zeigt, welche Variablen in den beiden Komponenten hoch laden. Komponente 1 fasst im wesentlichen die Variablen „Fettsäuren“, „Vitamingehalt“ und „Kaloriengehalt“, die untereinander hoch korrelieren zusammen. Haltbarkeit und Preis sind hier vernachlässigbar, jedoch am ehesten für Komponente 2 repräsentativ. Hier wird deutlich, was hohe bzw. niedrige Werte der beiden Komponenten bei den verschiedenen Produkten bedeuten.
Zeile 507: Zeile 553:
<u>Aufgabe 3</u>
<u>Aufgabe 3</u>


In Beispiel 15 werden die paarweisen Kovarianzen/Korrelationen von sechs verschiedenen Variablen verwertet. Dies sind [[File:media/image356.png]][[File:media/image356.png]]. Da nur 9 Parameter geschätzt werden, ist das Gleichungssystem lösbar.
In Beispiel 15 werden die paarweisen Kovarianzen/Korrelationen von sechs verschiedenen Variablen verwertet. Dies sind <math>\frac{6 *(6+1)}{2}=21</math>. Da nur 9 Parameter geschätzt werden, ist das Gleichungssystem lösbar.

Aktuelle Version vom 20. Jänner 2022, 15:31 Uhr

Lösungen zu den Aufgaben und zu den Wiederholungsaufgaben

Lösungen zu den Aufgaben

Aufgabe 1

Mt422 a2.png

Wie auch schon Abbildung 2 vermuten lässt, ist – wenig überraschend – der lineare Zusammenhang zwischen dem Benzinverbrauch in der Stadt und auf der Autobahn betragsmäßig am größten (0,94).

Aufgabe 2

Mt422 a3.png

Die Regressionskoeffizienten ändern sich geringfügig. Die lineare Korrelation zwischen den Vorhersagewerten und der Originalvariable verändert sich durch Wegnahme einer einzigen Beobachtung immerhin von 0,80 auf 0,83.

Aufgabe 3

Analog zum Beispiel:

Versuch 1 2 3 4 5 6 7
Sorte 1 0,229 6,629 -0,571 -4,871 -1,471 2,029 -1,971
Sorte 2 -4,660 3,640 2,240 1,040 -2,260 - -
Sorte 3 3,050 -5,350 -3,450 4,450 2,150 -0,850 -

Draht Nr. 2 von Sorte 1 weicht am stärksten von der Prognose ab.

Aufgabe 4

Datensatz 1 Datensatz 2
Beobachtung Nr.


X1 X2 X3 Beobachtung Nr. X1 X2 X3
1


3 14 5 1 4 14 7
2


3 14 5 2 5 2 3
3


3 14 5 3 6 8 3
4


3 14 5 4 7 1 7
5


3 14 5 5 8 5 10

Datensatz 1 hat Bestimmtheitsmaß 100%, da alle drei Spalten (Variablen) keine Varianz aufweisen und die Mittelwerte unterschiedlich sind. Die Gesamtstreuung der Daten entfällt daher vollständig auf die Streuung zwischen den Gruppen­(mittelwerten). Datensatz 2 hat Bestimmtheitsmaß 0, da alle drei Spalten den glei­chen Mittelwert und Varianzen größer als Null aufweisen. Die Gesamtstreuung der Daten entfällt daher vollständig auf die Streuung innerhalb der einzelnen Gruppen.

Aufgabe 5

Bestimmtheitsmaß:

Aufgabe 6

Die Testentscheidung, ob H0 oder H1 gewählt werden soll, kann auf zwei Arten erfolgen.

Entweder es wird die Prüfgröße (im Beispiel 4,655) mit einem kritischen Wert, der von abhängt und einer Verteilungstabelle entstammt verglichen (im Beispiel 3,68). In diesem Fall wird für H1 entschieden, da 4,655>3,68. Im umgekehrten Fall wäre für H0 entschieden worden.

Die von Softwarepaketen durchgeführte, äquivalente Vorgehensweise dazu ist die Berechnung des p-Werts. Es wird also berechnet, mit welcher Wahrscheinlichkeit die F-Verteilung (im Beispiel mit 2 und 15 Freiheitsgraden) einen Wert größer als die Prüfgröße erzielt (in Excel: „FVERT(4,655;2;15)“ was als p-Wert 0,0267 liefert). Anschließend erfolgt die Testentscheidung, indem der p-Wert mit verglichen wird. Im vorliegenden Fall gilt: p-Wert, daher Entscheidung für H1. Der Vorteil nach letzterer Methode ist, dass auf einen Blick bestimmt werden kann, ab welchem der Test für H1 entscheidet. Der p-Wert wird auch bei Publikationen verwendet.

Aufgabe 7

Der p-Wert der Varianzanalyse ist 0,0264. Testet man auf 1%-Niveau, muss der p-Wert mit 1% verglichen werden. Da 0,0264>0,01 wird in diesem Fall die Nullhypothese H0 beibehalten.

Aufgabe 8

Alpha=5%: in Excel: „FINV(0,05;2;15)“ liefert 3,68 (vgl. Aufgabe 6)


Alpha=1%: in Excel: „FINV(0,01;2;15)“ liefert 6,36

Aufgabe 9

(PP niedrig) (PP mittel) (PP hoch) (Postwurf) (Anzeigen)

Interaktionen:

Interpretation (Beispiel): Bei Hochpreispolitik und Anzeigenwerbung werden durchschnittlich um 4,93 Stück mehr verkauft als aufgrund der getrennten Effekte zu erwarten gewesen wäre (d.h. der reduzierte Verkauf bei Hochpreispolitik wirkt sich eher bei der Werbeart „Postwurfsendung“) aus.

Aufgabe 10

Objektpaar



12 13 14 23 24 34
L1-Distanz Wert 12 11 10 5 4 9


Rang 6 5 4 2 1 3
L2-Distanz Wert 7,87 6,71 8,12 3,61 2,45 5,74


Rang 5 4 6 2 1 3

Die Rangfolgen der Distanzen zwischen den Objektpaaren sind nicht für beide Distanzmaße ident.

Aufgabe 11

Bei vier Objekten sind lt. Bell’schen Zahlen 15 Partitionen möglich:

1 / 2 / 3 / 4 12 / 3 / 4 13 / 2 / 4 14 / 2 / 3 23 / 1 / 4
24 / 1 / 3 34 / 1 / 2 12 / 34 13 / 24 14 / 23
123 / 4 124 / 3 134 / 2 234 / 1 1234

Aufgabe 12

Vollständige Rangordnung: ]; Tetradenmethode:

Bei 105 Vergleichen werden die Paare schrittweise sortiert (alle Paare werden z.B. auf Kärtchen präsentiert; diese werden vorerst in ähnliche und unähnliche Paare geteilt; die Untergruppen werden weiter geteilt). Bei 5460 Vergleichen muss jede Person nur einige Vergleiche durchführen.

Aufgabe 13

Die Distanz zwischen B und D ist am größten, jene zwischen A und D am kleinsten. Daher müssen die drei Objekte beispielsweise wie folgt liegen:

B A D

C und E müssten an den freien Stellen eingetragen werden. Nachdem die Distanz AE lt. Angabe größer als DE sein muss, ergibt sich hier ein Widerspruch.

Aufgabe 14

Bei 2 Dimensionen muss gelten, also muss sein.

Bei 3 Dimensionen muss , also muss sein.

Aufgabe 15

  1. Standardisierte Variablen haben Varianzen gleich Eins; die mittels Hauptachsentransformation rotierten Komponenten haben daher ebenfalls im Durchschnitt eine Varianz gleich Eins; es wird daher eine Varianzsumme gleich Acht aufgeteilt; die drei Achsen mit der höchsten Varianz haben demnach zumindest eine Varianzsumme größer als Drei, und…

  2. …erklären damit mindestens der Varianzsumme. Bei hochkorrelierten Variablen sollte die Varianzerklärung jedoch wesentlich höher liegen.

  3. Eine Varianzerklärung von 74% bedeutet, dass maximal fünf Achsen gewählt werden, da bei den besten sechs Achsen der erklärte Anteil jedenfalls zumindest wäre.

Aufgabe 16

Die errechneten Kommunalitäten finden sich alle in der Hauptdiagonale der reproduzierten Korrelationsmatrix. „Haltbarkeit“ wird durch die gewählten Komponenten am besten erklärt (99,3%).

Lösungen zu den Wiederholungsaufgaben

Lektion 1

Aufgabe 1

Da die Modellvoraussetzungen erfüllt sind, kann die geschätzte lineare Beziehung grundsätzlich vernünftig interpretiert werden, jedoch weist das niedrige Bestimmtheitsmaß auf eine schlechte Voraussage durch die erklärenden Variablen hin. Die Korrelation zwischen beobachteten Werten der Zielvariable und den geschätzten Werten beträgt lediglich .

Aufgabe 2

  1. Die Korrelation ist 1

  2. Die Varianz der Residuen ist gleich Null

  3. Alle Punkte liegen in einer (Hyper-)Ebene

Aufgabe 3

Grundsätzlich ist der Einfluss einer Variablen, die einmal ein positives und einmal ein negatives Vorzeichen annimmt, fraglich. Man weiß nicht, ob der Einfluss nun positiv oder negativ ist (oder überhaupt Null?). Das trifft für die Variablen, zu denen die Koeffizienten und geschätzt worden sind, zu. Auch ist fraglich. Objektiv lässt sich das nachprüfen, indem jeweils der Mittelwert über die drei Stichproben der Standardabweichung gegenübergestellt wird:

Mittelwert -0,30 -0,04 19,93 23,00 0,47
Standardabweichung 0,02 0,07 2,22 20,97 2,58
Mittelwert/Standardabweichung -19,86 -0,57 8,98 1,10 0,18

Die letzte Zeile zeigt auch die Prüfgröße, die üblicherweise bei einem statistischen Test für die Regressionsschätzer verwendet wird. Alle Zahlen nahe Null (insbesondere zwischen -2 und 2) deuten daraufhin, dass der zugrundeliegende Populations-Parameter eventuell nicht von Null verschieden ist.

Lektion 2

Aufgabe 1

Einerseits kann durch die Aufspaltung der gesamten Quadratsumme angegeben werden, welcher Anteil an der Gesamtstreuung durch die Faktoren erklärt wird (deskriptiv). Andererseits bilden die aufgespaltenen Quadratsummen „Zwischen“ und „Innerhalb“ die Basis für den statistischen Test, ob überzufällige Mittelwerts­unterschiede existieren (induktiv).

Aufgabe 2

Weil sonst (insbesondere bei kleinen Stichproben) die Prüfgröße nicht F-verteilt ist und die Varianzanalyse ungültig ist.

Aufgabe 3

  • Ja. Ein signifikanter Effekt ist bei einer größeren Stichprobe jedenfalls auch signifikant.
  • Müsste konkret nachgeprüft werden. Je kleiner der Stichprobenumfang, desto eher wird für H0 entschieden, wenn alles andere konstant gehalten wird.
  • Falls der p-Wert des Tests zwischen 1% und 5% liegt, wäre das Ergebnis nicht signifikant. Wenn er kleiner ist, schon.

Aufgabe 4

Der kritische Wert wird größer, da das 99%-Quantil größer als das 95%-Quantil ist. Dies führt dazu, dass H0 eher beibehalten wird.

Lektion 3

Aufgabe 1

Eine Partition ist ein System von Teilmengen der zu untersuchenden Objekte, wobei alle paarweisen Schnittmengen leer sind und die Vereinigung dieser Teilmengen die Objektmenge ergibt. Das Auffinden der in gewissen Sinne besten Partition ist das Ziel der Clusteranalyse.

Aufgabe 2

Eine Hierarchie ist eine Art Stammbaum, der angibt, in welcher Reihenfolge die Partitionen bei hierarchischen Clusterverfahren vergröbert bzw. verfeinert werden. In der Clusteranalyse ist die übliche Darstellungsform einer Hierarchie ein Dendrogramm.

Aufgabe 3

Bei hierarchischen Verfahren wird ein „Pfad“ abgesucht, der entweder von der Menge aller einelementigen Teilmengen der Untersuchungsobjekte zur Vereini­gungs­menge (agglomerative Verfahren) führt, oder den umgekehrten Weg (divisive Ver­fahren). Hierbei werden der Reihe nach immer zwei Cluster vereinigt (Ver­gröberung) oder ein Cluster in zwei Teile aufgespalten (Verfeinerung). Damit wird untersucht, welche Clusteranzahl die beste ist. Bei partitionierenden Verfahren wird im vorhinein festgelegt, wieviele Cluster gewünscht sind und es werden ver­schiedene Partitionen derselben Clusteranzahl bezüglich eines Kriteriums optimiert.

Aufgabe 4

Von der Startpartition, die 20 Cluster zu je einem Element enthält, bis zur Ziel­partition, die einen Cluster mit 20 Elementen enthält werden bei einem agglomerativen Verfahren insgesamt 20 Partitionen untersucht. Gesamt gibt es bei 20 Elementen 51724158235372 Partitionen.

Aufgabe 5

Schritt Nr. Partition Heterogenität
0 1 / 2 / 3 / 4 0
1 1 / 3 / 24 2,45
2 1 / 234 4,68
3 1234 7,57
Mt422 a4.png


Lektion 4

Aufgabe 1

Die Konfiguration ist die Anordnung der Beobachtungseinheiten in einem gewählten, meist zwei- oder dreidimensionalen Raum. Eine optimale Konfiguration zu finden, sodass ähnliche Objekte nahe bzw. unähnliche Objekte weit entfernt voneinander dargestellt werden ist das Ziel der MDS.

Die Distanz zwischen je zwei Objekten ist ein quantifiziertes Maß für ihre Unähnlichkeit. Je verschiedener eine Person zwei Objekte beurteilt bzw. je größer die Differenz zwischen einzelnen Merkmalen der Objekte sind, desto größer ist ihre Distanz zueinander.

Die Disparitäten sind Rechenhilfsgrößen bei der MDS. Sie modifizieren jede einzelne Distanz in der aktuellen Konfiguration um die kleinstmögliche Differenz, sodass die geforderte Distanzordnung eingehalten werden kann. Bei einer perfekt erstellten Ordnung gibt es keinen Unterschied zwischen den Disparitäten und den Distanzen.

Aufgabe 2

Sowohl die Clusteranalyse, als auch die MDS bewerten Distanzen der Objekte zueinander. Beide Verfahren benötigen nicht die Daten selbst, sondern kommen ausschließlich mit einer Distanzmatrix als Input aus. Die Clusteranalyse versucht, in bestehenden Daten homogene Gruppen zu finden. Ziel der MDS hingegen ist vor allem die Visualisierung der Abstände von Objekten zueinander.

Aufgabe 3

D: ;

E:


Aufgabe 4

Die Disparitäten bilden eine monoton nicht fallende Funktion in . Daher sind (1) die richtigen Disparitäten.

Das Stressmaß beträgt: .

Daher kann die gefundene Konfiguration nur als „ausreichend“ bezeichnet werden.

Lektion 5

Aufgabe 1

Die Residuen der Korrelationen sind wie folgt:

Kaloriengehalt Vitamingehalt Haltbarkeit Preis
Fettsäuren 0,115 -0,033 -0,003 -0,003
Kaloriengehalt


0,119 0,001 0,014
Vitamingehalt



0,002 -0,009
Haltbarkeit




0,007

Die Korrelation zwischen Kaloriengehalt und Vitamingehalt wird mittels der beiden gewählten Komponenten am schlechtesten erklärt.

Aufgabe 2

Für zumindest 90% der Varianz sind zwei Komponenten notwendig.

Nach dem Kaiser-Kriterium werden nur Komponenten gewählt, die einen Eigenwert größer Eins haben, also überdurchschnittlich beitragen. Im Beispiel wäre das nur die erste Komponente.

Screeplot: Von rechts kommend wird der Linienverlauf erstmals merkbar an der Stelle abgelenkt. Das würde für zwei Komponenten sprechen.

Mt422 a5.png


Aufgabe 3

Mt422 a6.png

Die Darstellung zeigt, welche Variablen in den beiden Komponenten hoch laden. Komponente 1 fasst im wesentlichen die Variablen „Fettsäuren“, „Vitamingehalt“ und „Kaloriengehalt“, die untereinander hoch korrelieren zusammen. Haltbarkeit und Preis sind hier vernachlässigbar, jedoch am ehesten für Komponente 2 repräsentativ. Hier wird deutlich, was hohe bzw. niedrige Werte der beiden Komponenten bei den verschiedenen Produkten bedeuten.

Lektion 6

Aufgabe 1

Vgl. Abbildung 39.

Aufgabe 2

Mess- und Strukturmodell sind die Komponenten eines allgemeinen Strukturgleichungsmodells. Das Messmodell gibt an, in welcher Form die latenten Faktoren durch die beobachteten Merkmale beschrieben/ gemessen werden können. Das Strukturmodellgibt an, wie die latenten Variablen untereinander wirken.

Aufgabe 3

In Beispiel 15 werden die paarweisen Kovarianzen/Korrelationen von sechs verschiedenen Variablen verwertet. Dies sind . Da nur 9 Parameter geschätzt werden, ist das Gleichungssystem lösbar.