Methoden der Datenanalyse - Lösungen: Unterschied zwischen den Versionen

Aus FernFH MediaWiki
Zur Navigation springen Zur Suche springen
 
(4 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 19: Zeile 19:
Analog zum Beispiel:
Analog zum Beispiel:


{| style="border-collapse: collapse;" border="1"  
{| style="border-collapse: collapse;" border="1"
! width="14%" | Versuch
! width="14%" | Versuch
! width="13%" | 1
! width="13%" | 1
Zeile 60: Zeile 60:
Aufgabe 4
Aufgabe 4


{| style="border-collapse: collapse; height: 197px;" border="1"  
{| style="border-collapse: collapse; height: 197px;" border="1"
! style="height: 28px; width: 111.771px;" | '''Datensatz 1'''
! style="height: 28px; width: 111.771px;" | '''Datensatz 1'''
! style="height: 28px; width: 58.2292px;" |  
! style="height: 28px; width: 58.2292px;" |  
Zeile 70: Zeile 70:
! style="height: 28px; width: 58.2292px;" |  
! style="height: 28px; width: 58.2292px;" |  
! style="height: 28px; width: 58.2755px;" |  
! style="height: 28px; width: 58.2755px;" |  
|- style="height: 28px;"  
|- style="height: 28px;"
| style="height: 28px; width: 111.771px;" | Beobachtung Nr.
| style="height: 28px; width: 111.771px;" | Beobachtung Nr.
| style="height: 28px; width: 58.2292px;" |
| style="height: 28px; width: 58.2292px;" |
Zeile 81: Zeile 81:
| style="height: 28px; width: 58.2292px;" | X<sub>2</sub>
| style="height: 28px; width: 58.2292px;" | X<sub>2</sub>
| style="height: 28px; width: 58.2755px;" | X<sub>3</sub>
| style="height: 28px; width: 58.2755px;" | X<sub>3</sub>
|- style="height: 28px;"  
|- style="height: 28px;"
| style="height: 28px; width: 111.771px;" | 1
| style="height: 28px; width: 111.771px;" | 1
| style="height: 28px; width: 58.2292px;" |
| style="height: 28px; width: 58.2292px;" |
Zeile 92: Zeile 92:
| style="height: 28px; width: 58.2292px;" | 14
| style="height: 28px; width: 58.2292px;" | 14
| style="height: 28px; width: 58.2755px;" | 7
| style="height: 28px; width: 58.2755px;" | 7
|- style="height: 29px;"  
|- style="height: 29px;"
| style="height: 29px; width: 111.771px;" | 2
| style="height: 29px; width: 111.771px;" | 2
| style="height: 29px; width: 58.2292px;" |
| style="height: 29px; width: 58.2292px;" |
Zeile 103: Zeile 103:
| style="height: 29px; width: 58.2292px;" | 2
| style="height: 29px; width: 58.2292px;" | 2
| style="height: 29px; width: 58.2755px;" | 3
| style="height: 29px; width: 58.2755px;" | 3
|- style="height: 28px;"  
|- style="height: 28px;"
| style="height: 28px; width: 111.771px;" | 3
| style="height: 28px; width: 111.771px;" | 3
| style="height: 28px; width: 58.2292px;" |
| style="height: 28px; width: 58.2292px;" |
Zeile 114: Zeile 114:
| style="height: 28px; width: 58.2292px;" | 8
| style="height: 28px; width: 58.2292px;" | 8
| style="height: 28px; width: 58.2755px;" | 3
| style="height: 28px; width: 58.2755px;" | 3
|- style="height: 28px;"  
|- style="height: 28px;"
| style="height: 28px; width: 111.771px;" | 4
| style="height: 28px; width: 111.771px;" | 4
| style="height: 28px; width: 58.2292px;" |
| style="height: 28px; width: 58.2292px;" |
Zeile 125: Zeile 125:
| style="height: 28px; width: 58.2292px;" | 1
| style="height: 28px; width: 58.2292px;" | 1
| style="height: 28px; width: 58.2755px;" | 7
| style="height: 28px; width: 58.2755px;" | 7
|- style="height: 28px;"  
|- style="height: 28px;"
| style="height: 28px; width: 111.771px;" | 5
| style="height: 28px; width: 111.771px;" | 5
| style="height: 28px; width: 58.2292px;" |
| style="height: 28px; width: 58.2292px;" |
Zeile 192: Zeile 192:
Aufgabe 10
Aufgabe 10


{| style="border-collapse: collapse;" border="1"  
{| style="border-collapse: collapse;" border="1"
! style="width: 69.4792px;" |  
! style="width: 69.4792px;" |  
! style="width: 69.4792px;" |  
! style="width: 69.4792px;" |  
Zeile 257: Zeile 257:
Bei vier Objekten sind lt. Bell’schen Zahlen 15 Partitionen möglich:
Bei vier Objekten sind lt. Bell’schen Zahlen 15 Partitionen möglich:


{| style="border-collapse: collapse;" border="1"  
{| style="border-collapse: collapse;" border="1"
! width="20%" | 1 / 2 / 3 / 4
! width="20%" | 1 / 2 / 3 / 4
! width="20%" | 12 / 3 / 4
! width="20%" | 12 / 3 / 4
Zeile 281: Zeile 281:
15 \\
15 \\
2
2
\end{array}\right)=105</math>]; Tetradenmethode: <math>\left(\left(\begin{array}{c}
\end{array}\right)=105</math>]; Tetradenmethode: <math>\left(\begin{array}{c}\left(\begin{array}{c}
15 \\
15 \\
2
2 \\
\end{array}\right)\right)=\left(\begin{array}{c}
\end{array}\right)
2
\end{array}\right)=\left(\begin{array}{c}
105 \\
105 \\
2
2
Zeile 340: Zeile 342:
<u>Aufgabe 1</u>
<u>Aufgabe 1</u>


Da die Modellvoraussetzungen erfüllt sind, kann die geschätzte lineare Beziehung grundsätzlich vernünftig interpretiert werden, jedoch weist das niedrige Bestimmtheitsmaß auf eine schlechte Voraussage durch die erklärenden Variablen hin. Die Korrelation zwischen beobachteten Werten der Zielvariable und den geschätzten Werten beträgt lediglich <math></math>.
Da die Modellvoraussetzungen erfüllt sind, kann die geschätzte lineare Beziehung grundsätzlich vernünftig interpretiert werden, jedoch weist das niedrige Bestimmtheitsmaß auf eine schlechte Voraussage durch die erklärenden Variablen hin. Die Korrelation zwischen beobachteten Werten der Zielvariable und den geschätzten Werten beträgt lediglich <math>\pm \sqrt{0,1}=\pm 0,32</math>.


<u>Aufgabe 2</u>
<u>Aufgabe 2</u>
Zeile 352: Zeile 354:
<u>Aufgabe 3</u>
<u>Aufgabe 3</u>


Grundsätzlich ist der Einfluss einer Variablen, die einmal ein positives und einmal ein negatives Vorzeichen annimmt, fraglich. Man weiß nicht, ob der Einfluss nun positiv oder negativ ist (oder überhaupt Null?). Das trifft für die Variablen, zu denen die Koeffizienten <math></math> und <math></math> geschätzt worden sind, zu. Auch <math></math> ist fraglich. Objektiv lässt sich das nachprüfen, indem jeweils der Mittelwert über die drei Stichproben der Standardabweichung gegenübergestellt wird:
Grundsätzlich ist der Einfluss einer Variablen, die einmal ein positives und einmal ein negatives Vorzeichen annimmt, fraglich. Man weiß nicht, ob der Einfluss nun positiv oder negativ ist (oder überhaupt Null?). Das trifft für die Variablen, zu denen die Koeffizienten <math>\widehat{\beta_{1}}</math> und <math>\widehat{\beta_{2}}</math> geschätzt worden sind, zu. Auch <math>\widehat{\beta_{3}}</math> ist fraglich. Objektiv lässt sich das nachprüfen, indem jeweils der Mittelwert über die drei Stichproben der Standardabweichung gegenübergestellt wird:


{| style="border-collapse: collapse;" border="1"  
{| style="border-collapse: collapse;" border="1"
! width="36%" |  
! width="36%" |  
! width="12%" | <math></math>
! width="12%" | <math>\widehat{\beta_{0}}</math>
! width="12%" | <math></math>
! width="12%" | <math>\widehat{\beta_{1}}</math>
! width="12%" | <math></math>
! width="12%" | <math>\widehat{\beta_{2}}</math>
! width="12%" | <math></math>
! width="12%" | <math>\widehat{\beta_{3}}</math>
! width="12%" | <math></math>
! width="12%" | <math>\widehat{\beta_{4}}</math>
|-  
|-  
| Mittelwert
| Mittelwert
Zeile 425: Zeile 427:
<u>Aufgabe 5</u>
<u>Aufgabe 5</u>


{| style="border-collapse: collapse;" border="1"  
{| style="border-collapse: collapse;" border="1"
! width="30%" | Schritt Nr.
! width="30%" | Schritt Nr.
! width="30%" | Partition
! width="30%" | Partition
Zeile 446: Zeile 448:
| 7,57
| 7,57
|}
|}
<math></math>
[[Datei:Mt422 a4.png|300px|none|thumb]]
 


'''Lektion 4'''
'''Lektion 4'''
Zeile 464: Zeile 467:
<u>Aufgabe 3</u>
<u>Aufgabe 3</u>


D: <math></math>;
D: <math>x_{41}^{+}=8,69 ; x_{42}^{+}=-12,34</math>;


E: <math></math>
E: <math>x_{51}^{+}=0,04 ; x_{52}^{+}=5,00</math>


<u><br>
<u><br>
Aufgabe 4</u>
Aufgabe 4</u>


Die Disparitäten bilden eine monoton nicht fallende Funktion in <math></math>. Daher sind (1) die richtigen Disparitäten.
Die Disparitäten bilden eine monoton nicht fallende Funktion in <math>u_{k l}</math>. Daher sind (1) die richtigen Disparitäten.


Das Stressmaß beträgt: <math></math>.
Das Stressmaß beträgt: <math>S T R E S S_{1}=\sqrt{\frac{\sum\left(d_{k !}-\alpha_{k !}^{2}\right)^{2}}{\sum d_{k !}^{2}}}=\sqrt{\frac{2,5}{91}}=0,17</math>.


Daher kann die gefundene Konfiguration nur als „ausreichend“ bezeichnet werden.
Daher kann die gefundene Konfiguration nur als „ausreichend“ bezeichnet werden.
Zeile 483: Zeile 486:
Die Residuen der Korrelationen sind wie folgt:
Die Residuen der Korrelationen sind wie folgt:


{| style="border-collapse: collapse;" border="1"  
{| style="border-collapse: collapse;" border="1"
! width="21%" |  
! width="21%" |  
! width="22%" | Kaloriengehalt
! width="22%" | Kaloriengehalt
Zeile 528: Zeile 531:
Nach dem Kaiser-Kriterium werden nur Komponenten gewählt, die einen Eigenwert größer Eins haben, also überdurchschnittlich beitragen. Im Beispiel wäre das nur die erste Komponente.
Nach dem Kaiser-Kriterium werden nur Komponenten gewählt, die einen Eigenwert größer Eins haben, also überdurchschnittlich beitragen. Im Beispiel wäre das nur die erste Komponente.


Screeplot: Von rechts kommend wird der Linienverlauf erstmals merkbar an der Stelle v abgelenkt. Das würde für zwei Komponenten sprechen.
Screeplot: Von rechts kommend wird der Linienverlauf erstmals merkbar an der Stelle <math>x=3</math> abgelenkt. Das würde für zwei Komponenten sprechen.
 
<math></math>


[[Datei:Mt422 a5.png|300px|none|thumb]]
<u><br>
<u><br>
Aufgabe 3</u>
Aufgabe 3</u>


<math></math>
[[Datei:Mt422 a6.png|300px|none|thumb]]


Die Darstellung zeigt, welche Variablen in den beiden Komponenten hoch laden. Komponente 1 fasst im wesentlichen die Variablen „Fettsäuren“, „Vitamingehalt“ und „Kaloriengehalt“, die untereinander hoch korrelieren zusammen. Haltbarkeit und Preis sind hier vernachlässigbar, jedoch am ehesten für Komponente 2 repräsentativ. Hier wird deutlich, was hohe bzw. niedrige Werte der beiden Komponenten bei den verschiedenen Produkten bedeuten.
Die Darstellung zeigt, welche Variablen in den beiden Komponenten hoch laden. Komponente 1 fasst im wesentlichen die Variablen „Fettsäuren“, „Vitamingehalt“ und „Kaloriengehalt“, die untereinander hoch korrelieren zusammen. Haltbarkeit und Preis sind hier vernachlässigbar, jedoch am ehesten für Komponente 2 repräsentativ. Hier wird deutlich, was hohe bzw. niedrige Werte der beiden Komponenten bei den verschiedenen Produkten bedeuten.
Zeile 551: Zeile 553:
<u>Aufgabe 3</u>
<u>Aufgabe 3</u>


In Beispiel 15 werden die paarweisen Kovarianzen/Korrelationen von sechs verschiedenen Variablen verwertet. Dies sind <math></math>. Da nur 9 Parameter geschätzt werden, ist das Gleichungssystem lösbar.
In Beispiel 15 werden die paarweisen Kovarianzen/Korrelationen von sechs verschiedenen Variablen verwertet. Dies sind <math>\frac{6 *(6+1)}{2}=21</math>. Da nur 9 Parameter geschätzt werden, ist das Gleichungssystem lösbar.

Aktuelle Version vom 20. Jänner 2022, 15:31 Uhr

Lösungen zu den Aufgaben und zu den Wiederholungsaufgaben

Lösungen zu den Aufgaben

Aufgabe 1

Mt422 a2.png

Wie auch schon Abbildung 2 vermuten lässt, ist – wenig überraschend – der lineare Zusammenhang zwischen dem Benzinverbrauch in der Stadt und auf der Autobahn betragsmäßig am größten (0,94).

Aufgabe 2

Mt422 a3.png

Die Regressionskoeffizienten ändern sich geringfügig. Die lineare Korrelation zwischen den Vorhersagewerten und der Originalvariable verändert sich durch Wegnahme einer einzigen Beobachtung immerhin von 0,80 auf 0,83.

Aufgabe 3

Analog zum Beispiel:

Versuch 1 2 3 4 5 6 7
Sorte 1 0,229 6,629 -0,571 -4,871 -1,471 2,029 -1,971
Sorte 2 -4,660 3,640 2,240 1,040 -2,260 - -
Sorte 3 3,050 -5,350 -3,450 4,450 2,150 -0,850 -

Draht Nr. 2 von Sorte 1 weicht am stärksten von der Prognose ab.

Aufgabe 4

Datensatz 1 Datensatz 2
Beobachtung Nr.


X1 X2 X3 Beobachtung Nr. X1 X2 X3
1


3 14 5 1 4 14 7
2


3 14 5 2 5 2 3
3


3 14 5 3 6 8 3
4


3 14 5 4 7 1 7
5


3 14 5 5 8 5 10

Datensatz 1 hat Bestimmtheitsmaß 100%, da alle drei Spalten (Variablen) keine Varianz aufweisen und die Mittelwerte unterschiedlich sind. Die Gesamtstreuung der Daten entfällt daher vollständig auf die Streuung zwischen den Gruppen­(mittelwerten). Datensatz 2 hat Bestimmtheitsmaß 0, da alle drei Spalten den glei­chen Mittelwert und Varianzen größer als Null aufweisen. Die Gesamtstreuung der Daten entfällt daher vollständig auf die Streuung innerhalb der einzelnen Gruppen.

Aufgabe 5

Bestimmtheitsmaß:

Aufgabe 6

Die Testentscheidung, ob H0 oder H1 gewählt werden soll, kann auf zwei Arten erfolgen.

Entweder es wird die Prüfgröße (im Beispiel 4,655) mit einem kritischen Wert, der von abhängt und einer Verteilungstabelle entstammt verglichen (im Beispiel 3,68). In diesem Fall wird für H1 entschieden, da 4,655>3,68. Im umgekehrten Fall wäre für H0 entschieden worden.

Die von Softwarepaketen durchgeführte, äquivalente Vorgehensweise dazu ist die Berechnung des p-Werts. Es wird also berechnet, mit welcher Wahrscheinlichkeit die F-Verteilung (im Beispiel mit 2 und 15 Freiheitsgraden) einen Wert größer als die Prüfgröße erzielt (in Excel: „FVERT(4,655;2;15)“ was als p-Wert 0,0267 liefert). Anschließend erfolgt die Testentscheidung, indem der p-Wert mit verglichen wird. Im vorliegenden Fall gilt: p-Wert, daher Entscheidung für H1. Der Vorteil nach letzterer Methode ist, dass auf einen Blick bestimmt werden kann, ab welchem der Test für H1 entscheidet. Der p-Wert wird auch bei Publikationen verwendet.

Aufgabe 7

Der p-Wert der Varianzanalyse ist 0,0264. Testet man auf 1%-Niveau, muss der p-Wert mit 1% verglichen werden. Da 0,0264>0,01 wird in diesem Fall die Nullhypothese H0 beibehalten.

Aufgabe 8

Alpha=5%: in Excel: „FINV(0,05;2;15)“ liefert 3,68 (vgl. Aufgabe 6)


Alpha=1%: in Excel: „FINV(0,01;2;15)“ liefert 6,36

Aufgabe 9

(PP niedrig) (PP mittel) (PP hoch) (Postwurf) (Anzeigen)

Interaktionen:

Interpretation (Beispiel): Bei Hochpreispolitik und Anzeigenwerbung werden durchschnittlich um 4,93 Stück mehr verkauft als aufgrund der getrennten Effekte zu erwarten gewesen wäre (d.h. der reduzierte Verkauf bei Hochpreispolitik wirkt sich eher bei der Werbeart „Postwurfsendung“) aus.

Aufgabe 10

Objektpaar



12 13 14 23 24 34
L1-Distanz Wert 12 11 10 5 4 9


Rang 6 5 4 2 1 3
L2-Distanz Wert 7,87 6,71 8,12 3,61 2,45 5,74


Rang 5 4 6 2 1 3

Die Rangfolgen der Distanzen zwischen den Objektpaaren sind nicht für beide Distanzmaße ident.

Aufgabe 11

Bei vier Objekten sind lt. Bell’schen Zahlen 15 Partitionen möglich:

1 / 2 / 3 / 4 12 / 3 / 4 13 / 2 / 4 14 / 2 / 3 23 / 1 / 4
24 / 1 / 3 34 / 1 / 2 12 / 34 13 / 24 14 / 23
123 / 4 124 / 3 134 / 2 234 / 1 1234

Aufgabe 12

Vollständige Rangordnung: ]; Tetradenmethode:

Bei 105 Vergleichen werden die Paare schrittweise sortiert (alle Paare werden z.B. auf Kärtchen präsentiert; diese werden vorerst in ähnliche und unähnliche Paare geteilt; die Untergruppen werden weiter geteilt). Bei 5460 Vergleichen muss jede Person nur einige Vergleiche durchführen.

Aufgabe 13

Die Distanz zwischen B und D ist am größten, jene zwischen A und D am kleinsten. Daher müssen die drei Objekte beispielsweise wie folgt liegen:

B A D

C und E müssten an den freien Stellen eingetragen werden. Nachdem die Distanz AE lt. Angabe größer als DE sein muss, ergibt sich hier ein Widerspruch.

Aufgabe 14

Bei 2 Dimensionen muss gelten, also muss sein.

Bei 3 Dimensionen muss , also muss sein.

Aufgabe 15

  1. Standardisierte Variablen haben Varianzen gleich Eins; die mittels Hauptachsentransformation rotierten Komponenten haben daher ebenfalls im Durchschnitt eine Varianz gleich Eins; es wird daher eine Varianzsumme gleich Acht aufgeteilt; die drei Achsen mit der höchsten Varianz haben demnach zumindest eine Varianzsumme größer als Drei, und…

  2. …erklären damit mindestens der Varianzsumme. Bei hochkorrelierten Variablen sollte die Varianzerklärung jedoch wesentlich höher liegen.

  3. Eine Varianzerklärung von 74% bedeutet, dass maximal fünf Achsen gewählt werden, da bei den besten sechs Achsen der erklärte Anteil jedenfalls zumindest wäre.

Aufgabe 16

Die errechneten Kommunalitäten finden sich alle in der Hauptdiagonale der reproduzierten Korrelationsmatrix. „Haltbarkeit“ wird durch die gewählten Komponenten am besten erklärt (99,3%).

Lösungen zu den Wiederholungsaufgaben

Lektion 1

Aufgabe 1

Da die Modellvoraussetzungen erfüllt sind, kann die geschätzte lineare Beziehung grundsätzlich vernünftig interpretiert werden, jedoch weist das niedrige Bestimmtheitsmaß auf eine schlechte Voraussage durch die erklärenden Variablen hin. Die Korrelation zwischen beobachteten Werten der Zielvariable und den geschätzten Werten beträgt lediglich .

Aufgabe 2

  1. Die Korrelation ist 1

  2. Die Varianz der Residuen ist gleich Null

  3. Alle Punkte liegen in einer (Hyper-)Ebene

Aufgabe 3

Grundsätzlich ist der Einfluss einer Variablen, die einmal ein positives und einmal ein negatives Vorzeichen annimmt, fraglich. Man weiß nicht, ob der Einfluss nun positiv oder negativ ist (oder überhaupt Null?). Das trifft für die Variablen, zu denen die Koeffizienten und geschätzt worden sind, zu. Auch ist fraglich. Objektiv lässt sich das nachprüfen, indem jeweils der Mittelwert über die drei Stichproben der Standardabweichung gegenübergestellt wird:

Mittelwert -0,30 -0,04 19,93 23,00 0,47
Standardabweichung 0,02 0,07 2,22 20,97 2,58
Mittelwert/Standardabweichung -19,86 -0,57 8,98 1,10 0,18

Die letzte Zeile zeigt auch die Prüfgröße, die üblicherweise bei einem statistischen Test für die Regressionsschätzer verwendet wird. Alle Zahlen nahe Null (insbesondere zwischen -2 und 2) deuten daraufhin, dass der zugrundeliegende Populations-Parameter eventuell nicht von Null verschieden ist.

Lektion 2

Aufgabe 1

Einerseits kann durch die Aufspaltung der gesamten Quadratsumme angegeben werden, welcher Anteil an der Gesamtstreuung durch die Faktoren erklärt wird (deskriptiv). Andererseits bilden die aufgespaltenen Quadratsummen „Zwischen“ und „Innerhalb“ die Basis für den statistischen Test, ob überzufällige Mittelwerts­unterschiede existieren (induktiv).

Aufgabe 2

Weil sonst (insbesondere bei kleinen Stichproben) die Prüfgröße nicht F-verteilt ist und die Varianzanalyse ungültig ist.

Aufgabe 3

  • Ja. Ein signifikanter Effekt ist bei einer größeren Stichprobe jedenfalls auch signifikant.
  • Müsste konkret nachgeprüft werden. Je kleiner der Stichprobenumfang, desto eher wird für H0 entschieden, wenn alles andere konstant gehalten wird.
  • Falls der p-Wert des Tests zwischen 1% und 5% liegt, wäre das Ergebnis nicht signifikant. Wenn er kleiner ist, schon.

Aufgabe 4

Der kritische Wert wird größer, da das 99%-Quantil größer als das 95%-Quantil ist. Dies führt dazu, dass H0 eher beibehalten wird.

Lektion 3

Aufgabe 1

Eine Partition ist ein System von Teilmengen der zu untersuchenden Objekte, wobei alle paarweisen Schnittmengen leer sind und die Vereinigung dieser Teilmengen die Objektmenge ergibt. Das Auffinden der in gewissen Sinne besten Partition ist das Ziel der Clusteranalyse.

Aufgabe 2

Eine Hierarchie ist eine Art Stammbaum, der angibt, in welcher Reihenfolge die Partitionen bei hierarchischen Clusterverfahren vergröbert bzw. verfeinert werden. In der Clusteranalyse ist die übliche Darstellungsform einer Hierarchie ein Dendrogramm.

Aufgabe 3

Bei hierarchischen Verfahren wird ein „Pfad“ abgesucht, der entweder von der Menge aller einelementigen Teilmengen der Untersuchungsobjekte zur Vereini­gungs­menge (agglomerative Verfahren) führt, oder den umgekehrten Weg (divisive Ver­fahren). Hierbei werden der Reihe nach immer zwei Cluster vereinigt (Ver­gröberung) oder ein Cluster in zwei Teile aufgespalten (Verfeinerung). Damit wird untersucht, welche Clusteranzahl die beste ist. Bei partitionierenden Verfahren wird im vorhinein festgelegt, wieviele Cluster gewünscht sind und es werden ver­schiedene Partitionen derselben Clusteranzahl bezüglich eines Kriteriums optimiert.

Aufgabe 4

Von der Startpartition, die 20 Cluster zu je einem Element enthält, bis zur Ziel­partition, die einen Cluster mit 20 Elementen enthält werden bei einem agglomerativen Verfahren insgesamt 20 Partitionen untersucht. Gesamt gibt es bei 20 Elementen 51724158235372 Partitionen.

Aufgabe 5

Schritt Nr. Partition Heterogenität
0 1 / 2 / 3 / 4 0
1 1 / 3 / 24 2,45
2 1 / 234 4,68
3 1234 7,57
Mt422 a4.png


Lektion 4

Aufgabe 1

Die Konfiguration ist die Anordnung der Beobachtungseinheiten in einem gewählten, meist zwei- oder dreidimensionalen Raum. Eine optimale Konfiguration zu finden, sodass ähnliche Objekte nahe bzw. unähnliche Objekte weit entfernt voneinander dargestellt werden ist das Ziel der MDS.

Die Distanz zwischen je zwei Objekten ist ein quantifiziertes Maß für ihre Unähnlichkeit. Je verschiedener eine Person zwei Objekte beurteilt bzw. je größer die Differenz zwischen einzelnen Merkmalen der Objekte sind, desto größer ist ihre Distanz zueinander.

Die Disparitäten sind Rechenhilfsgrößen bei der MDS. Sie modifizieren jede einzelne Distanz in der aktuellen Konfiguration um die kleinstmögliche Differenz, sodass die geforderte Distanzordnung eingehalten werden kann. Bei einer perfekt erstellten Ordnung gibt es keinen Unterschied zwischen den Disparitäten und den Distanzen.

Aufgabe 2

Sowohl die Clusteranalyse, als auch die MDS bewerten Distanzen der Objekte zueinander. Beide Verfahren benötigen nicht die Daten selbst, sondern kommen ausschließlich mit einer Distanzmatrix als Input aus. Die Clusteranalyse versucht, in bestehenden Daten homogene Gruppen zu finden. Ziel der MDS hingegen ist vor allem die Visualisierung der Abstände von Objekten zueinander.

Aufgabe 3

D: ;

E:


Aufgabe 4

Die Disparitäten bilden eine monoton nicht fallende Funktion in . Daher sind (1) die richtigen Disparitäten.

Das Stressmaß beträgt: .

Daher kann die gefundene Konfiguration nur als „ausreichend“ bezeichnet werden.

Lektion 5

Aufgabe 1

Die Residuen der Korrelationen sind wie folgt:

Kaloriengehalt Vitamingehalt Haltbarkeit Preis
Fettsäuren 0,115 -0,033 -0,003 -0,003
Kaloriengehalt


0,119 0,001 0,014
Vitamingehalt



0,002 -0,009
Haltbarkeit




0,007

Die Korrelation zwischen Kaloriengehalt und Vitamingehalt wird mittels der beiden gewählten Komponenten am schlechtesten erklärt.

Aufgabe 2

Für zumindest 90% der Varianz sind zwei Komponenten notwendig.

Nach dem Kaiser-Kriterium werden nur Komponenten gewählt, die einen Eigenwert größer Eins haben, also überdurchschnittlich beitragen. Im Beispiel wäre das nur die erste Komponente.

Screeplot: Von rechts kommend wird der Linienverlauf erstmals merkbar an der Stelle abgelenkt. Das würde für zwei Komponenten sprechen.

Mt422 a5.png


Aufgabe 3

Mt422 a6.png

Die Darstellung zeigt, welche Variablen in den beiden Komponenten hoch laden. Komponente 1 fasst im wesentlichen die Variablen „Fettsäuren“, „Vitamingehalt“ und „Kaloriengehalt“, die untereinander hoch korrelieren zusammen. Haltbarkeit und Preis sind hier vernachlässigbar, jedoch am ehesten für Komponente 2 repräsentativ. Hier wird deutlich, was hohe bzw. niedrige Werte der beiden Komponenten bei den verschiedenen Produkten bedeuten.

Lektion 6

Aufgabe 1

Vgl. Abbildung 39.

Aufgabe 2

Mess- und Strukturmodell sind die Komponenten eines allgemeinen Strukturgleichungsmodells. Das Messmodell gibt an, in welcher Form die latenten Faktoren durch die beobachteten Merkmale beschrieben/ gemessen werden können. Das Strukturmodellgibt an, wie die latenten Variablen untereinander wirken.

Aufgabe 3

In Beispiel 15 werden die paarweisen Kovarianzen/Korrelationen von sechs verschiedenen Variablen verwertet. Dies sind . Da nur 9 Parameter geschätzt werden, ist das Gleichungssystem lösbar.