class: center, middle, inverse, title-slide # Einführung in die Quantitative Datenanalyse ## Sitzung 5: Lineare Regression III und Deskriptive Statistik ### Proseminar an der Freien Universität Berlin ### 2.05.2017 - Marcus Spittler --- # <span class="red">Inhalt der 5. Sitzung</span> - <span class="red">**Univariate Häufigkeitsverteilungen**</span> - Absolute Häufigkeit - Relative Häufigkeit - Kumulierte Häufigkeit - <span class="blue"> Grafische Darstellung </span> - Balkendiagramm - Histogramm - Dichteverteilung - Boxplot - <span class="green">**Lineare Regression III**</span> - Modellbildung - Interpretation --- ## <span class="red">**Univariate Häufigkeitsverteilungen**</span> **Annahme:** nicht-häufbare Merkmale, das heißt: *eine Untersuchungseinheit kann stets nur eine Ausprägung bei einem Merkmal haben*. D.h. die Antwortmöglichkeiten sind **diskjunkt**, es gibt keine Schnittmenge zwischen ihnen. Ordnet man den <span class="blue">Merkmalsausprägungen</span> Häufigkeiten zu, so erhält man eine Häufigkeitsverteilung. --- ## <span class="blue">Absolute Häufigkeit</span> Absolute Häufigkeit `\(h_{x_{j}}\)` oder einfacher `\(h_{j}\)`: Die Anzahl der Merkmalsträger mit der Ausprägung `\(x_{j}\)`. **Eigenschaften:** `$$0 <= h_{j} <= 1$$` `$$\sum_{j=1}^{k}(h_{j})=n$$` --- ## <span class="blue">Absolute Häufigkeit</span> <span class="blue">**Beispiel:**</span> In der Wahlstudie zur Europawahl 2014 wurde gefragt: *Bitte sagen Sie mir für jede der folgenden Aussagen , inwieweit diese Ihrer Ansicht oder Meinung entspricht bzw. nicht entspricht: Sie sind sehr an Politik interessiert.* |Variable | Absolute H.| |:--------------------|-----------:| |Ja, voll und ganz | 529| |Ja, teilweise | 667| |Nein, nicht wirklich | 315| |Nein, sicher nicht | 137| |Summe: | 1648| <small>Quelle: Schmitt, Hermann; Popa, Sebastian Adrian; Devinger, Felix (2015): *European Parliament Election Study 2014*, Voter Study, SVoter Study, Supplementary Study. GESIS Data Archive, Cologne. ZA5161 Data file Version 1.0.0, doi:10.4232/1.5161<small> --- ### Balkendiagramm (*Barchart*) mit absoluten Häufigkeiten <img src="./img/5graf-barchart1.png" alt="Barchart Pol. Interesse" style=""> --- ## <span class="blue">Relative Häufigkeit</span> Vergleich zweier absoluten Häufigkeitsverteilungen für ein Merkmal schwierig, v.a. wenn `\(n\)` unterschiedlich, daher Verwendung der relativen Häufigkeit. `$$f_{x_{j}} = \frac{h_{x_{j}}}{n}$$` `\(f_{j} * 100\)` ergibt die prozentualen Anteile |Variable | Absolute H.| Relative H.| |:--------------------|-----------:|------------:| |Ja, voll und ganz | 529| 0.32| |Ja, teilweise | 667| 0.40| |Nein, nicht wirklich | 315| 0.19| |Nein, sicher nicht | 137| 0.08| |Summe | 1648| 1| --- ### Balkendiagramm (*Barchart*) mit relativen Häufigkeiten <img src="./img/5graf-barchart2.png" alt="Barchart Pol. Interesse" style=""> --- ## Irreführende Grafiken: Balkendiagramm <img src="./img/5misleadingbarchart1.jpg" alt="Misleading bar chart" style=""> Balkendiagramme sollten immer am Nullpunkt beginnen. Falls nicht, sollten sie das sehr deutlich dokumentieren. --- ## Irreführende Grafiken: Balkendiagramm <img src="./img/5misleadingbarchart2.png" alt="Misleading bar chart 2" style="max-width:80%"> Die gleichen Daten in einer korrigierten Grafik. --- ## <span class="blue">Kumulierte Häufigkeit<span class="blue"> Mit den relativen Summenhäufigkeiten lässt sich die Summenhäufigkeitsfunktion `\(F_{x_{j}}\)` definieren (*empirische Verteilungsfunktion*). Sie gibt zu jeder Merkmalsausprägung den Anteil der Untersuchungseinheiten an, die kleiner oder höchstens gleich einer Ausprägung sind. Die Summenhäufigkeitsfunktion hat (insbesondere bei nur wenigen Ausprägungen) das Bild einer <span class="blue">Treppenfunktion</span>. |Variable | Absolute H.| Relative H.| Kumulierte H.| |:--------------------|-----------:|------------:|--------------:| |Ja, voll und ganz | 529| 0.32| 0.32| |Ja, teilweise | 667| 0.40| 0.72| |Nein, nicht wirklich | 315| 0.19| 0.91| |Nein, sicher nicht | 137| 0.08| 0.99| |Summe: | 1648| 1| -| --- ## Balkendiagramm mit linearem Merkmal <small>*In der Politik spricht man von links und rechts. Welche Position haben Sie? Bitte geben Sie Ihren persönlichen Standpunkt auf einer Skala von 0 bis 10 an. 0 bedeutet links und 10 bedeutet rechts. Welche Zahl gibt am besten Ihren Standpunkt wider?*</small> <img src="./img/5graf-barchart3.png" alt="Barchart LiRe" style="max-width:70%"> <small>Quelle: EES Voter Study 2014</small> --- ### Balkendiagramm mit relativen Häufigkeiten <img src="./img/5graf-barchart4.png" alt="Barchart LiRe" style=""> --- ### Treppenfunktion <img src="./img/5graf-stepfunction.png" alt="Step function" style=""> --- ### Histogramm (*Histogram*) <img src="./img/5graf-histogram.png" alt="Histogram LiRe" style="max-width:80%"> Im Unterschied zum Balkendiagramm sind hier die Flächen interpretierbar. Metrische Merkmale werden in Klassen eingeteilt (engl. *bins*) mit konstanter oder variabler **Klassenbreite**. --- ### Histogramm <img src="./img/5graf-histogram2.png" alt="Histogram LiRe" style="max-width:80%"> Histogramm mit alternativer Klasseneinteilung --- ### Histogramm <img src="./img/5graf-histogram-cars.png" alt="Histogram Cars" style="max-width:60%"> Hier ist ein Histogramm hilfreich, da die **Klassen** unterschiedlich **breit** sind. --- ## Klassierte Daten - Es gibt zwei Gründe, klassierte Daten zu betrachten: - Es gibt bei einer Befragung sehr viele unterschiedliche Merkmalswerte, so dass die empirische Verteilungsfunktion zu nahezu keiner Informationsverdichtung führt: **Nachträgliche Klassenbildung**. - Es sind in einer sekundärstatistischen Analyse nur klassierte Häufigkeitstabellen verfügbar: **Rechnen mit vorgegebenen Klassengrenzen**. - Die **Gestaltungsparameter** der Klassierung sind **Anzahl** und **Breite** der Klassen. --- ## Histogramm mit nachträglicher Klassenbildung <img src="./img/5graf-histogram3.png" alt="Histogram Income" style="max-width:100%"> --- ## Histogramm mit nachträglicher Klassenbildung <img src="./img/5graf-histogram4.png" alt="Histogram Income" style="max-width:100%"> --- ## Klassierte Daten Beispiel: Dauer von Arbeitslosigkeit |Klasse| Dauer (in Monaten) | Klassenbreite | Klassenmitte | Anzahl | |:-----|:--------------------|--------------:|-------------:|--------------:| |1 | 0 bis 1 | 1 | 0.5 | 19 | |2 | über 1 bis 2 | 1 | 1.5 | 12 | |3 | über 2 bis 3 | 1 | 2.5 | 24 | |4 | über 3 bis 6 | 3 | 4.5 | 28 | |5 | über 6 bis 12 | 6 | 9.0 | 31 | |6 | über 12 bis 24 | 12 | 18.0 | 6 | |Summe:| | | | 120 | --- ## Häufigkeitsdichte Die absolute Häufigkeit gibt an, wie viele der Beobachtungen in eine Klasse fallen. Wird mit **ungleichen Klassenbreiten** gearbeitet, so ist neben der absoluten bzw. relativen Häufigkeit auch die <span class="red">**Häufigkeitsdichte**</span> interessant. Zweck der **Häufigkeitsdichte** ist es bei ungleichen Klassenbreiten die tatsächlichen Häufigkeiten durch die jeweilige Klassenbreite zu relativieren. **Häufigkeitsdichte** ist definiert als: `$$f^{*}(h_{x_{j}}) = \frac{f_{j}}{\Delta x_{j}} = \frac{Relative~H.}{Klassenbreite}$$` --- ## Häufigkeitsdichte Beispiel: Dauer von Arbeitslosigkeit <table> <tr> <th> `\(j\)` </th> <th> `\((\tilde{x}_{j-1};\tilde{x}_{j}]\)` </th> <th> `\(\Delta x_{j}\)` </th> <th> `\(h_{j}\)` </th> <th> `\(f_{j}\)` </th> <th> `\(F_{j}\)` </th> <th> `\(f^{*}_{j}\)` </th> </tr> <tr> <td>1</td> <td>0-1</td> <td>1</td> <td>19</td> <td>0.16</td> <td>0.16</td> <td>0.160</td> </tr> <tr> <td>2</td> <td>1-2</td> <td>1</td> <td>12</td> <td>0.10</td> <td>0.26</td> <td>0.100</td> </tr> <tr> <td>3</td> <td>2-3</td> <td>1</td> <td>24</td> <td>0.20</td> <td>0.46</td> <td>0.200</td> </tr> <tr> <td>4</td> <td>3-6</td> <td>3</td> <td>28</td> <td>0.23</td> <td>0.69</td> <td>0.077</td> </tr> <tr> <td>5</td> <td>6-12</td> <td>6</td> <td>31</td> <td>0.26</td> <td>0.95</td> <td>0.043</td> </tr> <tr> <td>6</td> <td>12-24</td> <td>12</td> <td>6</td> <td>0.05</td> <td>1.00</td> <td>0.004</td> </tr> <tr> <td>Summe</td> <td></td> <td></td> <td>120</td> <td>1</td> <td></td> <td></td> </tr> </table> --- ### Dichteverteilung <img src="./img/5graf-density1.png" alt="Dichteverteilung" style="max-width:100%"> --- ### Dichteverteilung <img src="./img/5graf-density2.png" alt="Dichteverteilung 2" style="max-width:100%"> --- ### Violin plot <img src="./img/5graf-violin.png" alt="Violin plot" style="max-width:100%"> --- ### Boxplot <img src="./img/5graf-boxplot.png" alt="Boxplot" style="max-width:100%"> --- ### Boxplot <img src="./img/5graf-boxplotex.png" alt="Boxplot" style="max-width:75%"> <small>[Weitere Erläuterung](https://flowingdata.com/2008/02/15/how-to-read-and-use-a-box-and-whisker-plot/ )</small> --- ### Boxplot <img src="./img/5graf-combine.png" alt="Boxplot Violin Combine" style="max-width:100%"> --- ### Irreführende Grafiken: ABC News <img src="./img/5abcnews1.png" alt="ABC News 1" style="max-width:100%"> Quelle: [http://junkcharts.typepad.com/](http://junkcharts.typepad.com/junk_charts/2017/02/butcher-which-part-of-the-leg-do-you-want-dataviz-folly.html) --- ### Irreführende Grafiken: ABC News <img src="./img/5abcnews2.png" alt="ABC News 2" style="max-width:100%"> --- ### Irreführende Grafiken: ABC News <img src="./img/5abcnews3.png" alt="ABC News 3" style="max-width:100%"> --- ### Irreführende Grafiken: ABC News <img src="./img/5abcnews4.png" alt="ABC News 4" style="max-width:100%"> --- ### Irreführende Grafiken: Tote durch Schusswaffen <img src="./img/5misleading.jpg" alt="Misleading death" style="max-width:50%"> Quelle: [Ravi Parikh - Heap Analytics](https://blog.heapanalytics.com/how-to-lie-with-data-visualization/) --- ## Modellinterpretation - Für das **Gesamtmodell** interessiert uns die <span class="blue">Modellgüte</span>. Diese lesen wir am <span class="blue">Bestimmtheitsmaß</span> `\(R^{2}\)` ab. - Für die **einzelnen Erklärungsfaktoren** des Modells prüfen wir: - <span class="red">Effektstärke</span> (hier: *unstandardisierter Regressionskoeffizient*) - <span class="red">Richtung des Zusammenhangs</span> - <span class="green">Signifikanz</span> --- ```r lm(ptv.spd ~ europe.unification + left.right + gender, data=A) %>% summary() ``` ``` ## ## Call: ## lm(formula = ptv.spd ~ europe.unification + left.right + gender, ## data = A) ## ## Residuals: ## Min 1Q Median 3Q Max ## -7.5280 -2.3478 0.0403 2.7652 6.1385 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 7.22588 0.35116 20.577 < 2e-16 *** ## europe.unification 0.12773 0.03084 4.142 3.66e-05 *** ## left.right -0.31746 0.04391 -7.229 8.08e-13 *** ## genderWeiblich 0.21462 0.17726 1.211 0.226 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 3.265 on 1355 degrees of freedom ## (289 observations deleted due to missingness) ## Multiple R-squared: 0.05526, Adjusted R-squared: 0.05317 ## F-statistic: 26.42 on 3 and 1355 DF, p-value: < 2.2e-16 ``` --- ```r lm(ptv.spd ~ europe.unification + left.right + gender, data=A) %>% summary() ``` <img src="./img/5lm.png" alt="Linear model" style="max-width:100%"> --- ## Modellinterpretation - **Beispiel:** - Das Modell erklärt die subj. Wahrscheinlichkeit SPD WählerIn zu sein. Die <span class="blue">Erklärungskraft</span> des Modells ist mit einem Bestimmtheitsmaß `\(R^{2}\)` von `0.055` nur schwach, da nur ca. 5,5% der Varianz erklärt werden. - Die Zustimmung zu einer weiteren EU-Integration hängt **positiv** mit der Wahrscheinlichkeit SPD zu wählen zusammen. Mit jedem Punkt Zunahme auf der Skala EU-Integration nimmt die Wahrscheinlichkeit der SPD-Wahl um `0.12`-Punkt zu. Dieser Zusammenhang ist *signifikant*. - Die Links/Rechts Skala hängt **negativ** mit der SPD-Wahl zusammen. Je linker eine Person eingestellt ist, desto wahrscheinlicher ist die SPD-Wahl. Mit jedem Skalenpunkt nach rechts nimmt die Wahrscheinlichkeit SPD zu wählen um `0.31`-Punkte ab. Dieser Zusammenhang ist *signifikant*. - Der Effekt für Geschlecht ist *nicht signifikant*. --- ## Modellbildung <img src="./img/5swim1.png" alt="Swimming 1" style="max-width:100%"> --- Erklärung durch den jährlichen Fortschritt ```r lm(racetime ~ year, data = Swim) ``` <img src="./img/5swim2timebyyear.png" alt="Swimming 2" style="max-width:100%"> --- Erklärung durch das Geschlecht ```r lm(racetime ~ sex, data = Swim) ``` <img src="./img/5swim3timebygender.png" alt="Swimming 3" style="max-width:100%"> --- Erklärung durch Jahr und Geschlecht ```r lm(racetime ~ year + sex, data = Swim) ``` <img src="./img/5swim4timebyyeargender.png" alt="Swimming 4" style="max-width:100%"> --- Erklärung durch Jahr und Geschlecht, als **Interaktionsterm** ```r lm(racetime ~ year + sex + year:sex, data = Swim) ``` <img src="./img/5swim5timebyyeargenderinteraction.png" alt="Swimming 5" style="max-width:100%"> --- Erklärung durch Jahr Polynom ```r lm(racetime ~ poly(year,2), data = Swim) ``` <img src="./img/5swim6timebyyearpoly.png" alt="Swimming 6" style="max-width:100%"> --- Erklärung durch Jahr Polynom und Geschlecht, beide interagiert miteinander ```r lm(racetime ~ sex:poly(year,2), data = Swim) ``` <img src="./img/5swim7timebyyearpolygenderinteraction.png" alt="Swimming 7" style="max-width:100%"> --- class: middle, center <img src="./img/5modelmistakes.png" alt="Model mistakes" style="max-width:100%"> --- class: middle, center ## Vielen Dank für die Aufmerksamkeit <iframe src="https://giphy.com/embed/uTCAwWNtz7U2c" width="480" height="434" frameBorder="0" class="giphy-embed" allowFullScreen></iframe>