Einführung in die Quantitative Datenanalyse

class: center, middle, inverse, title-slide

# Einführung in die Quantitative Datenanalyse
## Sitzung 8: Hypothesen, Konfidenzintervalle und p-values
### Proseminar an der Freien Universität Berlin
### 03.07.2017 - Marcus Spittler

---

## Inhalt der 8. Sitzung

1. Hypothesen und Signifikanzniveau

2. Übergang in die Schätzstatistik
 - (Standard-) Normalverteilung
 - Zentraler Grenzwertsatz
 - Standardfehler
 - Konfidenzintervall
 - p-Values

---
class: middle, center

---

### Hypothesen

- Hypothesen (von agr./lat. *Unterstelllung*) sind Aussagen oder Schlussfolgerungen die aus einer allgemeinen Theorie abgeleitet werden.

- Alternativhypothese ( `$H_{1}$` )
 - "Innovative" Hypothese, deren inhaltliche Aussage
 a) im Widerspruch zur bisherigen Forschung steht, oder
 b) den bisherigen Wissensstand erweitern soll.

- Nullhypothese ( `$H_{0}$` )
 - Die Nullhypothese behauptet, dass der in der Alternativhypothese postulierte Unterschied bzw. Zusammenhang **nicht vorhanden** ist.
 - Komplementär zur Alternativhypothese
 - Schließen sich wechselseitig aus.
 - Auch Negativhypothese genannt.

---

### Unterscheidung von Hypothesen

- Unterschiedshypothese:

"Die *durchschnittlichen Unterrichtsleistungen* von Schülern, die nach einer neuen Methode unterrichtet wurden, **sind unterschiedlich von** den Durchschnittsleistungen der Schüler, die nach der herkömmlichen Methode unterrichtet wurden." -> wird z.B. untersucht mit *t-Tests*.

- **Zusammenhangsshypothese**:

"Die durchschnittlichen Unterrichtsleistungen von Schülern **wird durch** eine neue Methode **verbessert**/**verschlechtert**/**verändert**" -> Zusammenhang wird z.B. untersucht mit einer *Linearer Regression*.

---

### Hypothesentest

- Im Forschungsprozess unterziehen wir unseren Hypothesen einem empirischen Test. Dazu formulieren wir **vorab** diese drei Bedingungen:

- Alternativhypothese: `$H_{1}: \rho \neq  0$` - **Es gibt einen Zusammenhang zwischen X und Y**
- Nullhypothese: `$H_{0}: \rho =  0$` - **Es gibt keinen Zusammenhang**
- Signifikanzniveau: `$\alpha = 0.05$`

---

### Signifikanzniveau

*"Das Signifikanzniveau `$\alpha$` (alpha) bezeichnet die vom Forscher festgelegte Wahrscheinlichkeit, mit welcher die Ablehnung der Nullhypothese im Rahmen eines Signifikanztest zu einem Fehler 1. Art führt."* (Bortz und Schuster 2010: 101)

- Das Signifikanzniveau `$\alpha$` kann von der Forscherin beliebig gestalten werden. Konventionelle Werte für alpha sind `$\alpha = 0.05$` bzw. `$\alpha = 0.01$`

- Wahl von `$\alpha$` abhängig von den Folgen einer Fehlentscheidung zugunsten der Alternativhypothese

---

### Übergang in die Schätz-/Inferenzstatistik

- Bisher haben wir immer die Lage- und Streuungsmaße uns vorliegender Verteilungen betrachtet (z.B. `$\bar{x}$`; `$x_{MD}$`; `$s^2$`).

- Uns liegen jedoch häufig nur **Stichproben** vor, nur selten haben wir Daten für alle Untersuchungseinheiten `$e_{i}$` der **Grundgesamtheit**.

- Dennoch wollen wir Aussagen über die **Grundgesamtheit** treffen. Eine Lösung liegt darin, die Maße der Grundgesamtheit zu **schätzen**.

---

### Lineares Modell

---
class: middle, center

---

### Zentrales Grenzwerttheorem

---

### Zentrales Grenzwerttheorem

*"Die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die derselben Grundgesamtheit entnommen wurden, geht mit wachsendem Stichprobenumfang in eine Normalverteilung über."* (Bortz und Schuster 2010: 86)

- Ab einem `$n \geq 30$` können wir dies für unsere Mittelwertverteilung annehmen.

- Grenzwerttheorem gilt **unabhängig** von der Verteilung des Merkmals in der Grundgesamtheit.

---

### Normalverteilung

- Die Normalverteilung ist eine **glockenförmige** Verteilung.
- Sie ist symmetrisch, daher gilt: Modus = Median `$x_{Md}$` = Arith. Mittel `$\bar{x} = \mu$`
- Sie wird durch **Mittelwert** und **Standardabweichung** eindeutig definiert, die Notation ist daher `$N(\mu,\sigma)$`, z.B.: `$N(3, 2)$`

---

### Standardnormalverteilung

- Die Standardnormalverteilung ist **eine spezielle** Normalverteilung.
- Für sie gilt, dass der Mittelwert 0 ist und die Standardabweichung 1, d.h. `$N(0,1)$`
- *Jede* Normalverteilung kann durch **z-Transformation** in eine Standarnormalverteilung *überführt* werden.
- **z-Transformation** wird berechnet mit: `$$z=\frac{x_{i}-\bar{x}}{s_{x}}$$`
- z-Tranformation in R:

```r
scale(Variable)
```

---

### Normalverteilung:

- Für **Standardnormalverteilungen** gilt:
    - zwischen -1 und +1 liegen **ca. 66%** aller Werte
    - zwischen -1.96 und +1.96 liegen **ca. 95%** aller Werte
    - zwischen -2.58 und +2.58 liegen **ca. 99%** aller Werte

- Für **alle Normalverteilungen** gilt:
    - zwischen -1 `$\sigma$` und +1 `$\sigma$` liegen **ca. 66%** aller Werte
    - zwischen -1.96 `$\sigma$` und +1.96 `$\sigma$` liegen **ca. 95%** aller Werte
    - zwischen -2.58 `$\sigma$` und +2.58 `$\sigma$` liegen **ca. 99%** aller Werte

---

### Normalverteilung

---

### Standardfehler:

- Bei der **Schätzung** der Maße der Grundgesamtheit können uns Fehler passieren. Daher brauchen wir Maß über die **Güte** unserer Schätzung. D.h. nur Verwendung bei **Stichproben**.
- Der **Standardfehler** ist ein solches Maß, er hängt von
    - der Größe der Stichprobe `$n$` und
    - der Abweichung in der Grundgesamtheit `$\sigma$`
- Je geringer der Standardfehler, desto genauer ist unsere Schätzung für den unbekannten Parameter. Je größer, desto ungenauer `$[0,+\infty)$`.
- Die Standardabweichung der Mittelwertverteilung wird als **Standardfehler des Mittels** `$\sigma_{\bar{x}}$` bezeichnet.

`$$SE_{\bar{x}} = \sigma_{\bar{x}} = \frac{s}{\sqrt{n}} = \frac{Standardabweichung}{Anzahl Beobachtungen}$$`

---

### Konfidenzintervalle

- Allg. Formel: `$$\bar{x} \pm ( z_{ 1-\frac{\alpha}{2}} * SE  )$$`

- Der Wert für `$z_{ 1-\frac{\alpha}{2}}$` ergibt sich aus der Standardnormalverteilung. D.h. bei einem **Signifikanzniveau** von `$\alpha = 0.05$` suchen wir den **z-Wert** für `$z_{ 1-\frac{0.05}{2}} = z_{0.975} = 1.96$`

- Berechnung eines 95% Konfidenzintervalls:
    - obere Grenze: `$\bar{x} + ( 1.96 * SE  )$`
    - untere Grenze: `$\bar{x} - ( 1.96 * SE  )$`

- **Interpretation:** "In 95% (oder 99% oder ...) unserer Stichproben fällt der Mittelwert unserer Grundgesamtheit (wahre Mittelwert) innerhalb der Grenzen des Konfidenzintervalls".

---

```r
model <- lm(scale(democracy.quality) ~ scale(gdp) + scale(right.populist), data = C) 
model %>% summary()
```

```
## 
## Call:
## lm(formula = scale(democracy.quality) ~ scale(gdp) + scale(right.populist), 
##     data = C)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.52369 -0.41396 -0.00479  0.45405  1.23621 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            0.03443    0.12941   0.266   0.7925    
## scale(gdp)             0.80625    0.13480   5.981 3.57e-06 ***
## scale(right.populist)  0.22508    0.13059   1.724   0.0977 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6712 on 24 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.5998,	Adjusted R-squared:  0.5665 
## F-statistic: 17.99 on 2 and 24 DF,  p-value: 1.686e-05
```

---

### Konfidenzintervalle in R

```r
# Konfidenzintervall berechnen: Beispiel für right.pop
0.22508 + 0.13059 * 1.96
```

```
## [1] 0.4810364
```

```r
model %>% confint()
```

```
##                             2.5 %    97.5 %
## (Intercept)           -0.23266135 0.3015286
## scale(gdp)             0.52804101 1.0844519
## scale(right.populist) -0.04444744 0.4946121
```

Da das Konfidenzintervall von `right.pop` die Null (0) mit einschliesst, können wir die Nullhypothese nicht ablehnen. Der Effekt ist nicht signifikant.

[t-Verteilung und Normalverteilung](http://rpsychologist.com/d3/tdist/)

---

### p-Values

- Anstatt von Konfidenzintervallen kann man auch p-Values berechnen
- Falls der **p-Value** kleiner oder gleich dem *Signifikanzniveau* ( `$p \leq \alpha$` ) ist, verwerfen wir die Nullhypothese und sagen, dass das Ergebnis statistisch **signifikant** ist. Falls der **p-Value** größer als Alpha ist, dann können wir die Nullhypothese nicht verwerfen und wir sagen, dass das Ergebnis **nicht signifikant** ist.

---

### p-Values

[Quelle](https://fivethirtyeight.com/features/science-isnt-broken/#part1)

---

### p-Value Hacking

[Quelle](https://www.graphpad.com/www/data-analysis-resource-center/blog/a-peculiar-prevalence-of-p-values-just-below-051/)

---

### Standardisierte Steigungskoeffizient

- Man kann den Effekt unterschiedlicher Maßeinheiten ausschalten, indem man von den beiden Variablen X und Y zuerst ihre Mittelwerte subtrahiert und dann durch die Standardabweichungen (jeweils die Maßzahlen der konkreten Stichprobe) dividiert: Sogenannte z-Transformation

- Die beiden Variablen sind dann z-standardisiert und haben beide ein arithmetisches Mittel von null und Standardabweichungen von eins. Mit den z-standardisierten Variablen wird sodann eine neue Regressionsanalyse durchgeführt.

[http://rpsychologist.com/d3/correlation/](http://rpsychologist.com/d3/correlation/)

[http://guessthecorrelation.com/](http://guessthecorrelation.com/)

---

### Standardisierte Steigungskoeffizient

- Der **standardisierte Steigungskoeffizient** beträgt im Demokratiequalität und GDP Beispiel `0,8`. Er kann als Maß für die Stärke des Zusammenhangs betrachtet werden und dafür, wie **erklärungsmächtig** eine X-Variable ist. Bei einem perfekt linearen und positiven Zusammenhang nimmt den Wert +1 an, bei einem perfekt linearen und negativen Zusammenhang den Wert -1.
- **standardisierte Steigungskoeffizient** ist null, wenn keine lineare Beziehung vorliegt. 
- Dieser Wertebereich gilt allerdings nur für den Fall einer bivariaten Regression mit genau einer unabhängigen Variablen. In der multiplen Regression mindestens zwei X-Variablen kann ein standardisierter Koeffizient unter bestimmten Bedingungen größer als +1 oder kleiner als -1 werden. (Häufig liegt in solchen Fällen starke Multikollinearität vor, das heißt, die X-Variablen sind dann untereinander sehr stark korreliert.)
- **Standardisierter Koeffizient** wird auch als *BETA*-Koeffizient bezeichnet.

---
class: middle, center

## Vielen Dank für die Aufmerksamkeit