Konfidenzintervalle

Das Konfidenzintervall ist ein Intervall, das so konstruiert ist, dass es den wahren Wert erwartungsgemäß in \(((1-\alpha) \times 100)\%\) der Fälle umschließt.

Das Konfidenzintervall ist von der Form:

\[ KI = \textcolor{blue}{X} \;\pm\; \textcolor{red}{z_{\alpha/2}} \cdot \textcolor{green}{s_e} \]

\(\textcolor{blue}{X}\): Testwert
\(\textcolor{red}{z_{\alpha/2}}\): z-Wert
\(\textcolor{green}{s_e}\): Standardfehler

In der KTT, nicht aber in der IRT, ist der Standardfehler \(s_e = SD_X \cdot \sqrt{1 - Rel_X}\). Durch Einsetzen folgt daher:

\[ KI = \textcolor{blue}{X} \;\pm\; \textcolor{red}{z_{\alpha/2}} \cdot \textcolor{green}{SD_x \cdot \sqrt{1 - Rel_x}} \]

\(SD_x\): Standardabweichung
\(Rel_x\): Reliabilität

Tipps

\(X\) und \(SD_x\) müssen der gleichen Metrik folgen. Ist der Testwert etwa ein T-Wert, so muss die Standardabweichung gleich \(10\) sein. Ist der Testwert IQ-skaliert, so ist die Standardabweichung der Testwerte \(15\).
Sie können die Funktion teachIRT::get_z() verwenden, um schnell z-Werte nachzuschauen:

\(\alpha = .05\), beidseitig

teachIRT::get_z(ci_alpha = 0.05, ci_direction = "both")

    lower     upper 
-1.959964  1.959964

\(\alpha = .05\), untere Grenze

teachIRT::get_z(ci_alpha = 0.05, ci_direction = "lower")

    lower     upper 
-1.644854       Inf

\(\alpha = .05\), obere Grenze

teachIRT::get_z(ci_alpha = 0.05, ci_direction = "upper")

   lower    upper 
    -Inf 1.644854

Am R-Code von 2. sehen Sie, dass Sie bei einseitigen Intervallen einen finiten und einen infiniten z-Wert erhalten. Durch die Multiplikation mit diesen z-Werten resultiert in R dann auch ein Intervall, bei dem eine Grenze finit und eine infinit ist. Zur Illustration ist es sinnvoll, das einmal gesehen zu haben. Rein mathematisch ist es allerdings nicht ganz sauber, \(\infty\) für \(z\) einzusetzen. Das liegt daran, dass \(z \in \mathbb{R}\) eine relle Zahl ist, aber es ist \(\infty \notin \mathbb{R}\) keine Zahl, sondern ein Symbol. Stattdessen kann man mit einem Doppelpunkt und einem Gleichheitszeichen klarmachen, dass die jeweils infinite Grenze definitorisch ist, also entweder \(K_o := \infty\) oder \(K_u := -\infty\).
Man kann die Grenzen des Konfidenzintervalls “konservativ” runden. Damit ist gemeint, dass man die Grenzen des Intervalls so rundet, dass durch das Runden ein größeres Intervall entsteht. Erhalten Sie etwa die Werte \(KI_{u} = -4.5734\) und \(KI_{o} = -1.4354\) für die jeweils untere und obere Grenze eines Konfidenzintervalls, könnten Sie auf das Intervall \([-4.58, -1.43]\) runden. Beachten Sie dass Sie in diesem Beispiel zweimal genau gegenteilig zum kaufmännischen Runden vorgehen. Das Rational hinter dieser Überlegung ist es, keine Sicherheit durch das Runden zu suggerieren, die in den ungerundeten Werten garnicht vorhanden wäre. Wenn Sie auf zwei Nachkommastellen runden, wird der Unterschied zwischen den Rundungsverfahren in den meisten Metriken allerdings vernachlässigbar sein.

Beispiel zweiseitig

Wenn \(X=110\), \(SD_x=5.6\), \(Rel_x=0.8\) und \(\alpha = 5\%\), so sind \(KI_{o} = 110 + 1.96 \cdot 5.6 \cdot \sqrt{1-0.8} \approx 114.91\) und \(KI_{u} = 110 - 1.96 \cdot 5.6 \cdot \sqrt{1-0.8} \approx 105.09\) die Grenzen des zweiseitigen Intervalls, das erwartungsgemäß in \(95\%\) der Fälle, in denen es berechnet wird, den wahren Wert umschließt. Also ist \(KI = [105.09, 114.91]\).

Überprüfung mit teachIRT:

X <- 110
SD_x <- 5.6
Rel_x <- 0.8
alpha <- 0.05

z <- teachIRT::get_z(ci_alpha = alpha, ci_direction = "both")
print(z)

    lower     upper 
-1.959964  1.959964

KI <- X + z * SD_x * sqrt(1 - Rel_x)
print(KI)

   lower    upper 
105.0915 114.9085

In der Prüfung können Sie Ihr Ergebnis natürlich nicht mit teachIRT überprüfen. Sie sollten nach dem Rechnen dennoch mindestens noch einmal überprüfen, ob \(KI_u < X < KI_o\) gilt.

Beispiel einseitig mit unterer Grenze

Wenn \(X=110\), \(SD_x=5.6\), \(Rel_x=0.8\) und \(\alpha = 5\%\), so sind \(KI_{o} := \infty\) und \(KI_{u} = 110 - 1.64 \cdot 5.6 \cdot \sqrt{1-0.8} \approx 105.88\) die Grenzen des einseitigen Intervalls, das erwartungsgemäß in \(95\%\) der Fälle, in denen es berechnet wird, den wahren Wert umschließt. Also ist \(KI = [105.88, \infty)\).

X <- 110
SD_x <- 5.6
Rel_x <- 0.8
alpha <- 0.05

z <- teachIRT::get_z(ci_alpha = alpha, ci_direction = "lower")
print(z)

    lower     upper 
-1.644854       Inf

KI <- X + z * SD_x * sqrt(1 - Rel_x)
print(KI)

   lower    upper 
105.8806      Inf

Aufgaben zum Konfidenzintervall in der KTT

Theo erzielt in einer Begutachtung zur Abklärung von Hochbegabung einen IQ-Wert von \(139\). Für die interne Konsistenz in einer vergleichbaren Normstichprobe wird im Manual ein Wert von \(0.92\) angegeben. Für die Test-Retest-Reliabilität liegen keine Werte vor. Berechnen Sie ein einseitiges \(95\%\)-Konfidenzintervall um Theos Testwert.

Interpretieren Sie das Intervall im Hinblick auf den typischen Schwellenwert von \(130\) IQ-Punkten in der Diagnostik von Hochbegabung.

Lösung

Gegeben:

\(X = 139\)
\(Rel_x = 0.92\)
\(\alpha = .05\)
\(SD_x = 15\)
\(KI_{o}=\infty\)

Gesucht:

\(KI_{u} = X - z_{1-\alpha} \cdot SD_x \cdot \sqrt{1-Rel_x}\)

Verwende \(z_{1-\alpha} \approx 1.64\), da einseitig 5% der Standardnormalverteilung abgeschnitten werden sollen.

\(KI_{u} = 139 - 1.64 \cdot 15 \cdot \sqrt{1-0.92} \approx 132.04\)

Die obere Intervallgrenze \(KI_{o} := +\infty\) ist definiert.

Den Wert \(139\) umgibt das einseitige \(95\%\)-Konfidenzintervall \([132.04, +\infty)\). Die untere Schwelle des Intervalls, das in \(95\%\) der Fälle den wahren Wert umschließt, liegt über dem üblichen Cutoff von \(130\) IQ-Punkten. Das Testergebnis spricht dafür, dass Theo hochbegabt ist.

Überprüfung in R:

# Gegeben:
X <- 139 # (IQ-Wert)
Rel_x <- 0.92
alpha <- 0.05
SD_x <- 15

# Konfidenzintervall berechnen
z <- teachIRT::get_z(ci_alpha = alpha, ci_direction = "lower")
KI <- X + z * SD_x * sqrt(1-Rel_x)

print(KI)

   lower    upper 
132.0215      Inf

Die Abweichung resultiert daraus, dass der z-Wert im R-Script nicht gerundet wurde:

z[1] <- -1.64
KI <- X + z * SD_x * sqrt(1-Rel_x)

print(KI)

   lower    upper 
132.0421      Inf

Zur Abklärung der Fahrtauglichkeit soll mit einem Konfidenzkoeffizienten von 95% geklärt werden, ob der 57-jährige Andonis M. ausreichend gewissenhaft ist. Die Hypothese lautet:

Liegt Herr M.s Gewissenhaftigkeitswert im BFI-2, verglichen mit einer Normstichprobe von Personen, die einen gültigen Führerschein besitzen, mindestens im durchschnittlichen Bereich (\(T \ge 40\))?

Herr M.s Rohwert beträgt \(3.5\). Personen in der Vergleichsgruppe erzielten im Mittel einen Testwert von \(3.75\) mit einer Standardabweichung von \(0.5\). Für den BFI-II liegt eine Schätzung von \(.84\) für McDonald’s Omega vor. Berechnen Sie den T-Wert und das passende Konfidenzintervall um die Hypothese zu prüfen.

Lösung

Gegeben:

Rohwert \(X = 3.5\)
Reliabilität \(Rel_x = .84\)
Alpha-Fehler \(\alpha = .05\)
Obere Konfidenzgrenze \(KI_{o} = \infty\)
Mittelwert in der Normstichprobe \(\mu = 3.75\)
Standardabweichung in der Normstichprobe \(\sigma = 0.5\)

Gesucht:

\(KI_{u} = T - z_{1-\alpha} \cdot SD_T \cdot \sqrt{1-Rel_x}\)

Transformation von \(X\) in die \(T\)-Metrik:

\(T = 50 + 10 \cdot z_x = 50 + 10 \cdot \frac{X - \mu}{\sigma} = \frac{3.5 - 3.75}{0.5} = 45\)

Berechnung der unteren Konfidenzgrenze:

\(z_{1-\alpha} \approx 1.64\), \(SD_T = 10\)

\(KI_{u} = T - z_{1-\alpha} \cdot SD_T \cdot \sqrt{1-Rel_x} \approx 45 - 1.64 \cdot 10 \cdot \sqrt{1-.84} \approx 38.44\)

Die obere Intervallgrenze \(KI_{o} := +\infty\) ist definiert.

Den T-Wert \(45\) umgibt das einseitige \(95\%\)-Konfidenzintervall \([38.44, +\infty)\). Die untere Schwelle des Intervalls, das in \(95\%\) der Fälle den wahren Wert umschließt, liegt nicht über dem Cutoff von \(40\). Es lässt sich nicht mit ausreichender Sicherheit sagen, dass Herr M. ausreichend gewissenhaft ist.

Überprüfung in R

# Gegeben
X <- 3.5
Rel_x <- .84
alpha <- .05
mu <- 3.75
sigma <- 0.5

# 1. Transformation in die T-Metrik
zx <- (X - mu) / sigma
Tx <- 50 + 10*zx

# 2. Berechnung des Konfidenzintervalls
z <- teachIRT::get_z(ci_alpha = alpha, ci_direction = "lower")
KI <- Tx + z * 10 * sqrt(1-Rel_x)

print(KI)

   lower    upper 
38.42059      Inf

Die Abweichung in der zweiten Nachkommastelle entsteht durch das Runden des z-Werts:

z[1] <- -1.64
KI <- Tx + z * 10 * sqrt(1-Rel_x)

print(KI)

lower upper 
38.44   Inf

Für eine Studie sollen weibliche Jugendliche ausgewählt werden, deren Prüfungsangst in einem hier als normal definierten Bereich liegt (Mittelwert \(\pm\) 2 SD). Es wird ein Konfidenzkoeffizient von 99% angelegt. Die Hypothese lautet:

Liegt der beobachtete z-Wert auf der Multidimensional Test Anxiety Scale (MTAS) im Vergleich zu gleichaltrigen Mädchen im durchschnittlichen Bereich (\(-2 \le z \le +2\))?

Der Rohwert einer 15-jährigen Kandidatin beträgt 42. Transformieren Sie den Rohwert in einen z-Wert. Berechnen Sie anschließend das passende Konfidenzintervall um den z-Wert um die diagnostiche Hypothese zu überprüfen. Die Reliabilität des MTAS wurde auf .80 geschätzt. Mittelwert und Standardabweichung in der Referenzstichprobe betragen jeweils \(47.9\) und \(10\).

Lösung

Gegeben:

Rohwert \(X = 42\)

Alpha-Fehler \(\alpha = .01\)

Reliabilität \(Rel_x = .80\)

Mittelwert in der Referenzstichprobe \(\mu = 47.9\)

Standardabweichung in der Referenzstichprobe \(\sigma = 10\)

Gesucht:

\(KI = z_x \pm z_{\alpha/2} \cdot \sqrt{1 - Rel_x}\)

Die Standardabweichung wurde hier ausgelassen, da z-Werte qua Definition eine Standardabweichung von \(1\) haben. Die Multiplikation mit \(1\) würde das Intervall nicht verändern.

Transformation des Rohwerts in einem z-Wert

\(z_x = \frac{X - \mu}{\sigma} = \frac{42 - 47.9}{10} = -0.59\)

Berechnung des zweiseitigen Konfidenzintevalls

\(KI_{o} = -0.59 + 2.58 \cdot \sqrt{1-0.8} \approx 0.57\)

\(KI_{u} = -0.59 - 2.58 \cdot \sqrt{1-0.8} \approx -1.75\)

Die Konfidenzgrenzen wurde konservativ gerundet, sodass ein größeres Intervall resultiert.

Den z-transformierten Testwert von \(-0.59\) umgibt das \(99\%\) Konfidenzintervall \([-1.75, 0.57]\). Die untere Schwelle des Intervalls überschreitet den unteren Cutoff von \(-2\) und die obere Grenze des Intervalls unterschreitet den oberen Cutoff von \(+2\). Es kann mit ausreichender Sicherheit davon ausgegangen werden, dass der Testwert der Kandidatin im als durchschnittlich definierten Bereich liegt.

Überprüfung in R

# Gegeben
X <- 42
alpha <- 0.01
Rel_x <- 0.80
mu <- 47.9
sigma <- 10

# Transformation des Rohwerts in einen z-Wert
zx <- (X - mu) / sigma
print(zx)

[1] -0.59

# Berechnung des zweiseitigen Konfidenzintervalls
z <- teachIRT::get_z(ci_alpha = alpha, ci_direction = "both")
KI <- zx + z*sqrt(1-Rel_x)

print(KI)

     lower      upper 
-1.7419459  0.5619459

Der Abschnitt zu Konfidenzintervallen ist hier vorerst abgeschlossen. Im Abschnitt zum adaptiven Testen werden Sie später zusätzlich lernen, wie man Konfidenzintervalle für Personenparameter der IRT berechnet.