Statistik: Grundlagen und Methodik [2., korrigierte Auflage] 9783110744194, 9783110744095

Statistical methods are a major obstacle to understanding for potential users, not just because some of these methods ar

255 60 8MB

German Pages 790 Year 2022

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Statistik: Grundlagen und Methodik [2., korrigierte Auflage]
 9783110744194, 9783110744095

Table of contents :
Vorwort zur 2. Auflage
Vorwort
Inhalt
1 Einführung in die Statistik
Teil 1: Deskriptive Statistik – Empirischer Kalkül
Einleitung
2 Einführung in die deskriptive Statistik
3 Gesamtbeschreibung empirischer Verteilungen
4 Spezifizierende Beschreibung empirischer Verteilungen
5 Beschreibung und Analyse empirischer Zusammenhänge
Teil 2: Wahrscheinlichkeitsrechnung – Theoretischer Kalkül
Einleitung
6 Einführung in die Wahrscheinlichkeitsrechnung
7 Theoretische Verteilungen und Abhängigkeiten
8 Ergänzungen und Verallgemeinerungen
Teil 3: Induktive Statistik – Verbindung von Empirie und Theorie
Einleitung
9 Einführung in die induktive Statistik
10 Statistisches Schätzen
11 Statistisches Testen
12 Das lineare Regressionsmodell
Anhang: Tabellen
Stichwortverzeichnis
Literatur

Citation preview

Toni C. Stocker, Ingo Steinke Statistik

Toni C. Stocker, Ingo Steinke

Statistik

Grundlagen und Methodik 2., korrigierte Auflage

ISBN 978-3-11-074409-5 e-ISBN (PDF) 978-3-11-074419-4 e-ISBN (EPUB) 978-3-11-074426-2 Library of Congress Control Number: 2021947422 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2022 Walter de Gruyter GmbH, Berlin/Boston Einbandabbildung: Toni C. Stocker, Ingo Steinke Druck und Bindung: CPI books GmbH, Leck www.degruyter.com

Vorwort zur 2. Auflage In der nun vorliegenden Auflage wurden die bis dato entdeckten Fehler der Erstauflage korrigiert. In diesem Zusammenhang möchten wir uns ganz herzlich bei allen aufmerksamen Leserinnen und Lesern bedanken, die uns hier in den letzten Jahren Hinweise gegeben haben. Ferner erscheint das Drucklayout in neuem Gewand. Ansonsten blieben alle Inhalte unverändert. Zahlreiche für Studierende und Lehrende interessante kostenlose Begleitmaterialien finden sich auf den Webseiten des Lehrstuhls für Statistik an der Universität Mannheim derzeit unter https://www.vwl.uni-mannheim.de/prof-dr-christoph-rothe/lehrbuecher/ Neben einem zu diesem Buch regelmäßig aktualisierten Korrekturblatt gehören hierzu umfangreiche Foliensätze zur Vorlesungsgestaltung, fast alle im Lehrbuch verwendeten Datensätze sowie eine auf dieses Lehrbuch abgestimmte Einführung in das frei verfügbare statistische Softwareprogramm R. Außerdem ist das auf dieses Lehrbuch abgestimmte „Übungsbuch Statistik“ mit thematisch geordneten Aufgaben inklusive vollständiger und ausführlicher Lösungen als eBook und als Taschenbuch erhältlich.

Mannheim, im August 2021

Toni Stocker und Ingo Steinke

Begleitendes Übungsbuch Stocker, T.C. und Steinke, I. (2022): Übungsbuch Statistik. München: De Gruyter Oldenbourg. Begleitendes Skript zu R (kostenlos) Steinke, I. und Stocker, T.C. (2020): Statistik mit R. Hinweis Die Autoren spenden ihr Honorar dem Bundesverband von „MENTOR – Die Leselernhelfer“. Webseite: http://www.mentor-bundesverband.de.

https://doi.org/10.1515/9783110744194-202

Vorwort In nahezu allen empirisch orientierten Wissenschaften nehmen statistische Methoden zur Auswertung und Interpretation von Daten einen unverzichtbaren Platz ein. Diese stellen nicht nur wegen ihrer teils erheblichen Komplexität, sondern häufig auch aufgrund unzureichender Grundkenntnisse potenzieller Anwender eine große Verständnishürde dar. Das vorliegende Lehrbuch soll diesem Umstand Rechnung tragen und eine ausführliche und verständliche Einführung in die mathematisch-methodischen Grundlagen des Faches Statistik bieten. Dies soll auch einen relativ nahtlosen Übergang zu möglichen weiterführenden Lehrveranstaltungen im quantitativen Bereich sicherstellen. Zum einen geschieht dies durch eine tief gehende Behandlung zahlreicher „Standardthemen“, zum anderen durch Hinzunahme von Themen und Aspekten, die trotz ihrer Nützlichkeit und Wichtigkeit nach unserer Beobachtung häufig vernachlässigt oder gänzlich unbehandelt bleiben. Hierzu zählen beispielsweise fortgeschrittene grafische Methoden zur Darstellung höherdimensionaler Daten, die ausführliche Behandlung bedingter Verteilungen und Erwartungswerte, nützliche Ergänzungen und Alternativen in Bezug auf asymptotische Sätze, die Unterscheidung statistischer Signifikanz von inhaltlicher Relevanz, die Prüfung der Adäquatheit von Modellannahmen, die Problematisierung (oder überhaupt erst Thematisierung) des Kausalitätsbegriffs oder die Klärung von Zusammenhangsverzerrungen im Mehrvariablenkontext, um nur einige zu nennen. Der noch unbedarfte Leser sei an dieser Stelle darauf hingewiesen, dass sich all die hier verwendeten Begrifflichkeiten im Rahmen dieses Lehrbuchs noch klären werden. Die dargebotene Ausführlichkeit ist dabei stets als Angebot zu verstehen, das je nach Bedarf und Interesse von Studierenden und Dozenten unterschiedlich angenommen werden kann. Einerseits werden viele theoretische Resultate, wenn es machbar und zumutbar erscheint, im Detail hergeleitet, andererseits können solche Herleitungen auch einfach übersprungen werden. Zusammenfassungen, Merkkästen, Sätze und ausführliche Beispiele rücken wesentliche Resultate, Methoden und Anwendungsmöglichkeiten in den Fokus und ermöglichen auch ein relativ zügiges Durcharbeiten. Durchgängig haben wir besonderen Wert auf eine integrierte und in sich konsistente Darstellung und Ausdeutung der drei eng miteinander verbundenen Teile „Deskriptive Statistik“, „Wahrscheinlichkeitsrechnung“ und „Induktive Statistik“ gelegt. Abbildungen und Tabellen sind, sofern nicht anders gekennzeichnet, Eigendarstellungen. Die Zählweise für Formeln, Sätze, Definitionen, Abbildungen und Tabellen richtet sich an der zweiten Untergliederungsebene aus. So findet sich beispielsweise Abbildung 1.2.1 als erste Abbildung in Unterkapitel 1.2 und Tabelle 12.2.2 als zweite Tabelle in Unterkapitel 12.2. Wie häufig in der statistischen Literatur üblich, werden bei der Dezimalstellenschreibweise Punkte anstelle von Kommata verwendet. Das Lehrbuch eignet sich wahlweise als Primär- oder Sekundärliteratur für alle Studiengänge, in denen solide statistische Kenntnisse unentbehrlich sind. Gleichwohl https://doi.org/10.1515/9783110744194-203

orientiert sich die Auswahl konkreter Themen und Beispiele vor allem an den Bedürfnissen wirtschafts- und sozialwissenschaftlicher Studiengänge. Je nach Vorkenntnissen kann das Buch sowohl im Bachelor- als auch im Masterbereich eingesetzt werden. In Bezug auf die mathematischen Vorkenntnisse setzen wir dabei neben der gymnasialen Schulmathematik lediglich Grundkenntnisse im Bereich der (mehrdimensionalen) Differential- und Integralrechnung voraus. Für einige wenige Themen erweisen sich gewisse matrixalgebraische Grundkenntnisse (elementares Rechnen mit Vektoren und Matrizen) als vorteilhaft. Für umfangreiches Korrekturlesen danken wir den studentischen Hilfskräften Timo Schenk und Frederick Zadow. Alle verbleibenden Fehler und Unzulänglichkeiten sind ausschließlich uns zuzuschreiben. Diesbezüglich sind wir für Hinweise und Ratschläge immer sehr dankbar. Danken möchten wir außerdem Herrn Dr. S. Giesen und Frau J. Conrad vom Verlag De Gruyter für die angenehme Zusammenarbeit.

Mannheim, im Juli 2016

Toni Stocker und Ingo Steinke

€ɱȚƆɑ˥ Vorwort‫ޠ‬zur‫ޠ‬2.‫ޠ‬Auflage‫ ޠ|ޠ‬V‫ޠ‬ Vorwort‫ ޠ|ޠ‬VII 1‫ ޠ‬Einführung‫ޠ‬in‫ޠ‬die‫ޠ‬Statistik 1.1 Eingrenzungen des Begriffs „Statistik“ . . . . . . . . . . . . . . . . . 1.1.1 Komprimierende Kennwerte . . . . . . . . . . . . . . . . . . 1.1.2 Staatswissenschaftliche Disziplin . . . . . . . . . . . . . . . 1.1.3 Wahrscheinlichkeitstheoretisch fundierte Datenwissenschaft 1.2 Grundzüge statistischer Methoden . . . . . . . . . . . . . . . . . . . 1.2.1 System und Zufall . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Irrtums- und Sicherheitswahrscheinlichkeiten . . . . . . . . 1.2.3 Deskription und Induktion . . . . . . . . . . . . . . . . . . . 1.2.4 Empirischer und theoretischer Kalkül . . . . . . . . . . . . . 1.3 Teilbereiche, Spezialgebiete und Grundlagen . . . . . . . . . . . . . 1.3.1 Datengewinnung und Aufbereitung . . . . . . . . . . . . . . 1.3.2 Spezielle Analysemethoden und Instrumente . . . . . . . . . 1.3.3 Wissenschaftsspezifische Ausrichtungen . . . . . . . . . . . 1.3.4 Mathematische und technische Grundlagen . . . . . . . . . .

. . . . . . . . . . . . . .

Teil 1: Deskriptive Statistik – Empirischer Kalkül

1 1 1 2 3 5 5 7 10 11 13 14 16 19 20

21

2

Einführung in die deskriptive Statistik 23 2.1 Daten, Datensätze und Variablen . . . . . . . . . . . . . . . . . . . . . 23 2.2 Grundgesamtheit, Merkmalstypen und Skalierungsarten . . . . . . . . 26 2.3 Empirische Verteilungen und Zusammenhänge . . . . . . . . . . . . . 28

3

Gesamtbeschreibung empirischer Verteilungen 3.1 Tabellarische Darstellungsmöglichkeiten . . . . . 3.1.1 Elementare Begriffe und Notation . . . . 3.1.2 Häufigkeitstabellen bei Urlisten . . . . . 3.1.3 Häufigkeitstabellen bei klassierten Daten 3.2 Grafische Darstellungsmöglichkeiten . . . . . . . 3.2.1 Kreis-, Säulen- und Balkendiagramme . . 3.2.2 Stamm-Blatt-Diagramme . . . . . . . . . 3.2.3 Histogramme (Häufigkeitsdichten) . . . . 3.2.4 Boxplots . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

31 31 31 33 35 37 37 38 40 44

X | Inhalt

3.3

4

5

Empirische Verteilungsfunktion (EVF) . . . . . . . . . . . . . . . . . . 48 3.3.1 Häufigkeitsfunktion und EVF bei Urlisten . . . . . . . . . . . . 48 3.3.2 Häufigkeitsdichtefunktion und EVF bei klassierten Daten . . . 50

Spezifizierende Beschreibung empirischer Verteilungen 4.1 Spezifika empirischer Verteilungen . . . . . . . . . . . . . . . . . . 4.2 Lagekennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . 4.2.2 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Modalwert . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Fechner’sche Lageregeln . . . . . . . . . . . . . . . . . . . 4.3 Spezielle Lagekennwerte . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Arithmetisches Mittel bei gruppierten Daten . . . . . . . . 4.3.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Geometrisches Mittel . . . . . . . . . . . . . . . . . . . . . 4.4 Streuungskennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Spannweite . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Mittlere absolute Abweichungen . . . . . . . . . . . . . . . 4.4.3 Median absoluter Abweichungen . . . . . . . . . . . . . . . 4.4.4 Varianz, Standardabweichung und Schwankungsintervalle 4.5 Spezielle Streuungskennwerte . . . . . . . . . . . . . . . . . . . . . 4.5.1 Varianz bei gruppierten Daten . . . . . . . . . . . . . . . . 4.5.2 Quantilsabstände . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . 4.6 Standardisierung mittels Lage und Streuung . . . . . . . . . . . . . 4.7 Messung von Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Darstellung und Messung von Konzentration . . . . . . . . . . . . 4.8.1 Lorenz-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8.2 Gini-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . 4.9 Spezifische Eigenschaften empirischer Kennwerte . . . . . . . . . . 4.9.1 Minimumeigenschaft des arithmetischen Mittels . . . . . . 4.9.2 Minimumeigenschaft des Medians . . . . . . . . . . . . . . 4.9.3 Transformationseigenschaften . . . . . . . . . . . . . . . . 4.9.4 Robustheit . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55 55 58 59 62 65 66 68 68 69 73 77 77 77 80 81 85 85 88 89 92 95 97 98 100 104 104 106 109 114

Beschreibung und Analyse empirischer Zusammenhänge 5.1 Zusammenhänge zwischen kategorialen Merkmalen . . . . . . . . . . 5.1.1 Kontingenztabellen . . . . . . . . . . . . . . . . . . . . . . . . Verteilungen in Kontingenztabellen . . . . . . . . . . . . . . . Empirische Abhängigkeit und Unabhängigkeit . . . . . . . . . Konzeptionelle Vorüberlegungen für ein Zusammenhangsmaß 5.1.2 Zusammenhangsmaße für Kontingenztabellen . . . . . . . . .

116 116 116 116 122 126 128

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Inhalt

5.2

5.3

| XI

Chi-Quadrat-Koeffizient . . . . . . . . . . . . . . . . . . . . . . 128 Mittlere quadratische Kontingenz . . . . . . . . . . . . . . . . 131 Kontingenzkoeffizient nach Pearson . . . . . . . . . . . . . . . 132 Transformationseigenschaften der Zusammenhangsmaße . . . 134 5.1.3 Grafische Analysemöglichkeiten . . . . . . . . . . . . . . . . . 137 Gestapelte und gruppierte Säulendiagramme . . . . . . . . . . 137 Segmentierte Säulen- und Balkendiagramme . . . . . . . . . . 138 Assoziationsplots . . . . . . . . . . . . . . . . . . . . . . . . . 138 Mosaikplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Spineplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 Zusammenhänge zwischen metrischen Merkmalen . . . . . . . . . . . 142 5.2.1 Grafische Analysemöglichkeiten . . . . . . . . . . . . . . . . . 142 Streudiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . 142 Streudiagramm-Matrizen . . . . . . . . . . . . . . . . . . . . . 144 Hexagonalplots . . . . . . . . . . . . . . . . . . . . . . . . . . 144 5.2.2 Zusammenhangsmaße für metrische Merkmale . . . . . . . . . 145 Empirische Kovarianz . . . . . . . . . . . . . . . . . . . . . . . 145 Empirischer Korrelationskoeffizient nach Pearson . . . . . . . 151 Empirische Kovarianz- und Korrelationsmatrizen . . . . . . . . 159 Korrelationskoeffizient nach Spearman . . . . . . . . . . . . . 161 5.2.3 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . 165 Zweck und allgemeine Vorgehensweise . . . . . . . . . . . . . 165 KQ-Methode (L2 -Regression) . . . . . . . . . . . . . . . . . . . 168 LAD-Methode (L1 -Regression) . . . . . . . . . . . . . . . . . . 175 Kritische Punkte und Alternativen . . . . . . . . . . . . . . . . 180 Ergänzende und vertiefende Themen . . . . . . . . . . . . . . . . . . . 183 5.3.1 Zusammenhänge in anderen Skalierungsfällen . . . . . . . . . 184 Grafische Analysemöglichkeiten . . . . . . . . . . . . . . . . . 184 Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . . . 186 Spezielle Regressionsmodelle . . . . . . . . . . . . . . . . . . 188 5.3.2 Grafische Darstellung höherdimensionaler Daten . . . . . . . . 191 Höherdimensionale Mosaikplots . . . . . . . . . . . . . . . . . 191 3D-Punktwolken . . . . . . . . . . . . . . . . . . . . . . . . . . 194 Biplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenhänge 201 Empirische Zusammenhänge und Kausalität . . . . . . . . . . 201 Spezielle Formen von Kausalität . . . . . . . . . . . . . . . . . 205 Systematische Verzerrungen . . . . . . . . . . . . . . . . . . . 207 Zufällige Schwankungen . . . . . . . . . . . . . . . . . . . . . 219

XII | Inhalt

Teil 2: Wahrscheinlichkeitsrechnung – Theoretischer Kalkül 6 Einführung in die Wahrscheinlichkeitsrechnung 6.1 Wichtige Grundbegriffe und Regeln . . . . . . . . . . . . . . . 6.1.1 Interpretation von Zufall und Wahrscheinlichkeiten . 6.1.2 Elementare Mengenlehre . . . . . . . . . . . . . . . . 6.1.3 Axiomatischer Wahrscheinlichkeitsbegriff und Regeln 6.2 Rechnen mit abhängigen und unabhängigen Ereignissen . . . 6.2.1 Bedingte Wahrscheinlichkeiten und Rechenregeln . . 6.2.2 Stochastische Unabhängigkeit von Ereignissen . . . . 6.2.3 Kalkül nach der Formel von Bayes . . . . . . . . . . . 7

Theoretische Verteilungen und Abhängigkeiten 7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen . 7.1.1 Eindimensionale Zufallsvariablen . . . . . . . . . . . Konzept und Ausblick . . . . . . . . . . . . . . . . . . Diskrete Zufallsvariablen und Additionskalkül . . . . Stetige Zufallsvariablen und Integrationskalkül . . . . Theoretische Verteilungsfunktion . . . . . . . . . . . Wahrscheinlichkeitsverteilung . . . . . . . . . . . . . 7.1.2 Mehrdimensionale Zufallsvariablen . . . . . . . . . . Konzept und Ausblick . . . . . . . . . . . . . . . . . . Zweidimensionale diskrete Zufallsvariablen . . . . . . Zweidimensionale stetige Zufallsvariablen . . . . . . Stochastische Abhängigkeit und Unabhängigkeit . . . Höherdimensionale Wahrscheinlichkeitsverteilungen 7.1.3 Verteilung von Funktionen von Zufallsvariablen . . . Funktionen einer Zufallsvariable . . . . . . . . . . . . Funktionen aus mehreren Zufallsvariablen . . . . . . 7.2 Theoretische Kennwerte . . . . . . . . . . . . . . . . . . . . . 7.2.1 Kennwerte in Bezug auf Lage und Streuung . . . . . . Erwartungswert . . . . . . . . . . . . . . . . . . . . . Theoretische Varianz und Standardabweichung . . . Theoretische Quantile und theoretischer Median . . . 7.2.2 Kennwerte in Bezug auf Abhängigkeiten . . . . . . . . Bedingte Erwartungswerte und Varianzen . . . . . . . Theoretische Kovarianz und Korrelation . . . . . . . . Theoretische Regressionskoeffizienten . . . . . . . . . 7.2.3 Spezifische Eigenschaften theoretischer Kennwerte . . Minimumeigenschaften von Lagekennwerten . . . . . Wichtige Transformationseigenschaften . . . . . . . . Endliche und nicht endliche theoretische Momente .

225

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

227 227 227 232 240 251 251 260 267

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

272 272 272 272 275 277 283 288 290 290 291 297 305 309 319 319 326 330 331 331 347 353 355 355 365 371 373 373 374 377

| XIII

Inhalt

7.3

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

Ergänzungen und Verallgemeinerungen 8.1 Weitere eindimensionale Verteilungen . . . . . . . . . . . . . . 8.1.1 Weitere diskrete Verteilungen . . . . . . . . . . . . . . . 8.1.2 Weitere stetige Verteilungen . . . . . . . . . . . . . . . 8.1.3 Sonstige eindimensionale Verteilungen . . . . . . . . . 8.2 Ergänzungen zu asymptotischen Aussagen . . . . . . . . . . . . 8.2.1 Alternative GGZ- und ZGWS-Varianten . . . . . . . . . . 8.2.2 Stochastische Konvergenz und Verteilungskonvergenz . 8.3 Einige multivariate Verallgemeinerungen . . . . . . . . . . . . 8.3.1 Multivariate Abhängigkeiten . . . . . . . . . . . . . . . Abhängigkeit und Unabhängigkeit von Zufallsvektoren Bedingte Abhängigkeit und Unabhängigkeit . . . . . . 8.3.2 Kenngrößen multivariater Abhängigkeiten . . . . . . . Theoretische Kovarianz- und Korrelationsmatrix . . . . Bedingte Kennwerte für n > 2 . . . . . . . . . . . . . . . 8.3.3 Sonstige Verallgemeinerungen . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

438 . 438 . 438 . 440 . 445 . 448 . 448 . 452 . 457 . 457 . 457 . 461 . 462 . 462 . 463 . 467

7.4

8

Spezielle eindimensionale Verteilungen . . . . . . . . . . . . 7.3.1 Spezielle diskrete Verteilungen . . . . . . . . . . . . . Elementare Kombinatorik . . . . . . . . . . . . . . . . Einpunktverteilung . . . . . . . . . . . . . . . . . . . Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . Binomialverteilung . . . . . . . . . . . . . . . . . . . Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . 7.3.2 Spezielle stetige Verteilungen . . . . . . . . . . . . . . Stetige Gleichverteilung . . . . . . . . . . . . . . . . . Exponentialverteilung . . . . . . . . . . . . . . . . . . Normalverteilung . . . . . . . . . . . . . . . . . . . . Verteilung stochastischer Summen und Mittelwerte . . . . . . 7.4.1 Exakte Aussagen . . . . . . . . . . . . . . . . . . . . . Erwartungswerte und Varianzen . . . . . . . . . . . . Verteilungen unter bestimmten Ausgangsverteilungen 7.4.2 Asymptotische und approximative Aussagen . . . . . Gesetz der großen Zahlen (GGZ) . . . . . . . . . . . . Zentraler Grenzwertsatz (ZGWS) . . . . . . . . . . . .

Teil 3: Induktive Statistik – Verbindung von Empirie und Theorie 9

379 380 380 383 383 385 390 394 394 397 402 411 411 411 416 422 422 427

475

Einführung in die induktive Statistik 477 9.1 Modellierung und Handhabung von Schätz- und Testproblemen . . . . 477 9.2 Was versteht man unter einer Stichprobe? . . . . . . . . . . . . . . . . 481

XIV | Inhalt

9.3

Formale Unterscheidungsebenen . . . . . . . . . . . . . . . . . . . . . 493

10 Statistisches Schätzen 10.1 Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Schätzer und ihre Gütekriterien . . . . . . . . . . 10.1.2 Erwartungstreue . . . . . . . . . . . . . . . . . . . 10.1.3 Erwartete quadratische Abweichung (MSE) . . . . 10.1.4 Konsistenz . . . . . . . . . . . . . . . . . . . . . . 10.1.5 Effizienz . . . . . . . . . . . . . . . . . . . . . . . 10.2 Intervallschätzung . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Was versteht man unter einem Konfidenzintervall? 10.2.2 Konfidenzintervalle für Erwartungswerte . . . . . 10.2.3 Konfidenzintervalle für Erwartungswertdifferenzen 10.2.4 Weitere Konfidenzintervalle . . . . . . . . . . . . . 10.2.5 Adäquatheit bestimmter Modellannahmen . . . . 10.3 Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . 10.3.1 Momentenmethode . . . . . . . . . . . . . . . . . 10.3.2 Maximum-Likelihood-Methode . . . . . . . . . . . 10.3.3 Weitere Schätzmethoden . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

497 . 497 . 497 . 504 . 509 . 511 . 519 . 522 . 522 . 528 . 535 . 545 . 550 . 556 . 557 . 560 . 566

11 Statistisches Testen 11.1 Was versteht man unter einem Test? . . . . . . . . . . 11.1.1 Einführende Beispiele . . . . . . . . . . . . . . 11.1.2 Grundstruktur und Durchführung . . . . . . . 11.1.3 Zusammenhang zur Intervallschätzung . . . . 11.2 Wichtige Aspekte beim Testen . . . . . . . . . . . . . . 11.2.1 Hypothesenwahl und Fehlerarten . . . . . . . 11.2.2 Irrtumswahrscheinlichkeiten und Güte . . . . 11.2.3 p-Werte . . . . . . . . . . . . . . . . . . . . . . 11.2.4 Signifikanz vs. Relevanz . . . . . . . . . . . . 11.3 Ausgewählte Testverfahren . . . . . . . . . . . . . . . 11.3.1 Tests über Erwartungswerte . . . . . . . . . . 11.3.2 Tests über Erwartungswertdifferenzen . . . . . 11.3.3 Nichtparametrische χ 2 -Tests . . . . . . . . . . Allgemeiner Überblick . . . . . . . . . . . . . χ 2 -Anpassungstest . . . . . . . . . . . . . . . . χ 2 -Unabhängigkeitstest . . . . . . . . . . . . . 11.3.4 Weitere Tests . . . . . . . . . . . . . . . . . . . Tests über Anteilswerte . . . . . . . . . . . . . Tests auf Unkorreliertheit und Unabhängigkeit Sonstige Tests und Testmethoden . . . . . . . 11.3.5 Allgemein zu beachtende Punkte . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

568 . 568 . 568 . 581 . 584 . 587 . 587 . 591 . 604 . 607 . 609 . 609 . 613 . 618 . 618 . 618 . 627 . 633 . 633 . 640 . 644 . 648

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

Inhalt |

12 Das lineare Regressionsmodell 12.1 Einfaches lineares Regressionsmodell . . . . . . . . . . . . . . . 12.1.1 Grundmodell und KQ-Methode . . . . . . . . . . . . . . . Statistisches Grundmodell . . . . . . . . . . . . . . . . . Herleitung der KQ-Schätzer . . . . . . . . . . . . . . . . . Eigenschaften der empirischen KQ-Regression . . . . . . Bestimmtheitsmaß und Standardfehler der Regression . . 12.1.2 Modellannahmen und theoretische KQ-Regression . . . . Ensembles von Modellannahmen . . . . . . . . . . . . . Theoretische KQ-Regression . . . . . . . . . . . . . . . . 12.1.3 Verteilungstheoretische Grundlagen . . . . . . . . . . . . Verteilungen der KQ-Schätzer . . . . . . . . . . . . . . . . Konsistenz und Effizienz der KQ-Schätzer . . . . . . . . . Schätzung der Varianzen der KQ-Schätzer . . . . . . . . . Verteilungen der Inferenzstatistiken . . . . . . . . . . . . 12.1.4 Schätzen und Testen . . . . . . . . . . . . . . . . . . . . Konfidenzintervalle und Tests . . . . . . . . . . . . . . . Spezialfall: Binärer Regressor . . . . . . . . . . . . . . . . Adäquatheit bestimmter Modellannahmen . . . . . . . . Fallbeispiel 1: Bewässerung und Wachstum . . . . . . . . Fallbeispiel 2: Klassengröße und Lernerfolg . . . . . . . . 12.2 Einführung in das multiple lineare Regressionsmodell . . . . . . 12.2.1 Partielle lineare KQ-Regression . . . . . . . . . . . . . . . Empirische partielle Regression . . . . . . . . . . . . . . Theoretische partielle Regression . . . . . . . . . . . . . Verbindung von Empirie und Theorie . . . . . . . . . . . 12.2.2 Multiple lineare KQ-Regression . . . . . . . . . . . . . . . Empirische multiple Regression . . . . . . . . . . . . . . Theoretische multiple Regression . . . . . . . . . . . . . Verbindung von Empirie und Theorie . . . . . . . . . . . Statistische Modelle und Inferenz . . . . . . . . . . . . . 12.2.3 Fallbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . Fallbeispiel 2 fortgesetzt: Determinanten des Lernerfolgs . Fallbeispiel 3: Gewicht und Geschlecht . . . . . . . . . . Fallbeispiel 4: Binäre Regressoren und ANOVA-Modelle . Anhang: Tabellen | 752 Stichwortverzeichnis | 755 Literatur | 767

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

XV

649 649 650 650 651 654 659 662 662 670 676 676 686 687 690 691 691 694 697 704 709 716 716 716 723 725 727 727 731 733 733 742 742 745 746

1 Einführung in die Statistik In diesem einführenden Kapitel geht es zunächst darum, die verschiedenen Interpretationsmöglichkeiten für den Begriff bzw. das Fach Statistik aufzuzeigen und die für dieses Lehrbuch hauptsächlich relevante Deutung und Eingrenzung vorzunehmen. Dazu werden die wesentlichen Grundzüge und Verfahrensweisen statistischer Methoden vorgestellt und anhand von Beispielen erläutert. Zentrale Begriffe und Unterscheidungen werden dabei sukzessive eingeführt. Der letzte Abschnitt 1.3 bietet schließlich einen fachlichen Überblick über verschiedene Teilbereiche und Spezialgebiete mit ihren jeweiligen Zielsetzungen.

1.1 Eingrenzungen des Begriffs „Statistik“

Der Begriff Statistik kann auf verschiedene Weisen verstanden werden. Zum einen sind Statistiken zusammenfassende Kennwerte, mit denen man größere Datenmengen zu charakterisieren versucht. Zum anderen wird unter (der) Statistik häufig entweder eine staatswissenschaftliche Disziplin verstanden oder eine Wissenschaft, die sich mit der Gewinnung, Auswertung und Interpretation von Daten befasst und dabei maßgeblich auf Wahrscheinlichkeitsrechnung basierende Methoden verwendet.

1.1.1 Komprimierende Kennwerte Zunächst einmal kann man unter einer Statistik einen „zusammenfassenden“ Kennwert einer größeren Menge von Zahlen (Daten) verstehen. In diesem Sinne ist das Wort Statistik sowohl in der Singular- als auch in der Pluralform verwendbar. Mittelwerte und prozentuale Anteilswerte sind einfache Beispiele für solche Statistiken. So lassen sich z.B. die individuellen Gehälter von Angehörigen einer bestimmten Berufsgruppe zu einem einzigen Durchschnittsgehalt zusammenfassen. Die individuellen Parteipräferenzen von Wählern werden gewöhnlich in prozentualen Anteilen festgehalten. Für die Literpreise von Superkraftstoff an Tankstellen einer Region könnte man zusammenfassend den Durchschnittspreis oder alternativ auch eine Preisspanne mit minimalem und maximalem Preis angeben. Derartige Statistiken dienen zur Komprimierung von Information. Eine Bewertung vorliegender Sachverhalte wird dadurch erleichtert und damit einhergehende Entscheidungen werden beschleunigt. So werden beispielsweise Zulassungsstellen für Studiengänge an Hochschulen häufig nur die Abiturdurchschnittsnote eines Bewerbers als zunächst entscheidendes Kriterium heranziehen, ohne sich mit dem gesamten Notenbild eines Bewerbers detailliert zu befassen. Dies spart Zeit und Kosten.

https://doi.org/10.1515/9783110744194-001

2 | 1 Einführung in die Statistik

Andererseits birgt der mit solchen Komprimierungen verbundene Informationsverlust aber auch stets die Problematik einer nicht genügend differenzierenden Bewertung.

1.1.2 Staatswissenschaftliche Disziplin Die eigentliche Wortherkunft von Statistik ist wohl im lateinischen Wort status (Zustand) zu suchen. Tatsächlich hat man lange Zeit unter Statistik eine Art Lehre von der zahlenmäßigen Zustandsbeschreibung des Staates verstanden. So wurden Bevölkerung, Nahrungsvorräte, Gewerbe und Bestände des Militärs bereits zu antiken Zeiten summarisch erfasst. Als staatswissenschaftliche Teildisziplin verstanden taucht der Begriff im deutschsprachigen Raum um die Mitte des 18. Jahrhunderts in Werken des Historikers und Juristen Gottfried Achenwall vermutlich erstmalig auf (Hartung et al. [2009, S. 12–13]). Die Vorstellungen breiter Bevölkerungsschichten darüber, womit sich Statistik als Wissenschaft in erster Linie befasst und welche Statistiken dabei konkret erstellt werden, sind nach wie vor stark von einem solchen Begriffsverständnis geprägt. Man denke heute nur an die von den statistischen Ämtern, der EZB bzw. der Deutschen Bundesbank, der Bundesagentur für Arbeit und vielen anderen Institutionen regelmäßig und in großer Ausführlichkeit veröffentlichten Statistiken zu Bevölkerung, Wirtschaft und Finanzen. Dabei scheint das Sammeln solcher Daten und das Zusammenfassen und Darstellen dieser in Form von Tabellen und Grafiken stets im Vordergrund zu stehen. So könnte man annehmen, dass das Hauptaugenmerk einer Lehre in Statistik vor allem darauf läge, hierfür notwendige fachspezifische Kenntnisse über inhaltliche Definitionen, Bedeutungen und Probleme zu vermitteln. Beispielsweise wäre eine notwendige Voraussetzung dafür, eine für das Bundesgebiet ermittelte Arbeitslosenquote sachgerecht beurteilen zu können, zunächst die Kenntnis darüber, wie diese überhaupt definiert ist. Ob und wie genau sich dann eine solche Quote überhaupt messen lässt, wären dann schon die nächsten Fragen. Ähnliches trifft auf die für private Verbraucher postulierte jährliche Inflationsrate zu, mit der man versucht, den unterschiedlichen Preisentwicklungen von Tausenden von Produkten bei sich stets verändernden individuellen Verbrauchsgewohnheiten von Millionen von Bürgern gerecht zu werden. Wie kann das funktionieren? Welche spezifischen Schwierigkeiten treten dabei auf? Die adäquate Operationalisierung von Statistiken (im vorhergehenden Sinne) zur Untersuchung realer Phänomene in Wirtschaft und Gesellschaft wird insbesondere im Bereich der amtlichen Statistik allgemein als Adäquationsproblem bezeichnet (Grohmann [1985]). Um solche und ähnliche Fragen und Probleme wird es in diesem Buch jedoch nicht gehen, auch wenn deren Wichtigkeit niemals in Abrede gestellt werden soll.

1.1 Eingrenzungen des Begriffs „Statistik“ | 3

1.1.3 Wahrscheinlichkeitstheoretisch fundierte Datenwissenschaft • Charakterisierung und Definition • In einem umfassenderen Sinn kann man heute unter Statistik eine Wissenschaft verstehen, die sich mit allen praktischen und theoretischen Aspekten befasst, die bei der Gewinnung (Messung, Sammlung, Erhebung, ...), Aufbereitung, Analyse und Interpretation von Daten eine Rolle spielen. Jede vollständige statistische Untersuchung wird in der Regel einen solchen mehrstufigen Prozess umfassen (Abb. 1.1.1), wobei die einzelnen Stufen stets ineinander übergreifen und sich gegenseitig bedingen. Sie sind deshalb weder als chronologisch noch als voneinander unabhängig zu betrachten.

Gewinnung und Aufbereitung

Analyse

Interpretation

Abb. 1.1.1: Verlaufsstufen statistischer Untersuchungen von Daten

Eine sachgerechte Interpretation kann am Ende nur erfolgen, falls bekannt ist, wie die Daten gewonnen wurden. Dies setzt außerdem eine geeignete Aufbereitung dieser voraus. Es ist beispielsweise zu klären, wie mit fehlenden oder fehlerhaften Daten umzugehen ist, können solche doch zu verfälschenden Ergebnissen führen. Daten werden außerdem nach bestimmten Kriterien geordnet und sortiert. Zur Analyse der Daten verschafft man sich mithilfe mehr oder weniger komplexer Grafiken und Berechnungen einen Einblick in grundlegende Eigenschaften und Zusammenhänge, die es anschließend zu interpretieren gilt. Umgekehrt dienen verschiedene Analyseverfahren dazu, Fehler und auffällige Abweichungen innerhalb der Daten zu identifizieren oder wesentliche Schlussfolgerungen und Interpretationen zu untermauern. Entscheidend und kennzeichnend für die Statistik ist, dass sich ein Teil ihrer Verfahren auf einen methodischen Apparat zur Analyse zufallsabhängiger Daten stützt. Deshalb bildet die Wahrscheinlichkeitsrechnung ein wichtiges Grundlagenfach der Statistik. Insgesamt ist es schwierig, in einem Satz allen Aspekten des Faches Statistik gerecht zu werden, sofern diesem überhaupt eine gewisse wissenschaftliche Eigenständigkeit zuerkannt wird. Halten wir zumindest eine für uns zweckmäßige Definition fest, die zum Großteil dem entspricht, wie Statistik in den meisten Fachgebieten einführend unterrichtet wird. Statistik ist die Wissenschaft von der Gewinnung, Aufbereitung, Analyse und Interpretation von Daten unter besonderer Verwendung der Wahrscheinlichkeitsrechnung.

4 | 1 Einführung in die Statistik

• Historischer Abriss • Nachdem bereits im 19. Jahrhundert in England und in den USA weltweit die ersten statistischen Fachgesellschaften gegründet worden waren (1834 die Royal Statistical Society in London, 1839 die American Statistical Association in Boston), entstand die moderne auf Wahrscheinlichkeitsrechnung basierende Statistik in wichtigen Grundzügen erst im ausgehenden 19. und beginnenden 20. Jahrhundert. Hier waren zu Anfang vor allem Arbeiten englischer Statistiker wie Francis Galton (1822–1911), Karl Pearson (1857–1936) und Ronald A. Fisher (1890–1962) von entscheidender Bedeutung. In dem wohl ersten Statistik-Lehrbuch im modernen Sinne „An Introduction to the Theory of Statistics“ fasste der Schotte George Udny Yule (1871–1951) bereits im Jahr 1911 die bis dato kulminierten Erkenntnisse seiner Zeit zusammen. Ein genauer Blick in sein etwa 400-seitiges Werk verrät, dass ein erheblicher Teil davon samt Terminologie und Notation sich bis heute in einführenden Lehrveranstaltungen erhalten hat, auch wenn zu diesem Zeitpunkt noch nicht alle methodischen Prinzipien ausgereift waren. Yule definierte damals: „By statistics we mean quantitative data affected to a marked extent by a multiplicity of causes. By statistical methods we mean methods specifically adapted to the elucidation of quantitative data affected by a multiplicity of causes.“ Unter „Statistik“ verstand er also in erster Linie Daten, welche durch „vielfache Einflüsse“ zustande kommen. Zielsetzung „statistischer Methoden“ in einem solchen Kontext sei es dann, entsprechende Hilfsmittel zur Analyse und Klärung beizusteuern. Tatsächlich charakterisiert diese Beschreibung auch heute noch die Hauptintention der meisten statistischen Methoden. Mathematisch war im weiteren Verlauf die Fundierung und Weiterentwicklung der Wahrscheinlichkeitsrechnung wie etwa durch den russischen Mathematiker Andrei N. Kolmogoroff (1903–1987) in den 1930er Jahren sehr entscheidend. Bereits früh setzte mit dem Einzug der modernen Statistik außerdem eine immer stärkere Ausdifferenzierung statistischer Methoden für unterschiedliche Fachwissenschaften wie Biologie, Medizin, Ökonomie oder Psychologie ein (Abschnitt 1.3.3). Als eigenständige wissenschaftliche Disziplin ist Statistik im deutschsprachigen Raum bis heute nicht in dem Maße wahrnehmbar wie es z.B. im angelsächsischen Raum der Fall ist. Während dort bereits ab dem Jahr 1911 nahezu an allen größeren Universitäten Statistics Departments gegründet wurden (das weltweit erste am University College London, gegründet von Karl Pearson), entwickelte sich in Deutschland solch eine eigene Fachkultur vergleichsweise kaum. Statistik wird hierzulande meist entweder als ein Teilgebiet der Mathematik oder eine Art Hilfsfach im Rahmen einer empirischen Wissenschaft verstanden. Historisch mag dies sicherlich auch auf die Tatsache zurückzuführen sein, dass die moderne Statistik mit ihrem entsprechenden Methodenapparat zunächst im angelsächsischen Raum entwickelt wurde. In Deutschland besaß das Fach dagegen noch längere Zeit „nur“ staatswissenschaftlichen Charakter, öffentlich getragen und vertreten vor allem durch die amtliche Statistik. Eine ausführliche Abhandlung zur Geschichte der Statistik, insbesondere in den frühen Anfängen, bietet beispielsweise Stigler [1986, 1999]. In David [1995] findet man einen kompakten Überblick über das erstmalige Auftauchen allgemein wichtiger Be-

1.2 Grundzüge statistischer Methoden | 5

griffe in der Statistik bis in die 2. Hälfte des 20. Jahrhunderts hinein. Die Ursprünge älterer Begriffe können teils auch schon den Literaturhinweisen in Yule’s Lehrbuch entnommen werden. Eine umfassende historische Abhandlung zur Geschichte der Statistik in Deutschland bieten beispielsweise Grohmann, Krämer und Steger [2011].

1.2 Grundzüge statistischer Methoden Von zentraler Bedeutung für die moderne Statistik ist die Zuhilfenahme der Wahrscheinlichkeitsrechnung bei der Analyse und Interpretation zufallsabhängiger Daten. Damit können im Kontext statistischer Probleme bestehende Unsicherheiten durch geeignete statistische Modellierung in Form von Irrtums- und Sicherheitswahrscheinlichkeiten quantifiziert werden. Wertmäßige Größen von Statistiken, zeitliche Entwicklungen und Zusammenhänge lassen sich auf diese Weise besser einschätzen und beurteilen. Zur Überprüfung und Quantifizierung kausaler Effekte zielen statistische Methoden häufig darauf ab, die Gesamtstreuung der Daten in einen systematischen (erklärten) und einen zufälligen (nicht erklärten) Anteil zu zerlegen (Streuungszerlegung). Deskriptive und induktive statistische Methoden bilden die beiden Grundbausteine statistischer Methoden.

1.2.1 System und Zufall • Zufallsvorgänge • Jeder Vorgang mit mehreren möglichen Ergebnissen, dessen Ausgang (konkretes Ergebnis) nicht exakt vorhersagbar (erklärbar) ist, kann als Zufallsvorgang aufgefasst werden. So gesehen leben wir in einer Welt voller Zufälle. Daten sind zufallsabhängig (stochastisch), falls deren Zustandekommen in gewisser Weise einem Zufallsvorgang unterworfen ist. Ein simples Beispiel wäre der Würfelwurf, bei dem 6 verschiedene Zahlen als Ergebnisse möglich sind. Von solch offensichtlichen Beispielen abgesehen, treten jedoch auch in vielen anderen Situationen Zufallsvorgänge auf. Werden Studierende an einer Hochschule zu ihrer Zufriedenheit mit dem Mensaessen befragt, so ist das Ergebnis der Befragung mehr oder weniger zufällig, je nachdem, welche Studierenden befragt werden bzw. in die Befragung geraten. Denn nur selten dürfte es hier gelingen, alle für diese Fragestellung relevanten Studierenden zu befragen. Vielmehr muss man sich mit einer Stichprobe, also einer zufälligen Teilauswahl, begnügen. Gleiches trifft auf Telefonumfragen von Meinungsforschungsinstituten zu, mithilfe derer Tendenzen in Verbrauchsgewohnheiten oder politischen Haltungen festgestellt werden sollen. Auch Daten der amtlichen Statistik in Deutschland beruhen keineswegs nur auf vollständigen Erfassungen. Ein erheblicher Teil wird aus Stichproben gewonnen. Aber auch die Abfertigungszeiten einzelner Kunden an einem Gepäckschalter, das Verkehrsaufkommen an einem Autobahnabschnitt, der Stromverbrauch einer

6 | 1 Einführung in die Statistik

Großstadt in einem bestimmten Zeitfenster, die Anzahl von Einsätzen eines Notarztes während einer Nachtschicht, der Brustumfang eines Fötus im Mutterleib zu einer bestimmten Schwangerschaftswoche oder die Anzahl von Arbeitslosen im nächsten Quartal, all diese Quantitäten sind nicht genau vorhersagbar und deshalb immer auch zufällig. Die Ergebnisse bei der Messung schulischer Leistungen im Rahmen größerer Studien, wie z.B. PISA, sind nicht nur deshalb zufällig, weil es sich um Stichprobenergebnisse handelt, sondern auch weil individuelle Tagesform und Leistungsfähigkeit eines jeden Schülers von vielfältigen Faktoren abhängen und damit zufälligen Schwankungen unterliegen.

zufällig systematisch

zufällig

Methode 1

Methode 2

Abb. 1.2.1: Streuungszerlegung – Anbaumethoden und Ertrag von Pflanzen

• Streuungszerlegung • Ein wichtiges statistisches Grundprinzip besteht darin, die Gesamtschwankungen (Gesamtstreuung) in den Daten in einen systematischen und einen zufälligen Anteil zu zerlegen (Streuungszerlegung), um auf diese Weise Bedeutsamkeit und Stärke kausaler Effekte abschätzen zu können. Der systematische Anteil ist dabei jener, der durch berücksichtigte und beobachtete Einflüsse erklärt werden kann, während der zufällige Anteil von allen restlichen nicht berücksichtigten Einflüssen abhängt. Stellen wir uns beispielsweise vor, mehrere Exemplare einer Nutzpflanze würden in einem Experiment unter völlig identischen Bedingungen zwei unterschiedlichen Behandlungsmethoden ausgesetzt, um daraus resultierende Effekte auf das Wachstum zu messen (Abb. 1.2.1). Dann werden, vereinfacht gesagt, die durchschnittlichen Ertragsunterschiede der beiden Gruppen durch die Behandlungsmethoden erklärt und gelten als systematisch, während die innerhalb der beiden Gruppen auftretenden Schwankungen nicht erklärbar sind und als zufällig erachtet werden.

1.2 Grundzüge statistischer Methoden | 7

1.2.2 Irrtums- und Sicherheitswahrscheinlichkeiten • Statistische Probleme • Zum Wesenskern der Statistik gehört es, stochastische Eigenschaften von Daten mit zu berücksichtigen. Ausgangspunkt ist dabei in der Regel ein statistisches Problem, das eine Situation zufallsbedingter Unsicherheit erzeugt. Ein statistisches Problem liegt vor, falls ein Zufallsvorgang potenziell zu stochastischen Schwankungen von Daten und Statistiken führt und dadurch bedingt interpretatorische Unsicherheiten entstehen. • Beispiel • Stellen wir uns vor, vier Studierende stimmen darüber ab, ob sie zum Mittagessen gemeinsam in die Mensa oder lieber in die Stadt gehen sollen. Dabei gibt es nun drei Stimmen für die Mensa und eine Stimme für die Stadt. Die Entscheidung steht damit fest. Es entsteht kein statistisches Problem. Anders sähe es aus, wenn mittels einer stichprobenhaften Befragung von Studierenden festgestellt werden soll, ob eine Mehrheit der Studierenden an einer Hochschule den Gang in die Mensa anderen Alternativen vorzieht oder nicht. Da die Ergebnisse von Stichproben zufallsabhängig sind, liegt jetzt ein statistisches Problem vor. Angenommen von 50 befragten Studierenden präferieren 30 Studierende die Mensa und 20 Studierende die Stadt. Dann sollte einleuchten, dass exakt dieses Mehrheitsverhältnis von 60% zu 40% nicht zwingend für die gesamte Studierendenschaft gelten muss. Geht man beispielsweise von insgesamt 20 000 Studierenden aus, wäre es sogar extrem unwahrscheinlich, dass bei einer Befragung aller Studierenden exakt 12 000 Studierende für die Mensa und 8000 für die Stadt votieren würden, was dann genau einem Verhältnis von 60% zu 40% entspräche. Es wäre nicht einmal auszuschließen, dass das Mehrheitsverhältnis in Wirklichkeit sogar umgekehrt ist und sich eben nur durch Zufall ein derartiges Präferenzbild ergeben hat. Bei einem Verhältnis von 40 zu 10 Stimmen für die Mensa wäre die Sachlage dann schon deutlich klarer. Wiederum ginge man zwar nicht davon aus, dass unter Einbezug aller Studierenden genau 16 000 für und 4000 gegen die Mensa votieren würden, man wäre aber schon eher dazu geneigt, zumindest auf eine mehrheitliche Präferenz für die Mensa zu schließen. Ab welchem Mehrheitsverhältnis kann man eine solche nun aber postulieren? Sprechen 35 zu 15 oder erst 36 zu 14 für klare Verhältnisse? Wie und wo lässt sich hier eine sinnvolle Entscheidungsgrenze ziehen? Von welchem konkreten prozentualen Anteil an Zustimmung zur Mensa kann man ausgehen? Lässt sich hier ein sinnvolles Intervall angeben? Es wird sich zeigen, dass die Konstruktion genau solcher Entscheidungsgrenzen bzw. solcher Intervalle einen wesentlichen Bestandteil statistischer Methodik ausmacht. • Reale und hypothetische Stichproben • Statistische Probleme treten automatisch immer im Kontext von Stichproben auf, beschränken sich aber bei Weitem nicht nur auf solche. Dazu betrachte man nur einmal das „Pflanzenbeispiel“ des vorhergehenden Abschnitts. Es ist klar, dass man selbst bei scheinbar völlig identischen Wie-

8 | 1 Einführung in die Statistik

derholungen des Experiments stets mehr oder weniger verschiedene Messergebnisse erhalten würde. Insofern stellen die gewonnenen Daten eine Art abstrakte Stichprobe aus einem „übergeordneten Potential an Möglichkeiten“ dar. Bei der Auswertung und Interpretation ergeben sich Unsicherheiten, da die gewonnenen Messergebnisse potenziell schwanken und allzu determinierte Schlussfolgerungen deshalb nicht ableitbar sind. Ähnliches trifft in vielen anderen Situationen zufallsabhängiger Daten zu. Steigt etwa der Kurs eines Wertpapiers von einem Tag auf den anderen an, so besteht Unsicherheit darüber, ob vor dem Hintergrund allgemein üblicher Tagesschwankungen von einer systematischen und bedeutsamen oder nur von einer zufälligen alltäglichen Schwankung auszugehen ist. In diesem Lehrbuch werden wir später zwischen realen und hypothetischen Stichproben unterscheiden, um statistische Probleme „echter Stichproben“ von denen anderweitiger Zufallsvorgänge zu unterscheiden (Abschnitt 9.2). • Statistisches Modell • Ein statistisches Modell (Abschnitt 9.1) ist eine geeignete, maßgeblich auf Wahrscheinlichkeitsrechnung basierende, mathematische Beschreibung, wie zufallsabhängige Daten in einer bestimmten Situation zustande kommen. Dabei werden sowohl systematische als auch zufällige Einflüsse berücksichtigt. Daraus lässt sich dann ableiten, mit welchen Wahrscheinlichkeiten bestimmte Ergebnisse eintreten können. Der Zugewinn einer solchen Modellierung besteht darin, dass für bestimmte Entscheidungen und Aussagen nun konkrete Irrtums- oder Sicherheitswahrscheinlichkeiten angegeben werden können. Die Plausibilität empirischer Befunde wird sozusagen theoretisch untermauert. Unsicherheiten statistischer Probleme können damit zwar nicht beseitigt, wohl aber quantifiziert und kontrolliert werden.

Zufallsvorgang

Statistisches Modell

Daten

Interpretation mit Angabe von Irrtums− oder Sicher− heitswahrscheinlichkeiten

Abb. 1.2.2: Statistische Modellierung

Folgendes einfache Beispiel soll diese Vorgehensweise ein wenig näher bringen. Das Wahrscheinlichkeitskalkül muss an dieser Stelle noch nicht im Detail verstanden werden. Dieses wird in Teil 2 und Teil 3 dieses Buches ausführlich behandelt. Beispiel 1.2.1: Irrtums- und Sicherheitswahrscheinlichkeiten Im Beispiel der Mensabefragung zu Beginn dieses Abschnitts könnte man z.B. ab einem Mehrheitsverhältnis von 31 zu 19 eine mehrheitliche Präferenz unter allen Stu-

1.2 Grundzüge statistischer Methoden | 9

15 94%

10

Wahrscheinlichkeit in %

Wahrscheinlichkeit in %

dierenden für die Mensa unterstellen. Basierend auf einem bestimmten Wahrscheinlichkeitskalkül unterläge diese Behauptung dann einer maximalen Irrtumswahrscheinlichkeit von etwa 6%. Dieser Wert ergibt sich aus folgender hypothetischer Überlegung (Modellvorstellung): Angenommen, unter allen Studierenden läge die Zustimmung zur Mensa tatsächlich bei genau 50%. Dann kann unter Zuhilfenahme der Wahrscheinlichkeitsrechnung ermittelt werden, mit welchen Wahrscheinlichkeiten bestimmte Ergebnisse bei einer zufälligen Befragung von genau 50 Studierenden eintreten können (Abb. 1.2.3). So erhält man bei einer solchen Konstellation beispielsweise mit einer Wahrscheinlichkeit von knapp 5% genau 30 Stimmen für die Mensa und 20 Stimmen gegen diese. Ebenso lässt sich die Wahrscheinlichkeit ermitteln, dass mehr als 30 Studierende für die Mensa stimmen würden. Dazu werden die Wahrscheinlichkeiten für die Werte 31 bis 50 summiert, was einen Wert von ca. 6% ergibt. Nach Wahrscheinlichkeit wäre es somit plausibel, ab 31 Befürwortern in der Stichprobe auf eine mehrheitliche Befürwortung der Mensa unter allen Studierenden zu schließen. Denn es wäre ansonsten sehr unwahrscheinlich (max. 6%) bei 50 Befragten mehr als 30 Befürworter zu erhalten, wenn dem tatsächlich nicht so wäre.

6%

5 0 10

15

20

25

30

35

Stimmenanzahl für Mensa

40

95%

15 10 5 0 25

30

35

40

45

50

55

Stimmenanzahl für Mensa

Abb. 1.2.3: 50% Zustimmung zur Mensa bzw. 80% Zustimmung zur Mensa

Angenommen, bei einer Befragung sprechen sich 40 von 50 Studierenden für das Mensaessen aus. Dies entspricht einem Anteilswert von 80%. Geht man nun davon aus, dass die Zustimmung zur Mensa in der gesamten Studierendenschaft tatsächlich bei exakt 80% liegt, so beträgt die Wahrscheinlichkeit dafür, dass genau 40 von 50 befragten Studierenden für die Mensa votieren, wie es in der Stichprobe ja der Fall ist, knapp 15% (Abb. 1.2.3, rechts). Symmetrisch um den Wert 40 lässt sich nun ein sog. Konfidenzintervall (Sicherheitsintervall) legen, das eine relativ hohe Wahrscheinlichkeitsmasse (Sicherheitswahrscheinlichkeit) umfasst. Bei einer Masse von 95% erhält man z.B. ein Intervall von 35 bis 45. In Anteilswerten von 50 gerechnet, entspricht dies einem Intervall von 70% bis 90%. Es wäre folglich plausibel davon auszugehen, den wahren Anteilswert irgendwo zwischen 70% und 90% zu vermuten.

10 | 1 Einführung in die Statistik

1.2.3 Deskription und Induktion • Methodik empirischer Wissenschaften • Jede empirische Wissenschaft verfügt über Theorien zur Erklärung der Realität von Natur, Umwelt oder Gesellschaft, die sich niemals in Gänze erschließen lässt. Lediglich einen Teil der Realität können wir empirisch (erfahrbar) erfassen und beschreiben. Weitergehend entwickeln wir auf Basis solcher Erfahrungen vereinfachende Modelle, mit denen wir komplexe Phänomene und Zusammenhänge zu erklären versuchen. So geben wir uns etwa nicht mit der bloßen Beschreibung zufrieden, dass die Erdanziehungskraft auf einen Körper mit zunehmender Höhe abnimmt, sondern wir möchten auch die genauen Gesetzmäßigkeiten dahinter verstehen, um dies gegebenenfalls auf andere Himmelskörper und Objekte übertragen zu können. Andererseits dient die Empirie dann wieder dazu, bestehende Modelle und Theorien auf ihre Gültigkeit hin zu überprüfen, näher zu spezifizieren oder gegebenenfalls zu korrigieren. So oder zumindest so ähnlich dürfte sich in vielen empirischen Wissenschaften ein fortwährend erkenntnisgewinnender „Kreisprozess“ (Sachs und Hedderich [2012, S. 3]) vollziehen. Erklärung

Realität

Spezifikation / Überprüfung

Theorie (Modell)

Empirie

Teilinformation

Rückschluss | Beschreibung

Abb. 1.2.4: Methodik empirischer Wissenschaften

• Statistische Methodik • In der Statistik wird die empirische Seite durch die vorliegenden Daten einer Stichprobe repräsentiert. Die Realität bzw. der interessierende Teil davon wird als Grundgesamtheit bezeichnet. Dabei kann es sich um eine konkrete übergeordnete Zielmenge interessierender Objekte oder Personen handeln (real) oder um ein „übergeordnetes Potential an Möglichkeiten“ (hypothetisch), wie es im vorhergehenden Abschnitt erläutert wurde (siehe auch Abschnitt 9.1). Anhand der Daten werden nun statistische Modelle entwickelt, welche das Zustandekommen der Daten vereinfachend erklären sollen. Der Rückschluss, der aufgrund der Daten auf die Grundgesamtheit gezogen werden kann, heißt in der Statistik Induktion. Statistische Methoden, die über eine derartige Zwischenschaltung eines statistischen Modells Aussagen über die Grundgesamtheit ermöglichen, werden als induktiv bezeichnet. Die Spezifikation und Überprüfung der Modelle erfolgt durch die beiden statistischen Schlussweisen, dem Schätzen und dem Testen. Das dazu gehörige theoretische

1.2 Grundzüge statistischer Methoden | 11

Erklärung

Grundgesamtheit

Schätzen / Testen

Statistisches Modell

Daten

Stichprobe

Induktion | Deskription

Abb. 1.2.5: Statistische Methodik

Fundament liefern die statistische Schätz- und Testtheorie, die zusammen die induktive Statistik (schließende Statistik) konstituieren. Im Kontext statistischer Probleme befasst sich die Schätztheorie beispielsweise damit, wie sich anhand vorliegender Daten theoretisch fundierte Konfidenzintervalle für unbekannte Quantitäten einer Grundgesamtheit konstruieren lassen. In der Testtheorie geht es dagegen vor allem um die Herleitung sinnvoller Entscheidungsregeln in Situationen zufallsbedingter Unsicherheiten (Abschnitt 1.2.2). Statistische Methoden, die auf keinem Wahrscheinlichkeitskalkül basieren und die Daten primär deskriptiv (beschreibend) zusammenfassen, werden der deskriptiven Statistik zugeordnet. Hierzu gehört beispielsweise das Ermitteln von Häufigkeiten, Minimal- und Maximalwerten, die Berechnung von Mittelwerten, prozentualen Anteilen und vielen anderen Statistiken ebenso wie die Erstellung von Grafiken zur Visualisierung statistischer Sachverhalte.

1.2.4 Empirischer und theoretischer Kalkül • Hintergrund • Deskription und Induktion müssen einerseits auseinander gehalten, andererseits aber auch als sich gegenseitig ergänzend verstanden werden. Dies führt insbesondere am Anfang häufig zu Verständnisproblemen. Im Kern ist es wichtig, zwischen datengestütztem (empirischem) und stochastischem (theoretischem) Kalkül zu unterscheiden, was sich auch in unterschiedlichen Begrifflichkeiten und Notationen äußert. Zum datengestützten Kalkül zählen wir alle Berechnungen, welche auf konkret vorliegenden Daten beruhen, wie es z.B. bei der Berechnung von Mittelwerten oder prozentualen Anteilen der Fall ist. Deskriptive Methoden sind in irgendeiner Form immer datenbasiert und zählen zum datengestützten Kalkül. Zum stochastischen Kalkül gehören dagegen all jene Berechnungen, welche sich durch ein Wahrscheinlichkeitskalkül ergeben und auf theoretischen Überlegungen beruhen. Induktive Methoden kombinieren Empirie und Theorie, also Daten und Stochastik. In gewisser Weise kann die induktive Statistik deshalb auch als Erweiterung der deskrip-

12 | 1 Einführung in die Statistik

tiven Statistik verstanden werden. Genau diese Dualität bzw. Erweiterung ist es auch, die häufig zu Verwechslungen und Verständnisproblemen führt. • Beispiel 1.2.1 fortgesetzt • Wir betrachten dazu nochmals Beispiel 1.2.1 (Abschnitt 1.2.2). Präferieren 40 von 50 zufällig befragten Studierenden das Mensaessen, so entspricht dies einem Anteil von 80% in der Stichprobe. Dieser Wert ist zunächst einmal ein empirisches Resultat. Die Angabe „80%“ wird als relative Häufigkeit (in Prozent ausgedrückt) bezeichnet. Der Begriff „Wahrscheinlichkeit“ wäre in diesem Fall weniger angebracht. Die rein deskriptive Aussage „80% der befragten Studierenden präferieren die Mensa“ ist der Aussage „Die Befragung ergab, dass Studierende mit 80% Wahrscheinlichkeit die Mensa präferieren“ auf jeden Fall vorzuziehen. Unterstellt man dagegen hypothetisch, dass der wahre Anteil von Mensabefürwortern unter allen Studierenden genau 80% beträgt, und wird diese Annahme auch explizit kommuniziert, so wäre auch eine Aussage der Form „Die Wahrscheinlichkeit, dass ein zufällig befragter Student die Mensa präferiert, beträgt 80%“ zulässig. Die Angabe „80%“ resultiert jetzt aus einer zuvor beschriebenen konkreten Vorstellung (einem unterstellten Modell), ist damit theoretischer Natur und prinzipiell auch ohne Vorliegen konkreter Daten möglich. Auch die Aussage „die Wahrscheinlichkeit dafür, dass von 50 zufällig Befragten genau 40 die Mensa befürworten, beträgt etwa 15%“ resultiert aus einem stochastischen Kalkül im Rahmen dessen wiederum unterstellt wird, dass die wahre Zustimmung in der Grundgesamtheit genau 80% beträgt. Wie in Beispiel 1.2.1 ausgeführt, lässt sich auch ein Konfidenzintervall konstruieren. Sofern z.B. 40 von 50 Befragten die Mensa befürworten, sollte der wahre Anteil in der Grundgesamtheit, d.h. in der gesamten Studierendenschaft, irgendwo zwischen 70% und 90% liegen. Wie aus der Erläuterung zur Konstruktion dieses Intervalls hervorgeht, wird dazu wieder hypothetisch angenommen, dass der wahre Anteil in der Grundgesamtheit 80% beträgt, sprich dem Anteil in der Stichprobe genau entspricht. Symmetrisch um diesen Wert werden dann Sicherheitsbänder der Breite von 10 Prozentpunkten gelegt, sodass ein Sicherheitsintervall mit ca. 95% Wahrscheinlichkeitsmasse entsteht. Es lässt sich (theoretisch) zeigen, dass mit einer solchen Konstruktionsweise die Wahrscheinlichkeit dafür, den wahren Anteil an Zustimmung in der Grundgesamtheit mit dem Intervall zu erfassen, tatsächlich etwa 95% beträgt. Die Konstruktion dieses Sicherheitsintervalls, wie auch die damit einhergehende Sicherheitswahrscheinlichkeit, beruht also einerseits auf einem stochastischen Kalkül, andererseits aber auch auf konkret vorliegenden Daten.

1.3 Teilbereiche, Spezialgebiete und Grundlagen | 13

1.3 Teilbereiche, Spezialgebiete und Grundlagen

Je nach Verlaufsstufe und Fragestellung einer statistischen Untersuchung (Abschnitt 1.1.3) überwiegen eher deskriptive oder eher induktive Methoden. So wird die Datengewinnung meist von induktionstheoretischen Überlegungen bestimmt, während bei der Aufbereitung und Exploration deskriptive Methoden überwiegen. Bei der letztlichen Auswertung und Interpretation der Daten werden sich jedoch beide Seiten gegenseitig ergänzen. Dies trifft im Prinzip auf alle Spezialgebiete und sämtliche wissenschaftsspezifische Ausrichtungen statistischer Methoden zu. Hierbei sollte beachtet werden, dass Spezialgebiete stets ineinander übergreifen und nicht als isoliert voneinander betrachtet werden sollten. Das wichtigste mathematische Grundlagenfach bildet die Stochastik mit der Wahrscheinlichkeitsrechnung im Zentrum. Daneben nimmt die computergestützte Statistik für rechenintensive Verfahren eine sehr wichtige Rolle ein, was durch die Verfügbarkeit immer größerer Datenbestände heute zunehmend verstärkt wird.

Tab. 1.3.1: Statistische Methoden – Spezialgebiete und Grundlagen

Statistik Methodik

Deskriptiv

Induktiv

Einige Spezialgebiete Explorative Datenanalyse Data Mining

Statistische Versuchsplanung Stichprobentheorie

Multivariate Statistik Lineare Modelle Zeitreihenanalyse Nichtparametrische Statistik Bayes−Statistik Wissenschaftsspezifische Ausrichtungen Metrien−Fächer" wie z.B.

"

Biometrie,Ökonometrie Psychometrie oder Technometrie

Mathematische und technische Grundlagen Analysis und Lineare Algebra Wahrscheinlichkeitstheorie Mathematische Statistik Theorie stochastischer Prozesse Computergestützte Statistik

Stochastik

14 | 1 Einführung in die Statistik

1.3.1 Datengewinnung und Aufbereitung • Statistische Versuchsplanung • Im naturwissenschaftlich-technischen Bereich oder in diesen hineinragenden Gebieten wie z.B. der Medizin oder der Psychologie befasst sich die (statistische) Versuchsplanung mit Fragen zur Planung und Durchführung von Experimenten, welche statistischen Charakter aufweisen. Anhand eines sog. Versuchsdesigns wird ein Experiment in der Weise optimal geplant, dass alle interessierenden Fragestellungen möglichst kostengünstig und effizient mit zuvor meist detailliert festgelegten Methoden untersucht werden können. Im Zusammenhang klinischer oder pharmazeutischer Studien geht es beispielsweise um die Überprüfung und Validierung neuer Medikamente hinsichtlich ihrer Wirksamkeit und Risiken. Dazu dürfen zugehörige biometrische Daten niemals beliebig gewonnen, ausgewertet und interpretiert werden. Stattdessen sind strenge gesetzliche Vorschriften zu beachten. Den zur Anwendung kommenden statistischen Testverfahren kommt hier eine außerordentlich wichtige Bedeutung zu, da diese darüber mitentscheiden, ob ein Medikament überhaupt auf den Markt gebracht werden kann oder nicht. Im Rahmen psychologischer oder ökonomischer Experimente werden Versuchspersonen häufig verschiedenen „Behandlungsmethoden“ ausgesetzt werden, um deren Auswirkungen auf das menschliche Verhalten zu untersuchen. Derartige Experimente werden oft am Computer mithilfe von Simulationen durchgeführt. Führte man in der Psychologie schon seit langem solche Experimente durch, hat sich in den Wirtschaftswissenschaften mit der experimentellen Ökonomik ein noch relativ junges Gebiet etabliert. Hier könnte man beispielsweise verschiedenen Probanden unterschiedlich hohe Geldbudgets zuordnen, um mithilfe simulierter Situationen zu untersuchen, in welcher Weise sich die Risikobereitschaft mit der Höhe des Vermögens ändert. • Stichprobentheorie • Die Stichprobentheorie befasst sich mit der Planung, Durchführung und Auswertung realer Stichproben (Abschnitt 9.2). Ähnlich wie bei der statistischen Versuchsplanung gilt es hierbei die Daten so zu erheben, dass bestimmte Fragestellungen unter möglichst geringem Kosten- und Zeitaufwand untersucht werden können. Bei den von statistischen Ämtern und anderen nationalen oder internationalen Institutionen regelmäßig durchgeführten Stichprobenerhebungen stehen Schätzprobleme im Vordergrund. Hierbei geht es zunächst einmal darum, eine Vielzahl von Größen einer übergeordneten Grundgesamtheit möglichst genau zu schätzen. Vorgegebene Fragestellungen sind hier meist weiter und weniger konkret gefasst als beispielsweise bei Stichprobenerhebungen von Markt- oder Meinungsforschungsinstituten. Zu den regelmäßig von den statistischen Ämtern in Deutschland durchgeführten Stichproben zählen beispielsweise der Mikrozensus, die Einkommens- und Verbrauchsstichprobe (EVS) oder das Sozioökonomische Panel (SOEP). Zu den bekannteren internationalen Stichprobenerhebungen zählen die von der OECD durchgeführten PISA-

1.3 Teilbereiche, Spezialgebiete und Grundlagen | 15

Studien. Solche von öffentlichen Institutionen erhobenen Daten werden meist kostenlos bereitgestellt und im Internet öffentlich zugänglich gemacht. Damit können sie in vielerlei Hinsicht untersucht und ausgewertet werden. Dabei gilt es den stochastischen Charakter der Daten aufgrund der Stichprobe bei der Interpretation zu berücksichtigen. • Primär- und Sekundärstatistiken • Amtliche oder nichtamtliche Daten werden häufig allein schon der Erfassung wegen und ohne Vorgabe konkreter (wissenschaftlicher) Fragestellungen erhoben. Man denke dabei nur an das Flensburger Fahreignungsregister („Verkehrssünderkartei“), die bei Banken und Versicherungen anfallenden Datenbestände der Kunden oder das bei Finanzämtern geführte Steuerregister. Im Internet wird jede Sekunde eine riesige Datenmenge über ausgetauschte Kommunikation, aufgerufene Webseiten und erfolgte Suchanfragen gespeichert. Ähnliches gilt für die sekündlich aktualisierten Daten an den Wertpapierbörsen. Statistiken, die aus solchen Daten errechnet werden, bezeichnet man auch als Sekundärstatistiken, da die Daten nicht eigens zur Erstellung solcher Statistiken erhoben wurden. Vielmehr fielen sie ohnehin an. Primärstatistiken resultieren dagegen aus einer gezielten Datengewinnung anhand eines Versuchs- oder Stichprobenplans. Konkret vorgegebene Fragestellungen sollen damit untersucht werden. Gewinnt man beispielsweise anhand der bei einem Finanzamt eingehenden Steuererklärungen verschiedene Statistiken zur Einkommensverteilung der privaten Haushalte einer Stadt, so würde es sich dabei um Sekundärstatistiken handeln. Resultieren diese dagegen aus Befragungen des Mikrozensus, so handelt es sich um Primärstatistiken. Schließlich zählt es zu den Kernanliegen des Mikrozensus, ein statistisches Bild von der wirtschaftlichen und sozialen Lage der privaten Haushalte zu liefern. Die Problematik sekundärstatistischer Daten liegt vor allem darin, dass sich viele statistische Verfahren und methodische Ansätze zur Interpretation nicht ohne Weiteres anwenden lassen, da diese bestimmte Rahmenbedingungen (Modellannahmen) bezüglich der Datengewinnung voraussetzen. Diese sind in der Regel jedoch nicht erfüllt, da die Daten eben nicht gezielt zum Zwecke einer statistischen Untersuchung erhoben wurden. • Datenaufbereitung • Nach der Gewinnung der Daten steht deren Aufbereitung an. Die Daten werden geordnet, tabelliert, eingehend auf Fehlerhaftigkeit und Vollständigkeit geprüft, korrigiert und ergänzt. Fehlende Daten nehmen dabei häufig eine besondere Wichtigkeit ein, da sie die Ergebnisse deskriptiver und induktiver Analysemethoden beträchtlich verfälschen können. Eine ausführliche Behandlung von statistischen Analysen im Kontext fehlender Daten bieten beispielsweise Little und Rubin [2002].

16 | 1 Einführung in die Statistik

1.3.2 Spezielle Analysemethoden und Instrumente • Deskriptive und induktive Methoden • Mit grafischen und rechnerischen Hilfsmitteln verschafft man sich einen Einblick in das Datenmaterial. Dazu werden einfach interpretierbare Statistiken wie Summen, Mittelwerte und Häufigkeiten ermittelt oder auch komplexere Berechnungen durchgeführt, wie sie teils in diesem Lehrbuch oder etwa in einem der nachfolgend skizzierten Spezialgebiete behandelt werden. Zur Visualisierung eignen sich mehr oder weniger anspruchsvolle Grafiken wie sie etwa dem deskriptiven Teil dieses Buches entnommen werden können. Weisen die Daten stochastischen Charakter auf, sind sie also zufallsabhängig, kommen die auf Wahrscheinlichkeitsrechnung basierenden induktiven Methoden zum Einsatz, welche als Erweiterung und Ergänzung der deskriptiven Methoden verstanden werden können (vgl. Abschnitt 1.2.4). Je nach Problemstellung finden diese in mehr oder weniger komplexen statistischen Modellen ihre Anwendung. • Explorative Datenanalyse und Data Mining • Häufig sind Untersuchungsziele und Fragestellungen bei einer Untersuchung nur teilweise festgelegt und noch wenig konkret. Dann verschafft man sich mit umfangreichen deskriptiven Mitteln zunächst einen Überblick darüber, welche besonderen Eigenheiten und Strukturen in den Daten auftreten, um sich Anregungen und Hypothesen über mögliche Zusammenhänge zu verschaffen. Die mit einer solchen Vorgehensweise verbundenen und entwickelten deskriptiven Verfahren werden häufig auch unter dem Begriff explorative Datenanalyse (EDA) zusammengefasst. Dieser Begriff geht auf den amerikanischen Statistiker John. W. Tukey (1915–2000) zurück, der dieses Gebiet durch seine wissenschaftlichen Beiträge entscheidend prägte. Gerade auch im Zusammenhang nichtwissenschaftlicher oder sekundärstatistischer Daten spielt die EDA eine wichtige vorbereitende Rolle. Die Erschließung und Exploration extrem großer Datenbestände auf bedeutsame und „verwertbare“ Strukturen hin ist Gegenstand des sog. Data Mining. Dieses Gebiet wird häufig eher der Informatik als der Statistik zugeordnet. Methoden und Inhalte von EDA und Data Mining sind teils überlappend. • Korrelations- und Regressionsanalyse • Zu den ureigensten Fragen einer jeden empirischen Wissenschaft zählen sicherlich solche wie „Gibt es einen Zusammenhang zwischen X und Y?“ oder „Wie stark hängt X mit Y zusammen?“. Ist unter Rauchern die Wahrscheinlichkeit einer Krebserkrankung höher als unter Nichtrauchern? Welche unterschiedlichen Einflüsse spielen hier eine Rolle? In welchem Zusammenhang stehen die Einkommen von Angestellten einer bestimmten Branche zu Alter, Geschlecht, Ausbildung und Dauer der Betriebszugehörigkeit? Welche Faktoren sind wichtiger, welche weniger ausschlaggebend? Werden Männer selbst bei Gleichheit aller anderen Einflussgrößen besser bezahlt als Frauen? In welchem Zusammenhang stehen die Konsumausgaben eines privaten Haushalts zu seinem Einkommen? Für solche Fragestellungen sind die statistischen Modelle der Korrelations- und Regressionsanalyse nützliche und viel verwendete Instrumente. Insbesondere das

1.3 Teilbereiche, Spezialgebiete und Grundlagen | 17

lineare Regressionsmodell (allgemeiner das lineare Modell) ist hierbei von herausragender Bedeutung. Im Rahmen dessen wird der systematisch bedingte Teil der Gesamtstreuung einer Zielgröße auf eine oder mehrere linear eingehende Einflussgrößen zurückgeführt. Der zufällige Streuungsanteil ergibt sich nach Abzug dieses systematischen linearen Einflusses (zur Streuungszerlegung siehe auch Abschnitt 1.2.1). So mag beispielsweise das Gewicht einer Person maßgeblich (systematisch) von ihrer Größe abhängen. Daneben gibt es jedoch noch viele weitere (eher zufällige) das Gewicht beeinflussende Faktoren (Abb. 1.3.1). Modelle der Varianzanalyse, die vor allem in der statistischen Versuchsplanung verwendet werden, und viele weitere Modelltypen stellen lediglich Sonderformen linearer Modelle dar. 140 120

systematisch zufällig

100 kg 80 60 40 140

150

160

170

180

190

200

210

cm

Abb. 1.3.1: Lineare Regression – Gewicht und Größe von Personen

• Multivariate Statistik • Je mehr Beobachtungswerte und Merkmale in Betracht gezogen werden, d.h. je höher die Dimension der Daten ist, desto nützlicher erweisen sich die Verfahren der multivariaten Statistik. Sie ist insbesondere auf die Entwicklung geeigneter deskriptiver und induktiver Verfahren im Zusammenhang hochdimensionaler Daten spezialisiert. Zahlreiche ihrer Verfahren werden auch der EDA oder dem Data Mining zugeordnet. • Zeitreihenanalyse • Spezielle Instrumente sind ebenso erforderlich, wenn Daten über verschiedene Zeitpunkte hinweg erhoben werden. Dann erhält man sog. Zeitreihen. Der besondere stochastische Charakter von Zeitreihen hat zur Entwicklung sehr spezieller Modelle und Analyseverfahren geführt, die im Rahmen der Zeitreihenanalyse meist gesondert behandelt werden Beispielsweise besitzen ökonomische Daten häufig Zeitreihencharakter. Man denke nur an die jährlich oder quartalsmäßig ermittelten volkswirtschaftlich Aggre-

18 | 1 Einführung in die Statistik

gatsgrößen wie Einkommen, Konsum oder Investition, an die Arbeitsmarktdaten oder die schon sekündlich aktualisierten Finanzmarktdaten. Aber auch in den Naturwissenschaften, in der Medizin oder im technischen Bereich können Zeitreihendaten im Rahmen von längeren Experimenten oder Verlaufsstudien anfallen. Wie zuvor ergeben sich auch hier wieder statistische Probleme bei der Interpretation einzelner Statistiken oder bei der Untersuchung möglicher Einflüsse und Zusammenhänge. Wie hängen Aktienkurse untereinander oder mit der gesamtwirtschaftlichen Entwicklung zusammen? Gibt es einen Zusammenhang zwischen der weltweiten Anzahl verheerender Wirbelstürme und der globalen Erwärmung? Zur Untersuchung solcher Fragen werden zeitreihenanalytische Verfahren meist mit Methoden aus der Korrelationsund Regressionsanalyse kombiniert. Hierbei gilt es nun auch zeitliche Verlaufsmuster wie etwa globale Trends, saisonale, zyklische oder konjunkturelle Effekte mit zu berücksichtigen. 450 EURO STOXX Nikkei 225 Standard and Poor’s 500

400 350 300 250 200 150 100 50 0 1995

1997

1999

2001

2003

2005

2007

2009

2011

2013

Daten: Europäische Zentralbank [2014a] Abb. 1.3.2: Zeitreihen – Aktienindizes 1994–2013 (monatlich, Jan. 1994 = 100) (nachgestellt)

Eine andere wichtige Zielsetzung in der Zeitreihenanalyse ist die Erstellung modellgestützter Prognosen. Mit welchem Wirtschaftswachstum ist im nächsten Quartal zu rechnen? Werden die Verbraucherpreise steigen oder sinken? Mit welcher Netzauslastung müssen die Energieversorger morgen oder innerhalb der nächsten Stunde rechnen? Ähnlich wie bei Schätzproblemen lässt sich die Unsicherheit solcher Prognosewerte mithilfe von Intervallangaben (Prognoseintervalle) zu vorgegebenen Sicherheitswahrscheinlichkeiten quantifizieren. Dies setzt genaue Kenntnisse über systematische und zufällige Strukturen einer Zeitreihe sowie eine geeignete statistische Modellierung voraus. • Nichtparametrische Statistik • Die auf statistischen Modellen (Abschnitt 9.1) beruhenden induktiven Verfahren stellen gewisse Voraussetzungen in Form von Modellannahmen an die Daten. In diesem Zusammenhang spielt die sog. Parametrisierung eines Modells eine entscheidende Rolle. Dies beinhaltet die Art und Weise, wie bekannte und unbekannte Kenngrößen, die als Parameter bezeichnet werden, in ein

1.3 Teilbereiche, Spezialgebiete und Grundlagen | 19

Modell einfließen. Hinsichtlich solcher Parameter „besonders sparsame“ Modelle und Methoden werden häufig als nichtparametrisch bezeichnet. Nichtparametrische Methoden finden sich im Prinzip in allen Spezialgebieten der Statistik. Da sich deren mathematische Grundlagen jedoch von denen klassischer (parametrischer) Modelle und Methoden teils absetzen, werden sie manchmal auch als eigenes Spezialgebiet behandelt. • Bayes-Statistik • Ähnliches gilt für die sog. Bayes-Statistik. Modellparameter werden hier grundsätzlich anders interpretiert als bei „klassischen“ Verfahren. Diese werden nicht mehr als feste (deterministische), sondern als stochastische Größen aufgefasst. Bayes-Statistik stellt damit quasi eine alternative Form dar, wie Statistik grundsätzlich betrieben werden kann. Bayesianische Verfahren ergänzen und erweitern heute das Spektrum statistischer Analysemöglichkeiten in unterschiedlichen Gebieten, sind in der Praxis jedoch vergleichsweise gering verbreitet. Dies mag sicherlich auch auf ihre relativ hohe Rechenintensität selbst bei einfachen Fragestellungen zurückzuführen sein.

1.3.3 Wissenschaftsspezifische Ausrichtungen In allen empirisch orientierten Wissenschaften nehmen heute statistische Methoden zur Auswertung und Interpretation von Daten einen unverzichtbaren Platz ein. „Metrien-Fächer“ wie etwa Biometrie, Ökonometrie, Psychometrie oder Technometrie stellen wissenschaftsspezifische Ausrichtungen statistischer Methoden dar. Früh mit dem Aufkommen moderner statistischer Methoden Ende des 19. und Anfang des 20. Jahrhunderts kam es auch bereits zur Gründung eigener Fachgesellschaften mit zugehörigen Zeitschriften wie etwa Biometrika (1901), Econometrica (1933), Psychometrika (1936) oder Technometrics (1956). Vor dieser Zeit wurden statistische Fachartikel theoretischer und anwendungsbezogener Art aus unterschiedlichen Disziplinen in allgemeinen Zeitschriften wie dem britischen Journal of the Royal Statistical Society (1838) oder dem Journal of the American Statistical Association (1888) veröffentlicht. Die stark forcierte mathematische Fundierung der Statistik ab der 1. Hälfte des 20. Jahrhunderts ließ außerdem eine deutlichere Absetzung mathematischer Beiträge von eher anwendungsbezogenen Artikeln notwendig erscheinen. In diesem Zusammenhang wurden beispielsweise die Annals of Mathematical Statistics (heute Annals of Statistics und Annals of Probability) bereits im Jahr 1930 ins Leben gerufen. Die fachspezifische Diversifikation statistischer Methoden wurde notwendig, um fachtypische Problemstellungen und Rahmenbedingungen besser berücksichtigen zu können. So dominieren beispielsweise in der Ökonometrie vor allem regressionsanalytische Verfahren, während in der Psychometrie multivariate statistische Verfahren traditionell eine bedeutende Rolle einnehmen. In einer biometrischen oder technometrischen Lehrveranstaltung gehören dagegen Grundlagen der statistischen Versuchsplanung mit varianzanalytischen Modellen zu unverzichtbaren Elementen. Bei all die-

20 | 1 Einführung in die Statistik

sen Spezialisierungen sollte dennoch nicht übersehen werden, dass die methodischen Grundlagen im Prinzip immer die gleichen sind. Die Inhalte einführender Lehrveranstaltungen unterschiedlicher Disziplinen überlappen sich deshalb teils erheblich. Selbst die Übergänge zwischen einzelnen Fachwissenschaften werden zunehmend fließender. Neuere interdisziplinäre Gebiete wie etwa die Neuroökonomie, die Neurowissenschaften, Psychologie und Ökonomie verbindet, verstärken diese Konvergenz. In der experimentellen Wirtschaftsforschung werden sozioökonomische Fragestellungen quasi mit naturwissenschaftlichen Herangehensweisen untersucht. Spezielle statistische Verfahren lassen sich also nur noch selten ausschließlich einzelnen Fachwissenschaften zuordnen. Vielmehr werden sie zusehends über solche hinweg ausgetauscht und diskutiert.

1.3.4 Mathematische und technische Grundlagen Zu den mathematischen Grundlagenfächern zählen die Analysis und die lineare Algebra. Letzteres Fach ist mit der Vektor- und Matrizenrechnung vor allem für die Behandlung linearer Regressionsmodelle unentbehrlich. Allen voran besitzt aber die Wahrscheinlichkeitsrechnung die größte und alles entscheidende Bedeutung. Sie ermöglicht erst die statistische Modellierung stochastischer Vorgänge und stellt das zugehörige Rechenkalkül zur Verfügung. Sofern Wahrscheinlichkeitsrechnung auf höherem mathematischem Niveau betrieben wird, verwendet man eher die Bezeichnung Wahrscheinlichkeitstheorie. Die mathematische Statistik ist das mathematische Grundlagenfach der induktiven Statistik, das sich vor allem mit der Entwicklung und Optimierung von Schätz- und Testverfahren befasst. In der Theorie stochastischer Prozesse geht es um die Modellierung zeitabhängiger Zufallsprozesse jedweder Art. Typische Zeitreihen stellen hier lediglich Spezialfälle dar. Stochastik kann schließlich als Sammelbegriff aller mathematischen Fächer verwendet werden, welche sich in irgendeiner Form mit zufälligen Ereignissen und Wahrscheinlichkeiten befassen. Insbesondere in der EDA, im Data Mining, in der nichtparametrischen Statistik und in der Bayes-Statistik werden häufig sehr computerintensive Verfahren eingesetzt, die teils auf ausgefeilten numerischen Prozeduren basieren. Auch die Erschließung extrem großer Datensätze, wie sie typischerweise in der Genetik, im Bereich der Telekommunikation oder an den Finanzmärkten anfallen, stellt neue Anforderungen an statistische Verfahren und forciert einen zunehmenden Austausch mit der Informatik. Unter den Begriffen Computational Statistics oder Statistical Computing verbergen sich Schnittgebiete zwischen Statistik, Informatik und Numerik. Wir verwenden hier den Sammelbegriff computergestützte Statistik. Als technisches Grundlagenfach betrachtet befasst sich dieses vor allem mit der Implementierung statistischer Verfahren in möglichst effiziente Programme.

ĊǘȪɑ‫ޠܩڲޠ‬6ǘ˒ɈʾȪʳ˥Ȫ̝ǘ‫ޠ‬ý˥Ɔ˥Ȫ˒˥ȪɈ‫ޠݮޠ‬FɩʳȪʾȪ˒ƷȚǘʾ‫—ޠ‬ƆɑɈ̃ɑ Deskriptive‫ޠ‬Methoden‫ޠ‬zielen‫ޠ‬darauf‫ޠ‬ab,‫ޠ‬konkret‫ޠ‬vorliegende‫ޠ‬Daten‫ޠ‬hinsichtlich‫ޠ‬wesentlicher‫ޠ‬Eigenschaften‫ޠ‬mit‫ޠ‬grafischen‫ޠ‬und‫ޠ‬rechnerischen‫ޠ‬Mitteln‫ޠ‬zu‫ޠ‬beschreiben.‫ޠ‬ Im‫ޠ‬Gegensatz‫ޠ‬zu‫ޠ‬den‫ޠ‬induktiven‫ޠ‬Analysemethoden,‫ޠ‬die‫ޠ‬in‫ޠ‬Teil‫ޠ‬3‫ޠ‬behandelt‫ޠ‬werden,‫ޠ‬ beruhen‫ޠ‬diese‫ޠ‬auf‫ޠ‬keinem‫ޠ‬Wahrscheinlichkeitskalkül,‫ޠ‬sondern‫ޠ‬sind‫ޠ‬in‫ޠ‬erster‫ޠ‬Linie‫ޠ‬datengestützt. Nach‫ޠ‬der‫ޠ‬Einführung‫ޠ‬einiger‫ޠ‬grundlegender‫ޠ‬Begriffe‫ޠ‬in‫ޠ‬Kapitel‫ޠ‬2,‫ޠ‬befassen‫ޠ‬sich‫ޠ‬ Kapitel‫ ޠ‬3‫ ޠ‬und‫ ޠ‬4‫ ޠ‬mit‫ ޠ‬der‫ ޠ‬Beschreibung‫ ޠ‬empirischer‫ ޠ‬Verteilungen‫ ޠ‬einzelner‫ ޠ‬Merkmale‫( ޠ‬univariat).‫ ޠ‬Dabei‫ ޠ‬geht‫ ޠ‬es‫ ޠ‬zunächst‫ ޠ‬um‫ ޠ‬die‫ ޠ‬Frage,‫ ޠ‬wie‫ ޠ‬sich‫ ޠ‬das‫ ޠ‬zahlenmäßige‫ޠ‬ Auftreten‫ޠ‬bestimmter‫ޠ‬Werte‫ޠ‬innerhalb‫ޠ‬einer‫ޠ‬größeren‫ޠ‬Datenmenge‫ޠ‬tabellarisch‫ޠ‬und‫ޠ‬ grafisch‫ޠ‬z usammenfassen‫ޠ‬l ässt.‫ޠ‬D anach‫ޠ‬w erden‫ޠ‬M öglichkeiten‫ޠ‬v orgestellt,‫ޠ‬w ie‫ޠ‬bestimmte‫ޠ‬Spezifika‫ޠ‬von‫ޠ‬Verteilungen‫ޠ‬mithilfe‫ޠ‬empirischer‫ޠ‬Kennwerte‫ޠ‬quantifiziert‫ޠ‬werden‫ ޠ‬können.‫ ޠ‬In‫ ޠ‬Kapitel‫ ޠ‬5‫ ޠ‬werden‫ ޠ‬schließlich‫ ޠ‬grafische‫ޠ‬u nd‫ޠ‬r echnerische‫ޠ‬Verfahren‫ޠ‬ zur‫ޠ‬Untersuchung‫ޠ‬von‫ޠ‬Zusammenhängen‫ޠ‬zwischen‫ޠ‬mehreren‫ޠ‬Merkmalen‫ޠ‬vorgestellt‫ޠ‬ (multivariat).

2 Einführung in die deskriptive Statistik In diesem Kapitel werden einige grundlegende Begriffe im Zusammenhang deskriptiver Methoden geklärt.

2.1 Daten, Datensätze und Variablen

In der Statistik versteht man unter Daten in der Regel eine auf in einem bestimmten Kontext wesentliche Merkmale (Variablen) verkürzte Information über Personen, Objekte oder Vorgänge mittels Quantifizierung und Kategorisierung. Die in der Statistik am häufigsten verwendete Organisationsstruktur solcher Daten sind Datensätze. Diese weisen unmittelbar schon eine für statistische Verfahren besonders geeignete Strukturierung auf. Die Erstellung eines Datensatzes im Zusammenhang primär- oder sekundärstatistischer Daten ist häufig mit dem Problem verbunden, die Vergleichbarkeit der Untersuchungseinheiten zu gewährleisten und sinnvolle Skalierungen für die Variablen zu definieren.

• Daten in der Statistik • Statistische Methoden befassen sich mit der Analyse von Daten. Doch was genau versteht man unter Daten? Dazu gibt es keine einheitliche und auf einen gemeinsamen Punkt zu bringende Definition. Die Singularform zu diesem Wort lautet Datum, worunter gewöhnlich ein bestimmter Kalendertag verstanden wird. Aus dem lateinischen dare (geben) abgeleitet, heißt es wörtlich übersetzt „das Gegebene“. Insofern könnte man „Datum“ oder „Daten“ auch mit „Angabe“ bzw. „Angaben“ übersetzen. In der Statistik zeichnen sich Daten insbesondere dadurch aus, dass in relativ kompakter Form spezifische Merkmale von Personen, Objekten oder Vorgängen zusammengefasst werden. So umfassen beispielsweise die bei einem Telekommunikationsunternehmen gespeicherten Daten von Telefongesprächen in der Regel Nummern von anrufenden und angerufenen Personen, Zeiten und Dauern von Gesprächen und dabei angefallene Kosten. Die Daten von Lehrveranstaltungen in einem Vorlesungsverzeichnis, können Namen von Lehrenden, Semesterwochenstunden, ECTS-Punkte, Zeiten und Räume oder Arten und Dauern von Prüfungen beinhalten. Im Zusammen-hang solcher Daten geht es also immer um eine Art Komprimierung von Information auf in einem bestimmten Kontext wichtige und relevante Aspekte. Dies geschieht entweder durch Quantifizierung in Form von Zahlen (Dauer, Umfang, Anzahl, Kosten, usw.) oder durch eine bestimmte Art von Kategorisierung (Name, Ort, Sprache, Geschlecht, usw.). • Allgemeinere Formen von Daten • Insbesondere in der Informatik und Nachrichtentechnik ist der Begriff „Daten“ wesentlich allgemeiner gefasst. Beispielsweise würde man dort auch sämtliche auf einem Computer oder einem USB-Stick abgespeicherte Dateien, seien es nun Programme, Texte oder Grafiken oder sämtliche über ein Glasfaserkabel übertragenen optischen Signale als Daten bezeichnen. Daten in einem solhttps://doi.org/10.1515/9783110744194-002

24 | 2 Einführung in die deskriptive Statistik

chen Sinne, sozusagen nur als „kodierte Information“ verstanden, weisen jedoch eine für statistische Verfahren noch viel zu geringe Strukturierung und Komprimierung auf, um unmittelbar schon mit üblichen statistischen Verfahren erschlossen werden zu können. • Datensätze, Variablen und Dimension • In der Statistik werden Daten am häufigsten in Form von Datensätzen organisiert. Die Grundstruktur eines Datensatzes besteht dabei aus einer Rechteckanordnung von Zahlen und Kategorien in Form von Zeilen und Spalten gemäß einer Tabelle. So sind beispielsweise Veranstaltungsdaten eines typischen Vorlesungsverzeichnisses in der Regel schon so weit vorstrukturiert, dass sie sich auch ohne weiteres in Form eines Datensatzes organisieren lassen (Tab. 2.1.1). Tab. 2.1.1: Datensatz von Lehrveranstaltungen (fiktiv) SWS

Prüfungsdauer (in Minuten)

ECTS

Sprache

Gasthörer

Statistik 2

6

120

7

Deutsch

nein

Multivariate Statistics

4

120

7

Englisch

ja

Versuchsplanung

2

NA

4

Deutsch

nein

Computergestützte Statistik

4

90

6

Deutsch

beschränkt

Econometrics I

4

90

6

Englisch

nein

Veranstaltung

Jedem Datensatz liegt immer eine Menge vergleichbarer Objekte zugrunde, die hinsichtlich der gleichen Merkmale quantifiziert und kategorisiert werden. Dabei kann es sich um eine Menge von Personen, Gegenständen, geographische Orten, Vorgängen oder Ereignissen handeln. Diese Objekte heißen in der Statistik Untersuchungseinheiten oder auch Merkmalsträger (Abschnitt 2.2). Um sinnvolle statistische Aussagen aus einem Datensatz ableiten zu können, muss neben der Einheitlichkeit der Objekte auch das den Merkmalen jeweils zugrundeliegende Bewertungssystem, die sog. Skalierung, sinnvoll und einheitlich gewählt werden. Im vorliegenden Fall wird z.B. das Merkmal „Prüfungsdauer“ einheitlich in Minuten festgehalten. Die Zulassung von Gasthörern wird über die Kategorien „ja“, „nein“ und „beschränkt“ deklariert und nicht über beliebige und ständig wechselnde Formen wie etwa „sehr willkommen“, „ja“, „auf Nachfrage“, „nein“, „beschränkt“, oder „bitte den Dozenten kontaktieren!“. Genauso muss die Behandlung fehlender Werte einheitlich deklariert werden. Handelt es sich bei der Veranstaltung „Versuchsplanung“ beispielsweise um eine projektorientierte praktische Lehrveranstaltung, im Rahmen derer hauptsächlich schriftliche Hausarbeiten und mündliche Vorträge benotet werden, ist das Merkmal „Prüfungsdauer“ nicht relevant. Eine Bewertung mit dem Wert 0, falls tatsächlich keine

2.1 Daten, Datensätze und Variablen | 25

schriftliche Klausur erfolgt, wäre zwar durchaus logisch, aber dennoch nicht sinnvoll. Fehlende Werte können beispielsweise mit der international gängigen Abkürzung NA (Not Available) deklariert werden, wobei, wie im vorliegenden Fall, eine Nichtverfügbarkeit nicht immer der Grund für einen fehlenden Wert sein muss. Vielmehr kann es auch sein, dass eine Variable unter bestimmten Gegebenheiten einfach nur nicht sinnvoll bewertet werden kann. Üblicherweise korrespondieren die Zeilen eines Datensatzes mit den Untersuchungseinheiten und die Spalten mit den Merkmalen. Anstelle von Merkmalen spricht man auch häufig von Variablen, um die Variabilität der einzelnen Merkmale hinsichtlich ihrer verschiedenen Ausprägungsmöglichkeiten herauszustellen. Die erste Spalte enthält häufig Namen, Bezeichnungen oder zumindest Nummerierungen der einzelnen Untersuchungseinheiten. Übersteigt die Spaltenanzahl (Variablenanzahl) die Zeilenanzahl (Anzahl der Beobachtungen), wird die Zuordnung von Zeilen und Spalten aus Darstellungsgründen häufig auch vertauscht. Zeilen- und Spaltenanzahl werden auch als Dimensionen des Datensatzes bezeichnet. In der Singularform versteht man unter der Dimension oder der Dimensionalität der Daten primär die Anzahl der Variablen. • Probleme bei der Erstellung von Datensätzen • Gerade im Zusammenhang schwach strukturierter Daten, deren Erhebung und Verwendung nicht primär statistischen Auswertungszwecken dient (Sekundärstatistiken), erweist sich die Transkription von Daten in konkrete Datensätze häufig als problematischer Schritt. Hierbei unterlaufene Fehler und Ungenauigkeiten lassen sich später unter Umständen kaum mehr korrigieren, sofern sie überhaupt noch erkannt werden. Angenommen im vorliegenden Beispiel soll unter anderem untersucht werden, wie hoch der Anteil der in Englisch abgehaltenen Vorlesungen an einer Hochschule ist. Die Datengrundlage bilde hierbei das offizielle Vorlesungsverzeichnis. In Bezug auf die Untersuchungseinheiten muss nun klar geregelt werden, was eine „Vorlesung“ eigentlich ist und was nicht. Unter Umständen lässt sich dies aber nicht immer eindeutig beurteilen. So mag es z.B. Veranstaltungen geben, bei denen die Trennung zwischen Übung und Vorlesung nicht deutlich erkennbar ist. Bei der Variable „Sprache“ kann es wichtig sein, zwischen optional und zwingend in Englisch abgehaltenen Vorlesungen zu unterscheiden. Bei der konkreten Erstellung eines Datensatzes treten also stets Ungenauigkeiten und Zweideutigkeiten auf. Auch wenn solche Probleme eher nichtstatistischer Natur sein mögen, können solche vorbereitenden Überlegungen eine spätere Auswertung und Interpretation mitunter stärker beeinflussen als die Wahl eines geeigneten statistischen Analyseverfahrens. Werden Daten dagegen gezielt für einen bestimmten statistischen Untersuchungszweck erhoben (Primärstatistiken), werden diese bereits bei ihrer Erhebung mehr oder weniger direkt schon in eine Datensatzstruktur eingetragen. Dennoch sind auch hier Eindeutigkeitsprobleme und Ungenauigkeiten nicht auszuschließen, wie es z.B. häufig bei Befragungen von Personen (unklare Antworten) oder Messungen bei Experimenten (Messfehler) der Fall ist.

26 | 2 Einführung in die deskriptive Statistik

2.2 Grundgesamtheit, Merkmalstypen und Skalierungsarten

Jede statistische Untersuchung bezieht sich auf eine bestimmte Zielmenge von Personen, Objekten oder Vorgängen, die sich durch eindeutige Identifikationskriterien abgrenzt und allgemein als Grundgesamtheit bezeichnet wird. Die Elemente dieser Menge werden als Untersuchungseinheiten oder Merkmalsträger bezeichnet. Diese enthalten die für eine Fragestellung relevanten Merkmale (Variablen), die durch Beobachtung, Befragung oder Messung erhoben werden. Dabei kann zwischen verschiedenen Merkmalstypen und Skalierungsarten unterschieden werden.

• Grundgesamtheit • Wie im vorhergehenden Abschnitt erläutert wurde, liegt jedem Datensatz stets eine bestimmte Menge von Personen, Objekten oder Vorgängen zugrunde, die in gewisser Weise vergleichbar sein müssen, um statistisch sinnvolle Aussagen ableiten zu können. So wird beispielsweise bei einer Telefonumfrage wie dem bekannten Politbarometer des ZDF vor der Befragung genau festgelegt, wer, wann, wo und auf welche Weise befragt werden soll. Eine über solche sachliche, räumliche und zeitliche Identifikationskriterien abgrenzbare Zielmenge wird in der Statistik als Grundgesamtheit bezeichnet. Die interessierenden Personen, Objekte oder Vorgänge einer Grundgesamtheit, heißen Untersuchungseinheiten oder auch Merkmalsträger. Die Grundgesamtheit ist nicht mit der Menge aller Untersuchungseinheiten eines Datensatzes gleichzusetzen! Vielmehr ist sie die Menge aller potenziell in Frage kommenden Objekte. Später wird in diesem Lehrbuch noch zwischen realer und hypothetischer Grundgesamtheit differenziert werden (Abschnitt 9.2). • Merkmalstypen • Merkmale lassen sich in qualitative (auch kategoriale) und quantitative Merkmale einteilen. Bei qualitativen Merkmalen sind die Merkmalsausprägungen „artmäßig“ (kategorial) und werden durch Namen oder Kategorien ausgedrückt. Dazu gehört beispielsweise der Name einer Person, einer Stadt oder einer Lehrveranstaltung, Geschlecht, Konfession und Familienstand oder die Tatsache, ob jemand Vegetarier ist oder nicht (Ja vs. Nein). Bei quantitativen Merkmalen werden die Ausprägungen dagegen durch Zahlen ausgedrückt. Hier sei beispielsweise das Alter eines Kraffahrzeugs, das Jahreseinkommen eines Angestellten oder die monatliche Anzahl von Todesfällen in einem Pflegeheim zu nennen. Quantitative Merkmale lassen sich wiederum in diskrete und stetige Merkmale einteilen. Diskrete Merkmale besitzen nur endlich oder abzählbar unendlich (Abschnitt 6.1.2) viele verschiedene Ausprägungsmöglichkeiten wie z.B. die Anzahl von Personen in einem Haushalt oder die Anzahl von Unternehmensinsolvenzen innerhalb eines Jahres. Die Ausprägungen stetiger Merkmale erstrecken sich dagegen auf ein Kontinuum möglicher Werte, ausgedrückt häufig durch ein Intervall, innerhalb dessen sich Werte realisieren können. Typische Beispiele für stetige Merkmale wären Geschwindigkeit, zeitliche Dauer, Größe und Gewicht oder Energieverbrauch. Die Eigenschaft der Stetigkeit gilt auch dann, falls die Ausprägungen nur bis zu einer be-

2.2 Grundgesamtheit, Merkmalstypen und Skalierungsarten | 27

stimmten Genauigkeit erfasst oder angegeben werden. Wenn also beispielsweise die Körpergröße einer Person nur zentimetergenau gemessen oder angegeben wird, ändert dies nichts an der Tatsache, dass das Merkmal Körpergröße an sich stetig ist. Diskrete Merkmale, für die es „relativ viele“ Ausprägungsmöglichkeiten gibt und die sich deshalb wie stetige Merkmale behandeln lassen, werden als quasistetig bezeichnet. Als Beispiel sei hier die Größe einer auf einem Computer gespeicherten Datei genannt. Typischerweise werden Dateigrößen in Gigabyte, Megabyte oder Kilobyte angegeben. Tatsächlich existiert aber auch hier eine genaueste diskrete Angabe, die in der kleinsten Informationseinheit eines Bit erfolgt. Merkmal Qualitativ

Typ

Quantitativ

Namen und Kategorien

Ausprägungsform

Zahlen (diskret oder stetig)

nominal oder ordinal

Skalierung

metrisch (kardinal)

Abb. 2.2.1: Merkmalstypen und Skalierungsarten

• Skalierungsarten • Unter der Skalierung eines Merkmals versteht man die Art und Weise, wie unterschiedliche Ausprägungen bewertet oder kategorisiert werden. Werden die Ausprägungen auf einer Zahlenskala gemessen, möglicherweise in Verbindung mit einer bestimmten Maßeinheit wie Minuten, Zentimeter oder Kilowattstunde, so spricht man von kardinal oder metrisch skalierten Merkmalen. Quantitative Merkmale sind prinzipiell immer metrisch skaliert. Sie lassen sich größenmäßig ordnen und vergleichen. Ausprägungen und Kategorien nominal skalierter Merkmale können dagegen nur in Bezug auf Gleichheit oder Ungleichheit miteinander verglichen werden. Es existiert keine natürliche Wertigkeits- oder Präferenzordnung. Typische Beispiele hierfür wären Namen und Bezeichnungen von Personen, Orten oder Objekten. Ordinal skalierten Merkmalen liegt dagegen eine natürliche Rangordnung zugrunde. Beispiele hierfür wären die Schulbildung (Hauptschulabschluss, Mittlere Reife, Abitur, usw.), die Kreditwürdigkeit eines Staates nach einer Ratingagentur (AAA, AA, A, usw.) oder die Kategorie eines Flugtickets (Economy, Business, First, usw.). Qualitative Merkmale sind entweder nominal oder ordinal skaliert. Ferner ist zu beachten, dass sich Ausprägungen qualitativer Merkmale metrisch kodieren lassen, wovon die eigentliche Skalierung jedoch unberührt bleibt. Deklariert man beispielsweise die Ausprägungen des Merkmals Geschlechts mit 1 für „weiblich“ und 0 für „männlich“, so bleibt Geschlecht an sich unverändert ein nominal skaliertes Merkmal.

28 | 2 Einführung in die deskriptive Statistik

2.3 Empirische Verteilungen und Zusammenhänge

Deskriptive Methoden zielen darauf ab, empirische Verteilungen und Zusammenhänge von bzw. zwischen Merkmalen zu analysieren und zu erschließen. Zwischen zwei Merkmalen besteht immer dann ein empirischer Zusammenhang (empirische Abhängigkeit), wenn die Verteilung des einen Merkmals von Werten des anderen Merkmals abhängt. Ansonsten sprechen wir von empirischer Unabhängigkeit. Davon deutlich zu unterscheiden sind die mithilfe der Wahrscheinlichkeitstheorie ableitbaren theoretischen (stochastischen) Verteilungen von Zufallsvariablen, die später in Teil 2 eingeführt werden. Zwischen Zufallsvariablen können stochastische Abhängigkeiten bestehen.

• Ein- und mehrdimensionale Verteilungen • Unter der empirischen Verteilung eines Merkmals oder mehrerer Merkmale (Variablen) verstehen wir die Art und Weise, wie einzelne Merkmalsausprägungen in einem vorliegenden Datensatz auftreten, sprich wie sich die Werte im Einzelnen auf die einzelnen Ausprägungsmöglichkeiten verteilen. Die Beschreibung einer empirischen Verteilung erfolgt in der Regel über summarische Angaben einzelner Häufigkeiten z.B. im Rahmen von Tabellen oder über grafische Darstellungen solcher. Wird nur die Verteilung eines einzelnen Merkmals betrachtet, spricht man von einer eindimensionalen oder univariaten Verteilung. Werden die Ausprägungskombinationen von zwei oder mehr Merkmalen gleichzeitig betrachtet, spricht man dagegen von einer mehrdimensionalen oder multivariaten Verteilung oder auch von der gemeinsamen Verteilung der betreffenden Merkmale. Beispiel 2.3.1: Ein- und mehrdimensionale empirische Verteilung Angenommen im Rahmen einer Studie werden 100 Personen in einer Stadt zu deren Rauchverhalten befragt. Dabei ergibt sich, dass unter diesen Personen 16 regelmäßige Raucher, 20 Gelegenheitsraucher und 64 Nichtraucher sind. Die Beschreibung der Verteilung des Merkmals „Raucherstatus“ kann dann beispielsweise über eine Darstellung wie in Abb. 2.3.1 erfolgen. Wird neben dem Raucherstatus noch das Geschlecht der befragten Person mit erhoben, so kann die gemeinsame Verteilung der beiden Merkmale „Raucherstatus“ und „Geschlecht“ beispielsweise mithilfe einer sog. Kontingenztabelle dargestellt werden (Abb. 2.3.2). Es handelt sich dabei um eine zweidimensionale Verteilungsdarstellung, aus der hervorgeht, wie häufig welche Ausprägungskombinationen beider Merkmale auftreten.

2.3 Empirische Verteilungen und Zusammenhänge | 29

Abs. Häufigkeit

80 60 40 20 0 Raucher

Gelegenheitsraucher

Nichtraucher

Abb. 2.3.1: Verteilung des Raucherstatus (fiktiv) Raucherstatus

Raucher

Gelegenheits− raucher

Nichtraucher

weiblich

4

8

28

männlich

12

12

36

Geschlecht

Abb. 2.3.2: Gemeinsame Verteilung von Raucherstatuts und Geschlecht (fiktiv)

• Empirische Zusammenhänge • Die tabellarische oder grafische Deskription einer multivariaten Verteilung zielt häufig darauf ab, Zusammenhänge zwischen einzelnen Merkmalen feststellen zu können. Doch was genau versteht man unter einem Zusammenhang? Wann genau hängen zwei Merkmale zusammen und wann nicht? In der Statistik spricht man immer dann von einem Zusammenhang, wenn die relative Verteilung des einen Merkmals innerhalb der Unterkategorien des anderen Merkmals unterschiedlich ist, also von den Ausprägungen des anderen Merkmals abhängt. Aus Abbildung 2.3.2 geht z.B. hervor, dass insgesamt 40 Frauen und 60 Männer befragt wurden. Von den Männern waren 36 Nichtraucher, was einem Anteil von 100 × 36/60 = 60% entspricht. Bei den Frauen beträgt dieser Anteil dagegen 70% und ist damit um 10 Prozentpunkte höher. Damit besteht im vorliegenden Fall ein empirischer Zusammenhang (eine empirische Abhängigkeit). Das segmentierte Säulendiagramm in Abbildung 2.3.3 illustriert die unterschiedliche Verteilung des Raucherstatus innerhalb der beiden Geschlechter. Zwischen Raucherstatus und Geschlecht würde hingegen kein Zusammenhang (keine Abhängigkeit) bestehen, falls die relativen Anteile von Rauchern, Gelegenheitsrauchern und Nichtrauchern bei Männern und Frauen jeweils exakt übereinstimmen würden. Eine Präzisierung des Abhängigkeits- bzw. Unabhängigkeitsbegriffs erfolgt später in Abschnitt 5.1.1. Im Falle zweier metrisch skalierter Merkmale wie z.B. Größe und Gewicht einer Person besteht ein übliches Verfahren darin, die Ausprägungen beider Merkmale in einem zweidimensionalen Streudiagramm abzutragen (vgl. Abschnitt 1.3.2). Damit lässt sich die Richtung des Zusammenhangs, ob nun positiv (je größer, desto schwe-

30 | 2 Einführung in die deskriptive Statistik

100 80 60

Nichtraucher

Nichtraucher

% 40 Gelegenheitsraucher 20 0

Gelegenheitsraucher Raucher weiblich

Raucher männlich

Abb. 2.3.3: Zusammenhang von Raucherstatus und Geschlecht (fiktiv)

rer) oder negativ (je größer, desto leichter), aber auch die Art (linear, nichtlinear, exponentiell, usw.) bereits visuell einschätzen. • Wahrscheinlichkeitstheoretische Gegenstücke • Zu den empirischen Verteilungsbegriffen des datengestützten Kalküls korrespondieren die theoretischen Gegenstücke des stochastischen Kalküls, die im Rahmen der Wahrscheinlichkeitsrechnung in Teil 2 vorgestellt werden. Unter einer theoretischen oder stochastischen (auch statistischen) Verteilung versteht man die Verteilung bestimmter Ergebnisse eines Zufallsvorgangs nach Wahrscheinlichkeit. Dabei geht es darum zu „beschreiben“, mit welchen Wahrscheinlichkeiten bestimmte Werte oder Kategorien als Ergebnisse eines Zufallsvorgangs eintreten. Die Ermittlung solcher Wahrscheinlichkeiten basiert dabei auf einem theoretischen Wahrscheinlichkeitskalkül und nicht auf Auszählungen vorliegender Daten. In Beispiel 1.2.1 (Abschnitt 1.2.2) finden sich grafische Darstellungen zweier solcher theoretischer Verteilungen. Im Allgemeinen spricht man dann nicht mehr von der Verteilung eines Merkmals, sondern von der Verteilung einer Zufallsvariable. Im mehrdimensionalen Rahmen kann korrespondierend zum Zusammenhang zwischen Merkmalen ein Zusammenhang zwischen Zufallsvariablen definiert werden. Zur deutlicheren Unterscheidung spricht man dann von einem stochastischen Zusammenhang bzw. von stochastischer Abhängigkeit .

3 Gesamtbeschreibung empirischer Verteilungen Die einfachste Möglichkeit, vorliegendes Datenmaterial zu beschreiben, besteht darin, die Häufigkeiten einzelner Ausprägungen auszuzählen. Die Gesamtheit aller ermittelten Häufigkeiten gibt uns dann an, wie sich die einzelnen Beobachtungswerte auf die unterschiedlichen Ausprägungsmöglichkeiten aufteilen, oder kurz wie diese verteilt sind. Wir sprechen in diesem Zusammenhang auch von der Häufigkeitsverteilung oder auch einfach nur von der Verteilung der Daten.

3.1 Tabellarische Darstellungsmöglichkeiten

Die Häufigkeitsverteilung eines Merkmals kann tabellarisch entweder in absoluter oder relativer Form dargestellt werden. Dabei werden die Häufigkeiten entweder für einzelne Ausprägungen oder zusammenfassend für bestimmte Größenklassen aufgelistet. Eine Klassierung ist meist dann angezeigt, wenn die Zahl unterschiedlicher Ausprägungen sehr hoch ist und eine Auflistung und Auszählung dieser im Einzelnen nicht mehr sinnvoll erscheint.

3.1.1 Elementare Begriffe und Notation • Urliste und Stichprobenumfang • Die Urliste enthält sämtliche Beobachtungswerte einer Studie in ihrer ursprünglichen Form ohne größere Aufbereitung und Manipulation. Man spricht in diesem Zusammenhang auch von den sog. Rohdaten. Angenommen im Rahmen einer kommunalen Erhebung werde eine kleine Stichprobe aus der Grundgesamtheit aller Privathaushalte einer Stadt gezogen. Dabei interessiere man sich für die Verteilung des Merkmals „Personenanzahl im Haushalt“. Zur Vereinfachung nehmen wir an, dass lediglich 8 Haushalte zufällig gezogen werden. Die Stichprobe liefert nun als Ergebnis: 4, 2, 1, 2, 3, 3, 1, 1. Dann bilden diese 8 Werte die Urliste bzw. Rohdaten dieser Erhebung. Die Anzahl aller Beobachtungswerte, welche auch Stichprobenumfang heißt, wird üblicherweise mit n (engl. number) notiert. Im vorliegenden Fall etwa gilt n = 8. • Merkmale und Ausprägungsmöglichkeiten • Die bei einer statistischen Untersuchung interessierenden Eigenschaften von Personen, Objekten oder Vorgängen werden als Merkmale oder als Variablen (Abschnitt 2.1) bezeichnet und meist mit lateinischen Großbuchstaben abgekürzt. Die korrespondierenden Beobachtungswerte werden hingegen mit entsprechenden Kleinbuchstaben notiert. Verwendet man im vorhttps://doi.org/10.1515/9783110744194-003

32 | 3 Gesamtbeschreibung empirischer Verteilungen

liegenden Beispiel für das Merkmal „Personenanzahl im Haushalt“ etwa den Buchstaben X, so werden die Beobachtungswerte mit x1 , x2 , . . . , x n notiert. Hier gilt also: x1 = 4, x2 = 2, . . . , x8 = 1. Läge noch ein weiteres Merkmal Y vor, so würde man dessen Beobachtungswerte konsequenterweise mit y1 , y2 , . . . , y n notieren. Sofern man sich nur allgemein auf die Werte eines Merkmals bezieht, schreibt man z.B. „x1 , . . . , x n “ oder „x i , für i = 1, . . . , n“. In letzterer Variante bezeichnet i eine Indexvariable, welche stellvertretend für die Menge der Werte von 1 bis n steht. Ist diese sog. Indexmenge im Kontext ohnehin klar, so kann abkürzend auch nur von „den x i ’s“ oder „den x-Werten“ gesprochen werden. X : Anzahl der Personen in einem Haushalt Grundgesamtheit

Stichprobe vom Umfang n=8 3

3 1 1

1 2

4 1 1

2 1

2 3

4

2

1

2

3

3

1

1

1 2 1

3

Beobachtungswerte des Merkmals X : x 1=4,x 2=2,x 3=1,x 4=2,x 5=3,x 6=3,x 7=1,x 8=1 Urliste (Rohdaten)

Abb. 3.1.1: Beispiel einer eindimensionalen Stichprobe

Unter den Ausprägungsmöglichkeiten eines Merkmals verstehen wir die Menge aller Werte oder Kategorien, welche potenziell angenommen werden können. Die Ausprägungsmöglichkeiten diskreter und qualitativer Merkmale werden in diesem Buch stets mit a j , für j = 1, . . . , k notiert und, sofern relevant, gemäß ihrer Größe oder ihrer natürlichen Ordnung (bei ordinaler Skalierung) geordnet. Der Wert k entspricht dabei entweder der Anzahl berücksichtigter oder der Anzahl möglicher Ausprägungen, je nachdem wie es gerade sinnvoller erscheint. Im vorliegenden Fall beispielsweise ist X ein diskretes Merkmal, dessen Ausprägungsmöglichkeiten sich auf die natürlichen Zahlen erstrecken, wobei in der Praxis eine obere Grenze angenommen werden kann. Für k = 4 erhält man beispielsweise a1 = 1, a2 = 2, a3 = 3, a4 = 4 und für k > 4 entsprechend a1 = 1, a2 = 2, a3 = 3, a4 = 4, a5 = 5, a6 = 6, . . . , a k = k, oder eben a1 = 1, a2 = 2, a3 = 3, a4 = 4 und a j = j für j = 5, 6, . . . , k.

3.1 Tabellarische Darstellungsmöglichkeiten | 33

Im Falle von Klausurnoten könnte z.B. gelten a1 = 1.0, a2 = 1.3, a3 = 1.7, . . . , a10 = 4.0, a11 = 5.0 ; und im Falle des Merkmals „Raucherstatus einer Person“ a1 = Raucher, a2 = Nichtraucher und a3 = Gelegenheitsraucher.

Elementare Begriffe und Notation X, Y, Z, . . .

Merkmale (Variablen)

x1 , x2 , . . . , x n

Beobachtungswerte des Merkmals X

oder x i für i = 1, 2, . . . , n

i heißt Indexvariable, {1, 2, . . . , n} heißt Indexmenge

n

Anzahl der Beobachtungen (Stichprobenumfang)

a1 , a2 , . . . , a k

Ausprägungsmöglichkeiten

3.1.2 Häufigkeitstabellen bei Urlisten • Absolute und relative Häufigkeiten • Die Häufigkeit der Ausprägung a j wird als absolute Häufigkeit bezeichnet und mit n j notiert. Im Beispiel des vorhergehenden Abschnitts gilt: n1 = 3, n2 = 2, n3 = 2, n4 = 1. Wird die absolute Häufigkeit n j durch den Stichprobenumfang n dividiert, erhält man die relative Häufigkeit der Ausprägung a j , welche mit f j notiert wird (engl. frequency). Allgemein gilt: f j = n j /n, für j = 1, . . . , k. Im Beispiel folgt daraus: f1 = 0.375, f2 = 0.25, f3 = 0.25, f4 = 0.125. Relative Häufigkeiten liegen immer im Intervall [0, 1]. Werden relative Häufigkeiten mit 100 multipliziert, erhält man Prozentangaben. Die Gesamtheit aller absoluten bzw. relativen Häufigkeiten, n1 , n2 , . . . , n k

bzw.

f1 , f2 , . . . , f k

bezeichnen wir als absolute bzw. relative Häufigkeitsverteilung. • Tabellarische Darstellung der Häufigkeitsverteilung • Absolute und relative Häufigkeitsverteilung lassen sich beide tabellarisch darstellen (Tab. 3.1.1). Auf die 1. Spalte korrespondierend zur Indexvariablen j kann auch verzichtet werden. Diese verdeutlicht lediglich, dass die einzelnen Werte in den Zeilen mit dem

34 | 3 Gesamtbeschreibung empirischer Verteilungen

Tab. 3.1.1: Formale Darstellung einer Häufigkeitsverteilung j 1 2 3 4 Σ

aj 1 2 3 4

nj 3 2 2 1 8

fj 0.375 0.250 0.250 0.125 1

entsprechenden Wert der Indexvariable j korrespondieren. In der 1. Datenzeile steht genau genommen also j = 1, a1 = 1, n1 = 3, f1 = 0.375 ; in der 2. Zeile entsprechend j = 2, a2 = 2, n2 = 2, f2 = 0.250, usw. In der letzten Zeile solcher Tabellen werden, soweit sinnvoll, häufig Spaltensummen ermittelt. Dies wird häufig durch den griechischen Großbuchstaben Σ (Sigma) symbolisiert. Die Summe aller absoluten Häufigkeiten muss dabei der Gesamtanzahl aller Beobachtungen, n, entsprechen. Die Summe aller relativen Häufigkeiten muss 1 ergeben. Es gilt also stets: n1 + n2 + ⋅ ⋅ ⋅ + n k = n

bzw.

f1 + f2 + ⋅ ⋅ ⋅ + f k = 1;

oder mit Verwendung des Summenzeichens k

∑ nj = n j=1

k

bzw.

∑ f j = 1. j=1

Eine derart formale Aufbereitung wie in Tabelle 3.1.1 ist nur sinnvoll, falls mit den Ausdrücken a j , n j und f j gearbeitet wird, z.B. bei der Herleitung oder Erläuterung mathematischer Formeln. Sollen die Ergebnisse einer Studie verständlich kommuniziert werden, so ist eine „verbale“ Deklaration der einzelnen Ausdrücke geeigneter (Tab. 3.1.2). Tab. 3.1.2: Darstellung einer Häufigkeitsverteilung zu Präsentationszwecken Personenanzahl 1 2 3 4 Gesamt

Häufigkeit 3 2 2 1 8

Größe von Privathaushalten

Prozent 37.5 25.0 25.0 12.5 100

3.1 Tabellarische Darstellungsmöglichkeiten | 35

Notation und Bezeichnungen bei Urlisten nj

Absolute Häufigkeit der j-ten Ausprägung

fj

Relative Häufigkeit der j-ten Ausprägung

n1 , n2 , . . . , n k

Absolute Häufigkeitsverteilung

f1 , f2 , . . . , f k

Relative Häufigkeitsverteilung

3.1.3 Häufigkeitstabellen bei klassierten Daten • Größenklassierung • Bei stetig skalierten Merkmalen oder generell bei einer größeren Anzahl von Beobachtungswerten mit vielen verschiedenen Ausprägungen erscheint es häufig sinnvoller, die vorkommenden Werte in verschiedenen Größenklassen zusammenzufassen. Angenommen bei einer Erhebung wurde die monatliche Absatzmenge einer bestimmten Brötchensorte in 30 Filialen eines Bäckereibetriebs erhoben. Die Beobachtungswerte lauten: 37176,

29901,

15144,

20112,

25432,

18320,

32770,

38696,

17160,

8524,

22138,

13007,

20556,

24748,

27936,

28791,

37322,

19207,

21086,

21316,

12941,

44981,

36180,

18428,

51525,

12601,

5588,

39070,

41004,

47688.

Es würde hier keinen Sinn machen, die Häufigkeiten der einzelnen Ausprägungen zu zählen und tabellarisch wie in Tabelle 3.1.1 zusammenzufassen. Da ein Großteil der Werte lediglich einmal vorkommt, würde dies zu keiner nennenswerten Komprimierung der Rohdaten und damit auch kaum zu einer besseren Übersichtlichkeit führen. Stattdessen werden die Werte in Größenklassen zusammengefasst (Tab. 3.1.3). Tab. 3.1.3: Häufigkeitsverteilung – Absatzmengen von Brötchen (in Tausend) j

Klasse (c j−1 , c j ]

̃j n

̃f j

1 2 3 4 5 6 Σ

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

2 8 10 6 3 1 30

0.067 0.267 0.333 0.200 0.100 0.033 1

Im vorliegenden Fall wurden die Zahlen von 10 bis 20, von 20 bis 30, von 30 bis 40, usw. jeweils in einer Klasse zusammengefasst. Die linken Klassengrenzen notieren wir mit c j−1 , die rechten Grenzen mit c j . Demgemäß gilt z.B. c0 = 0, c1 = 10, c2 = 20 usw.

36 | 3 Gesamtbeschreibung empirischer Verteilungen

Die jeweils runden Klammern der linken Grenzen bedeuten, dass die entsprechenden Werte jeweils nicht mehr zu diesen Klassen gezählt werden (ausschließend). Die jeweils eckigen Klammern der rechten Grenzen bedeuten, dass entsprechende Werte noch zu den Klassen gehören (einschließend). Der Wert 10 zählt also zur ersten und nicht etwa zur zweiten Klasse. • Absolute und relative Klassenhäufigkeiten • Weiter wird mit ̃ j und ̃f j n

für j = 1, . . . , k

die absolute bzw. relative Klassenhäufigkeit der j-ten Klasse notiert, wobei k die Anzahl der Klassen ist. Im vorliegenden Beispiel etwa gilt k = 6 sowie z.B. ̃ 3 = 10 und ̃f3 ≈ 0.333. n Es fallen genau 10 Werte in die dritte Klasse, was einem relativen Anteil von 1/3 ≈ 0.333 oder einem prozentualen Anteil von 33.3% entspricht. Das Schlangensymbol (auch Tilde genannt) wird verwendet, um die absoluten und relativen Klassenhäufigkeiten von den absoluten und relativen Häufigkeiten einzelner Ausprägungen (voriger Abschnitt) zu unterscheiden. Die relativen Klassenhäufigkeiten wurden hier jeweils auf drei Nachkommastellen gerundet. Nicht gerundet ergeben diese in der Summe exakt 1. Die Gesamtheit aller absoluten und relativen Klassenhäufigkeiten ̃2 , . . . , n ̃k ̃1 , n n

und

̃f1 , ̃f2 , . . . , ̃f k

bezeichnen wir als absolute bzw. relative Häufigkeitsverteilung korrespondierend zur vorgegebenen Klasseneinteilung. Es gilt stets: k

k

̃j = n ∑n j=1

bzw.

∑ ̃f j = 1. j=1

Notation und Bezeichnungen bei klassierten Daten (c j−1 , c j ]

j-te Größenklasse als Intervall von ausschließlich c j−1 bis einschließ-

c j−1 bzw. c j

linke bzw. rechte Klassengrenze der j-ten Klasse

lich c j ̃j n

absolute Klassenhäufigkeit der j-ten Klasse

̃f j

relative Klassenhäufigkeit der j-ten Klasse

̃2 , . . . , n ̃k ̃1 , n n

absolute Häufigkeitsverteilung (klassierter Fall)

̃f1 , ̃f2 , . . . , ̃f k

relative Häufigkeitsverteilung

(klassierter Fall)

3.2 Grafische Darstellungsmöglichkeiten | 37

3.2 Grafische Darstellungsmöglichkeiten

Zu Präsentationszwecken und zur schnellen Verarbeitung von Information sind grafische Darstellungen wesentlich geeigneter als Tabellen. So lassen sich die wichtigsten Grundzüge von Verteilungen anhand von Grafiken deutlich schneller erfassen und bewerten. Für qualitative Merkmale eignen sich Kreis-, Säulen- oder Balkendiagramme, für quantitative Merkmale Histogramme, Stamm-BlattDiagramme oder Boxplots.

3.2.1 Kreis-, Säulen- und Balkendiagramme • Kreis- und Ringdiagramme • Das Grundkonzept eines Kreisdiagramms (Kuchendiagramms) besteht darin, einen Kreis in verschiedene Sektoren einzuteilen, deren Flächen proportional zu den Häufigkeiten einzelner Kategorien sind. Sofern zu einem Merkmal k verschiedene Ausprägungen (Kategorien) a j berücksichtigt werden, gilt die Konstruktionsvorschrift α j = f j × 360∘

für j = 1, . . . , k,

wobei α j der zum j-ten Sektor korrespondierende Innenwinkel und f j die relative Häufigkeit der Ausprägung a j bezeichnet. Die Intention dieser Darstellung liegt vor allem darin, anteilige Verhältnisse schnell ersehen zu können. Kreisdiagramme werden klassischerweise häufig zur Präsentation von Wahlergebnissen (Abb. 3.2.1, links) oder Haushaltsbudgets (Einkommen oder Ausgaben) verwendet. In der Praxis finden sich zahlreiche Variationen. So verwendet das Statistische Bundesamt in seinem Statistischen Jahrbuch z.B. häufig Ringdiagramme, die man durch Aussparung des inneren Kreisbereiches erhält. Dies schafft Platz zur Anbringung deklarativer Texte oder Zahlen. In Abbildung 3.2.2 wurde beispielsweise die durchschnittliche Höhe der Konsumausgaben deutscher Privathaushalte, also die Bezugsgröße, eingefügt. • Säulendiagramme • Bei einem Säulendiagramm werden entweder die absoluten oder die relativen Häufigkeiten bzw. prozentualen Anteile gegen einzelne Kategorien in Form von Säulen abgetragen. Der Vorteil des Säulendiagramms liegt vor allem darin, dass sich die einzelnen Häufigkeiten schneller vergleichen und ordnen lassen als beim Kreisdiagramm. Dafür gestalten sich Überlegungen zu anteiligen Mehrheitsverhältnissen schwieriger (Abb. 3.2.1, rechts). Säulendiagramme lassen sich auch für klassierte Daten erstellen (Beispiel 4.1.1, Abschnitt 4.1). • Balkendiagramme • Werden Säulen in horizontaler Richtung abgetragen spricht man von einem Balkendiagramm. Einem Balkendiagramm liegt meist die Intention zugrunde, Häufigkeiten der Größe nach zu ordnen, um auf diese Weise die Bedeutsamkeit einzelner Kategorien besser ersehen zu können. In Abbildung 3.2.3 wurde links und rechts jeweils die gleiche Skalierung zugrunde gelegt, wie man es an der

38 | 3 Gesamtbeschreibung empirischer Verteilungen

Stimmenanteil in %

50

CDU/CSU

41.5 40 41.5% 30 25.7%

10.9% Sonstige

SPD

25.7

20

8.4% 8.6

10 GRÜNE

10.9

E So ns tig e

N

N LI

RÜ G

P

IE D

SP

D

KE

0 C D U /C SU

FPD DIE LINKE

8.4

4.8

FD

8.6% 4.8%

Daten: Der Bundeswahlleiter [2016] Abb. 3.2.1: Kreis- und Säulendiagramm – Ergebnis der Bundestagswahl 2013 (Zweitstimmen)

Rasterung in Abständen von jeweils 25 000 Personen erkennen kann. Dies soll einen optischen Vergleich von Zu- bzw. Auswanderungssalden vereinfachen bzw. ermöglichen. Würde man den zu vergleichenden Grafiken unterschiedliche Skalen zugrunde legen, könnte dies zu einem verfälschenden Eindruck führen bzw. die Interpretation deutlich erschweren.

3.2.2 Stamm-Blatt-Diagramme Mit dem insbesondere von Tukey [1977] propagierten Stamm-Blatt-Diagramm (engl. Stem-and-Leaf-Plot) erhält man eine grafische Darstellung über die Verteilung der Daten und kann gleichzeitig einzelne Beobachtungswerte weiterhin bis auf eine bestimmte Genauigkeit ablesen. In diesem Sinne handelt es sich um ein semigrafisches Verfahren. In den Abbildungen 3.2.4 und 3.2.5 sind mit der Software R erstellte StammBlatt-Diagramme zu sehen. Die Daten von Abbildung 3.2.4 entsprechen denen aus Abschnitt 3.1.3 (Absatzmengen von Brötchen). In Abbildung 3.2.5 ist die Verteilung der Arbeitslosenquote in Kreisen und kreisfreien Städten Deutschlands im Jahr 2011 dargestellt. Das Grundkonzept dieses Diagramms besteht darin, jeden einzelnen Beobachtungswert mit 2 Ziffern zu notieren und damit (in der Regel) auch eindeutig zu identifizieren. Eher selten davon abweichende Modifikationen sollen an dieser Stelle nicht diskutiert werden. Die 1. Ziffer wird stets im „Stamm“ (hier links der Längsstriche) abgelesen und die 2. Ziffer als „Blatt“ rechts davon. Zu jedem Beobachtungswert gehört genau ein Blatt, wobei sich auf der gleichen Höhe befindliche Blätter die 1. Ziffer im Stamm teilen. In Abbildung 3.2.4 stehen in der 1. Zeile genau 2 Beobachtungswerte, in der 2. Zeile stehen 3 Werte, in der 3. Zeile 5 Werte usw. Prinzipiell sind die Werte der Größe nach aufsteigend geordnet und zwar von oben nach unten und von links nach rechts.

3.2 Grafische Darstellungsmöglichkeiten | 39

Ergebnisse der Laufenden Wirtschaftsrechnungen (LWR)

Sonstige* 22 34 Bekleidung und Schuhe Freizeit, Unterhaltung und Kultur

5

2 252 EUR

Wohnen, Energie und Wohnungs− instandhaltung

11

14 Nahrungsmittel, Getränke und Tabakwaren

14 Verkehr

*Innenausstattung, Haushaltsgeräte,Gesundheitspflege, Nachrichtenübermittlung, Bildungswesen, u.a.

Daten: Statistisches Bundesamt [2013a, S.167] Abb. 3.2.2: Ringdiagramm – Konsumausgaben privater Haushalte 2011 in % (nachgestellt)

Ein am Diagramm angebrachter Kommentar regelt die genaue Leseweise. In Abbildung 3.2.4 geht aus „The decimal point is 4 digit(s) to the right of the |“ hervor, dass die Werte der 1. Zeile als 6000 und 9000 zu lesen sind. Die 3 Werte der 2. Zeile sind jeweils als 13 000 zu lesen. Die Werte der 3. Zeile sind 15000, 17000, 18000, 18000 und 19000. Die Absatzmengen werden in dieser Darstellung folglich immer nur auf 1000 Stück genau angegeben. Dazu wurden die Originalwerte nach üblichen Regeln zunächst gerundet, also z.B. 5588 auf 6000, 8524 auf 9000 und 20112 auf 20000. Würde die Lesevorschrift „The decimal point is 2 digit(s) to the right of the |“ lauten, wären die ersten beiden Zahlen dagegen als 60 und 90 zu lesen. Mit „The decimal point is 1 digit(s) to the left of the |“ erhält man 0.06 und 0.09. In Abbildung 3.2.5 geht aus „The decimal point is at the |“ hervor, dass die ersten beiden Werte in der 1. und 2. Zeile als 1.4 bzw. 2.1 zu lesen sind. Außerdem ist zu erkennen, dass die höchste Arbeitslosigkeit 16.7% betrug (Landkreis Uckermark). Jede Zeile entspricht einer bestimmten Größenklasse. So umfasst in Abbildung 3.2.4 die 1. Zeile (Klasse) Absatzmengen im Intervall [5000, 10000), die 2. Zeile solche im Intervall [10000, 15000), usw. Die Klassengrenzen sind hier jeweils links geschlossen (einschließlich) und rechts offen (ausgeschlossen). Damit wird z.B. der Wert 20000 in der 4. Zeile und nicht in der 3. Zeile eingetragen. In Abbildung 3.2.5 lauten die Größenklassen [1.0, 2.0), [2.0, 3.0), [3.0, 4.0), usw. Da in einem Stamm-Blatt-Diagramm prinzipiell jeder Wert eingetragen wird, kommt es mit zunehmender Anzahl von Beobachtungswerten zwangsläufig zu Darstellungsproblemen, da beispielsweise nicht mehr alle Blätter in eine Zeile passen. In solchen Fällen sind alternative Darstellungen wie z.B. das Histogramm (nächster Abschnitt) geeigneter.

40 | 3 Gesamtbeschreibung empirischer Verteilungen

Schweiz Vereinigte Staaten Österreich Vereinigtes Königreich

22 540

163 414

Polen

13 053

Rumänien

11 073

Bulgarien

8 385

Ungarn

94 706 51 319 41 136

Polen

7 602

Italien

30 154

Spanien

6 685

Türkei

27 855

Frankreich

6 638

Griechenland

23 779

Türkei

5 285

Vereinigte Staaten

21 312

Niederlande

3 404

Spanien

20 672

Australien

3 345

China

17 650

Daten: Statistisches Bundesamt [2013a, S. 47] Abb. 3.2.3: Top 10-Zielländer der ausgewanderten Deutschen und Top 10-Herkunftsländer der zugewanderten Ausländer im Jahr 2011 (absolute Zahlen) (nachgestellt)

The decimal point is 4 digit(s) to the right of the | 0 1 1 2 2 3 3 4 4 5

| | | | | | | | | |

69 333 57889 01112 5589 03 67799 1 58 2

Abb. 3.2.4: Stamm-Blatt Diagramm – Monatliche Absatzmengen von Brötchen

3.2.3 Histogramme (Häufigkeitsdichten) • Konzept und Beispiel • Das auf Pearson [1895, S.399] zurückgehende Histogramm („histogram“) eignet sich zur grafischen Darstellung der Verteilung klassierter Daten und ist deshalb die präferierte Darstellungsform, falls eine hohe Anzahl von Beobachtungswerten mit vielen verschiedenen Ausprägungen vorliegt. Einzelne Säulen werden in der Breite der jeweiligen Klassen vertikal abgetragen. Histogramme weisen damit gewisse Ähnlichkeit zu Säulendiagrammen auf, basieren jedoch auf einem anderen Grundkonzept. Der entscheidende Unterschied zum Säulendiagramm besteht darin, dass nicht die Höhen der Säulen, sondern deren Flächen die relativen Häufigkeiten widergeben. Damit ergibt die Gesamtfläche eines Histogramms stets 1. Als Beispiel seien dazu nochmals die Daten aus Abschnitt 3.1.3 herangezogen (Absatzmengen von Brötchen). Tabelle 3.2.1 zeigt eine zur Erstellung eines Histogramms korrespondierende Arbeitstabelle. Dazu wird Tabelle 3.1.3 lediglich um zwei

3.2 Grafische Darstellungsmöglichkeiten | 41

The decimal point is at the | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

| | | | | | | | | | | | | | | |

4 1111122334456667777778888888888899999999 0000111112222222223333334555555556666667777778888889999 0000000011111111112222333333344444455555666777778889999999999 000000000111123334444445555556667778888888999999 0000001111222222333344444555556666677888999 0000011122233344455556666777888899999 00001112222244555666 001222233444445566677899 001222333344456666677779 00001255668 00111224457889 0011223677 12358 1 37

Daten: Statistische Ämter des Bundes und der Länder [2014] Abb. 3.2.5: Arbeitslosenquote in Kreisen und kreisfreien Städten Deutschlands (2011)

Tab. 3.2.1: Arbeitstabelle zur Erstellung eines Histogramms j

Klasse (c j−1 , c j ]

dj

̃j n

̃f j

̃f j /d j

1 2 3 4 5 6 Σ

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

10 10 10 10 10 10

2 8 10 6 3 1 30

0.067 0.267 0.333 0.200 0.100 0.033 1

0.0067 0.0267 0.0333 0.0200 0.0100 0.0033

zusätzliche Spalten erweitert. Die Klassenbreite der j-ten Klasse wird mit d j notiert und ist definiert als d j = c j − c j−1

für j = 1, . . . , 6.

Da die Flächen der Säulen den relativen Klassenhäufigkeiten entsprechen sollen, gilt stets Relative Klassenhäufigkeit = Klassenbreite × Säulenhöhe oder Säulenhöhe = Relative Klassenhäufigkeit / Klassenbreite. Der Wert des Quotienten in der letzten Spalte ̃f j /d j

42 | 3 Gesamtbeschreibung empirischer Verteilungen

heißt Häufigkeitsdichte (der j-ten Klasse) und entspricht der Höhe der j-ten Säule. Die Häufigkeitsdichte gibt Aufschluss darüber, wie dicht die Werte innerhalb einer Klasse liegen. So beträgt beispielsweise die Häufigkeitsdichte in der 3. Klasse 1/30 ≈ 0.0333. Dies bedeutet, dass sich auf jeder (Längen-)Einheit dieser Klasse im Durchschnitt 3.33% aller Werte verteilen. Folglich würde man z.B. 16.7% (5×1/30 = 0.167) aller Absatzmengen zwischen 20000 und 25000 Stück erwarten. Vergleicht man nun das Histogramm (Abb. 3.2.6) mit dem Stamm-BlattDiagramm des vorhergehenden Abschnitts (Abb. 3.2.4), ergeben sich visuell leichte Unterschiede. Insbesondere die Häufung von Mengen zwischen 35000 und 40000 Stück wird durch die unterschiedliche Klasseneinteilung kaschiert. 10

0.04 Häufigkeitsdichte

Häufigkeitsdichte

0.04 0.03 0.02 0.01 0.00

0.03 0.02

0.333

0.333/10=0.0333

0.01 0.00

0

10

20

30

40

50

Anzahl in Tausend

60

0

10

20

30

40

50

60

Anzahl in Tausend

Abb. 3.2.6: Histogramm: Absatzmengen

• Problem der Klassenwahl • Generell hängt die Gestalt eines Histogramms nicht nur von der Verteilung der Daten, sondern auch entscheidend von der gewählten Klasseneinteilung ab, wie die Beispiele in Abbildung 3.2.7 zeigen. Alle 4 Histogramme beruhen auf den gleichen 30 Beobachtungswerten. Die 1. Variante (mit 6 Klassen) ist diejenige, welche von der statistischen Software R automatisch erzeugt wurde (Abb. 3.2.6). Bei allen anderen Varianten wurde die von R vorgenommene Klasseneinteilung manuell verändert. Zwar sind alle 4 Varianten technisch betrachtet korrekt erstellt, jedoch spiegeln sie „die wahren Sachverhalte“ nicht gleich gut wider. Die letzte Variante mit 2 Klassen weist beispielsweise für die 1. Klasse eine Häufigkeitsdichte von über 2% auf. Dieser Dichtewert ist konstant von 0 bis 30. Faktisch ist es aber so, dass nur 2 Filialen zwischen 0 und 10000 Brötchen, dagegen aber 8 Filialen zwischen 10000 und 20000 Brötchen absetzten, anstelle jeweils zu erwartender 5000 Stück. In der dritten Variante weist die zweite Klasse eine höhere Häufigkeitsdichte auf als die dritte Klasse. Dennoch fallen in die dritte Klasse mehr Werte als in die zweite Klasse wie ein Flächenvergleich unschwer erkennen lässt. • Regeln zur Klassenwahl • Bei der Erstellung eines Histogramms gilt es deshalb einige grundsätzliche Regeln zu beachten, die sich auf die Klassierung der Daten beziehen. Hier nur einige sehr elementare Punkte:

3.2 Grafische Darstellungsmöglichkeiten | 43

0.04 Häufigkeitsdichte

Häufigkeitsdichte

0.04 0.03 0.02 0.01 0.00

0.03 0.02 0.01 0.00

0

10

20

30

40

50

60

0

10

Anzahl in Tausend

30

40

50

60

50

60

0.04 Häufigkeitsdichte

0.04 Häufigkeitsdichte

20

Anzahl in Tausend

0.03 0.02 0.01 0.00

0.03 0.02 0.01 0.00

0

10

20

30

40

50

60

0

10

Anzahl in Tausend

20

30

40

Anzahl in Tausend

Abb. 3.2.7: Histogramme mit unterschiedlicher Klasseneinteilung

1. Nach Möglichkeit sollten Klassen ohne Werte („leere Klassen“) vermieden werden. 2. Die Werte sollten innerhalb der Klassen möglichst gleichmäßig verteilt sein. 3. Nach Möglichkeit sollten gleich breite Klassen gewählt werden. Der erste Punkt ist kaum einzuhalten, wenn einzelne Werte weitab vom Rest der Daten liegen (sog. „Ausreißer“). Die Beachtung des dritten Punktes führt dazu, dass die Höhen der Säulen proportional zu den relativen Klassenhäufigkeiten sind. Dies erleichtert die Interpretation. In solchen Fällen wird dann anstelle der Häufigkeitsdichte häufig auch die absolute oder relative Klassenhäufigkeit auf der Vertikalachse abgetragen (Säulendiagramm). Die Theorie zur Konstruktion „optimaler“ Histogramme wird im Rahmen der nichtparametrischen Statistik als Spezialfall einer sog. Dichteschätzung behandelt (vgl. beispielsweise Büning und Trenkler [1994, Kap. 9]). Die dabei gewonnenen Erkenntnisse zur Auswahl von Klassengrenzen sind in den implementierten Algorithmen statistischer Softwarepakete in der Regel schon berücksichtigt. Die automatisch vorgenommenen Klasseneinteilungen sind in den meisten Fällen deshalb sehr brauchbar und ersparen eigene Überlegungen und Vorgaben dazu.

44 | 3 Gesamtbeschreibung empirischer Verteilungen

3.2.4 Boxplots

Häufigkeistdichte

• Konzept und Beispiel • Ein Boxplot (Schachteldiagramm) ist eine grafische Darstellungsform, in der Quantile (Abschnitt 4.3.2) eine maßgebliche Rolle spielen. Abbildung 3.2.8 zeigt einen Boxplot für die Verteilung des Alters von 87 Frauen bei der Geburt ihres ersten Kindes (Datensatz aus dem R-Packet UsingR). Zum Vergleich wurde ein Histogramm gegenübergestellt. Es ist zu erkennen, dass der Großteil der 87 Frauen bei der Geburt ihres ersten Kindes etwa zwischen 15 und 35 Jahre alt war. Vereinzelt gab es auch ältere Frauen bis etwa 42 Jahren. Die „mittleren 50%“ konzentrieren sich etwa zwischen 20 und 26 Jahren, wobei der Median (Mittellinie in der Box) etwa bei 23 Jahren liegt. Mithilfe von Abbildung 3.2.9 werden im Folgenden die einzelnen Bestandteile eines Boxplot erklärt. Diese dabei vorgestellte Variante entspricht auch der von der Software R in den Standardeinstellungen (per „default“) verwendeten Form. Daneben existieren zahlreiche weitere Varianten (vgl. beispielsweise McGill et al. [1978]). 0.08 0.06 0.04 0.02 0.00 10

15

20

25

30

35

40

45

10

Alter in Jahren

15

20

25

30

35

40

45

Alter in Jahren

Daten: R-Packet „UsingR“ (Datensatz „firstchi“) Abb. 3.2.8: Boxplot und Histogramm – Alter von 87 Frauen bei der Geburt des ersten Kindes

Ein Boxplot besteht im Wesentlichen aus einer Box (Schachtel) und den sog. Whiskers (Barthaare), welche an den beiden Seiten der Box angebracht werden. Ein Boxplot kann vertikal oder horizontal dargestellt werden. Entsprechend befindet sich unterhalb oder neben der Box eine Messskala. Im vorliegenden Fall ist der Boxplot horizontal dargestellt. Die Lage der Box wird im Wesentlichen durch die Lage des 0.25- und des 0.75-Quantils bestimmt. Diese beiden Quantile werden häufig auch als 1. Quartil oder unteres Quartil bzw. 3. Quartil oder oberes Quartil bezeichnet. Die Differenz dieser beiden Quantile d Q = ̃x0.75 − ̃x0.25 heißt Interquartilsabstand. Dieser bestimmt im Wesentlichen die Länge der Box. In der von Tukey [1977] originär vorgeschlagenen Konstruktionsweise werden anstelle von Quartilen sog. Hinges (Angelpunkte) gewählt, wobei zwischen einem unteren Hinge h L (Lower Hinge) und einem oberen Hinge h U (Upper Hinge) unterschieden wird (zur Bedeutung dieser Kennwerte siehe beispielsweise Hartung et al. [2009]). In den meisten Fällen ergeben sich allenfalls kleine Unterschiede zwischen Quarti-

3.2 Grafische Darstellungsmöglichkeiten | 45

len und Hinges. Sofern die in Abschnitt 4.3.2 verwendete Variante zur Bestimmung von Quantilen zugrunde gelegt wird, stimmen die Hinges mit den Quartilen entweder überein oder sie liegen lediglich „eine halbe Beobachtung näher“ am Median als die Quartile. Konkret gilt: x̃0.25 = h L

und

x̃0.75 = h U ,

falls die Anzahl der Beobachtungswerte n gerade ist oder falls (n − 1) durch 4 teilbar ist. Trifft keines der beiden Kriterien zu, gilt: h L = 0.5(x([0.25n]+1) + x([0.25n]+2) ), h U = 0.5(x([0.75n]) + x([0.75n]+1) ),

wobei x̃0.25 = x([0.25n]+1) bzw. wobei ̃x0.75 = x([0.75n]+1) .

Die Schreibweise x(i) steht hier für den i-ten Wert der nach Größe geordneten Beobachtungswerte. Die Klammer „[. . . ]“ steht für die sog. Gauß-Klammer (Abschnitt 4.3.2). Die Länge der Box entspricht also entweder exakt oder approximativ dem Interquartilsabstand. Folglich liegen „innerhalb einer Box“ etwa 50% aller Beobachtungswerte. Die Breite der Box ist unerheblich und hat keine Bedeutung. Die Box wird an der Stelle des Medians durch eine Linie geteilt.

≈ dQ Oberer Anrainer

Unterer Anrainer ●







Ausreisser Unterer Whisker h L ≈ x~0.25 Unterer Zaun 10

x~0.5

h U ≈ x~0.75

20

Oberer Whisker Oberer Zaun 30

40

Alter in Jahren

Abb. 3.2.9: Boxplot – Konstruktionsweise und Bezeichnungen

Die Längen der beiden Whiskers können unterschiedlich definiert werden. Häufig geht der obere Whisker bis zum größten Beobachtungswert, der gerade noch kleiner oder gleich ist als die imaginäre Grenze h U + 1.5d Q , welchen wir hier als oberen Zaun bezeichnen. Den korrespondierenden Beobachtungswert nennen wir oberen Anrainer (Heiler und Michels [1994]). Der obere Anrainer liegt also nicht weiter als das 1.5-fache des Interquartilsabstands vom oberen Boxende entfernt. Analog reicht der untere Whisker bis zum kleinsten Wert, der gera-

46 | 3 Gesamtbeschreibung empirischer Verteilungen

de noch größer oder gleich ist als der untere Zaun h L − 1.5d Q . Entsprechender Beobachtungswert heißt unterer Anrainer. Alle Werte, welche außerhalb der imaginären Zäune liegen, werden als einzelne Punkte eingezeichnet. Sie gelten als sog. Ausreißer, welche sich dadurch auszeichnen, dass sie vom Rest der Daten „außergewöhnlich weit“ entfernt liegen. Dabei kann die tatsächliche Anzahl von Ausreißern von der Anzahl der im Boxplot zu sehenden Ausreißer abweichen, wenn für wiederholende Werte keine neuen Punkte gezeichnet werden. So gab es im vorliegenden Beispiel tatsächlich 3 Frauen im Alter von 36 Jahren. • Deutung • Wie Stamm-Blatt-Diagramme zählen auch Boxplots zu den semigrafischen Verfahren. Das Ergebnis ist eine grafische Darstellung aus der gleichzeitig noch einzelne Werte wie Median oder Quartile abgelesen werden können. Minimal- und Maximalwert lassen sich entweder über die Ausreißer-Punkte (sofern vorhanden) oder über die Whisker-Endpunkte bestimmen. Liegt die Medianlinie innerhalb der Box im Zentrum, deutet dies auf eine (zumindest in der Mitte) symmetrische Verteilung hin. Liegt die Medianlinie in der Box eher auf der linken Seite, deutet dies auf eine rechtsschiefe Verteilung hin. Liegt sie eher rechts, können wir von einer linksschiefen Verteilung ausgehen (zum Begriff der Schiefe siehe Abschnitt 4.7).

EURO STOXX 50 EURO STOXX Nikkei 225 S&P 500

−20

−10

0

10

%

Daten: Europäische Zentralbank [2014a] Abb. 3.2.10: Boxplots – Monatsrenditen (in %) von Aktienindizes Jan. 1994–Dez. 2013

• Für Vergleichszwecke geeignet • Boxplots sind besonders dafür geeignet, die Verteilung eines metrischen Merkmals für unterschiedliche Kategorien zu vergleichen. Abbildung 3.2.10 etwa zeigt die Verteilung der monatlichen Renditen (prozentuale Veränderungen) verschiedener Aktienindizes. Die Daten korrespondieren mit den Zeitreihen von Abbildung 1.3.2 in Abschnitt 1.3.2. Gut zu erkennen ist, dass die Renditen nach oben und unten hin asymmetrisch um den Wert 0 streuen. Im finanzökonometrischen Bereich wird anstelle von „Streuung“ meist der Begriff Volatilität verwendet. Demnach weist der S&P 500 Index, zumindest bemessen nach den mittleren 50% der monatlichen Renditen, eine etwas gerin-

3.2 Grafische Darstellungsmöglichkeiten | 47

EURO STOXX 50 Häufigkeitsdichte

Häufigkeitsdichte

EURO STOXX 0.12 0.10 0.08 0.06 0.04 0.02 0.00 −30

−20

−10

0

10

0.12 0.10 0.08 0.06 0.04 0.02 0.00

20

−30

−20

−10

%

−20

−10

10

20

10

20

S&P 500 Häufigkeitsdichte

Häufigkeitsdichte

Nikkei 225 0.12 0.10 0.08 0.06 0.04 0.02 0.00 −30

0 %

0

10

0.12 0.10 0.08 0.06 0.04 0.02 0.00

20

−30

−20

−10

%

0 %

Daten: Europäische Zentralbank [2014a] Abb. 3.2.11: Histogramme – Monatsrenditen (in %) von Aktienindizes Jan. 1994–Dez. 2013

30 20 10 %

0 −10 −20

Ve rs or gu ng

Te G le as ko m m un ik at io n

rie st

Ö lu nd

du In

R oh st of fe Ko ns um gü te D r ie ns tle is tu ng en Fi na nz w es en Te ch no lo G gi es e un dh ei ts w es en

−30

Daten: Europäische Zentralbank [2014a] Abb. 3.2.12: EURO STOXX sektorspezifische Indizes – Monatsrenditen 1994–2013

gere Volatilität auf als die übrigen Indizes. Die Mediane sind bis auf den Nikkei 225 alle deutlich positiv. Also war in diesen Fällen mehrheitlich eine positive monatliche Rendite zu verzeichnen. Zum direkten Vergleich wurde mit Abbildung 3.2.11 eine Darstellung mit Histogrammen gegenübergestellt. Die Renditeverteilungen können prinzipiell auch hier gut abgelesen werden, jedoch fallen Vergleiche deutlich schwerer. Aufgrund seiner Kompaktheit ist die Boxplot-Darstellung deshalb klar zu präferieren. Dieser Vorteil wird umso offensichtlicher je höher die Anzahl der zu vergleichenden Kategorien ist (Abb. 3.2.12).

48 | 3 Gesamtbeschreibung empirischer Verteilungen

3.3 Empirische Verteilungsfunktion (EVF)

Die empirische Verteilungsfunktion (EVF ) ordnet jedem vorgegebenen Wert den kumulativen relativen Anteil aller Beobachtungswerte zu, welche diesen Wert größenmäßig nicht überschreiten. Bei Vorgabe einer Urliste resultiert daraus eine monoton steigende Treppenfunktion. Bei klassierten Daten wird diese Funktion innerhalb der Klassengrenzen linear approximiert. Daraus resultiert dann eine monoton steigende stetige Funktion.

3.3.1 Häufigkeitsfunktion und EVF bei Urlisten • Häufigkeitsfunktion • Gegeben seien nochmals die Daten aus Abschnitt 3.1.2 (Personenanzahl in Privathaushalten), wobei eine Spalte mit kumulierten Anteilen ergänzt wird. Tab. 3.3.1: Häufigkeitsverteilung für Urliste mit kumulierten Anteilen j

aj

nj

fj

F n (a j )

1 2 3 4 Σ

1 2 3 4

3 2 2 1 8

0.375 0.250 0.250 0.125 1

0.375 0.625 0.875 1

Die relative Häufigkeitsverteilung kann zunächst einmal mithilfe eines Säulendiagramms dargestellt werden, welches auch die sog. Häufigkeitsfunktion abbildet. Die Häufigkeitsfunktion f n (x) ordnet jedem beliebigen Wert x die relative Häufigkeit seines Auftretens in der Urliste zu. In Abbildung 3.3.1, links, wurde zur Verdeutlichung der Funktionsgraf hervorgehoben (fett schwarz). Demnach „springt“ die Funktion an den Stellen 1, 2, 3 und 4 jeweils auf die relative Häufigkeit dieser Werte und ist sonst 0. Leere bzw. ausgefüllte Punkte verdeutlichen, wo der Funktionswert entsprechend abzulesen ist. Mathematisch ausgedrückt heißt das {f j , f n (x) = { 0, {

x = a j , j = 1, . . . , k, sonst.

Beispielsweise gilt: f n (−0.4) = 0, f n (1) = 0.375, f n (3) = 0.250, f n (1.15) = 0, f n (4) = 0.125 u.s.w.

3.3 Empirische Verteilungsfunktion (EVF) | 49

• Empirische Verteilungsfunktion • Die empirische Verteilungsfunktion F n (kurz EVF) ergibt sich durch kumulatives Aufsummieren der Häufigkeitsfunktion: F n (x) = ∑ f n (a j ).

(3.3.1)

j:a j ≤x

An einer bestimmten Stelle x entspricht der Funktionswert F n (x) dem Anteil aller Werte, welche kleiner oder gleich x sind. Dies ist die Summe der relativen Häufigkeiten aller Ausprägungen, welche kleiner oder gleich x sind. Beispielsweise gilt: F n (1) = f n (1) = 0.375, F n (2) = f n (1) + f n (2) = 0.375 + 0.250 = 0.625

und

F n (3) = f n (1) + f n (2) + f n (3) = 0.375 + 0.250 + 0.250 = 0.875, da in 37.5% aller Haushalte höchstens 1 Person lebt, in 62.5% aller Haushalte höchstens 2 Personen leben und in 87.5% aller Haushalte höchstens 3 Personen leben usw. Für die resultierende Treppenfunktion (Abb. 3.3.1, rechts) gelten stets folgende Eigenschaften: – der Funktionsgraf ist eine monoton steigende Treppenfunktion, – die Stufenhöhen entsprechen relativen Häufigkeiten, – F n (x) = 0 für x kleiner als der kleinste Beobachtungswert, – F n (x) = 1 für x größer oder gleich dem größten Beobachtungswert.

f n (x )

0.5

1.0

0.4

0.8

0.3

F n (x )

0.6

0.2

0.4

0.1

0.2

0.0

0.0 0

1

2

3

4

5

x

0

1

2

3

4

5

x

Abb. 3.3.1: Häufigkeitsfunktion und EVF bei Urliste

Zum Verständnis der Beziehung von Häufigkeitsfunktion und EVF mag folgende bildliche Vorstellung hilfreich sein: Entlang der x-Achse des Säulendiagramms von links nach rechts gehend, werden nacheinander alle relativen Häufigkeiten eingesammelt. Bei diesem Vorgang wird kontinuierlich notiert, wie viel an relativer Masse bereits angehäuft wurde. An den von 0 verschiedenen Werten der Häufigkeitsfunktion springt die EVF stets zur nächsten Stufe, wobei die „Stufenhöhe“ der relativen Häufigkeit des Beobachtungswerts an der Sprungstelle entspricht. Diese Vorgehensweise entspricht

50 | 3 Gesamtbeschreibung empirischer Verteilungen

dann mathematisch Gleichung (3.3.1). Damit gilt beispielsweise: F n (−12.3) = 0

und

F n (0.98) = 0,

da in keinem Haushalt höchstens -12.3 bzw. höchstens 0.98 Personen leben. F n (1.99) = f n (1) = 0.375

und

F n (5.565) = f n (1) + f n (2) + f n (3) + f n (4) = 1, da in 37.5% aller Haushalte höchstens 1.99 Personen bzw. in 100% aller Haushalte höchstens 5.565 Personen leben. • Praktischer Nutzen beschränkt • Der praktische Nutzen einer EVF ist nicht zuletzt aufgrund der gewöhnungsbedürftigen Lesart eher beschränkt. Von größerer Relevanz wird für uns die theoretische Verteilungsfunktion einer Zufallsvariable sein, die später im Rahmen der Wahrscheinlichkeitsrechnung vorgestellt wird. Häufigkeitsfunktion und EVF bei Urlisten Gegeben seien Beobachtungswerte eines metrischen Merkmals X mit zugehörigen Ausprägungen a1 , a2 , . . . , a k . Weiter sei f1 , f2 , . . . , f k die zugehörige relative Häufigkeitsverteilung von X. Dann ist die (relative) Häufigkeitsfunktion für diese Werte gegeben durch {f j , x = a j , j = 1, . . . , k, f n (x) = { 0, sonst. { Die empirische Verteilungsfunktion (EVF) für die Urliste lautet F n (x) = ∑ f n (a j )

für x ∈ ℝ.

j:a j ≤x

3.3.2 Häufigkeitsdichtefunktion und EVF bei klassierten Daten • Häufigkeitsdichtefunktion • Gegeben seien nochmals die Daten aus Abschnitt 3.1.3 (monatliche Absatzmengen von Brötchen), wobei wiederum eine Spalte mit kumulierten Anteilen ergänzt wird. Die relativen Klassenhäufigkeiten können mithilfe eines Histogramms dargestellt werden, welches auch die sog. Häufigkeitsdichtefunktion abbildet. Diese Funktion ordnet jedem beliebigen Wert x die Häufigkeitsdichte an entsprechender Stelle zu. In Abbildung 3.3.2 links wurde der Funktionsgraf hervorgehoben. Die Häufigkeitsdichtefunktion nimmt innerhalb einer Klasse stets den Wert der Häufigkeitsdichte innerhalb dieser Klasse an und ist außerhalb aller Klassen 0. Mathematisch lässt sich dies

3.3 Empirische Verteilungsfunktion (EVF) | 51

Tab. 3.3.2: Häufigkeitsverteilung bei Klassenbildung mit kumulierten Anteilen j

Klasse (c j−1 , c j ]

dj

̃j n

̃f j

̃f j /d j

F̃n (c j )

1 2 3 4 5 6 Σ

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

10 10 10 10 10 10

2 8 10 6 3 1 30

0.067 0.267 0.333 0.200 0.100 0.033 1

0.0067 0.0267 0.0333 0.0200 0.0100 0.0033

0.067 0.333 0.667 0.867 0.967 1

ausdrücken als {̃ ̃f n (x) = f j /d j , x ∈ (c j−1 , c j ], j = 1, 2, . . . , k, { 0, sonst. { • EVF an den Klassengrenzen • Die EVF für den klassierten Fall soll wiederum den kumulativen Anteil von Beobachtungswerten bis zu einer bestimmten Stelle abbilden. Sie ergibt sich nun durch „kumulatives Integrieren“ der Häufigkeitsdichtefunktion: x

̃ n (x) = ∫ ̃f n (t)dt. F

(3.3.2)

−∞

̃ n (x) der Fläche unterhalb An einer bestimmten Stelle x entspricht der Funktionswert F der Häufigkeitsdichtefunktion bis zu diesem Wert x. Beispielsweise gilt: ̃ n (10) = 2/30 ≈ 0.067. F da die Fläche der Häufigkeitsdichtefunktion bis zum Wert 10 der Fläche der 1. Histogramm-Säule entspricht. Die Fläche bis zum Wert 20 beträgt entsprechend ̃ n (10) + ̃f2 ≈ 0.067 + 0.267 ≈ 0.333. ̃ n (20) = F F Analog gilt weiter: ̃ n (30) = F ̃ n (20) + ̃f3 ≈ 0.333 + 0.333 ≈ 0.667, F ̃ n (40) = F ̃ n (30) + ̃f4 ≈ 0.667 + 0.200 = 0.867 usw. F Die resultierende Funktion ist damit stetig und monoton steigend (Abb. 3.3.2, rechts). Auch hier kann wieder eine bildliche Vorstellung helfen: Entlang der x-Achse des Histogramms von links nach rechts gehend, wird die Fläche kontinuierlich aufsummiert und an jeder Stelle wird die insgesamt hinzugewonnene Fläche ständig notiert. Diese Vorgehensweise entspricht mathematisch dann Gleichung (3.3.2). An einer Klassengrenze entspricht der Wert der EVF genau der kumulierten Summe der relativen Klas-

52 | 3 Gesamtbeschreibung empirischer Verteilungen

1.0

0.04

0.8

0.03 ~ f n (x ) 0.02

~ F n (x )

0.01

0.6 0.4 0.2

0.00

0.0 −20

0

20

40

60

80

−20

0

20

40

60

80

x

x

Abb. 3.3.2: Häufigkeitsdichtefunktion und EVF bei klassierten Daten

senhäufigkeiten bis zu dieser Klassengrenze, d.h. j

̃ n (c j ) = ∑ ̃f i . F

(3.3.3)

i=1

̃ n (x) = 0, Für Werte kleiner oder gleich der untersten Klassengrenze, also x ≤ c0 , gilt: F da die Fläche des Histogramms bis zur linken Klassengrenze der 1. Klasse gleich 0 ist. Für Werte größer oder gleich der obersten Klassengrenze, also x ≥ c k , gilt: ̃ n (x) = 1, F da die Gesamtfläche eines Histogramms stets 1 ist. • Approximation innerhalb der Klassen • Da die Häufigkeitsdichtefunktion innerhalb von Klassen konstante Werte aufweist, steigt die EVF innerhalb von Klassen linear an. Genau genommen handelt es sich dabei dann um eine lineare Approximation für den kumulierten Anteil von Beobachtungswerten. Allgemein gilt für eine beliebige Stelle x innerhalb der j-ten Klasse, also x ∈ (c j−1 , c j ]: ̃ ̃ n (x) = F ̃ n (c j−1 ) + (x − c j−1 ) f j . F dj

(3.3.4)

Formelausdruck (3.3.4) wird im Folgenden anhand von Abbildung 3.3.3 erklärt. Zu sehen ist die 4. Säule des Histogramms aus Abbildung 3.3.2. Zusätzlich wurden die in diese Klasse hineinfallenden Beobachtungswerte durch Punkte symbolisiert. Dadurch ist auch zu erkennen, dass sich diese nicht gleichmäßig auf das Intervall (30, 40] verteilen. Es wird nun eine beliebige Stelle x innerhalb des Intervalls (30, 40] betrachtet. Der Wert der EVF an der Stelle x entspricht grundsätzlich der Fläche des Histogramms bis zu dieser Stelle. Dies umfasst schon einmal die Flächen der ersten 3 Säulen, also 0.067 + 0.267 + 0.333 = 0.667. Überdies gilt es noch die Fläche der 4. Säule bis zum Wert x (schattierte Fläche) mitzuberücksichtigen. Simple geometrische

3.3 Empirische Verteilungsfunktion (EVF) | 53

4. Säule Säulenhöhe =

~ fj dj

~ Gesamte Säulenfläche = f j = 0.2

Schattierte Fläche = (x − 30) ×

30

~ fj dj

40 x

Abb. 3.3.3: EVF: Lineare Approximation innerhalb von Klassen

Überlegungen führen zum Ergebnis ̃ n (x) ≈ 0.667 + (x − 30) 0.2 . F 10 Fällt der Wert x also in die j-te Klasse, so muss zunächst die Summe aller relativen Klassenhäufigkeiten bis zur vorhergehenden (j − 1)-ten Klasse ermittelt werden. Dazu wird ein verbleibender Teil der j-ten Klasse hinzuaddiert. Daraus ergibt sich Formel (3.3.4). • 1. Ableitung der EVF • Aus Formel (3.3.4) wird auch die Beziehung zwischen EVF und Häufigkeitsdichtefunktion ersichtlich. Es gilt nämlich: ̃f j ̃ n (x) dF = dx dj

für x ∈ (c j−1 , c j ).

(3.3.5)

Die Steigung der EVF entspricht der Häufigkeitsdichte. Dabei ist der Anstieg umso steiler, je dichter die Werte innerhalb einer Klasse liegen. In (3.3.5) wurden die beiden Klassengrenzen bewusst ausgespart, da die EVF an diesen Stellen u. U. nicht differenzierbar ist. Bildlich weist der Funktionsgraph dort potenziell „Knickstellen“ auf. Häufigkeitsdichtefunktion und EVF bei klassierten Daten Gegeben seien Beobachtungswerte eines metrischen Merkmals X, die klassiert in k Größenklassen (c j−1 , c j ], für j = 1, . . . , k, vorliegen. Dann ist die Häufigkeitsdichtefunktion für diese Werte gegeben durch {̃ ̃f n (x) = f j /d j , { 0, {

x ∈ (c j−1 , c j ], j = 1, 2, . . . , k, sonst.

54 | 3 Gesamtbeschreibung empirischer Verteilungen

Die (approximative) empirische Verteilungsfunktion (EVF) lautet { 0, x { { { ̃ ̃ ̃ ̃ n (c j−1 ) + (x − c j−1 ) f j , F n (x) = ∫ f n (t) dt = {F dj { { { −∞ 1, {

x ≤ c0 , x ∈ (c j−1 , c j ], x > ck .

4 Spezifizierende Beschreibung empirischer Verteilungen Im vorhergehenden Kapitel ging es darum, wie sich Verteilungen von Daten in ihrer Gesamtheit tabellarisch oder grafisch darstellen und vergleichen lassen. Dieses Kapitel befasst sich nun mit rechnerischen Methoden, die sich auf spezifische Aspekte von Verteilungen beschränken. In Abschnitt 4.1 werden dazu zunächst einige grundlegende Verteilungseigenschaften vorgestellt, die hierbei von Interesse sein können. In den Abschnitten 4.2 bis 4.8 folgt dann die sukzessive Einführung empirischer Kennwerte, mit denen sich diese Eigenschaften quantifizieren und vergleichen lassen. Betrachtungen über wichtige theoretische Eigenschaften empirischer Kennwerte in Abschnitt 4.9 bilden den Abschluss. In diesem gesamten Kapitel geht es um die Analyse der Verteilung eines einzelnen Merkmals (univariate Deskription). Untersuchungen in Bezug auf die gemeinsame Verteilung mehrerer Merkmale und auf mögliche Zusammenhänge zwischen diesen (multivariate Deskription) folgen später in Kapitel 5. Außerdem setzen fast alle hier vorgestellten Kennwerte jeweils metrische Skalierung voraus.

4.1 Spezifika empirischer Verteilungen

Zu den grundlegenden Aspekten, die bei der Charakterisierung empirischer Verteilungen regelmäßig von Interesse sind, zählen Lage, Streuung und Schiefe. Mit der Lage ist das allgemeine Niveau der Daten gemeint, während die Streuung deren Variationsbreite (Verschiedenheit) umfasst. Schiefe beinhaltet die Art und Weise, wie eine Verteilung von der Symmetrie abweicht. Die Beschreibung einer Verteilung anhand dieser drei Aspekte ist häufig nur dann sinnvoll, falls die Verteilung unimodal ist.

• Unimodalität und Multimodalität • Als Modus bezeichnet man den am häufigsten vorkommenden Beobachtungswert. Eine Häufigkeitsverteilung heißt unimodal (eingipflig), wenn ihre grafische Veranschaulichung, z.B. in Form eines Stabdiagramms, vgl. Abbildung 4.1.1, nur eine deutlich ausgeprägte Maximumstelle aufweist. Lassen sich zwei bzw. mehr als zwei ausgeprägte Maximumstellen finden, spricht man von bimodalen (zweigipfligen) bzw. multimodalen (mehrgipfligen) Verteilungen. Offenbar lässt diese Zuordnung einen gewissen Interpretationsspielraum. Die absoluten Häufigkeitsverteilungen (i), (ii) und (iii) in Abbildung 4.1.1 sind beispielsweise unimodal (eingipflig). In (iv) ist eine bimodale (zweigipflige) Verteilung zu sehen ist. Multimodale (mehrgipflige) Verteilungen sind meist ein Indiz dafür, dass sich eine Grundgesamtheit in verschiedene Teilgesamtheiten aufteilen lässt, welche hinsichtlich des interessierenden Merkmals strukturelle Unterschiede aufweisen. Werden beihttps://doi.org/10.1515/9783110744194-004

56 | 4 Spezifizierende Beschreibung empirischer Verteilungen

spielsweise Körpergrößen zufällig ausgewählter Personen erfasst, so ließe sich etwaige Bimodalität möglicherweise dadurch begründen, dass die Gruppe der erfassten Frauen im Durchschnitt deutlich kleiner ist als die der Männer, was sich erkennbar durch zwei Häufungspunkte äußert. In der Praxis ist die Ursache der Multimodalität deshalb eingehend zu prüfen. • Symmetrie und Schiefe • Verteilungen können symmetrisch oder schief sein. Die Verteilung in (i) ist perfekt symmetrisch, während (ii) und (iii) schiefe Verteilungen zeigen. Die Verteilung in (ii) wird als linksschief („links wenig, rechts viel“), die Verteilung in (iii) als rechtsschief („links viel, rechts wenig“) bezeichnet. Die Verteilung in (iv) könnte man in gewisser Weise auch als rechtsschief auffassen. Jedoch erscheint dies vor dem Hintergrund der deutlich ausgeprägten Bimodalität keine ausreichende Beschreibung. Perfekte Symmetrie kommt in der Praxis nur selten vor. Die meisten empirischen Verteilungen sind mehr oder weniger asymmetrisch. Bei den Renditeverteilungen in Abschnitt 3.2.4 ist beispielsweise nur ein geringer Grad an Schiefe feststellbar, wobei die Richtung der Schiefe teils uneindeutig ist. In Beispiel 4.1.1 finden sich empirische Beispiele mit stark ausgeprägter Schiefe. (i) Abs. Häufigkeit von x

6 4 2 0

10 8 6 4 2 0

0

2

4

6

8

10

12

0

2

4

6

x

x

(iii)

(iv)

8

10

12

8

10

12

8 6 4 2

4 0

0

3

10

2

Abs. Häufigkeit von x

5

12 Abs. Häufigkeit von x

(ii)

12

1

Abs. Häufigkeit von x

8

0

2

4

6

8

10

12

0

2

x

4

6 x

Abb. 4.1.1: Verteilungseigenschaften – Stilisierte Beispiele

• Lage und Streuung • Weitere wichtige Gesichtspunkte sind Lage und Streuung der Werte. Um welchen Wert konzentriert sich die Verteilung hauptsächlich und wie stark variieren die Werte (darum herum)? Als Kennwert der Lage wird häufig der Mittelwert genommen, dessen Lage in allen 4 Diagrammen mit einem schwarzen Punkt gekennzeichnet wurde. Bei einem Vergleich von (ii) und (iii) wird schnell ersichtlich, dass die durchschnittliche Lage der Werte in (ii) deutlich größer ist als in (iii). Die

4.1 Spezifika empirischer Verteilungen | 57

Werte in (iv) streuen stärker als in (i). Dies wird bereits aus der Spannweite, also der Differenz zwischen größtem und kleinstem Wert ersichtlich. Bei einem Vergleich von (ii) und (iii) wird jedoch auch deutlich, dass die Spannweite zur Beschreibung des Streuungsverhaltens nur von beschränkter Aussagekraft ist. Sie beträgt 9 in (ii) und 8 in (iii). Damit ist sie in (iii) lediglich um 1 geringer als in (ii), obwohl das Gros der Werte eigentlich nur zwischen 1 und 4 liegt. Beispiel 4.1.1: Schiefe und Multimodalität

100

100

80

80

Abs. Häufigkeit

Abs. Häufigkeit

Abbildung 4.1.2 zeigt links die länderspezifische Verteilung des Bruttoinlandsprodukts pro Kopf von 200 Ländern und Gebieten der Erde im Jahr 2011. Zu sehen ist eine stark ausgeprägte Rechtsschiefe. Von den betrachteten Ländern erzielten 94 Länder ein Pro-Kopf-Einkommen von weniger als 5000 Dollar. In 27 Ländern wurde ein Einkommen von mehr als 40000 Dollar erzielt. Deutschland rangierte mit knapp 44000 Dollar zu den oberen 10 Prozent aller Länder. Rechts zeigt Abbildung 4.1.2 für die gleichen Länder die Verteilung der geschätzten Lebenserwartung von Frauen bei der Geburt. Zu sehen ist nun eine deutlich ausgeprägte Linksschiefe. Deutschland rangiert hier mit 83 Jahren auf Platz 22. Ein möglicher Zusammenhang zwischen Einkommen und Lebenserwartung liegt auf der Hand. Das Beispiel wird deshalb im Kontext der Zusammenhangsanalyse in Abschnitt 5.2 erneut aufgegriffen werden.

60 40 20 0

60 40 20 0

0

20

40

60

80

100

120

40

1000 US$

50

60

70

80

90

100

Jahre

Daten: United Nations Statistics Division [2014] Abb. 4.1.2: Weltweites Pro-Kopf-BIP und weltweite Lebenserwartung

Abs. Häufigkeit

40 30 20 10 0 0

10

20

30

40

50

60

%

Daten: United Nations Statistics Division [2014] Abb. 4.1.3: Weltweiter Anteil der unter 15-Jährigen an der Gesamtbevölkerung

58 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Abbildung 4.1.3 zeigt schließlich die Verteilung der Quote der unter 15-Jährigen basierend auf dem Jahr 2012. Die Beschreibung einer Rechtsschiefe mag hier teils zwar zutreffend erscheinen, jedoch fällt das Vorliegen mehrerer Häufungspunkte deutlich ins Auge. Diese lässt auf eine heterogene Zusammensetzung unterschiedlicher Gruppen von Ländern schließen. Aus der geografischen Darstellung in Abbildung 4.1.4 ist ersichtlich, dass sich die Länder mit einem Anteil von unter 20% hauptsächlich aus europäischen Ländern einschließlich Russland, China, Australien und Kanada zusammensetzen. Die Länder mit den höchsten Anteilen (mehr als 34%) finden sich vorwiegend auf dem afrikanischen Kontinent. Dazwischen (20–34%) liegen die meisten Länder Lateinamerikas einschließlich USA, der arabischen Welt, sowie Süd- und Südostasiens.

34% nicht verfügbar

Daten: United Nations Statistics Division [2014] Abb. 4.1.4: Weltkarte: Anteil der unter 15-Jährigen im Jahr 2012

4.2 Lagekennwerte

Mit einem Lagekennwert soll das allgemeine Niveau aller Beobachtungswerte durch einen einzelnen repräsentativen Wert zusammengefasst werden. Das arithmetische Mittel besitzt als „durchschnittlicher Wert“ die physikalisch interpretierbare Schwerpunkteigenschaft. Der Median teilt die geordneten Werte in eine größere und eine kleinere Hälfte und reflektiert damit Mehrheitsverhältnisse. Der Modalwert ist der am häufigsten vorkommende Wert. Bei schiefen Verteilungen unterscheiden sich die 3 Kennwerte mehr oder weniger stark. Die Lageregeln setzen die größenmäßige Reihenfolge der 3 Kennwerte in Bezug zur Schiefe.

4.2 Lagekennwerte | 59

4.2.1 Arithmetisches Mittel • Definition und Berechnung • Das arithmetische Mittel ist der bedeutendste Lagekennwert in der Statistik. In der Alltagssprache wird das arithmetische Mittel häufig als „Mittelwert“ oder „Durchschnittswert“ bezeichnet. Mit x notiert, ist es für n metrisch skalierte Beobachtungswerte x1 , x2 , . . . , x n definiert als x=

1 n ∑ xi . n i=1

Die Summe aller Werte wird durch die Anzahl der Werte dividiert. Liegen beispielsweise die Beobachtungswerte 0, 1, 5, 6, 3, 0 und −1 vor, so ergibt sich als arithmetisches Mittel 2. Bei Vorgabe absoluter oder relativer Häufigkeiten einzelner Ausprägungen a j für j = 1, . . . , k (Abschnitt 3.1.1), lautet die Berechnungsformel entsprechend x=

k 1 k ∑ aj nj = ∑ aj fj . n j=1 j=1

Weiter gilt: n

nx = ∑ x i .

(4.2.1)

i=1

Wird das arithmetische Mittel mit n multipliziert, erhält man die Summe aller Werte. Diese wird auch als Merkmalssumme bezeichnet. • Interpretation • Gleichung (4.2.1) lässt sich dahingehend interpretieren, dass das arithmetische Mittel jener Wert ist, mit der sich die Merkmalssumme auf alle n Merkmalsträger gleichmäßig aufteilen lässt. Alternativ wird damit aber auch derjenige Wert charakterisiert, zudem die Beobachtungswerte eine ausgeglichene Abweichungsbilanz aufweisen. Das Lösen der Gleichung 1 n ∑ (x i − c) = 0 n i=1 nach c führt zum eindeutigen Ergebnis: c = x. Es gilt also stets: 1 n ∑ (x i − x) = 0. n i=1

(4.2.2)

Diese „Ausgleichseigenschaft“ lässt sich auch im Sinne eines physikalischen Schwerpunkts deuten, wenn man folgende Vorstellung heranzieht: Auf einer imaginären schwerelosen Zahlenachse werden gleichartige Gewichte an den Positionen der Beobachtungswerte angebracht. Ein unter der Achse befindlicher Schieber wird dann solange versetzt bis sich das Konstrukt im Gleichgewicht befindet. Würde der Schieber weiter nach rechts oder links versetzt, käme das Konstrukt aus dem Gleichgewicht und die Achse würde samt Gewichten nach links bzw. rechts abkippen. Im vorliegen-

60 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Gleichgewicht

−2

−1

0

1

2

3

Ungleichgewicht

4

5

6

−2

−1

0

1

2

3

4

5

6

Abb. 4.2.1: Arithmetisches Mittel als physikalischer Schwerpunkt

den Fall ist der Mittelwert der Beobachtungen 2, die Abweichungen von 2 lauten −3, −2, −2, −1, 1, 3, 4 und ergeben in der Summe 0. • Berechnung bei klassierten Daten • Im Falle klassierter Daten kann das arithmetische Mittel lediglich approximativ berechnet werden, falls weder Urliste noch Klassenmittelwerte vorliegen. Unter einem Klassenmittelwert ist das arithmetische Mittel aller in eine Größenklasse hineinfallenden Werte zu verstehen. Sofern solche verfügbar wären, könnte das arithmetische Mittel über die Formel für gruppierte Daten (Abschnitt 4.3.1) exakt bestimmt werden. Ansonsten besteht der Näherungsansatz darin, anstelle der Klassenmittelwerte die Klassenmitten zu verwenden. Die Klassenmitte m j der Größenklasse (c j−1 , c j ] ist der in der Mitte des Intervalls liegende Wert. Er ergibt sich als Mittelwert der Klassengrenzen, also m j = 0.5(c j−1 + c j ). ̃ j stimmt ungefähr mit der Merkmalssumme der j-ten Größenklasse Das Produkt m j n überein. Die Summe k

̃j ∑ mj n j=1

ist wiederum eine gute Näherung für die Merkmalssumme aller Werte. Auf diese Weise erhält man als approximative Berechnungsformel für das arithmetische Mittel x≈

k 1 k ̃ j = ∑ m j ̃f j . ∑ mj n n j=1 j=1

(4.2.3)

Es wurde an dieser Stelle das Symbol „≈“ (ungefähr gleich) gewählt, um die näherungsweise Berechnung zu verdeutlichen. Die Abweichungen der Klassenmitten von den tatsächlichen Klassenmittelwerten sind umso geringer, je gleichmäßiger die Werte innerhalb einer Klasse verteilt sind. Wir betrachten als Berechnungsbeispiel nochmals die Daten aus Abschnitt 3.1.3 (Absatzmengen von Brötchen).

4.2 Lagekennwerte | 61

Tab. 4.2.1: Häufigkeitsverteilung mit Klassenmitten j

Klasse (c j−1 , c j ]

̃j n

̃f j

mj

1 2 3 4 5 6 Σ

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

2 8 10 6 3 1 30

0.067 0.267 0.333 0.200 0.100 0.033 1

5 15 25 35 45 55

Die näherungsweise Berechnung des arithmetischen Mittels ergibt x≈

1 k 1 ̃j = (5 ⋅ 2 + 15 ⋅ 8 + 25 ⋅ 10 + 35 ⋅ 6 + 45 ⋅ 3 + 55 ⋅ 1) ∑ mj n n j=1 30

= 26. Die durchschnittliche Absatzmenge sollte demgemäß etwa 26000 betragen. Die exakte Berechnung anhand der Rohdaten (Abschnitt 3.1.2) ist eine Stückzahl von durchschnittlich 26311.6. Arithmetisches Mittel Für metrische Beobachtungswerte x1 , . . . , x n berechnet sich das arithmetische Mittel als x=

1 n ∑ xi . n i=1

Unter Vorgabe absoluter oder relativen Häufigkeiten aller vorkommenden Ausprägungen a j , für j = 1, . . . , k, gilt entsprechend x=

k 1 k ∑ aj nj = ∑ aj fj . n j=1 j=1

Liegen die Werte in k Größenklassen mit Klassenmitten m j vor, gilt unter Vorgabe absoluter oder relativer Klassenhäufigkeiten näherungsweise x≈

k 1 k ̃ j = ∑ m j ̃f j . ∑ mj n n j=1 j=1

• Kein robuster Kennwert • Die Schwerpunkteigenschaft des arithmetischen Mittels kann zu unerwünschten Effekten führen, wenn vereinzelte Werte relativ stark nach oben oder unten hin abweichen. Aufgrund der damit einsetzenden „Hebelwirkung“, wird der physikalische Schwerpunkt deutlich verlagert. Das arithmetische Mittel passt

62 | 4 Spezifizierende Beschreibung empirischer Verteilungen

sich deshalb unverhältnismäßig stark in Richtung dieser Ausreißer an und erweist sich gegenüber solchen Abweichungen als nicht robust (Abschnitt 4.9.4). In diesem Zusammenhang mag beispielsweise die Tatsache bekannt sein, dass länderspezifische Durchschnittseinkommen häufig überraschend hoch ausfallen, auch wenn ein großer Teil der Bevölkerung in bescheidenen, wenn nicht sogar armen Verhältnissen lebt. Dies lässt sich auf eine mehr oder weniger stark ausgeprägte Ungleichverteilung aller Einkommen zurückzuführen. Selbst falls also nur eine kleine Minderheit der Bevölkerung über sehr hohe Einkommen verfügt, wird dies das Durchschnittseinkommen nach oben hin verzerren. Durchschnittsbetrachtungen sind deshalb von Mehrheitsbetrachtungen deutlich zu unterscheiden. Für letztere ist der Median als Lagekennwert deutlich geeigneter (nächster Abschnitt).

4.2.2 Median • Definition und Interpretation • Die Bestimmung des physikalischen Schwerpunkts der Werte 0, 1, 5, 6, 3, 0 und −1 führte mit dem arithmetischen Mittel zum Wert 2. Das Konzept des Medians besteht darin, „das Zentrum“ der größenmäßig geordneten Werte auszuwählen, weshalb der Median häufig auch als Zentralwert bezeichnet wird. Zu seiner Bestimmung müssen die Werte zunächst der Größe nach geordnet werden. Dies ergibt hier: −1, 0, 0, 1, 3, 5, 6. Im Zentrum dieser Reihe liegt nun die Zahl 1. Bei einer geraden Anzahl gibt es jedoch kein solches Zentrum wie man anhand der folgenden 6 Werte erkennen kann: −1, 0, 0, 1, 3, 5. Eine Möglichkeit besteht in diesem Fall darin, den Mittelwert der beiden im Zentrum gelegenen Werte als Median zu deklarieren. Im Beispiel ergibt dies dann 0.5. Der Median teilt im Wesentlichen die geordneten Werte in zwei Hälften auf, von denen die eine Hälfte größer (oder gleich) und die andere Hälfte kleiner (oder gleich) dem Median ist. Der Median reflektiert damit Mehrheitsverhältnisse. Ist er größer oder kleiner als ein bestimmter Wert, so trifft dies notwendigerweise auch auf die Mehrheit aller Werte zu. Im Gegensatz zum arithmetischen Mittel ist er robust gegenüber Ausreißern (Abschnitt 4.9.4). Aufgrund dieser Eigenschaften wird er dem arithmetischen Mittel als Lagekennwert in bestimmten Situationen vorgezogen. • Berechnung bei Urlisten • Um die formelmäßige Berechnung des Medians erfassen zu können, wird eine Notation für geordnete Werte benötigt. Bilden 0, 1, 5, 6, 3, 0 und −1 die Urliste bezüglich eines Merkmals X, so lässt sich zunächst festhalten: x1 = 0, x2 = 1, x3 = 5, x4 = 6, x5 = 3, x6 = 0, x7 = −1.

4.2 Lagekennwerte | 63

Die geordneten Werte −1, 0, 0, 1, 3, 5 und 6 werden unter Verwendung runder Klammern dann wie folgt notiert: x(1) = −1, x(2) = 0, x(3) = 0, x(4) = 1, x(5) = 3, x(6) = 5, x(7) = 6. Bei n vorliegenden Werten gilt dann allgemein: x(1) ≤ x(2) ≤ ⋅ ⋅ ⋅ ≤ x(n) . Dabei bezeichnet x(1) den kleinsten Wert, auch Minimum genannt, und x(n) den größten Wert, das Maximum. Wohlgemerkt gilt im Allgemeinen nicht: x(i) = x i . Im vorliegenden Fall wäre z.B. x1 = 0, hingegen x(1) = −1. Stellenweise können geordnete Werte auch identisch sein wie es im vorliegenden Fall mit x(2) = x(3) = 0 der Fall ist. Bei einer ungeraden Anzahl von Beobachtungswerten ist der (in diesem Lehrbuch) mit x̃0.5 notierte Median dann definiert als . x̃0.5 = x( n+1 2 ) Damit erhält man im vorliegenden Beispiel mit n = 7 den Median als vierten Wert der geordneten Reihe, da x̃0.5 = x( 7+1 = x(4) = 1. 2 ) Für gerades n gilt dagegen: 1 (x(n/2) + x(n/2+1) ). 2 Bei n = 6 vorliegenden Werten resultiert der Median also aus Mittelung des dritten und vierten Wertes der geordneten Reihe. Die hier vorgestellte Bestimmungsweise entspricht derjenigen von Gustav Theodor Fechner [1878], der den Median („Centralwerth“) als empirischen Kennwert explizit einführte, auch wenn dieser schon früher implizit verwendet wurde (Abschnitt 5.2.3). x̃0.5 =

• Berechnung bei klassierten Daten • Liegen die Beobachtungswerte lediglich klassiert vor, so kann wie auch beim arithmetischen Mittel der Median nur approximativ bestimmt werden. Zur Behandlung dieses Falls betrachten wir nochmals die Daten aus Abschnitt 3.1.3 (Absatzmengen von Brötchen), die exemplarisch schon bei der Behandlung des Histogramms bzw. der empirischen Verteilungsfunktion in Abschnitt 3.2.3 bzw. 3.3.2 verwendet wurden. Tabelle 4.2.2 stimmt mit Tabelle 3.3.2 (Abschnitt 3.3.2) weitgehend überein. Grundsätzlich geht es darum, approximativ die Lage desjenigen Wertes zu bestimmen, der die vorliegenden Beobachtungen in eine größere und eine kleinere Hälfte teilt. An dieser Stelle wird das Histogramm in zwei flächenmäßig gleich große Hälften geteilt. Anhand der relativen Klassenhäufigkeiten ist klar, dass der Median in die 3. Klasse hineinfällt. Diese Klasse wird auch als Einfallsklasse bezeichnet. Ausgehend von der linken Klassengrenze der Einfallsklasse, hier also dem Wert 20, muss dann

64 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Tab. 4.2.2: Berechnung des Medians bei klassierten Daten j

Klasse (c j−1 , c j ]

10

1 2 3 4 5 6 Σ

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

10 10 10 10 10 10

̃f j

̃f j /d j

F̃n (c j )

0.067 0.267 0.333 0.200 0.100 0.033 1

0.0067 0.0267 0.0333 0.0200 0.0100 0.0033

0.067 0.333 0.667 0.867 0.967 1

noch ein zu bestimmender Betrag hinzuaddiert werden, sodass die schattierte Fläche (Abb. 4.2.2) insgesamt 0.5 beträgt. Da die ersten beiden Säulen im vorliegenden Fall insgesamt schon eine Fläche von 0.067 + 0.267 ≈ 0.333 aufweisen, besitzt der schattierte Teil der 3. Säule noch eine Fläche von 0.5 − 0.333 = 0.167. Folglich muss bei einer Häufigkeitsdichte von 0.0333 in der 3. Klasse (Säulenhöhe) die Breite des betreffenden Flächenstücks 0.167/0.0333 ≈ 5.02 betragen. Damit ist der (approximative) Median gleich 20 + 5.02 = 25.02. 0.04

1.0

0.5 − 0.333 = 0.167

0.8

0.03 20 + ? 0.167

~ f n (x ) 0.02

~ F n (x )

0.333/10=0.0333

0.01 0.00

0.6 0.5 0.4 0.2

0.067 0.267 0

10

20

0.0 x~0.5

30

40

50

60

−20

0

25.02 20 40

60

80

x

x

Abb. 4.2.2: Berechnung des Medians und Bestimmung aus der EVF

Allgemein gilt mit der j-ten Klasse als Einfallsklasse die Berechnungsformel: x̃0.5 = c j−1 +

̃ n (c j−1 )) (0.5 − F . ̃f j /d j

Im vorliegenden Fall erhält man für j = 3: ̃ n (c j−1 ) = F ̃ n (20) = 0.333, ̃f j /d j = 0.0333 c j−1 = c2 = 20, F und damit insgesamt x̃0.5 ≈ 20 +

0.5 − 0.333 ≈ 25.02. 0.0333

4.2 Lagekennwerte | 65

Für die empirische Verteilungsfunktion gilt dann stets: ̃ n (x̃0.5 ) = 0.5. F

(4.2.4)

Da die EVF den kumulativen Anteil aller Werte bis zu einer bestimmten Stelle angibt, muss sie an der Stelle des Medians gleich 0.5 sein. Insofern lässt sich der Median auch durch „Rückwärtslesen“ der EVF bestimmen. Dies setzt allerdings eine gewisse Monotonie der EVF voraus. So sollte die EVF „auf Höhe 0.5“ nicht gerade horizontal verlaufen. Geordnete Werte, Minimum, Maximum und Median Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Die geordneten Werte werden mit x(1) , x(2) , . . . , x(n) notiert. Es gilt: x(1) ≤ x(2) ≤ ⋅ ⋅ ⋅ ≤ ⋅ ⋅ ⋅ ≤ x(n) . Dabei bezeichnet x(1) das Minimum (den kleinsten Wert) und x(n) das Maximum (den größten Wert). Der Median ist definiert als für n ungerade, {x n+1 , x̃0.5 = { ( 2 ) 1 + x(n/2+1) ), für n gerade. (x { 2 (n/2) Liegen die Werte klassiert in k Größenklassen (c0 , c1 ], (c1 , c2 ], . . . , (c k−1 , c k ] vor, wird der Median näherungsweise bestimmt über x̃0.5 = c j−1 +

̃ n (c j−1 )) (0.5 − F , ̃f j /d j

falls er in die j-te Klasse hineinfällt.

4.2.3 Modalwert Der Lagekennwert, der auf dem wohl einfachsten Grundkonzept beruht, ist der Modalwert, kurz auch nur Modus genannt. Er ist der am häufigsten vorkommende Wert. Für gegebene Werte 0, 1, 2, 3, 3, 3, 4, 4, 5 und 8 wäre der Modus beispielsweise gleich 3. Für gegebene Werte 0, 1, 1, 2, 2 und 3 ergäbe sich bereits ein Eindeutigkeitsproblem, da die 1 und die 2 jeweils gleich häufig und auch am häufigsten vorkommen. In solchen Fällen kann man dann beispielsweise eine Menge mit mehreren Modalwerten angeben. Bei klassierten Daten ist es häufig üblich als Modalwert die Klassenmitte der Klasse mit der höchsten Häufigkeitsdichte zu definieren. Dies begründet sich darin, dass in dieser Klasse die Werte am dichtesten liegen und folglich innerhalb dieser

66 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Klasse die größte Häufung gleicher oder ähnlicher Werte vorliegt. Im Beispiel des vorhergehenden Abschnitts besitzt die 3. Klasse mit dem Wert 0.0333 die höchste Häufigkeitsdichte. Damit wäre der Modalwert gleich 25. Im Falle eines Eindeutigkeitsproblems ließe sich wiederum die Konvention treffen, eine Menge mit mehreren Modalwerten anzugeben. So sehr seine interpretatorische Tiefe beschränkt sein mag, besitzt der Modalwert immerhin den Vorteil, dass er auch bei qualitativen Merkmalen bestimmt werden kann. Modalwert Der Modalwert oder Modus, notiert mit xmod , ist der am häufigsten vorkommende Wert einer Urliste. Im Falle klassierter Daten lässt er sich als Klassenmitte der Klasse mit der höchsten Häufigkeitsdichte definieren.

4.2.4 Fechner’sche Lageregeln Die sog. Fechner’sche Lageregeln geben an, in welchem größenmäßigen Verhältnis arithmetisches Mittel, Median und Modalwert zueinander stehen. Entscheidend hängt dies von der Art der Schiefe der Verteilung ab wie folgende Schaubilder illustrieren. Fechner [1878] stellte diese Gesetzmäßigkeiten bei seiner „Einführung des Medians“ als Alternative zum arithmetischen Mittel fest. Häufigkeitsdichte

Häufigkeitsdichte

0.4

Häufigkeitsdichte

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.1

0.0

0.0

Arithmetisches Mittel

0.3

Median

0.2

Modalwert

0

1

2

3

4

5

6

0.0 0

1

2

3

4

5

6

0

1

2

3

4

5

6

Abb. 4.2.3: Lageregeln: Arithmetisches Mittel, Median und Modalwert

Bei linksschiefen Verteilungen ist das arithmetische Mittel typischerweise kleiner als der Median, der wiederum kleiner ist als der Modalwert. Bei rechtsschiefen Verteilungen ist diese Reihenfolge genau umgekehrt. Bei einer symmetrischen Verteilung stimmen die 3 Kennwerte dann mehr oder weniger überein. Insbesondere bei schiefen Verteilungen erscheint also eine differenzierte Beschreibung mit unterschiedlichen Kennwerten interessant, da es hier, je nach Grad der Schiefe, zu mehr oder weniger großen Unterschieden kommen kann.

4.2 Lagekennwerte | 67

Die Lageregeln sind hier primär als Daumenregeln zu verstehen. Der größenmäßige Abgleich von arithmetischem Mittel, Median und Modalwert liefert auch ein qualitatives Kriterium zur Beurteilung von Schiefe. Fechner’sche Lageregeln Bei einer unimodalen Verteilung eines metrischen Merkmals gilt: x = x̃0.5 = xmod

bei (perfekter) Symmetrie,

xmod < x̃0.5 < x

bei Rechtsschiefe,

x < x̃0.5 < xmod

bei Linksschiefe.

Beispiel 4.2.1: Durchschnittseinkommen, Bundesmedian und Armutsgefährdung Einkommensverteilungen sind typischerweise rechtsschief. Deshalb liegt das Durchschnittseinkommen gewöhnlich deutlich über dem Medianeinkommen wie Tabelle 4.2.3 anhand von Deutschland zeigt. Das Nettoäquivalenzeinkommen ist ein für alle Personen eines Haushalts geltendes (fiktives) Pro-Kopf-Einkommen, bei dem Alter und Anzahl der Personen bedarfsgerecht mit vordefinierten Gewichten berücksichtigt werden. Der Median des gesamtgesellschaftlichen Nettoäquivalenzeinkommens wird gemäß EU-Standard als Basis zur Bestimmung der Armutsgefährdung verwendet. So wurde der Schwellenwert zur Armutsgefährdung definitorisch bei 60% des Medians des gesamtgesellschaftlichen Nettoäquivalenzeinkommens festgelegt. „Armut“ ist somit grundsätzlich relativ definiert. In Deutschland lag der Median, der auch als Bundesmedian bezeichnet wird, im Jahr 2012 bei 19 595 Euro. Dies impliziert einen Schwellenwert von 11 757 Euro. Der Anteil der armutsgefährdeten Bevölkerung, die sog. Armutsgefährdungsquote, lag bei 16.1%. Tab. 4.2.3: Durchschnitt und Median: Einkommen in Deutschland 2012 (in Euro) Bezugsgröße/Einkommensart

Durchschnitt

Median

Haushalte/Bruttoeinkommen

43 078

34 375

Haushalte/Verfügbares Einkommen

31 644

26 263

Nettoäquivalenzeinkommen

22 022

19 595

Personen/Bruttoeinkommen

24 323

19 200

Quelle: Statistisches Bundesamt [2014a]

68 | 4 Spezifizierende Beschreibung empirischer Verteilungen

4.3 Spezielle Lagekennwerte

Bei gruppierten Daten ergibt sich das arithmetische Gesamtmittel als gewichtetes Mittel der Gruppenmittelwerte. Quantile können als lokale Lagekennwerte interpretiert werden, die eine relative Einordnung von Werten in einer größenmäßig geordneten Reihenfolge von Werten ermöglichen. Das geometrische Mittel ist ein adäquat ermittelter Durchschnittswert für Wachstumsraten, das zu einem sinnvolleren Ergebnis führt als das arithmetische Mittel.

4.3.1 Arithmetisches Mittel bei gruppierten Daten • Hintergrund • Daten liegen gruppiert vor, falls Beobachtungswerte auf einzelne Gruppen aufgeteilt vorliegen. Meist werden statistische Auswertungen dann in den einzelnen Gruppen zunächst separat vorgenommen. Angenommen in drei Bezirken einer Stadt werde eine Erhebung bezüglich der Anzahl der in einem Privathaushalt lebenden Personen durchgeführt (Tab. 4.3.1). Dazu werde in jedem Stadtbezirk separat die durchschnittliche Haushaltsgröße ermittelt. Nun geht es um die Frage, wie sich die durchschnittliche Haushaltsgröße aller drei Bezirke bestimmen lässt. Tab. 4.3.1: Haushaltsgröße in 3 Stadtbezirken Stadtbezirk Bezirk 1 Bezirk 2 Bezirk 3

Durchschnittliche Haushaltsgröße 1.5 2.4 1.6

Anzahl von Haushalten 282 585 250

• Berechnung • Das arithmetische Gesamtmittel hängt maßgeblich von den jeweiligen Gruppenumfängen ab. Aufgrund der Überlegungen in Abschnitt 4.2.1 erhält man gemäß Gleichung (4.2.1) die Merkmalssumme einer Gruppe (eines Bezirks), indem man den Gruppenmittelwert mit dem korrespondierenden Gruppenumfang multipliziert. Dementsprechend würden z.B. 1.5 × 282 = 423 Personen in Bezirk 1 wohnen. Die Merkmalssummen aller Gruppen addiert, ergibt dann die Merkmalssumme aller Werte insgesamt. Dividiert man diese durch die Anzahl aller Werte, resultiert daraus die mittlere Haushaltsgröße aller 3 Bezirke. Insgesamt lautet die Rechnung also 1 (1.5 ⋅ 282 + 2.4 ⋅ 585 + 1.6 ⋅ 250) ≈ 1.99. 1117 Damit liegt die durchschnittliche Haushaltsgröße der 3 Bezirke gerundet bei knapp 2 Personen. Alternativ lässt sich das auch schreiben als 585 250 282 ⋅ 1.5 + ⋅ 2.4 + ⋅ 1.6 , x= 1117 1117 1117 x=

4.3 Spezielle Lagekennwerte | 69

wobei die durch die Gesamtanzahl aller Beobachtungen dividierten Gruppenumfänge als relative Gruppenanteile oder auch als Gruppengewichte bezeichnet werden. Im vorliegenden Fall lauten die Gruppenanteile (gerundet) 0.25, 0.52 und 0.22. • Klassierung als Spezialfall • Klassierte Daten stellen lediglich einen Spezialfall von Gruppierung dar, bei dem Gruppen in Form von Größenklassen gebildet werden. Sofern für alle Klassen (Gruppen) Klassenmittelwerte vorliegen, kann das Gesamtmittel für den klassierten Fall exakt berechnet werden. Eine Approximation unter Verwendung von Klassenmitten (Abschnitt 4.2.1) erübrigt sich dann. Arithmetisches Mittel bei gruppierten Daten Gegeben seien n metrische Beobachtungswerte, gruppiert in k Gruppen mit jeweĩ j , für j = 1, . . . , k. Dann ligen Gruppenmittelwerten x j und Gruppenumfängen n gilt: x=

k 1 k ̃ j = ∑ x j ̃f j , ∑ xj n n j=1 j=1

̃ j /n das Gruppengewicht der j-ten Gruppe bezeichnet. In diesem Zuwobei ̃f j = n sammenhang spricht man auch von einem gewichteten Mittel.

4.3.2 Quantile • Definition und Interpretation • Quantile stellen eine Verallgemeinerung des Mediankonzepts dar (Abschnitt 4.2.2). Ein x%-Quantil wird (grob gesagt) von x% der Werte unterschritten und von (100 − x)% überschritten. Beispielsweise wird das 25%Quantil von 25% der Werte unterschritten und von 75% überschritten. Alternativ zur Spezifikation in x% wird der Anteilswert häufig auch als relativer Anteil zwischen 0 und 1 formuliert. Anstelle vom 25%-Quantil spricht man dann von einem 0.25-Quantil. Als Parametersymbol wird meist der griechische Kleinbuchstabe α verwendet. Demgemäß wird ein α-Quantil von α×100% der Werte unterschritten und von (1 − α) × 100% der Werte überschritten. Aus dem 50%-Quantil resultiert als Spezialfall der Median. Quantile können als lokale Lagekennwerte interpretiert werden. Sie ermöglichen die relative Einordnung von Werten in einer größenmäßig geordneten Reihenfolge von Werten. Ebenso bilden sie die wesentlichen Bausteine bei der Konstruktion sog. Boxplots (Abschnitt 3.2.4). Während speziellere Fälle wie Quartile, Dezile und Perzentile konzeptionell und namentlich bereits durch Galton [1882, 1885a] eingeführt wurden, tauchten die allgemeineren Quantile namentlich („quantiles“) erst später bei Kendall [1940] erstmals auf (David [1995]).

70 | 4 Spezifizierende Beschreibung empirischer Verteilungen

• Berechnung bei Urlisten • Bei der Bestimmung eines bestimmten Quantils muss wiederum zwischen Rohdaten und klassierten Daten unterschieden werden. Als Beispiel seien die Daten aus Abschnitt 3.1.3 (Absatzmengen von Brötchen) herangezogen: 5588,

8524,

12601,

12941,

13007,

15144,

17160,

18320,

18428,

19207,

20112,

20556,

21086,

21316,

22138,

24748,

25432,

27936,

28791,

29901,

32770,

36180,

37176,

37322,

38696,

39070,

41004,

44981,

47688,

51525.

Wohlgemerkt liegen die Daten bereits geordnet vor. Angenommen es soll das 0.25-Quantil bestimmt werden. Dazu wird zunächst die Anzahl der Beobachtungswerte mit dem geforderten Anteilswert multipliziert. Mit n = 30 und α = 0.25 erhält man als ersten Anhaltspunkt 30 × 0.25 = 7.5. Entsprechend sollte das 0.25-Quantil in der geordneten Reihe um den 7. oder 8. Wert herum lokalisiert werden. Da es keinen 7.5-ten Wert gibt, kann nun nach unterschiedlichen Konventionen verfahren werden. Bei einer nichtnatürlichen Zahl wie im vorliegenden Fall könnte man z.B. stets zur nächstkleineren ganzen Zahl abrunden oder zur nächstgrößeren ganzen Zahl aufrunden und entsprechend den 7. bzw. 8. Wert als 0.25-Quantil definieren. Ebenso könnte man sich in solchen Fällen aber auch für eine Mittelung entscheiden oder gar alle Werte zwischen dem 7. und 8. Wert als 0.25-Quantil postulieren. Letztere Konvention würde hier zum Intervall [17160, 18320] führen. In diesem Lehrbuch wird, falls n × α keine natürliche Zahl ist, konventionell stets zur nächstgrößeren ganzen Zahl aufgerundet. Folglich erhält man hier 18320 als 0.25-Quantil. Dieser Wert wird von 23.33% (7/30) der Werte unterschritten und von 73.33% (22/30) überschritten. Die Aufteilung in 25% und 75% geht mit dieser Konvention also nicht exakt auf. Dies wäre jedoch auch bei allen anderen Lösungsansätzen nicht der Fall gewesen. Etwa anders sieht es aus, falls die Multiplikation n × α zu einer natürlichen Zahl führt. Dies wäre hier beispielsweise bei der Bestimmung des 0.9-Quantils der Fall. Dabei erhält man 30 × 0.9 = 27. Definiert man jetzt einen Wert zwischen dem 27. und 28. Wert der geordneten Reihe als 0.9-Quantil, wird dieser von exakt 90% (27/30) der Werte unterschritten und von exakt 10% (3/30) überschritten. Beispielsweise könnte man hier den Mittelwert aus dem 27. und 28. Wert bilden: 0.5 × (41004 + 44981) = 42992.5. Die „Mittelwertlösung“ entspricht auch der in diesem Lehrbuch getroffenen Konvention. Sofern der 27. und der 28. Wert identisch wären, wären die Relationen „kleiner“ und „größer“ wiederum nicht exakt erfüllt. Diese Beispiele und Überlegungen haben gezeigt, dass die Beschreibung eines x%-Quantils mit „von x% unterschritten und von (100 − x)% überschritten“ etwas unpräzise ist, unabhängig davon, welche Regelungen zur Bestimmung von Quantilen nun im Detail vereinbart werden. Bezeichnet x̃ α das α-Quantil, so lauten die in diesem Lehrbuch geltenden Konventionen mathematisch zusammengefasst: {x([nα]+1) , x̃ α = { 1 + x(nα+1) ), (x { 2 (nα)

falls nα keine natürliche Zahl ist, falls nα eine natürliche Zahl ist.

4.3 Spezielle Lagekennwerte | 71

Es wird hier auf die Notation geordneter Werte (Abschnitt 4.2.2) zurückgegriffen. Die eckige Klammer „[ ]“ bezeichnet dabei die sog. Gauß-Klammer, die als Abrundungsfunktion zu verstehen ist. Diese ordnet einer innerhalb der Klammern stehenden reellen Zahl x die größte ganze Zahl zu, die kleiner oder gleich x ist. Beispielsweise ergibt [3] = 3,

[3.4] = 3,

[3.9] = 3,

[−2.4] = −3.

Da 30 × 0.25 = 7.5 keine natürliche Zahl ist, lautet im vorliegenden Beispiel die formale Berechnung für das 0.25-Quantil, also x̃0.25 = x([7.5]+1) = x(7+1) = x(8) = 18320. Bei der Ermittlung des 0.9-Quantils ergibt sich mit 30 × 0.9 = 27 als Rechnung: 1 1 1 (x(27) + x(27+1) ) = (x(27) + x(28) ) = (41004 + 44981) 2 2 2 = 42992.5.

̃x0.9 =

• Berechnung bei klassierten Daten • Liegen die Beobachtungswerte klassiert vor, so können die Quantile nur approximativ bestimmt werden. Die Vorgehensweise ist analog zu der bereits in Abschnitt 4.2.2 vorgestellten Verfahrensweise beim Median. Das α-Quantil ist derjenige Wert, welcher das Histogramm in zwei Flächenanteile α und (1 − α) teilt. Tab. 4.3.2: Berechnung von Quantilen bei klassierten Daten j

Klasse (c j−1 , c j ]

dj

̃f j

̃f j /d j

F̃n (c j )

1 2 3 4 5 6 Σ

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

10 10 10 10 10 10

0.067 0.267 0.333 0.200 0.100 0.033 1

0.0067 0.0267 0.0333 0.0200 0.0100 0.0033

0.067 0.333 0.667 0.867 0.967 1

Als Beispiele betrachten wir die Bestimmung des 0.25 und des 0.9-Quantils für obige Daten, die nun klassiert gemäß Tabelle 4.3.2 vorliegen. Anhand der relativen Klassenhäufigkeiten ist klar, dass das 0.25-Quantil in die 2. Klasse und das 0.9-Quantil in die 5. Klasse hineinfällt. Im Falle des 0.25-Quantils muss zum Wert 10 noch ein zu bestimmender Betrag hinzuaddiert werden, sodass die schattierte Fläche (Abb. 4.3.1, links) insgesamt 0.25 beträgt. Da die erste Säule eine Fläche von 0.067 aufweist, besitzt der schattierte Teil der 2. Säule noch eine Fläche von 0.25 − 0.067 = 0.183. Folglich muss bei einer Häufigkeitsdichte von 0.0267 in der 2. Klasse die Breite des betreffenden Flächenstücks 0.183/0.0267 = 6.85 betragen. Als (approximatives) 0.25-Quantil erhält man damit 10 + 6.85 = 16.85.

72 | 4 Spezifizierende Beschreibung empirischer Verteilungen

0.04

1.0 0.9 0.8

0.25 − 0.067 = 0.183

0.03 ~ f n (x ) 0.02

~ F n (x )

10 + ? 0.267/10=0.0267

0.00

0.067 0

x~0.25 10 20

0.4 0.25 0.2

0.183

0.01

0.6

0.0 30

40

50

60

−20

0

16.85 20

43.3 40 60

80

x

x

Abb. 4.3.1: Berechnung des 0.25-Quantils und Bestimmung von Quantilen aus der EVF

Ebenso können Quantile wiederum durch „Rückwärtslesen“ der EVF bestimmt werden. Allgemein gilt es immer zunächst die Einfallsklasse des α-Quantils festzustellen. Für die j-te Klasse als Einfallsklasse gilt dann die approximative Berechnungsformel: x̃ α ≈ c j−1 +

̃ n (c j−1 )) (α − F . ̃f j /d j

Im vorliegenden Fall erhält man als 0.9-Quantil für j = 5: c j−1 = c4 = 40,

̃ n (c j−1 ) = F ̃ n (40) = 0.867, F

̃f j /d j = 0.01

und damit insgesamt 0.9 − 0.867 = 43.3. 0.01 Für die empirische Verteilungsfunktion gilt stets: x̃0.9 ≈ 40 +

̃ n (x̃ α ) = α für α ∈ (0, 1). F

(4.3.1)

Quantile Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Dann ist für α ∈ (0, 1), das α-Quantil gegeben durch {x([nα]+1) , falls nα keine natürliche Zahl ist, x̃ α = { 1 + x(nα+1) ), falls nα eine natürliche Zahl ist, (x { 2 (nα) wobei „[...]“ die Gauß-Klammer bezeichnet. Liegen die Werte klassiert in k Größenklassen (c0 , c1 ], (c1 , c2 ], . . . , (c k−1 , c k ] vor, wird das α-Quantil näherungsweise bestimmt über ̃ n (c j−1 )) (α − F ̃x α ≈ c j−1 + für j = 1, . . . , k, ̃f j /d j falls es in die j-te Klasse hineinfällt.

4.3 Spezielle Lagekennwerte | 73

4.3.3 Geometrisches Mittel • Hintergrund • Angenommen ein Unternehmen steigerte seinen Umsatz im Jahr 2011 um 10%. Im Jahr 2012 ging der Umsatz um 10% zurück und im Jahr 2013 konnte das Unternehmen wieder eine Umsatzsteigerung von 30% verzeichnen. Es stellt sich nun die Frage, wie sich in diesem Zusammenhang ein „sinnvoller“ Durchschnittswert für das jährliche Wachstum über diesen Zeitraum ermitteln lässt. Zur Illustration des Problems sei vereinfachend von folgenden Umsatzzahlen ausgegangen. Jahr

2010

2011

2012

2013

Umsatz

1000

1100

990

1287

Im Ausgangsjahr 2010 erwirtschaftete das Unternehmen einen Umsatz von 1000. Ein Wachstum von 10% in 2011 ergibt dann einen Umsatz von 1000 × 1.1 = 1100. Nachfolgend ging der Umsatz um 10% zurück, d.h. auf das Niveau 1100 × 0.9 = 990. Der Umsatz in 2013 ergibt sich schließlich aus 990 × 1.3 = 1287, was einer Steigerung von 30% entspricht. Das arithmetische Mittel der Wachstumsraten ergibt dann 1 (0.1 − 0.1 + 0.3) = 0.1, 3 was einer durchschnittlichen jährlichen Steigerung von 10% entspricht. Nimmt man nun hypothetisch drei Jahre lang eine jährliche Steigerung von 10% an, so ergibt dies aber 1000 × 1.1 × 1.1 × 1.1 = 1331. Der über das arithmetische Mittel bestimmte Endwert stimmt also nicht mit dem tatsächlichen Endwert in 2013 überein. Noch deutlicher wird dieser Nachteil, wenn lediglich die ersten beiden Jahre in Betracht gezogen werden. Das arithmetische Mittel aus +10% und −10% ist gleich 0, was aber nicht der Tatsache entspricht, dass sich die Umsätze von 2010 und 2012 unterscheiden. Abhilfe schafft hier das geometrische Mittel. Beispiel 4.3.1: Dezile und Quintilsverhältnis der Einkommensverteilung Quantile zum Niveau 10%, 20%, 30% usw. heißen auch Dezile und werden entsprechend als 1. Dezil, 2. Dezil, 3. Dezil usw. bezeichnet. Quintile korrespondieren entsprechend zu den Niveaus 20%, 40%, 60%, 80% und 100%. Abbildung 4.3.2 illustriert die Lage der Dezile für die Verteilung des Nettoäquivalenzeinkommens in Deutschland (Beispiel 4.2.1, Abschnitt 4.2.4). Das 5. Dezil bzw. 0.5-Quantil entspricht dem sog. Bundesmedian.

9. Dezil 35

73 1

8. Dezil 29

03 9

7. Dezil 11 6

6. Dezil 25

5. Dezil

14 8 22

4. Dezil 19

59 5

3. Dezil

32 0 17

2. Dezil

09 4

87 1 12

9

91 3

0

15

1. Dezil

74 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Daten: Statistisches Bundesamt [2014a] Abb. 4.3.2: Dezile des Nettoäquivalenzeinkommen in Euro (2012)

Demnach verdienten 10% der Bevölkerung weniger als 9913 Euro im Jahr, während die reichsten 10% der Bevölkerung über ein äquivalenzgewichtetes Einkommen von mehr als 35731 Euro verfügten.

153 039

244 776

318 161

408 933

658 788

1. Quintil

2. Quintil

3.Quintil

4. Quintil

5. Quintil

Daten: Statistisches Bundesamt [2014a] Abb. 4.3.3: Einkommensvolumina nach Quintilen in Mio. Euro

Abbildung 4.3.3 illustriert die Volumina des Nettoäquivalenzeinkommens nach Quintilen. Demnach betrug das Gesamteinkommen der 20% Einkommensstärksten ca. 658.8 Mrd. Euro und das der 20% Einkommensschwächsten ca. 153.0 Mrd. Euro. Der Quotient dieser beiden Volumina ist ein international üblicher Kennwert zu Messung von Einkommensungleichverteilung. Es wird als Quintilsverhältnis oder auch als sog. S80/S20-Rate bezeichnet. Im Jahr 2012 betrug das Quintilsverhältnis für Deutschland 4.30. Dies bedeutet, dass die reichsten 20% der Bevölkerung (äquivalenzgewichtet) zusammen mehr als das Vierfache verdienten als die ärmsten 20%. Ein alternatives Maß zur Messung von Einkommensungleichverteilung ist der Gini-Koeffizient (Abschnitt 4.8.2). • Wachstumsfaktoren und Wachstumsraten • Im vorliegenden Beispiel werden die Faktoren 1.1, 0.9 und 1.3 als Wachstumsfaktoren bezeichnet während die prozentualen Veränderungen +10%, −10% und +30% Wachstumsraten heißen. Ein Wachstumsfaktor ergibt sich, indem ein späterer Beobachtungswert durch einen zeitlich vorhergehenden dividiert wird. Beispielsweise gilt für die Jahre 2010 und 2011: 1100/1000 = 1.1. Die korrespondierende Wachstumsrate ergibt sich dann als Verhältnis der absoluten Veränderung zum Ausgangswert: (1100 − 1000)/1000 = 0.1, wobei für eine Angabe in Prozent noch mit 100 zu multiplizieren ist.

4.3 Spezielle Lagekennwerte | 75

• Definition und Berechnung • Für n Wachstumsfaktoren W1 , . . . , W n ist das geometrische Mittel definiert als n-te Wurzel aus diesen, also x geom = (W1 × W2 × ⋅ ⋅ ⋅ × W n )1/n . Im betrachteten Beispiel ergibt dies (1.1 × 0.9 × 1.3)1/3 ≈ 1.0877, was einem jährlichen Wachstum von ca. 8.77% entspricht. Es gilt: 1.1 × 0.9 × 1.3 = (1.1 × 0.9 × 1.3)1/3 (1.1 × 0.9 × 1.3)1/3 (1.1 × 0.9 × 1.3)1/3 . Eine jährliche Umsatzsteigerung drei Jahre lang in Höhe des geometrischen Mittels ergibt gerade das Produkt der Wachstumsfaktoren. Somit folgt dann auch 1000 × x geom × x geom × x geom = 1000 × x3geom = 1287. Für die ersten beiden Jahre erhält man nun (1.1 × 0.9)1/2 ≈ 0.9950, was „im Durchschnitt“ einem jährlichen Rückgang von ca. 0.5% entspricht. Allgemein gilt für einen bestimmten Anfangswert x0 und einen bestimmten Endwert x n : x0 × x ngeom = x n ,

oder äquivalent,

x geom = (x n /x0 )1/n .

Im vorliegenden Beispiel erhält man das geometrische Mittel damit auch über x geom = (

1287 1/3 ) ≈ 1.0877. 1000

Geometrisches Mittel Seien x0 , x1 , . . . , x n zeitlich aufeinanderfolgende metrische Werte einer Zeitreihe korrespondierend zu den Zeitpunkten 0, 1, 2, . . . , n. Dann heißen xi x i − x i−1 bzw. R i = = Wi − 1 Wi = x i−1 x i−1 Wachstumsfaktor bzw. Wachstumsrate zum Zeitpunkt i für i = 1, . . . , n. Das geometrische Mittel der Wachstumsfaktoren ist definiert als x geom = (W1 × W2 × ⋅ ⋅ ⋅ × W n )1/n . Dabei gilt: x0 × x ngeom = x n

bzw.

x geom = (

x n 1/n ) . x0

Die durchschnittliche prozentuale Wachstumsrate beträgt 100 × (x geom − 1)%.

76 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Beispiel 4.3.2: Wirtschaftswachstum in Deutschland Tabelle 4.3.3 zeigt die jährlichen, um Preissteigerungen bereinigten Wachstumsraten des Bruttoinlandsprodukts (BIP) für Deutschland von 1995 bis 2012. Demnach beträgt das geometrische Mittel der Wachstumsfaktoren der Jahre 1995 bis 2007: x geom = (1.017 × 1.008 × 1.017 × ⋅ ⋅ ⋅ × 1.033)1/13 ≈ 1.016. Das reale BIP stieg somit von 1994 bis 2007 durchschnittlich um 1.6% pro Jahr an. Mit eingeschlossen sind hier auch die wachstumsschwachen Jahre 2002 und 2003, in welche die sog. „Technologiekrise“ hineinfiel. Für die Jahre 2008 bis 2012 ergab sich dann ein durchschnittliches Wachstum von (1.011 × 0.949 × 1.040 × 1.033 × 1.007)1/5 − 1 ≈ 0.007, also ca. 0.7%. In diesen Zeitraum fiel die weltweite Finanz- und Wirtschaftskrise, welche in Deutschland im Jahr 2009 mit einem Rückgang des realen BIP um 5.1% ihren (statistischen) Höhepunkt fand. Das nominale BIP lag im Jahr 1994 bei 1782.2 Mrd. Euro und stieg bis zum Jahr 2012 auf 2666.4 Mrd. Euro an. Dies entspricht einem durchschnittlichen jährlichen Wachstum des nominalen BIP von 2.3% innerhalb dieser 18 Jahre. Dieser Wert ergibt sich aus (

2666.4 1/18 ≈ 1.023. ) 1782.2

4

2400

2

2200

% 0

2000

−2

1800

−4

1600

−6

nominal real

19 95 19 97 19 99 20 01 20 03 20 05 20 07 20 09 20 11

6

2600

19 95 19 97 19 99 20 01 20 03 20 05 20 07 20 09 20 11

2800

Daten: Statistisches Bundesamt [2014b] Abb. 4.3.4: Bruttoinlandsprodukt für Deutschland 1994–2012 (nominal, in Mrd. Euro) und jährliche Wachstumsraten (nominal und real) Tab. 4.3.3: Reales BIP-Wachstum (prozentuale Änderung zum Vorjahr) Jahr

1995

1996

1997

1998

1999

2000

2001

2002

2003

%

1.7

0.8

1.7

1.9

1.9

3.1

1.5

0.0

−0.4

Jahr

2004

2005

2006

2007

2008

2009

2010

2011

2012

%

1.2

0.7

3.7

3.3

1.1

−5.1

4.0

3.3

0.7

Daten: Statistisches Bundesamt [2014b]

4.4 Streuungskennwerte | 77

4.4 Streuungskennwerte

Mit einem Streuungskennwert wird die Stärke der Streuung einer Verteilung quantifiziert. Die Spannweite misst die Differenz zwischen größtem und kleinstem Wert und ist aufgrund ihrer Empfindlichkeit gegenüber Ausreißern meist wenig aussagekräftig. Bei vielen Streuungskennwerten werden die Abweichungen der einzelnen Beobachtungswerte zu einem bestimmten Bezugswert wie etwa dem arithmetischen Mittel oder dem Median in Betracht gezogen. Darüber können dann mittlere absolute Abweichungen ermittelt werden, die sich als „Durchschnittsabstände“ zu bestimmten Lagewerten interpretieren lassen. Alternativ kann aber auch der Median der Abweichungen verwendet werden, der in seiner Eigenheit robuster gegenüber Ausreißern ist. Der bedeutendste Streuungskennwert in der Statistik ist die Varianz bzw. die Standardabweichung. Die Varianz ist die mittlere quadratische Abweichung vom arithmetischen Mittel. Die Standardabweichung ist die Wurzel aus der Varianz.

4.4.1 Spannweite Das denkbar einfachste Konzept die Streuung von Daten zu quantifizieren besteht darin, den Abstand des größten vom kleinsten Wert zu ermitteln. Diese Differenz zwischen Maximum und Minimum heißt Spannweite. Angenommen es liegen folgende 8 Beobachtungswerte vor: −1, 0, 0, 1, 3, 5 und 6. Dann ist die Spannweite gegeben durch 6 − (−1) = 7. Da die Spannweite auf den beiden Extremwerten basiert, reagiert sie als Streuungkennwert entsprechend stark auf Ausreißer. Abhilfe schaffen hier die sog. Quantilsabstände (Abschnitt 4.5.2), bei denen die Spannweite unter Vernachlässigung eines wählbaren Anteils von Werten am oberen und unteren Ende ermittelt wird. Spannweite Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Dann ist die Spannweite gegeben durch R = x(n) − x(1) , wobei x(n) der größte (Maximum) und x(1) der kleinste Wert (Minimum) ist.

4.4.2 Mittlere absolute Abweichungen • Definition und Berechnung • Wir betrachten nochmals die Beobachtungswerte des vorigen Abschnitts −1, 0, 0, 1, 3, 5 und 6. Das arithmetische Mittel dieser Werte ist gleich 2, der Median ist gleich 1. Dann wäre beispielsweise die absolute Abweichung

78 | 4 Spezifizierende Beschreibung empirischer Verteilungen des kleinsten Wertes −1 vom arithmetischen Mittel gleich |−1−2| = 3 und vom Median gleich | − 1 − 1| = 2. Für den größten Wert 6 ergeben sich als Abweichungen |6 − 2| = 4 bzw. |6 − 1| = 5. Insgesamt lauten die absoluten Abweichungen vom arithmetischen Mittel und vom Median dann 3, 2, 2, 1, 1, 3, 4

bzw.

2, 1, 1, 0, 2, 4, 5.

Die mittlere absolute Abweichung vom arithmetischen Mittel d∗ ist dann definiert als d∗ =

1 n ∑ |x i − x| n i=1

und ergibt im vorliegenden Beispiel 1 (3 + 2 + 2 + 1 + 1 + 3 + 4) = 16/7 ≈ 2.29. 7 Die mittlere absolute Abweichung vom Median d ist definiert als d∗ =

d=

1 n ∑ |x i − ̃x0.5 | n i=1

und ergibt entsprechend d=

1 (2 + 1 + 1 + 0 + 2 + 4 + 5) = 15/7 ≈ 2.14. 7

3

4 2 1

−2

−1

0

1

2

3

5 1

4

1

2

2

3

4

x

5

6

−2

−1

0

1 x~0.5

2

3

4

5

6

Abb. 4.4.1: Absolute Abweichungen

• Interpretation • Die mittleren absoluten Abweichungen sind als durchschnittliche Abstände zu interpretieren. Demnach weichen im vorliegenden Fall die Werte im Durchschnitt um 2.29 vom arithmetischen Mittel und um 2.14 vom Median ab. Je stärker die Werte streuen, desto größer werden auch diese Kennwerte. Sie sind nur genau dann 0, falls alle Werte gleich sind und damit keinerlei Streuungsverhalten mehr aufweisen. Es ist zu beachten, dass die absoluten Werte der Abweichungen verrechnet werden und etwaige negative oder positive Vorzeichen entfallen. Würde man die Vorzeichen jeweils mitberücksichtigen, erhielte man als mittlere Abweichung vom arithmetischen Mittel stets 0 (Gleichung (4.2.2), Abschnitt 4.2.1). In ähnlicher Weise stellt

4.4 Streuungskennwerte | 79

auch die mittlere Abweichung vom Median kein sinnvoller Streuungskennwert dar, auch wenn sich hier Abweichungen im Allgemeinen nicht zu 0 aufsummieren. • Berechnung bei klassierten Daten • Im Falle klassierter Daten werden arithmetisches Mittel bzw. Median approximativ berechnet (Abschnitt 4.2.1 bzw. 4.2.2) und die Werte innerhalb der Klassen durch jeweilige Klassenmitten ersetzt. Daraus resultieren dann die approximativen Berechnungsformeln d∗ ≈

k 1 k ̃ j |m j − x| = ∑ ̃f j |m j − x| ∑n n j=1 j=1

für die mittlere absolute Abweichung vom arithmetischen Mittel und d≈

k 1 k ̃ j |m j − x̃0.5 | = ∑ ̃f j |m j − x̃0.5 | ∑n n j=1 j=1

̃ j Werten in der jfür die mittlere absolute Abweichung vom Median. Bei insgesamt n ten Klasse werden die Differenzen |m j − x|

bzw.

|m j − x̃0.5 |

̃ j mal gezählt. also jeweils n Als Rechenbeispiel dienen die Daten aus Abschnitt 3.1.3 (Absatzmengen von Brötchen), die klassiert gemäß Tabelle 4.2.1 vorliegen. Für diese Daten ergab sich ein approximatives arithmetisches Mittel von 26 und ein approximativer Median von 25.02 (Abschnitt 4.2.2). Daraus resultiert für die Streuungskennwerte 1 (2 × |5 − 26| + 8 × |15 − 26| + ⋅ ⋅ ⋅ + 1 × |55 − 26|) ≈ 9.33 bzw. 30 1 d≈ (2 × |5 − 25.02| + 8 × |15 − 25.02| + ⋅ ⋅ ⋅ + 1 × |55 − 25.02|) ≈ 9.00. 30 Bei einem monatlichen Brötchenabsatz von durchschnittlich 26 000 Brötchen, liegt die durchschnittliche Abweichung von diesem Mittelwert folglich bei ca. 9 300 Brötchen. Dieser Wert schließt Absatzzahlen von 16 700 und 35 300 damit als „typisch“ ein. Ein Vergleich dieser beiden Werte verdeutlicht das Ausmaß der Streuung, wenn man bedenkt, dass der größere der beiden Werte mehr als doppelt so groß ist wie der kleinere Wert. Sehr ähnlich verhält es sich mit der Streuung um den Medianwert. d∗ ≈

• Median als präferierter Bezugswert • Auch wenn die mittlere absolute Abweichung vom arithmetischen Mittel als „Durchschnittsabstand vom Mittelwert“ zunächst sehr naheliegend erscheint, gibt es gute Gründe dafür, die mittlere absolute Abweichung vom Median zu präferieren. Vor allem die minimierende Eigenschaft des Medians bei der Summation absoluter Abweichungen spricht für diesen als Bezugswert (Abschnitt 4.9.2).

80 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Mittlere absolute Abweichungen Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Dann heißen die Kennwerte d∗ =

1 n ∑ |x i − x| n i=1

d=

und

1 n ∑ |x i − x̃0.5 | n i=1

mittlere absolute Abweichung vom arithmetischen Mittel bzw. mittlere absolute Abweichung vom Median. Liegen die Werte klassiert in k Größenklassen mit Klassenmitten m j vor, so gelten die approximativen Berechnungsformeln d∗ ≈ d≈

k 1 k ̃ j |m j − x| = ∑ ̃f j |m j − x| ∑n n j=1 j=1

bzw.

k 1 k ̃ j |m j − ̃x0.5 | = ∑ ̃f j |m j − x̃0.5 |, ∑n n j=1 j=1

wobei arithmetisches Mittel bzw. Median approximativ bestimmt werden.

4.4.3 Median absoluter Abweichungen • Hintergrund • Mittlere absolute Abweichungen wie sie im vorhergehenden Abschnitt vorgestellt wurden, sind als Streuungskennwerte nicht robust gegenüber Ausreißern. Zur Veranschaulichung betrachte man die Werte 1, 2, 3, 4 und 5. Arithmetisches Mittel und Median sind hier beide gleich 3. Dies impliziert identische absolute Abweichungen, nämlich: 2, 1, 0, 1, 2. Die Kennwerte d∗ und d ergeben über entsprechende Mittelung beide 1.2. Tauscht man den Wert 5 gegen den Wert 500 aus, so steigt das arithmetische Mittel auf 102 während der Median unverändert 3 bleibt. Infolgedessen erhält man als absolute Abweichungen vom arithmetischen Mittel und Median 101, 100, 99, 98, 398

bzw.

2, 1, 0, 1, 497.

In beiden Fällen führt eine Mittelung nun zu einem stark verzerrten Resultat: d∗ = 159.2

bzw.

d = 100.2.

• Definition und Berechnung • Eine für solche Fälle sinnvolle Alternative besteht darin, anstelle des Mittelwertes den Median der absoluten Abweichungen zu verwenden. Dies hat allerdings nur im Falle der Abweichungen vom Median einen wirkungsvollen Effekt, da die Abweichungen vom arithmetischen Mittel bereits allesamt verzerrt sind. So ist der Median der absoluten Abweichungen vom arithmetischen Mit-

4.4 Streuungskennwerte | 81

tel gleich 100 und weiterhin durch den Ausreißer deutlich verzerrt. Der Median der absoluten Abweichungen vom Median, kurz als MAD bezeichnet (median absolute deviation), ergibt jedoch 1, unabhängig davon, ob nun 5 oder 500 der größte Wert ist. Im Sinne der Robustheit wäre es folglich nur sinnvoll, die Abweichungen vom Median zu betrachten, und nicht diejenigen vom arithmetischen Mittel. Im Falle klassierter Daten sind die in eine Klasse hineinfallenden Werte wie in den vorhergehenden Abschnitten durch jeweilige Klassenmitten zu ersetzen. Auf eine detaillierte Besprechung dieses Falls sei verzichtet. MAD Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Die absoluten Abweichungen vom Median sind definiert als |x1 − x̃0.5 |, |x2 − x̃0.5 |, . . . , |x n − x̃0.5 |. Dann heißt der Median dieser Abweichungen Median der absoluten Abweichungen vom Median oder auch MAD (Median Absolute Deviation).

Beispiel 4.4.1: Streuung des weltweiten Pro-Kopf-BIP Für die länderspezifische Verteilung des Bruttoinlandsprodukts pro Kopf ergibt sich eine Verteilung gemäß Abbildung 4.1.2 (Abschnitt 4.1). Die stark ausgeprägte Rechtsschiefe führt hier zu sehr unterschiedlichen Lage- und Streuungswerten, je nachdem ob arithmetisches Mittel oder Median verwendet werden. Die Spannweite aller Werte beträgt 115 266 Dollar. Das wirtschaftlich ärmste Land ist Somalia mit einem Pro-Kopf-Einkommen von 112 Dollar, das reichste Land Luxemburg mit 115 377 Dollar. Das durchschnittliche Pro-Kopf-BIP beträgt 14 936 Dollar. Der Median liegt deutlich niedriger bei 5 476 Dollar. Die mittlere absolute Abweichung vom Median beträgt 12 744 Dollar, der MAD lediglich 4 722 Dollar.

4.4.4 Varianz, Standardabweichung und Schwankungsintervalle • Definition und Berechnung • Ein zunächst befremdend erscheinendes Konzept besteht darin, die mittlere quadratische (quadrierte) Abweichung vom arithmetischen Mittel als Streuungskennwert zu verwenden, also ̃s2 =

1 n ∑ (x i − x)2 . n i=1

Dies definiert die (empirische) Varianz, die so von Fisher [1918, S. 399] vermutlich erstmalig bezeichnet wurde („variance“). Im Unterschied zu den mittleren absoluten

82 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Abweichungen gehen hier die Distanzen der einzelnen Beobachtungen zum arithmetischen Mittel quadratisch ein. Eine doppelt so große absolute Abweichung schlägt damit vierfach zu Buche. Dies führt zu einer besonders hohen Empfindlichkeit der Varianz gegenüber Ausreißern. Die Wurzel aus der Varianz ̃s = √̃s2 = √

1 n ∑ (x i − x)2 n i=1

heißt (empirische) Standardabweichung. Diese Bezeichnung wurde bereits deutlich früher von Pearson [1894, S. 80] im Englischen als „standard deviation“ eingeführt. Als Rechenbeispiel betrachten wir nochmals die Beobachtungswerte −1, 0, 0, 1, 3, 5 und 6. Mit 2 als arithmetisches Mittel ergibt sich die empirische Varianz dann als 1 [(−1 − 2)2 + (0 − 2)2 + (0 − 2)2 + (1 − 2)2 + (3 − 2)2 + (5 − 2)2 7 1 + (6 − 2)2 ] = (32 + 22 + 22 + 12 + 12 + 32 + 42 ) = 6.28571. 7 Entsprechend beträgt die Standardabweichung ca. 2.51. ̃s2 =

• Verschiebungsformel für die empirische Varianz • Rechentechnische Erleichterung bringt die allgemeine Verschiebungsformel mit sich, nach der für jedes beliebige c gilt: 1 n 1 n ∑ (x i − x)2 = ∑ (x i − c)2 − (x − c)2 . n i=1 n i=1

(4.4.1)

Wählen wir nun c = 0, so folgt daraus die Verschiebungsformel für die Varianz: 1 n 1 n ∑ (x i − x)2 = ∑ x2i − x2 . n i=1 n i=1

(4.4.2)

Demnach erhält man die empirische Varianz aus dem Mittelwert der quadrierten Werte und dem Mittelwert der Originalwerte. Im Falle der Beobachtungswerte −1, 0, 0, 1, 3, 5 und 6 ist das arithmetische Mittel gleich 2 und 1 n 2 1 ∑ x = ((−1)2 + 02 + 02 + 12 + 32 + 52 + 62 ) = 10.28571. n i=1 i 7 Daraus resultiert ̃s2 = 10.28571 − 22 = 6.28571. Es sollte einleuchten, dass die Berechnung der Varianz (von Hand) über die Verschiebungsformel weitaus weniger fehleranfällig ist als über die Ausgangsformel. • Standardabweichung und Interpretation • Eine Interpretation als „mittlere quadratische Abweichung“ bzw. als Wurzel daraus erscheint zunächst wenig intuitiv. Jedoch lassen sich einige wahrscheinlichkeitstheoretische Erkenntnisse im Zusammenhang der Normalverteilung (Abschnitt 7.3.2) in interpretierbare Aussagen übersetzen.

4.4 Streuungskennwerte | 83

So gelten beispielsweise für die um das arithmetische Mittel um Vielfache der Standardabweichung zentrierten (empirischen) Schwankungsintervalle folgende Daumenregeln: In den Intervallen [x − ̃s , x + ̃s], [x − 2̃s , x + 2̃s] und [x − 3̃s , x + 3̃s] liegen etwa 68%, 95% bzw. 99% aller Beobachtungswerte. Zur Überprüfung betrachte man als erstes Beispiel die Verteilung der Körpergrößen von 148 männlichen Studierenden. Arithmetisches Mittel und Standardabweichung ergeben gerundet x ≈ 183 und ̃s ≈ 7. Die Schwankungsintervalle lauten deshalb [176, 190], [169, 197] und [162, 204]. Als zweites Beispiel nehme man die Verteilung des weltweiten Pro-Kopf-BIP (Beispiel 4.1.1). Arithmetisches Mittel und Standardabweichung ergeben hier gerundet x ≈ 14 900 und ̃s ≈ 20 800. Damit lauten die drei Schwankungsintervalle [−5 900, 35 700], [−26 700, 56 500] und [−47 500, 77 300]. Abbildung 4.4.2 illustriert die Lage der Schwankungsintervalle für beide Fälle. − s~ − s~ − s~

50

x

+ s~ + s~ + s~

100

99.3%

40

Abs. Häufigkeit

Abs. Häufigkeit

60

97.3%

30

70.2%

20 10 0

− s~ − s~ − s~

x

+ s~ + s~ + s~

80 97.5% 60

94.0% 84.5%

40 20 0

140

150

160

170

180

190

200

210

Größe in cm

−50

−25

0

25

50

75

100

125

1000 US$

Quelle: Eigenerhebung bzw. Vereinte Nationen Abb. 4.4.2: Empirische Schwankungsintervalle mit empirischen Abdeckungsraten

Im Falle der Körpergrößen stimmen die tatsächlichen Abdeckungsraten mit den postulierten 68%, 95% bzw. 99% recht gut überein. Im Falle des Pro-Kopf-BIP weicht die Abdeckungsrate des kleinsten Intervalls mit 84.5% jedoch deutlich von den postulierten 68% ab. Außerdem stört hier auch die Tatsache, dass sich die unteren Grenzen der Intervalle jeweils weit in den negativen Wertebereich erstrecken, wo keinerlei Werte vorliegen. Dies alles ist auf die stark ausgeprägte Schiefe der Verteilung zurückzuführen. Bei unimodalen und weitgehend symmetrischen Verteilungen kommen die postulierten Abdeckungsraten den tatsächlichen Abdeckungsraten meist sehr nahe. • Hintergründe • Die Varianz stellt zusammen mit der Standardabweichung den mit Abstand bedeutendsten Streuungskennwert in der Statistik dar. Die Gründe hierfür

84 | 4 Spezifizierende Beschreibung empirischer Verteilungen

sind teils theoretischer und teils praktischer Natur. So sind quadratische Abweichungen mathematisch weitaus besser zu handhaben als absolute Abweichungen und führen zu arithmetisch „schönen“ Resultaten. Dies zeigt sich in vielen Situationen wie etwa bei der Streuungszerlegungsformel (Abschnitt 4.5.1), beim Nachweis der Minimumeigenschaft des arithmetischen Mittels (Abschnitt 4.9.1) oder bei der Methode der kleinsten Quadrate im Zusammenhang der Regression (Kapitel 12). Varianz und Standardabweichung werden wortgleich aber inhaltlich verschieden in der Wahrscheinlichkeitstheorie verwendet. Zur besseren Unterscheidung können deshalb auch die Zusätze „empirisch“ und „theoretisch“ („stochastisch“) hinzugefügt werden. Die theoretische (stochastische) Varianz quantifiziert das Streuungsverhalten von Zufallsvariablen (Abschnitt 7.2.1). Man findet sie aber auch als einer der beiden Verteilungsparameter der so herausragend bedeutenden Normalverteilung (Abschnitt 7.3.2). Häufig werden Beobachtungswerte, die um mehr als 2 Standardabweichungen nach unten oder oben hin abweichen, als statistisch signifikant bezeichnet, da diese im Sinne einer postulierten „Wahrscheinlichkeit“ von nur 5% in diesen Bereich hineinfallen sollten. Im Rahmen der Testtheorie (Kapitel 11) wird diese Sichtweise eingehender behandelt werden. Varianz und Standardabweichung Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Dann ist durch ̃s2 =

1 n ∑ (x i − x)2 n i=1

die (empirische) Varianz und durch ̃s = √̃s2 die (empirische) Standardabweichung gegeben. Liegen die Werte klassiert in k Größenklassen mit Klassenmitten m j vor, so wird die Varianz näherungsweise über ̃s2 ≈

k 1 k ̃ j (m j − x)2 = ∑ ̃f j (m j − x)2 ∑n n j=1 j=1

berechnet, wobei das arithmetische Mittel approximativ bestimmt wird.

4.5 Spezielle Streuungskennwerte | 85

4.5 Spezielle Streuungskennwerte

Die Streuungszerlegungsformel ist eine Formel zur Berechnung der Varianz bei gruppierten Daten. Sie spiegelt aber auch ein fundamental wichtiges statistisches Grundprinzip wider, sofern es um die Trennung systematischer und zufälliger Einflüsse geht. Quantilsabstände sind Spannweiten unter Vernachlässigung eines wählbaren Anteils an Werten am unteren und oberen Rand der Verteilung. Der Variationskoeffizient ist ein relativer Streuungskennwert und als Standardabweichung der prozentualen Abweichungen vom arithmetischen Mittel interpretierbar.

4.5.1 Varianz bei gruppierten Daten • Berechnung • In Abschnitt 4.3.1 wurde bereits die rechentechnische Behandlung des arithmetischen Mittels bei gruppierten Daten besprochen. Im Zusammenhang der Varianz besitzt dieser Fall eine tiefergehende Bedeutung. Liegen Daten gruppiert vor, so gilt die sog. Streuungszerlegungsformel. Gemäß dieser Formel lässt sich die Gesamtstreuung, d.h. die Varianz aller Werte, additiv in zwei Bestandteile zerlegen. Auf den eher mühsamen als anspruchsvollen Beweis sei verzichtet. Streuungszerlegungsformel Gegeben seien n metrische Beobachtungswerte gruppiert in k Gruppen mit jeweilĩ j , für gen Gruppenmittelwerten x j , Gruppenvarianzen ̃s2j und Gruppenumfängen n j = 1, . . . , k. Dann gilt: ̃s2 =

1 n 1 k 1 k ̃ j ̃s2j + ∑ n ̃ j (x j − x)2 ∑ (x i − x)2 = ∑ n n i=1 n j=1 n j=1 k

k

j=1

j=1

= ∑ ̃f j ̃s2j + ∑ ̃f j (x j − x)2 , ̃ j /n die Gruppenanteile (Gruppengewichte) bezeichnen und wobei ̃f j = n x=

k 1 n 1 k ̃ j x j = ∑ ̃f j x j ∑ xi = ∑ n n i=1 n j=1 j=1

das Gesamtmittel ist. Die beiden Streuungsbestandteile k

∑ ̃f j ̃s2j j=1

k

und

∑ ̃f j (x j − x)2 j=1

werden als interne Streuung bzw. externe Streuung bezeichnet. Es gilt: Gesamtstreuung = Interne Streuung + Externe Streuung.

86 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Die interne Streuung setzt sich aus den Varianzen innerhalb der Gruppen zusammen. Die externe Streuung ergibt sich aus den (quadrierten) Abweichungen der Gruppenmittelwerte vom Gesamtmittel und ist somit ein Kennwert dafür, wie sehr sich die Gruppen (im Mittel) voneinander unterscheiden. Die einzelnen Summanden der internen und externen Streuung werden mit den jeweiligen Gruppenumfängen gewichtet. Je größer also eine Gruppe ist, desto stärker wird die Gesamtstreuung von dieser Gruppe bestimmt. Gruppe 1

Gruppe 2

Gruppe 3

x2

x

2

1.525

x3

1.46

x1

Höhe:

1

1

1.3

0.7

1.7

2.1

1.9

2.3

1.3

1.2

1.8

1.4

1.6

Abb. 4.5.1: Varianz bei gruppierten Daten – Streuungszerlegung

• Beispiel 4.5.1 • Angenommen es wurden 12 Bäume einer bestimmten Sorte unter 3 verschiedenen Düngemethoden bei sonst identischen Bedingungen angepflanzt (Abb. 4.5.1). Unter Verwendung der Notation für gruppierte Daten ergeben sich für die einzelnen Gruppen folgende Ergebnisse: Gruppe 1:

̃ 1 = 3, x1 = 1.0, ̃s21 = 0.06, n

Gruppe 2:

̃ 2 = 4, x2 = 2.0, ̃s22 = 0.05, n

Gruppe 3:

̃ 3 = 5. x3 = 1.46, ̃s23 = 0.0464, n

Das Gesamtmittel aller 12 Bäume ergibt sich aus dem gewichteten Mittel aller 3 Gruppen (Abschnitt 4.3.1): k

x = ∑ ̃f j x j = j=1

4 5 3 ⋅ 1.0 + ⋅ 2.0 + ⋅ 1.46 = 1.525. 12 12 12

Sofern die Urliste bekannt ist, kann das arithmetische Mittel natürlich auch direkt durch Mittelung der 12 Werte bestimmt werden. Die durchgezogene horizontale Linie markiert die Lage des Gesamtmittelwerts. Die gestrichelten Linien kennzeichnen die Lagen der Gruppenmittelwerte. Für die interne Varianz ergibt sich k

∑ ̃f j ̃s2j = j=1

3 4 5 ⋅ 0.06 + ⋅ 0.05 + ⋅ 0.0464 = 0.051. 12 12 12

4.5 Spezielle Streuungskennwerte | 87

Für die externe Streuung erhält man k

∑ ̃f j (x j − x)2 = j=1

3 4 ⋅ (1 − 1.525)2 + ⋅ (2 − 1.525)2 12 12

5 ⋅ (1.46 − 1.525)2 = 0.145875. 12 Gemäß Streuungszerlegungsformel gilt dann +

̃s2 = 0.051 + 0.145875 = 0.196875. Tatsächlich erhält man über die Verschiebungsformel mit 1 n 2 1 2 (1 + 1.32 + 0.72 + 2.12 + ⋅ ⋅ ⋅ + 1.62 ) = 2.5225 ∑x = n i=1 i 12 als Gesamtvarianz das identische Ergebnis ̃s2 =

1 n 2 ∑ x − x2 = 2.5225 − 1.5252 = 0.196875. n i=1 i

Über den Quotienten 0.145875 ≈ 0.741 0.196875 erhält man als Anteil der externen Streuung an der Gesamtstreuung ca. 74.1%. • Interpretation • Die eigentliche Bedeutung der Streuungszerlegungsformel besteht weniger darin, eine Möglichkeit zur Bestimmung der Varianz bei gruppierten Daten zu liefern, sondern eher darin, ein fundamental wichtiges Grundprinzip statistischer Methoden widerzuspiegeln. So zielen statistische Verfahren häufig darauf ab, die Gesamtstreuung in den Daten in einen systematischen und einen zufälligen Anteil zu zerlegen, um die Wirkung kausaler Effekte abschätzen zu können (Abschnitt 1.2.1). Im vorliegenden Beispiel ist der Anteil der externen Streuung an der Gesamtstreuung Ausdruck dafür, wie stark die Düngemethode Einfluss auf die Wuchshöhe nimmt. Mit ca. 74.1% ist dieser Anteilswert ein Hinweis darauf, dass von einer kausalen Wirkung der verschiedenen Methoden auszugehen ist. Angenommen alle Gruppenmittelwerte wären gleich, d.h. die gestrichelten Linien würden mit der durchgezogenen Linie allesamt zusammenfallen. Dann wäre die externe Streuung gleich Null und die Gesamtstreuung würde sich komplett aus der internen Streuung ergeben. In einem solchen Fall könnte man nicht ohne weiteres von systematischen Unterschieden ausgehen. Der andere Extremfall würde sich ergeben, falls die Gesamtstreuung genau der externen Streuung entspräche. Die interne Streuung wäre dann gleich Null. Alle Bäume innerhalb einer Gruppe wären gleich groß und allein die Düngemethode würde die Unterschiede in den Wuchshöhen erklären. Insbesondere auf die Methoden der Regressionsanalyse (Kapitel 12) lässt sich das Prinzip der Streuungszerlegung verallgemeinern. Speziell im Zusammenhang experimentell gewonnener Daten, wie es im vorliegenden Beispiel der Fall ist, kommt

88 | 4 Spezifizierende Beschreibung empirischer Verteilungen

den Modellen der Varianzanalyse eine herausragende Bedeutung zu. Hierbei geht es regelmäßig auch um die Frage, ab wann einem bestimmten Einflussfaktor tatsächlich ein Einfluss auf eine abhängige Variable unterstellt werden kann. • Hintergründe • Wie bereits in Abschnitt 4.4.4 herausgestellt, führt die Verwendung quadratischer Abweichungen zu mathematisch „schöneren“ Ergebnissen als es bei absoluten Abweichungen der Fall ist. Eines dieser Ergebnisse ist die nun vorliegende Streuungszerlegungsformel. Eine analoge Zerlegung dieser Art ergibt sich unter Verwendung absoluter Abweichungen nämlich nicht. So betragen die mittleren absoluten Abweichungen vom arithmetischen Mittel in den einzelnen Gruppen d∗1 = 0.2 in Gruppe 1, d∗2 = 0.2 in Gruppe 2 und d∗3 = 0.192 in Gruppe 3. Die mittlere absolute Abweichung vom Gesamtmittel für alle Gruppen beträgt 1 [|1 − 1.525| + |1.3 − 1.525| + ⋅ ⋅ ⋅ + |1.6 − 1.525|] = 0.375. 12 Auf der anderen Seite ergibt eine analoge Formel wie bei der Varianz d∗ =

3

3

j=1

j=1

∑ f j d∗j + ∑ f j |x j − x| 3 4 5 3 ⋅ 0.2 + ⋅ 0.2 + ⋅ 0.192 + ⋅ |1 − 1.525| 12 12 12 12 4 5 + ⋅ |2 − 1.525| + ⋅ |1.46 − 1.525| ≈ 0.5133. 12 12 Dies ist offensichtlich nicht gleich d∗ . Dies ist auch nicht der Fall, falls die absoluten Abweichungen vom Median herangezogen werden. =

4.5.2 Quantilsabstände Da die Spannweite (Abschnitt 4.4.1) unmittelbar auf Ausreißer reagiert, lassen sich alternativ „mittlere Spannweiten“ bestimmen, bei denen ein wählbarer Anteil von Werten am unteren und oberen Rand der Verteilung vernachlässigt wird. Diese Spannweiten heißen Quantilsabstände oder genauer α-Quantilsabstände. Dabei entspricht der Parameterwert α gerade dem Anteil von Werten, der jeweils unten und oben vernachlässigt wird. Dementsprechend wird der α-Quantilsabstand, der hier mit Q α notiert wird, aus dem (1 − α)-Quantil und dem α-Quantil bestimmt: Q α = x̃1−α − x̃ α

für α ∈ (0, 0.5).

Im Speziellen entspricht der 0.25-Quantilsabstand, auch Interquartilsabstand genannt, der Differenz des 0.75- und des 0.25-Quantils (oberes und unteres Quartil) und damit der Spannweite der mittleren 50% aller Werte. Dieser spezielle Streuungskennwert wurde bereits von Galton [1882, S. 245] als „interquartile range“ eingeführt.

4.5 Spezielle Streuungskennwerte | 89

Quantilsabstände Für metrische Beobachtungswerte ist der α-Quantilsabstand definiert als Q α = x̃1−α − x̃ α

für α ∈ (0, 0.5).

Er entspricht der Spannweite der mittleren 100×(1 − 2α)% aller Werte. Im Speziellen heißt Q0.25 auch Interquartilsabstand.

Beispiel 4.5.2: Quantilsabstände der Einkommensverteilung In Beispiel 4.3.1 wurde die Verteilung des sog. Nettoäquivalenzeinkommens anhand von Dezilen beschrieben. Die korrespondierenden Daten beruhen auf einer amtlichen freiwilligen Haushaltsbefragung („LEBEN IN EUROPA“) auf Stichprobenbasis. Dazu wurden im Jahr 2012 insgesamt 13 145 Haushalte und 23 587 Personen ab 16 Jahren befragt.

Daten: Statistisches Bundesamt [2014a] Abb. 4.5.2: Quantilsabstände des Nettoäquivalenzeinkommens in Euro (2012)

Das maximale Nettoäquivalenzeinkommen (10. Dezil) der erhobenen Daten beträgt 470 825 Euro. Das 9. Dezil fällt mit nur noch 35 731 Euro deutlich geringer aus. Dieser große Unterschied deutet darauf hin, dass die Einkommensverteilung nach oben hin stark „ausfranst“ ist. Eine Spannweite von fast 500 000 Euro täuscht darüber hinweg, dass sich 90% aller Einkommen unterhalb von 36 000 Euro bewegen. Die Spannweite der mittleren 80% aller Einkommen beträgt ca. 26 000 Euro und die der mittleren 60% nur noch etwa 16 000 Euro.

4.5.3 Variationskoeffizient • Hintergrund • Wird die Streuung eines Merkmals in verschiedenen Gruppen verglichen, kann ein mögliches Problem darin bestehen, dass die Lage der Daten bei vielen Streuungskennwerten unberücksichtigt bleibt. So ist beispielsweise die Varianz der Zahlen 1, 2, 3, 4 und 5 gleich der Varianz der Zahlen 15, 16, 17, 18 und 19. Dies liegt daran, dass die Varianz auf (quadratischen) Abweichungen zum arithmetischen Mit-

90 | 4 Spezifizierende Beschreibung empirischer Verteilungen

tel basiert. Das arithmetische Mittel wird bei einer „Verschiebung“ aller Werte jedoch um den gleichen Betrag mit verschoben. Im vorliegenden Fall verlagert es sich von 3 auf 17. Infolgedessen bleiben die Abweichungen zum Mittelwert unverändert. Damit ändert sich aber auch nicht die Varianz. Völlig analog verhält es sich mit den absoluten Abweichungen vom arithmetischen Mittel oder Median oder auch beim MAD. In diesem Zusammenhang spricht man dann auch von der Verschiebungsinvarianz eines Kennwerts (Abschnitt 4.9.3). Diese Eigenschaft kann bei Vergleichen mit primärem Fokus auf der Streuung störend sein, insbesondere falls die Lage der Daten in den zu vergleichenden Gruppen sehr verschieden ist. Angenommen, im Rahmen einer Marktstudie wird die Streuung von Preisen für bestimmte Produkte bei 3 verschiedenen Lebensmitteldiscountern verglichen. So wird für 100 Gramm des jeweils günstigsten Speisesalzes entweder 29, 39 oder 49 Cent verlangt. Eine 10-Kilogramm-Packung des gleichen Waschmittels kostet entweder 19.79 Euro, 19.89 Euro oder 19.99 Euro. Für beide Produkte ergibt sich bezüglich des Preises die gleiche Standardabweichung von 8.16 Cent. Die Preisvariation gemessen an der Standardabweichung wäre bei beiden Produkten somit gleich. Dennoch ist klar, dass eine Standardabweichung von 8.16 Cent im Falle des wesentlich günstigeren Salzes anders zu bewerten ist als beim Waschmittel. • Definition und Berechnung • Ein Kennwert zur Messung der relativen Streuung von Werten ist der von Pearson [1896, S. 277] eingeführte Variationskoeffizient („coefficient of variation“). Er setzt die Streuung in Bezug zur Lage und ist definiert als ̃s . x Generell ist der Variationskoeffizient nur für nichtnegative Werte und positives arithmetisches Mittel sinnvoll interpretierbar und deshalb auch nur unter diesen Gegebenheiten definiert. Bei gleicher Streuung wird der Variationskoeffizient umso kleiner ausfallen, desto höher das Niveau der Werte ist. Im Falle des obigen Zahlenbeispiels etwa erhält man für die Preisvariation des Salzes und des Waschmittels: ̃s Salz 0.0816 = ≈ 0.209 bzw. ν Salz = 0.39 x Salz ̃s Waschen 0.0816 ≈ 0.004. = ν Waschen = 19.89 x Waschen ν=

Bei einem Durchschnittspreis von 0.39 Euro entspricht eine Standardabweichung von 0.0816 Euro relativ betrachtet einem Unterschied von etwa 20.9%, während dies bei durchschnittlich 19.89 Euro nur etwa 0.4% sind. In diesem Sinne betrachtet variiert der Preis für das Salz deshalb deutlich stärker. • Interpretation • Der Wert 100 ⋅ ν lässt sich als Standardabweichung der prozentualen Abweichungen aller Werte vom arithmetischen Mittel interpretieren.

4.5 Spezielle Streuungskennwerte | 91

Beweis: Seien x1 , . . . , x n nichtnegative metrische Werte mit arithmetischem Mittel x > 0. Dann ergeben sich die prozentualen Abweichungen dieser Werte als xi y i = 100 × ( − 1) für i = 1, . . . , n. x Wegen Gleichung (4.2.2) in Abschnitt 4.2.1 gilt: n

∑( i=1

n xi − x 1 n xi − 1) = ∑ = ∑ (x i − x) = 0. x x x i=1 i=1

Die Summe und damit auch das arithmetische Mittel der y i ist stets gleich 0. Somit folgt mit y = 0 für die Varianz gemäß Verschiebungsformel ̃s2Y = =

1 n 2 1 n ∑ y i − y2 = ∑ y2i n i=1 n i=1 ̃s2 2 1002 n x i 1002 n ∑ ( − 1) = 2 ∑ (x i − x)2 = 1002 X2 , n i=1 x x n i=1 x

wobei ̃s2X die Varianz der ursprünglichen x-Werte bezeichnet. Daraus folgt unmittelbar ̃s X = 100 ν X . x Im obigen Beispiel weichen z.B. 29 Cent um ̃s Y = 100 ⋅



29 − 1)% ≈ −25.64% 39 vom durchschnittlichen Salzpreis nach unten hin ab. Der Preis von 39 Cent entspricht genau dem Durchschnitt und weicht damit um 0% ab. Die 49 Cent weichen wiederum um +25.64% nach oben hin ab. Die Standardabweichung aller 3 prozentualen Abweichungen ergibt dann: 100 ⋅ (

1 √ (−25.642 + 0 + 25.642 ) ≈ 20.9 = 100 ν Salz . 3

Variationskoeffizient Seien x1 , . . . , x n nichtnegative metrische Beobachtungswerte mit x > 0. Dann ist der Variationskoeffizient definiert als ν = ̃s/x. Der Wert 100 × ν entspricht der Standardabweichung der prozentualen Abweichungen vom arithmetischen Mittel, die definiert sind als xi y i = 100 × ( − 1) für i = 1, . . . , n. x

92 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Beispiel 4.5.3: Variationsvergleich von Wechselkursen

11.0 10.5 10.0 9.5 9.0 8.5 8.0

1.5 US Dollar

Yuan

In den Jahren 2004–2013 lag der durchschnittliche monatliche Kurs des Euro bei 9.49 Yuan (China) und bei 1.33 US-Dollar. Die Standardabweichungen betrugen 0.93 Yuan bzw. 0.09 Dollar. Daraus resultiert für den Yuan ein Variationskoeffizient von 0.10 und für den Dollar ein Koeffizient von 0.07. Unter Einbezug des absoluten Niveaus der beiden Wechselkurse fällt der Variationsunterschied folglich nur gering aus.

1.4 1.3 1.2

2004

2006

2008

2010

2012

2014

2004

2006

2008

2010

2012

2014

Daten: Europäische Zentralbank [2014b] Abb. 4.5.3: Wechselkurse des Euro; Jan. 2004–Dez. 2013

4.6 Standardisierung mittels Lage und Streuung

Beobachtungswerte, die aus unterschiedlichen Grundgesamtheiten stammen oder die auf völlig unterschiedlichen Skalen gemessen werden, lassen sich größenmäßig nicht immer sinnvoll vergleichen. Standardisierte Werte können für solche Fälle eine Lösung sein, da sie skalenunabhängig sind. Im Falle einer sog. z-Standardisierung werden die Abweichungen der Werte vom arithmetischen Mittel als Vielfache der Standardabweichung gemessen.

• Hintergrund • Beobachtungswerte aus unterschiedlichen Grundgesamtheiten lassen sich größenmäßig nicht immer sinnvoll vergleichen, wenn die Verteilung des interessierenden Merkmals in den beiden Grundgesamtheiten in Bezug auf Lage und Streuung sehr verschieden ist. Das gilt umso mehr, falls die zu vergleichenden Werte in unterschiedlichen Einheiten gemessen werden. Vergleicht man beispielsweise das monatliche Bruttogehalt eines deutschen Angestellten in einer bestimmten Branche mit demjenigen eines Schweizer Kollegen, so muss die jeweilige länderspezifische Gehaltsstruktur (Niveau und Streuung) mit berücksichtigt werden. Angenommen, in einem bestimmten Tätigkeitsfeld verdiene ein deutscher Angestellter 2800 Euro, wobei das Durchschnittsgehalt in der gesamten Branche 2500 Euro betrage bei einer Standardabweichung von 150 Euro. Der schweizerische Kollege verdiene dagegen 5500 Franken. Hier liege der Durchschnitt bei 5000 Franken, und die Standardabweichung betrage 400 Franken. Wie können die beiden Gehälter nun sinnvoll miteinander ver-

4.6 Standardisierung mittels Lage und Streuung | 93

glichen werden? Prinzipiell könnte man in diesem Beispiel Einkommensquantile als Anhaltspunkte heranziehen oder die prozentualen Abweichungen der beiden Gehälter vom jeweiligen Durchschnittswert ermitteln. Eine in der Statistik verbreitete Alternative dazu besteht darin, die zu vergleichenden Beobachtungswerte zu standardisieren. • Berechnung und Interpretation • Die allgemeine Form einer Standardisierung lautet: Standardisierter Wert = (Originalwert − Lagewert) / Streuungswert. Die häufigste Variante ist die sog. z-Standardisierung, bei der arithmetisches Mittel bzw. Standardabweichung als Lage- bzw. Streuungswert verwendet werden. Jedoch spricht auch nichts dagegen mittels Median und MAD eine Standardisierung durchzuführen, insbesondere falls Robustheitserwägungen eine Rolle spielen. Für metrische Beobachtungswerte x1 , . . . , x n ergeben sich die z-standardisierten Werte als zi =

xi − x ̃s X

für i = 1, . . . , n.

Ein negativer standardisierter Wert weist auf Unterdurchschnittlichkeit, ein positiver Wert auf Überdurchschnittlichkeit hin. Die Differenz zum arithmetischen Mittel wird als Vielfaches der Standardabweichung gemessen. Damit ist der standardisierte Wert prinzipiell auch skalenunabhängig. Die gleiche Differenz wird umso größer, je kleiner die Streuung ist. Dies macht insofern Sinn, da eine Abweichung vom Durchschnitt umso bedeutsamer erscheint, je weniger die Werte insgesamt streuen. Im vorliegenden Beispiel betragen die z-standardisierten Gehälter (2800 − 2500)/150 = 2 bzw. (5500 − 5000)/400 = 1.25. Das Gehalt des deutschen Angestellten liegt 2 Standardabweichungen über dem Durchschnitt, die des Schweizer Angestellten dagegen nur 1.25 Standardabweichungen. In diesem Sinne ist der Deutsche somit besser gestellt, wenngleich beide überdurchschnittlich viel verdienen. • Eigenschaften z-standardisierter Werte • Wegen Gleichung (4.2.2) in Abschnitt 4.2.1 folgt für das arithmetische Mittel der z-standardisierten Werte z=

1 n 1 n xi − x 1 n = ∑ zi = ∑ ∑ (x i − x) = 0. n i=1 n i=1 ̃s X ñs X i=1

Für die Varianz der standardisierten Werte gilt: ̃s2Z = =

1 n 1 n 1 n ∑ (z i − z)2 = ∑ z2i − z2 = ∑ z2i n i=1 n i=1 n i=1 ̃s2 1 n (x i − x)2 1 n = 2 ∑ (x i − x)2 = 2X = 1. ∑ 2 n i=1 ̃s X ̃s X n i=1 ̃s X

94 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Es ist klar, dass eine weitere z-Standardisierung bereits z-standardisierter Werte keine Änderung mehr bewirkt. Außerdem lässt sich mithilfe der Transformationseigenschaften von arithmetischem Mittel und Standardabweichung recht einfach zeigen, dass z-standardisierte Werte sowohl verschiebungs- als auch skaleninvariant sind (Abschnitt 4.9.3). Im Falle normalverteilter Grundgesamtheiten geben standardisierte Werte direkt Aufschluss über die quantilsmäßige Einordnung der Originalwerte innerhalb der Verteilung (Abschnitt 7.3.2). z-Standardisierung Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Dann sind die z-standardisierten Werte gegeben durch zi =

xi − x ̃s X

für i = 1, . . . , n.

Es gilt: z=0

und

̃s2Z = 1.

Z-standardisierte Werte sind verschiebungs- und skaleninvariant.

Beispiel 4.6.1: Standardisierte Zeitreihen Gegeben sei die gleiche Situation wie in Beispiel 4.5.3 (Abschnitt 4.5.3). Um die Synchronität der beiden Wechselkurse Yuan-Euro und Dollar-Euro besser analysieren zu können, erscheint eine z-Standardisierung hilfreich. Notieren wir die 120 Originalwerte des Yuan-Kurses mit y1 , . . . , y120 , so ergeben sich deren standardisierte Werte als y i − y y i − 9.49 für i = 1, . . . , 120. = z Yi = ̃s Y 0.93 Die standardisierten Werte für den Dollarkurs d1 , ..., d120 lauten entsprechend z Di =

d i − d y i − 1.33 = ̃s D 0.09

für i = 1, . . . , 120.

Wie Abbildung 4.6.1 zeigt, ergibt sich für die beiden Währungen für den Zeitraum 2004 bis 2013 eine insgesamt gegensätzliche Entwicklung. Während der Wert des US-Dollars gegenüber dem Euro fiel („weniger Dollar für 1 Euro“), stieg der Wert des chinesischen Yuan („weniger Yuan für 1 Euro“). Ungeachtet dessen weisen beide Kurse eine gewisse Synchronität im gesamten Verlaufsmuster auf.

4.7 Messung von Schiefe | 95

3 2 z−Wert

1 0 −1 −2

US−Dollar Yuan

−3 2004

2006

2008

2010

2012

2014

Daten: Europäische Zentralbank [2014b] Abb. 4.6.1: Standardisierte Wechselkurse des Euro; Jan. 2004 – Dez. 2013

4.7 Messung von Schiefe

Schiefe wurde gemäß Yule [1911] und David [1995] zuerst von Pearson [1895] als empirisches Phänomen begrifflich und thematisch eingehender behandelt. Die Quantifizierung der Schiefe bei statistischen Analysen spielt bis heute meist nur eine untergeordnete Rolle. Deshalb wird hier lediglich der α-Quantilskoeffizient der Schiefe vorgestellt, der sehr nachvollziehbar konstruiert ist. Gleichwohl mag es unter den zahlreichen Alternativen theoretisch stärker fundierte Kennwerte geben.

• Konzept und Definition • Bei schiefen Verteilungen liegen obere und untere Quantile unterschiedlich weit vom Medianwert entfernt. Diesen Umstand macht sich der Quantilskoeffizient der Schiefe zunutze Das Konzept dieses Koeffizienten besteht darin, den α-Quantilsabstand (Abschnitt 4.5.2) Q α = x̃1−α − x̃ α in die zwei Anteile x̃1−α − x̃0.5 und x̃0.5 − x̃ α zu zerlegen: x̃1−α − x̃ α = (x̃0.5 − x̃ α ) + (x̃1−α − x̃0.5 )

(4.7.1)

Im Falle einer schiefen Verteilung unterscheiden sich die Größen der beiden Summanden in (4.7.1) mehr oder weniger stark. So liegt im Falle einer linksschiefen Verteilung das untere Quantil vom Median im Allgemeinen weiter entfernt als das obere Quantil. Die Differenz (x̃1−α − x̃0.5 ) − (x̃0.5 − x̃ α ) ist dann negativ (Abb. 4.7.1, links). Im Falle von Rechtsschiefe ist es genau umgekehrt. Falls eine perfekt symmetrische Verteilung vorliegt, ist die Differenz gleich 0. Der α-Quantilskoeffizient ergibt sich aus dem Quotienten (x̃1−α − x̃0.5 ) − (x̃0.5 − x̃ α ) . x̃1−α − x̃ α

96 | 4 Spezifizierende Beschreibung empirischer Verteilungen Für α = 0.25 spricht man auch vom Quartilskoeffizienten der Schiefe, der so von Yule [1911] vorgeschlagen wurde. Die Division durch den Quantilsabstand erwirkt eine Normierung, sodass der Schiefekoeffizient nur Werte im Intervall [−1, 1] annehmen kann. Wegen (4.7.1) kann die Differenz im Zähler den Wert im Nenner betragsmäßig nicht überschreiten. Häufigkeitsdichte

Häufigkeitsdichte

0.4

Häufigkeitsdichte

0.4

0.3

0.4

0.3

Q 0.1

0.2

0.3

Q 0.1

0.2

0.1

x~0.1

x~0.5

x~0.9

0.0

0.1

x~0.1

x~0.5

0.1

x~0.9

0.0 0

1

2

3

4

5

6

Q 0.1

0.2 x~0.1

x~0.5

x~0.9

0.0 0

1

2

3

4

5

6

0

1

2

3

4

5

6

Abb. 4.7.1: Zerlegung des Quantilsabstands

• Interpretation • Der α-Quantilskoeffizient ist betragsmäßig umso größer, je schiefer die Verteilung ist. Er ist positiv bei rechtsschiefen Verteilungen und negativ bei linksschiefen Verteilungen. Sein Wert hängt außerdem von der Wahl des α-Wertes ab. Ein für α bestimmter Schiefewert bezieht sich (nur) auf die Verteilung der mittleren (1 − 2α) × 100% aller Werte. Quantilskoeffizient der Schiefe Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Dann ist durch QS α =

(̃x1−α − x̃0.5 ) − (x̃0.5 − x̃ α ) x̃1−α − x̃ α

für α ∈ (0, 0.5),

der α-Quantilskoeffzient der Schiefe gegeben. Speziell wird QS0.25 als Quartilskoeffizient der Schiefe bezeichnet. Für QS α > 0 sind die mittleren (1 − 2α) × 100% der Werte rechtsschief, für QS α < 0 linksschief und für QS α = 0 symmetrisch verteilt.

Beispiel 4.7.1: Schiefe der Einkommensverteilung Gegeben sei die gleiche Situation wie in Beispiel 4.5.2 (Abschnitt 4.5.2). Die Einkommensverteilung für Deutschland weist eine deutliche Rechtsschiefe auf. Mit x̃0.1 = 9913, x̃0.5 = 19595 und ̃x0.9 = 35731

4.8 Darstellung und Messung von Konzentration | 97

ergibt sich als 0.1-Quantilskoeffizient der Schiefe QS0.1 =

(35731 − 19595) − (19595 − 9913) 16136 − 9682 = ≈ 0.25. 35731 − 9913 25818 Q 0.1 = 25 818

8. Dezil

73 1

x~0.9

35

29

03 9

7. Dezil

6. Dezil

11 6

14 8 22

25

4. Dezil

x~0.5

59 5

3. Dezil

x~0.9 − x~0.5 = 16 136

19

87 1

32 0 17

15

12

9

0

91 3

x~0.1

09 4

2. Dezil

x~0.5 − x~0.1 = 9 682

Daten: Statistisches Bundesamt [2014] Abb. 4.7.2: 0.1-Quantilskoeffizient der Schiefe für die Einkommensverteilung

Analog erhält man (29039 − 19595) − (19595 − 12871) ≈ 0.17 und 29039 − 12871 (25116 − 19595) − (19595 − 15094) QS0.3 = ≈ 0.10. 25116 − 15094 Mit abnehmendem α-Wert nimmt die Rechtsschiefe zu. Dies ist darauf zurückzuführen, dass die Verteilung am oberen Rand „ausfranst“ und der Einkommensunterschied umso stärker ausfällt, je mehr man sich den beiden Rändern der Verteilung annähert. QS0.2 =

4.8 Darstellung und Messung von Konzentration

Unter Konzentration versteht man in der Statistik eine Ungleichverteilung der Merkmalssumme auf die einzelnen Beobachtungswerte. Mit der Lorenkurve lässt sich diese Ungleichverteilung grafisch darstellen. Der Gini-Koeffizient ist ein Maß für die Konzentration. Er entspricht der doppelten Fläche, welche die Lorenzkurve zur Winkelhalbierenden einschließt. Die Konzentrationsmessung besitzt insbesondere bei der Deskription von Einkommensverteilungen eine wichtige Bedeutung. GiniKoeffizienten werden von vielen staatlichen und internationalen Institutionen regelmäßig ermittelt und publiziert.

98 | 4 Spezifizierende Beschreibung empirischer Verteilungen

4.8.1 Lorenz-Kurve • Was versteht man unter Konzentration? • Angenommen man vergleiche die folgenden beiden Datensätze: Datensatz 1:

4, 4, 4, 4, 4,

Datensatz 2: 2, 2, 2, 2, 12. Die Merkmalssumme beträgt in beiden Fällen jeweils 20. In Datensatz 1 besitzt jeder Wert den gleichen Anteil (4/20 = 0.2) an der Merkmalssumme. Die Merkmalssumme verteilt sich damit gleichmäßig auf alle 5 Beobachtungen. In Datensatz 2 besitzen die ersten 4 Werte jeweils den Anteil 0.1. Der 5. Wert vereinigt dagegen 60% der Merkmalssumme auf sich. Damit verteilt sich die Merkmalssumme ungleich auf die einzelnen Beobachtungen. In diesem Fall spricht man dann von einer Konzentration der Werte. Ein anfangs verbreitetes Missverständnis besteht darin, eine geringe Streuung der Werte mit einer hohen Konzentration gleichzusetzen („Die Werte konzentrieren sich auf einen Punkt“). Dem ist jedoch nicht so. Ganz im Gegenteil, liegt keinerlei Streuung vor, verteilt sich die Merkmalssumme perfekt gleichmäßig auf alle Merkmalsträger. Damit liegt auch keine Konzentration vor. • Beispiel 4.8.1 • Zur Vertiefung sei ein weiteres stilisiertes Beispiel herangezogen. Angenommen es liegen Umsatzdaten (in Mio. Euro) von jeweils 5 Firmen in drei verschiedenen Branchen wie folgt vor: Branche 1: 1, 100, 1, 1, 1, Branche 2: 100, 100, 1, 100, 100, Branche 3:

100, 60, 20, 40, 80.

Die Daten beschreiben sehr unterschiedliche Situationen für die Verteilung des Umsatzes in den einzelnen Branchen. In Branche 1 gibt es ein einzelnes marktbeherrschendes Unternehmen, welches nahezu den gesamten Umsatz erwirtschaftet. Die Konkurrenz ist zwar zahlreich vertreten, trägt aber nur marginal zum Gesamtumsatz bei. In Branche 2 teilt sich der Gesamtumsatz nahezu gleichmäßig auf die einzelnen Unternehmen auf mit Ausnahme eines einzelnen „Zwergunternehmens“. In Branche 3 gibt es weder ein eindeutig marktbeherrschendes Unternehmen noch völlige Gleichverteilung. Vielmehr teilt sich hier der Gesamtumsatz auf kleinere, mittlere und größere Unternehmen auf. Die Berechnung von Mittelwerten, Standardabweichungen und Variationskoeffizienten für die einzelnen Branchen ergibt: Branche 1:

x1 = 20.8, ̃s1 = 39.6, ν1 = 1.90,

Branche 2:

x2 = 80.2, ̃s2 = 39.6, ν2 = 0.49,

Branche 3:

x3 = 60, ̃s3 = 28.28, ν3 = 0.47.

Hieran wird erkennbar, dass Konzentration anhand von Lage- und Streuungsquantifizierung nicht ausreichend beschrieben werden kann. Die Standardabweichungen

4.8 Darstellung und Messung von Konzentration | 99

in Branche 1 und 2 sind identisch, obgleich sehr unterschiedliche Marktsituationen vorliegen. Lediglich der Variationskoeffizient deutet auf Unterschiede hin. Bei einem Vergleich von Branche 2 und 3 ist es eher umgekehrt. Hier unterscheiden sich die Standardabweichungen stärker als die Variationskoeffizienten. Alles in allem bedarf es also eines geeigneten Konzepts zur Beschreibung von Konzentration, das sich von der Streuungsmessung absetzt. • Konstruktion einer Lorenzkurve • Mit der von Max Otto Lorenz [1905] entwickelten Lorenzkurve wird grafisch beschrieben, wie sich die Merkmalssumme, also die Summe aller Beobachtungswerte, auf die einzelnen Beobachtungswerte aufteilt. Das Grundkonzept besteht darin, in einem Diagramm die kumulativen Anteile der Merkmalssumme gegen die kumulativen Anteile der Beobachtungen abzutragen. Tab. 4.8.1: Arbeitstabelle zur Erstellung einer Lorenzkurve für Branche 3 i 1 2 3 4 5

x(i) 20 40 60 80 100

Kum. Anteil der Beobachtungen 1/5=0.2 1/5+1/5=0.4 1/5+1/5+1/5=0.6 1/5+1/5+1/5+1/5=0.8 1/5+1/5+1/5+1/5+1/5=1.0

Kum. Anteil an der Merkmalssumme 20/300≈ 0.067 (20+40)/300=0.2 (20+40+60)/300=0.4 (20+40+60+80)/300≈ 0.667 (20+40+60+80+100)/300=1

Betrachten wir als Beispiel die Daten von Branche 3 des obigen Beispiels. Zunächst einmal ist es wichtig, dass die Beobachtungswerte der Größe nach geordnet werden. Dann „gehe“ man vom kleinsten bis zum größten Wert und notiere sich fortlaufend kumulierend (aufsummierend) die relativen Anteile der Werte und der Merkmalssumme (Tab. 4.8.1). Die gesamte Merkmalssumme beträgt hier 300. Beim kleinsten Wert 20 angefangen wird zunächst 1/5 der Werte und gleichzeitig 20/300 der Merkmalssumme notiert. Weiter gehend zum Wert 40, wird 2/5 der Werte und gleichzeitig (20+40)/300 der Merkmalssumme notiert usw. Mit der letzten Beobachtung verfügt man schließlich über alle Beobachtungen und die gesamte Merkmalssumme. Die kumulativen Anteile betragen dann jeweils 1. Die kumulativen Anteile der Merkmalssumme („yKoordinaten“) werden nun in einem Diagramm gegen die kumulativen Anteile der Beobachtungen („x-Koordinaten“) abgetragen und mit einer Linie verbunden. Konkret sind dies die Punkte mit den Koordinaten (0, 0), (0.2, 0.067), (0.4, 0.2), (0.6, 0.4), (0.8, 0.667) und (1, 1). Die so entstandene Kurve heißt Lorenzkurve. Völlig analog verfährt man mit den Daten für die Branchen 1 und 2. Eine Lorenzkurve lässt sich nur für nichtnegative Beobachtungswerte, wie sie ja typischerweise bei Angaben zu Einkommen und Umsätzen auftreten, sinnvoll konstruieren.

100 | 4 Spezifizierende Beschreibung empirischer Verteilungen

1.0

0.8

0.6

0.4

0.2

0.0

1.0

Branche 2 Anteil an Merkmalssumme

Branche 1 Anteil an Merkmalssumme

Anteil an Merkmalssumme

1.0

0.8

0.6

0.4

0.2

0.0 0.0

0.2

0.4

0.6

0.8

Anteil an Beobachtungen

1.0

Branche 3

0.8

0.6

0.4

0.2

0.0 0.0

0.2

0.4

0.6

0.8

Anteil an Beobachtungen

1.0

0.0

0.2

0.4

0.6

0.8

1.0

Anteil an Beobachtungen

Abb. 4.8.1: Lorenzkurven der einzelnen Branchen

• Interpretation • Wie Abbildung 4.8.1 zeigt, verläuft die Lorenzkurve für Branche 1 deutlich unterhalb der Winkelhalbierenden, während sie für Branche 2 relativ dicht an der Winkelhalbierenden anliegt. Das ist natürlich kein Zufall. Immer dann, wenn ein relativ großer Anteil an Beobachtungen einen relativ kleinen Anteil der Merkmalssumme auf sich vereinigt, wird die Fläche zwischen Lorenzkurve und Winkelhalbierender groß. Bildlich gesprochen führt dies zwangsläufig zu einem Punkt mit großer x- und kleiner y-Koordinate. Im Beispiel erzielen in Branche 1 die 80% kleinsten Unternehmen lediglich 3.8% des Gesamtumsatzes. Liegt keinerlei Streuung vor, d.h. sind alle Beobachtungswerte gleich, liegt auch keine Konzentration vor. Die kumulativen Anteile der Beobachtungen stimmen dann mit den kumulativen Anteilen der Merkmalssumme überein. Im Falle von 5 Beobachtungswerten etwa lauten die Koordinaten dann (0, 0), (0.2, 0.2), (0.4, 0.4), (0.6, 0.6), (0.8, 0.8), (1, 1). Die Lorenzkurve fällt mit der Winkelhalbierenden zusammen (Abb. 4.8.2, links). Je stärker eine Konzentration ausgeprägt ist, desto größer wird die Fläche, welche die Lorenzkurve zur Winkelhalbierenden aufspannt.

4.8.2 Gini-Koeffizient • Definition und Interpretation • Der auf Corrado Gini [1912] zurückgehende GiniKoeffizient entspricht dem Doppelten der Fläche, welche die Lorenzkurve zur Winkelhalbierenden aufspannt. Da gemäß Konstruktion die maximale Fläche zwischen Lorenzkurve und Winkelhalbierender gleich 0.5 ist, liegt der Wert des Gini-Koeffizienten auf jeden Fall im Intervall [0, 1]. Der Gini-Koeffizient ist gleich 0, falls alle Beobachtungswerte gleich sind und die Lorenzkurve deshalb mit der Winkelhalbierenden zusammenfällt. Daneben besitzt der Gini-Koeffizient noch viele weitere Deutungsebenen und auch Verbindungen zu anderen empirischen Kennwerten. Einen Ein- und Überblick hierzu bieten Ceriani und Verme [2012].

4.8 Darstellung und Messung von Konzentration | 101

1

1

n −1

1

1

n

Abb. 4.8.2: Minimale und maximale Konzentration

• Berechnung • Die Berechnung des Gini-Koeffizienten G stützt sich auf geometrische Überlegungen zur Flächenermittlung bei Trapezen. Die Formel lautet G=

2 ∑ni=1 ix(i) n + 1 − . n n ∑ni=1 x i

Dabei werden nichtnegative Werte x1 , . . . , x n mit positivem arithmetischem Mittel vorausgesetzt. Für das fiktive Beispiel des vorhergehenden Abschnitts erhält man z.B. für Branche 3: 2(1 ⋅ 20 + 2 ⋅ 40 + 3 ⋅ 60 + 4 ⋅ 80 + 5 ⋅ 100) 6 − ≈ 0.2667. G3 = 5 ⋅ 300 5 Analog resultieren für die Branchen 1 und 2 die Koeffizienten G1 = 0.7615

und

G2 = 0.1975.

Demnach ist die Konzentration in Branche 1 am größten und in Branche 2 am geringsten. • Wertebereich und Normierung • Simple geometrische Überlegungen führen zum Ergebnis, dass der Gini-Koeffizient gleich (n − 1)/n ist, falls von insgesamt n Beobachtungswerten n − 1 Werte gleich 0 und ein einziger Wert positiv ist. Dann vereinigt 1/n der Beobachtungen 100% der Merkmalssumme auf sich (Abb. 4.8.2, rechts). Die Lorenzkurve geht in diesem Extremfall von maximaler Konzentration durch die Punkte (0, 0), ((n − 1)/n, 0), (1, 1). Der Maximalwert hängt somit prinzipiell vom Stichprobenumfang ab und strebt für wachsendes n gegen 1. Damit der Gini-Koeffizient im Falle maximaler Konzentration auf jeden Fall den Wert 1 annimmt, wird dieser manchmal noch mit dem Vorfaktor n/(n − 1) multipliziert. Dies definiert den normierten Gini-Koeffizienten G∗ : n G∗ = G. n−1

102 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Gini-Koeffizient Gegeben seien metrische, nichtnegative Beobachtungswerte x1 , . . . , x n , wobei mindestens ein Wert positiv ist. Dann ist der Gini-Koeffizient gegeben durch G=

2 ∑ni=1 ix(i) n + 1 − , n n ∑ni=1 x i

wobei x(i) die geordneten Werte sind. Sein Wert entspricht dem Doppelten der Fläche, welche die Lorenzkurve zur Winkelhalbierenden einschließt. Dabei gilt: G ∈ [0, 1 − 1/n]. Der Gini-Koeffizient ist gleich 0, falls x1 = x2 = ⋅ ⋅ ⋅ = x n und ist gleich 1 − 1/n, falls x(1) = x(2) = ⋅ ⋅ ⋅ = x(n−1) = 0 und x(n) > 0. • Vorsicht bei der Interpretation • Fahrmeir et al. [2010] weisen anhand eines Beispiels darauf hin, dass eine Beschreibung der Konzentration allein mithilfe des GiniMaßes möglicherweise nicht differenziert genug ist. Vielmehr sollten sich Lorenzkurve und Gini-Maß gegenseitig ergänzen. Als Beispiel wird eine fiktive Situation beschrieben, in der in einem Land A die ärmere Hälfte der Bevölkerung nur 10% des Grundbesitzes besitzen. In einem anderen Land B besitzen dagegen die reichsten 10% der Bevölkerung 50% des Grundbesitzes. Die folgenden beiden stilisierten Datensätze bilden die beschriebene Situation beispielhaft ab: Land A: 2, 2, 2, 2, 2, 18, 18, 18, 18, 18, Land B:

5, 5, 5, 5, 5, 5, 5, 5, 5, 45.

Abbildung 4.8.3 verdeutlicht, dass sich hieraus grundlegend verschiedene Situationen ergeben, die sich in unterschiedlichen Lorenzkurven niederschlagen. Die von der Lorenzkurve aufgespannte Fläche ist in beiden Fällen dennoch gleich. Das Gini-Maß beträgt jeweils 0.4. Beispiel 4.8.2: Konzentration von Einkommen in Deutschland Gegeben sei die gleiche Situation wie in Beispiel 4.2.1 (Abschnitt 4.2.4). Die Verteilung des sog. Nettoäquivalenzeinkommens wurde bereits anhand der Dezile (Beispiel 4.3.1), der Quantilsabstände (Beispiel 4.5.2) und anhand der Schiefe (Beispiel 4.7.1) eingehend untersucht. Das Jahresgutachten des Sachverständigenrats zur Begutachtung der gesamtwirtschaftlichen Entwicklung 2013/2014 (S. 375ff) bietet einen Überblick über die zeitliche Entwicklung des Gini-Koeffizienten für Markt- und Nettoeinkommen des äquivalenzgewichteten Einkommens für Deutschland. In Tabelle 4.8.2 sind unter Markteinkommen im Wesentlichen die Bruttoeinkommen, Kapitaleinkünfte und sonstigen Einkünfte (etwa aus Mieten und Pachten)

4.8 Darstellung und Messung von Konzentration | 103

Land A

Land B

1.0

1.0 Land A

Land B

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

0.0 0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

Abb. 4.8.3: Aufteilung des Grundbesitzes und korrespondierende Lorenzkurven

zu verstehen. Die Daten beruhen wie auch in den vorhergehenden Beispielen auf Ergebnissen des SOEP. Gemäß Sachverständigenrat (SVR) „hat die Ungleichheit der Einkommen gemessen am Gini-Koeffizienten seit Beginn der 90er-Jahre lediglich moderat zugenommen“. Weiter liegt die Konzentration der Markteinkommen regelmäßig deutlich über derjenigen der Nettoeinkommen. Dies deutet laut SVR darauf hin, dass Deutschland über ein funktionierendes Umverteilungssystem verfügt. Außerdem zeigt eine nach West- und Ostdeutschland differenzierte Analyse, dass die Konzentration der Markteinkommen für Ostdeutschland seit 1993 einen durchwegs höheren Wert annimmt als für Westdeutschland. Die Konzentration der Nettoeinkommen war dagegen seit 1991 für Westdeutschland stets höher als für Ostdeutschland. Als alternatives Maß zur Messung der Einkommensungleichverteilung wurde bereits das Quintilsverhältnis oder die sog. S80/S20-Rate vorgestellt (Beispiel 4.3.1). Tab. 4.8.2: Konzentration der Einkommensverteilung gemäß Gini-Koeffizient Markteinkommen

Nettoeinkommen

Jahr

West-

Ost

Deutschland

West-

Ost-

Deutschland

1991

0.406

0.375

0.411

0.245

0.205

0.247

1996

0.439

0.476

0.450

0.254

0.212

0.251

2001

0.449

0.506

0.462

0.265

0.219

0.261

2006

0.479

0.540

0.494

0.290

0.239

0.286

2011

0.472

0.529

0.485

0.291

0.257

0.288

Daten: Sachverständigenrat [2013, Schaubild 91]

104 | 4 Spezifizierende Beschreibung empirischer Verteilungen

4.9 Spezifische Eigenschaften empirischer Kennwerte

Das arithmetische Mittel minimiert als Bezugswert die Summe der quadratischen Abweichungen. Der Median minimiert dagegen die Summe der absoluten Abweichungen. Diese Eigenschaften werden hier als Minimimumeigenschaften bezeichnet. Die Varianz und die mittlere absolute Abweichung vom Median besitzen deshalb als Streuungskennwerte eine besondere theoretische Fundierung. Unter den Transformationseigenschaften wird die Unveränderlichkeit (Invarianz) bzw. Veränderlichkeit empirischer Kennwerte bei Datentransformationen besprochen. Von besonderem Interesse sind dabei Transformationen gemäß einer Verschiebung oder einer Umskalierung der Werte. Unter dem Begriff der Robustheit wird die Unempfindlichkeit bzw. Empfindlichkeit empirischer Kennwerte bei Vorliegen von Ausreißern diskutiert.

4.9.1 Minimumeigenschaft des arithmetischen Mittels • Hintergrund • Die Varianz (Abschnitt 4.4.4) ̃s2 =

1 n ∑ (x i − x)2 n i=1

misst die mittlere quadrierte Abweichung vom arithmetischen Mittel, ist insofern also ein Streuungskennwert in Bezug auf das arithmetische Mittel. Eine Frage, die sich aus theoretischer Sicht stellt, ist, für welchen Wert c ∈ ℝ der Ausdruck 1 n ∑ (x i − c)2 n i=1 minimal wird. Gemäß Stigler [1986, S. 12] befasste sich Legendre [1805] als Erster mit dieser Fragestellung im Kontext der von ihm zuerst publizierten Kleinste-QuadrateMethode (Abschnitt 5.2.3). Dabei gab er als Lösung bereits explizit das arithmetische Mittel an, auch wenn er dieses namentlich nicht so benannte (Legendre [1805, S. 75]). • Analytischer Nachweis • Zum analytischen Nachweis der minimierenden Eigenschaft des arithmetischen Mittels definiere man die Funktion f(c) =

1 n ∑ (x i − c)2 n i=1

für vorgegebene Beobachtungswerte x1 , . . . , x n . Die nach gewöhnlichen Regeln der Differentialrechnung gewonnene Ableitung von f nach c ergibt df(c) 2 n 2 n 2 n = − ∑ (x i − c) = − ∑ x i + ∑ c dc n i=1 n i=1 n i=1 = −2x + 2c = 2(c − x).

4.9 Spezifische Eigenschaften empirischer Kennwerte | 105

Damit ergibt sich als allgemeine Lösung des Minimierungsproblems c = x. Tatsächlich ist das arithmetische Mittel also derjenige Referenzpunkt, der die quadratischen Abweichungen minimiert. Der korrespondierende Streuungskennwert ist die Varianz. Eine alternative Möglichkeit die Minimumeigenschaft des arithmetischen Mittels herzuleiten, verwendet die allgemeine Verschiebungsformel. Durch Umstellen von Gleichung (4.4.1) in Abschnitt 4.4.4 erhält man f(c) =

1 n 1 n ∑ (x i − c)2 = ∑ (x i − x)2 + (x − c)2 = ̃s2 + (x − c)2 . n i=1 n i=1

(4.9.1)

Da die Varianz ̃s2 auf jeden Fall nichtnegativ ist, ist die Funktion f für c = x minimal. Der minimale Funktionswert ist dann gerade die Varianz, d.h. f(x) = ̃s2 . • Beispiel 4.9.1 • Als Beispiele betrachte man zum einen die Beobachtungswerte −1, 0, 0, 1, 3, 5 und 6 mit x = 2 und ̃s2 = 6.28571 und zum anderen die Werte −1, 0, 0, 1, 3, 4, 5 und 6 mit x = 2.25 und ̃s2 = 5.9375. Gemäß Gleichung (4.9.1) gilt dann: f1 (c) = (2 − c)2 + 6.28571 bzw. f2 (c) = (2.25 − c)2 + 5.9375. f 1(c )10

f 2(c )10

8 s~2 = 6.28571 6

−2

8

4

6 s~2 = 5.9375 4

2

2

0

2

4 x =2

6

−2

0

c

2 4 x = 2.25

6

c

Abb. 4.9.1: Minimumeigenschaft des arithmetischen Mittels

Der Funktionsgraph im ersten Fall ist eine um 2 Einheiten nach rechts und 6.28571 Einheiten nach oben verschobene Parabel mit Minimum 6.28571 an der Stelle 2 (Abb. 4.9.1, links). Im zweiten Fall erhält man an der Stelle 2.25 ein Minimum von 5.9375 (Abb. 4.9.1, rechts).

106 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Satz 4.9.1: Minimumeigenschaft des arithmetischen Mittels Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Dann gilt für jedes c ∈ ℝ: ̃s2 =

1 n 1 n ∑ (x i − x)2 ≤ ∑ (x i − c)2 . n i=1 n i=1

4.9.2 Minimumeigenschaft des Medians • Hintergrund • Die Minimierung quadratischer Abweichungen führt, wie im vorhergehenden Abschnitt ausgeführt wurde, zum arithmetischen Mittel als zu wählendem Bezugswert. In ähnlicher Weise lässt sich zeigen, dass der Median nun derjenige Bezugswert ist, welcher die mittleren absoluten Abweichungen minimiert. Die Lösung des Minimierungsproblems min c

1 n ∑ |x i − c| n i=1

für c ∈ ℝ

(4.9.2)

lautet also c = x̃0.5 . Der korrespondierende Streuungskennwert ist die mittlere absolute Abweichung vom Median (Abschnitt 4.4.2). Insofern erscheint es aus theoretischer Sicht in gewisser Weise begründet, die mittlere absolute Abweichung vom Median der mittleren absoluten vom arithmetischen Mittel vorzuziehen. • Analytischer Nachweis • Die analytische Herangehensweise wäre wiederum, eine bezüglich c zu minimierende Funktion zu definieren, d.h. min ̃f (c) c

mit

n ̃f (c) = 1 ∑ |x i − c|. n i=1

Eine derart einfache analytische Herleitung der minimierenden Eigenschaft des Medians wie beim arithmetischen Mittel ist nicht möglich. Dies liegt daran, dass die zu minimierende Funktion im Falle absoluter Abweichungen nicht mehr an jeder Stelle differenzierbar ist. Ebenso ergibt sich auch keine Streuungszerlegungsformel wie im Falle quadratischer Abweichungen. Jedoch erscheint die Lösung unter Zuhilfenahme einfacher Beispiele relativ schnell plausibel. Auf eine rigorose Beweisführung wird deshalb verzichtet. Ein angeblich „erster Beweis“ findet sich bei Fechner [1878] (S. 4: „Es ist mir nicht bekannt, dass man diese Frage schon aufgeworfen hätte [...]“). Tatsächlich lässt sich die Medianlösung aber als Spezialfall allgemeinerer Erkenntnisse ableiten, die zuvor Laplace [1818] im Kontext der Regressionsanalyse (Abschnitt 5.2.3) bereits gewonnen hatte. Inhaltliche Erläuterungen hierzu finden sich beispielsweise bei Stigler [1973, S. 441]. Bemerkenswerterweise nennt auch Yule [1911, S. 154] in seinem „ersten Statistik-Lehrbuch“ bereits Laplace und nicht Fechner als denjenigen, der die Minimumeigenschaft des Medians erstmals nachwies.

4.9 Spezifische Eigenschaften empirischer Kennwerte | 107

• Beispiel 4.9.2 • Man betrachte wie im vorigen Abschnitt nochmals die Beispiele Datensatz 1: − 1, 0, 0, 1, 3, 5, 6, Datensatz 2: − 1, 0, 0, 1, 3, 4, 5, 6. Abbildung 4.9.2 illustriert das Minimierungsproblem für den ersten Datensatz, der eine ungerade Anzahl von Beobachtungswerten aufweist (n = 7).

2

5−1

2+1

5 2×1

2 × (1 + 1)

4

0+1 2−1

2

−2

−1

0

1 c = x~0.5

2

4−1

3

4

5

6

−2

−1

0

1

2

3

4

5

6

c > x~0.5

Abb. 4.9.2: Absolute Abweichungen bei ungerader Anzahl von Beobachtungen

Auf der linken Seite wird die Situation für c = 1 illustriert. Der Median ist gleich 1. Es liegen genauso viele Werte links wie rechts des Medians. Die Längen der Pfeile entsprechen den absoluten Abweichungen, die in der Summe 15 ergeben. Die Abweichung des Medians von sich selbst ist gleich 0. Wird der Bezugswert c nun von 1 ausgehend nach rechts verschoben, werden alle Abstände der linken Seite länger, während alle auf der rechten Seite liegenden Abstände um den gleichen Betrag kürzer werden. Die Summe aller Abstände würde sich bis dahin noch nicht ändern. Allerdings muss nun auch der Abstand zum Median selbst, d.h. in diesem Fall zum Wert 1, hinzugerechnet werden (dunkler Pfeil). Damit nimmt die Summe aller absoluten Abstände zu. Bei einer Verlagerung zum Punkt 2 beispielsweise beträgt sie 16. Völlig analog würde die Summe aller absoluten Abweichungen größer werden, wenn ein Bezugswert kleiner als der Median gewählt würde. Somit besitzt der Median die minimierende Eigenschaft und nicht etwa, wie man vielleicht zunächst vermuten würde, das arithmetische Mittel. Auch bei einer geraden Anzahl von Beobachtungen wird die Summe der absoluten Abweichungen mit dem Median als Bezugswert minimiert. Jedoch ist die Lösung des Minimierungsproblems (4.9.2) nicht mehr zwingend eindeutig, wie das Beispiel anhand von Datensatz 2 zeigt. Entspricht der Bezugswert dem Medianwert (c = 2), so ist die Summe der absoluten Abweichungen gleich 18 (Abb. 4.9.3, links). Wird der Bezugswert nun nach rechts verschoben, so bleibt bis zum Wert c = 3 die Summe der absoluten Abweichungen unverändert (Abb. 4.9.3, rechts). Erst ab c > 3 wird die Summe der Abweichungen größer. Analoges gilt bei einer Verschiebung nach links. Bis zum Wert c = 1 bleibt die Summe der Abweichungen gleich. Ab c < 1 wird die Sum-

108 | 4 Spezifizierende Beschreibung empirischer Verteilungen

me schließlich größer. Die Lösung des Minimierungsproblems führt damit zur Menge aller Werte im Intervall [1, 3] und ist nicht eindeutig.

3

3+1

4 2×2

3−1

1+1

2

1

4−1

2 × (2 + 1)

3

2−1

1

−2

−1

0

1

2

3

4

5

6

−2

−1

0

1

2

c = x~0.5

3

4

5

4

6

6

c =3

Abb. 4.9.3: Absolute Abweichungen bei gerader Anzahl von Beobachtungen

~ f 1 (c) 6

~ f 2 (c) 6

5

5

4

4

3

3 d =2

d = 1.8575 2 1 −4

−2

2 1

0

2

4

6

8

x~0.5 = 1

−4

−2

0

x~0.5 = 2

8

Abb. 4.9.4: Minimumeigenschaft des Medians

Abbildung 4.9.4 zeigt die Grafen der korrespondierenden Funktionen, welche theoretisch zu minimieren wären: ̃f1 (c) = 1 [| − 1 − c| + |c| + |c| + |1 − c| + |3 − c| + |5 − c| + |6 − c|] 7 für Datensatz 1 und ̃f 2 (c) = 1 [| − 1 − c| + |c| + |c| + |1 − c| + |3 − c| + |4 − c| + |5 − c| + |6 − c|] 8 für Datensatz 2. Zu erkennen ist der flache Verlauf des Funktionsgrafen für Datensatz 2. Die gerade Anzahl von Beobachtungen führt hier zur Lösungsmenge [1, 3]. An der Stelle des Medians entspricht der Funktionswert der mittleren absoluten Abweichung vom Median. Diese beträgt 1.8571 in Datensatz 1 bzw. 2 in Datensatz 2.

4.9 Spezifische Eigenschaften empirischer Kennwerte | 109

Satz 4.9.2: Minimumeigenschaft des Medians Gegeben seien metrische Beobachtungswerte x1 , . . . , x n . Dann gilt für jedes c ∈ ℝ: d=

1 n 1 n ∑ |x i − x̃0.5 | ≤ ∑ |x i − c|. n i=1 n i=1

4.9.3 Transformationseigenschaften • Arten von Transformationen • Zum Grundverständnis eines jeden empirischen Kennwerts gehört auch stets die Kenntnis darüber, wie sich dieses bei Datentransformationen verhält. Dabei interessieren wir uns hier in erster Linie für Verschiebungen und Umskalierungen. Ausgehend von metrischen Beobachtungswerten x1 , . . . , x n versteht man unter einer Verschiebung eine Transformation der Ursprungswerte gemäß ui = xi + c

für i = 1, . . . , n und c ∈ ℝ.

Zu jedem Beobachtungswert x i wird ein konstanter Wert c hinzuaddiert. Daraus resultieren die transformierten (verschobenen) Werte u1 , . . . , u n . Abbildung 4.9.5 illustriert eine Verschiebung der Werte −1, 0, 0, 1, 3, 5 und 6 (schwarze Kugeln) um c = 9. Daraus resultieren die verschobenen Werte 8, 9, 9, 10, 12, 14 und 15 (helle Kugeln). ui = xi + 9 3

4 2 1

−2

−1

0

1

3

3

4 2

1

2

3 1

3

4

5

6

7

8

9

10

1

11

12

13

14

15

u

x

Abb. 4.9.5: Beobachtungswerte und absolute Abweichungen bei Verschiebung

Unter einer Umskalierung versteht man dagegen eine Transformation gemäß ui = c ⋅ xi

für i = 1, . . . , n und c > 0.

Die Multiplikation jedes Beobachtungswertes x i mit einem konstanten positiven Faktor c resultiert in den transformierten (umskalierten) Werten u1 , . . . , u n . Rechnet man beispielsweise Körpergrößen von Meter in Zentimeter um, so entspricht dies einer Umskalierung mit dem Faktor c = 100. Die Körpergrößen in Meter x1 , . . . , x n werden

110 | 4 Spezifizierende Beschreibung empirischer Verteilungen

mit 100 multipliziert und die resultierenden Werte u1 , . . . , u n sind dann die entsprechenden Größen in Zentimeter. Werden Preise von Euro in US-Dollar umgerechnet, so entsprach dies am 19. Juni 2014 einer Umskalierung mit dem Faktor c = 1.3621. Abbildung 4.9.6 illustriert beispielhaft eine Umskalierung der Werte −1, 0, 0, 1, 3, 5 und 6. Vom Ursprung 0 aus betrachtet, werden alle Werte um den Faktor c = 2 nach oben und unten hin gestreckt, je nachdem ob sie positiv oder negativ sind. Der Wert 0 bleibt unverändert. Daraus resultieren die umskalierten Werte −2, 0, 0, 2, 6, 10 und 12. ui = 2 × xi

−5

−4

−3

−2

−1

0

1

2 x

3

4

5

6

7

8

9

10

11

12

u

Abb. 4.9.6: Beobachtungswerte und absolute Abweichungen bei Umskalierung

• Verschiebungsäquivarianz und Verschiebungsinvarianz • Wie anhand von Abbildung 4.9.5 bereits abzusehen ist, wird das arithmetische Mittel der verschobenen Werte stets um die gleiche Verschiebungskonstante c mit verschoben. Im vorliegenden Fall verlagert sich der Schwerpunkt also von 2 auf 11. Diese Eigenschaft lässt sich recht einfach auch allgemein nachweisen. So gilt: u=

1 n 1 n 1 n 1 n 1 ∑ u i = ∑ (x i + c) = ∑ x i + ∑ c = x + nc = x + c. n i=1 n i=1 n i=1 n i=1 n

Auch der Median verlagert sich um den Wert der Verschiebungskonstante von 1 auf 10. Diese Eigenschaft wird als Verschiebungsäquivarianz eines Kennwerts bezeichnet. Allgemein heißt ein empirischer Kennwert M verschiebungsäquivariant („gleich verändernd“), falls M(x1 + c, x2 + c, . . . , x n + c) = M(x1 , x2 , . . . , x n ) + c

für jedes c ∈ ℝ.

Der für die verschobenen Werte berechnete Kennwert M wird um die gleiche Konstante mit verschoben wie die Originalwerte. Aufgrund der Verschiebungsäquivarianz von arithmetischem Mittel und Median bleiben die absoluten Abweichungen zum arithmetischen Mittel bzw. zum Median bei einer Verschiebung unverändert, wie es in Abbildung 4.9.5 anhand der Pfeile illustriert wird. Deshalb ändern sich Streuungskennwerte wie z.B. die mittlere absolute Abweichung vom arithmetischen Mittel oder die mittlere absolute Abweichung vom Median bei einer Verschiebung nicht. Das Gleiche gilt infolgedessen auch für die Varianz, also die mittlere quadratische Abweichung vom arithmetischen Mittel. Die Unveränderlichkeit eines Kennwerts bei Ver-

4.9 Spezifische Eigenschaften empirischer Kennwerte | 111

schiebungen wird als Verschiebungsinvarianz bezeichnet. Allgemein heißt ein empirischer Kennwert M verschiebungsinvariant, falls M(x1 + c, x2 + c, . . . , x n + c) = M(x1 , x2 , . . . , x n )

für jedes c ∈ ℝ gilt.

Auf formale Nachweise soll hier weitgehend verzichtet werden. Im Falle der Varianz fällt ein solcher jedoch recht einfach aus. Es gilt: ̃s2U = =

1 n 1 n ∑ (u i − u)2 = ∑ (x i + c − x − c)2 n i=1 n i=1 1 n ∑ (x i − x)2 = ̃s2X . n i=1

Hier wurde beim zweiten Gleichheitszeichen die zuvor nachgewiesene Verschiebungsäquivarianz des arithmetischen Mittels ausgenutzt. • Skalenäquivarianz und Skaleninvarianz • Im Falle einer Umskalierung ändern sich arithmetisches Mittel und Median um den gleichen Faktor. Werden beispielsweise alle Werte verdoppelt, so verdoppeln sich auch die beiden Lagekennwerte. Im Falle des arithmetischen Mittels lässt sich dies wieder recht einfach nachweisen: u=

1 n 1 n 1 n ∑ u i = ∑ cx i = c ∑ x i = cx. n i=1 n i=1 n i=1

Die betreffende Eigenschaft wird als Skalenäquivarianz bezeichnet. Ein empirischer Kennwert M heißt skalenäquivariant, falls M(cx1 , cx2 , . . . , cx n ) = c M(x1 , x2 , . . . , x n )

für jedes c > 0 gilt.

Arithmetisches Mittel und Median sind beide skalenäquivariant. Die gegenteilige Eigenschaft wird als Skaleninvarianz bezeichnet. Ein empirischer Kennwert M heißt skaleninvariant, falls M(cx1 , cx2 , . . . , cx n ) = M(x1 , x2 , . . . , x n )

für jedes c > 0 gilt.

Wie an Abbildung 4.9.6 bei genauerem Hinsehen erkennbar wird, verdoppeln sich alle absoluten Abweichungen, falls die Beobachtungswerte mit dem Faktor 2 umskaliert werden. Generell ist die mittlere absolute Abweichung vom arithmetischen Mittel skalenäquivariant. Analoges gilt für die mittlere absolute Abweichung vom Median. Die Varianz ist dagegen nicht skalenäquivariant. Werden beispielsweise alle Werte verdoppelt, so vervierfachen sich die quadratischen Abstände. Allgemein erhält man ̃s2U =

1 n 1 n ∑ (u i − u)2 = ∑ (cx i − cx)2 n i=1 n i=1

= c2

1 n ∑ (x i − x)2 = c2 ̃s2X . n i=1

112 | 4 Spezifizierende Beschreibung empirischer Verteilungen

Der konstante Faktor c geht also quadratisch ein. Werden z.B. Größen von Meter in Zentimeter umgerechnet, so ist die Varianz der in Zentimeter gemessenen Größen 1002 = 10 000 mal so groß wie die Varianz der in Meter gemessenen Größen. Für die Standardabweichung folgt dagegen ̃s U = c̃s X . Die Standardabweichung ist folglich skalenäquivariant. • Eigenschaften weiterer Kennwerte • In Abschnitt 4.5.3 erwies sich der Variationskoeffizient als sinnvolle Alternative zur Varianz bzw. Standardabweichung. Wegen der Verschiebungsinvarianz der Standardabweichung und der Verschiebungsäquivarianz des arithmetischen Mittels gilt bei einer Verschiebung folglich: ̃s U ̃s X ̃s X = ≠ + c = ν X + c. u x+c x Bei einer Umskalierung folgt mit der Skalenäquivarianz von Standardabweichung und arithmetischem Mittel: ̃s U c̃s X ̃s X = = = νX . νU = u cx x Demgemäß ist der Variationskoeffizient weder verschiebungsäquivariant noch verschiebungsinvariant. Er ist jedoch skaleninvariant. In seinem Sinne wäre beispielsweise die Streuung der Werte 1, 2 und 3 identisch mit derjenigen der Werte 2, 4 und 6. Genauso einfach lässt sich zeigen, dass Schiefekoeffizient (Abschnitt 4.7) und Gini-Koeffizient (Abschnitt 4.8.2) skaleninvariant sind. Man beachte, dass diese Eigenschaft in beiden Fällen auch inhaltlich erforderlich ist. Ansonsten würde beispielsweise bei der Analyse einer Einkommensverteilung die Stärke der Schiefe und der Konzentration davon abhängen, in welcher Währung gerechnet würde. • Eigenschaften standardisierter Werte • Mit den Transformationseigenschaften des arithmetischen Mittels und der Standardabweichung lässt sich außerdem zeigen, dass z-standardisierte Werte (Abschnitt 4.6) verschiebungs- und skaleninvariant sind. Denn bei einer Verschiebung gemäß u i = x i + c gilt für die transformierten Werte: νU =

u=x+c

bzw.

̃s U = ̃s X .

Daraus folgt zi =

ui − u xi + c − x − c xi − x = = . ̃s U ̃s X ̃s X

Bei einer Umskalierung gemäß u i = cx i gilt dagegen: u = cx

bzw.

̃s U = c̃s X .

4.9 Spezifische Eigenschaften empirischer Kennwerte | 113

Tab. 4.9.1: Transformationseigenschaften empirischer Kennwerte Empirischer Kennwert



VI



SI

Arithmetisches Mittel Median (Quantile) Modalwert Spannweite Quantilsabstände Mittlere absolute Abweichungen MAD Varianz Standardabweichung Variationskoeffizient Quantilskoeffizient der Schiefe Gini-Koeffizient

           

           

           

           

VÄ = verschiebungsäquivariant, VI = verschiebungsinvariant SÄ = skalenäquivariant, SI = skaleninvariant

Daraus folgt entsprechend zi =

u i − u cx i − cx x i − x = = . ̃s U ̃s X c̃s X

Definition 4.9.1: Transformationseigenschaften empirischer Kennwerte Ein empirischer Kennwert M heißt (i) verschiebungsäquivariant, falls für jedes c ∈ ℝ gilt: M(x1 + c, x2 + c, . . . , x n + c) = M(x1 , x2 , . . . , x n ) + c. (ii) verschiebungsinvariant, falls jedes c ∈ ℝ gilt: M(x1 + c, x2 + c, . . . , x n + c) = M(x1 , x2 , . . . , x n ). (iii) skalenäquivariant, falls für jedes c > 0 gilt: M(cx1 , cx2 , . . . , cx n ) = cM(x1 , x2 , . . . , x n ). (iv) skaleninvariant, falls für jedes c > 0 gilt: M(cx1 , cx2 , . . . , cx n ) = M(x1 , x2 , . . . , x n ).

114 | 4 Spezifizierende Beschreibung empirischer Verteilungen

4.9.4 Robustheit • Zum Begriff • Der Begriff der Robustheit wird in der Statistik mal mehr und mal weniger genau definiert. Im Zusammenhang der induktiven Statistik kann man unter Robustheit allgemein eine „Unempfindlichkeit“ gegenüber Abweichungen von in einem Modell geforderten Annahmen verstehen (Büning und Trenkler [1994, S. 295]). Gemeint sind dabei i.d.R. statistische Modelle (Abschnitt 1.2.2). Diese Unempfindlichkeit bezieht sich dabei auf das Ergebnis einer statistischen Analyse. Eine mathematisch präzise Definition der Robustheitseigenschaft in Verbindung mit Möglichkeiten, diese zu quantifizieren, erfolgt im Rahmen der statistischen Schätztheorie (vgl. Büning und Trenkler [1994, Kapitel 11] oder Hartung et al. [2009, Kapitel 14]). In diesem Lehrbuch verstehen wir unter einer robusten Statistik eine solche, die unempfindlich gegenüber Ausreißern ist. Auf eine mathematische Präzisierung verzichten wir. • Robuste und nicht robuste Kennwerte • Wie bereits in Abschnitt 4.2.1 festgestellt wurde, ist das arithmetische Mittel keine robuste Statistik, da sich der physikalische Schwerpunkt der Daten bei Ausreißern stark verlagert. Im Gegensatz dazu ist der Median robust. Zieht ein Vorstandsvorsitzender einer großen Aktiengesellschaft in ein kleines Dorf, so verändert sich mit Sicherheit das Durchschnittseinkommen in diesem Dorf erheblich, nicht aber das entsprechende Medianeinkommen. Tatsächlich lässt sich diese Empfindlichkeit bzw. Unempfindlichkeit auch mit den in den Abschnitten 4.9.1 und 4.9.2 beschriebenen Minimumeigenschaften erklären. Das arithmetische Mittel minimiert die Summe der quadratischen Abweichungen. Der Median minimiert dagegen nur die Summe der absoluten Abweichungen. Deshalb muss sich das arithmetische Mittel auch sehr viel stärker an Ausreißer anpassen als der Median, da doppelt so große Abweichungen quasi vierfach zu Buche schlagen. Ähnliche Sachverhalte gelten auch im Kontext der Streuungskennwerte. Varianz und mittlere absolute Abweichungen sind nicht robust, der MAD dagegen schon. Die Spannweite ist nicht robust, dafür sind es aber die Quantilsabstände.

Tab. 4.9.2: Robustheitseigenschaften empirischer Lage- und Streuungskennwerte Lagekennwerte nicht robust robust Arithmetisches Median Mittel Quantile Modalwert

Streuungskennwerte nicht robust robust Spannweite Quantilsabstände Mittlere absolute MAD Abweichungen Varianz Standardabweichung Variationskoeffizient

4.9 Spezifische Eigenschaften empirischer Kennwerte | 115

• Anmerkungen zur kritischen Verwendung • Ein in einem Dorf wohnhafter Millionär ist bedingt durch sein Vermögen oder Einkommen ein Ausreißer. Er passt statistisch nicht richtig dazu. Das Ergebnis statistischer Analysen wird durch seine Präsenz „gestört“. Ausreißer mit einer solch negativen Konnotation im Sinne einer „Störung“ können sich beispielsweise auch durch fehlerhafte Datenerfassungen ergeben. Untersucht man dagegen die Einkommensverteilung einer Großstadt oder eines ganzen Landes, so liegt es möglicherweise in der Natur der Sache, mit einem gewissen Anteil an Millionären zu rechnen. In einem solchen Fall, sind diese Werte keine Ausreißer, sondern sie gehören zu einem vollständigen statistischen Bild dazu. Es sollte betont werden, dass Robustheit nicht der einzige oder gar nicht einmal der ausschlaggebende Grund sein kann, eine robuste Statistik zu verwenden. Hierfür können auch rein konzeptionelle Gründe vorliegen. Bei der Analyse einer rechtsschiefen Einkommensverteilung etwa liefert der Median nicht zwingend ein „besseres“ Ergebnis als das arithmetische Mittel, sondern er beschreibt zunächst einmal einen inhaltlich anders zu interpretierenden Kennwert. So kann ein „Ausfransen“ einer Verteilung am oberen Ende durchaus als „verteilungstypisch“ erachtet werden und weniger als „Störung“. In der Praxis statistischer Analysen wird man in der Regel (und dies ist auch zu empfehlen) unterschiedliche Lage- und Streuungskennwerte berechnen. Neben den herkömmlichen, meist nicht robusten Lage- und Streuungskennwerten sollten auch stets robuste Alternativen mit berechnet werden. Treten zwischen robusten und nicht robusten Kennwerten erhebliche Unterschiede auf, müssen die Gründe dafür inhaltlich geklärt werden.

5 Beschreibung und Analyse empirischer Zusammenhänge Bei der Analyse empirischer Zusammenhänge geht es darum, Abhängigkeiten zwischen mehreren Merkmalen (Variablen) zu visualisieren und zu quantifizieren. Was man genau unter einem Zusammenhang bzw. einer Abhängigkeit versteht, wurde bereits im einführenden Abschnitt 2.3 eingehend erläutert. Die Ausgangsbasis einer Zusammenhangsanalyse bildet in der Regel ein zwei- oder höherdimensionaler Datensatz. Die Darstellung und Messung von Zusammenhängen zwischen kategorialen (nominal oder ordinal skalierten) Merkmalen wird in Abschnitt 5.1 thematisiert, während in Abschnitt 5.2 metrische Variablen den Schwerpunkt bilden. Die Ausführungen beschränken sich weitgehend auf den zweidimensionalen Fall. In Abschnitt 5.3 finden sich einige ergänzende und vertiefende Themen. Dabei werden unter anderem auch Möglichkeiten zur Analyse gemischter Fälle vorgeschlagen, bei denen ein Merkmal kategorialer und das andere metrischer Natur ist. Ebenso werden einige fortgeschrittene grafische Methoden zur Untersuchung höherdimensionaler Daten vorgestellt und vertiefend wichtige Aspekte bei der Analyse empirischer Zusammenhänge besprochen. Hierzu gehören differenzierte Ausführungen zum Kausalitätsbegriff und die Besprechung wichtiger Aspekte für die Analyse empirischer Zusammenhänge.

5.1 Zusammenhänge zwischen kategorialen Merkmalen

Kontingenztabellen bilden die Ausgangsbasis bei der Analyse von Zusammenhängen zwischen kategorialen Merkmalen. Aus Kontingenztabellen lässt sich die gemeinsame Verteilung der zu untersuchenden Merkmale ablesen, ebenso wie jede Randverteilung. Anhand der bedingten Verteilungen in den Zeilen bzw. Spalten lässt sich beurteilen, ob zwei Merkmale empirisch unabhängig oder abhängig sind. Der Kontingenzkoeffizient nach Pearson ist ein Maß, mit dem sich die Stärke des Zusammenhangs quantifizieren lässt. Er basiert auf dem Chi-Quadrat-Koeffizienten bzw. der mittleren quadratischen Kontingenz. Abhängigkeitsstrukturen zwischen kategorialen Merkmalen werden typischerweise mithilfe von segmentierten oder gruppierten Säulendiagrammen visualisiert.

5.1.1 Kontingenztabellen Verteilungen in Kontingenztabellen • Beispiel 5.1.1 • Angenommen, im Rahmen einer Studie wurden 100 erwachsene Personen im Alter zwischen 18 und 29 Jahren zu deren Raucherstatus befragt. Folgenhttps://doi.org/10.1515/9783110744194-005

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 117

de Tabelle 5.1 fasst das Ergebnis der Befragung zusammen. Demnach waren unter den 100 befragten Personen insgesamt 40 Frauen und 60 Männer, 16 Raucher, 20 Gelegenheitsraucher und 64 Nichtraucher. Unter den Frauen rauchten 4 Frauen regelmäßig, 8 Frauen gelegentlich und 28 Frauen überhaupt nicht. Bei den Männern waren entsprechend 12 Raucher, 12 Gelegenheitsraucher und 36 Nichtraucher. Tab. 5.1.1: Gemeinsame Verteilung von Geschlecht und Raucherstatus Raucher weiblich männlich Summe

Gelegenheitsraucher 4 12 16

Nichtraucher 8 12 20

Summe 28 36 64

40 60 100

• Allgemeines zur Notation • Im Folgenden werden wichtige formale Begriffe mit dazugehöriger Notation eingeführt. Zur Vereinfachung wird zunächst nur vom zweidimensionalen Fall ausgegangen. Die beiden erhobenen Merkmale werden mit lateinischen Großbuchstaben wie z.B. X und Y und die zugehörigen Beobachtungswerte mit x1 , x2 , . . . , x n bzw. y1 , y2 , . . . , y n notiert. Da die beiden Werte x i und y i jeweils zum i-ten Merkmalsträger gehören, werden die (zweidimensionalen) Beobachtungswerte häufig auch in Form von 2-Tupeln (x1 , y1 ), (x2 , y2 ), . . . , (x n , y n ) aufgeschrieben, die entsprechend zum Merkmalsvektor (X, Y) korrespondieren. Die möglichen Ausprägungen der beiden Merkmale werden z.B. mit a1 , . . . , a k bzw. b1 , . . . , b l notiert. Allgemein ergibt sich für die Gestalt einer Kontingenztabelle mit k Ausprägungen des Merkmals X und l Ausprägungen des Merkmals Y dann eine (k × l)-Tabelle, also eine Tabelle mit k Zeilen und l Spalten. Tab. 5.1.2: Allgemeine Gestalt einer Kontingenztabelle Y

b1

b2

...

bj

...

bl

Summe

a1 a2 .. . ai .. . ak

n11 n21 .. . n i1 .. . n k1

n12 n22

... ...

n1j n2j

... ...

n i2

...

n ij

...

n k2

...

n kj

...

n1l n2l .. . n il .. . n kl

n1∙ n2∙ .. . n i∙ .. . n k∙

Summe

n∙1

n∙2

...

n∙j

...

n∙l

n

X

Im obigen Beispiel könnte z.B. X für „Geschlecht“ und Y für „Raucherstatus“ stehen. Im Fall von „Geschlecht“ lauten die möglichen Ausprägungen a1 = weiblich und a2 = männlich.

118 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Bezüglich des Raucherstatus wird zwischen den Ausprägungen b1 = Raucher, b2 = Gelegenheitsraucher und b3 = Nichtraucher unterschieden. • Absolute Verteilungen • Die absolute Häufigkeit der Ausprägungskombination (a i , b j ) wird mit n ij notiert. Im Beispiel gilt etwa n11 = 4 und n23 = 36. Üblicherweise bezeichnet der erste Index also die Zeilennummer und der zweite Index die Spaltennummer einer Tabelle. Die Gesamtheit aller absoluten Häufigkeiten konstituiert die gemeinsame (absolute) Häufigkeitsverteilung der beiden Merkmale X und Y. Im vorliegenden Fall sind dies die Werte n11 = 4, n21 = 12,

n12 = 8, n22 = 12,

n13 n23

= 28, = 36.

Die Summe aller absoluten Häufigkeiten ergibt die Anzahl aller Beobachtungen: k

l

n = ∑ ∑ n ij . i=1 j=1

Im vorliegenden Beispiel mit k = 2 und l = 3 etwa gilt: 2

3

n = ∑ ∑ n ij = n11 + n12 + n13 + n21 + n22 + n23 = 100. i=1 j=1

Die Zeilensummen werden mit n i∙ notiert, die Spaltensummen mit n∙j , wobei l

n i∙ = ∑ n ij

k

bzw.

n∙j = ∑ n ij .

j=1

i=1

Diese Randsummen werden auch als absolute Randhäufigkeiten bezeichnet. In ihrer Gesamtheit konstituieren sie die absoluten Randverteilungen von X bzw. Y. So bilden im obigen Beispiel die Randhäufigkeiten n1∙ = 40

und

n2∙ = 60

die (absolute) Randverteilung von X und n∙1 = 16, n∙2 = 20

und

n∙3 = 64

die (absolute) Randverteilung von Y. • Relative Verteilungen • Die Division der absoluten Häufigkeiten durch die Gesamtanzahl aller Werte führt zu den relativen Häufigkeiten f ij bzw. relativen Randhäufigkeiten f i∙ und f∙j , d.h. n ij n∙j n i∙ f ij = , f i∙ = und f∙j = für i = 1, . . . und j = 1, . . . , l. n n n

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 119

Die Summe aller relativen Häufigkeiten ergibt stets 1: k

l

∑ ∑ f ij = 1. i=1 j=1

Die Gesamtheit aller relativen Häufigkeiten konstituiert die gemeinsame (relative) Häufigkeitsverteilung der beiden Merkmale X und Y. Die Gesamtheit aller relativen Randhäufigkeiten konstituieren die relativen Randverteilungen von X bzw. Y. Tabelle 5.1.3 fasst die gemeinsame relative Verteilung mit zugehörigen relativen Randverteilungen für das obige Beispiel zusammen. Tab. 5.1.3: Gemeinsame relative Verteilung von Geschlecht und Raucherstatus Raucher weiblich männlich Summe

0.04 0.12 0.16

Gelegenheitsraucher 0.08 0.12 0.20

Nichtraucher

Summe

0.28 0.36 0.64

0.40 0.60 1.00

Demnach waren 40% aller befragten Personen weiblich und 60% männlich, 16% waren Raucher, 20% Gelegenheitsraucher und 64% Nichtraucher. Außerdem waren beispielsweise 4% aller Befragten weiblich und gleichzeitig Raucher und 36% männlich und gleichzeitig Nichtraucher. Gemeinsame Verteilung und Randverteilungen (X, Y)

Merkmalsvektor

(x1 , y1 ), . . . , (x n , y n )

zweidimensionale Beobachtungswerte

a1 , a2 , . . . , a k

Ausprägungen von X

b1 , b2 , . . . , b l

Ausprägungen von Y

n ij

Absolute Häufigkeit der Ausprägungskombination (a i , b j )

f ij

Relative Häufigkeit der Ausprägungskombination (a i , b j )

n11 , n12 , . . . , n kl

Gemeinsame absolute Häufigkeitsverteilung von (X, Y)

f11 , f12 , . . . , f kl

Gemeinsame relative Häufigkeitsverteilung von (X, Y)

n i∙ bzw. n∙j

Absolute (Rand-)Häufigkeit der Ausprägung a i bzw. b j

f i∙ bzw. f∙j

Relative (Rand-)Häufigkeit der Ausprägung a i bzw. b j

n1∙ , n2∙ , . . . , n k∙

Absolute Randverteilung (Häufigkeitsverteilung) von X

n∙1 , n∙2 , . . . , n∙l

Absolute Randverteilung (Häufigkeitsverteilung) von Y

f1∙ , f2∙ , . . . , f k∙

Relative Randverteilung (Häufigkeitsverteilung) von X

f∙1 , f∙2 , . . . , f∙l

Relative Randverteilung (Häufigkeitsverteilung) von Y

120 | 5 Beschreibung und Analyse empirischer Zusammenhänge

• Bedingte Verteilungen • Im Zuge der Zusammenhangsanalyse ist es von Interesse, die Verteilung des einen Merkmals bedingt auf Ausprägungen des anderen Merkmals zu bestimmten. Beispielsweise könnte man im vorliegenden Fall das Rauchverhalten separiert nach Geschlecht untersuchen. Hierüber gelangt man zu sog. bedingten Verteilungen. Im Falle der Frauen führt dies beispielsweise zu den (relativen) bedingten Häufigkeiten 4/40 = 0.10 , 8/40 = 0.20 und 28/40 = 0.70. Demgemäß rauchten 10% der Frauen regelmäßig, 20% gelegentlich und 70% überhaupt nicht. Analog erhält man für die Männer: 12/60 = 0.20, 12/60 = 0.20, 36/60 = 0.60. Von den Männern rauchten 20% regelmäßig, 20% gelegentlich und 60% überhaupt nicht. Bedingte Verteilungen erhält man also, indem Häufigkeiten der gemeinsamen Verteilung durch Randhäufigkeiten dividiert werden. Tab. 5.1.4: Verteilung von Raucherstatus bedingt auf Geschlecht Raucher weiblich männlich

0.10 0.20

Gelegenheitsraucher 0.20 0.20

Nichtraucher 0.70 0.60

Summe 1 1

Umgekehrt könnte man auch die Verteilung des Merkmals „Geschlecht“ bedingt auf dem Raucherstatus ermitteln. Dazu müssen im vorliegenden Fall die gemeinsamen Häufigkeiten durch die Spaltensummen, d.h. durch die Randhäufigkeiten des Merkmals „Raucherstatus“, dividiert werden. Tab. 5.1.5: Verteilung von Geschlecht bedingt auf Raucherstatus Raucher weiblich männlich Summe

0.25 0.75 1.00

Gelegenheitsraucher 0.40 0.60 1.00

Nichtraucher 0.4375 0.5625 1.0000

Beispielsweise waren bei den befragten Personen von den Rauchern 25% weiblich und 75% männlich. • Notation für bedingte Verteilungen • Die formale Notation für bedingte Verteilungen in diesem Lehrbuch mag etwas gewöhnungsbedürftig sein. So werden die beX|Y dingten Häufigkeiten von X bedingt auf Y mit f ij notiert, wobei X|Y

f ij

=

n ij n∙j

für i = 1, . . . , k und j = 1, . . . , l.

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 121

Im vorliegenden Fall (Tab. 5.1.1 und 5.1.5) gilt beispielsweise: X|Y

f11 =

n11 4 = 0.25 = n∙1 16

und

X|Y

f22 =

n22 12 = 0.60. = n∙2 20

Die bedingende Ausprägung Y = b j sollte vorkommen, da die bedingten Häufigkeiten von X ansonsten nicht definiert wäre, d.h. n∙j > 0

bzw.

f∙j > 0.

Alternativ lassen sich die bedingten Häufigkeiten auch über die relativen Häufigkeitsverteilungen bestimmen (Tab. 5.1.3): X|Y

f11 0.04 = = 0.25 f∙1 0.16 f11 n11 /n n11 = = = f∙1 n∙1 /n n∙1

f11 = X|Y

f11

X|Y

f22 0.12 = = 0.60, da f∙2 0.20 n22 f22 f22 /n = = = . f∙2 n∙2 /n n∙2

bzw.

f22 =

bzw.

f22

X|Y

Für Y = b j konstituieren die bedingten Häufigkeiten X|Y

X|Y

X|Y

f1j , f2j , . . . , f kj

die bedingte Verteilung von X bedingt auf Y = b j . Analog werden die bedingten Y|X Häufigkeiten von Y bedingt auf X mit f ij notiert, wobei für n i∙ > 0 gilt: Y|X

f ij

=

n ij n i∙

für i = 1, . . . , k und j = 1, . . . , l.

Im vorliegenden Fall ergibt sich etwa (Tab. 5.1.1 und 5.1.4): Y|X

f11 =

n11 4 = = 0.10 n1∙ 40

und

Y|X

f22 =

n22 12 = = 0.20. n2∙ 60

Die bedingten Häufigkeiten Y|X

Y|X

Y|X

f i1 , f i2 , . . . , f il

konstituieren schließlich die bedingte Verteilung von Y bedingt auf X = a i . Der Subindex „ij“ kennzeichnet also die Zelle in der i-ten Zeile und j-ten Spalte der Tabelle, wohingegen durch den Superindex „X|Y“ bzw. „Y|X“ die bedingende Variable deklariert wird. Bedingte Verteilungen X|Y

f ij

=

n ij n∙j

=

n ij n i∙

=

f ij f∙j

=

f ij f i∙

bedingte Häufigkeit von (a i , b j ) bedingt auf Y = b j , wobei n∙j > 0 für alle j

Y|X f ij

bedingte Häufigkeit von (a i , b j ) bedingt auf X = a i , wobei n i∙ > 0 für alle i

X|Y X|Y X|Y f1j , f2j , . . . , f kj Y|X Y|X Y|X f i1 , f i2 , . . . , f il

bedingte Verteilung von X bedingt auf Y = b j bedingte Verteilung von Y bedingt auf X = a i

122 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Empirische Abhängigkeit und Unabhängigkeit • Empirische Abhängigkeit • Wie bereits in Abschnitt 2.3 besprochen wurde, spricht man genau dann von einem empirischen Zusammenhang oder einer empirischen Abhängigkeit zwischen zwei Merkmalen, falls sich die bedingten Verteilungen in den k Zeilen (Zeilenverteilungen) oder die bedingten Verteilungen in den l Spalten (Spaltenverteilungen) unterscheiden. Im Beispiel des vorhergehenden Abschnitts ergibt sich eine solche Situation. So ist beispielsweise der Raucheranteil bei den Männern mehr als doppelt so groß wie bei den Frauen. Abbildung 2.3.3 in Abschnitt 2.3 illustriert die Verteilung des Merkmals „Raucherstatus“ bedingt auf Geschlecht und korrespondiert direkt mit Tabelle 5.1.4. Alternativ zu den Zeilenverteilungen von Tabelle 5.1.1 ließen sich aber auch deren Spaltenverteilungen analysieren. Das segmentierte Säulendiagramm in Abbildung 5.1.1 illustriert die Verteilung des Merkmals „Geschlecht“ bedingt auf dem Raucherstatus und korrespondiert direkt zu Tabelle 5.1.5. Gut zu erkennen ist beispielsweise, dass der Anteil der Männer bei den Rauchern drei Mal so hoch ist wie derjenige der Frauen. 100 80

weiblich

weiblich

weiblich

männlich

männlich

Gelegenheitsraucher

Nichtraucher

60 % 40

männlich

20 0 Raucher

Abb. 5.1.1: Empirische Abhängigkeit von Geschlecht und Raucherstatus

• Frage der Richtung der Abhängigkeit • Welche der beiden bedingenden Betrachtungen (Zeilen- oder Spaltenverteilung) nun vorzuziehen ist, hängt vor allem davon ab, welche Aussage in den Vordergrund gestellt werden soll. Grundsätzlich erscheinen nicht immer beide Alternativen sinnvoll. Angenommen, bei der freiwilligen Befragung zeigten sich Frauen deutlich auskunftsbereiter als Männer. Auf diese Weise wurden Daten von insgesamt 80 Frauen aber nur 20 Männern erfasst. Die Anteile der Geschlechter dürften so nicht mehr repräsentativ sein, wenn man davon ausgeht, dass in etwa gleich viele Frauen und Männer in einer bestimmten Region leben. Bei einer bedingenden Betrachtung auf dem Raucherstatus wären deshalb die Frauenanteile in jeder Kategorie automatisch viel größer als die Männeranteile, was sich möglicherweise irritierend auswirken könnte. Unter solchen Umständen mag eine bedingende Betrachtung auf Geschlecht deshalb sinnvoller sein.

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 123

In vielen Fällen hängt die Auswahl der bedingenden Variablen von der Richtung möglicher Kausalität ab. So mögen im vorliegenden Fall unterschiedliche Einstellungen von Frauen und Männern zum Thema Rauchen zu unterschiedlichen Verhaltensweisen führen. Eine Änderung des Rauchverhaltens dagegen sollte sicherlich nicht zu einer Änderung des Geschlechts führen. In einem solchen Fall eindeutiger kausaler Richtung wird als bedingendes Merkmal meist das verursachende Merkmal gewählt. Das andere Merkmal ist dann das (kausal) abhängige Merkmal. Insofern erscheint im vorliegenden Beispiel eine bedingende Betrachtung auf Geschlecht (Abb. 2.3.3, Abschnitt 2.3) deshalb naheliegender als eine solche auf dem Raucherstatus (Abb. 5.1.1). • Empirische Unabhängigkeit • Besteht zwischen zwei Merkmalen kein empirischer Zusammenhang, so stimmen die Zeilen- bzw. Spaltenverteilungen jeweils überein. Tabelle 5.1.6 zeigt eine derartige Situation empirischer Unabhängigkeit. Tab. 5.1.6: Gemeinsame Verteilung bei Unabhängigkeit Raucher weiblich männlich Summe

Gelegenheitsraucher 10 15 25

Nichtraucher 10 15 25

Summe 20 30 50

40 60 100

Tab. 5.1.7: Verteilung von Raucherstatus bedingt auf Geschlecht bei Unabhängigkeit Raucher weiblich männlich

0.25 0.25

Gelegenheitsraucher 0.25 0.25

Nichtraucher 0.50 0.50

Summe 1 1

Der Anteil von Rauchern beträgt bei Frauen und Männern jeweils 0.25 (10/40 bzw. 15/60), der Anteil von Gelegenheitsrauchern 0.25 und der Anteil von Nichtrauchern 0.50 (Tab. 5.1.7). Andersherum liegt der Anteil der Frauen in jeder Kategorie des Raucherstatus bei 0.4 und die der Männer bei 0.6. Abbildung 5.1.2 illustriert die Verteilung von „Geschlecht“ bedingt auf dem Raucherstatus. In allen Kategorien des Raucherstatus stimmen die Anteile der Geschlechter überein. Zwischen Geschlecht und Raucherstatus besteht kein Zusammenhang. Die Übereinstimmung der bedingten Verteilungen führt zwangsläufig auch zur Übereinstimmung mit den korrespondierenden Randverteilungen. Dies bedeutet, dass von allen befragten Personen 25% Raucher (25/100), 25% Gelegenheitsraucher (25/100) und 50% (50/100) Nichtraucher sind. Ebenso sind 40% der Befragten weiblich (40/100) und 60% männlich (60/100). • Verhältnis zur Kausalität • Man beachte, dass die formale Definition empirischer Abhängigkeit bzw. Unabhängigkeit keinerlei Aussagen in Bezug auf eine Ursache-

124 | 5 Beschreibung und Analyse empirischer Zusammenhänge

100 80

weiblich

weiblich

weiblich

männlich

männlich

männlich

Raucher

Gelegenheitsraucher

Nichtraucher

60 % 40 20 0

Abb. 5.1.2: Empirische Unabhängigkeit von Geschlecht und Raucherstatus

Wirkungs-Beziehung enthält. Weder impliziert empirische Abhängigkeit also eine kausale Beziehung, noch schließt empirische Unabhängigkeit eine solche aus. Nähere Ausführungen zu diesem wichtigen Punkt finden sich in Abschnitt 5.3.3. • Formale Unabhängigkeitskriterien • Zwei Merkmale sind genau dann empirisch unabhängig, falls die bedingten Verteilungen mit den jeweiligen Randverteilungen übereinstimmen. Formal ausgedrückt gilt dann: Y|X

Y|X

Y|X

= f∙l

für i = 1, . . . , k bzw.

X|Y

X|Y

X|Y

= f k∙

für j = 1, . . . , l.

f i1 = f∙1 , f i2 = f∙2 , . . . , f il

f1j = f1∙ , f2j = f2∙ , . . . , f kj

Gemäß Definition bedingter Häufigkeiten resultieren daraus die Kriterien: n ij = f∙j für i = 1, . . . , k, j = 1, . . . , l bzw. n i∙ n ij = f i∙ für i = 1, . . . , k, j = 1, . . . , l. n∙j

(5.1.1) (5.1.2)

Durch Umformung erhält man aus (5.1.1) und (5.1.2). n ij = n i∙ f∙j n ij = n∙j f i∙ .

bzw.

(5.1.3) (5.1.4)

Mit n∙j n i∙ und f i∙ = n n folgt aus (5.1.3) und (5.1.4) jeweils das Kriterium n i∙ n∙j n ij = für alle i und j. (5.1.5) n Die Kriterien (5.1.3) und (5.1.4) bzw. (5.1.1) und (5.1.2) sind folglich äquivalent. Dies bedeutet, dass es unerheblich ist, ob nun die Zeilen- oder die Spaltenverteilungen einer Kontingenztabelle miteinander verglichen werden. Stimmen die Zeilenverteilungen f∙j =

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 125

überein, so auch die Spaltenverteilungen. Stimmen die Zeilenverteilungen hingegen nicht überein, so auch nicht die Spaltenverteilungen. • Tatsächliche und zu erwartende Häufigkeiten • Kriterium (5.1.5) lässt sich anhand der Darstellungen (5.1.3) und (5.1.4) inhaltlich folgendermaßen interpretieren: Auf der linken Seite steht die beobachtete Häufigkeit der Ausprägung (a i , b j ). Der Ausdruck auf der rechten Seite lässt sich als zu erwartende absolute Häufigkeit der Ausprägung (a i , b j ) interpretieren, falls X und Y unabhängig wären. Dazu werfe man nochmals einen Blick in Tabelle 5.1.6. Man betrachte den Fall i = 1 und j = 1. Demnach sind genau 10 Personen weiblich und gleichzeitig Raucher. Der Raucheranteil unter allen Personen beträgt f∙1 = 25/100 = 0.25. Bei Unabhängigkeit müsste der Anteil von Rauchern unter Frauen ebenfalls 25% betragen. Man würde also erwarten, dass von n1∙ = 40 befragten Frauen genau n1∙ × f∙1 = 40 × 0.25 = 10 Frauen rauchen. Tatsächlich ist dies auch der Fall. Insofern ist das Kriterium (5.1.3) zumindest für i = 1 und j = 1 erfüllt. Äquivalent dazu würde man gemäß (5.1.4) erwarten, dass bei einem Frauenanteil von f1∙ = 0.40 unter den Rauchern genau n∙1 × f1∙ = 25 × 0.40 = 10 Frauen sein müssten, sofern Geschlecht und Raucherstatus unabhängig wären. Auch dies ist hier der Fall. Aufgrund der Äquivalenz muss das zwangsläufig auch so sein. • Multiplikationskriterium • Dividiert man beide Seiten von (5.1.5) jeweils durch n, erhält man das Multiplikationskriterium f ij = f i∙ f∙j

für alle i und j.

(5.1.6)

Demnach sind zwei Merkmale genau dann (empirisch) unabhängig, falls sich die gemeinsamen relativen Häufigkeiten aus dem Produkt der relativen Randhäufigkeiten ergibt. Korrespondierend zu Tabelle 5.1.6 zeigt Tabelle 5.1.8 die gemeinsame relative Verteilung von Geschlecht und Raucherstatus. Das Multiplikationskriterium ist für alle Zellen erfüllt: 0.25 ⋅ 0.40 = 0.10, 0.25 ⋅ 0.40 = 0.10,

...,

0.50 ⋅ 0.60 = 0.30.

Tab. 5.1.8: Gemeinsame relative Verteilung bei Unabhängigkeit Raucher weiblich männlich Summe

0.10 0.15 0.25

Gelegenheitsraucher 0.10 0.15 0.25

Nichtraucher 0.20 0.30 0.50

Summe 0.40 0.60 1.00

• Stochastische Unabhängigkeit • Analog zur Unabhängigkeit von Merkmalen wird in der Wahrscheinlichkeitsrechnung die (stochastische) Unabhängigkeit von Zufallsereignissen oder von sog. Zufallsvariablen behandelt (Abschnitt 7.1.2). Zur

126 | 5 Beschreibung und Analyse empirischer Zusammenhänge

deutlicheren Absetzung können deshalb die Zusätze „empirisch“ bzw. „stochastisch“ verwendet werden. Definition 5.1.1: Empirische Abhängigkeit und Unabhängigkeit Gegeben sei eine (k × l)-Kontingenztabelle zweier Merkmale X und Y, wobei die Ausprägungen von X mit den k Zeilen und die Ausprägungen von Y mit den l Spalten der Tabelle korrespondieren. Dann sind folgende Aussagen äquivalent. (i) X und Y sind empirisch unabhängig. (ii) Die Zeilenverteilungen stimmen mit der Randverteilung von Y überein. (iii) Die Spaltenverteilungen stimmen mit der Randverteilung von X überein. (iv) Die absoluten Häufigkeiten stimmen mit den unter Unabhängigkeit zu erwartenden Häufigkeiten überein, d.h. n i∙ n∙j n ij = für alle i und j. n (v) Das Produkt der Randverteilungen ergibt die gemeinsame Verteilung, d.h. f ij = f i∙ f∙j für alle i und j. Trifft eine der fünf Aussagen nicht zu, sind X und Y empirisch abhängig. Man spricht dann auch von einem empirischen Zusammenhang.

Konzeptionelle Vorüberlegungen für ein Zusammenhangsmaß

• Abweichungen von der Unabhängigkeit • Ausgehend von den Erkenntnissen des vorhergehenden Abschnitts kann in einem ersten Schritt Kriterium (5.1.5) herangezogen werden, um die Stärke von Abhängigkeit zu quantifizieren. Besteht zwischen zwei Merkmalen kein Zusammenhang, so entsprechen die tatsächlichen Häufigkeiten den unter Unabhängigkeit zu erwartenden Häufigkeiten, d.h. n i∙ n∙j = 0 für alle i und j. (5.1.7) n ij − n Tabelle 5.1.9 setzt Tabelle 5.1.1 aus Abschnitt 5.1.1 fort. In Klammern sind die bei Unabhängigkeit zu erwartenden Häufigkeiten eingetragen. Darunter stehen die jeweiligen Abweichungen in Fettdruck. Die theoretisch zu erwartenden Häufigkeiten bei Unabhängigkeit ergeben sich beispielsweise für die ersten beiden Zellen als n1∙ n∙1 40 ⋅ 16 = = 6.4 n 100

bzw.

n1∙ n∙2 40 ⋅ 20 = =8 n 100

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 127

Tab. 5.1.9: Tatsächliche und zu erwartende Häufigkeiten mit jeweiligen Abweichungen Raucher weiblich

4 (6.4) −2.4 12 (9.6) 2.4 16

männlich Summe

Gelegenheitsraucher 8 (8) 0 12 (12) 0 20

Nichtraucher 28 (25.6) 2.4 36 (38.4) −2.4 64

Summe 40 60 100

und für die letzte Zelle (2. Zeile, 3. Spalte) als n2∙ n∙3 60 ⋅ 64 = = 38.4. n 100 Sofern Geschlecht und Raucherstatus also unabhängig wären, würde man beispielsweise unter den Frauen 6.4 Raucherinnen erwarten, was dann dem allgemeinen Raucheranteil von 16% entspräche. Tatsächlich sind es aber nur 4 Raucherinnen. Damit weicht die tatsächliche Häufigkeit um −2.4 nach unten hin „von der Unabhängigkeit“ ab. Analog würde man bei den Männern 12 Raucher erwarten. Die Anzahl der Raucher weicht hier um 2.4 nach oben hin ab. Geschlecht und Raucherstatus sind auf jeden Fall abhängig. • Assoziationsplot • Eine grafische Darstellungsmöglichkeit für die Abweichungen (5.1.7) ist der sog. Assoziationsplot (Abb. 5.1.3). Dabei werden die Abweichungen aller Zellen durch nach oben oder unten hin weisende Säulen repräsentiert, deren Flächen proportional zu den Abweichungen sind. Weitere Details dazu finden sich in Abschnitt 5.1.3. Aus einer solchen Grafik lässt sich schnell ersehen, durch welche Kategorien eine bestehende Abhängigkeit am stärksten verursacht wird. Im vorliegenden Beispiel sind dies die Kategorien der Raucher und der Nichtraucher, in denen sich geschlechtsspezifische Unterschiede ergeben, während das Gelegenheitsrauchen keine geschlechtsspezifische Abhängigkeit erkennen lässt. Die beobachteten Häufigkeiten stimmen hier mit den erwartenden Häufigkeiten bei Unabhängigkeit überein, weshalb die Säulen keine Fläche aufweisen und nur minimal angedeutet werden. Raucher

Gelegenheitsraucher

Nichtraucher

weiblich

männlich

Abb. 5.1.3: Assoziationsplot der Abweichungen von der Unabhängigkeit

128 | 5 Beschreibung und Analyse empirischer Zusammenhänge

• Summe aller absoluten Abweichungen • Da diese „Abweichungen von der Unabhängigkeit“ betragsmäßig umso größer ausfallen je stärker die zu erwartenden Häufigkeiten von den tatsächlichen beobachteten Häufigkeiten abweichen, liegt es nahe, diese in ein Maß zur Quantifizierung der Abhängigkeit einfließen zu lassen. Die Summe aller Abweichungen wäre als Maß für die Stärke der Abhängigkeit allerdings nicht geeignet, da diese stets 0 ist: l

k

∑ ∑ (n ij − i=1 j=1

k l k l n i∙ n∙j n i∙ n∙j ) = ∑ ∑ n ij − ∑ ∑ n n i=1 j=1 i=1 j=1 k

l

=n−n∑∑ i=1 j=1 k

k l n i∙ n∙j = n − n ∑ ∑ f i∙ f∙j n⋅n i=1 j=1 l

= n − n ( ∑ f i∙ ) ( ∑ f∙j ) = 0. i=1 j=1 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ =1

=1

Deshalb erscheint es allenfalls sinnvoll, die Summe aller absoluten Abweichungen k l 󵄨 n i∙ n∙j 󵄨󵄨 󵄨 󵄨󵄨 S A = ∑ ∑ 󵄨󵄨󵄨n ij − 󵄨 n 󵄨󵄨 i=1 j=1

zu verwenden. Im vorliegenden Fall etwa ergäbe dies S A = 2.4 + 0 + 2.4 + 2.4 + 0 + 2.4 = 9.6. Durchgesetzt hat sich dieses Maß allerdings nicht.

5.1.2 Zusammenhangsmaße für Kontingenztabellen Chi-Quadrat-Koeffizient • Definition und Rechenbeispiel • Theoretisch fundiert und in der Praxis weit verbreitet ist der auf Karl Pearson [1900a, 1904] zurückgehende Chi-QuadratKoeffizient, definiert als k

l

χ2 = ∑ ∑

n i∙ n∙j 2 n ) , n i∙ n∙j n

(n ij −

i=1 j=1

wobei n i∙ > 0 und n∙j > 0 für alle i und j.

Im Falle von Tabelle 5.1.9 berechnet sich der Koeffizient als (−2.4)2 02 2.42 2.42 02 (−2.4)2 + + + + + = 1.875. 6.4 8 25.6 9.6 12 38.4 Seine konkrete Ausgestaltung begründet sich auf tiefergehenden inferenzstatistischen und wahrscheinlichkeitstheoretischen Überlegungen, die an dieser Stelle nicht detailliert besprochen werden können. Kurze Anmerkungen mögen genügen. Jedoch lassen sich einzelne Bestandteile inhaltlich durchaus deuten. χ2 =

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 129

• Interpretation • Der Chi-Quadrat-Koeffizient ist offensichtlich gleich 0, falls keine Abhängigkeit besteht. Er fällt umso größer aus, je stärker die Abweichungen insgesamt sind, wobei die zuvor betrachteten „Abweichungen von der Unabhängigkeit“ innerhalb des Koeffizienten quadratisch eingehen. Dieses Quadrieren erweist sich als vorteilhaft ähnlich wie bei der Varianz, bei der die quadratischen Abweichungen und nicht die absoluten Abweichungen vom arithmetischen Mittelwert verrechnet werden. Im Rahmen der Streuungskennwerte in Kapitel 4 wurde ja bereits festgehalten, dass in der Statistik quadratische Abweichungen absoluten Abweichungen häufig vorgezogen werden, da sich hierdurch häufig eine einfacher zu handhabende Gesamtarithmetik ergibt. Ein entscheidender Schritt besteht außerdem darin, die quadratischen Abweichungen ins Verhältnis zu den erwarteten Häufigkeiten zu setzen, also durch die Terme n i∙ n∙j n zu dividieren. Dadurch werden identische Abweichungen bei größeren Randhäufigkeiten kleiner gewichtet. Dies erscheint insofern auch inhaltlich sinnvoll, da eine bestimmte Abweichung bei einer bereits hohen zu erwartenden Häufigkeit relativ betrachtet weniger bedeutend sein sollte. Man beachte, dass der Konzeption des Variationskoeffizienten eine recht ähnliche Überlegung zugrunde liegt. Im vorliegenden Beispiel etwa fließen die Abweichungen der 1. Zeile von Tabelle 5.1.9 aufgrund der kleineren Randhäufigkeit bezüglich Geschlecht also etwas stärker in den Koeffizienten ein als die betragsmäßig gleich großen Abweichungen der 2. Zeile. • Wertebereich • Mit einigem Aufwand kann gezeigt werden (vgl z.B. Pawlik [1959]), dass sich der Wertebereich des Chi-Quadrat-Koeffizienten auf das Intervall [ 0, (M − 1) × n] erstreckt, wobei M = min(k, l) das Minimum aus Zeilen- und Spaltenanzahl ist. Der theoretische Maximalwert ist somit nicht beschränkt und hängt sowohl von der Dimension der Tabelle als auch von der Anzahl der Beobachtungen ab. Bei einer (6 × 4)Tabelle und n = 250 Beobachtungen wäre der theoretische Maximalwert beispielsweise (4 − 1) × 250 = 750, im vorliegenden Fall einer (2 × 3)-Tabelle und n = 100 Beobachtungen hingegen (2 − 1) × 100 = 100. Vor diesem Hintergrund erscheint hier eine ermittelte Abhängigkeit von χ2 = 1.875 nur „sehr schwach“. Man beachte in diesem Zusammenhang jedoch die Anmerkungen zur „Einordnung von Stärken“ am Ende dieses Abschnitts. • Maximale Abhängigkeit in nichtquadratischen Tabellen • Tabelle 5.1.10 zeigt eine Situation maximaler Abhängigkeit (Kontingenz) mit χ2 = 100. Hierbei liegen keinerlei Überschneidungen der beiden Geschlechter hinsichtlich des Rauchverhaltens vor. Pawlik [1959] zeigt, dass für l ≥ k (Spaltenanzahl größer oder gleich Zeilenanzahl) maximale Kontingenz genau dann und nur dann erreicht wird, falls in jeder

130 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Spalte genau eine und nur eine Zelle positiv besetzt ist. Davon unberührt bleibt die Voraussetzung, dass es keine „Leerzeilen“ geben darf, d.h. n i∙ > 0, für i = 1, . . . , k. Tab. 5.1.10: Beispiel maximaler Abhängigkeit in nichtquadratischer Tabelle Raucher weiblich männlich Summe

Gelegenheitsraucher 0 30 30

Nichtraucher 0 30 30

Summe 40 0 40

40 60 100

• Maximale Abhängigkeit in quadratischen Tabellen • Im Falle quadratischer Kontingenztabellen (k = l), liegt maximale Abhängigkeit genau dann vor, falls von der Ausprägung des einen Merkmals direkt und eindeutig auf die Ausprägung des anderen Merkmals geschlossen werden kann. Dies bedeutet, dass alle von 0 verschiedenen Häufigkeiten in einer Diagonalstruktur angeordnet sind oder sich in eine solche durch Spalten- oder Zeilenvertauschungen anordnen lassen. Tabelle 5.1.11 illustriert dieses Kriterium der „Diagonalisierbarkeit“ anhand einer (4 × 4)-Tabelle. Tab. 5.1.11: Maximale Abhängigkeit in quadratischer Tabelle a1 a2 a3 a4 Summe

b1 n11 > 0 0 0 0 n∙1 = n11

b2 0 n22 > 0 0 0 n∙2 = n22

b3 0 0 n33 > 0 0 n∙3 = n33

b4 0 0 0 n44 > 0 n∙4 = n44

Summe n1∙ = n11 n2∙ = n22 n3∙ = n33 n4∙ = n44 n

• Berechnungsformel für (2 × 2)-Tabellen • Mit etwas Mühe lässt sich zeigen, dass sich die Formel des Chi-Quadrat-Koeffizienten im Falle von (2×2)-Tabellen in gewisser Weise vereinfacht. Für k = l = 2 gilt: χ2 =

n(n11 n22 − n12 n21 )2 . n∙1 n∙2 n1∙ n2∙

(5.1.8)

Sofern man beispielsweise in Tabelle 5.1.9 der vorhergehenden Abschnitts die Kategorie der Nichtraucher augenblicklich ignoriert, ergibt sich für die verbleibende (2 × 2)Tabelle mit noch insgesamt 36 Beobachtungswerten ein Koeffizient von 36(4 ⋅ 12 − 12 ⋅ 8)2 = 0.9. 16 ⋅ 20 ⋅ 12 ⋅ 24 Bei einem theoretischen Maximalwert von (M − 1) ⋅ n = (2 − 1) ⋅ 36 = 36, erscheint die Präferenz zwischen regelmäßigem und gelegentlichem Rauchen bei Männern und Frauen nicht stark verschieden. χ2 =

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 131

• Zwischenschritt zum Kontingenzkoeffizienten • Als rein deskriptives Maß ist der Chi-Quadrat-Koeffizient von eher untergeordneter Bedeutung. Vielmehr wird er häufig nur als Zwischenschritt in der Berechnung des (korrigierten) Kontingenzkoeffizienten nach Pearson verwendet. Seine eigentliche Verwendung findet er jedoch als Teststatistik im Rahmen des Chi-Quadrat-Unabhängigkeitstests (Abschnitt 11.3.3). Mit auf Wahrscheinlichkeitskalkül basierenden Überlegungen lassen sich dabei seine Werte vor dem Hintergrund statistischer Probleme sinnvoll einordnen und interpretieren. Chi-Quadrat-Koeffizient Gegeben sei eine (k × l)-Kontingenztabelle der absoluten Häufigkeiten n ij mit positiven Randhäufigkeiten, d.h. n i∙ > 0 und n∙j > 0

für alle i = 1, . . . , k und j = 1, . . . , l.

Dann ist der Chi-Quadrat-Koeffizient definiert als k

l

2

χ =∑∑

n i∙ n∙j 2 n ) n i∙ n∙j n

(n ij −

i=1 j=1

.

Speziell für (2 × 2)-Tabellen gilt: χ2 =

n(n11 n22 − n12 n21 )2 . n∙1 n∙2 n1∙ n2∙

Es gilt: χ2 ∈ [0, (M − 1) ⋅ n], wobei M = min(k, l).

Mittlere quadratische Kontingenz • Definition und Rechenbeispiel • Das von Karl Pearson [1904, S. 6] als mittlere quadratische Kontingenz („mean square contingency“) bezeichnete Maß ϕ2 (lies: Phi Quadrat) ergibt sich unmittelbar aus dem Chi-Quadrat-Koeffizienten bei Division durch n: 1 ϕ2 = χ2 . n Es gilt: n n

2

i∙ ∙j k l ( n k l (n ij − n ) 1 2 = χ = 2 ∑∑ ∑ ∑ n i∙ n∙j n n i=1 j=1 i=1 j=1 n

k

l

2

(f ij − f i∙ f∙j ) . f i∙ f∙j i=1 j=1

=∑∑

n ij n

n i∙ n∙j 2 n⋅n ) n i∙ n∙j n⋅n



132 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Prinzipiell genügt zur Bestimmung der mittleren quadratischen Kontingenz die Kenntnis der gemeinsamen relativen Verteilung der beiden Merkmale. Setzt man das Beispiel des vorigen Abschnitts fort, so erhält man ϕ2 =

1 2 1.875 χ = = 0.01875. n 100

• Wertebereich und Interpretation • Aus den vorhergehenden Ausführungen zum Chi-Quadrat-Koeffizienten folgt unmittelbar als Wertebereich [ 0, M − 1] Der maximale Wert des ϕ2 -Koeffizienten ist k − 1, falls k ≤ l bzw. l − 1, falls l ≤ k. Bei einer (2 × 3)-Tabelle wie in Tabelle 5.1.9 würde ein Wert von 1 somit einer Situation maximaler Abhängigkeit entsprechen. Da der Wertebereich nur noch von den Dimensionen der Tabelle abhängt, lassen sich Zusammenhänge nun auch über verschiedene gleichdimensionierte Tabellen hinweg vergleichen. Hinsichtlich der Interpretation ergibt sich somit kein Unterschied zum ChiQuadrat-Koeffizienten. Die Summe aller Abweichungsterme wird lediglich auf alle Beobachtungswerte ähnlich wie bei einer Durchschnittsbetrachtung umgelegt. Mittlere quadratische Kontingenz Die mittlere quadratische Kontingenz ist definiert als 2

ϕ2 =

k l (f ij − f i∙ f∙j ) 1 2 . χ =∑∑ n f i∙ f∙j i=1 j=1

Dabei bezeichnet χ2 den Chi-Quadrat-Koeffizienten. Es gilt: ϕ2 ∈ [0, (M − 1)], wobei M = min(k, l).

Kontingenzkoeffizient nach Pearson • Definition und Wertebereich • Der ebenfalls von Karl Pearson [1904, S. 9] vorgeschlagene Kontingenzkoeffizient („first coefficient of contingency“) ist das wohl bekannteste Maß zur Quantifizierung von Abhängigkeit in Kontingenztabellen. Er baut direkt auf dem Chi-Quadrat-Koeffizienten bzw. der mittleren quadratischen Kontingenz und ist definiert als C=√

χ2 ϕ2 √ = . χ2 + n ϕ2 + 1

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 133

Es ist schnell ersichtlich, dass der Wert des Kontingenzkoeffizienten stets kleiner 1 ist. Aus den Erkenntnissen des vorhergehenden Abschnitts ergibt sich unmittelbar C ∈ [0, √(M − 1)/M],

wobei M = min(k, l).

Der theoretische Maximalwert des Kontingenzkoeffizienten strebt für wachsende Zeilen- und Spaltenanzahl gegen 1. Im Falle einer (2 × 3)-Tabelle wäre der Wertebereich von C [0, √1/2] ≈ [0.0.7071], bei einer (6 × 4)-Tabelle dagegen [0, √3/4] ≈ [0.0.8660]. • Korrigierter Kontingenzkoeffizient • Um im Falle maximaler Abhängigkeit den Wert 1 zu erhalten, muss der Kontingenzkoeffizient lediglich mit dem Kehrwert des theoretischen Maximalwertes multipliziert werden. Diese Modifikation führt zum korrigierten Kontingenzkoeffizienten C K = C√ M/(M − 1)

mit Wertebereich [0, 1].

Der Wertbereich des korrigierten Koeffizienten ist nun sowohl von der Anzahl der Beobachtungen als auch von der Dimension der Tabelle unabhängig. Abhängigkeiten auch unterschiedlich dimensionierter Tabellen lassen sich direkt vergleichen. • Beispiel 5.1.2 • Zusammenfassend erhält man beispielsweise für die Daten aus Tabelle 5.1.9 den Wert χ2 = 1.875. Da die Daten auf insgesamt n = 100 Beobachtungen beruhen, folgt weiter C=√

χ2 1.875 =√ ≈ 0.1357. 1.875 + 100 χ2 + n

Mit M = min(k, l) = min(2, 3) = 2 ergibt sich schließlich C K = C√ M/(M − 1) = 0.1357 ⋅ √2/1 ≈ 0.1919. • Interpretation • Der korrigierte Kontingenzkoeffizient ist gleich 0, falls keine Abhängigkeit vorliegt. Im Falle maximaler Abhängigkeit ist er gleich 1. Je näher der Wert bei 1 liegt, desto stärker ist der Zusammenhang ausgeprägt. Ohne Weiteres wird jedoch nicht ersichtlich, worauf die konkrete Gestalt des (korrigierten) Koeffizienten begründet ist. Tatsächlich stellte Pearson über die bivariate Normalverteilung eine theoretische Verbindung zwischen Kontingenzkoeffizient und Korrelationskoeffizient (Abschnitt 5.2.2) her. Letzteres Zusammenhangsmaß, das er bereits 1896 eingeführt hatte, ist heute noch das bedeutendste überhaupt. Wie auch beim Chi-Quadrat-Koeffizienten und bei der mittleren quadratischen Kontingenz lässt sich anhand des Wertes des (korrigierten) Kontingenzkoeffizienten nicht ersehen, in welcher Weise zwei Merkmale zusammenhängen. Ein von 0 verschiedener Wert deutet lediglich darauf hin, dass sich

134 | 5 Beschreibung und Analyse empirischer Zusammenhänge

die bedingten Verteilungen unterscheiden. Eine eingehende Interpretation stützt sich deshalb auch immer auf eine genaue Analyse der bedingten Verteilungen der Tabelle bzw. Studium unterstützender Grafiken (Abschnitt 5.1.3). • Anmerkung zur Einordnung der Stärke von Zusammenhängen • Bezogen auf den theoretischen Maximalwert von 1 könnte man im vorliegenden Beispiel mit C K = 0.19 von einer schwach ausgeprägten Abhängigkeit sprechen. Was als „schwache“ oder „starke“ Abhängigkeit zu beurteilen ist, hängt jedoch stets vom jeweiligen fachlichen Kontext ab. So mag die empirische Feststellung, dass der Anteil von Rauchern unter Männern doppelt so groß ist wie unter Frauen in Fachkreisen durchaus relevant und wichtig sein, auch wenn der Abgleich des Chi-Quadrat-Koeffizienten mit dem theoretischen Maximalwert zu einem anderen Ergebnis führt. Wichtiger und sinnvoller als eine bloße numerische Einordnung ist deshalb häufig die Frage, wie relevant gemessene Unterschiede und Abhängigkeiten tatsächlich sind. Deshalb macht es nach unserem Dafürhalten auch keinen Sinn, Begriffe wie „schwach“, „mittelstark“ oder „stark“ anhand einer zugrunde liegenden numerischen Werteskala zu definieren. Kontingenzkoeffizient nach Pearson Gegeben sei eine (k × l)-Kontingenztabelle der absoluten Häufigkeiten n ij mit positiven Randhäufigkeiten, d.h. n i∙ > 0 und n∙j > 0

für alle i = 1, . . . , k und j = 1, . . . , l.

Dann ist der Kontingenzkoeffizient nach Pearson definiert als χ2 ϕ2 C=√ 2 =√ 2 , χ +n ϕ +1

k

l

2

wobei χ = ∑ ∑ i=1 j=1

n i∙ n∙j 2 n ) n i∙ n∙j n

(n ij −

Es gilt C ∈ [0, √(M − 1)/M], wobei M = min(k, l). Der korrigierte Kontingenzkoeffizient nach Pearson ist definiert als C K = C√ M/(M − 1) Es gilt: C K ∈ [0, 1].

Transformationseigenschaften der Zusammenhangsmaße • Invarianz gegenüber Zeilen- und Spaltenvertauschungen • Es sollte einleuchten, dass der Chi-Quadrat-Koeffizient unverändert bleibt, sofern man die Kategorien der zugrunde liegenden Kontingenztabelle in den Zeilen oder Spalten anders anordnet. Man könnte beispielsweise in Tabelle 5.1.9 (Abschnitt 5.1.1) die Kategorie „männ-

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 135

lich“ genauso so gut auch in der ersten und die Kategorie „weiblich“ in der zweiten Zeile unterbringen. Diese Invarianz des Chi-Quadrat-Koeffizienten gegenüber Zeilen- und Spaltenvertauschungen wird auch an alle abgeleiteten Maße wie die mittlere quadratische Kontingenz oder den Kontingenzkoeffizienten (nichtkorrigiert oder korrigiert) weitervererbt. • Äquivarianz des Chi-Quadrat-Koeffizienten gegenüber Multiplikationen • Ein weiterer wichtiger Gesichtspunkt ist die Frage, ob ein Zusammenhangsmaß invariant gegenüber Multiplikationen ist. Dazu betrachte man als einfaches Beispiel zunächst folgende beiden Kontingenztabellen. Tab. 5.1.12: Gleichstarker Zusammenhang bei unterschiedlichen Besetzungshäufigkeiten weiblich männlich

Raucher 10 20

Nichtraucher 90 80

Raucher 1 2

weiblich männlich

Nichtraucher 9 8

In der linken Tabelle liegen insgesamt 200 Beobachtungen vor, in der rechten Tabelle lediglich 20 Beobachtungen. Man erhält die Häufigkeiten der linken Tabelle, indem man die gesamte rechte Tabelle mit 10 multipliziert. Die gemeinsame relative Verteilung ist völlig identisch. Dadurch stimmen die bedingten Verteilungen von linker und rechter Tabelle überein. So beträgt der Raucheranteil sowohl links als auch rechts 10% bei den Frauen und 20% bei den Männern. Aufgrund der größeren Häufigkeiten auf der linken Seite ergeben sich dort jedoch auch größere erwartete Häufigkeiten und dadurch größere Abweichungen. Der Chi-Quadrat-Koeffizient beträgt rechts 3.921569 und links 39.21569. Damit ist χ2 wie auch jede einzelne Häufigkeit links 10 Mal so groß wie rechts. Das ist natürlich kein Zufall. Sofern alle Häufigkeiten n ij einer (k × l)-Kontingenztabelle mit c > 0 multipliziert werden, resultieren daraus Randhäufigkeiten cn i∙ und cn∙j die ebenfalls c Mal so groß sind. Insgesamt liegen dann auch c Mal so viele Beobachtungen vor. Nun gilt aber für jedes c > 0: k

l

∑∑ i=1 j=1

cn i∙ cn∙j 2 cn ) cn i∙ cn∙j cn

(cn ij −

k

l

=c∑∑ i=1 j=1

n i∙ n∙j 2 n ) n i∙ n∙j n

(n ij −

= cχ2 .

Der Chi-Quadrat-Koeffizient der mit c durchmultiplizierten Tabelle ist folglich c Mal so groß wie zuvor. Damit ist der Chi-Quadrat-Koeffizient äquivariant („gleich verändernd“) gegenüber Multiplikationen der Tabelle mit positiven Konstanten. • Invarianz aller anderen Maße gegenüber Multiplikationen • Die mittlere quadratische Kontingenz ist jedoch invariant („nicht verändernd“) gegenüber solchen Multiplikationen. Dies ergibt sich aus der Tatsache, dass diese von den absoluten Häufigkeiten unabhängig ist und auch allein unter Kenntnis der relativen Häufigkeiten

136 | 5 Beschreibung und Analyse empirischer Zusammenhänge

berechnet werden kann. So gilt: 2

k l (f ij − f i∙ f ∙j ) 1 . ϕ = χ2 = ∑ ∑ n f i∙ f∙j i=1 j=1 2

Wegen C=√

χ2 ϕ2 =√ 2 +n ϕ +1

χ2

überträgt sich die Invarianz der mittleren quadratischen Kontingenz auch auf den Kontingenzkoeffizienten (nichtkorrigiert oder korrigiert). Im vorliegenden Beispiel erhält man deshalb sowohl in der linken als auch in der rechten Tabelle C K = 0.2863. • Invarianz und statistisches Problem • Dies bedeutet, dass bei identischer relativer Verteilung stets der gleiche Kontingenzkoeffizient ermittelt wird, selbst bei höchst unterschiedlicher Anzahl von Beobachtungswerten. Vor dem Hintergrund, dass relative Besetzungshäufigkeiten bei kleinerer Anzahl von Beobachtungswerten weniger „aussagekräftig“ sein sollten, mag diese Tatsache sicherlich nicht zufriedenstellend sein. So könnten die Abweichungen der beiden Zeilenverteilungen in der rechten Tabelle ja rein „zufällig“ sein. Die Vermutung, dass im rechten Fall möglicherweise keine Abhängigkeit vorliegt, lässt sich anhand der wenigen Daten nicht entkräften. Es ergibt sich damit ein statistisches Problem (vgl. Abschnitt 1.2.2). Die induktive Statistik (Teil 3) stellt hier unter der Verwendung der Wahrscheinlichkeitstheorie einen hilfreichen Methodenapparat zur Verfügung, mit dem sich statistische Maße auch vor dem Hintergrund der Stichprobengröße sinnvoll interpretieren lassen. Im vorliegenden Fall ist insbesondere auf den Chi-Quadrat-Unabhängigkeitstest (Abschnitt 11.3.3) zu verweisen. Invarianzeigenschaften der Zusammenhangsmaße Gegeben sei eine (k × l)-Kontingenztabelle der absoluten Häufigkeiten n ij mit positiven Randhäufigkeiten, d.h. n i∙ > 0 und n∙j > 0

für alle i = 1, . . . , k und j = 1, . . . , l.

χ2 ,

mittlere quadratische Kontingenz ϕ2 und Kontin(i) Chi-Quadrat-Koeffizient genzkoeffizient (C und C K ) sind invariant gegenüber Zeilen- und Spaltenvertauschungen. (ii) Gegenüber einer Multiplikation aller Häufigkeiten n ij mit c > 0 erweist sich χ2 als äquivariant. Die Maße ϕ2 , C und C K sind dagegen invariant.

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 137

5.1.3 Grafische Analysemöglichkeiten Gestapelte und gruppierte Säulendiagramme • Konzept und Beispiel • Die grafische Darstellung von Verteilungen in Kontingenztabellen erfolgt typischerweise mithilfe von Säulendiagrammen. Die konkrete Gestaltung hängt davon ab, welche Erkenntnisse jeweils in den Vordergrund gestellt werden sollen. In einem gestapelten Säulendiagramm werden die absoluten Häufigkeiten der einzelnen Kategorien übereinander, in einem gruppierten Säulendiagramm nebeneinander dargestellt. Abbildung 5.1.4 zeigt die absolute Häufigkeitsverteilung der beiden Merkmale „Geschlecht“ und „Art der Straftat“ in Deutschland verurteilter Deutscher und Ausländer für das Jahr 2012 mit angefügter Kodierung (Quelle: Statistisches Bundesamt). 200 000

200 000 männlich weiblich

175 000 150 000

175 000 150 000

125 000

125 000

100 000

100 000

75 000

75 000

50 000

50 000

25 000

25 000

0

S DU BU VA K PA BM Ü

0 S

DU

BU

VA

K

PA

BM

Ü

weiblich

männlich

Daten: Statistisches Bundesamt [2014c] Abb. 5.1.4: Gestapeltes und gruppiertes Säulendiagramm für absolute Häufigkeitsverteilungen

S

Straftaten im Straßenverkehr

DU

Diebstahl und Unterschlagung

BU

Betrug und Urkundenfälschung

VA

Andere gegen das Vermögen (Raub, Erpressung, Begünstigung, Hehlerei, Sachbeschädigung, usw.)

K

Körperverletzung

PA

Andere gegen die Person (Mord, Totschlag, gegen die sexuelle Bestimmung, Beleidigung, usw.)

BM

Straftaten gegen das Betäubungsmittelgesetz

Ü

Übrige Straftaten

• Stapelung vs. Gruppierung • Die Stapelung bringt den Vorteil mit sich, die Randverteilung eines Merkmals direkt ablesen zu können. Im vorliegenden Fall wird dadurch beispielsweise schnell ersichtlich, dass Straftaten im Straßenverkehr und Dieb-

138 | 5 Beschreibung und Analyse empirischer Zusammenhänge

stahldelikte zu den häufigsten zählen. Mit der Gruppierung lässt sich dagegen die zahlenmäßige Reihenfolge der einzelnen Delikte innerhalb der beiden Geschlechter einfacher bestimmen. Insbesondere bei den Männern würde eine solche Bestimmung in der gestapelten Variante nämlich deutlich schwerer fallen. Aus der gruppierten Variante geht schnell hervor, dass Männer am häufigsten für Straftaten im Straßenverkehr und Frauen am häufigsten für Diebstahl und Unterschlagung verurteilt wurden. Insgesamt fällt die Reihenfolge für die beiden Geschlechter verschieden aus. Dass der überwiegende Teil der Straftaten in allen Kategorien von Männern begangen wird, lässt sich jedoch aus beiden Darstellungen gleichermaßen deutlich ersehen.

Segmentierte Säulen- und Balkendiagramme Fallen wie im vorliegenden Beispiel die Randhäufigkeiten eines Merkmals sehr unterschiedlich aus, fällt es allgemein schwer, bestehende Abhängigkeitsstrukturen abzulesen. In solchen Situationen ist es besser, die bedingten Verteilungen anhand segmentierter Säulen- oder Balkendiagramme (horizontales Säulendiagramm) darzustellen. Im Falle zweier Merkmale bestehen dabei immer zwei Möglichkeiten zu bedingen (Abb. 5.1.5). 100 80 %

männlich

60 40 weiblich

20 0 S

DU

BU

VA

männlich

K

PA

BM

Ü

weiblich

0

20 S DU

40 BU VA

60 K PA

80

100

BM Ü

Daten: Statistisches Bundesamt [2014c] Abb. 5.1.5: Segmentiertes Säulen- und Balkendiagramm für bedingte Verteilungen

Da Männer in allen Kategorien viel öfter Straftaten begehen, oder jedenfalls für solche verurteilt werden, mag im vorliegenden Fall eine bedingende Betrachtung auf der Art der Straftat weniger interessant sein als eine Darstellung des geschlechtsspezifischen Musters. Die unterschiedlichen geschlechtsspezifischen Profile können so leichter verglichen werden. Der korrigierte Kontingenzkoeffizient von Geschlecht und Straftat beträgt hier C K = 0.2507.

Assoziationsplots • Konzept • Zwischen zwei Merkmalen besteht genau dann eine empirische Abhängigkeit, falls sich die bedingten Verteilungen unterscheiden (Abschnitt 5.1.1). Die „Ab-

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 139

weichungen von der Unabhängigkeit“ werden dabei durch die Differenzen n i∙ n∙j n ij − n erfasst, die in den Chi-Quadrat-Koeffizienten in Form der Summanden n i∙ n∙j 2 n ) n i∙ n∙j n

(n ij −

(5.1.9)

(5.1.10)

eingehen (Abschnitt 5.1.2). Eng verwandt dazu sind die sog. Pearson-Residuen n i∙ n∙j n √ n i∙nn∙j

n ij −

.

(5.1.11)

Der auf Cohen [1980] zurückgehende und von Friendly [1992] weiter entwickelte Assoziationsplot stellt die Pearson-Residuen in Form von Säulen dar (Abb. 5.1.6). Je nach Vorzeichen der Residuen zeigen die Säulen entsprechend nach oben oder unten. Die Höhen der Säulen sind dabei proportional zu den absoluten Beträgen der PearsonResiduen, die Breiten sind proportional zu den Termen im Nenner n i∙ n∙j . (5.1.12) n Dadurch sind die Flächen der Säulen proportional zu den absoluten Beträgen der Abweichungen (5.1.9). Die Intention des Assoziationsplots besteht darin, die Unterschiede der bedingten Verteilungen herauszustellen. √

• Beispiel 5.1.3 • Aus Abbildung 5.1.6 geht schnell hervor, dass bei Frauen Straftaten im Zusammenhang von Diebstahl, Unterschlagung, Betrug und Urkundenfälschung (Vermögensdelikte) verhältnismäßig stark und bei Männern verhältnismäßig schwach vertreten sind. Bei Männern lassen sich Abweichungen nach oben hin vor allem im Bereich Gewalt (Körperverletzung, Mord, Sexualdelikte usw.) oder im Zusammenhang des Betäubungsmittelgesetzes feststellen. Aus den Breiten der Säulen geht hervor, dass die zu erwartenden Häufigkeiten bzw. die Wurzel aus diesen, (5.1.12), bei den Männern deutlich größer sind als bei den Frauen. Dies liegt daran, dass Männer viel mehr Straftaten begehen als Frauen. Ein weiteres anschauliches Beispiel findet sich in Abschnitt 5.3.2 (Abb. 5.3.11).

Mosaikplots • Konzept • Die von Hartigan und Kleiner [1981, 1984] vorgeschlagenen und von Friendly [1994] weiter entwickelten Mosaikplots, beinhalten eine Art segmentierter Säulen- oder Balkendiagramme, wobei die Breiten der Säulen bzw. Balken der relativen Häufigkeitsverteilung eines der beiden Merkmale entsprechen. Die Flächen der einzelnen Segmente korrespondieren dann direkt mit der gemeinsamen Verteilung

140 | 5 Beschreibung und Analyse empirischer Zusammenhänge

S

DU

BU

VA

K

PA

BM

Ü

weiblich

männlich

Daten: Statistisches Bundesamt [2014c] Abb. 5.1.6: Assoziationsplot für Abweichungen von der Unabhängigkeit

der beiden Merkmale. Sie sind proportional zu den relativen Häufigkeiten f ij und damit auch zu den absoluten Häufigkeiten n ij = f ij × n. Mosaikplots bringen den Vorteil mit sich, dass sich in gewisser Weise auch die Relevanz festgestellter Unterschiede vor dem Hintergrund der auftretenden Häufigkeiten bewerten lässt. So sollten relative Unterschiede in den häufiger auftretenden Kategorien i.A. mehr Beachtung finden als Unterschiede in eher selten auftretenden Kategorien.

Daten: Statistisches Bundesamt [2014c] Abb. 5.1.7: Mosaikplots für gemeinsame Verteilungen

• Beispiel 5.1.4 • Auf der linken Seite von Abbildung 5.1.7 wird die Verteilung des Merkmals „Geschlecht“ bedingt auf der Art der Straftat dargestellt, wobei die Breiten der Säulen der relativen Randverteilung des Merkmals „Art der Straftat“ entsprechen. Auf der rechten Seite ist die Verteilung des Merkmals „Art der Straftat“ bedingt auf Geschlecht zu sehen, wobei die Breiten der Säulen mit den Anteilen der Geschlechter korrespondieren. Angenommen das Merkmal „Geschlecht“ korrespondiert mit den Zeilen und das Merkmal „Art der Straftat“ mit den Spalten der zugrunde liegenden (2 × 8)Kontingenztabelle. Unter Verwendung konventioneller Notation (Abschnitt 5.1.1) ergeben sich dann Höhe h11 und Breite b11 des Säulensegments für die 1. Zelle (1. Zeile, 1. Spalte) als n11 n∙1 bzw. b11 = . h11 = n∙1 n

5.1 Zusammenhänge zwischen kategorialen Merkmalen | 141

Daraus folgt für die Fläche dieses Segments n11 n∙1 n11 × = = f11 . n∙1 n n Sie entspricht also wie postuliert der relativen Häufigkeit der gemeinsamen Verteilung. • Höherdimensionale Mosaikplots • Mosaikplots lassen sich auf höherdimensionale Daten (Darstellung von mehr als 2 Variablen gleichzeitig) erweitern. Beispiele hierfür finden sich in Abschnitt 5.3.2.

Spineplots • Konzept • Auch Spineplots sind Spezialformen segmentierter Säulendiagramme und eng mit den Mosaikplots verwandt. Im Unterschied zu diesen entstehen zwischen den einzelnen Segmenten einer Säule jedoch keine Lücken. Außerdem befindet sich am Rand in der Regel eine Skalenachse, anhand derer sich die relativen Anteile abschätzen lassen. Dafür lassen sich Spineplots nicht wie Mosaikplots auf höherdimensionale Daten erweitern.

1.0 0.8 0.6

1

0.4

0

−2

−1

0

1

Sternzeichen

2

0.0

0.0

−2

0.2

Sternzeichen

0.2

−1

0.6 0.4

0 −1 −2

Glaube

1

0.8

2

2

1.0

• Beispiel 5.1.5 • Abbildung 5.1.8 zeigt das Ergebnis einer Befragung von insgesamt 206 Studierenden bezüglich der beiden Fragen „Glauben Sie an (einen) Gott (höheres Wesen)?“ und „Ist an Sternzeichen etwas Wahres dran?“. Die Antwortkategorien lauteten: −2 für „auf keinen Fall“, −1 für „eher Nein“, 0 für „neutral bzw. weiß nicht“, 1 für „eher Ja“ und 2 für „auf jeden Fall“. Die korrespondierende Kontingenztabelle mit allen absoluten Häufigkeiten der gemeinsamen Verteilung findet sich als Tabelle 5.3.2 in Abschnitt 5.3.1.

−2

−1

0

1

2

Glaube

Daten: Eigene Erhebungen Abb. 5.1.8: Spineplots: Glaube an Gott und Einstellung zu Sternzeichen

Aus der linken Grafik von Abbildung 5.1.8 ist beispielsweise ersichtlich, dass die Studierenden am häufigsten überhaupt nichts von Sternzeichen halten. Die Einstellung

142 | 5 Beschreibung und Analyse empirischer Zusammenhänge

„eher Ja“ und „auf jeden Fall“ findet sich nur bei einer relativ kleinen Minderheit. Aus der rechten Grafik ist ersichtlich, dass die verschiedenen Haltungen zu einem Gottesglauben dagegen deutlich gleichmäßiger verteilt sind. Insbesondere sticht in der rechten Grafik deutlicher hervor, dass ein höherer Gottesglaube tendenziell mit einer stärkeren Befürwortung von Sternzeichen einhergeht.

5.2 Zusammenhänge zwischen metrischen Merkmalen

Streudiagramme bilden die grafische Ausgangsbasis bei der Analyse von Zusammenhängen zwischen metrischen Merkmalen. Aus solchen lässt sich Stärke, Richtung und Art eines Zusammenhangs recht schnell ersehen. Der Korrelationskoeffizient nach Pearson ist das bekannteste und am häufigsten verwendete Zusammenhangsmaß überhaupt. Er basiert auf der Kovarianz und misst die Stärke der linearen Abhängigkeit. Eine einfache funktionale Beschreibung für den Zusammenhang zweier metrischer Merkmale im Sinne einer Geradengleichung erhält man über die Technik der linearen Regression. Die bedeutendste Regressionstechnik ist dabei die Kleinste-Quadrate-Methode.

5.2.1 Grafische Analysemöglichkeiten Die grafische Standardform zur Darstellung von Zusammenhängen metrischer Merkmale ist das Streudiagramm, zu dem vielfältige Modifikationsmöglichkeiten existieren.

Streudiagramme • Konzept • Bei vorliegenden metrischen zweidimensionalen Beobachtungswerten (x1 , y1 ), . . . , (x n , y n ) wird jede Beobachtung in einem zweidimensionalen Diagramm als Beobachtungspunkt eingetragen. Dabei werden die x-Werte üblicherweise als Koordinaten horizontaler und die y-Werte als Koordinaten vertikaler Richtung gelesen. Sofern zwischen den beiden Merkmalen X und Y keine Abhängigkeit mit eindeutiger kausaler Richtung besteht, kann diese Zuordnung auch vertauscht werden. Ansonsten wird das kausal abhängige Merkmal üblicherweise auf der Vertikalachse abgetragen und das kausal beeinflussende Merkmal auf der Horizontalachse. Über die Möglichkeit, die einzelnen Beobachtungspunkte unterschiedlich darzustellen, kann außerdem noch eine dritte Variable mit berücksichtigt werden, womit man im Prinzip eine dreidimensionale Verteilungsdarstellung erhält (3 Variablen). • Beispiel 5.2.1 • Abbildung 5.2.1 zeigt zwei Streudiagramme für die Merkmale „Größe“, „Gewicht“ und „Geschlecht“ von Studierenden. In der rechten Variante wurden

5.2 Zusammenhänge zwischen metrischen Merkmalen | 143

unterschiedliche Symbole für die beiden Geschlechter gewählt. Es zeigt sich dabei, dass sich der rechte Teil der Punktwolke vor allem aus männlichen Studierenden zusammensetzt und der linke Teil eher aus weiblichen. • Richtung von Zusammenhängen • Aus der Gestalt der resultierenden zweidimensionalen Punktwolke lassen sich Art und Richtung möglicher Abhängigkeiten häufig schon gut feststellen. Eine aufsteigende Punktwolke wie im vorliegenden Fall deutet auf einen positiven Zusammenhang hin. Dies bedeutet, dass größere x-Werte tendenziell mit größeren y-Werten einhergehen. Im Beispiel ist es natürlich wenig überraschend, dass größere Studierende tendenziell auch schwerer sind. Bei abfallender Punktwolke gehen größere x-Werte dagegen tendenziell mit kleineren y-Werten einher. Es besteht dann ein negativer Zusammenhang. Natürlich können sich auch anderweitige Abhängigkeitsstrukturen ergeben, die sich nicht über derartig einfache Richtungsangaben beschreiben lassen.

kg

140

140

120

120

100

kg

100

80

80

60

60

40

40 150

160

170

180

190

200

210

weiblich männlich

150

160

cm

170

180

190

200

210

cm

Daten: Eigene Erhebungen Abb. 5.2.1: Einfaches Streudiagramm und Streudiagramm mit kategorialer Einfärbung

150

160

170 180 190 Größe in cm

200

210

40

60

80 100 Gewicht in kg

120

140

Daten: Eigene Erhebungen Abb. 5.2.2: Darstellung der Randverteilungen

• Zweidimensionale Ausreißer • Aus Streudiagrammen werden ein- und zweidimensionale Ausreißer schnell ersichtlich. Im vorliegenden Beispiel fallen zwei Ausreißer ins Auge, die sich nicht so recht in die Punkwolke einfügen. Es handelt sich dabei um zwei männliche Studierende, die beide etwas größer sind als 180 cm. Ei-

144 | 5 Beschreibung und Analyse empirischer Zusammenhänge

ner der beiden ist deutlich schwerer, der andere deutlich leichter als das Gros in dieser Größenklasse. Abbildung 5.2.2 verdeutlicht, dass höherdimensionale Ausreißer in niedrigeren Dimensionen nicht zwingend identifizierbar sein müssen. So ist lediglich der weit nach oben abweichende Wert noch als Ausreißer erkennbar. Der untere Ausreißer fällt in der Gesamtheit aller Gewichte dagegen nicht mehr auf.

Streudiagramm-Matrizen • Konzept • Möchte man Zusammenhänge innerhalb einer größeren Menge metrischer Merkmale untersuchen, bietet sich zunächst die Erstellung einer Streudiagramm-Matrix an. In einer solchen werden die Streudiagramme für alle paarweisen Kombinationen zwischen den Merkmalen organisiert. Entsprechend ihrem Aufbau ist die Matrix symmetrisch. Jedes Diagramm liegt quasi zweimal vor, einmal in der oberen Dreieckshälfte und einmal gespiegelt in der unteren Hälfte. Manchmal wird auch auf den oberen oder unteren Block an Nebendiagonalen verzichtet. • Beispiel 5.2.2 • Abbildung 5.2.3 zeigt eine (4 × 4)-Streudiagramm-Matrix der Merkmale „Größe“, „Gewicht“, „Schuhgröße“ und „Schlaf“. Das Diagramm in Spalte 1 und Zeile 3 korrespondiert beispielsweise direkt mit Abbildung 5.2.1. Mit der Variablen „Schlaf“ wurde die durchschnittliche tägliche Schlafdauer (in Stunden) erfragt. Es wird schnell ersichtlich, dass zwischen allen physischen Merkmalen jeweils positive Zusammenhänge bestehen. Dagegen scheinen keinerlei Zusammenhänge zur Variablen „Schlaf“ zu bestehen. Entsprechende Punktwolken weisen jedenfalls keine deutbaren Abhängigkeitsstrukturen auf. Inhaltlich erscheint dies plausibel, auch wenn hier zumindest gewisse Formen von Scheinabhängigkeit denkbar wären (Abschnitt 5.3.3). • Hilfsmittel für „Datenscreening“ und Modellbildung • StreudiagrammMatrizen eignen sich generell dazu einen raschen Überblick über vorliegendes Datenmaterial, das in Teilen möglicherweise noch unbekannt ist, zu gewinnen. Aus einer Streudiagramm-Matrix werden Auffälligkeiten und Abhängigkeiten in und zwischen den einzelnen Variablen meist schnell ersichtlich. Damit sind sie sowohl im Zusammenhang eines sog. „Datenscreenings“ als auch im Rahmen einer statistischen Modellbildung ein nützliches exploratives Hilfsmittel.

Hexagonalplots • Konzept • Ein häufig auftretendes Problem im Zusammenhang von Streudiagrammen ist die gleichzeitige Überlagerung mehrerer Beobachtungspunkte. Ein Lösungsvorschlag besteht darin, den vorhandenen zweidimensionalen Datenbereich in eine passende Anzahl disjunkter und gleich großer Sechsecke (Hexagone) zu zerlegen. Die

5.2 Zusammenhänge zwischen metrischen Merkmalen | 145

170

180

190

200

36

38

40

42

44

46

48

8

9

10

160

44

48

5

6

7

Schlaf

100 120

36

40

Schuhgröße

180

200

60

80

Gewicht

160

Größe 60

80

100

120

5

6

7

8

9

10

Daten: Eigene Erhebungen Abb. 5.2.3: Streudiagramm-Matrix

Anzahl (Dichte) der in die einzelnen Hexagone hineinfallenden Werte („Counts“) wird dann über entsprechende Einfärbung deklariert. Diese im Englischen als Hexagonal Binning bezeichnete Methode wurde zuerst von Carr et al. [1987] vorgeschlagen und unter praktischen und theoretischen Gesichtspunkten fundiert. Die entsprechende Grafik wird in diesem Lehrbuch als Hexagonalplot bezeichnet. • Beispiel 5.2.3 • Im linken Schaubild von Abbildung 5.2.4 wird anhand der Legende deutlich, dass die maximale Dichte bei 5 Beobachtungswerten liegt. Die meisten Datenpunkte sind folglich noch separat erkennbar. Im rechten Beispiel kommt es aufgrund der relativ geringen Anzahl verschiedener Ausprägungen jedoch zu zahlreichen Überlagerungen. Tatsächlich besitzt hier mehr als die Hälfte der etwa 200 Studierenden eine Schuhgröße zwischen 42 und 46 und schläft zwischen 7 und 9 Stunden, was man ohne Einfärbungen wohl nicht ohne weiteres annehmen würde.

5.2.2 Zusammenhangsmaße für metrische Merkmale Empirische Kovarianz • Definition und Interpretation • Das wichtigste und am häufigsten verwendete Zusammenhangsmaß in der Statistik ist der Korrelationskoeffizient nach Pearson. Es basiert auf der Kovarianz, einem nichtnormierten Maß, welches hier zunächst als Zwischenschritt vorgestellt wird.

146 | 5 Beschreibung und Analyse empirischer Zusammenhänge

10

120

Gewicht in kg

100 5

80

4 3

60

2

Schlaf in Stunden

Counts

1

160

170

180

190

Counts 13 12 11 10 9 8 7 6 5 4 3 2 1

9 8 7 6 5

200

36 38 40 42 44 46 48

Größe in cm

Schuhgröße

Abb. 5.2.4: Hexagonalplots zur Darstellung von Punktedichten

Angenommen, es liegen folgende 10 zweidimensionale Beobachtungswerte (x i , y i ) bezüglich zweier metrischer Merkmale X und Y vor: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3). Im Streudiagramm von Abbildung 5.2.5 sind die einzelnen Werte als schwarze Punkte eingezeichnet. Weiter eingezeichnet sind die sog. Schwerelinien auf Höhe der arithmetischen Mittel: x = 5.9 und y = 3.5. Im Schnittpunkt der beiden Schwerelinien befindet sich der (zweidimensionale) Schwerpunkt mit entsprechenden Koordinaten (5.9, 3.5). Schwerpunkt und Schwerelinien teilen den Datenbereich in vier Quadranten auf, die mit römischen Zahlen I–IV durchnummeriert sind. II

8

I

x x7 − x (9,6)

6

y7 − y y

4

(5.9,3.5)

y

2

III

IV

0 0

2

4

6

8

10

12

x

Abb. 5.2.5: Grafische Illustration zur Konzeption der Kovarianz

5.2 Zusammenhänge zwischen metrischen Merkmalen | 147

Allgemein gilt nun, dass man eher von einem positiven Zusammenhang spricht, je mehr Beobachtungen im 1. und 3. Quadranten liegen. Überdurchschnittlich große x-Werte gehen dann mit überdurchschnittlich großen y-Werten einher (1. Quadrant) und unterdurchschnittlich große x-Werte mit unterdurchschnittlich großen y-Werten (3. Quadrant). Je mehr Werte dagegen im 2. und 4. Quadranten liegen, desto eher entspricht dies einem negativen Zusammenhang. Dann gehen unterdurchschnittlich große x-Werte mit überdurchschnittlich großen y-Werten (2. Quadrant) und überdurchschnittlich große x-Werte mit unterdurchschnittlich großen y-Werten einher (4. Quadrant). Die von einem Datenpunkt mit den beiden Schwerelinien zum Schwerpunkt hin aufgespannte Rechteckfläche ist ein Maß dafür, wie stark ein Wert vom Durchschnitt abweicht. Sie fällt umso größer aus, je „tiefer“ ein Punkt in einem Quadranten liegt und umso kleiner, je näher ein Punkt an einer der beiden Schwerelinien oder am Schwerpunkt liegt. Der im 1. Quadranten gekennzeichnete 7. Beobachtungswert (9, 6) weicht beispielsweise bezüglich X um 3.1 und bezüglich Y um 2.5 nach oben hin vom Durchschnitt ab. Es gilt: x7 − x = 9 − 5.9 = 3.1

und

y7 − y = 6 − 3.5 = 2.5.

Dies ergibt eine eingeschlossene Rechteckfläche von 3.1×2.5 = 7.75. Zur Beurteilung der Richtung des Zusammenhangs muss die Lage eines Punktes innerhalb des Quadrantensystems mit berücksichtigt werden. Werden Flächen im 1. und 3. Quadranten mit positivem Vorzeichen („positive Flächen“) und Flächen im 2. und 4. Quadranten mit negativem Vorzeichen („negative Flächen“) versehen, so lässt sich die Summe aller Flächen als Maß für Richtung und Stärke des Zusammenhangs verwenden. Die empirische Kovarianz ist nun definiert als ̃s XY =

1 n ∑ (x i − x)(y i − y). n i=1

Sie ist damit als „durchschnittliche Rechteckfläche“ interpretierbar, wobei Flächen auch negativ verrechnet werden können. Eine positive Kovarianz deutet auf einen positiven Zusammenhang, eine negative Kovarianz auf einen negativen Zusammenhang hin. Ist die Kovarianz gleich Null, ist keine Richtungstendenz bestimmbar. Es leuchtet ein, dass es für die Flächen der Rechtecke keine obere (bzw. untere) Grenze gibt. Die Kovarianz ist damit ein skalenabhängiges nichtnormiertes Maß. • Beispiel 5.2.4 • In Tabelle 5.2.1 ist die Berechnung aller Flächen für das vorliegende Datenbeispiel zusammengefasst. Die letzte Spalte umfasst insgesamt 8 positive und 2 negative Rechteckflächen entsprechend der Lage der 10 Beobachtungen in den Quadranten. Die Summe der Abweichungen vom arithmetischen Mittel beträgt jeweils 0 (Abschnitt 4.2.1). Die Summe aller mit Vorzeichen versehenen Rechteckflächen ist gleich 24.5. Daraus ergibt sich mit n = 10

148 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Tab. 5.2.1: Ermittlung aller Rechteckflächen i 1 2 3 4 5 6 7 8 9 10 Summe

xi 2 4 4 5 6 8 9 10 4 7 59

yi 1 2 3 2 4 5 6 4 5 3 35

xi − x −3.9 −1.9 −1.9 −0.9 0.1 2.1 3.1 4.1 −1.9 1.1 0

yi − y −2.5 −1.5 −0.5 −1.5 0.5 1.5 2.5 0.5 1.5 −0.5 0

(x i − x)(y i − y) 9.75 2.85 0.95 1.35 0.05 3.15 7.75 2.05 −2.85 −0.55 24.50

eine Kovarianz von 24.5/10 = 2.45. Im Sinne der Kovarianz liegt damit ein positiver Zusammenhang vor. • Verschiebungsformel für die empirische Kovarianz • Ähnlich wie bei der Berechnung der empirischen Varianz (Abschnitt 4.4.4) erhält man auch für die Berechnung der Kovarianz rechentechnische Erleichterung durch eine Verschiebungsformel. Es gilt: n

n

∑ (x i − x)(y i − y) = ∑ (x i y i − yx i − xy i + xy) i=1

i=1 n

n

n

n

= ∑ x i y i − y ∑ x i − x ∑ y i + ∑ xy i=1 n

i=1

i=1

i=1 n

= ∑ x i y i − ynx − xny + nxy = ∑ x i y i − nxy. i=1

i=1

Daraus folgt unmittelbar ̃s XY =

1 n 1 n ∑ (x i − x)(y i − y) = ∑ x i y i − xy. n i=1 n i=1

Die Verwendung des letzten Ausdrucks erweist sich bei „Von-Hand-Berechnungen“ weitaus weniger fehleranfällig als die des ersteren. Eine Beispielrechnung anhand der obigen Daten findet sich später bei der Behandlung des Korrelationskoeffizienten. • Transformationseigenschaften • Zum tieferen Verständnis dieses Maßes gehört es, sich mit dessen Eigenschaften bei Verschiebungen und Umskalierungen zu befassen. Abbildung 5.2.6 illustriert diese beiden Arten von Transformationen. Im Kontrast zu den in Abschnitt 4.9.3 durchgeführten Transformationen werden im zweidimensionalen Fall möglicherweise zwei Merkmale gleichzeitig transformiert.

5.2 Zusammenhänge zwischen metrischen Merkmalen | 149

• Verschiebungen • Bei einer Verschiebung ergeben sich die transformierten Werte (u i , v i ) aus den Ursprungswerten (x i , y i ) gemäß (u i , v i ) = (x i + c X , y i + c Y )

für i = 1, . . . , n.

Abbildung 5.2.6 illustriert links eine Verschiebung der Ursprungswerte (schwarze Punkte) um c X = 12 Einheiten in x-Richtung und c Y = 3 Einheiten in y-Richtung. Der ursprüngliche Schwerpunkt (5.9, 3.5) erweist sich hier als verschiebungsäquivariant und erhält entsprechend die neuen Koordinaten (17.9, 6.5). Wie man sieht wird das gesamte System der Quadranten in dieser Weise verschoben. Dadurch ergeben sich für die Rechteckflächen keine Änderungen. Die Kovarianz ist folglich verschiebungsinvariant. Sie bleibt unverändert 0.245. Arithmetisch folgt dies unmittelbar aus der Verschiebungsäquivarianz des arithmetischen Mittels (Abschnitt 4.9.3). So ist der Mittelwert der transformierten x-Werte ja gerade u = x + cX . Daraus folgt für die Kantenlängen der Rechtecke in x-Richtung u i − u = x i + c X − x − c X = x i − x. Analoges gilt für die transformierten y-Werte und die Kantenlängen in y-Richtung. 12

12

10

10

8 y

8 y

6

6

4

4

2

2

0

0 0

5

10

15

20

25

30

x

0

5

10

15

20

25

30

x

Abb. 5.2.6: Verschiebungen und Umskalierungen im zweidimensionalen Fall

• Umskalierungen • Bei einer Umskalierung ergeben sich die transformierten Werte als (u i , v i ) = (c X x i , c Y y i ),

wobei c X > 0 und c Y > 0.

Abbildung 5.2.6 illustriert rechts eine gleichzeitige Umskalierung von x- und y-Werten mit den Faktoren c X = 3 bzw. c Y = 2. Der ursprüngliche Schwerpunkt (5.9, 3.5) erweist sich als skalenäquivariant und erhält entsprechend die neuen Koordinaten (17.7, 7). Die Rechteckflächen werden damit um den Gesamtfaktor 3 × 2 = 6 größer. Folglich ist die Kovarianz bei einer gleichzeitigen Umskalierung von x- und y-Werten nicht skaleninvariant. Sie beträgt jetzt 2.45×6 = 14.7. Arithmetisch folgt dies aus der Ska-

150 | 5 Beschreibung und Analyse empirischer Zusammenhänge

lenäquivarianz des arithmetischen Mittels (Abschnitt 4.9.3). So gilt: u = cX x

und

v = c Y y.

Daraus folgt für die Kovarianz der umskalierten Werte: ̃s UV =

1 n 1 n ∑ (u i − u)(v i − v) = ∑ (c X x i − c X x)(c Y y i − c Y y) n i=1 n i=1

=

1 n 1 n ∑ c X (x i − x)c Y (y i − y) = c X c Y ∑ (x i − x)(y i − y) n i=1 n i=1

= c X c Y ̃s XY . Würde man beispielsweise bei der Zusammenhangsanalyse von Größe und Gewicht von Personen gleichzeitig von Zentimeter in Meter und von Kilogramm in Gramm umrechnen, wäre die Kovarianz der umskalierten Werte 10 Mal so groß wie zuvor. Dies liegt daran, dass die beiden Umrechnungsfaktoren 0.01 und 1000 im Produkt 10 ergeben. Sofern jedoch nur eines der beiden Merkmale umskaliert wird, erweist sich die Kovarianz als skalenäquivariant. Rechnet man also beispielsweise lediglich das Gewicht von Kilogramm in Gramm um und belässt die Körpergrößen in ihrer ursprünglichen Maßeinheit, so wird die Kovarianz 1000 Mal so groß. Empirische Kovarianz Für metrische Beobachtungswerte (x1 , y1 ), . . . , (x n , y n ) bezüglich zweier Merkmale X und Y berechnet sich die empirische Kovarianz als ̃s XY =

1 n 1 n ∑ (x i − x)(y i − y) = ∑ x i y i − xy. n i=1 n i=1

(5.2.1)

Die Kovarianz ist verschiebungsinvariant und auch skalenäquivariant, sofern nur eines der beiden Merkmale umskaliert wird.

• Zwischenschritt zum Korrelationskoeffizienten • Aufgrund des unbeschränkten Wertebereichs und der Skalenabhängigkeit ist die Kovarianz als Zusammenhangsmaß direkt nicht geeignet. Eine Skaleninvarianz lässt sich jedoch durch einfache Modifikation erzielen. Dies führt dann zum Korrelationskoeffizienten.

5.2 Zusammenhänge zwischen metrischen Merkmalen | 151

Empirischer Korrelationskoeffizient nach Pearson • Kovarianz standardisierter Werte • Der empirische Korrelationskoeffizient ist die Kovarianz der z-standardisierten Werte xi − x yi − y ui = und v i = für i = 1, . . . , n, wobei ̃s X > 0 und ̃s Y > 0. ̃s X ̃s Y Aufgrund der Division durch die Standardabweichungen müssen positive Varianzen vorausgesetzt werden. Die Korrelation ist nicht definiert, falls alle x-Werte oder yWerte gleich sind. Aus der alternativen Schreibweise ui =

xi x − ̃s X ̃s X

bzw.

vi =

yi y − ̃s Y ̃s Y

wird ersichtlich, dass bei einer Standardisierung die ursprünglichen Beobachtungswerte verschoben und zugleich umskaliert werden. Mittelwerte und Standardabweichungen der standardisierten Werte ergeben sich dann als (Abschnitt 4.6) u = 0, v = 0, ̃s U = 1 und ̃s V = 1. Damit erhält man als Kovarianz der standardisierten Werte ̃s UV = =

1 n 1 n xi − x yi − y − 0)( − 0) ∑ (u i − u)(v i − v) = ∑ ( ̃s Y n i=1 n i=1 ̃s X 1 n (x i − x) (y i − y) = ∑ ̃s Y n i=1 ̃s Y

1 n

∑ni=1 (x i − x)(y i − y) ̃s XY = . ̃s X ̃s Y ̃s X ̃s Y

Demnach ergibt sich die Korrelation zwischen zwei Merkmalen X und Y, indem man deren Kovarianz durch die jeweiligen Standardabweichungen dividiert. 15

2

s~X = 7.28

10

(27,12)

(1.28,1.67)

1 s~V = 1

s~Y = 3

y

s~U = 1

5 −3

−2

−1

1

2

3

0 0

5

10

15 x

20

25

30

−2

Abb. 5.2.7: Streudiagramm ursprünglicher und standardisierter Werte

Abbildung 5.2.7 illustriert die Konzeption der Korrelation als Kovarianz standardisierter Werte. Für die ursprünglichen Beobachtungswerte im linken Schaubild gilt: x = 17.7, y = 7, ̃s X = 7.28 und ̃s Y = 3.

152 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Die Streuung der x-Werte ist also mehr als doppelt so groß wie die Streuung der yWerte. Die Standardisierung bewirkt zum einen eine Verschiebung der Punktwolke hin zum Ursprung als Schwerpunkt, zum anderen gleich große Streuungen in beiden Richtungen. Im vorliegenden Fall wird die Punktwolke dadurch in horizontaler Richtung „gestaucht“. Mit der Standardisierung werden die Abweichungen der einzelnen Beobachtungen zum Schwerpunkt als Vielfache der Standardabweichungen verrechnet. Beispielsweise erhält der ursprüngliche Beobachtungswert (27, 12) die standardisierten Koordinaten 12 − 7 27 − 17.7 ≈ 1.28 und ≈ 1.67. 7.28 3 Der Wert 27 liegt das 1.28-fache der Standardabweichung der x-Werte über dem Durchschnitt der x-Werte. Der Wert 12 liegt dagegen das 1.67-fache der Standardabweichung der y-Werte über dem Durchschnitt der y-Werte. Die Koordinaten der standardisierten Werte stimmen jetzt mit den Kantenlängen der aufgespannten Rechteckflächen überein. • Definition – äquivalente Varianten • Der empirische Korrelationskoeffizient wird meist mit dem Buchstaben „r“ notiert, was ursprünglich auf das englische Wort „reversion“ (später „regression“) zurückgeht (Pearson [1920, S. 33]). In der vermutlich am häufigsten anzutreffenden Schreibvariante definiert man die Korrelation zweier Merkmale X und Y als r XY =

̃s XY = ̃s X ̃s Y

1 n

√ 1n

n

∑ (x i − x)(y i − y)

i=1

n

∑ (x i −

i=1

x)2 1n

.

n

(5.2.2)

∑ (y i − y)2

i=1

Daneben existieren dazu völlig äquivalente Varianten, was anfangs häufig zu Irritationen oder Fehlschlüssen führt. Unter Verwendung der Verschiebungsformeln für die Varianzen und für die Kovarianz erhält man zunächst einmal 1 n

r XY = ∑ni=1

√ ( 1n

∑ni=1 x i y i − xy

x2i

−x

2

)( 1n

∑ni=1

. y2i

(5.2.3)

2

−y )

Multipliziert man Zähler und Nenner von (5.2.2) und (5.2.3) jeweils mit n erhält man n

∑ (x i − x)(y i − y)

r XY =

i=1 n

√ ∑ (x i − i=1

r XY =

x)2

n

∑ (y i −

bzw. y)2

i=1

∑ni=1 x i y i − nxy √ (∑ni=1 x2i − nx2 )(∑ni=1 y2i − ny2 )

(5.2.4)

5.2 Zusammenhänge zwischen metrischen Merkmalen | 153

Es sollte nun beachtet werden, dass die Terme in den Zählern von (5.2.4) nicht der Kovarianz sondern dem n-fachen der Kovarianz entsprechen. Analog entsprechen die Ausdrücke unter den Wurzeln nicht den Varianzen sondern den n-fachen Varianzen. Ein vollständiges Rechenbeispiel findet sich gegen Ende dieses Abschnitts. • Verschiebungs- und skaleninvariant • Da Kovarianz und Varianz beide verschiebungsinvariant sind, ist dies zwangsläufig auch der Korrelationskoeffizient. Bei einer Umskalierung gemäß (u i , v i ) = (c X x i , c Y y i ),

wobei c X > 0 und c Y > 0,

folgt mit den Invarianzeigenschaften von Varianz und Kovarianz: r UV =

̃s UV ̃s XY c X c Y ̃s XY = = = r XY . ̃s U ̃s V ̃s X ̃s Y c X ̃s X c Y ̃s Y

Folglich ist der Korrelationskoeffizient skaleninvariant. Bei der Zusammenhangsanalyse von Größe und Gewicht von Personen beispielsweise spielt es also keine Rolle, in welchen Einheiten (Meter oder Zentimeter, Kilogramm oder Gramm) gerechnet wird. • Wertebereich • Mithilfe der Cauchy-Schwarz’schen Ungleichung lässt sich zeigen, dass die Werte des Korrelationskoeffizienten stets im Intervall [−1, 1] liegen. Diese Ungleichung besagt, dass für beliebige reelle Werte p1 , . . . , p n , q1 , . . . , q n stets n

n

2

n

( ∑ p i q i ) ≤ ( ∑ p2i )( ∑ q2i ) i=1

i=1

(5.2.5)

i=1

gilt. Sofern mindestens ein p i ≠ 0 ist, gilt die Gleichheit genau dann, falls qi = c ⋅ pi

für ein c ∈ ℝ ist.

Setzt man nun für gegebene Beobachtungswerte (x1 , y1 ), . . . , (x n , y n ) pi = xi − x

und

qi = yi − y

und dividiert beide Seiten von (5.2.5) durch den Ausdruck auf der rechten Seite, erhält man 2

(∑ni=1 (x i − x)(y i − y))

∑ni=1 (x i − x)2 ∑ni=1 (y i − y)2

≤ 1.

Die linke Seite entspricht jetzt gerade der quadrierten Variante von (5.2.4). Daraus folgt unmittelbar für den Wertebereich des Korrelationskoeffizienten |r XY | ≤ 1. Die Korrelation ist betragsmäßig genau dann gleich 1, falls y i − y = c(x i − x)

für ein c ≠ 0 ist.

154 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Umgeformt erhält man daraus y i = y − cx + cx i

für i = 1, . . . , n.

(5.2.6)

Gleichung (5.2.6) lässt sich folgendermaßen interpretieren: Die y-Werte sind von den x-Werten (perfekt) linear abhängig. Sie ergeben sich quasi durch Einsetzen in die Geradengleichung. y = b0 + b1 x,

5

y

5

rXY = 1

4

y

2

1

1

1 1

2

3

y

5

0

1

2

y

5

y

2

1

1

4

0 2

y

3

4

5

1

1

7

0 3

1

2

3

5

0

5

5

1

1

2

3

4

5

0 3 2 y

y 5

10

0 x

20

25

30

2

3

4

5

r X Y = 0.67

1

10

15

1

x

r X Y = 0.67

5

5

9

0

15

y

4

3

x

10

3

rXY = 0

4

8

r X Y = 0.67

10

2

2

0

15

5

1

x

y

x

0

6

0

4

0

4

5

3

1

3 2

4

r X Y nicht definiert

4

rXY = 0

4

2

5

5

5

y

3

2

0

2

1

2

x

3

0

1

x

0

rXY = 0

4

0

y

x 5

5

3

2

1

4

r X Y nicht definiert

4

3

0

3

3

0

x

rXY = − 1

4

1

2

x 5

3 2

0

4

r X Y = 0.99

4

3

2

0

5

rXY = 1

4

3

0

wobei b0 = y − cx und b1 = c.

0 −1

11

0 0

5

10

15 x

Abb. 5.2.8: Beispiele unterschiedlicher Korrelationen

20

25

30

−2

12

−3 −4

−2

0 x

2

4

5.2 Zusammenhänge zwischen metrischen Merkmalen | 155

• Interpretation • Aufgrund der vorhergehenden Überlegungen ist klar, dass die Korrelation genau dann gleich 1 ist, falls die Datenpunkte auf einer Geraden mit positiver Steigung (c > 0) liegen. Über die Steigung selbst ist keine Aussage möglich. Man spricht dann allgemein von einem perfekten positiven linearen Zusammenhang. Ist die Korrelation gleich −1, so liegen die Datenpunkte auf einer Geraden mit negativer Steigung (c < 0). In diesem Fall spricht man dann von einem perfekten negativen linearen Zusammenhang. Da das Vorzeichen der Korrelation stets mit dem Vorzeichen der Kovarianz überein-stimmt, weist eine positive Korrelation grundsätzlich auf einen positiven Zusammenhang und eine negative Korrelation auf einen negativen Zusammenhang hin. Je größer die Korrelation betragsmäßig ist, desto stärker ist die Linearität ausgeprägt, d.h. desto enger liegen die Punkte um eine Gerade mit positiver oder negativer Steigung. Je näher die Korrelation bei 0 liegt, desto weniger ist eine lineare Richtungstendenz auszumachen. Sofern ̃s2X > 0 und ̃s2X > 0 sind, gilt r XY = 0 gerade dann, wenn ̃s XY = 0 ist. Definition 5.2.1: Empirische Unkorreliertheit x- und y-Werte heißen (empirisch) unkorreliert, wenn ̃s XY = 0 ist.

• Korrelation misst nur lineare Abhängigkeit • In den Beispielen 7–9 von Abbildung 5.2.8 sind keinerlei Richtungstendenzen auszumachen. Die Punkte liegen jeweils um eine Gerade mit Steigung 0. Die Beispiele 8 und 9 verdeutlichen jedoch, dass trotz Unkorreliertheit durchaus andere (nichtlineare) Formen von Abhängigkeit bestehen können. So ließe sich hier etwa feststellen, dass sich die auf X bedingten Verteilungen von Y unterscheiden. In Beispiel 8 ist z.B. das arithmetische Mittel von Y bedingt auf X (das bedingte arithmetische Mittel) gleich 2.5 oder 1.5, je nachdem ob man auf gerades oder ungerades X bedingt. In Beispiel 9 hängt das Streuungsverhalten von Y von X ab. So ist für X = 2 die bedingte Varianz von Y größer als für X = 1 oder X = 3. In Beispiel 7 stimmen die bedingten Verteilungen in beide Richtungen exakt überein. Hier besteht keinerlei Abhängigkeit. • Reine Optik kann täuschen • Die Beispiele 10–12 verdeutlichen, dass die Einschätzung einer Korrelation per Augenmaß mitunter in die Irre führen kann. In Beispiel 10 sind die Daten zu sehen, die zu Beginn dieses Abschnitts angegeben wurden. Multipliziert man die x-Werte mit 3 und die y-Werte mit 2, erhält man Beispiel 11. Aufgrund der Skaleninvarianz der Korrelation führt dies zu keiner Änderung der Korrelation. Standardisiert man die Werte von Beispiel 10 oder 11, erhält man beide Male Beispiel 12, da standardisierte Werte verschiebungs- und skaleninvariant sind (Abschnitt 4.6). Da die Korrelation invariant bezüglich beider Transformationsarten ist, bleibt die Korre-

156 | 5 Beschreibung und Analyse empirischer Zusammenhänge

lation unverändert. Die Korrelation ist folglich in allen drei Fällen exakt gleich, auch wenn sie optisch möglicherweise verschieden wahrgenommen wird. • Beispiel 5.2.5 • Angenommen, es liegen folgende 10 Beobachtungswerte vor: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3). Die Daten stimmen mit denjenigen aus Abbildung 5.2.5 bzw. Beispiel 10 in Abbildung 5.2.8 überein. Für „Von-Hand-Berechnungen“ günstige Varianten des Korrelationskoeffizienten sind Formel (5.2.3) oder die 2. Variante von (5.2.4), die beide von den Verschiebungsformeln Gebrauch machen. Zur konkreten Berechnung empfiehlt sich folgende Arbeitstabelle. Tab. 5.2.2: Arbeitstabelle zur Berechnung der Korrelation nach Pearson i 1 2 3 4 5 6 7 8 9 10 Summe

xi 2 4 4 5 6 8 9 10 4 7 59

yi 1 2 3 2 4 5 6 4 5 3 35

x 2i 4 16 16 25 36 64 81 100 16 49 407

y 2i 1 4 9 4 16 25 36 16 25 9 145

xi yi 2 8 12 10 24 40 54 40 20 21 231

Über die Spaltensummen der Tabelle erhält man alle wichtigen Bestandteile des Korrelationskoeffizienten r XY =

̃s XY = ̃s X ̃s Y

1 n

∑ni=1 x i y i − xy

.

√ ( 1n ∑ni=1 x2i − x2 )( 1n ∑ni=1 y2i − y2 )

So ergeben sich arithmetische Mittel, Kovarianz und Varianzen sukzessiv als 1 1 ⋅ 59 = 5.9, y = ⋅ 35 = 3.5, 10 10 1 n 1 = ∑ x i y i − xy = ⋅ 231 − 5.9 ⋅ 3.5 = 2.45, n i=1 10

x= ̃s XY

̃s2X =

1 n 2 1 ⋅ 407 − 5.92 = 5.89, ∑ x i − x2 = n i=1 10

̃s2Y =

1 n 2 1 ⋅ 145 − 3.52 = 2.25. ∑ y − y2 = n i=1 i 10

5.2 Zusammenhänge zwischen metrischen Merkmalen | 157

Daraus resultiert ein Korrelationskoeffizient von 2.45 ≈ 0.6730. r XY = √5.89 ⋅ 2.25 Definition 5.2.2: Empirischer Korrelationskoeffizient nach Pearson Für metrische Beobachtungswerte (x1 , y1 ), . . . , (x n , y n ) bezüglich zweier Merkmale X und Y berechnet sich der empirische Korrelationskoeffizient als r XY =

̃s XY = ̃s X ̃s Y

1 n

∑ni=1 x i y i − xy

√ ( 1n ∑ni=1 x2i − x2 )( 1n ∑ni=1 y2i − y2 )

wobei ̃s X > 0 und ̃s Y > 0 vorausgesetzt wird. Es gilt: r XY ∈ [−1, 1]. Der Korrelationskoeffizient ist verschiebungs- und skaleninvariant und misst die Stärke der linearen Abhängigkeit.

• Verhältnis zur Kausalität • Wie die empirische Abhängigkeit (Abschnitt 5.1.1) beinhaltet auch die Korrelation keinerlei Ursache-Wirkungs-Aussage. Eine hohe Korrelation (lineare Abhängigkeit) zwischen zwei Merkmalen impliziert also keine kausale Beziehung zwischen diesen. Nähere Ausführungen zu diesem wichtigen Punkt finden sich in Abschnitt 5.3.3. • Zur Historie und Namensgebung des Korrelationskoeffizienten • Als empirisches Zusammenhangsmaß wurde der Korrelationskoeffizient in der hier vorgestellten Form erstmalig von Karl Pearson [1896, S. 265] vorgeschlagen, also einige Jahre früher als dessen Kontingenzkoeffizient (Abschnitt 5.1.2). Entscheidende konzeptionelle Vorüberlegungen auf empirischer und theoretischer Ebene erbrachte vor allem Francis Galton [1886, 1888]. Galton und Pearson kommt jedoch gleichermaßen das Verdienst zu, Empirie (Daten) und Wahrscheinlichkeitstheorie insbesondere im Kontext der bivariaten bzw. multivariaten Normalverteilung miteinander verknüpft zu haben. Damit schufen sie zum einen die Grundlagen für die Korrelations- und Regressionsrechnung und brachten zum anderen das „Fach Statistik“ in seiner Grundmethodik (Abschnitt. 1.2) einen entscheidenden Schritt voran. In seinem 1896 publizierten Papier stellte Pearson noch von Auguste Bravais [1844] erbrachte theoretische Vorarbeiten deutlich heraus: „The fundamental theorems of correlation were for the first time and almost exhaustively discussed by Bravais“ (S. 261). Gleichzeitig relativierte er das Verdienst Galtons in diesem Zusammenhang. Dies nahm er jedoch 24 Jahre später in einem von ihm verfassten Übersichtsartikel zur Geschichte der Korrelation gänzlich wieder zurück. In dem stellenweise recht eigentümlich anmutenden Artikel von 1920 rehabilitierte er gewissermaßen seinen mittlerweile verstorbenen Lehrer Galton und äußerte sich auffällig abschätzig über die Arbeit von Bravais auf diesem Gebiet.

158 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Letztlich konnte er damit jedoch nicht mehr verhindern, dass sich bis heute die in vielen Lehrbüchern anzutreffende Bezeichnung „Korrelationskoeffizient nach BravaisPearson“ gehalten hat. Denis [2001, S. 9] erachtet Bravais in seinem Fazit immerhin noch als „Entdecker der mathematischen Korrelation“ (theoretischen Korrelation) und belässt Galton als jenen der empirischen Korrelation. Rodgers und Nicewander [1988, S. 61] sind dagegen der Auffassung, dass aus historischer Sicht eine Bezeichnung „nach Galton-Pearson“ eigentlich angemessener wäre. So verwendete Bravais [1844, S. 9] in seinem auf Französisch verfassten Artikel zwar bereits die Bezeichnung „une correlation“ für den Parameter einer bivariaten Normalverteilung, die inhaltliche Bedeutung als Zusammenhangsmaß sei ihm dabei offensichtlich aber nicht bewusst gewesen. Beispiel 5.2.6: Korrelation ökonomischer Indikatoren In Beispiel 4.3.2 (Abschnitt 4.3.3) wurden die BIP-Wachstumsraten für Deutschland von 1995 bis 2012 thematisiert. Wie aus Abbildung 4.3.4 und nun auch aus Abbildung 5.2.9 hervorgeht, besteht ein deutlich positiver Zusammenhang zwischen nominalen und realen Wachstumsraten. Die Korrelation beträgt 0.95. Lässt man den Ausreißer des Jahres 2009 unberücksichtigt, so verringert sich die Korrelation geringfügig auf den Wert 0.88. Betrachtet man den Zusammenhang zwischen realem Wachstum und Inflation, letztere gemessen über den Verbraucherpreisindex (VPI), erhält man zunächst eine Korrelation von 0.44. Bei Herausnahme des Jahres 2009 verschwindet diese Korrelation jedoch nahezu vollständig. Die Auswirkung des Ausreißers im ersteren Fall ist schwächer, da die übrigen Werte bereits eine stark ausgeprägte Korrelationsstruktur aufweisen, welche der Richtungstendenz des Ausreißers entspricht. Im letzteren Fall kommt durch den Ausreißer jedoch erst eine scheinbare Richtungstendenz zustande, was ein deutlich verzerrtes Ergebnis zur Folge hat. Beide Beispiele verdeutlichen, dass zu jeder rechnerischen Analyse stets auch eine Überprüfung mit grafischen Mitteln gehören sollte. Gegenstand ökonometrischer Analysen ist immer wieder die Untersuchung des Zusammenhangs zwischen Wirtschafts- und Arbeitsmarktentwicklung. Eine solche findet sich auch im Jahresgutachten 2013/2014 des Sachverständigenrates für die Mitgliedstaaten des Euro-Raumes und weiterer europäischer Länder inklusive Australien, Japan, Kanada, Südkorea, Neuseeland und USA. Für den Zeitraum von 2007 bis 2012 wird dabei die wirtschaftliche Entwicklung über das durchschnittliche jährliche Wachstum des realen BIP gemessen. Dieses wird dann zur Veränderung der Erwerbslosenquote in Prozentpunkten in Bezug gesetzt (Abb. 5.2.10). Dabei ergibt sich eine Korrelation von −0.66. Im Allgemeinen verzeichneten Länder, die über ein schwächeres Wachstum verfügten, also auch eine negativere Entwicklung auf dem Arbeitsmarkt.

6

r X Y = 0.95

4

Preissteigerung in %

Nominales Wachstum in %

5.2 Zusammenhänge zwischen metrischen Merkmalen | 159

2 r = 0.88

0 −2 −4 −6 −6

−4

−2

0

2

4

4

r X Y = 0.44

3 2 1

r = 0.04

0 −1 −2

6

−6

−4

−2

0

2

4

6

Reales Wachstum in %

Reales Wachstum in %

Daten: Statistisches Bundesamt [2014b und 2014d] Abb. 5.2.9: Reales und nominales Wachstum, reales Wachstum und Verbraucherpreise

Bei einem durchschnittlichen Wachstum von 0.7% (Berechnung in Beispiel 4.3.2) sank die Erwerbslosenquote in Deutschland von 2007 bis 2012 außergewöhnlich stark um 3.2 Prozentpunkte. Tatsächlich war Deutschland das einzige Land mit einem deutlichen Rückgang an Erwerbslosigkeit. Der Sachverständigenrat merkt in diesem Zusammenhang an, dass Deutschland im Jahr 2012 die niedrigste Jugenderwerbslosenquote in Europa aufwies, während diese z.B. in Spanien oder Griechenland bei über 50% lag. Erwerbslosenquote Veränderung in Prozentpunkten r X Y = − 0.66

Spanien

15

Griechenland

10 USA

5 0

Deutschland

−5 −6

−4

−2

0

2

4

BIP−Wachstum in %

Daten: Sachverständigenrat [2013, Schaubild 65] Abb. 5.2.10: Wirtschafts- und Arbeitsmarktentwicklung von 2007 bis 2012 (nachgestellt)

Empirische Kovarianz- und Korrelationsmatrizen • Kovarianzmatrix • Eine Varianz-Kovarianzmatrix, kurz Kovarianzmatrix genannt, erhält man, wenn im Falle mehrerer metrischer Variablen alle paarweisen Kovarianzen in Matrixform aufgeschrieben werden. Vorteil dieser Darstellung ist zunächst einmal ihre Kompaktheit an Information. Im Rahmen der Regressionstheorie oder in der multivariaten Statistik sind solche Matrizen jedoch auch regemäßig wichtiger Bestandteil statistischer Berechnungen.

160 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Korrespondierend zu Abbildung 5.2.3 (Abschnitt 5.2.1) erhält man beispielsweise für die vier Variablen Größe (in cm), Gewicht (in kg), Schuhgröße und Schlaf (durchschnittlicher täglicher Schlaf) des Datensatzes Studenten die Kovarianzmatrix Größe

Gewicht

Schuhgröße

Schlaf

Größe

81.1961

77.5797

21.4765

0.1880

Gewicht

77.5797

145.0541

24.4409

−0.0700

Schuhgröße

21.4765

24.4409

7.9675

−0.0474

0.1880

−0.0700

−0.0474

0.9996

Schlaf

Auf der Hauptdiagonale stehen (fettgedruckt) die Varianzen der einzelnen Variablen. Die Varianz der Körpergrößen beträgt also 81.1961, die der Gewichte 145.0541 usw. Auf den Nebendiagonalen stehen die Kovarianzen zwischen den Variablen. Die Kovarianz zwischen Größe und Gewicht beträgt 77.5797, zwischen Größe und Schuhgröße 21.4765, zwischen Gewicht und Schuhgröße 24.4409 usw. Da es im Falle zweier Merkmale X und Y unerheblich ist, ob nun die Kovarianz zwischen X und Y oder zwischen Y und X berechnet wird, ist jede Kovarianzmatrix symmetrisch. Rechnerisch gilt: ̃s XY =

1 n 1 n ∑ (x i − x)(y i − y) = ∑ (y i − y)(x i − x) = ̃s YX . n i=1 n i=1

Ferner ist eine Unterscheidung in Varianzen und Kovarianzen hinfällig, sofern die Varianz jeder einzelnen Variablen als „Kovarianz mit sich selbst“ interpretiert wird. Demnach gilt: ̃s XX =

1 n ∑ (x i − x)(x i − x) = ̃s2X . n i=1

• Korrelationsmatrix • Die Korrelationsmatrix ist die Matrix aller wechselseitigen Korrelationen innerhalb einer bestimmten Menge von Variablen. Für das obige Beispiel lautet diese Größe

Gewicht

Schuhgröße

Schlaf

Größe

1.0000

0.7149

0.8444

0.0209

Gewicht

0.7149

1.0000

0.7189

−0.0058

Schuhgröße

0.8444

0.7189

1.0000

−0.0168

Schlaf

0.0209

−0.0058

−0.0168

1.0000

Gemäß Definition kann die Korrelationsmatrix direkt aus der Kovarianzmatrix abgeleitet werden. Dazu werden die paarweisen Kovarianzen durch die jeweiligen Standardabweichungen dividiert. So ergibt sich beispielweise die Korrelation zwischen Größe und Gewicht als 77.5797 rGröße,Gewicht = ≈ 0.7149 √81.1961 ⋅ 145.0541

5.2 Zusammenhänge zwischen metrischen Merkmalen | 161

und die Korrelation zwischen Schuhgröße und Schlaf als −0.0474

rSchuhgröße,Schlaf =

≈ −0.0168. √7.9675 ⋅ 0.9996 Wie Kovarianzmatrizen sind auch Korrelationsmatrizen stets symmetrisch. Da die „Korrelation einer Variable mit sich selbst“ gleich 1 ist, stehen auf der Hauptdiagonale ausschließlich Einsen. Rechnerisch formal ergibt sich dies aus r XX =

̃s2 ̃s XX = 2X = 1. ̃s X ̃s X ̃s X

Korrelationskoeffizient nach Spearman • Hintergrund • Angenommen, es liegen folgende 4 Beobachtungswerte (1, 1), (8, 0.125), (4, 0.25) und (2, 0.5) vor. Wie aus dem linken Schaubild von Abbildung 5.2.11 hervorgeht, besteht ein negativer Zusammenhang zwischen x- und y-Werten. Dieser Zusammenhang ist in dem Sinne perfekt, dass größere x-Werte stets mit kleineren y-Werten einhergehen. Man spricht dann auch von einem perfekten (oder strengen) monotonen Zusammenhang. In diesem Fall lässt sich der Zusammenhang recht einfach über die Gleichung y = 1/x funktional beschreiben. Trotz perfekter Monotonie ist der Korrelationskoeffizient nach Pearson mit −0.84 betragsmäßig deutlich kleiner als 1. Hieran wird noch einmal deutlich, dass der Korrelationskoeffizient lediglich die Stärke der linearen Abhängigkeit misst. Tatsächlich lässt sich der Korrelationskoeffizient durch geringe Modifikation in der Weise verwenden, dass die Stärke der Monotonie anstelle der Stärke der linearen Abhängigkeit gemessen wird. 1.0

5 r X Y = − 0.84

0.8 y

rSP = − 1

4

0.6

rg(y)

0.4 0.2

3 2 1

0.0

0 0

2

4

6 x

8

10

0

1

2

3 rg(x)

Abb. 5.2.11: Streudiagramm von Ursprungswerten und zugehörigen Rangwerten

4

5

162 | 5 Beschreibung und Analyse empirischer Zusammenhänge

• Rangzahlen • In einem entscheidenden ersten Schritt werden die originären Beobachtungswerte beider Variablen zunächst in Rangzahlen übersetzt. Unter dem Rang eines Wertes versteht man dabei seine Position innerhalb der geordneten Reihe aller Beobachtungswerte. Notiert man im obigen Beispiel für die ursprünglichen x-Werte x1 = 1, x2 = 8, x3 = 4 und x4 = 2, so lauten die geordneten Werte (Abschnitt 4.2.2) x(1) = 1, x(2) = 2, x(3) = 4 und x(4) = 8. Der Wert x1 = 1 nimmt als kleinster Wert somit die 1. Position und damit Rang 1 ein, x2 als größter Wert Rang 4, x3 Rang 3 und x4 Rang 2. Dafür schreibt man auch kurz rg(x1 ) = 1, rg(x2 ) = 4, rg(x3 ) = 3 und rg(x4 ) = 2. Analog gilt im vorliegenden Fall für die y-Werte: rg(y1 ) = 4, rg(y2 ) = 1, rg(y3 ) = 2 und rg(y4 ) = 3. Allgemein gilt für eine geordnete Reihe von Werten mit x(1) < x(2) < ⋅ ⋅ ⋅ < x(n) stets: rg(x(i) ) = i. Sofern zwei oder mehrere Werte gleich groß sind, ist die Rangvergabe nicht mehr eindeutig. In solchen Fällen sog. Bindungen werden dann häufig Durchschnittsränge vergeben, siehe dazu Rechenbeispiel 5.2.7, unten. • Definition und Interpretation • Das auf Charles Spearman [1904] zurückgehende Zusammenhangsmaß ist der gewöhnliche Korrelationskoeffizient nach Pearson, der allerdings nicht für die ursprünglichen Werte, sondern für die Rangwerte berechnet wird. Formelmäßig lässt sich dies ausdrücken als 1 n

rS = √ ( 1n

∑ni=1

∑ni=1 rg(x i )rg(y i ) − rg X rg Y

rg(x i

)2



rg 2X )( 1n

∑ni=1

rg(y i

, )2



rg 2Y )

wobei rg X =

1 n ∑ rg(x i ) n i=1

und

rg Y =

1 n ∑ rg(y i ). n i=1

Im vorhergehenden Beispiel wären die in Rangwerte transformierten Beobachtungswerte (1, 4), (4, 1), (3, 2) und (2, 3). Abbildung 5.2.11 zeigt wie mit dieser Transformation aus einer streng monotonen nichtlinearen Beziehung ein perfekt negativer linearer Zusammenhang hervorgeht. Der Korrelationskoeffizient nach Spearman, kurz Rangkorrelationskoeffizient genannt, ist folglich genau dann betragsmäßig gleich 1, falls ein perfekt monotoner

5.2 Zusammenhänge zwischen metrischen Merkmalen | 163

Zusammenhang besteht, wobei das Vorzeichen von der Richtung der Monotonie abhängt. Ist der Koeffizient positiv, liegt ein positiver Zusammenhang vor, ist er negativ, liegt ein negativer Zusammenhang vor. Liegt der Wert nahe 0, so ist keine Richtungstendenz erkennbar, was jedoch wie auch beim Koeffizienten nach Pearson andere Abhängigkeitsstrukturen nicht ausschließt. Im vorliegenden Fall ist r S = −1. Größere x-Werte gehen im strengen Sinne mit kleineren y-Werten einher. • Sinnvolle Ergänzung zur gewöhnlichen Korrelation • Da mit dem Rangkorrelationskoeffizienten auch nichtlineare Abhängigkeitsstrukturen erfasst werden können, empfiehlt sich dessen Berechnung generell in Ergänzung zum Pearson’schen Maß. Bei größeren Differenzen wäre dann eine differenzierte Analyse und Interpretation angezeigt. Der Rangkorrelationskoeffizient erweist sich als robust oder zumindest robuster als der gewöhnliche Korrelationskoeffizient, da metrisch skalierte Ausreißer durch Rangzahlen meist deutlich kaschiert werden. So ergibt sich beispielsweise im rechten Schaubild von Abbildung 5.2.9 ein Koeffizient von lediglich r S = 0.15 (−0.01 ohne Ausreißer). • Transformationseigenschaften • Da sich die größenmäßige Reihenfolge metrischer Werte durch Verschiebungen und Umskalierungen nicht ändert, ist der Rangkorrelationskoeffizient verschiebungs- und skaleninvariant. Zusätzlich ist er auch invariant gegenüber monotonen Transformationen. In diesem Zusammenhang sei auf die in der Praxis häufig verwendeten Log-Transformationen hingewiesen, bei denen eine der beiden Variablen oder beide Variablen gleichzeitig logarithmiert werden (vgl. Beispiel 5.2.11, Abschnitt 5.2.3). • Auch für Ordinalskala geeignet • Der Korrelationskoeffizient nach Spearman lässt sich prinzipiell auch auf ordinal skalierte Merkmale anwenden (Abschnitt 2.2). • Beispiel 5.2.7 • Angenommen es liegen folgende 10 Beobachtungswerte vor: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3). Die Daten stimmen mit dem Rechenbeispiel zu Beginn dieses Abschnitts überein. Zur Berechnung „von Hand“ empfiehlt sich wiederum eine Arbeitstabelle, aus deren Spaltensummen sich alle wesentlichen Bestandteile des Rangkorrelationskoeffizienten ablesen lassen. Im vorliegenden Fall treten bei den x-Werten Bindungen beim Wert 4 und bei den y-Werten bei den Werten 2, 3, 4 und 5 auf. Von den jeweils zu vergebenden Rängen werden dann durchschnittliche Rangwerte entsprechend der Anzahl der Bindungen mehrfach vergeben. Im Falle der x-Werte müssten eigentlich die Ränge 2, 3 und 4 vergeben werden. Aufgrund der dreifachen Bindung beim Wert 4 wird stattdessen also

164 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Tab. 5.2.3: Arbeitstabelle zur Berechnung des Rangkorrelationskoeffizienten i 1 2 3 4 5 6 7 8 9 10 Summe

xi 2 4 4 5 6 8 9 10 4 7 59

yi 1 2 3 2 4 5 6 4 5 3 35

rg(x i ) 1 3 3 5 6 8 9 10 3 7 55

rg(y i ) 1 2.5 4.5 2.5 6.5 8.5 10 6.5 8.5 4.5 55

rg(x i )2 1 9 9 25 36 64 81 100 9 49 383

rg(y i )2 1 6.25 20.25 6.25 42.25 72.25 100 42.25 72.25 20.25 383

rg(x i )rg(y i ) 1 7.5 13.5 12.5 39 68 90 65 25.5 31.5 353.5

der Durchschnittsrang 3 drei Mal vergeben. Bei den y-Werten wird analog verfahren. Hier wird beispielsweise aufgrund der zweifachen Bindungen beim Wert 2 anstelle der Ränge 2 und 3 der Durchschnittsrang 2.5 zwei Mal vergeben. Insgesamt ergibt sich damit rS =

1 10

⋅ 353.5 −

√ ( 383 10 −

55 10

552 )( 383 10 102



55 10



≈ 0.6335.

552 ) 102

Der Wert deutet auf einen deutlich positiven Zusammenhang hin. Der Korrelationskoeffizient nach Pearson mit r XY ≈ 0.6730 bewegt sich in ähnlicher Größenordnung. Zwischen der Stärke der linearen Abhängigkeit und der Stärke der Monotonie ergeben sich folglich keine größeren Unterschiede. Beispiel 5.2.8: Korrelation von Wirtschaftsleistung und Lebenserwartung In Beispiel 4.1.1 (Abschnitt 4.1) wurde die länderspezifische Verteilung des Bruttoinlandsprodukts pro Kopf und der Lebenserwartung von Frauen bei der Geburt untersucht. Wie man im linken Schaubild von Abbildung 5.2.12 gut erkennen kann, ist der Zusammenhang von konkaver Natur. Ab einer bestimmten Schwelle an Wirtschaftskraft ist offensichtlich keine Zunahme an Lebenserwartung mehr gegeben. Aufgrund der deutlichen Rechtsschiefe der Verteilung des Pro-Kopf-BIP (vgl. Abb. 4.1.2 in Abschnitt 4.1) ist die Punktewolke im linken Bereich nur schwer zu deuten. Der Korrelationskoeffizient nach Pearson beträgt immerhin 0.54. Im rechten Schaubild ist der Zusammenhang der Rangwerte dargestellt. Die Skalierung der Rangzahlen legt die Monotonie des Zusammenhangs offen und führt gleichzeitig auch zu einer besseren Lesbarkeit. Der Rangkorrelationskoeffizient ist mit 0.82 wesentlich größer. Folglich besteht ein stark monotoner Zusammenhang zwischen den beiden Größen. Länder

5.2 Zusammenhänge zwischen metrischen Merkmalen | 165

mit höherer Wirtschaftsleistung weisen in aller Regel also eine höhere Lebenserwartung auf. 200

80 70 60 50

r X Y = 0.54

rg(Lebenserwartung)

Lebenserwartung

90

r S = 0.82

150 100 50

40

0 0

20

40

60

80

100

Pro−Kopf BIP in 1000 US$

0

50

100

150

200

rg(Pro−Kopf−BIP)

Daten: United Nations Statistics Division [2014] Abb. 5.2.12: Zusammenhang von Wirtschaftsleistung und Lebenserwartung

5.2.3 Einfache lineare Regression Zweck und allgemeine Vorgehensweise • Hintergrund • In vielen Fällen erscheint es interessant und nützlich, den Zusammenhang zwischen zwei Merkmalen funktional zu beschreiben. Zur Beschreibung linearer Abhängigkeiten kommen dabei insbesondere Geradengleichungen in Frage. Diese ermöglichen sowohl Aussagen über kausale Effekte als auch stets gewisse Formen von Prognosen. Abbildung 5.2.13 stellt eine Erweiterung von Beispiel 5.2.6 (Abschnitt 5.2.2) dar. Die Veränderung der Erwerbslosenquote und das durchschnittliche Wirtschaftswachstum (reales BIP) der Euro-Länder und einiger weiterer ausgewählte Länder werden nun für zwei unterschiedliche Zeiträume in Beziehung gesetzt. Trotz ähnlicher Korrelationswerte (−0.75 und −0.66) liegen doch recht unterschiedliche Situationen vor. Für beide Zeiträume wurden jeweils zwei die Datenpunkte approximierenden Geraden nach unterschiedlichen Berechnungsmethoden (KQ-Methode und LAD-Methode) bestimmt. Unabhängig von der Berechnungsweise fallen die Steigungen der Geraden verschieden aus. So gehen bestimmte Unterschiede im Wirtschaftswachstum im längeren Zeitraum von 2007 bis 2012 mit größeren Veränderungen am Arbeitsmarkt einher als im kürzeren Zeitraum der krisengezeichneten Jahre von 2007 bis 2009. Entsprechend äußert sich dies durch einen größeren Steigungskoeffizienten. • Lineares Regressionsproblem • Ziel einer einfachen linearen Regression ist es, den Zusammenhang zweier Merkmale X und Y mittels einer linearen Geradengleichung y = b0 + b1 ⋅ x

20

Enwicklung von 2007 bis 2009 KQ LAD

15 10 5 0

r X Y = − 0.75

−5 −15

−10

−5

0

Erwerbslosenquote − Differenz

Erwerbslosenquote − Differenz

166 | 5 Beschreibung und Analyse empirischer Zusammenhänge

20

Enwicklung von 2007 bis 2012 KQ LAD

15 10 5 0

r X Y = − 0.66

−5

5

BIP−Wachstum

−15

−10

−5

0

5

BIP−Wachstum

Quelle: Sachverständigenrat [2013, Schaubild 65] Abb. 5.2.13: Wirtschafts- und Arbeitsmarktentwicklung in unterschiedlichen Zeiträumen

zu beschreiben. Dabei bezeichnet b0 den Achsenabschnitt und b1 den Steigungskoeffizienten der Geraden. Es ist klar, dass eine solche Gerade den Zusammenhang nicht perfekt beschreibt, solange die Korrelation betragsmäßig kleiner als 1 ist. Das Regressionsproblem besteht deshalb allgemein darin, die im Zusammenhang einer approximierenden Geraden auftretenden Abweichungen (Fehler) der Beobachtungswerte zur Geraden insgesamt möglichst klein zu halten. • Mathematisch formaler Rahmen • Zur mathematischen Formulierung und Lösung des Regressionsproblems werden die Daten im Rahmen einer Regressionsgleichung beschrieben. Für gegebene Beobachtungswerte (x1 , y1 ), . . . , (x n , y n ) gilt dabei die Beziehung y i = b0 + b1 ⋅ x i + u i für i = 1, . . . , n. Ausführlich notiert handelt es sich dabei eigentlich um n Gleichungen, nämlich y1 = b0 + b1 ⋅ x1 + u1 , y2 = b0 + b1 ⋅ x2 + u2 , .. . y n = b0 + b1 ⋅ x n + u n . Demnach ergeben sich die y-Werte linear aus den x-Werten und zusätzlichen additiven Termen u i , welche als Fehler oder Residuen bezeichnet werde. Bildlich entsprechen die Residuen den vertikalen Abweichungen (Abständen) der Beobachtungswerte von einer approximierenden Geraden. Sinnvollerweise wird Y als Zielvariable oder abhängige Variable und X als Einflussvariable, unabhängige Variable oder erklärende Variable bezeichnet. Alternativ werden auch die Bezeichnungen Regressand und Regressor für Ziel- bzw. Einflussvariable verwendet. Natürlicherweise sollte die Einflussvariable als eine die Zielvariable kausal beeinflussende Variable zu verstehen

5.2 Zusammenhänge zwischen metrischen Merkmalen | 167

sein. Jedoch erweist sich die Klärung solcher Fragen also nicht immer ganz eindeutig. Weitergehende Ausführungen zu diesem Punkt finden sich in Abschnitt 5.3.3. • Interpretation von Koeffizienten und Prognosen • Der Steigungskoeffizient b1 wird dahingehend interpretiert, dass eine Veränderung von X um ∆x Einheiten „tendenziell“ mit einer Veränderung in Y um b1 × ∆x Einheiten einhergeht (Abb. 5.2.14, links). Die Richtung der Veränderung stimmt dabei mit dem Vorzeichen des Koeffizienten überein. Somit wird mit dem Steigungskoeffizienten mehr oder weniger eine kausale Effektstärke gemessen. Der Achsenabschnitt b0 ist formal der für Y „prognostizierte“ Wert, falls X gleich 0 ist. So sollte etwa im rechten Schaubild von Abbildung 5.2.14 mit jedem Zentimeter zusätzlicher Körpergröße das Gewicht tendenziell um etwa 0.93 kg zunehmen. Für b0 = −95.13 (kg) ergibt sich in diesem Fall jedoch keine inhaltlich sinnvoll interpretierbare Größe.

b 0 + b 1x i

ui

yi

b0

Gewicht in kg

y

y=

Δy

b 1x b 0+ Δx

0 b1 =

Δy

120

r X Y = 0.71

100

y^(x ) = − 95.13 + 0.93x

80 60 40

xi

140

x

150

Δx

160

170

180

190

200

Größe in cm

Quelle: Eigenerhebung Abb. 5.2.14: Einfache lineare Regression: Interpretation und Beispiel

Anhand von Regressionsgeraden lassen sich stets auch gewisse Formen von Prognosen (Prädiktionen) erstellen. So sollte im vorliegenden Beispiel ein 180 cm großer Student gemäß der angepassten Geraden etwa 72.3 kg wiegen, da −95.13 + 0.93 ⋅ 180 = 72.27 ist. In diesem Fall handelt es sich also um keine Prognosen mit zeitlicher Dimension. Regressionstechniken werden jedoch auch in der Zeitreihenanalyse angewendet und stellen dort wichtige Instrumente im Zusammenhang „echter Prognosen“ dar. • Berechnungsmethoden • Mathematisch wird das Regressionsproblem als Optimierungsproblem aufgefasst, wobei je nach Wahl des Optimalitätskriteriums unterschiedliche Lösungen denkbar sind. Minimiert man beispielsweise die Summe aller absoluten Fehler n

∑ |u i |, i=1

168 | 5 Beschreibung und Analyse empirischer Zusammenhänge

so resultiert daraus die sog. LAD-Gerade (least absolute deviation). Minimiert man dagegen die Summe der quadratischen (quadrierten) Fehler n

∑ u2i , i=1

resultiert daraus die Kleinste-Quadrate-Gerade (KQ-Gerade). Daneben existiert eine Fülle weiterer Möglichkeiten eine Regressionsgerade sinnvoll zu konstruieren. Nachfolgende Ausführungen werden sich jedoch auf diese beiden beschränken. 4

4

y~(x ) = 0.75 + 0.25x ●

3 y 2 ●

1



3 ● de Gera LAD−



y^(x ) = 0.9 + 0.3x



y 2

● ●

1

0

de Gera

KQ− ●



0 0

1

2

3

4

5

6

0

1

2

x

3

4

5

6

x

Abb. 5.2.15: Minimierung absoluter oder quadratischer Abweichungen

• Frage der Auswahl • Tatsächlich ist die Minimierung der quadratischen Abstände, die Kleinste-Quadrate-Methode, die mit Abstand populärste Berechnungsmethode. Dafür gibt es sowohl praktische wie auch theoretische Gründe. Wie sich noch zeigen wird, verhalten sich LAD-Gerade und KQ-Gerade ähnlich zueinander wie Median und Mittelwert. Den entscheidenden Unterschied macht dabei weniger die Interpretation, sondern die höhere Robustheit der LAD-Geraden gegenüber Ausreißern aus. In der Praxis empfiehlt es sich beide Berechnungsmethoden zu verwenden, um Ergebnisse gegebenenfalls differenzierter angeben zu können. Sofern sich wie in Abbildung 5.2.15 Ergebnisse nur unwesentlich unterscheiden, mag es genügen, lediglich die Ergebnisse der gängigeren KQ-Regression wiederzugeben. In der Praxis ist die Auswahl der Berechnungsmethode also eher eine Frage der Differenziertheit als eine Frage der Richtigkeit.

KQ-Methode (L2 -Regression) • Minimierungsproblem • Wie bereits erwähnt besteht die bedeutendste Berechnungsmethode darin, die Summe der quadratischen Abweichungen zu minimieren (Kleinste-Quadrate-Methode), also den Ausdruck n

n

∑ u2i = ∑ (y i − b0 − b1 x i )2 . i=1

i=1

5.2 Zusammenhänge zwischen metrischen Merkmalen | 169

Das Verfahren wird auch als L2 -Regression bezeichnet, da sich quadratische Abweichungen mathematisch im Rahmen der sog. L2 -Norm behandeln lassen, was hier jê mit doch nicht weiter vertieft werden soll. Definiert man nun die Funktion Q n

̂ 0 , b1 ) = ∑ (y i − b0 − b1 x i )2 , Q(b i=1

so kann man das Minimierungsproblem auch formal schreiben als ̂ 0 , b1 ). min Q(b

(5.2.7)

b0 ,b1

Angenommen es liegen die folgenden 5 Beobachtungswerte vor (Abb. 5.2.15): (1, 1), (2, 2), (3, 1), (4, 3), (5, 2). Dann lautet die zu minimierende Funktion konkret: ̂ 0 , b1 ) = (1 − b0 − b1 )2 + (2 − b0 − 2b1 )2 + (1 − b0 − 3b1 )2 Q(b + (3 − b0 − 4b1 )2 + (2 − b0 − 5b1 )2 . Die einzelnen Terme könnten natürlich noch weiter verrechnet und zusammengefasst werden. 0.5

^ Q (b 0,0.3)

8

^ Q (b 0,b 1)

9 3

2.1

2.

2.3 2.5

0.4

^ Q (0.9,b 1)

8

6

6

4

4

2

2

0.3

b1 2

0.2

3

0.1

2.

8

2.2

2.

2.4

7 2.

9

2.6

0.0

0 0.0

0.5

1.0

b0

1.5

2.0

0 0.0

0.5

1.0

1.5

b0

2.0

0.0

0.1

0.2

0.3

0.4

0.5

b1

Abb. 5.2.16: L2 -Regression: Minimierung der Zielfunktion

̂ Die Abbildung 5.2.16 zeigt im linken Schaubild einen Konturplot der Zielfunktion Q. wie in einer Landkarte zu interpretierenden „Höhenlinien“ indizieren die Gestalt einer Mulde mit Tiefpunkt an der Stelle (0.9, 0.3). Die anderen beiden Schaubilder stellen jeweils eine Art Höhenprofil entlang der eingezeichneten Pfeile dar. Daraus wird ein insgesamt „glatter“ Funktionsverlauf bezüglich beider Variablen ersichtlich. Die Zielfunktion ist überall stetig und differenzierbar. Der minimale Funktionswert an der Stelle (0.9, 0.3) ist ̂ Q(0.9, 0.3) = 1.9.

170 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Zusammengefasst heißt das, dass die KQ-Gerade den Achsenabschnitt 0.9 und die Steigung 0.3 besitzt. Die Summe der quadrierten Fehler beträgt dabei insgesamt 1.9. • Lösung und Berechnung • Tatsächlich besitzt das Minimierungsproblem (5.2.7) bei positiver Varianz der x-Werte stets die eindeutigen Lösungen ̂0 = y − b ̂ 1 x und b ̂ 1 = ̃s XY . b ̃s2X

(5.2.8)

Der Steigungskoeffizient ergibt sich stets aus der Kovarianz von x- und y-Werten dividiert durch die Varianz der x-Werte. Der Achsenabschnitt wird anhand der Mittelwerte und dem berechneten Steigungskoeffizienten ermittelt. Diese einfach zu berechnenden Lösungsformeln lassen sich über partielles Ableiten der Zielfunktion relativ einfach analytisch herleiten (vgl. Abschnitt 12.1.1). Für die Daten des vorhergehenden Beispiels erhält man damit ̂0 = y − b ̂ 1 x = 1.8 − 0.3 ⋅ 3 = 0.9. ̂ 1 = ̃s XY = 0.6 = 0.3 und b b 2 ̃s2X Die ausführliche Berechnung „von Hand“ findet sich im späteren Rechenbeispiel. Liegt keinerlei Variation in den x-Werten vor, so existiert zwar eine Lösung, jedoch ist diese dann (und nur dann) nicht mehr eindeutig. Abbildung 5.2.17 illustriert einen solchen Fall. Alle x-Werte sind hier gleich 3. Alle Geraden, welche durch den Punkt (2, 2) verlaufen, weisen nun die gleiche minimale Summe quadratischer Fehler auf. Diese beträgt genau 12 + (−1)2 + 02 = 2. Allerdings sollte betont werden, dass in solchen Fällen eine lineare Regression inhaltlich ohnehin nicht mehr sinnvoll erscheint. Im Rahmen der multiplen Regression (Abschnitt 12.2) wird später der Fall nicht eindeutiger Lösungen unter dem Problem sog. Multikollinearität behandelt. y 4 3 2 1 x 0

1

2

3

4

5

x 1=x 2=x 3

Abb. 5.2.17: L2 -Regression: Beispiel einer nicht eindeutigen Lösung

5.2 Zusammenhänge zwischen metrischen Merkmalen | 171

• Bezeichnungen • Die Lösungen des Minimierungsproblems (5.2.7) werden als Kleinste-Quadrate-Koeffizienten bezeichnet. Die korrespondierende Gerade ̂1x ̂0 + b ̂y(x) = b heißt Kleinste-Quadrate-Gerade oder kurz KQ-Gerade. Die für die beobachteten x-Werte mittels Gerade prognostizierten y-Werte heißen gefittete Werte und sind definiert als ̂0 + b ̂ 1 x i für i = 1, . . . , n. ̂y i = b In Abbildung 5.2.18 wurden die Punkte (x i , ̂y i ) durch Kreuze dargestellt. Die (vertikalen) Abweichungen der y-Werte von den gefitteten Werten heißen KQResiduen und sind definiert als ̂ i = y i − ̂y i für i = 1, . . . , n. u Ein Punkt oberhalb der Geraden wird durch ein positives, ein Punkt unterhalb der Geraden durch ein negatives Residuum ausgewiesen. Ein Residuum von 0 indiziert, dass der Punkt auf der Geraden liegt. • Eigenschaften der KQ-Gerade • Für jede KQ-Gerade gilt: (1) Sie verläuft durch den Schwerpunkt (x, y). (2) Die Summe der gefitteten Werte ist gleich der Summe der y-Werte. (3) Die Summe der KQ-Residuen ist gleich 0. Aufgrund der letzten Eigenschaft wird die KQ-Gerade manchmal auch als Ausgleichsgerade bezeichnet, da sich positive und negative Fehler in der Summe ausgleichen. Der Nachweis dieser drei und einiger weiterer Eigenschaften findet sich in Abschnitt 12.1.1. y 4 y4

3

(x 4,y 4) u^4

y^4

2

y

(x,y)

1

0

1

2

x

x4

3

4

x 5

Abb. 5.2.18: L2 -Regression durch den Schwerpunkt

6

172 | 5 Beschreibung und Analyse empirischer Zusammenhänge

• Beispiel 5.2.9 • Wir nehmen die 5 Beobachtungswerte gemäß Abbildung 5.2.15 bzw. 5.2.18. Die Arbeitstabelle ist nahezu deckungsgleich zur derjenigen für den Korrelationskoeffizienten (Abschnitt 5.2.2). Die 4 letzten Spalten enthalten zu Anschauungszwecken gefittete Werte und KQ-Residuen, die zur Berechnung der KQ-Geraden an sich nicht benötigt werden. Tab. 5.2.4: Arbeitstabelle zur Bestimmung einer KQ-Geraden i 1 2 3 4 5 Summe

xi 1 2 3 4 5 15

yi 1 2 1 3 2 9

xi yi 1 4 3 12 10 30

̂y i 1.2 1.5 1.8 2.1 2.4 9

x 2i 1 4 9 16 25 55

̂i u −0.2 0.5 −0.8 0.9 −0.4 0

̂i| |u 0.2 0.5 0.8 0.9 0.4 2.8

̂ 2i u 0.04 0.25 0.64 0.81 0.16 1.9

Aus den Spaltensummen erhält man zunächst einmal 15 9 = 3 und y = = 1.8. 5 5 Unter Verwendung der Verschiebungsformeln folgt gemäß den Lösungsformeln (5.2.8): x=

̂ 1 = ̃s XY = b ̃s2X

1 n n ∑i=1 x i y i − xy 2 1 n 2 n ∑i=1 x i − x

=

1 5

⋅ 30 − 3 ⋅ 1.8 1 5

⋅ 55 −

32

=

6 − 5.4 = 0.3 bzw. 11 − 9

̂0 = y − b ̂ 1 x = 1.8 − 0.3 ⋅ 3 = 0.9. b Die KQ-Gerade lautet damit ̂0 + b ̂ 1 x = 0.9 + 0.3x. ̂y(x) = b Gefittete Werte und Residuen ergeben sich dann als ̂y1 = 0.9 + 0.3 ⋅ 1 = 1.2, . . . , ̂y5 = 0.9 + 0.3 ⋅ 5 = 2.4, bzw. ̂ 1 = y1 − ̂y1 = 1 − 1.2 = −0.2, . . . , u ̂ 5 = y5 − ̂y5 = 2 − 2.4 = −0.4. u Wie man sieht, ist die Summe der gefitteten Werte gleich der Summe der y-Werte, die Summe aller KQ-Residuen ergibt 0, und die KQ-Gerade verläuft durch den Schwerpunkt (3, 1.8). Die Residuenquadratsumme ist mit 1.9 kleiner und die Summe der absoluten Abweichungen mit 2.8 größer als bei der L1 -Regression (vgl. Tab. 5.2.5). • Interpretation der KQ-Gerade • Grundsätzlich werden Achsenabschnitt und Steigung der KQ-Geraden in der Weise gedeutet, wie es zuvor für den allgemeinen Fall einer linearen Regression beschrieben wurde. Die im Zuge inferenztheoretischer Überlegungen abgeleiteten Eigenschaften der KQ-Geraden legen es jedoch auch nahe, die KQ-Gerade als eine sich auf den „Durchschnitt“ beziehende Gerade zu deuten. So lässt sich zeigen, dass unter bestimmten Modellannahmen die mittels Geradengleichung

5.2 Zusammenhänge zwischen metrischen Merkmalen | 173

prognostizierten Werte „im Mittel zu erwarteten Werten“ entsprechen (vgl. hierzu die Ausführungen im Rahmen von Abschnitt 12.1.3). Bei der Deutung des Steigungskoeffizienten wird deshalb häufig auch von einer „Steigerung um durchschnittlich b1 × ∆x Einheiten“ gesprochen. Im Beispiel von Abbildung 5.2.14 mit Körpergrößen und Gewichten von Personen sollte das Gewicht einer Person also um durchschnittlich 0.93 kg pro Zentimeter zunehmen und eine 180 cm große Person sollte im Durchschnitt 72.27 kg wiegen. • Bezug zum Korrelationskoeffizienten • Da das Vorzeichen des Steigungskoeffizienten allein vom Vorzeichen der Kovarianz abhängt, stimmt dieses mit dem Vorzeichen der Korrelation stets überein. Bei positiver Korrelation besitzt die KQ-Gerade also eine positive Steigung und bei negativer Korrelation eine negative Steigung. Sind x- und y-Werte unkorreliert, so ist die Steigung der KQ-Geraden gleich 0. • Bezug zum arithmetischen Mittel • Restringiert man den Steigungskoeffizienten auf den Wert 0, d.h. führt man eine Achsenabschnittsregression durch, resultiert daraus die zu minimierende Zielfunktion n

̂f (b0 ) = ∑ (y i − b0 )2 . i=1

Die Lösung hierzu lautet bekanntermaßen (Abschnitt 4.9.1) ̂ 0 = y. b Man erhält eine horizontale Gerade auf Höhe des arithmetischen Mittels der y-Werte. In der KQ-Gerade spiegelt sich somit die Minimumeigenschaft des arithmetischen Mittels wider. • Vor- und Nachteile der KQ-Methode • Die KQ-Methode führt insgesamt zu einer eindeutigen, einfach zu berechnenden und gut interpretierbaren Lösung. Die Lösungsformeln enthalten gängige statistische Größen, die sich selbst von Hand noch berechnen lassen. Auch insgesamt betrachtet lässt sich die KQ-Methode mathematisch, insbesondere in der linearen Algebra (Vektor- und Matrizenrechnung) wesentlich „eleganter“ darstellen und handhaben als die LAD-Methode. Die Verwendung quadratischer Abweichungen führt außerdem zu analytischen Ausdrücken, die im Rahmen der Differential- und Integralrechnung bearbeitbar sind. Die Verwendung absoluter Abweichungen hat hingegen häufig Problemstellungen zur Folge, die lediglich mithilfe rechnergestützter numerischer Verfahren gelöst werden können. Wird die approximierende Anpassung einer linearen Geraden als statistisches Problem gedeutet und mithilfe statistischer Modellierung behandelt, erweist sich die KQ-Gerade unter bestimmten Annahmen als optimal. Formal wird diese Optimalitätseigenschaft im Rahmen des sog. Gauß-Markov-Theorems gefasst und auch als GaußMarkov-Eigenschaft bezeichnet (Abschnitt 12.1.3).

174 | 5 Beschreibung und Analyse empirischer Zusammenhänge

15

15

15

KQ LAD

KQ LAD

10

10

y

10

y 5

y 5

5

KQ LAD 0

0 0

5

10

x

15

0 0

5

10

x

15

0

5

10

15

x

Abb. 5.2.19: KQ-Gerade und LAD-Gerade bei Ausreißern

Ein offensichtlicher Nachteil der KQ-Geraden ist deren Empfindlichkeit gegenüber Ausreißern. Abbildung 5.2.19 illustriert dies anhand von 3 Situationen. Das linke und mittlere Schaubild zeigen mit Ausnahme eines einzelnen Ausreißers die gleichen Daten. Der Ausreißer ist in Bezug auf seine Lage in y-Richtung auffallend groß. Die KQGerade wird dadurch quasi ausgehebelt, während die LAD-Gerade selbst bei größerem y-Wert unverändert bleibt. Dies liegt daran, dass bei der KQ-Methode Abstände quadratisch eingehen. Infolgedessen muss sich die KQ-Gerade unverhältnismäßig stark an abweichende Beobachtungen anpassen, um die Summe aller quadratischen Abweichungen insgesamt minimal zu halten. Das rechte Schaubild verdeutlicht jedoch, dass in gewissen Situationen selbst die LAD-Gerade durch Ausreißer deutlich beeinflusst werden kann. Dies ist insbesondere dann der Fall, falls deren Lage auch in xRichtung auffällig abweicht. • Anmerkungen zur Historie • Der Kleinste-Quadrate-Ansatz wurde erstmals von Adrien-Marie Legendre [1805] publiziert. Etwas später folgte der deutsche Mathematiker Carl Friedrich Gauss [1809], der diese Methode konzeptionell und technisch deutlich tiefer behandelte, vor allem aber auch mit wahrscheinlichkeitstheoretischen Überlegungen in Verbindung brachte. Zwischen Legendre und Gauß entstand darüber der „berühmteste Prioritätendisput in der Geschichte der Statistik“, da letzterer behauptete die Methode bereits vor 1805 verwendet zu haben, wofür wohl auch einige Indizien sprechen (vgl. Stigler [1981]). Unbestritten ist jedoch, dass zuerst Legendre die immense Bedeutung dieser Methode bewusst wurde und diese auch als Erster explizit publizierte. Ursprünglich wurde sie als approximatives Berechnungsverfahren überbestimmter linearer Gleichungssysteme (mehr Gleichungen als Unbekannte) verwendet, die sich im Kontext astronomischer und geodätischer Messprobleme auf Basis von Beobachtungsdaten ergaben. Ihre allgemeine Nützlichkeit zur Lösung von Regressionsproblemen für statistische Zusammenhangsanalysen wurde erst 90 Jahre später insbesondere von Yule [1897a, 1897b] erkannt und ausgearbeitet. Dem gingen einige bedeutende konzeptionelle und theoretische Vorarbeiten von Galton [1885b, 1886] und Pearson [1896] voraus.

5.2 Zusammenhänge zwischen metrischen Merkmalen | 175

LAD-Methode (L1 -Regression) • Minimierungsproblem • Auf den ersten Blick naheliegender als die KQ-Gerade wäre es ja eigentlich, diejenige Gerade zu bestimmen, welche die Summe aller absoluten Abweichungen, also n

n

∑ |u i | = ∑ |y i − b0 − b1 x i |, i=1

i=1

minimiert. Dieses historisch tatsächlich auch ältere Berechnungsverfahren wird als L1 -Regression bezeichnet, da absolute Abweichungen im Rahmen der sog. L1 -Norm behandelt werden. Definiert man dementsprechend die Funktion mit n

̃ 0 , b1 ) = ∑ |y i − b0 − b1 x i |, Q(b i=1

ergibt sich daraus das Minimierungsproblem ̃ 0 , b1 ) min Q(b

(5.2.9)

b0 ,b1

̃ 0 bzw. b ̃ 1 definieren dann die LAD-Gerade (least absolute deviation) Die Lösungen b ̃ 1 x. ̃0 + b ̃y(x) = b Mit den gleichen Beobachtungswerten wie zuvor lautet die zu minimierende Funktion jetzt: ̃ 0 , b1 ) = |1 − b0 − b1 | + |2 − b0 − 2b1 | + |1 − b0 − 3b1 | + |3 − b0 − 4b1 | Q(b + |2 − b0 − 5b1 |

0.5

~ Q (b 0,0.25)

8

~ Q (b 0,b 1)

0.4

~ Q (0.75,b 1)

8

6

6

4

4

2

2

0.3

b1

2.6

0.2

2.7 2.8

0.1

2.9

3

0.0 0.0

0.5

1.0

b0

1.5

2.0

0

0 0.0

0.5

1.0

1.5

b0

2.0

0.0

0.1

0.2

0.3

0.4

0.5

b1

Abb. 5.2.20: L1 -Regression: Minimierung der Zielfunktion

Die Schaubilder in Abbildung 5.2.20 indizieren wiederum die Gestalt einer Mulde nun allerdings mit tiefster Stelle (0.75, 0.25). Die Zielfunktion ist zwar überall stetig, aber nicht überall differenzierbar. Stattdessen weist die Funktion gewisse „Knickstellen“

176 | 5 Beschreibung und Analyse empirischer Zusammenhänge

auf. Der minimale Funktionswert beträgt ̃ Q(0.75, 0.25) = 2.5. Dies ist zugleich die Summe aller absoluten Fehler. Abbildung 5.2.15 (links) zeigt das Ergebnis dieser Regression. • Lösung und Berechnung • Obwohl dieser Rechenansatz zunächst sehr natürlich erscheint, ist er bei weitem nicht so populär wie der Kleinste-Quadrate-Ansatz. Ein wichtiger Grund dafür ist, dass das Minimierungsproblem nur mithilfe rechnergestützter numerischer Verfahren (lineare Programmierung) gelöst werden kann. Einfach zu berechnende Lösungsformeln für Achsenabschnitt und Steigung existieren nicht. In manchen Fällen ist das Optimum nur schwer bestimmbar oder das Minimierungsproblem ist nicht eindeutig lösbar (siehe nächster Punkt).

y

4

4

4

3

3

3

y

2

1

y

2

1

0

1

0 0

1

2 x

3

4

2

0 0

1

2

3

4

x

0

1

2

3

4

x

Abb. 5.2.21: L1 -Regression: Beispiel einer nicht eindeutigen Lösung

• Eindeutigkeitsprobleme • Abbildung 5.2.21 zeigt ein (stilisiertes) Beispiel einer nicht eindeutig bestimmbaren LAD-Geraden. Ausgehend von einer Geraden mit Achsenabschnitt 0.5 und Steigung 1 (linkes Schaubild), lässt sich diese parallel um bis zu 0.5 Einheiten sowohl nach oben als auch nach unten verschieben, ohne dass sich die Summe der absoluten Abweichungen verändert. Wird die Gerade beispielsweise um 0.5 nach unten verschoben (mittleres Schaubild), so werden die Abstände zu den darüber liegenden Punkten zwar größer, die Abstände zu den darunter liegenden Punkten gleichzeitig aber um die gleichen Beträge kürzer. Auch für andere Konstellationen bleibt die Summe aller Abstände unverändert gleich 3. So stellen sämtliche Geraden, welche für 1 ≤ x ≤ 3 komplett den grau markierten Korridor durchlaufen, zulässige Lösungen dar. Die KQ-Gerade wäre dagegen eindeutig. Sie entspricht dem ersten Lösungsvorschlag im linken Schaubild. Die Schaubilder von Abbildung 5.2.22 indizieren für die zu minimierende Zielfunktion der obigen Situation eine Art Plateau mit Minimalwert 3. Alle auf diesem Plateau befindlichen Punkte stellen zulässige Lösungspaare für Achsenabschnitt und Steigung dar. Beispielhaft wurden die zulässigen Lösungen

5.2 Zusammenhänge zwischen metrischen Merkmalen | 177

(0.5, 1), (0, 1), (−0.5, 1.5), (0, 1.2) und (1.5, 0.5) als Punkte eingezeichnet. Diese korrespondieren mit den insgesamt 5 unterschiedlichen Geraden in Abbildung 5.2.21. 2.0

5

5.

5 6 .

5

9

4

~ Q (0.5,b 1) 8

5 7.

6

1.5

~ Q (b 0,1)

8

~ Q (b 0,b 1) 9. 8

5 9.

6

4

4

2

2

5

6

9 5 8.

1.0

10

b1 3.5

0.0

8 7 .5 10 8

7

0.5

4.5 .5

5.5

6

7

6.5

−0.5 −2

−1

0

1

2

3

−2

−1

0

1

b0

2

3

b0

−0.5

0.0

0.5

1.0

1.5

2.0

b1

Abb. 5.2.22: Minimierung der Zielfunktion bei nicht eindeutiger Lösung

• Bezeichnungen • Die Bezeichnungen für Koeffizienten, Gerade, gefittete Werte und Residuen werden analog zur KQ-Methode geführt. Gegebenenfalls ist der Zusatz „KQ“ durch „LAD“ zu ersetzen. So notieren wir beispielsweise die korrespondierende LAD-Gerade mit ̃0 + b ̃ 1 x. ̃y(x) = b • Eigenschaften der LAD-Gerade • Die in Abschnitt 5.2.3 aufgeführten 3 Eigenschaften der KQ-Gerade gelten nicht für die LAD-Gerade. Die LAD-Gerade verläuft im Allgemeinen also nicht durch den Schwerpunkt. Die Summe der gefitteten Werte entspricht nicht der Summe der y-Werte und die Summe der Residuen ist im Allgemeinen nicht gleich 0. Dafür gelten andere Eigenschaften. Die LAD-Gerade besitzt in der Regression eine ähnliche Funktion wie der Median bei den Lagekenntwerten. So verläuft sie stets so, dass mindestens die Hälfte aller Beobachtungen oberhalb oder auf der Geraden liegen und mindestens die Hälfte darunter oder darauf. Sie teilt sozusagen die zweidimensionalen Beobachtungen in zwei etwa gleich große Hälften. Warum ist das so? Zur Vereinfachung nehmen wir an, dass eine Gerade so verläuft, dass kein einziger Beobachtungswert auf der Geraden liegt. Lägen in einer solchen Situation dann beispielsweise mehr Beobachtungen oberhalb als unterhalb der Geraden, so könnte es sich dabei niemals um eine LADGerade handeln. Denn durch bloßes paralleles Verschieben der Geraden nach oben hin, ließe sich die Summe der absoluten Abweichungen verringern. Durch das Verschieben nach oben würden mehr Abstände kleiner als größer werden, jedenfalls solange bis die Gerade einen ersten Beobachtungswert schneidet. Analoges gilt, falls mehr Beobachtungen unterhalb als oberhalb der Geraden lägen.

178 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Betrachten wir dazu als Beispiel die Situation in Abbildung 5.2.19 im rechten Schaubild. Die LAD-Gerade verläuft hier genau durch 2 Punkte. Insgesamt liegen 6 der 11 Beobachtungen oberhalb oder auf und 7 Beobachtungen unterhalb oder auf der Geraden. Würde man diese Gerade auch nur minimal parallel nach oben versetzen, würden insgesamt 7 Abweichungen zunehmen, aber nur 4 Abweichungen abnehmen. Unter den 7 zunehmenden Abweichungen sind auch die Abweichungen der beiden Punkte zu rechnen, die zuvor noch auf der Geraden lagen. Verschiebt man die Gerade dagegen minimal nach unten, werden insgesamt 6 Abweichungen größer und 5 Abweichungen kleiner. Die vermutlich umfassendste Behandlung der Theorie zur L1 -Regression erhält man, wenn diese als Spezialfall einer Quantilsregression betrachtet wird. Eine ausführliche Darstellung mit vielen praktischen Anwendungen und theoretischen Hintergründen bietet beispielsweise Koenker [2005], der als Pionier auf diesem Gebiet gilt. y 4

3

y4

2

y~4

(x 4,y 4) u~4 (x,y)

1 x4 0

1

2

3

4

x 5

6

Abb. 5.2.23: LAD-Gerade – verläuft hier nicht durch Schwerpunkt

• Beispiel 5.2.10 • Wir nehmen die gleichen 5 Beobachtungswerte wie zuvor bei der KQ-Gerade gemäß Abbildung 5.2.15 bzw. 5.2.23. Zur Berechnung können wir uns keines Formelapparats bedienen. Stattdessen müssen Achsenabschnitt und Steigung nun numerisch mithilfe statistischer Software (z.B. R) berechnet werden. Man erhält ̃ 0 = 0.75 b

und

̃ 1 = 0.25. b

Die LAD-Gerade lautet damit ̃0 + b ̃ 1 x = 0.75 + 0.25x. ̃y(x) = b Gefittete Werte und Residuen ergeben sich dann als ̃y1 = 0.75 + 0.25 ⋅ 1 = 1, ̃y2 = 0.75 + 0.25 ⋅ 2 = 1.5, . . . bzw. ̃ 2 = y2 − ̃y2 = 2 − 1.25 = 0.75 usw. ̃ 1 = y1 − ̃y1 = 1 − 1 = 0, u u

5.2 Zusammenhänge zwischen metrischen Merkmalen | 179

Tab. 5.2.5: Ergebnisse der L1 -Regression i 1 2 3 4 5 Summe

xi 1 2 3 4 5 15

yi 1 2 1 3 2 9

̃y i 1 1.25 1.5 1.75 2 7.5

̃i u 0 0.75 −0.5 1.25 0 1.5

̃i| |u 0 0.75 0.5 1.25 0 2.5

̃ 2i u 0 0.5625 0.25 1.5625 0 2.125

Wie man sieht, stimmt die Summe der gefitteten Werte mit der Summe der y-Werte dieses Mal nicht überein. Ebenso ist die Summe aller Residuen von 0 verschieden, und die KQ-Gerade verläuft am Schwerpunkt (3, 1.8) vorbei (Abb. 5.2.23). Die Residuenquadratsumme ist mit 2.125 (wie zu erwarten) größer und die Summe der absoluten Abweichungen mit 2.5 kleiner als bei der KQ-Regression (vgl. Tabelle 5.2.4). • Interpretation der LAD-Gerade • Während die KQ-Gerade als eine auf den Durchschnitt referierende Gerade interpretiert wird, wird die LAD-Gerade als eine auf den Median referierende Gerade gedeutet. Dies begründet sich nicht zuletzt auch durch die im vorigen Punkt beschriebenen besonderen Eigenschaften dieser Methode. Bekanntermaßen sind Mittelwert und Median bei symmetrischen Verteilungen jedoch identisch. Sofern zwischen zwei Variablen ein klar erkennbarer linearer Zusammenhang besteht und die Fehler weitgehend symmetrisch „darum herum“ streuen, führen L1 - und L2 -Regression zu keinen nennenswerten Unterschieden. So liegt es in vielen Fällen deshalb nahe, die LAD-Gerade in gleicher Weise zu interpretieren wie auch die KQ-Gerade. Bedeutsamer als Unterschiede in der Interpretation erscheinen deshalb die unterschiedlichen Robustheitseigenschaften von KQ- und LAD-Gerade. Als „Gegenkontrolle“ zur populären KQ-Geraden erscheint die LAD-Gerade eine sinnvolle Ergänzung, um gegen etwaige „Verzerrungen“ durch Ausreißer besser gewappnet zu sein. • Bezug zum Median • Restringiert man den Steigungskoeffizienten auf den Wert 0, d.h. führt man eine Achsenabschnittsregression durch, resultiert daraus die zu minimierende Zielfunktion n

̂f (b0 ) = ∑ |y i − b0 |. i=1

Die Lösung lautet bekanntermaßen (Abschnitt 4.9.2) ̃ 0 = ̃y0.5 , b eine horizontal verlaufende Gerade auf Höhe des Medians der y-Werte. Die LADGerade spiegelt damit die Minimumeigenschaft des Medians wider.

180 | 5 Beschreibung und Analyse empirischer Zusammenhänge

• Vor- und Nachteile der LAD-Methode • Die Vorteile der KQ-Methode erweisen sich sinnverkehrt als Nachteile der LAD-Methode. Analytisch lässt sich die LADMethode relativ schwer handhaben. Für Praktiker mag dies heute jedoch keine Entschuldigung mehr zur Meidung dieser Methode sein, da sich nötige Berechnungen problemlos mit frei verfügbarer Software wie z.B. R durchführen lassen. Ein wichtiges Argument für die Verwendung des LAD-Methode ist die höhere Robustheit gegenüber Ausreißern. • Anmerkungen zur Historie • Die Ursprünge der LAD-Methode werden allgemein in konzeptionellen Überlegungen (primär „verbaler Natur“) von Boscovich [1755, 1770] im Zusammenhang der Erdvermessung (Geodäsie) gesehen. Laplace befasste sich ab 1789, etwa 15 Jahre vor Legendre’s Kleinste-Quadrate-Lösung, eingehender mit diesen methodischen Ideen, untersuchte diese formaler und stellte seine Ergebnisse im 2. Band seines Monumentalwerks Traité de mécanique céleste (1799–1805) umfassend dar. Die von Laplace als „method of situation“ bezeichnete Methode enthielt dabei noch die Nebenbedingung, dass sich die Summe der Residuen zu Null aufaddieren solle. Bildlich wurde damit die LAD-Gerade sozusagen durch den Schwerpunkt gezwungen. Edgeworth [1888] griff die LAD-Methode schließlich in der heute üblichen Form ohne diese Nebenbedingung auf. Wie die KQ-Methode stellte auch die LAD-Methode ursprünglich nur ein approximatives Berechnungsverfahren überbestimmter linearer Gleichungssysteme dar. Nähere Ausführungen zu Historie und Hintergründen finden sich bei Stigler [1986, S. 39–55] und Koenker [2005, S. 2–5].

Kritische Punkte und Alternativen • Frage der Richtung der Abhängigkeit • Die Frage, welche der beiden Variablen als abhängig und welche als unabhängig einzustufen ist, wird meist vor dem Hintergrund etwaiger Kausalitätsrichtungen geklärt. Jedoch fällt die Entscheidung darüber keineswegs immer so eindeutig aus wie im Falle der Größen und Gewichte von Personen. Tiefergehende Ausführungen zu diesem kritischen Punkt finden sich in Abschnitt 5.3.3. • Multiple lineare Regression • Um Fehlinterpretationen oder größere Prognosefehler zu vermeiden, erscheint es häufig notwendig, weitere Variablen, die in einem Wirkungszusammenhang zu den beiden interessierenden Variablen stehen, mit zu berücksichtigen. Ein wichtiges Instrument stellt dabei die multiple lineare Regression dar, bei der auf der rechten Seite der Regressionsgleichung nicht nur eine erklärende Variable (einfache Regression) sondern mehrere erklärende Variablen berücksichtigt werden. Mit dieser Thematik befasst sich ausführlich Abschnitt 12.2. Zur Gefahr systematischer Verzerrungen und damit verbundenen Fehlinterpretationen finden sich bereits einige Ausführungen in Abschnitt 5.3.3.

5.2 Zusammenhänge zwischen metrischen Merkmalen | 181

• Nichtlineare Regressionsansätze • Die Ermittlung einer linearen Regressionsgeraden macht nur eingeschränkt Sinn, wenn ein Zusammenhang offensichtlich nichtlinearer Natur ist wie etwa in Beispiel 5.2.8 (Abschnitt 5.2.2). Aufgrund der einfachen Interpretierbarkeit kann sich jedoch eine lineare Approximation immer noch als genügend zweckmäßig erweisen. Dies gilt vor allem dann, falls inferenztheoretische Überlegungen nicht maßgeblich sind und die Stärke der Nichtlinearität nur schwach ausgeprägt ist. Ansonsten lässt sich häufig schon mithilfe einer einfachen Datentransformation (für eine oder beide Variablen) die gewünschte Linearität erzielen (vgl. Beispiel 5.2.11). Alternativ dazu steht heute eine fast schon unübersichtlich große Anzahl alternativer Regressionsmethoden zur Verfügung, mit denen sich auch nichtlineare Zusammenhänge erfassen lassen. Einige dieser Verfahren wie etwa die Logit-Regression (vgl. Abschnitt 5.3.1) berücksichtigen besondere Skalierungsarten von Variablen. Eine Übersicht bieten beispielsweise Fahrmeir et al. [2013]. Schlittgen [2013] stellt insbesondere auch die rechentechnische Umsetzung zahlreicher Methoden anhand der Software R dar. Beispiel 5.2.11: Entwicklung von Wohnungspreisen in Deutschland Auch in den Medien wird häufig das Problem steigender Miet- und Immobilienpreise in deutschen Städten thematisiert, wobei hier als wichtiger Grund eine zunehmende Abwanderung von ländlichen in städtische Gebiete angeführt wird. Wanderungssaldo je 10.000 Einwohner 400

Wanderungssaldo je 10.000 Einwohner 400

300

300

200

200

100

100

0

0

−100

−100 0

1000

2000

3000

Einwohner je qkm

4000

3

4

5

6

7

8

9

log(Einwohner je qkm)

Daten: Statistische Ämter des Bundes und der Länder [2014] Abb. 5.2.24: Bevölkerungsdichte und Wanderungssaldo in Deutschland (2011)

In Abbildung 5.2.24 ist der Zusammenhang zwischen der Bevölkerungsdichte (Einwohner je qkm) und dem Wanderungssaldo (je 10 000 Einwohner) in Kreisen und kreisfreien Städten Deutschlands im Jahr 2011 dargestellt. Der Zusammenhang ist eher nichtlinearer (konkaver) Natur, der sich jedoch durch geeignete Transformation linearisieren lässt. Hier erweist es sich als hilfreich, die Bevölkerungsdichte zu logarithmieren. Dadurch steigt die Korrelation von 0.46 auf 0.53 leicht an. Als gemessener linearer Zusammenhang ergibt sich nun Wanderungssaldo = −125.6 + 26.35 × log(Bevölkerungsdichte).

182 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Der Steigungskoeffizient 26.35 wird im Rahmen dieser Linear-Log-Regression folgendermaßen interpretiert: Eine Zunahme der Bevölkerungsdichte um 1% geht durchschnittlich mit einer Zunahme des Wanderungssaldos um 26.35×0.01 ≈ 0.26 Personen (je 10 000 Einwohner) einher. Abbildung 5.2.25 zeigt den Zusammenhang zwischen der Einwohnerentwicklung und der Preisentwicklung für Eigentumswohnungen von 32 deutschen Großstädten für den Zeitraum von 2007 bis 2012. Als gemessener Zusammenhang zwischen der durchschnittlichen jährlichen Veränderung von Einwohnerzahl und Wohnungspreis erhält man: Preisentwicklung in % = 0.97 + 3.57 × Einwohnerentwicklung in %. Bei konstanter Bevölkerung (0% Wachstum) stiegen die Wohnungspreise folglich um durchschnittlich knapp 1%. Ein Anstieg der Einwohnerzahl um 1% ging dagegen mit einem durchschnittlichen Preisanstieg um ca. 3.6% einher. Die Korrelation weist mit einem Wert von 0.79 einen deutlich ausgeprägten (linearen) Zusammenhang aus. Durchschnittliche jährliche Veränderung der Preise zwischen Januar 2007 und Dezember 2012 in % 8 Freiburg Freiburg

Hamburg Hamburg

München München

Berlin Berlin

6 Nürnberg Nürnberg

4

Aachen Aachen

2

Halle Halle

Wiesbaden Wiesbaden Lübeck Lübeck Bremen Bremen Bielefeld Bielefeld Magdeburg Magdeburg

Bochum Bochum Duisburg Duisburg Essen Dortmund Essen Dortmund Krefeld Krefeld

0

Wuppertal Wuppertal

−2

Düsseldorf Düsseldorf Frankfurt Frankfurt Augsburg Augsburg Dresden Dresden Münster Münster Karlsruhe Karlsruhe Stuttgart Stuttgart Kiel Kiel Köln Köln Bonn Bonn Hannover Hannover Leipzig Leipzig Mannheim Mannheim

Chemnitz Chemnitz

−4 −0.6

−0.4

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

Durchschnittliche jährliche Veränderung der Einwohnerzahl zwischen 2007 und 2012 in %

Daten: Sachverständigenrat [2013, Schaubild 115] Abb. 5.2.25: Entwicklung von Einwohnerzahlen und Wohnungspreisen deutscher Großstädte (nachgestellt)

Zur Interpretation von Koeffizienten einer Linear-Log-Regression Durch das Logarithmieren stellt die Interpretation nicht mehr auf einer Veränderung der erklärenden Variable in der ursprünglichen Einheit (Einwohner je qkm) ab, sondern auf prozentualen Veränderungen dieser. Besonders einfach erweist sich dieser Ansatz bei „kleineren“ prozentualen Veränderungen, da z.B. gilt: log(1.01) ≈ 0.01, log(1.02) ≈ 0.02, log(1.03) ≈ 0.03 usw.

5.3 Ergänzende und vertiefende Themen | 183

Nimmt also eine Quantität x beispielsweise um 1% zu, d.h. verändert sich diese auf den Wert 1.01x, so folgt aufgrund dieser Eigenschaft: log(1.01 × x) = log(1.01) + log(x) ≈ 0.01 + log(x). Die logarithmierte Größe nimmt folglich um 0.01 und die abhängige Variable um β̂ 1 × 0.01 Einheiten zu. Völlig analog funktioniert das bei Veränderungen bis etwa 10%. Mit größeren Veränderungen geht diese einfache Merkregel jedoch verloren. So gilt z.B.: log(1.11) ≈ 0.10, log(1.5) ≈ 0.41, log(2) ≈ 0.69 oder log(3) ≈ 1.10. Der Faktor 1.5 (50% größer) ginge demnach z.B. mit einer absoluten Veränderung der logarithmierten Größe um 0.41 (und nicht etwa um 0.5) einher. Im obigen Beispiel würde also z.B. eine doppelt so hohe Bevölkerungsdichte (Faktor 2) mit einer Zunahme des Wanderungssaldos um 26.35 × 0.69 = 18.18 Personen einhergehen. Zu weiteren Varianten zählt die Log-Linear-Regression, bei der lediglich die abhängige Variable logarithmiert wird, log(Y) = β0 + β1 X + U, oder die Log-Log-Regression, bei der sowohl die abhängige als auch die erklärende Variable logarithmiert werden, log(Y) = β0 + β1 log(X) + U. Die Interpretation des Steigungskoeffizienten ist bei diesen Regressionen noch einmal anders als bei der Linear-Log-Regression, was hier jedoch nicht weiter vertieft werden soll.

5.3 Ergänzende und vertiefende Themen

In diesem Abschnitt werden zunächst einige Möglichkeiten zur Analyse gemischter Skalierungsfälle vorgeschlagen, bei denen ein Merkmal kategorialer und das andere metrischer Natur ist. Danach werden einige fortgeschrittene grafische Methoden zur Untersuchung höherdimensionaler Daten vorgestellt. Abschließend werden wichtige Aspekte für die Analyse empirischer Zusammenhänge besprochen. Hierzu gehören differenzierte Ausführungen zum Kausalitätsbegriff und zu verschiedenen Arten von Verfälschungen, die sich aus systematischen Verzerrungen oder zufälligen Schwankungen ergeben können.

184 | 5 Beschreibung und Analyse empirischer Zusammenhänge

5.3.1 Zusammenhänge in anderen Skalierungsfällen Grafische Analysemöglichkeiten • Metrisches vs. kategoriales Merkmal • Sofern ein metrisches Merkmal direkt oder indirekt kausal (Abschnitt 5.3.3) von einem kategorialen Merkmal abhängt (z.B. Körpergröße von Geschlecht), kann man prinzipiell die Verteilung des metrischen Merkmals in den einzelnen Kategorien des kategorialen Merkmals jeweils separat darstellen und anschließend vergleichend analysieren. Hierbei sollte jedoch darauf geachtet werden, dass die Skalierungen der Achsen jeweils übereinstimmen, da ein (optischer) Vergleich ansonsten erheblich erschwert wird. Die beiden Säulendiagramme für klassierte Daten im Beispiel von Abbildung 5.3.1 ließen sich freilich noch besser vergleichen, wenn man diese untereinander statt nebeneinander platzieren würde. Größe von Männern

Größe von Frauen

Abs. Häufigkeit 60

Abs. Häufigkeit 60

50

50

40

40

30

30

20

20

10

10

0

Größe nach Geschlecht 200

Größe in cm

190 180 170 160

0 140

150

160

170 180 Größe in cm

190

200

210

140

150

160

170 180 Größe in cm

190

200

210

Männer

Frauen

Daten: Eigene Erhebungen Abb. 5.3.1: Säulendiagramme und Boxplots: Größe nach Geschlecht

Die häufig bessere Alternative zu Säulendiagrammen oder Histogrammen sind Boxplots. Diese lassen sich parallel angeordnet (horizontal oder vertikal) ausgesprochen kompakt in einem einzigen Diagramm mit einer einheitlichen Skalierung unterbringen. Ein möglicher Nachteil besteht darin, dass ein gewisser Anteil von Information über die Verteilung der Daten, die in den anderen Diagrammen noch ersichtlich ist, dabei verloren geht. Im vorliegenden Fall etwa lässt sich die stärkere Häufung von Größen zwischen 160 und 170 cm bei den Frauen aus dem Boxplot nicht mehr erkennen, ebenso wenig wie die Tatsache, dass die Anzahl von Männern wesentlich größer ist als die Anzahl der Frauen. Insbesondere mit steigender Anzahl von Kategorien erweist sich die Verwendung von Boxplots jedoch zunehmend als vorteilhaft. Ein Anwendungsbeispiel hierfür findet sich in Abschnitt 3.2.4 (Abb. 3.2.12). Hier wird die Verteilung von Monatsrenditen in Abhängigkeit von 10 verschiedenen Subindizes des EURO STOXX Index grafisch untersucht. • Kategoriales vs. metrisches Merkmal • Hängt ein kategoriales Merkmal von einem metrischen Merkmal ab, eignen sich sog. Spinogramme zur Darstellung der Abhängigkeit. Spinogramme sind im Grunde segmentierte Säulendiagramme für klassierte Daten, wobei die Breiten der einzelnen Säulen in ein proportionales Verhältnis zu den einzelnen Klassenhäufigkeiten gesetzt werden. Im Grunde handelt es sich

5.3 Ergänzende und vertiefende Themen | 185

wie beim Spineplot (Abschnitt 5.1.3) um eine Spezialform von Mosaikplots (Abschnitt 5.1.3). 1.0

1.0

0.8

0.8

Nein

Nein 0.6

0.6

0.4

0.4

Ja

Ja 0.2

0.2

0.0

0.0 20

25

30

35

40

45

50

55

60

7

10.5

11

11.5

Logarithmiertes Nichterwerbseinkommen

Alter in Jahren

Daten: R-Paket „AER“ (Datensatz „SwissLabor“) Abb. 5.3.2: Spinogramme: Arbeitsmarktbeteiligung nach Alter und Nichterwerbseinkommen

Abbildung 5.3.2 zeigt die Abhängigkeit der Arbeitsmarktbeteiligung von Frauen in der Schweiz in Abhängigkeit von Alter und Nichterwerbseinkommen. Die Daten beruhen auf einer im Jahre 1981 durchgeführten Erhebung von insgesamt 871 verheirateten Frauen. In Bezug auf die Arbeitsmarktbeteiligung und ihre Determinanten wurden die Daten insbesondere von Gerfin [1993, 1996] eingehend untersucht. Das linke Spinogramm zeigt, dass die Arbeitsmarktbeteiligung bis zum Alter von etwa 45 Jahren zunimmt und danach stetig abnimmt. Tabelle 5.3.1 fasst die absoluten Zahlen für die einzelnen Altersklassen zusammen. Tab. 5.3.1: Arbeitsmarktbeteiligung nach Alter Alter Ja Nein

20–25 25 48

25–30 47 63

30–35 79 73

35–40 78 53

40–45 78 51

45–50 51 63

50–55 25 51

55–60 17 59

60–65 1 10

Das rechte Spinogramm zeigt, dass mit steigendem Nichterwerbseinkommen (hierzu zählen beispielsweise das Einkommen des Ehemannes, Zinseinkünfte und Transferzahlungen), die Arbeitsmarktbeteiligung tendenziell abnimmt. Da das Einkommen logarithmiert gemessen wird, wäre folgende Interpretation hinsichtlich des mittleren Bereichs möglich: Eine Steigerung des logarithmierten Nichterwerbseinkommen um 0.5 (von 10.5 auf 11, 11 auf 11.5 oder 11.5 auf 12) entspricht einer Steigerung des Nichterwerbseinkommen um ca. 65% (≈ e0.5 − 1) und geht mit einem Rückgang der Arbeitsmarktbeteiligung um ca. 10–15 Prozentpunkte einher. • Kategorisierte und dichotomisierte Merkmale • In manchen Fällen erscheint es hilfreich, ein an sich metrisches Merkmal auf einzelne Größenklassen zu vergröbern,

186 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Zuwanderung

d.h. zu kategorisieren (manchmal wird auch von „diskretisieren“ gesprochen). Werden nur zwei verschiedene Kategorien zugelassen, spricht man auch von einer Dichotomisierung. 400 300 200

Abwanderung

100 0

Einwohner je qkm

44 36

0.8 0.6 0.4 0.2 0.0 ≤ 109

≤ 157

≤ 288

≤ 868

≤ 4436



86 8 ≤

28 8 ≤

15 7 ≤



10 9

−100

1.0

Einwohner je qkm

Daten: Statistische Ämter des Bundes und der Länder [2014] Abb. 5.3.3: Bevölkerungsdichte und Wanderungssaldo – alternative Darstellungen

Abbildung 5.3.3 bezieht sich auf die Daten aus Beispiel 5.2.11 in Abschnitt 5.2.3. Die linke Darstellung zeigt die Verteilung des Wanderungssaldos in Abhängigkeit von der Bevölkerungsdichte, wobei letztere in 5 verschiedene Größenklassen kategorisiert wurde. Die Klassengrenzen entsprechen den Quintilen und lauten jeweils „von über . . . bis einschließlich“. In der rechten Darstellung wurde zusätzlich noch das Wanderungssaldo in die beiden Kategorien „Zuwanderung“ und „Abwanderung“ dichotomisiert. Um beispielsweise primär herauszustellen, dass Regionen mit höherer Bevölkerungsdichte tendenziell ein höheres Zuwanderungssaldo aufweisen als Regionen mit geringerer Dichte, liefern diese beiden Darstellungen einen zwar vergröberten, dafür aber deutlicheren Eindruck als die Darstellungen in Abbildung 5.2.24 von Beispiel 5.2.11.

Zusammenhangsmaße • Zusammenhangsmaße für ordinale Merkmale • Prinzipiell lassen sich Zusammenhänge zwischen ordinalen Merkmalen mit den Methoden aus Abschnitt 5.1 geeignet darstellen und analysieren. Da ordinale Werte jedoch eine natürliche Rangfolge besitzen, ist es bei diesen häufig noch von Interesse, nicht nur die Stärke sondern auch eine mögliche Richtung einer Abhängigkeit festzustellen. Tabelle 5.3.2 zeigt das Ergebnis einer Befragung von insgesamt 206 Studierenden bezüglich der beiden Fragen „Glauben Sie an (einen) Gott (höheres Wesen)?“ und „Ist an Sternzeichen etwas Wahres dran?“. Die Antwortkategorien lauteten: −2 für „auf keinen Fall“, −1 für „eher Nein“, 0 für „neutral bzw. weiß nicht“, 1 für „eher Ja“ und 2 für „auf

5.3 Ergänzende und vertiefende Themen | 187

Tab. 5.3.2: Glaube an Gott und Glaube an Sternzeichen Sternzeichen Glaube −2 −1 0 1 2 Σ

-2

-1

0

1

2

Σ

30 20 16 27 16 109

4 4 7 11 8 34

5 1 3 5 6 20

1 6 5 16 9 37

1 0 1 1 3 6

41 31 32 60 42 206

Quelle: Eigenerhebung jeden Fall“. Abbildung 5.1.8 (Abschnitt 5.1.3) stellt diesen Zusammenhang mittels sog. Spineplots grafisch dar. Der korrigierte Kontingenzkoeffizient nach Pearson ergibt 0.3585, der Korrelationskoeffizient nach Bravais-Pearson 0.2514 und der Korrelationskoeffizient nach Spearman 0.2369. Die beiden letzten Maße berücksichtigen auch die Richtung des Zusammenhangs, der hier offensichtlich derart ist, dass ein höherer Gottesglaube tendenziell auch mit einem stärkeren Glauben an Sternzeichen einhergeht. Da die an sich ordinal skalierten Antwortmöglichkeiten in Zahlenwerte übersetzt wurden (z.B. „auf keinen Fall“ in −2), stellt sich hier die Frage, inwiefern die Berechnung der Korrelation nach Bravais-Pearson überhaupt zulässig ist. Schließlich erscheint die Metrisierung der ordinalen Kategorien in gewisser Weise beliebig. So gibt es beispielsweise keinen natürlichen Grund dafür, den Abstand zwischen „auf keinen Fall“ und „eher nein“ auf einer metrischen Skala genauso so groß zu wählen wie derjenige zwischen „eher Nein“ und „neutral bzw. weiß nicht“. Mit der Wahl des Koeffizienten nach Spearman umgeht man dieses Problem, da lediglich die Rangwerte in die Berechnung einfließen. In der Praxis zeigt sich jedoch, dass die beiden Koeffizienten im Falle von Kontingenztabellen meist sehr ähnliche Resultate ergeben. Größere Unterschiede können sich allenfalls ergeben, falls die Besetzungshäufigkeiten in der Tabelle eine insgesamt „monotone nichtlineare“ Struktur aufzeigen. Aufgrund der häufig geringen Anzahl von Kategorien bleiben die Möglichkeiten für derartige Strukturen jedoch ohnehin nur sehr beschränkt. Tabelle. 5.3.3 zeigt ein stark stilisiertes Beispiel eines solchen Falls. Der korrigierte Kontingenzkoeffizient nach Pearson ergibt hier 0.9129, der Korrelationskoeffizient nach Bravais-Pearson −0.8455 und der Korrelationskoeffizient nach Spearman −0.9231. Da die Besetzungsstruktur der einzelnen Zellen eine nichtlineare aber deutlich monotone Struktur aufweist, fällt hier der absolute Wert des Koeffizienten nach Spearman deutlich höher aus als derjenige nach Bravais-Pearson. Man beachte, dass die Anzahl von Bindungen bei Kontingenztabellen im Allgemeinen sehr hoch ist. Sofern der Korrelationskoeffizient nach Spearman als rein deskriptives Maß verwendet wird, bereitet dies keine Probleme. Werden jedoch induktive Verfahren (insbesondere bestimmte Testverfahren) anhand des Spearman’schen Koeffizien-

188 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Tab. 5.3.3: „Monotone nichtlineare“ Struktur innerhalb einer Kontingenztabelle Sternzeichen Glaube −2 −1 0 1 2 Σ

-2

-1

0

1

2

Σ

0 0 10 10 10 30

0 10 0 0 0 10

10 0 0 0 0 10

10 0 0 0 0 10

10 0 0 0 0 10

30 10 10 10 10 70

ten durchgeführt, sind gewisse Korrekturen vorzunehmen. Nähere Hinweise dazu finden sich beispielsweise bei Büning und Trenkler [1994, Abschnitt 8.4]. Neben dem Korrelationskoeffizienten nach Spearman existieren zahlreiche alternative Zusammenhangsmaße für ordinale Daten wie etwa Goodman and Kruskal’s Gamma oder Kendall’s Tau. Eine ausführliche Abhandlung darüber bietet beispielsweise Agresti [2010, Kapitel 7]. • Zusammenhangsmaße in gemischten Skalierungsfällen • Wird der Zusammenhang zwischen einem metrischen und einem kategorialen Merkmal untersucht, kann man zunächst einmal das metrische Merkmal derart kategorisieren, dass sich darauf basierend beispielsweise der (korrigierte) Kontingenzkoeffizient nach Pearson oder gegebenenfalls der Korrelationskoeffizient nach Spearman berechnen lässt. Allerdings unterliegt jede Form von Kategorisierung, hier insbesondere also die Wahl der Klasseneinteilung für das metrische Merkmal, einer gewissen Willkür. Naheliegend ist es für die Klassengrenzen bestimmte Quantile wie z.B. Dezile, Quintile oder Quartile zu wählen, um auf diese Weise zumindest gleich stark besetzte Klassen (Kategorien) zu erhalten. Eine alternative Möglichkeit besteht darin, den Zusammenhang zwischen dem metrischen und dem kategorialen Merkmal über spezielle Regressionsmodelle funktional zu beschreiben. An die Stelle von Zusammenhangsmaßen treten dann Maße bezüglich der Anpassungs- und Prognosegüte des Modells sowie Aussagen über kausale Effekte.

Spezielle Regressionsmodelle • Hintergrund • Ein Regressionsmodell ist ein statistisches Modell (Abschnitt 1.2.2), mit dem im Kern versucht wird, den Zusammenhang zwischen (meist) einer kausal abhängigen Zielvariablen und einer oder mehreren Einflussvariablen mithilfe einer approximierenden Funktion zu beschreiben. Im Falle des einfachen linearen Regressionsmodells (Abschnitt 5.2.3) beispielsweise wäre diese Funktion eine Geradengleichung. Daneben gibt es jedoch viele weitere Modelle, die alternative funktionale Formen beinhalten. Mit einigen dieser Modelle lassen sich auch Zusammenhänge in gemischten Skalierungsfällen beschreiben.

5.3 Ergänzende und vertiefende Themen | 189

• Anpassungs- und Prognosemaße • Mitentscheidend bei der Wahl eines bestimmten Modells ist häufig seine Anpassungsgüte. Allgemein versteht man darunter die Qualität, wie gut das Modell den Zusammenhang innerhalb der gegebenen Daten beschreibt. Dies lässt sich, abhängig von der Art des Modells, über verschiedene statistische Kriterien (Maße) beurteilen. Im Falle linearer Regressionsmodelle ist ein häufig verwendetes Kriterium das Bestimmtheitsmaß (Abschnitt 12.1.1), das im Wesentlichen auf der Streuungszerlegungsformel der Regression basiert und angibt, wieviel Prozent der Gesamtstreuung (Varianz) des Regressanden durch das Modell erklärt werden kann. Andere Bewertungskriterien stellen mehr auf der Prognosegüte ab. Hierbei geht es um die Frage, wie gut sich mit einem Modell bestimmte Werte oder Kategorien des Regressanden prognostizieren lassen. Dies wird dann häufig entweder über Fehlerraten (bei kategorialen Variablen) oder bestimmte Abweichungsmaße (bei metrischen Variablen) gemessen. Anpassungs- und Prognosemaße lassen sich jedoch nicht immer strikt unterscheiden. Vor allem in gemischten Skalierungsfällen (metrische und kategoriale Merkmale) stellen diese Gütemaße eine sinnvolle Alternative zu den herkömmlichen Zusammenhangsmaßen dar, insbesondere falls auf eine Kategorisierung des metrischen Merkmals verzichtet werden soll. • Metrisches vs. kategoriales Merkmal: Varianzanalysemodelle • Hängt ein metrisches Merkmal von einem kategorialen Merkmal ab, bieten sich Modelle aus der Varianzanalyse an, die als spezielle lineare Regressionsmodelle aufgefasst werden können. Vergegenwärtigen wir uns noch einmal die Situation von Beispiel 4.5.1 (PflanzenExperiment). Es wurden 12 Bäume einer bestimmten Sorte unter Verwendung von 3 verschiedenen Düngemethoden unter sonst identischen Bedingungen angepflanzt. Mit der Notation für gruppierte Daten ergaben sich folgende Ergebnisse: ̃ 1 = 3, Gruppe 1: x1 = 1.0, ̃s21 = 0.06, n ̃ 2 = 4, Gruppe 2: x2 = 2.0, ̃s22 = 0.05, n ̃ 3 = 5. Gruppe 3: x3 = 1.46, ̃s23 = 0.0464, n Wie bereits in Abschnitt 4.5.1 ausgeführt wurde, beträgt die Gesamtstreuung 0.196875, wobei gemäß Streuungszerlegungsformel 0.051 auf die interne und 0.145875 auf die externe Streuung entfällt, d.h. ̃s2 = 0.051 + 0.145875 = 0.196875. Der Anteil der externen Streuung an der Gesamtstreuung ergibt sich über 0.145875 ≈ 0.741 0.196875 und beträgt folglich ca. 74.1%. Dieser Anteil gibt an, in welchem Maße sich die Streuung der Wuchshöhen durch die unterschiedlichen Anbaumethoden erklären lässt.

190 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Damit ist der externe Streuungsanteil in gewisser Weise auch ein Maß für die Stärke des Zusammenhangs zwischen Anbaumethode (dem kategorialen Merkmal) und Wuchshöhe (dem metrischen Merkmal). Der Anteil der externen Streuung entspricht zugleich auch dem Wert des Bestimmtheitsmaßes, der sich über das entsprechende Varianzanalysemodell ergibt. In Ergänzung dazu lässt sich die Stärke des Zusammenhangs auch über Effektunterschiede zwischen den einzelnen Gruppen beschreiben. Sehr einfach zu ermittelnde Anhaltspunkte darüber geben die Mittelwertdifferenzen, die zwischen den einzelnen Gruppen auftreten. Demnach wäre im vorliegenden Fall ein stärkerer Unterschied zwischen Methode 1 und 2 als zwischen Methode 2 und 3 festzustellen. • Kategoriales vs. metrisches Merkmal: Logistische Regressionsmodelle • Hängt ein kategoriales Merkmal von einem metrischen Merkmal ab, bieten sich logistische Regressionsmodelle an. Im Gegensatz zum linearen Regressionsmodell versucht man hier nicht die Werte einer metrischen Zielvariablen, sondern vielmehr die Wahrscheinlichkeiten der einzelnen Kategorien einer kategorialen Zielvariablen funktional zu beschreiben. Auf nähere mathematische Details zu diesen Modellen wird in diesem Lehrbuch verzichtet. Nähere Details finden sich beispielsweise bei Fahrmeir et al. [2013] oder Schlittgen [2013]. Speziell zählen zu den logistischen Regressionsmodellen die populären Logit-Modelle (für binäre abhängige Variablen), die mit diesen eng verwandten Probit-Modelle, die geordneten Logit-Modelle (für ordinal abhängige Variablen mit mehr als zwei Kategorien) sowie die multinomialen Logit-Modelle (für nominal abhängige Variablen mit mehr als zwei Kategorien). In der Situation von Abbildung 5.3.2 könnte man beispielsweise die Schätzung eines Logit-Modells in Erwägung ziehen. In der Situation von Abbildung 5.3.4 böte sich dagegen die Schätzung eines geordneten Logit-Modells an. Hier wurden BachelorStudierende (2. Semester) befragt, ob diese ein Master-Studium anstreben. Die Antwortkategorien lauteten „Sicher nicht“, „Eher Nein“, „Unsicher“, „Eher Ja“ und „Sicher“. Im linken Spinogramm lässt sich eine deutliche Abhängigkeit des Masterbestrebens von der Abiturnote erkennen. Im rechten Spinogramm ist eine leichte Tendenz zu erkennen, dass ältere Studierende weniger sicher ein Masterstudium anstreben als jüngere. Betrachtet man beispielsweise die Gruppe der Studierenden im Alter zwischen 18 und 20 Jahren, so würde ein zufällig gezogener Student aus dieser Gruppe mit einer Wahrscheinlichkeit von ca. 55% „sicher“ ein Masterstudium anstreben. Alle anderen Kategorien wären hier weniger wahrscheinlich. Somit wäre es in gewisser Weise begründet, jeden Studierenden dieser Altersgruppe auch in diese Kategorie (also „sicher“) einzuordnen, wenn ohne weitere Information eine Prognose zu erstellen wäre. Die Fehlerrate für diese Gruppe läge dann bei etwa 45%. • Multiple Regression • Wie auch bei der linearen Regression erscheint es in vielen Fällen notwendig, jeweils nicht nur eine einzelne Einflussvariable zu betrachten son-

Streben Sie einen Masterabschluss an?

5.3 Ergänzende und vertiefende Themen | 191

1.0

1.0 Sicher

0.8

0.8

0.6

Sicher

0.6 Eher Ja

0.4

0.4

0.2

Eher Ja

0.2

0.0 1

1.2

1.4

Unsicher

Unsicher

Eher Nein

Eher Nein

1.6

0.0 1.8

2

16

18

Abiturnote

20

22 24

Alter in Jahren

Daten: Eigene Erhebungen Abb. 5.3.4: Spinogramme: Masterambition, Abiturnote und Alter

dern gleich mehrere Einflussvariablen in das Modell aufzunehmen. In dieser Hinsicht lassen sich sowohl die Varianzanalysemodelle als auch die logistischen Regressionsmodelle problemlos erweitern. Insbesondere bei der Untersuchung kausaler Effekte kommt man um einen multiplen Ansatz meist nicht herum, da die Vermengung unterschiedlicher Einflüsse systematische Verzerrungen verursacht und zu erheblichen Fehlinterpretationen führen kann. Mit dieser Problematik befasst sich später ausführlich Abschnitt 5.3.3. • Generalisierte lineare Modelle • Neben dem klassischen linearen Regressionsmodell einschließlich der Varianzanalysemodelle und den hier erwähnten logistischen Regressionsmodellen gibt es noch viele weitere Typen von Regressionsmodellen. Im Rahmen der von Nelder und Wedderburn [1972] eingeführten generalisierten linearen Modelle (auch verallgemeinerte lineare Modelle) können zahlreiche Spezialfälle notationsmäßig und theoretisch einheitlich behandelt werden. Ausführliche Abhandlungen darüber bieten beispielweise Agresti [2013] und Tutz [2012].

5.3.2 Grafische Darstellung höherdimensionaler Daten Höherdimensionale Mosaikplots • Konzept • Mosaikplots können sehr hilfreich sein, wesentliche Muster innerhalb kategorialer Daten auf einen Blick zu erkennen oder zu entdecken. Die in Abschnitt 5.1.3 vorgestellten Mosaikplots lassen sich auch auf höherdimensionale Daten (mehr als 2 Dimensionen) erweitern. Gleichwohl setzt deren Interpretation einiges an fachlicher Übung voraus. Für Präsentationen vor fachlich „nicht eingeweihtem“ Publikum sind Mosaikplots deshalb weniger zu empfehlen. Im Folgenden beschränken wir uns auf Beispiele für den 3- bzw. 4-dimensionalen Fall.

192 | 5 Beschreibung und Analyse empirischer Zusammenhänge

• Beispiel 5.3.1: 3-dimensionale Mosaikplots • Wir vergegenwärtigen wir uns noch einmal das Beispiel aus Abschnitt 5.1.3. Abbildung 5.3.5 zeigt eine Darstellung für die gemeinsame Verteilung der drei Merkmale „Staatsangehörigkeit“, „Art der Straftat“ und „Geschlecht“. Wie auch im zweidimensionalen Fall sind die Flächen der einzelnen Segmente (Mosaikstücke) proportional zu den relativen Häufigkeiten der gemeinsamen Verteilung. Die Arithmetik zur Bestimmung von Höhen und Breiten von Säulen bzw. Balken fällt entsprechend komplexer aus. Im vorliegenden Fall wird primär auf dem Merkmal „Staatsangehörigkeit“ und sekundär (innerhalb von „Staatsangehörigkeit“) auf „Art der Straftat“ bedingt. Dies führt dazu, dass zwei Hauptbalken unterschiedlicher Breite entstehen, die ihrerseits wiederum in unterschiedlich breite und segmentierte Säulen eingeteilt werden. Gut zu erkennen ist beispielsweise, dass Straftaten im Bereich „Diebstahl und Unterschlagung“ bei Ausländern einen größeren Anteil ausmachen als bei Deutschen. Schnell ersichtlich wird auch, dass der Anteil der von Deutschen verübten und verurteilten Straftaten insgesamt betrachtet in etwa drei Mal so groß ist wie derjenige von Ausländern. • Beispiel 5.3.2: 4-dimensionale Mosaikplots • Abbildung 5.3.6 zeigt die gemeinsame Verteilung der vier Merkmale „Alter“, „Schulabschluss“, „Erwerbstatus“ und „Geschlecht“ für Personen im Alter zwischen 35 und 65 Jahren nach Ergebnissen des Mikrozensus für das Jahr 2012 (Quelle: Statistisches Bundesamt). Die Variablen sind folgendermaßen kodiert: H

Hauptschulabschluss

M1

Abschluss der polytechnischen Oberschule

M2

Realschul- oder gleichwertiger Abschluss

A

Fachhochschul- oder Hochschulreife

O

Ohne allgemeinen Schulabschluss

w

weiblich

m

männlich

z.B. 35–45

Alter in Jahren

Hier wird primär auf „Alter“, sekundär auf „Schulabschluss“ und tertiär auf „Erwerbsstatus“ bedingt. Gut zu erkennen ist beispielsweise die stetige Zunahme von Personen mit Hochschulreife (Abitur) bei den jüngeren Jahrgängen bei gleichzeitiger Abnahme von Hauptschulabschlüssen. Gut herauslesen lässt sich auch der wachsende Anteil nicht erwerbstätiger Personen bei den älteren Jahrgängen, wobei diese Zunahme bei niedrigerem Bildungsabschluss etwa stärker ausfällt. Der Anteil von Frauen mit höheren Bildungsabschlüssen nimmt bei den jüngeren Jahrgängen zu. Außerdem ist zu sehen, dass mit Ausnahme der Gruppe nichterwerbstätiger Personen der Anteil von Frauen unter den Hauptschulabsolventen stets kleiner ist als derjenige der Männer. Es sollte spätestens mit diesem Beispiel einleuchten, dass die Analyse einer entsprechen-

5.3 Ergänzende und vertiefende Themen | 193

den Tabelle mit insgesamt 90 Zahlen wesentlich mehr Mühe und Zeit beanspruchen würde als die visuelle Erschließung eines Mosaikplots.

S

DU

BU

VA

K

PA BM

Ü weiblich

Deutsche

männlich

weiblich Ausländer

männlich

Daten: Statistisches Bundesamt [2014c] Abb. 5.3.5: Mosaikplot: Staatsangehörigkeit, Art der Straftat und Geschlecht

H

M1

M2

A

O Erwerbstätige

35−45

Erwerbslose Nichterwerbstätige

Erwerbstätige 45−55

Erwerbslose Nichterwerbstätige Erwerbstätige Erwerbslose

55−65

Nichterwerbstätige w

m

w

m

w

m

w

m

wm

Daten: Statistisches Bundesamt [2013b, S. 79–80] Abb. 5.3.6: Mosaikplot: Alter, Schulbildung, Erwerbsstatus und Geschlecht

• Weitere Möglichkeiten • Ist die Anzahl vorkommender Kategorien der zu untersuchenden Merkmale hoch, so erweisen sich Korrespondenzanalyse-Biplots als nützliche Werkzeuge (siehe nachfolgend). Weitere Methoden und Modifikationsmöglichkeiten finden sich beispielsweise bei Meyer, Zeileis und Hornik [2006] oder Chen, Härdle und Unwin [2008].

194 | 5 Beschreibung und Analyse empirischer Zusammenhänge

3D-Punktwolken • Konzept • Mithilfe kommerzieller oder frei verfügbarer Software wie z.B. R lassen sich problemlos auch 3D-Punktwolken erstellen. Dabei werden dreidimensionale Beobachtungswerte in einem dreidimensionalen Achsensystem „räumlich“ abgetragen. Die Möglichkeiten für interaktives Hineinzoomen, Drehen und Betrachten aus unterschiedlichen Perspektiven zählen dabei meist zum Standard. • Beispiel 5.3.3 • Abbildung 5.3.7 zeigt zwei 3D-Punkwolken bezüglich der Merkmale „Größe“, „Gewicht“ und „Schuhgröße“ von Studierenden aus unterschiedlichen Perspektiven. In der linken Darstellung ist im unteren Datenbereich die Rasterung der diskreten Schuhgrößen gut zu erkennen.

Daten: Eigene Erhebungen Abb. 5.3.7: 3D-Punktwolken: Größe, Gewicht und Schuhgröße von Studierenden

Biplots • Konzept • Zu den grafischen Methoden, die in besonderem Maße fachliche Kenntnisse voraussetzen, zählen die von Gabriel [1971] eingeführten Biplots. Biplots können als Verallgemeinerung zweidimensionaler Streudiagramme gesehen werden. Prinzipiell geht es darum, höherdimensionale Daten in einem niedrigdimensionalen (meist zweidimensionalen) Diagramm abzubilden. Das „Bi“ begründet sich jedoch nicht, wie häufig angenommen, auf dieser meist zweidimensionalen Darstellung. Vielmehr geht es allgemein darum, Zeilen und Spalten einer gegebenen Datenmatrix, also zwei Dimensionen („bi“), abzubilden (vgl. Greenacre [2010, S. 24]). In der Praxis existieren vielfältige Arten von Biplots, die in unterschiedlichen Sachzusammenhängen verwendet werden und nicht alle gleichermaßen bekannt

5.3 Ergänzende und vertiefende Themen | 195

sind. Das theoretische Grundgerüst ist jedoch für alle Spezialformen das gleiche und basiert auf der matrixalgebraischen Theorie der sog. Singulärwertzerlegung. Im Folgenden werden zwei Typen von Biplots anhand von Beispielen kurz vorgestellt. Der erste Typ eignet sich zur Darstellung hochdimensionaler metrischer Daten. Der zweite Typ eignet sich zur Darstellung kategorialer Daten im Zusammenhang einer Kontingenztabelle, die viele Zeilen und Spalten aufweist. Auf nähere mathematische Ausführungen wird dabei verzichtet. Umfassende Abhandlungen zur grundlegenden Theorie dieser und vieler weiterer Gattungen von Biplots bieten beispielsweise Gower, Lubbe und Le Roux [2011] oder Greenacre [2010]. • Hauptkomponentenanalyse-Biplots • Der mit Abstand bekannteste Biplottyp wird häufig im Zusammenhang der Hauptkomponentenanalyse (kurz PCA für Principal Component Analysis) erstellt, einer Analysemethode aus der multivariaten Statistik. Interessierte Leser seien auf Lehrbücher der multivariaten Statistik verwiesen. Unabhängig davon lässt sich diese Art von Biplot auch einfach nur als „optimale Projektion“ interpretieren. Zur Veranschaulichung stelle man sich folgendes hilfreiches, wenn auch wenig schönes Bild vor Augen: Unter dem hellen Strahl einer Straßenlaterne flattern nachts Motten. Der von der Laterne ausgehende Lichtstrahl projiziert dann einzelne Schattenpunkte auf den Boden oder eine andere Ebene wie z.B. eine angrenzende Mauer. Geometrisch interpretiert werden damit Objekte (hier Motten), deren Positionen sich in einem dreidimensionalen Raum mittels Länge, Breite und Höhe exakt bestimmen lassen, auf eine zweidimensionale Ebene abgebildet. Dabei geht eine der drei Dimensionen verloren. Somit ist auch klar, dass sich anhand der Schattenpunkte auf der Projektionsebene die originären Distanzen im Raum nur noch approximativ abschätzen lassen. Generell sollten Schattenpunkte, die relativ weit voneinander entfernt liegen, auch im dreidimensionalen Raum relativ weit voneinander entfernt sein. Dennoch kann es durchaus passieren, dass auch relativ nahe beieinander liegende Schattenpunkte auf der Ebene relativ weit voneinander im Raum entfernt sind. Man stelle sich dazu beispielsweise folgende Situation vor: Der Strahl der Lampe falle senkrecht von oben auf zwei Objekte, von denen sich das eine Objekt direkt unterhalb des anderen Objekts befindet. In diesem Fall würden dann beide Schattenpunkte in jedem Fall zusammenfallen, auch wenn sich die beiden Objekte auf noch so unterschiedlicher Höhe befänden. Tatsächlich ist die matrixalgebraische Konzeption einer (geometrischen) Projektion von dieser plastischen Anschauung nicht einmal weit entfernt. Man betrachte dazu die rechte Darstellung von Abbildung 5.3.7. Würde man nun ausgehend von der Blickrichtung des Betrachters die zu sehende Punktwolke samt Achsensystem auf eine „dahinter liegende“ Ebene projizieren, erhielte man in etwa den in Abbildung 5.3.8 zu sehenden Biplot. Mithilfe der projizierten Achsen, lässt sich die Lage der Punkte im Biplot nun approximativ deuten. So korrespondieren Beobachtungen in der rechten Hälfte des Biplots zu Studierenden, die eher überdurchschnittlich groß und schwer

196 | 5 Beschreibung und Analyse empirischer Zusammenhänge

sind und überdurchschnittlich große Füße haben. In der linken Hälfte liegen dagegen eher Beobachtungen, die mit Unterdurchschnittlichkeit aller Variablen korrespondieren. Genau in der Mitte, also im Koordinatenpunkt (0, 0), würde eine Beobachtung liegen, die bezüglich aller drei Variablen durchschnittliche Werte aufweist.

20

Größe

Dimension 2

10 Schuhgröße

0 −10

Gewicht

−20 −30 −20

0

20

40

Dimension 1

Daten: Eigene Erhebungen Abb. 5.3.8: PCA-Biplot: Größe, Gewicht und Schuhgröße von Studierenden

Matrixalgebraische Projektionen lassen sich jedoch nicht nur auf dreidimensionale Daten, sondern generell auf alle höherdimensionalen Daten anwenden, auch wenn eine derart plastische Anschauung wie die vorige nicht mehr möglich ist. Abbildung 5.3.9 zeigt beispielsweise einen PCA-Biplot für 6-dimensionale Daten. Es handelt sich dabei um eine Nachbildung eines Beispiels von Greenacre [2012]. Für die 27 EUStaaten im Jahre 2011 wurden insgesamt 6 ökonomische Indikatoren wertmäßig erhoben. Darunter waren: CPI

Konsumentenpreisindex

UNE

Arbeitslosenquote der Gruppe der 15- bis 64-Jährigen

INP

Industrielle Produktion

BOP

Zahlungsbilanz (pro Kopf der Gruppe der 15- bis 64-Jährigen)

PRC

Privater Konsum

UN

Veränderung der Arbeitslosenquote (Vergleich zum Vorjahr)

Da die einzelnen Variablen völlig unterschiedlich skaliert sind, wurden die Daten vor der eigentlichen Biploterstellung z-standardisiert. Wie auch im vorhergehenden Beispiel kann dann die Lage der einzelnen Beobachtungen innerhalb des Biplots mithilfe der projizierten Variablenachsen approximativ interpretiert werden. So sollten sich in der oberen Hälfte tendenziell Länder finden, die in Bezug auf die Arbeitslosigkeit und

5.3 Ergänzende und vertiefende Themen | 197

4 Greece

3

Dimension 2

2

Spain

Portugal Cyprus Ireland

1

France Finland

UnitedKingdom

PRC

0

UN

Italy

UNE Bulgaria

Slovenia

Denmark CzechRep

Malta Germany Sweden Austria Netherlands

−1

Hungary

BOP

INP

Romania Latvia Lithuania

Poland Slovakia

Belgium

Luxembourg

CPI

Estonia

−2 −4

−2

0

2

Dimension 1

Daten: Greenacre [2012] Abb. 5.3.9: PCA-Biplot: Ökonomische Indikatoren der EU-Staaten (2011) (nachgestellt)

deren Veränderung überdurchschnittliche und in Bezug auf die industrielle Produktion und die Zahlungsbilanz unterdurchschnittliche Werte aufweisen. In der unteren Hälfte sollte es tendenziell umgekehrt sein. In der rechten Hälfte sollten sich Länder befinden, die in Bezug auf Inflation überdurchschnittliche und in Bezug auf privaten Konsum unterdurchschnittliche Werte aufweisen. Für Länder der linken Hälfte sollte wiederum Gegenteiliges gelten. Speziell Deutschland verfügte gemäß Biplot im Jahr 2011 also über eine unterdurchschnittliche Arbeitslosigkeit, eine unterdurchschnittliche Inflation, eine überdurchschnittliche Zahlungsbilanz, einen überdurchschnittlichen privaten Konsum und eine überdurchschnittliche industrielle Produktion. Ein Blick in den originären Datensatz verrät, dass diese Abschätzungen für Deutschland tatsächlich auch den wahren Sachverhalten entsprechen. Die Theorie des PCA-Biplots beinhaltet vor allem die Klärung der Frage, welche Ebene die beste Projektionsfläche bietet. Dabei gilt es eine bestmögliche Approximation in dem Sinne zu erhalten, dass die projizierten (euklidischen) Distanzen auf der Projektionsfläche möglichst unverfälscht die originären (euklidischen) Distanzen des höherdimensionalen Raumes widerspiegeln. Die Koordinaten eines zweidimensionalen Biplots werden als 1. bzw. 2. Hauptkomponente (auch Hauptkoordinaten) der Beobachtungswerte bezeichnet. Ein Maß für die Güte der Approximation erhält man, indem man die Varianzen dieser beiden Hauptkomponenten addiert und die daraus resultierende Summe ins Verhältnis zur Totalvarianz setzt. Unter der Totalvarianz versteht man die Summe der Varianzen aller Variablen. Da die Daten in Abbildung 5.3.9 standardisiert wurden, beträgt die Totalvarianz dort genau 6 (vgl. Abschnitt 4.6). Es ergibt sich in diesem Fall eine Approximationsgüte von ca. 63%. Man beachte, dass bei einer Approximationsgüte von 100% die Distanzen im Biplot exakt die Distanzen

198 | 5 Beschreibung und Analyse empirischer Zusammenhänge

im 6-dimensionalen Raum abbilden würden. Angesichts einer Dimensionsreduktion von 6 auf 2 erscheint eine Güte von über 60% deshalb durchaus akzeptabel. Der Biplot von Abbildung 5.3.8 weist gar eine Approximationsgüte von über 99% auf. Allerdings wurden hier auch nur dreidimensionale Daten auf zwei Dimensionen reduziert. • Korrespondenzanalyse-Biplots • Im Falle einer hochdimensionalen Kontingenztabelle mit vielen Zeilen und Spalten („hochdimensional“ bezieht sich hier jetzt auf die Dimensionen der Tabelle und nicht auf die Anzahl von Variablen) eignen sich Säulendiagramme für Analyse- und Darstellungszwecke nur noch eingeschränkt. Abbildung 5.3.10 setzt das Beispiel aus Abschnitt 5.1.3 fort und zeigt nun den Zusammenhang zwischen Arten von Straftaten und bestimmten Altersgruppen. Die einzelnen Straftatbestände wurden bereits in Abschnitt 5.1.3 definiert. Die Altersgruppen 1 bis 7 lauten [14, 18), [18, 21), [21, 25), [25, 30), [30, 40), [40, 50) und ≥ 50, wobei noch zwischen Frauen („w“) und Männern („m“) unterschieden wird. 100 80 60 % 40 20 0 w1

w2

w3

w4

S

w5

w6

DU

BU

w7

m1

VA

m2

K

m3

PA

m4

m5

BM

m6

m7

Ü

Daten: Statistisches Bundesamt [2014c] Abb. 5.3.10: Straftaten nach geschlechtsspezifischen Altersgruppen

Die korrespondierende Kontingenztabelle weist insgesamt 8 Zeilen (Straftaten) und 14 Spalten (geschlechtsspezifische Altersgruppen) auf. Das segmentierte Säulendiagramm stellt die bedingte Verteilung des Merkmals „Art der Straftat“ unter den geschlechtsspezifischen Altersgruppen dar, in diesem Fall also die Spaltenverteilungen der zugrunde liegenden Tabelle. Beispielsweise wurden im Jahr 2012 von Mädchen im Alter zwischen 14 und 18 Jahren (Gruppe „w1“) insgesamt 8376 Straftaten begangen und verurteilt. Davon entfielen auf die einzelnen Kategorien in absoluten Zahlen: S

DU

BU

VA

K

PA

BM

Ü

156

3740

377

1359

1890

295

184

375

Dies bedeutet z.B., dass knapp 2% aller Delikte in die Kategorie Straßenverkehr fielen. Insgesamt erhält man für die Altersgruppe „w1“ dann folgende Spaltenverteilung:

5.3 Ergänzende und vertiefende Themen | 199

S

DU

BU

VA

K

PA

BM

Ü

0.02

0.45

0.05

0.16

0.23

0.04

0.02

0.04

Analog erhält man die restlichen 13 Spaltenverteilungen. Die unbedingte Verteilung der Straftatbestände, also deren Randverteilung, ergibt sich in absoluten Zahlen wie folgt: S

DU

BU

VA

K

PA

BM

Ü

166688

138970

106577

108859

73123

51014

53544

75126

Dies impliziert folgende relative Häufigkeiten: S

DU

BU

VA

K

PA

BM

Ü

0.22

0.18

0.14

0.14

0.09

0.07

0.07

0.10

Unabhängig von Alter und Geschlecht wurden demnach 22% aller Straftaten im Straßenverkehr verübt. Alternativ werden die Spaltenverteilungen auch als Spaltenprofile bezeichnet und die entsprechende Randverteilung als durchschnittliches Spaltenprofil, da letzteres die Verhältnisse insgesamt und damit den Durchschnitt widerspiegelt. Analog werden die Zeilenverteilungen einer Kontingenztabelle auch als Zeilenprofile und entsprechende Randverteilung als durchschnittliches Zeilenprofil bezeichnet. Anhand eines Vergleichs von Spalten- oder Zeilenprofilen lässt sich schließlich beurteilen, ob und in welcher Weise Abhängigkeiten bestehen. Allerdings gestaltet sich ein visueller Abgleich bei größer werdender Anzahl von Kategorien also zunehmend schwierig. Abhilfe kann hier ein Assoziationsplot schaffen (Abschnitt 5.1.3), anhand dessen sich Abweichungen von der Unabhängigkeit optisch schnell erkennen lassen. Wann immer eine Säule nach oben oder unten hin zeigt, liegt eine Abweichung von der Abhängigkeit vor. Dies bedeutet dann nämlich, dass ein Wert des Spaltenprofils nicht mit dem korrespondierenden Durchschnittswert übereinstimmt. Der Assoziationsplot in Abbildung 5.3.11 zeigt beispielsweise für die Gruppe „w1“ nach unten weisende Säulen für die Straftatkategorien „S“, „BU“, „PA“, „BM“ und „Ü“ sowie nach oben weisende Säulen für „DU“, „VA“ und „K“. Entsprechend weist das Spaltenprofil dieser Gruppe auch unter- bzw. überdurchschnittliche Werte für diese Kategorien auf. Einen Korrespondenzanalyse-Biplot, kurz CA-Biplot (CA für Correspondence Analysis), erhält man, wenn entweder die Zeilenprofile oder die Spaltenprofile einer Kontingenztabelle wie mehrdimensionale Beobachtungswerte aufgefasst und in einem zweidimensionalen Diagramm „optimal“ abgebildet werden. Der Name dieses Biplots leitet sich daraus ab, dass dieser häufig im Zusammenhang der sog. Korrespondenzanalyse erstellt wird. Eine ausführliche Behandlung dieses Spezialgebiets

200 | 5 Beschreibung und Analyse empirischer Zusammenhänge

w1 w2 w3 w4

w5

w6

w7

m1

m2

m3

m4

m5

m6

m7

S

DU

BU

VA

K

PA BM Ü

Daten: Statistisches Bundesamt [2014c] Abb. 5.3.11: Assoziationsplot: Arten von Straftaten und Altersgruppen nach Geschlecht

findet man beispielsweise bei Greenacre [2007] oder allgemein in vielen Lehrbüchern der multivariaten Statistik. Abbildung 5.3.12 zeigt einen für das vorhergehende Beispiel erstellten CA-Biplot, der die Spaltenprofile der 14 Gruppen abbildet. Wie auch beim PCA-Biplot handelt es sich um eine optimierte approximative Darstellung, jetzt allerdings in einem allgemeineren und damit auch komplexeren Sinne. Es bestehen nämlich in einigen Punkten wesentliche Unterschiede. So werden bei der Berechnung der Koordinaten die Abstände der Spaltenprofile zueinander nicht über die euklidische Distanz sondern über die sog. χ2 -Distanz gemessen. Ebenso entfällt eine Visualisierung irgendeines projizierten Achsensystems. Stattdessen werden die Kategorien des zweiten Merkmals (hier „Art der Straftat“) über sog. Einheitsprofile dargestellt. Unter diesen versteht man jene Extremfälle von Profilen, bei denen jeweils 100% aller Straftaten lediglich in eine bestimmte Kategorie fallen würden. Der Koordinatenpunkt (0, 0) innerhalb des CABiplots entspricht schließlich der Lage des durchschnittlichen Spaltenprofils. Für nähere Details sei insbesondere auf Greenacre [2007, 2010] verwiesen. Die Lage der Spaltenprofile innerhalb des Biplots lässt sich nun sowohl in Bezug auf ihre Ähnlichkeit untereinander als auch in Bezug auf ihre relative Lage zu den Einheitsprofilen und zum durchschnittlichen Profil interpretieren. Im vorliegenden Fall sehen wir, dass männliche Profile offensichtlich relativ ähnlich zueinander sind. Sie liegen allesamt in der oberen Hälfte. Gleiches gilt für die weiblichen Profile, die in der unteren Hälfte liegen. Jüngere Profile liegen in der rechten, ältere Profile in der linken

5.3 Ergänzende und vertiefende Themen | 201

1.0

PA

S

K

0.5 Dimension 2

Ü

0.0

m7 m6 w7 w6 w5

−0.5

m5 m3

m2

BM

m1

m4 w1

w2

VA

w4w3

DU

−1.0 −1.5 BU

−1.0 −0.5

0.0

0.5

1.0

1.5

2.0

Dimension 1

Daten: Statistisches Bundesamt [2014c] Abb. 5.3.12: CA-Biplot: Arten von Straftaten und geschlechtsspezifische Altersgruppen

Hälfte. Die männlichen Profile liegen näher an den Kategorien „S“, „PA“, „BM“ und „K“, was auf einen eher überdurchschnittlichen Anteil in diesen Kategorien schließen lässt. Die weiblichen Profile liegen dagegen näher an den Kategorien „DU“ und „VA“. Die jüngeren Profile liegen näher an den Kategorien „BM“ und „K“, die älteren näher an „S“, „PA“ und „BU“. Das Profil der Gruppe „m5“ scheint dem durchschnittlichen Profil am ähnlichsten. Tatsächlich fallen die im Assoziationsplot zu sehenden Abweichungen für diese Gruppe vergleichsweise gering aus. Insgesamt zeigt der Abgleich mit dem Assoziationsplot, dass obige Aussagen recht gut approximativ erfüllt sind. Die Approximationsgüte gemäß χ2 -Distanz beträgt immerhin ca. 78%. Alles in allem besticht der CA-Biplot durch seine im Vergleich zum Assoziationsplot kompaktere Darstellung und einfachere Lesbarkeit. Dafür ist der Biplot aber auch nur eine approximative Darstellung, während der Assoziationsplot statistische Sachverhalte exakt widerspiegelt.

5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenhänge Empirische Zusammenhänge und Kausalität • Zum Kausalitätsbegriff • Die Verwendung grafischer Methoden und die Berechnung statistischer Zusammenhangsmaße für gegebene Daten führt in den meisten Fällen dazu, dass zwischen verschiedenen Variablen ein mehr oder weniger stark ausgeprägter empirischer Zusammenhang (eine empirische Abhängigkeit) irgendeiner Form gemessen werden kann. Beispielsweise könnte man feststellen, dass die Ge-

202 | 5 Beschreibung und Analyse empirischer Zusammenhänge

schwindigkeit einer Kugel im freien Fall mit zunehmender Abwurfhöhe und Flugzeit wächst, der Bremsweg eines Fahrzeugs bei höherer Geschwindigkeit länger wird, eine Nutzpflanze bei höherer Bewässerungsmenge stärker wächst, Menschen zu verschiedenen Tageszeiten unterschiedlich konzentrationsfähig sind, größere Personen tendenziell schwerer sind als kleinere, unter Rauchern bestimmte Krebserkrankungen häufiger auftreten als unter Nichtrauchern, ein fallender Leitzins der EZB stets mit steigenden Investitionen einhergeht, reichere Länder eine höhere Lebenserwartung aufweisen als ärmere, Männer durchschnittlich mehr verdienen als Frauen oder Schüler in größeren Klassen schlechtere Lernergebnisse erzielen als Schüler, die in kleineren Klassen unterrichtet werden. Solche Feststellungen führen stets zur Frage, inwieweit die gemessenen Abhängigkeiten tatsächlich auch im Sinne einer UrsacheWirkungs-Beziehung deutbar sind, also zur Frage nach der sog. Kausalität (lat. causa für Ursache). Dabei ist jeder Definitionsversuch für den Begriff Kausalität problematisch und stets einer gewissen Unschärfe unterworfen. Denn was genau ist eigentlich eine Ursache und was genau eine Wirkung? Neben einer immens philosophischen Dimension kommen dem Kausalitätsbegriff in den einzelnen Wissenschaftsgebieten recht unterschiedliche Bedeutungen und Deutungsebenen zu. Auf differenzierte und längliche Ausführungen hierzu wird verzichtet. • Kausalität in der Statistik • In statistischen Lehrbüchern und Fachartikeln wird der Begriff Kausalität häufig gemieden. In manchen Indexverzeichnissen taucht er erst gar nicht auf. Eingedenk seiner inhaltlichen Problematik, von der nachfolgend einige Punkte noch aufgezeigt werden, lässt sich Kausalität von seiner Wesensart her nun einmal nicht mathematisch fassen. Karl Pearson [1900b, S. 119] bemerkte dazu einmal: „Force as cause of motion is exactly on the same footing as a tree-god as cause of growth [...]“. Kausalität ist im Kern ein „kognitives Konstrukt“ (Kälble [1997, S. 19]). Im Grunde wird vorausgesetzt, dass man bereits weiß um was es geht, wenn davon in irgendeiner Form die Rede ist. Dennoch hat sich der Begriff in der Statistik in jüngerer Zeit stärker etabliert, was sich auch in der Benennung statistischer Methoden wie etwa mit Causal Inference oder Structural Causal Models äußert. Umfassende Übersichten zur Behandlung von Kausalität in der Statistik bieten beispielsweise Cox und Wermuth [2004] oder Pearl [2009]. • Korrelation impliziert keine Kausalität • Zunächst das Wichtigste vorweg: Ein messbarer empirischer Zusammenhang zwischen zwei Variablen X und Y, der sich beispielsweise über eine deutlich von 0 verschiedene Korrelation äußert, belegt noch lange keine kausale Beziehung zwischen X und Y. Genauso wenig kann man jedoch aus einem sehr niedrigen Korrelationswert das Fehlen einer solchen ableiten. Denn die Werte empirischer Zusammenhangsmaße können stets verfälscht werden durch (i) systematische Verzerrungen, (ii) zufällige Schwankungen.

5.3 Ergänzende und vertiefende Themen | 203

In ersterem Fall sind weitere Variablen (Hintergrundvariablen) im Spiel, welche den wahren Zusammenhang verzerren oder nur scheinbar entstehen (Scheinabhängigkeit) lassen. Im zweiten Fall ergibt sich ein Zusammenhang teilweise oder sogar gänzlich nur durch Zufall. Auf diese beiden Arten von Verfälschungen, die auch gleichzeitig auftreten können, werden wir noch später in diesem Abschnitt mit Beispielen und Lösungsansätzen näher eingehen. • Nachweis und Messung kausaler Effekte • Die erste und idealtypische Form Kausalität nachzuweisen und zu messen ist das wiederholbare Experiment. Im Rahmen eines „wohl durchdachten“ Versuchsdesigns wird dabei eine (mutmaßlich) Einflussvariable X kontrolliert verändert, um gegebenenfalls daraus folgende Änderungen einer beeinflussten Zielvariablen Y zu messen. Andere Faktoren, die ebenfalls Y beeinflussen könnten, werden dazu weitgehend ausgeschaltet oder zumindest konstant gehalten. Bei Vorliegen einer echten kausalen Beziehung sollte eine bestimmte Veränderung von X dann zwangsläufig und stets zu einer mehr oder weniger immer gleichen Veränderung von Y führen. Eine solche Veränderung wird dann in dieser Idealvorstellung eines Experiments als kausaler Effekt bezeichnet. In einem luftleeren Experimentalraum wird eine Stahlkugel aus unterschiedlich einstellbaren Höhen zum freien Fall gebracht. Spezielle Lichtschranken und Zeitmesser halten die Flugzeit bis kurz vor Aufschlagen auf dem Boden fest. Sei X die Flugzeit und Y die errechnete Endgeschwindigkeit, die sich aus Abwurfhöhe (Wegstrecke) und Flugzeit ergibt. Abgesehen von minimalen (zufälligen) Messschwankungen, lässt sich dann feststellen, dass die Endgeschwindigkeit mit jeder zusätzlichen Sekunde an Flugzeit stets um den gleichen Betrag (z.B. 9.81 m/s2 ) wächst, der ortsgebunden vom Schwerefeld auf der Erdoberfläche abhängt. In ähnlicher Form könnte auf einer Versuchsstrecke der Bremsweg eines bestimmten Fahrzeugs in Abhängigkeit von verschiedenen Geschwindigkeiten untersucht werden. Eine bestimmte Nutzpflanze könnte in einem Gewächshaus unter verschiedenen Bewässerungsmengen aufgezogen werden, um daraus resultierende Effekte auf deren Wachstum zu messen (Abschnitt 1.2.1). Oder man könnte Versuchspersonen in einem Computerlabor zu unterschiedlichen Tageszeiten bestimmte Testaufgaben bearbeiten lassen, um etwaige Einflüsse auf deren Konzentrationsfähigkeit zu untersuchen. Angesichts dieser Beispiele sollte klar sein, dass auch die Ergebnisse von Experimenten zufälligen Schwankungen unterlegen sein können. Dies liegt einfach daran, dass sich niemals alle Einflussfaktoren vollständig kontrollieren lassen. Im Falle der Bremsweguntersuchung beispielsweise könnten störende Qualitätsschwankungen der Fahrbahnbeschaffenheit oder der Reifenherstellung hinzukommen, nicht immer völlig identische Bremspedalbetätigungen der Testfahrer oder schwankende witterungsbedingte Einflüsse. Bei einem Experiment mit Pflanzen ist klar, dass jede Pflanze individuell ist, wenn sie auch von der gleichen Gattung sein mag. Das gilt für Menschen umso mehr. Identische Behandlungen von Pflanzen oder Versuchsper-

204 | 5 Beschreibung und Analyse empirischer Zusammenhänge

sonen werden in der Regel nicht zu völlig identischen Ergebnissen führen. In diesem Sinne weisen Experimente häufig ein statistisches Problem auf. Kausale Effekte lassen sich nicht immer exakt messen, sondern können allenfalls mehr oder weniger genau geschätzt werden. • Experimentalstudien vs. Erhebungsstudien • Auch wenn die inhaltliche Logik wiederholbarer Experimente überzeugend sein mag, können solche in vielen Fällen nicht durchgeführt werden, teils aus ethischen, finanziellen oder organisatorischen Gründen. Für die Untersuchung der Auswirkungen von Rauchen auf die Gesundheit von Menschen beispielsweise scheiden Experimente mit Menschen als Versuchspersonen aus ethischen Gründen aus. In den meisten Fällen wäre es wohl auch nicht vertretbar, bestimmten Schulklassen einfach ein schlechteres Betreuungsverhältnis zuzumuten als anderen, um daraus resultierende Effekte auf den Lernerfolg zu messen. Dies gilt insbesondere dann, wenn die Richtung des Effekts (positiv oder negativ) bereits absehbar ist. Ebenso wird die Zentralbank sich nicht dazu überreden lassen, zum Zwecke wissenschaftlicher Erkenntnisgewinnung mit der Höhe des Leitzinses zu experimentieren. Sofern Experimente nicht durchführbar sind, müssen die Daten auf andere Weise gewonnen werden. Inhaltlich unterscheiden wir deshalb zwischen Experimentalstudien und Erhebungsstudien. Bei Experimentalstudien werden die Werte und Kategorien potenzieller Einflussvariablen aktiv gesteuert, während sie bei Erhebungsdaten nur passiv beobachtet und erfasst werden. Im Falle der Krebserkrankungen von Rauchern oder Nichtrauchern beispielsweise könnte man sich auf die bei Ärzten archivierten Daten von Krebspatienten stützen oder diese durch Befragung von Patienten gezielt erst erheben. Welche und wie viele Patienten nun im Einzelnen rauchen oder nicht rauchen kann dabei jedoch nicht vorgegeben werden. Im Falle des Lernerfolgs unterschiedlich großer Schulklassen könnte man das Datenmaterial von Bildungsstudien wie etwa PISA heranziehen. Auch hier müssen die Werte der potenziellen Einflussvariablen so hingenommen werden wie sich diese mehr oder weniger gewollt bei der Erhebung ergeben. Im Rahmen von Erhebungsstudien meidet man es häufig, kausale Effekte direkt aus den Daten abzuleiten bzw. von solchen zu sprechen. Kausalität wird vielmehr aus fachlichen Erwägungen geschlossen und durch die Daten dann lediglich nur noch gestützt. Erhebungsstudien können einem experimentellen Design recht nahe kommen, wenn sich die Verteilungen der Einflussvariablen auf die einzelnen Merkmalsträger in gleicher Weise (quasi) günstig wie bei einem Experiment ergeben. Manchmal ist dann auch von sog. Quasi-Experimenten die Rede. Allerdings ist dieser Begriff in der Lehrbuchliteratur weder scharf noch einheitlich definiert. Im Gegenzug können in experimentellen Studien gesteuerte Einflussvariablen durch lediglich beobachtete Einflussvariablen ergänzt werden. Dies ist insbesondere dann der Fall, wenn in einem Experiment bestimmte Einflussfaktoren wie etwa Wetter oder individuelle Merkmale von Personen nicht steuerbar sind, dennoch aber als mögliche Einflüsse berücksich-

5.3 Ergänzende und vertiefende Themen | 205

tigt werden sollten. Somit ist die Grenze zwischen Experimental- und Erhebungsstudien in gewisser Hinsicht fließend. • Einflussschema bei Kausalanalysen • Abbildung 5.3.13 zeigt ein vereinfachendes Grundschema, wie sich statistische Analysen bezüglich kausaler Einflüsse im Falle einer einzelnen Zielvariablen Y darstellen lassen. Alle Einflüsse, die nicht berücksichtigt werden (können), bilden zusammen genommen eine nicht steuerbare bzw. nicht beobachtbare Restgröße, die hier als Restvariable U bezeichnet wird (Störvariable ist auch sehr gängig). Um die kausalen Effekte der gesteuerten bzw. beobachteten Einflussvariablen richtig zuordnen zu können, ist es wichtig, den Einfluss der Restvariablen als zufällig erachten zu können, da es ansonsten zu systematischen Verzerrungen kommen kann. Der statistischen Modellierung ist es dann anheimgestellt, „Zufall und System“ (Krämer [2006]) in der Weise zu trennen, dass die berücksichtigten kausalen Effekte richtig geschätzt werden können. Experiment

systematisch

Erhebung

Zielvariable Y beobachtet

Einflussvariablen X , W , Z , ... gesteuert oder...

zufällig

Restvariable U nicht steuerbar nicht beobachtbar

... nicht gesteuert

systematisch

Zielvariable Y beobachtet

Einflussvariablen X , W , Z , ... beobachtet oder...

zufällig

Restvariable U nicht beobachtbar

... nicht beobachtet

Abb. 5.3.13: Einflussschema bei Experimental- und Erhebungsstudien

Spezielle Formen von Kausalität • Direkte und indirekte kausale Effekte • Kausale Zusammenhänge können mehr oder weniger direkt ausgeprägt sein. So erklärt beim freien Fall einer Kugel die Abwurfhöhe in direkter Weise die Endgeschwindigkeit kurz vor dem Aufprall. Genauso stehen Geschwindigkeit und Bremsweg eines Fahrzeugs in relativ direkter Weise zueinander. Auch die Beziehung zwischen Bewässerung und Wachstum einer Pflanze betrachten wir möglicherweise noch als direkt kausal, auch wenn wir dies nicht in einem derart mechanistischen Sinne mehr deuten wie bei einem physikalischen Gesetz. Direkte kausale Effekte sind unmittelbar, basieren häufig auf natürlichen Gesetzmäßigkeiten und lassen sich idealerweise über Experimente messen.

206 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Kommen wir dagegen zum Schluss, dass Länder mit höherem Pro-KopfEinkommen eine höhere Lebenserwartung aufweisen als ärmere Länder, so ist klar, dass es sich hierbei um eine eher indirekte Form von Kausalität handelt. So mag der höhere Wohlstand beispielsweise mit einem weiter entwickelten Gesundheitswesen, einem stärker ausgebauten Bildungswesen oder einer zuverlässigeren Nahrungsmittelversorgung einhergehen, was sich dann alles wiederum positiv und deutlich direkter auf die Lebenserwartung der Bevölkerung auswirkt. In ähnlicher Weise sollte der Zusammenhang zwischen den schulischen Leistungen von Kindern und dem Einkommen ihrer Eltern eher von indirekten kausalen Effekten bestimmt sein. Dies könnte beispielsweise neben zusätzlichen Fördermöglichkeiten außerhalb des Unterrichts vor allem auch den Bildungshintergrund der Eltern in Kombination mit vielen erzieherischen und sozialpsychologischen Faktoren umfassen. Direkt Einflussvariable Geschwindigkeit

Indirekt Zielvariable Bremsweg

Einflussvariable Pro−Kopf−BIP

Zielvariable Gesundheitswesen Bildungswesen Ernährung, ...

Lebenserwartung

Vermittelnde Variablen

Abb. 5.3.14: Direkte und indirekte kausale Effekte

Gerade außerhalb naturwissenschaftlich-technischer Untersuchungen ist es häufig nicht möglich, alle direkten Einflüsse auf die Zielvariable genau zu spezifizieren. Die zwischen der Zielvariablen und den eher indirekten Einflussvariablen liegenden direkteren Einflussgrößen werden manchmal als vermittelnde Variablen (Wermuth und Streit [2007]) oder auch als Mediatorvariablen (Urban und Mayerl [2011]) bezeichnet. Außerdem ist es auch möglich, dass eine Einflussvariable sowohl einen direkten als auch einen indirekten Einfluss auf eine Zielvariable ausübt. Wie wir noch sehen werden, kann dies mitunter zu Fehlschlüssen führen. Schließlich ist es wichtig festzuhalten, dass keine eindeutige Grenze zwischen direkten und indirekten Effekten definiert werden kann. In vielen Fällen handelt es sich hierbei um eine relative Einordnung verschiedener Einflussvariablen, die fachspezifische Kenntnisse erfordert und teils auch subjektiv ausfallen kann. • Dynamische und simultane Abhängigkeit • Senkt die EZB den Leitzins, genau genommen den sog. Hauptrefinanzierungssatz, so wirkt sich dies möglicherweise auf die Investitionstätigkeit von Unternehmen aus. Da sich Geschäftsbanken nun billiger bei der Zentralbank refinanzieren können, geben sie diesen günstigeren Preis in Form günstigerer Kreditzinsen an Investoren weiter. Die Anpassung der kurz- und langfristigen Kreditzinsen vollzieht sich jedoch nicht sofort, sondern zeitlich verzögert und

5.3 Ergänzende und vertiefende Themen | 207

allmählich. Insbesondere werden potenzielle Investoren jedoch nicht von heute auf morgen mit steigender Investitionstätigkeit reagieren. In ähnlicher Weise mag eine Preisänderung oder eine besondere Werbemaßnahme für ein bestimmtes Produkt eine kurz-, mittel- und langfristige Wirkung erzielen. Immer dann, wenn sich kausal bedingte Anpassungsvorgänge zeitlich verzögert und schrittweise vollziehen, sprechen wir von dynamischen kausalen Effekten. Insbesondere außerhalb experimenteller Studien erweist sich deren Zuordnung und Messung als besonders schwierig, da sich über den längeren Wirkungszeitraum meist auch andere Rahmenbedingungen mit verändern. Mit Methoden zur Analyse dynamischer Abhängigkeiten befassen sich die Theorie stochastischer Prozesse und im Speziellen das Gebiet der Zeitreihenanalyse. Überwiegend Konsens besteht darin, dass im Hinblick auf die zeitliche Dimension von Kausalität die Ursache der Wirkung vorausgehen sollte und nicht umgekehrt. Allerdings wird dieser Punkt bereits durch das mögliche Problem simultaner Kausalität relativiert. Insbesondere in den Wirtschaftswissenschaften treten nämlich sehr oft Situationen auf, in denen eine Variable X eine andere Variable Y direkt oder indirekt beeinflusst und umgekehrt genauso. So wird beispielsweise die EZB ihren Leitzins maßgeblich an der gegenwärtigen und der zu erwartenden wirtschaftlichen Verfassung der EU-Länder ausrichten. Damit bestimmt sie mit ihrer Zinspolitik das wirtschaftspolitische Geschehen nicht nur mit, sondern wird umgekehrt genauso auch von diesem beeinflusst. In ähnlicher Weise führen steigende Konsumausgaben in einer Volkswirtschaft einerseits zu steigenden Einkommen, andererseits führen steigende Einkommen (möglicherweise) auch wieder zu einem erhöhten Konsum. In der Ökonometrie, genauer gesagt auf dem Gebiet der Zeitreihenanalyse, wurde unter dem Begriff der sog. Granger-Kausalität ein statistisches Kriterium definiert, anhand dessen sich zumindest beurteilen lässt, welche der beiden Variable der anderen zeitlich vorhergeht, sich statistisch gesehen sozusagen zuerst verändert. Aber auch in anderen Gebieten sind derartige Situationen denkbar. Möchte man beispielsweise in der Medizin die Wirkung bestimmter Therapiemaßnahmen untersuchen, so muss beachtet werden, dass Therapiemaßnahmen einerseits Reaktionen auf bestimmte Krankheitsverläufe sind und andererseits diese wiederum beeinflussen.

Systematische Verzerrungen • Hintergrund • In Experimenten werden die wichtigsten Einflüsse auf die Zielvariable im Rahmen eines Versuchsdesigns gewöhnlich gesteuert und weitgehend beschränkt. Damit lässt sich dann meist der größte Teil an Schwankungen der Zielvariablen auf die Variation der gesteuerten Einflussvariablen systematisch zurückführen. Der meist kleinere Teil an nicht erklärbaren Schwankungen wird allen restlichen (nicht gesteuerten) Einflüssen zugeordnet und als zufällig erachtet. Im Falle von Erhebungsdaten liegt dagegen häufig eine ungeordnete und ungewollte Vermengung

208 | 5 Beschreibung und Analyse empirischer Zusammenhänge

wichtiger Einflüsse vor. In solchen Fällen ist es dann entscheidend, alle wesentlichen Einflussvariablen zu beobachten und zu erfassen, um diese bei der späteren Analyse mit berücksichtigen zu können. Wird dies versäumt, so besteht die Gefahr, dass nicht berücksichtigte aber relevante Einflüsse systematische Verfälschungen verursachen, die in der Statistik gewöhnlich als Verzerrungen bezeichnet werden. Betrachtet man beispielsweise alle Personen im erwerbsfähigen Alter in Deutschland, so stellt man fest (Abb. 5.3.6), dass der Anteil der Erwerbstätigen unter den 55 bis 65-Jährigen deutlich höher ist als unter den 45 bis 55-Jährigen. Gleichzeitig ist jedoch auch ersichtlich, dass unter den Älteren der Anteil von Personen mit Hochschulreife geringer und der Anteil von Personen mit Hauptschulabschluss zugleich deutlich höher ist als bei den Jüngeren. Somit lässt sich der Rückgang der Erwerbstätigkeit nicht mehr eindeutig nur einem „Alterseffekt“ zuordnen, wenn man davon ausgeht, dass vom schulischen Bildungsniveau mehr oder weniger direkte kausale Effekte auf die Erwerbstätigkeit ausgehen (siehe später Beispiel 5.3.4). Soll untersucht werden, ob und inwiefern Männer und Frauen unterschiedlich viel wiegen, ist zu bedenken, dass Männer im Durchschnitt größer sind als Frauen und damit allein schon über diesen „Größeneffekt“ durchschnittlich mehr wiegen (Abb. 5.2.1, Abb. 5.3.1). Sofern dieser indirekte Effekt allein jedoch nicht ausschlaggebend sein soll, muss dies entsprechend bei dieser Fragstellung mit berücksichtigt werden (siehe später Beispiel 5.3.4). Vor ähnlichem Hintergrund sollte auch das in Medien häufig behandelte Thema, ob nun Männer besser bezahlt werden als Frauen, untersucht werden. Eine diskriminierende Bezahlung würde beispielsweise dann vorliegen, wenn selbst bei gleicher beruflicher Erfahrung und Qualifikation unterschiedlich bezahlt würde. Es sollte dagegen beispielsweise klar sein, dass ein bei einem Unternehmen langjährig angestellter 55-jähriger Ingenieur sich kaum mit einer 32-jährigen Bürokauffrau, die nach 5jähriger Familienpause gerade wieder in ihren Beruf zurückkehrt, direkt vergleichen lässt. Freilich genauso wenig lässt sich eine 38-jährige Ärztin mit einem 55-jährigen ungelernten Hilfsarbeiter vergleichen. • Beispiele systematischer Verzerrungen • Abbildung 5.3.15 illustriert anhand der vorigen Beispiele, wie der Zusammenhang zwischen zwei Variablen (schwarz) durch eine nicht berücksichtigte Einflussvariable (grau) verzerrt werden kann. Die großen Pfeile deuten die kausalen Wirkungsrichtungen an, die kleinen Pfeile die jeweiligen Effektrichtungen (positiv oder negativ). Eine systematische Verzerrung liegt immer dann vor, wenn die interessierende Einflussvariable und die nicht berücksichtigte Einflussvariable korreliert sind. Diese Korrelation kann, muss aber nicht, auf einer kausalen Beziehung basieren. Sie kann sich auch mehr oder weniger zufällig ergeben. Die Richtung der Verfälschung hängt dann vom Vorzeichen dieser Korrelation und der Effektrichtung der nicht berücksichtigten Einflussvariablen ab. Angenommen, ab einer gewissen Altersschwelle wirke sich ein höheres Alter beispielsweise über Frühverrentung oder schwere Vermittelbarkeit bei Arbeitslosigkeit

5.3 Ergänzende und vertiefende Themen | 209

Erwerbstätigkeit

↓ Alter





Abitur

Gewicht

↑ Männlich

Gehalt



+

Größe

↓ Weiblich



+

Qualifikation

Abb. 5.3.15: Schematische Beispiele systematischer Verzerrungen

negativ auf die Erwerbstätigkeit aus. Gleichzeitig sei unter den älteren erwerbsfähigen Personen der Anteil von Abiturienten deutlich geringer als unter den jüngeren Personen (negative Korrelation). Nimmt man nun an, dass sich ein Abiturabschluss positiv auf die spätere Erwerbstätigkeit auswirkt, so würden diese Sachverhalte den gemessenen Zusammenhang zwischen Alter und Erwerbstätigkeit nach unten verzerren. Dies bedeutet, dass der ohnehin schon negative direkte Effekt des Alters auf die Erwerbstätigkeit durch die dritte Variable noch zusätzlich verstärkt wird. Dies wäre auf den über die Schulbildung gehenden indirekten Effekt zurückzuführen (siehe auch Beispiel 5.3.4). Angenommen, Knochenbau und muskuläre Struktur bei Männern seien derart, dass Männer schwerer sein sollten als Frauen. Gleichzeitig sind Männer bekanntlich im Durchschnitt aber auch größer als Frauen (positive Korrelation). Geht man nun (berechtigterweise) davon aus, dass die Körpergröße dem Körpergewicht zuträglich ist, so würde dies den gemessenen Zusammenhang zwischen männlichem Geschlecht und Gewicht nach oben verzerren. Dies bedeutet, dass der ohnehin schon positive direkte Effekt eines männlichen Geschlechts auf das Gewicht durch die dritte Variable verstärkt wird. Realistisch müsste man sogar damit rechnen, dass der über die Größe gehende indirekte Effekt deutlich stärker ist. Angenommen, in einer bestimmten Branche würden Frauen hinsichtlich des Gehaltes diskriminiert, d.h. selbst bei vergleichbarer Qualifikation systematisch schlechter bezahlt als Männer. Gleichzeitig stelle sich heraus, dass Frauen in dieser Branche im Allgemeinen höhere Qualifikationen aufweisen als Männer. Geht man davon aus, dass für höhere Qualifikationen auch in dieser Branche prinzipiell höhere Gehälter gezahlt werden, so würde dies den gemessenen Zusammenhang zwischen weiblichem Geschlecht und Bezahlung nach oben verzerren. Dies bedeutet, dass der negative direkte Effekt eines weiblichen Geschlechts auf das Gehalt durch die dritte Variable abgeschwächt würde. Die Richtung des indirekten Effekts wäre in diesem Fall der Richtung des direkten Effekts entgegengerichtet. Abhängig davon, welcher der beiden Effekte nun stärker wäre, könnten die Frauen im Endeffekt mehr, weniger oder gleich viel wie die Männer verdienen. Überwiegt der direkte Diskriminierungseffekt, so verdienen die Frauen durchschnittlich weniger als die Männer trotz höherer Qualifikation. Überwiegt dagegen der indirekte Qualifikationseffekt, so verdienen die Frauen mehr trotz Diskriminierung. Der Diskriminierungseffekt würde in diesem Fall den

210 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Qualifikationseffekt überkompensieren. Gleichen sich beide Effekte aus, so werden Männer und Frauen scheinbar gleich gut bezahlt. • Merkregeln für den 3-Variablenfall • Im Folgenden wird die Systematik von Verzerrungen anhand von Merkregeln zusammengefasst. Es handelt sich dabei lediglich um Faustregeln, die im Rahmen des multiplen linearen Regressionsmodells (Abschnitt 12.2) jedoch eine theoretische Fundierung und inhaltliche Konkretisierung erhalten. Dies bedeutet, dass die Regeln umso verbindlicher werden, je mehr die Annahmen dieses Modells erfüllt sind. Es sollte außerdem klar sein, dass sich im Falle von mehr als 3 Variablen die Zuordnung und Systematik direkter und indirekter Effekt entsprechend komplexer gestaltet.

Y ↓ oder ↑ X

Kompensation im Falle von...

↓ oder ↑ Z

− oder +

↓ ↓ ↑ ↑

− + − +

Verstärkung im Falle von...

↓ ↑ ↑ ↓

↓ ↓ ↑ ↑

− + − +

↑ ↓ ↓ ↑

Abb. 5.3.16: Richtung systematischer Verzerrungen – Merkregeln kompakt

Systematische Verzerrung im 3-Variablen-Fall Gegeben seien drei metrische oder metrisch kodierte Variablen X, Y und Z. Angenommen X und Z üben jeweils direkte kausale Einflüsse auf die Zielvariable Y aus. Alle weiteren Einflüsse auf Y seien zufällig und nicht systematisch. Von X geht auf Y (i) ein positiver direkter Effekt aus, falls der Wert von Y tendenziell steigt, wenn der Wert von X steigt und Z dabei konstant bleibt. (ii) ein negativer direkter Effekt aus, falls der Wert von Y tendenziell sinkt, wenn der Wert von X steigt und Z dabei konstant bleibt. Analog sind die direkten Effekte von Z auf Y unter konstantem X definiert. Von X geht über Z auf Y (i) ein positiver indirekter Effekt aus, falls X mit Z positiv korreliert ist und der direkte Effekt von Z auf Y positiv ist; X mit Z negativ korreliert ist und der direkte Effekt von Z auf Y negativ ist, (ii) ein negativer indirekter Effekt aus, falls X mit Z positiv korreliert ist und der direkte Effekt von Z auf Y negativ ist; X mit Z negativ korreliert ist und der direkte Effekt von Z auf Y positiv ist, (iii) kein indirekter Effekt aus, falls X mit Z nicht korreliert ist.

5.3 Ergänzende und vertiefende Themen | 211

Der aus direktem und indirektem Effekt zusammengesetzte Gesamteffekt von X auf Y, der auch als totaler Effekt bezeichnet wird, spiegelt den direkten Effekt von X auf Y systematisch verzerrt (verfälscht) wider, sofern X mit Z korreliert ist. Sind direkter und indirekter Effekt entgegengerichtet, so wird der indirekte Effekt den direkten Effekt durch Kompensation (Abschwächung) verzerren. Sind direkter und indirekter Effekt gleichgerichtet, so wird der indirekte Effekt den direkten Effekt durch Verstärkung verzerren. Lediglich in Fall (iii) wird der totale Effekt den direkten Effekt unverzerrt (unverfälscht) widerspiegeln. • Weitere Bemerkungen • Sofern der direkte Effekt von X auf Y aufgrund der Korrelation von X mit Z verzerrt wird, so ist umgekehrt natürlich der direkte Effekt von Z auf Y (aufgrund der Korrelation von Z mit X) verzerrt. Wie bereits bemerkt müssen die indirekten Effekte nicht zwingend auch kausaler Natur sein. Dies ist nur der Fall, falls X auf Z einen direkten kausalen Effekt (unter konstantem Y) ausübt. Nur in diesem Fall bezeichnet man Z dann auch als Mediatorvariable. Hängt dagegen X kausal von Z ab, so sind die Rollen von X und Z gewissermaßen vertauscht. Dann nimmt X die Rolle als Mediatorvariable ein. Die Gefahr besonders schwerer Fehlinterpretationen besteht insbesondere immer dann, falls der indirekte Effekt den direkten Effekt überkompensiert. In solchen Fällen lässt sich aus dem Vorzeichen der Korrelation zwischen X und Y nicht einmal mehr die Richtung des direkten Effekts von X auf Y korrekt ablesen. Die Korrelation kann beispielsweise negativ sein, obwohl X eigentlich einen positiven Einfluss auf Y ausübt oder genau umgekehrt. Im ersten Beispiel von Abbildung 5.3.15 würde man das Merkmal „Schulbildung“ beispielsweise mit 1 für „mit Abitur“ und 0 für „ohne Abitur“ metrisch kodieren. Das Merkmal „Geschlecht“ würde im zweiten Beispiel mit 1 für „männlich“ und 0 für „weiblich“ und im dritten Beispiel genau umgekehrt kodiert werden. Somit bedeutet eine „steigender Wert“ der Einflussvariablen im zweiten Beispiel eine Veränderung von „weiblich“ nach „männlich“ und im dritten Beispiel eine Veränderung von „männlich“ nach „weiblich“. • Scheinabhängigkeiten • Besteht zwischen zwei Variablen X und Y keinerlei kausaler Zusammenhang und weisen statistische Zusammenhangsmaße dennoch Werte auf, die eine deutliche kausale Abhängigkeit suggerieren, spricht man von einer Scheinabhängigkeit (speziell auch von einer Scheinkorrelation). Häufige Gründe für Scheinabhängigkeit sind gemeinsame zeitliche Verläufe zweier Variablen oder auch nur reiner Zufall. In dem fast schon legendären „Storchenbeispiel“ wird über Jahrzehnte hinweg die Größe der in einer Region ansässigen Storchenpopulation zusammen mit der Anzahl der Geburten je Einwohner jährlich erfasst. Aufgrund von zunehmender Verstädterung und gleichzeitig sich verändernden sozialen Lebensgewohnheiten, geht die

212 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Abnahme der Storchenpopulation dann überraschend parallel mit der Abnahme der Geburten einher, was sich in einer starken positiven Korrelation äußert. Auch die im ersten Beispiel von Abbildung 5.3.15 zwischen den Merkmalen „Alter“ und „Abitur“ auftretende negative Korrelation könnte ebenfalls als Scheinkorrelation gedeutet werden. Es wäre jedenfalls stark anzuzweifeln, dass der höhere Abiturientenanteil unter der jüngeren Generation auf höhere Fähigkeiten schließen lässt. Vielmehr wurde der Zugang zum Abitur durch Ausbau und Veränderung der schulischen Systeme über Jahrzehnte kontinuierlich einer breiteren Masse von Schülern ermöglicht

Abb. 5.3.17: Schematische Beispiele von Scheinabhängigkeiten

Durch einen gemeinsamen zeitlichen Verlauf verursachte Scheinabhängigkeiten lassen sich auch als Spezialfälle systematischer Verzerrungen behandeln. Dabei kommt eine an sich nicht bestehende kausale Beziehung zwischen zwei Variablen X und Y durch eine dritte Variable Z, nämlich die Zeit, zustande. Bei gleichgerichteter Verlaufsrichtung ergibt sich dabei eine positive Korrelation, bei entgegengesetztem Verlauf eine negative Korrelation. • Methodischer Umgang mit systematischen Verzerrungen • Verzerrungen ergeben sich durch Einwirken weiterer Einflussvariablen, die mit bereits berücksichtigten Einflussvariablen korreliert sind. Im Folgenden werden verschiedene methodische Ansätze zum Umgang mit diesem Problem kurz vorgestellt. Einige zielen primär darauf ab, eine Korrelation zwischen berücksichtigten und nicht berücksichtigten Einflussvariablen von vorneherein zu unterbinden oder eine derart bestehende Korrelation zu neutralisieren. Andere binden im Rahmen statistischer Modelle bisherig nicht berücksichtigte Einflussvariablen so ein, dass alle direkten Effekte trotz Vermengung ermittelt werden können. Das bedeutendste eines solchen Modells ist das multiple lineare Regressionsmodell. • Versuchsplanung • Angenommen, jeweils 10 Exemplare einer Nutzpflanze werden in einem Versuchslabor unter 2 verschiedenen Bedingungen aufgezogen. Die erste Gruppe wächst ohne künstlichen Dünger auf, die zweite Gruppe wird regelmäßig gedüngt. Es sollte klar sein, dass der Düngeeffekt nicht geschätzt werden kann, wenn sich simultan beispielsweise noch die Bewässerungsmethoden beider Gruppen systematisch unterscheiden. Dann wäre unklar, ob das unterschiedliche Wachstum nun auf die Düngung oder auf die Bewässerung zurückzuführen ist. Zu den Aufgaben der

5.3 Ergänzende und vertiefende Themen | 213

Versuchsplanung gehört es, das Versuchsdesign zur Untersuchung einer bestimmten Fragestellung geeignet festzulegen. Dabei ist es keinesfalls so, dass immer nur eine einzelne Einflussvariable gesteuert und verändert werden kann. Es lassen sich auch zwei oder mehr Einflussvariablen, meist Faktoren genannt, innerhalb des gleichen Experiments durch Steuerung variieren. In vielen klassischen Versuchsplänen geschieht dies dann häufig so, dass die Variation der verschiedenen Faktoren bildlich „über Kreuz“ läuft. Im vorhergehenden Pflanzenbeispiel könnte dies beispielsweise so aussehen: 5 Exemplare mit Dünger und Bewässerungsstufe 1, 5 Exemplare mit Dünger und Bewässerungsstufe 2, 5 Exemplare ohne Dünger und Bewässerungsstufe 1, 5 Exemplare ohne Dünger und Bewässerungsstufe 2.

Die einzelnen Faktoren sind bei einem solchen orthogonalen Versuchsdesign nicht korreliert, weshalb sich die eintretenden Effekte auf die Zielvariable (hier das Wachstum) dann besonders einfach den einzelnen Faktoren zuordnen lassen (vgl. Abschnitt 4.5.1). Als statistische Modelle dominieren hierbei klassischerweise Varianzanalysemodelle. • Randomisierung • Angenommen, in einem Computerlabor einer Universität lässt man Versuchspersonen zu unterschiedlichen Tageszeiten kurze logische Testfragen unter Zeitdruck bearbeiten, um etwaige Einflüsse der Tageszeit auf die Konzentrationsfähigkeit zu untersuchen. Es werden dazu insgesamt 100 Studierende ausgewählt, die sich freiwillig für dieses Experiment melden. Von diesen bearbeitet die erste Hälfte die Testaufgaben morgens zwischen 9 und 10 Uhr und die zweite Hälfte abends zwischen 19 und 20 Uhr. Gemäß dem zeitlichen Eingang ihrer Meldung werden die ersten 50 Studierenden dem Morgentermin und die restlichen 50 dem Abendtermin zugeordnet. Diese Vorgehensweise würde dann bereits gegen ein wichtiges Grundprinzip statistischer Versuchsplanung verstoßen. Unterschiedliche Behandlungsstufen sollten nämlich in der Regel randomisiert, d.h. zufällig, zugeteilt werden. Damit soll verhindert werden, dass berücksichtigte Einflussvariablen mit nicht berücksichtigten wichtigen Einflüssen korrelieren. Stellen wir uns beispielsweise vor, die 20 letzten Versuchspersonen seien zufälligerweise Studenten der Mathematik und Physik, die sich spontan nach einer Werbung für das Experiment in einer ihrer Vorlesungen gemeldet haben. Dann wäre möglicherweise zu erwarten, dass diese Studenten ein im Vergleich zu anderen Studierenden überdurchschnittliches Potential und Training für logische Problemstellungen besitzen. Nimmt man nun beispielsweise an, dass die Konzentrationsfähigkeit abends allgemein geringer ist als morgens, könnten diese Studenten diesen Tageszeiteffekt beträchtlich kompensieren. Im Extremfall könnte der indirekte „Facheffekt“ den direkten Tageszeiteffekt überkompensieren, sodass die Abendgruppe im Endeffekt sogar

214 | 5 Beschreibung und Analyse empirischer Zusammenhänge

noch besser als die Morgengruppe abschneidet. Bei einer randomisierten Zuteilung, hätten sich die 20 Mathematik-Studenten dagegen viel gleichmäßiger auf die beiden Zeiten verteilt. Natürlich würde man auch bei guter Versuchsplanung die Versuchspersonen möglichst zufällig auswählen und alle potenziellen Hintergrundvariablen mit beobachten und erfassen. Das Prinzip der Randomisierung gilt dennoch generell, da es auch vor verzerrenden Effekten schützt, die möglicherweise unbemerkt blieben. • Untersuchung in homogeneren Untergruppen • Bei Erhebungsstudien scheiden die bisherig vorgestellten Instrumente in der Regel aus. Hier kann dem störenden Effekt einer nicht berücksichtigten Einflussvariablen jedoch insofern Rechnung getragen werden, indem man die Daten bezüglich der störenden Variablen in homogeneren Untergruppen auswertet. Diese Vorgehensweise entspricht einer Untersuchung von bedingten Verteilungen im höherdimensionalen Sinne (vgl. Abschnitt 8.3.1). Im 3-Variablenfall würde man dann z.B. die sog. gemeinsame bedingte Verteilung zwischen X und Y unter Z untersuchen, wobei die bedingte Abhängigkeit zwischen X und Y von primärem Interesse wäre. Möchte man beispielsweise den direkten altersspezifischen Effekt auf die Erwerbstätigkeit untersuchen, so vergleicht man nur noch Personen mit gleichem oder zumindest ähnlichem Bildungshintergrund. Zur Ermittlung des direkten bildungsspezifischen Effekts vergleicht man dagegen nur noch Personen ähnlicher Altersgruppen (Beispiel 5.3.4). Möchte man den direkten geschlechtsspezifischen Effekt auf das Gewicht einer Person ermitteln, so wird nach Größe gruppiert. Man vergleicht dann also nur noch das Gewicht von in etwa gleich großen Männern und Frauen. Möchte man dagegen den direkten größenspezifischen Effekt auf das Gewicht schätzen, so gruppiert man nach Geschlecht und untersucht die Beziehung zwischen Größe und Gewicht innerhalb des gleichen Geschlechts (Beispiel 5.3.4) Die Bildung homogenerer Untergruppen stößt besonders bei metrischen Variablen schnell an ihre Grenzen, wenn die Untergruppen kaum noch Daten enthalten. Um genügend Beobachtungen zu haben, muss der Grad ihrer Homogenität entsprechend verringert werden, was wiederum die Gefahr von Verfälschungen erhöht. Der Vorteil dieses Lösungsansatzes besteht darin, dass er im Gegensatz zur multiplen Regression (siehe nächster Punkt) keine stärkeren Annahmen über den Wirkungszusammenhang der involvierten Variablen enthält. Für explorative Voruntersuchungen ist er deshalb auf jeden Fall zu empfehlen. • Multiple lineare Regression • Die mit Abstand bedeutendste Technik zur Berücksichtigung verzerrender Einflüsse ist die multiple lineare Regression. Sie stellt eine Erweiterung der in Abschnitt 5.2.3 behandelten einfachen linearen Regression dar und wird in Abschnitt 12.2 in größerem Rahmen ausführlich behandelt. Wir beschränken uns hier auf kurze Ausführungen.

5.3 Ergänzende und vertiefende Themen | 215

Im Zuge einer statistischen Modellierung geht man beispielsweise im 3Variablenfall davon aus, dass sich der Zusammenhang zwischen den Einflussvariablen X und Z und der Zielvariablen Y über die lineare Gleichung der Form Y = β0 + β1 X + β2 Z + V

(5.3.1)

hinreichend gut beschreiben lässt, wobei die Restvariable V als zufällig erachtet wird. Richtung und Stärke der direkten Effekte von X bzw. Z auf Y, die in der Regressionstheorie auch als partielle Effekte bezeichnet werden, ergeben sich aus den Regressionskoeffizienten β1 und β2 . Diese können anhand der Daten beispielsweise über die Methode der kleinsten Quadrate ermittelt werden. Würde man dagegen nur eine einfache Regression der Form Y = β0 + β1 X + U durchführen, so würde die fehlende Variable Z in die Restvariable U einfließen und darüber dann systematische Verzerrungen verursachen. Der ermittelte Koeffizient β1 würde dem von X auf Y ausgehenden totalen Effekt entsprechen, nicht aber dem direkten Effekt von X auf Y. In der Regressionstheorie wird diese systematische Verzerrung auch OVB (Omitted Variable Bias) genannt. Sofern es eine weitere Einflussvariable W gäbe, die mit wenigstens einer der beiden Einflussvariablen in (5.3.1) korreliert wäre, ließe sich (5.3.1) abermals erweitern zu Y = β0 + β1 X + β2 Z + β3 W + V ∗ . So geht es dann immer weiter. Die Vorteile der multiplen linearen Regression sind beträchtlich. Die relativ aufwändige Bildung homogener Untergruppen entfällt. Stattdessen werden, wie gezeigt werden kann, sich gegenseitig störende Einflüsse linear herausgerechnet (Abschnitt 12.2.1). Insbesondere mit der KQ-Methode lassen sich die Regressionskoeffizienten einfach bestimmen, können sehr gut interpretiert werden und sind darüber hinaus noch mit den Merkregeln für systematische Verzerrungen kompatibel. • Multiple Regression in anderen Modellen • Ein kritischer Punkt sind die dem multiplen linearen Regressionsmodell innewohnenden Annahmen. So wird unterstellt, dass die Wirkungen der Einflussvariablen auf die Zielvariable linear und additiv sind, was sich bei bestimmten Problemstellungen als nicht realistisch erweist. Ebenso ist der lineare Ansatz wenig geeignet, wenn die Zielvariable Y kategorialer Natur ist. In solchen Fällen bieten sich häufig (nichtlineare) Regressionsmodelle an wie etwa die in Abschnitt 5.3.1 bereits genannten logistischen Regressionsmodelle. Ausführlichen Einblick hierzu bieten beispielsweise Fahrmeir et al. [2013] oder Schlittgen [2013]. Betrachtet man etwa den in Abbildung 5.3.4 (Abschnitt 5.3.1) zu sehenden Zusammenhang zwischen der ordinalen Zielvariable „Masterambition“ und den metrischen

216 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Einflussvariablen „Abiturnote“ und „Alter“ von Studierenden, so wird nahe gelegt, dass von der Abiturnote ein positiver Effekt auf die Masterambition ausgehen sollte. Gleichzeitig scheint die Masterambition jedoch mit zunehmendem Alter zu sinken. Dies könnte möglicherweise dadurch erklärt werden, dass ältere Studierende häufiger schon eine abgeschlossene oder abgebrochene Ausbildung aufweisen und deshalb wohl zügiger in den Arbeitsmarkt eintreten möchten. Zu systematischen Verzerrungen dieser beiden Effekte könnte es dann kommen, wenn Abiturnote und Alter korreliert wären. Tatsächlich beträgt die Korrelation der beiden Variablen mehr als 0.4. Dies bedeutet, dass ältere Studierende tatsächlich tendenziell schlechtere („größere“) Noten haben als jüngere. Um nun sowohl den Noteneffekt als auch den Alterseffekt richtig schätzen zu können, böte sich hier eine multiple Regression im Rahmen eines geordneten Logit-Modells an. Zunächst könnte man betreffende Effekte natürlich auch erst in homogeneren Untergruppen differenziert untersuchen. Für den in Abbildung 5.3.2 zu sehenden Zusammenhang zwischen der binären Zielvariable „Arbeitsmarktbeteiligung“ (ja vs. nein) und den metrischen Einflussvariablen „Alter“ und „Nichterwerbseinkommen“ wäre ein klassisches Logit-Modell möglicherweise passend. Beispiel 5.3.4: Systematische Verzerrungen Fall 1: Erwerbstätigkeit (Zielvariable), Alter und Schulabschluss Grundlage für das erste Fallbeispiel bilden die Daten von Abbildung 5.3.6 (Abschnitt 5.3.2) und die vorhergehenden Überlegungen dazu in Verbindung mit Abbildung 5.3.15. Die folgende Tabelle 5.3.4 verschafft einen Einblick in die Problematik. Tab. 5.3.4: Erwerbstätigkeit, Alter und Schulabschluss erwerbsfähiger Personen

Erwerbstätigenquote nach Alter 35–45

84.9%

Erwerbstätigenquote nach Schulabschluss

45–55

84.1%

ohne Abitur

73.7%

61.3%

mit Abitur

86.3%

55–65

Anteil von Abiturienten nach Alter 35–45

35.4%

45–55

28.6%

55–65

23.5%

Erwerbstätigenquote nach Alter und Schulabschluss 35–45

45–55

55–65

ohne Abitur

82.4%

81.6%

57.0%

mit Abitur

89.4%

90.4%

75.1%

Wie man erkennen kann, nimmt die Erwerbstätigkeit erst ab einem Alter von ca. 55 Jahren schlagartig ab. Der totale Effekt beim Übergang von der Gruppe der 45- bis 55-Jährigen in die Gruppe der 55- bis 65-Jährigen liegt bei −22.8%. Der totale Abitureffekt beträgt etwa +12.6%. Da der Anteil von Abiturienten in den beiden letzten Altersgruppen stark abnimmt, besteht die Gefahr einer systematischen Verzerrung.

5.3 Ergänzende und vertiefende Themen | 217

Dabei könnte der vom Alter ausgehende direkte Effekt über den indirekten Abitureffekt verstärkt werden. So gesehen würde der totale Effekt von −22.8% den direkten Alterseffekt überzogen darstellen. Analog wäre der Abitureffekt mit +12.6% durch den indirekten Alterseffekt überzogen ausgewiesen. Eine differenzierte Untersuchung in homogeneren Untergruppen liefert ein zwiespältiges Resultat. Beschränkt man sich nur auf die beiden älteren Altersgruppen, so stellt man fest, dass der direkte negative Alterseffekt unter den Personen ohne Abitur deutlich stärker ist (−24.6%) als unter den Personen mit Abitur (−15.3%) und sogar den totalen Effekt von −22.8% übersteigt. Umgekehrt ist in der Gruppe der 45- bis 55-Jährigen der direkte Abitureffekt mit +8.8% deutlich schwächer als in der Gruppe der 55- bis 65-Jährigen mit +18.1%. Dies deutet darauf hin, dass die Effektstärke der einen Einflussvariablen jeweils vom Wert der anderen Einflussvariablen abhängt. Man spricht dann auch von einer Interaktion (Wechselwirkung) zweier Einflüsse. Die Mechanik systematischer Verzerrungen ist in solchen Fällen komplexer und entspricht nicht mehr den einfachen Merkregeln. Es müssen hier allerdings einige einschränkende Bemerkungen angebracht werden. Die Altersgruppen sind noch relativ weit gefasst und sind vom Ideal homogener Untergruppen weit entfernt. Auch könnten noch viele weitere Einflüsse wie etwa Geschlecht, Einkommen oder Familienstand relevant sein, die mit Alter oder Schulabschluss korreliert sind. Eine weitaus tiefere fachliche Einsichtnahme wäre hier nötig. Fall 2: Gewicht (Zielvariable), Geschlecht und Größe Grundlage für das zweite Fallbeispiel bilden die Daten der Abbildungen 5.2.1 (Abschnitt 5.2.1) und 5.3.1 (Abschnitt 5.3.1) sowie die vorhergehenden Überlegungen dazu. Der in Abbildung 5.2.1 zu sehende Zusammenhang zwischen Größe und Gewicht wird in Abbildung 5.3.18 geschlechtsspezifisch getrennt dargestellt. Damit lässt sich sozusagen die bedingte Abhängigkeit (der bedingte Zusammenhang) zwischen Größe und Gewicht unter Geschlecht untersuchen. Wie man sieht, ist der direkte Effekt der Größe auf das Gewicht in beiden Fällen positiv. Gemessen am Steigungskoeffizienten der KQ-Geraden beträgt dieser 0.70 kg je cm bei den Männern und 0.82 kg je cm bei den Frauen. Folglich liegt eine schwache bis mäßige Interaktion zwischen Geschlecht und Größe vor. Bei einer gemeinsamen Regression über beide Geschlechter hinweg liegt der totale Größeneffekt bei 0.96 kg je cm und reflektiert damit dann tatsächlich auch einen Verstärkungseffekt.

218 | 5 Beschreibung und Analyse empirischer Zusammenhänge

Männer

Gewicht in kg 140

Frauen

Gewicht in kg 140

120

120 y1 = 75.7

100

y0 = 58.8

100

80

80

60

60

40

40 150

160

170

180

190

200

210

150

160

170

Größe in cm

180

190

200

210

Größe in cm

Abb. 5.3.18: Zusammenhang von Größe und Gewicht nach Geschlecht

Die Bildung homogenerer Untergruppen bezüglich Größe ist nur beschränkt möglich, da sich die Größen der beiden Geschlechter nur etwa zwischen 170 und 180 cm nennenswert überlappen. Wie man anhand Abbildung 5.3.19 erkennen kann, scheint es einen direkten geschlechtsspezifischen Effekt auf das Gewicht tatsächlich zu geben. Jedenfalls wiegen Männer auch bei vergleichbarer Körpergröße im Durchschnitt mehr als Frauen. In der Größenklasse von 170 bis 175 cm beträgt dieser Effekt 5.14 kg, während er in der Größenklasse von über 175 cm bis 180 cm mit 3.9 kg etwas geringer ausfällt. Der totale Gewichtseffekt über alle Größen hinweg ist mit 17.2 kg wiederum deutlich stärker als der direkte Effekt. Trotz auftretender Interaktion sind die hier auftretenden Effekte mit den Merkregeln für systematische Verzerrungen in Einklang. In Abschnitt 12.2, in dem dann die multiple lineare Regression als Lösungsansatz ausführlich behandelt wird, wird dieses Beispiel deshalb erneut aufgegriffen. Dennoch sollte auch hier betont werden, dass sich Aussagen darüber, ob und inwiefern Größe und Gewicht tatsächlich kausal für Gewicht sind, sich aus fachlichen Erwägungen ergeben müssen. Gewicht in kg

170 ≤ Größe ≤ 175

Gewicht in kg

100

100

90

90

80

80

70

70

60

60

50

175 < Größe ≤ 180

50 Männer

Frauen

Männer

Abb. 5.3.19: Zusammenhang von Geschlecht und Gewicht nach Größe

Frauen

5.3 Ergänzende und vertiefende Themen | 219

Zufällige Schwankungen • Hintergrund • Fast immer sind Statistiken, insbesondere also auch Zusammenhangsmaße, zu einem gewissen Grad zufälligen Schwankungen unterworfen, die sich nicht weiter systematisierend bestimmten Einflussfaktoren zuordnen lassen und die nicht prognostizierbar bleiben. Deshalb verfügt jedes statistische Modell über eine zufällige Restkomponente, Rest- oder Störvariable genannt, in die all jene kausalen Einflüsse einfließen, welche im Rahmen eines Experiments oder einer Erhebung nicht mehr gesteuert bzw. beobachtet werden können (Abb. 5.3.13). Gerade bei Erhebungsstudien kann das Ausmaß der damit verbundenen zufälligen Restschwankungen noch erheblich sein. Werfe man dazu nur einen Blick in die Abbildungen 5.3.18 und 5.3.19. Auch nach Bildung homogenerer Untergruppen weisen die bedingten Zusammenhänge von Größe und Gewicht bzw. von Geschlecht und Gewicht noch beträchtliche Restvariabilität auf. Also selbst bei gleichem Geschlecht sind größere Personen nicht zwingend schwerer als kleinere und Männer wiegen auch bei gleicher Größe nicht zwingend mehr als Frauen. Daraus ergibt sich unmittelbar ein statistisches Problem, da die gemessenen kausalen Effekte durch die zufälligen Schwankungen mehr oder weniger stark verfälscht sein können. Bevor die methodischen Werkzeuge zum Umgang mit solch zufälligen (Rest-)Schwankungen kurz vorgestellt werden, ist es hilfreich, zunächst zwei Extrembeispiele zu betrachten, in denen durch Zufall reine Scheinabhängigkeiten erzeugt werden. • Beispiele rein zufälliger Abhängigkeiten • Man nehme einen weißen und einen schwarzen Würfel und werfe beide jeweils n = 10 Mal. Angenommen, die Ergebnisse lauten jeweils: Weißer Würfel:

1, 3, 5, 5, 4, 6, 4, 6, 3, 6,

Schwarzer Würfel:

5, 4, 6, 1, 2, 3, 4, 1, 4, 5.

Der sich daraus ergebende Korrelationskoeffizient beträgt −0.34. Normalerweise wird hier niemand vermuten, dass sich die Ergebnisse der beiden Würfel gegenseitig negativ beeinflussen könnten. Vernunft und Erfahrung lassen hier keine kausale Abhängigkeit erkennen. Der gemessene empirische Zusammenhang sollte sich rein zufällig ergeben haben. Das linke Schaubild von Abbildung 5.3.20 zeigt die empirische Verteilung des Korrelationskoeffizienten einer 1000-fachen Wiederholung des eben beschriebenen Zufallsexperiments mit n = 10. Die zufälligen Ergebnisse der einzelnen Würfe wurden mithilfe eines Zufallsgenerators simuliert. Daran lässt sich erkennen, dass in den meisten Fällen (hier 99.3%) eine von 0 verschiedene Korrelation ausgewiesen wird, die sowohl negativ als auch positiv ausfallen kann. In 15.3% aller Fälle wurde gar eine betragsmäßige Korrelation von mehr als 0.5 (zufällig) erzielt. Man führe nun ein zweites Experiment durch. Dazu nehme man wiederum den weißen und den schwarzen Würfel und werfe beide nun jeweils 60 Mal. Angenommen,

220 | 5 Beschreibung und Analyse empirischer Zusammenhänge Abs. Häufigkeit 250

Abs. Häufigkeit 250

200

200

150

150

100

100

50

50

0

0 −1.0

−0.5

0.0

0.5

1.0

0.0

Korrelationskoeffizient

0.2

0.4

0.6

0.8

1.0

Kontingenzkoeffizient

Abb. 5.3.20: Würfelexperimente: Empirische Zusammenhänge bei reiner Zufälligkeit

Tabelle 5.3.5 stelle die auf den absoluten Häufigkeiten des Experiments beruhende Kontingenztabelle dar. Der korrigierte Kontingenzkoeffizient beträgt in diesem Fall 0.32. Lässt sich daraus folgern, dass die Farbe des Würfels die Chancen für bestimmte Zahlen beeinflusst? Zumindest kleine Kinder glauben das teilweise. Ähnlich wie zuvor lässt sich dieses Experiment ebenfalls 1000-fach wiederholt simulieren. Das rechte Schaubild von Abbildung 5.3.20 zeigt die empirische Verteilung des Kontingenzkoeffizienten. Hier sind nun gar alle Werte von 0 verschieden. In 11.5% aller Fälle beträgt der Kontingenzkoeffizient gar mehr als 0.5. Tab. 5.3.5: Würfelexperiment: Weißer und schwarzer Würfel Zahl Farbe Weiß Schwarz

1 9 9

2 6 16

3 14 10

4 10 6

5 8 7

6 13 12

So paradox es zunächst klingen mag: Auch in Fällen, in denen ganz offensichtlich kein vernunftmäßig erkennbarer kausaler Zusammenhang zwischen zwei Variablen besteht, wird eine von 0 verschiedene Korrelation bzw. ein von 0 verschiedener Kontingenzkoeffizient eher die Regel als die Ausnahme sein. In letzterem Beispiel würden wir in unserer Modellvorstellung eigentlich erwarten, dass sich bei beiden Würfeln eine gleichmäßige Häufigkeitsverteilung auf die Zahlen 1 bis 6 ergeben sollte. Im „Idealfall“ würde dann jede Zahl genau 10 Mal auftreten. Das würde dann auch einen Kontingenzkoeffizienten von 0 implizieren. Wie die Simulation jedoch erkennen lässt, ist aber genau dieser Fall sehr unwahrscheinlich. Diese beiden Beispiele werden später nochmals ausführlicher in Kapitel 11 im Rahmen der Beispiele 11.3.6 (χ2 -Unabhängigkeitstest) und 11.3.9 (Korrelationstest) aufgegriffen.

5.3 Ergänzende und vertiefende Themen | 221

• System oder Zufall? • Bei Zusammenhangsanalysen geht es also zunächst immer um die Frage, ob ein gemessener Zusammenhang möglicherweise nur rein zufällig sein könnte. Es wäre jedenfalls ein großer Fehler, dort eine kausale Verbindung erkennen zu wollen, wo außer Zufall überhaupt nichts Weiteres dran wäre. Jedoch erweist sich die Zuordnung von Zufall und Kausalität häufig als subjektiv. Denn ebenso wie Kausalität ist auch Zufall ein recht unscharfer Begriff – ein „kognitives Konstrukt“ (vgl. Abschnitt 6.1.1). Man stelle sich nun vor, in obiger Tabelle würde der „Idealfall“ des Zufalls als Ergebnis eines einzelnen Experiments präsentiert werden, d.h. für beide Farben ergäbe sich eine gleichmäßige Verteilung auf die Werte 1 bis 6 (jeder Wert genau 10 Mal). Mit etwas Gespür für Zufall würde man dann annehmen, dass es sich dabei voraussichtlich entweder um ein manipuliertes („geschöntes“) Ergebnis oder um einen Übertragungsfehler handeln sollte. Ausgerechnet das „perfekt Zufällige“ wird nun nicht mehr als zufällig abgenommen. Andererseits stelle man sich vor, es ergäben sich sehr unterschiedliche Verteilungen für die beiden Farben. Seien die Ergebnisse des weißen Würfels beispielsweise sehr gleichmäßig verteilt, während der schwarze Würfel ausschließlich die Ergebnisse 1 und 6 aufweist. Wenngleich per Zufall möglich, könnte man daraus auch sofort schließen, dass zwar nicht die Farben diese Unterschiede verursachen, wohl aber mögliche Unterschiede in der Beschaffenheit der beiden Würfel. Hieran erkennt man, dass die letztliche Einordnung von Kausalität und Zufall von bisherigen Erfahrungen, Sachkenntnissen und subjektiven Vernunftabwägungen abhängt. Auch geht es prinzipiell immer um die Frage, inwieweit wir einer Statistik tatsächlich glauben oder nicht. Dennoch gibt es in der Statistik einige methodische Grundprinzipien, die uns bei dieser Entscheidung helfen. • Methodischer Umgang mit zufälligen Schwankungen • Neben tiefergehenden fachlichen Erwägungen wäre die erste und idealtypische Form zur Widerlegung von Zufall eigentlich das wiederholbare Experiment. Jedoch haben wir ja gerade anhand der vorhergehenden Simulationen, die ja einer vielfachen Wiederholung eines Experiments entsprachen, festgestellt, dass selbst ideale Experimente nicht frei von Zufall sind und gemessene Zusammenhangsmaße durch „reinen Zufall“ beträchtlich verfälscht sein können. Um es deshalb gleich zu sagen: Das durch zufällige Schwankungen verursachte Deutungsproblem, lässt sich grundsätzlich nie mit absoluter Sicherheit lösen! Der Zufall verursacht stets eine Unschärfe zwischen System und Zufall. So unterliegt auch die Quantifizierung kausaler Effekte im Rahmen statistischer Modelle zufälligen Verfälschungen. Kausale Effekte lassen sich deshalb streng genommen auch nicht genau messen, sondern sie werden, um es fachsprachlich korrekt auszudrücken, lediglich geschätzt. Grundlage aller methodischen Werkzeuge zum Umgang mit zufälligen Schwankungen ist die Wahrscheinlichkeitstheorie, die uns Anhaltspunkte darüber liefert, wie wir in bestimmten Situationen am besten entscheiden können bzw. was in einer gegebenen Situationen am plausibelsten erscheint.

222 | 5 Beschreibung und Analyse empirischer Zusammenhänge

• Höhere Aussagekraft durch mehr Beobachtungen • Um sich ein besseres Urteil über die Zuordnung von Kausalität und Zufall bilden zu können, wäre eines der einfachsten Mittel, sich mehr Beobachtungswerte zu beschaffen. Statistiken besitzen eine umso höhere „Aussagekraft“, desto höher die Anzahl der Beobachtungen (Fallzahl) ist, auf denen diese beruhen. Dies sollte auch ohne nähere Kenntnisse der Wahrscheinlichkeitstheorie einleuchten. Würde man in den vorigen beiden Experimenten die Anzahl der Würfe beispielsweise jeweils nur verdoppeln, d.h. statt 10 nun 20 und statt 60 nun 120 Würfe, so ergäbe dies eine Verteilung gemäß Abbildung 5.3.21. Wie wir sehen, nimmt die Schwankungsbreite der zufälligen Schwankungen in Richtung der „wahren Werte“ ab. Der Anteil der betragsmäßig über 0.5 liegenden Korrelationswerte sinkt auf 1.5%, der Anteil der über 0.5 hinausgehenden Werte des Kontingenzkoeffizienten beträgt nur noch 0.1%. Bei weiterer Erhöhung der Wurfzahlen setzt sich dieser Prozess immer weiter fort. Es wird jedoch bereits ersichtlich, dass bei jeder noch so hohen Anzahl von Beobachtungswerten stets zufällige, wenn auch noch so kleine, Restschwankungen um die 0 verbleiben. Die Wahrscheinlichkeit für größere Verfälschungen nimmt jedoch stetig ab. Mathematisch bezeichnet man dies als stochastische Konvergenz. Abs. Häufigkeit 250

Abs. Häufigkeit 250

200

200

150

150

100

100

50

50

0

0 −1.0

−0.5

0.0

0.5

Korrelationskoeffizient

1.0

0.0

0.2

0.4

0.6

0.8

1.0

Kontingenzkoeffizient

Abb. 5.3.21: Würfelexperimente bei höherer Anzahl von Würfen

So überzeugend auch die Erwirkung einer hohen Beobachtungszahl sein mag, lässt sich diese Zahl nicht immer steuern. Sowohl bei Experimental- als auch bei Erhebungsstudien sind organisatorische und finanzielle Restriktionen gesetzt. Im Falle von Studien zu seltenen Krankheiten in der Medizin kann die Fallzahl von Patienten selbst unter besten finanziellen Bedingungen nicht ohne weiteres erhöht werden. Somit ist hier eine andere Lösung zu suchen. • Induktive Methoden • In der Statistik hat sich zum Umgang mit zufälligen Schwankungen ein methodischer Apparat entwickelt, der darauf abzielt, statistische Aussagen durch modellgestützte Irrtums- und Sicherheitswahrscheinlichkeiten zu ergänzen. Sie bilden dann die entscheidenden Gradmesser für die Plausibilität be-

5.3 Ergänzende und vertiefende Themen | 223

stimmter Aussagen (vgl. Abschnitt 1.2.2). Ein wichtiger methodischer Ansatz besteht darin, zunächst einmal Plausibilitätsgrenzen für den reinen Zufall festzulegen. Dies bedeutet, dass es ab einem bestimmten Schwellenwert eines Zusammenhangsmaßes nicht mehr plausibel erscheint, den gemessenen Zusammenhang nur als rein zufällig zu deuten. Dies wird im Rahmen der statistischen Testtheorie unter dem Begriff der statistischen Signifikanz behandelt. Statistisch signifikante Zusammenhänge sind demnach solche, die aus wahrscheinlichkeitstheoretischer Sicht nicht mehr nur rein zufällig sein sollten. Betrachten wir dazu noch einmal die Ergebnisse von Abbildung 5.3.21 des Würfelbeispiels. Unter reiner Zufälligkeit bestünde demnach die Wahrscheinlichkeit dafür einen betragsmäßigen Korrelationskoeffizienten von mehr als 0.5 zu erhalten ca. 1.5%. Deshalb könnte man nun beispielsweise festlegen, ab einem betragsmäßigen Wert von mehr als 0.5 auf ein tatsächliches Vorliegen einer kausalen Abhängigkeit irgendeiner Form zu schließen. Denn in Anbetracht der Simulationen erscheinen solche Werte bei reiner Zufälligkeit relativ unwahrscheinlich. Gleichwohl sind solche Werte natürlich dennoch möglich. Dies ist denn auch der Haken dieses Denkansatzes, dessen Eingeschränktheit man an dem vorliegenden Beispiel besonders gut erkennen kann. Denn wie hoch man in diesem Fall auch die Entscheidungsgrenze wählen würde, ein irrtümlicher Schluss wäre nie völlig auszuschließen. Natürlich geht es im Weiteren dann nicht nur darum zu entscheiden, ob ein Zusammenhang nur rein zufällig ist oder nicht, sondern auch um dessen Quantifizierung, insbesondere wenn er denn tatsächlich signifikant sein sollte. Im Rahmen statistischer Modelle geht es dann schließlich auch um die Schätzung von Modellparametern wie etwa die Koeffizienten eines multiplen Regressionsmodells, die sich dann als direkte kausale Effekte interpretieren lassen. Da solche Schätzwerte zufälligen Schwankungen unterworfen sind, werden für diese dann Sicherheitsintervalle (Konfidenzintervalle) konstruiert, innerhalb derer die „wahren Werte“ mit hoher Wahrscheinlichkeit (Sicherheitswahrscheinlichkeit) liegen sollten. Mit den Methoden der Test- und Schätztheorie, die zusammen die induktive Statistik formen, werden wir uns in Teil 3 dieses Buches ausführlich befassen. Diese Methoden lassen sich in kleinen wie auch in großen Stichproben anwenden, und sie geben im Rahmen einfacher wie auch komplexer statistischer Modelle wahrscheinlichkeitstheoretisch fundierte Entscheidungshilfen über System und Zufall von empirischen Zusammenhängen.

ĊǘȪɑ‫ޠܩڳޠ‬ŀƆȚʾ˒ƷȚǘȪɱɑȪƷȚɈǘȪ˥˒ʾǘƷȚɱ˺ɱȇ‫ޠݮޠ‬ĊȚǘʂʾǘ˥Ȫ˒ƷȚǘʾ‫ޠ‬ —ƆɑɈ̃ɑ Wie‫ޠ‬bereits‫ޠ‬in‫ޠ‬Kapitel‫ޠ‬1‫ޠ‬ausführlich‫ޠ‬erläutert‫ޠ‬wurde,‫ޠ‬kann‫ޠ‬man‫ޠ‬unter‫ޠ‬Statistik‫ޠ‬auch‫ޠ‬ einen‫ޠ‬speziellen‫ޠ‬auf‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬beruhenden‫ޠ‬methodischen‫ޠ‬Apparat‫ ޠ‬zur‫ ޠ‬Analyse‫ ޠ‬zufallsabhängiger‫ ޠ‬Daten‫ ޠ‬verstehen.‫ ޠ‬Die‫ ޠ‬Grundlagen‫ ޠ‬dieses‫ ޠ‬methodischen‫ޠ‬Apparats‫ޠ‬werden‫ޠ‬später‫ޠ‬in‫ޠ‬Teil‫ޠ‬3‫ޠ‬ausführlich‫ޠ‬behandelt.‫ޠ‬Dazu‫ޠ‬ist‫ޠ‬es‫ޠ‬jedoch‫ޠ‬ zunächst‫ޠ‬notwendig,‫ޠ‬sich‫ޠ‬mit‫ޠ‬einigen‫ޠ‬Grundlagen‫ޠ‬der‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬ eingehender‫ޠ‬zu‫ޠ‬befassen,‫ޠ‬auch‫ޠ‬wenn‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬selbst‫ޠ‬kein‫ޠ‬statistisches‫ޠ‬Fach‫ޠ‬im‫ޠ‬engeren‫ޠ‬Sinne‫ޠ‬darstellt. Die‫ޠ‬Ursprünge‫ޠ‬der‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬sind‫ޠ‬vermutlich‫ޠ‬in‫ޠ‬den‫ޠ‬ersten‫ޠ‬ Versuchen‫ޠ‬zu‫ޠ‬sehen,‫ޠ‬die‫ޠ‬Chancen‫ޠ‬bei‫ޠ‬Glücksspielen‫ޠ‬genauer‫ޠ‬bestimmen‫ޠ‬zu‫ޠ‬können.‫ޠ‬ Erste‫ޠ‬exakte‫ޠ‬Berechnungen‫ޠ‬im‫ޠ‬Sinne‫ޠ‬mathematischer‫ޠ‬Regeln‫ޠ‬wurden‫ޠ‬hierzu‫ޠ‬insbesondere‫ޠ‬von‫ޠ‬französischen‫ޠ‬Mathematikern‫ޠ‬im‫ޠ‬17.‫ޠ‬Jahrhundert‫ޠ‬beigesteuert.‫ޠ‬Über‫ޠ‬solch‫ޠ‬ eher‫„ ޠ‬spielerische‫ ޠ‬Anwendungen“‫ ޠ‬hinaus‫ ޠ‬erfuhr‫ ޠ‬die‫ ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬ (Wahrscheinlichkeitstheorie)‫ޠ‬als‫ޠ‬ernstzunehmendes‫ޠ‬mathematisches‫ޠ‬Fach‫ޠ‬ihren‫ޠ‬Aufschwung‫ ޠ‬jedoch‫ ޠ‬erst‫ ޠ‬ab‫ ޠ‬den‫ ޠ‬1930er‫ ޠ‬Jahren‫ ޠ‬nach‫ ޠ‬deren‫ ޠ‬axiomatischer‫ ޠ‬Fundierung‫ޠ‬ durch‫ޠ‬Kolmogoroff‫[ޠ‬1933].‫ޠ‬Für‫ޠ‬ausführliche‫ޠ‬Abhandlungen‫ޠ‬zur‫ޠ‬Geschichte‫ޠ‬der‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬von‫ޠ‬den‫ޠ‬frühen‫ޠ‬Anfängen‫ޠ‬bis‫ޠ‬hin‫ޠ‬zu‫ޠ‬den‫ޠ‬Axiomen‫ޠ‬von‫ޠ‬Kolmogoroff‫ޠ‬sei‫ޠ‬insbesondere‫ޠ‬auf‫ޠ‬die‫ޠ‬Beiträge‫ޠ‬von‫ޠ‬Hald‫[ޠ‬1990,‫ޠ‬1998],‫ޠ‬Stigler‫[ޠ‬1986]‫ޠ‬und‫ޠ‬ Bingham‫[ޠ‬2000]‫ޠ‬verwiesen. In‫ޠ‬Kapitel‫ޠ‬6‫ޠ‬stehen‫ޠ‬zunächst‫ޠ‬einige‫ޠ‬elementare‫ޠ‬Grundlagen‫ޠ‬und‫ޠ‬Grundbegriffe‫ޠ‬ der‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬im‫ޠ‬Vordergrund.‫ޠ‬Von‫ޠ‬zentraler‫ޠ‬Bedeutung‫ޠ‬ist‫ޠ‬dann‫ޠ‬ in‫ޠ‬Kapitel‫ޠ‬7‫ޠ‬die‫ޠ‬Einführung‫ޠ‬der‫ޠ‬Zufallsvariablen.‫ޠ‬Zahlreiche‫ޠ‬deskriptive‫ޠ‬Methoden‫ޠ‬ aus‫ޠ‬Teil‫ޠ‬1‫ޠ‬werden‫ޠ‬hier‫ޠ‬in‫ޠ‬gewisser‫ޠ‬Weise‫ޠ‬erneut‫ޠ‬behandelt,‫ޠ‬nun‫ޠ‬jedoch‫ޠ‬auf‫ޠ‬theoretischer‫ޠ‬Ebene‫ޠ‬im‫ޠ‬Rahmen‫ޠ‬des‫ޠ‬Wahrscheinlichkeitskalküls.‫ޠ‬So‫ޠ‬treten‫ޠ‬an‫ޠ‬die‫ޠ‬Stelle‫ޠ‬empirischer‫ޠ‬Verteilungen‫ޠ‬von‫ޠ‬Daten‫ޠ‬jetzt‫(ޠ‬theoretische)‫ޠ‬Wahrscheinlichkeitsverteilungen‫ޠ‬ von‫ޠ‬Zufallsvariablen.‫ޠ‬Zur‫ޠ‬Spezifizierung‫ޠ‬solcher‫ޠ‬theoretischer‫ޠ‬Verteilungen‫ޠ‬werden‫ޠ‬in‫ޠ‬ Entsprechung‫ޠ‬zu‫ޠ‬den‫ޠ‬empirischen‫ޠ‬Kennwerten‫ޠ‬zahlreiche‫ޠ‬theoretische‫ޠ‬Gegenstücke‫ޠ‬ eingeführt.‫ޠ‬Ergänzende‫ޠ‬und‫ޠ‬vertiefende‫ޠ‬Themen‫ޠ‬finden‫ޠ‬sich‫ޠ‬in‫ޠ‬Kapitel‫ޠ‬8.

6 Einführung in die Wahrscheinlichkeitsrechnung In diesem Kapitel werden in Abschnitt 6.1 zunächst wichtige Grundbegriffe eingeführt. Dazu gehört auch die inhaltliche und definitorische Eingrenzung des Wahrscheinlichkeitsbegriffs in Verbindung mit ersten Regeln. In Abschnitt 6.2 stehen wichtige Konzepte und Rechenregeln im Kontext unabhängiger und abhängiger Zufallsereignisse im Vordergrund.

6.1 Wichtige Grundbegriffe und Regeln

Zufallsvorgänge sind Vorgänge mit mehreren möglichen Ergebnissen und ungewissem Ausgang. Die Einordnung eines Zufallsvorgangs als solchen und das Ausmaß damit einhergehender Unsicherheit sind perspektivisch bedingt. Die Wahrscheinlichkeitsrechnung stellt ein mathematisches Regelwerk zur Verfügung, mit dem sich im Kontext von Zufallsvorgängen die Wahrscheinlichkeiten für bestimmte Ereignisse bestimmen lassen. Ausgangsbasis und innerster Kern dieses Regelwerks bilden dabei die Axiome von Kolmogoroff . Darin wird in minimaler Weise festgelegt, nach welchen Regeln allen interessierenden Ereignissen eines Zufallsvorgangs, die als Teilmengen eines übergeordneten Ereignisraumes aufgefasst werden, Wahrscheinlichkeiten zugeordnet werden müssen. Alle weiteren Regeln und Gesetze basieren letztlich auf diesen Axiomen und gelten unabhängig davon, wie daraus abgeleitete Wahrscheinlichkeiten interpretiert werden.

6.1.1 Interpretation von Zufall und Wahrscheinlichkeiten

• Zufallsvorgang und Zufall • Der Begriff „Wahrscheinlichkeit“ wird unmittelbar mit „Zufall“ assoziiert. Wahrscheinlichkeitsrechnung befasst sich sozusagen mit der Bestimmung von Wahrscheinlichkeiten im Zusammenhang von Zufallsvorgängen. Doch was versteht man unter Zufall bzw. unter einem Zufallsvorgang? Und was genau ist dann eine Wahrscheinlichkeit? Als mathematisches Fach hält Wahrscheinlichkeitsrechnung keine Definition für den Zufall bzw. einen Zufallsvorgang parat, da es sich hierbei nicht um mathematische Begriffe handelt. Der Zufallsbegriff ist ähnlich unscharf und problematisch wie bereits der Kausalitätsbegriff, ein „kognitives Konstrukt“ von immens philosophischer Dimension (vgl. Abschnitt 5.3.3). Steht Kausalität für „System“, für das von bekannten Ursachen Abhängige, Erklärbare und Vorhersehbare, so steht Zufall für das entsprechende Gegenstück, das von unbekannten Ursachen Abhängige, nicht Erklärbare und nicht Vorhersehbare. Wir werden uns an folgende pragmatische (nichtmathematische) Definition für einen Zufallsvorgang halten. https://doi.org/10.1515/9783110744194-006

228 | 6 Einführung in die Wahrscheinlichkeitsrechnung

Ein Zufallsvorgang ist ein Vorgang mit mindestens zwei möglichen verschiedenen Ergebnissen, bei dem im Voraus nicht eindeutig bestimmbar ist, welches Ergebnis eintreten wird. Eine direkte Definition von „Zufall“ fehlt. Indirekt könnte man jedoch das Eintreten eines bestimmten Ergebnisses eines Zufallsvorgangs als vom Zufall abhängig, kurz als zufallsabhängig oder zufällig erachten. Allerdings entspricht dies nicht dem alltäglichen Gebrauch dieses Wortes. Wenn wir beispielweise ausrufen „Das war aber Zufall!“ bringen wir damit in der Regel zum Ausdruck, dass gerade etwas sehr Unwahrscheinliches in positiver oder negativer Hinsicht eingetreten ist. Das meinen wir also fortan nicht mehr! • Zufall ist perspektivisch bedingt • Man beachte, dass die vorhergehende Definition eines Zufallsvorgangs perspektivisch bedingt ist. Ein Zufallsvorgang ergibt sich aus der Perspektive eines Unwissenden oder zumindest partiell Unwissenden. Würde man beim Werfen einer Münze die genauen physikalischen Gesetze kennen, nach denen sich die Münze bewegt, und wäre man in der Lage diese allesamt zu berücksichtigen, so könnte man das Ergebnis mit Sicherheit prognostizieren. Ebenso ist die Anzahl vorüberfahrender Fahrzeuge an einer Ampel aus Sicht eines Beobachters ein Zufallsvorgang mit möglichen Ergebnissen 0, 1, 2, usw., wenngleich jede einzelne Fahrt aus Sicht der Fahrer einen Willensakt darstellt und insofern nicht zufällig ist. Selbst die Erzeugung einer Zufallszahl mit einem Computer unterliegt lediglich nur mehr oder weniger komplexen „Berechnungen“. Somit bleiben Fragen über Bedeutung und Existenz „echten Zufalls“ hier unbeantwortet. • Zufall folgt Gesetzmäßigkeiten • Zufall ist in unserer Verwendung nicht mit Willkür oder völliger Unberechenbarkeit gleichzusetzen. Beispielsweise können wir zwar nicht den Ausgang eines einzelnen Münzwurfes mit Sicherheit vorhersagen, jedoch rechnen wir normalerweise damit, dass bei häufiger Wiederholung des Münzwurfs in 50% aller Würfe „Zahl“ und in 50% aller Würfe „Kopf“ erscheinen wird. Dass diese Annahme legitim ist, lässt sich experimentell nachweisen. Insofern sind Zufallsvorgänge zwar nicht genau vorhersagbar, sie weisen jedoch (vorhersagbare) Gesetzmäßigkeiten auf, die sich mehr oder weniger präzise beschreiben lassen. Nur auf diese Weise werden Zufallsvorgänge in gewisser Hinsicht auch berechenbar. Nur darüber erscheint Wahrscheinlichkeitsrechnung letztlich berechtigt. • Beispiele für die Verwendung von Wahrscheinlichkeiten • Von Wahrscheinlichkeiten wird in unterschiedlicher Weise Gebrauch gemacht. Wir betrachten und untersuchen dazu die folgenden beispielhaften Aussagen. (1) „Die Wahrscheinlichkeit eine Sechs zu würfeln beträgt 1/6.“ (2) „Die Wahrscheinlichkeit für sechs Richtige im Lotto beträgt 0.00000715%.“

6.1 Wichtige Grundbegriffe und Regeln | 229

(3) „Die Kreditausfallwahrscheinlichkeit für diese Kunden liegt bei 1%.“ (4) „Die Wahrscheinlichkeit für eine Mädchengeburt beträgt laut Statistik 48.8%.“ (5) „Mit einer Wahrscheinlichkeit von 95% liegt der Stimmenanteil dieser Partei nach Berechnungen zwischen 29.8% und 31.4%.“ (6) „Nach Berechnungen wird die Bevölkerung im Jahr 2050 mit einer Wahrscheinlichkeit von 90% bei unter 50 Millionen liegen.“ (7) „Dieser Patient wird mit einer Wahrscheinlichkeit von 70% sterben.“ (8) „Ich bin mir mit 95%iger Wahrscheinlichkeit sicher, dass dieses Jahr ein Schaltjahr ist.“ Die Gemeinsamkeit aller Aussagen besteht darin, dass in jedem der Fälle versucht wird, den Grad an Sicherheit über den Ausgang eines bestimmten Vorgangs durch die Angabe einer Wahrscheinlichkeit zu quantifizieren. Dies geschieht teils auf sehr unterschiedliche Weise. • Klassische Wahrscheinlichkeit • Die Interpretation der ersten Aussage dürfte den allermeisten Lesern leicht fallen. Der Würfel besitzt 6 verschiedene Seiten. Die Augenzahl „6“ stellt eine der 6 Möglichkeiten dar. Insofern geht man zu einem Sechstel davon aus, dass genau dieses Ergebnis eintreten wird. Allerdings steckt hinter dieser Logik die Annahme gleichwahrscheinlicher Möglichkeiten. Bei einem völlig ungleichmäßig zugeschnittenen Würfel wäre dieser Ansatz deutlich weniger sinnvoll. Sofern sich Wahrscheinlichkeiten über Anteilsbetrachtungen bezüglich gleichwahrscheinlicher Möglichkeiten ergeben, spricht man von klassischen Wahrscheinlichkeiten. Das entsprechende statistische Modell wird häufig als Laplace-Modell bezeichnet und entsprechender Kalkül als Laplace-Kalkül. Auch die zweite Aussage enthält eine klassische Wahrscheinlichkeit. Es handelt sich hierbei also nicht etwa um den relativen Anteil von 6 Richtigen an der Gesamtanzahl aller abgegebenen Tipps der Lotteriehistorie. Wie sich solche klassischen Wahrscheinlichkeiten insbesondere unter Zuhilfenahme der Kombinatorik konkret bestimmen lassen, wird Gegenstand von Abschnitt 7.3.1 sein. • Statistische Wahrscheinlichkeit – empirisch • Bei der dritten Aussage ist unklar, woraus sich die Angabe „1%“ ableitet. Nehmen wir an, dass in der Vergangenheit 1% aller Kundenkredite dieser Bank ausfielen. Dann entspricht die angegebene Wahrscheinlichkeit gerade einer beobachteten relativen Häufigkeit. Konzeptionell stellt dies bereits einen erheblichen Unterschied zu den ersten beiden Aussagen dar. Während sich diese lediglich aus theoretischen kombinatorischen Überlegungen ableiten, stützt sich diese Wahrscheinlichkeitsangabe auf empirische Daten. Solche Wahrscheinlichkeiten zählen zu den (empirischen) statistischen Wahrscheinlichkeiten. Ihre Verwendung basiert auf der grundsätzlichen Annahme fortbestehender Gültigkeit. So würde die zweite Aussage keinen Sinn machen, wenn man davon ausginge, dass der Anteil der in Zukunft ausfallenden Kredite beispielsweise deutlich höher als

230 | 6 Einführung in die Wahrscheinlichkeitsrechnung

1% sein sollte. Dann wäre allenfalls noch eine Aussage der Form „In der Vergangenheit betrug die Wahrscheinlichkeit eines Kreditausfalls 1%“ sinnvoll. Analoges gilt für die vierte Aussage, in der eine für Deutschland ermittelte relative Häufigkeit (vgl. Emmerling [2012]) als statistische Wahrscheinlichkeit verwendet wird. • Statistische Wahrscheinlichkeiten – theoretisch • Die Interpretation der fünften und sechsten Aussage fällt deutlich schwerer. Die betreffenden Wahrscheinlichkeiten zählen ebenfalls zu den statistischen Wahrscheinlichkeiten. Sie sind jedoch eher theoretischer Natur, da sie empirisch nicht direkt beobachtbar sind, sondern sich erst im Laufe „weitergehender Berechnungen“ ergeben. Häufig werden sie im Rahmen mehr oder weniger komplexer statistischer Modelle abgeleitet, die einem Zufallsvorgang unterstellt werden. Zu solchen modellgestützten Wahrscheinlichkeiten zählen insbesondere auch die in Abschnitt 1.2.2 skizzierten Irrtums- und Sicherheitswahrscheinlichkeiten, die in der induktiven Statistik eine herausragende Rolle einnehmen. • Frequentistischer Deutungsansatz • Die Verwendung empirischer oder theoretischer statistischer Wahrscheinlichkeiten stützt sich auf die Vorstellung, dass sich die postulierten Wahrscheinlichkeiten über „langfristige“ oder auf hohen Fallzahlen beruhende relative Häufigkeiten manifestieren. Voraussetzung dafür ist eine gewisse Stabilität äußerer Rahmenbedingungen und die Wiederholbarkeit des Zufallsvorgangs. In dieser Hinsicht zählen eigentlich auch die klassischen Wahrscheinlichkeiten zu den theoretischen statistischen Wahrscheinlichkeiten. So ist es eben eine „Menschheitserfahrung“, dass sich bei einer großen Anzahl von Würfen eines Würfels die Anteile der einzelnen Augenzahlen jeweils bei etwa 1/6 stabilisieren. Wäre dem nicht so, so würden wir auch nicht ohne weiteres die Wahrscheinlichkeit einer 6 mit 1/6 angeben. Im Rahmen der Wahrscheinlichkeitsrechnung wird diese „Konvergenz“ relativer Häufigkeiten zu bestimmten erwarteten Werten, die dann als Wahrscheinlichkeiten gelten, durch das Gesetz der großen Zahlen beschrieben (Abschnitt 7.4.2). Der entsprechende Deutungsansatz wird manchmal auch als frequentistisch bezeichnet. • Subjektive vs. objektive Wahrscheinlichkeiten • Die siebte Aussage lässt reichlich Spielraum für Spekulationen. Es könnte sein, dass 70% aller Patienten in der Vergangenheit einen bestimmten Krankheitszustand nicht überlebten. Genauso könnte diese Aussage aber auch nur mehr oder weniger aus der Luft gegriffen sein. Dabei möchte ein Arzt beispielsweise nur zum Ausdruck bringen, dass ein Patient eher stirbt als überlebt. In letzterem Fall spricht man dann auch von subjektiven Wahrscheinlichkeiten, da solche Wahrscheinlichkeiten personenabhängig variieren. Im Gegensatz dazu zählen klassische und statistische Wahrscheinlichkeiten zu den objektiven Wahrscheinlichkeiten, da bei diesen unterschiedliche Personen zu identischen Wahrscheinlichkeitsangaben gelangen. Die letzte Aussage enthält ganz offensichtlich eine subjektive Wahrscheinlichkeit, wobei die „95%“ den Grad der Sicherheit einer Person über die Richtigkeit eines bestimmten Sachverhaltes angibt.

6.1 Wichtige Grundbegriffe und Regeln | 231

Die Verwendung subjektiver Wahrscheinlichkeiten mag insbesondere dann sinnvoll sein, wenn es um einmalige Vorgänge geht oder um bereits fixierte Tatbestände, die man nicht genau kennt. Für Fragen wie etwa „Wie wahrscheinlich ist ein 3. Weltkrieg?“ oder „Mit welcher Wahrscheinlichkeit wird in den nächsten 20 Jahren ein bemannter Flug zum Mars stattfinden?“ kann es kaum eine empirische Fundierung und kaum ein operables statistisches Modell geben. Allerdings möchten wir anmerken, dass sich die Sinnhaftigkeit solcher Wahrscheinlichkeiten aus frequentistischer Sicht durchaus erledigen kann. Stellen wir uns dazu vor, irgendein „Experte“ gebe ständig irgendwelche 95%-Prognosen zu völlig unterschiedlichen Themen von sich. Sollte sich dann im Nachhinein herausstellen, dass in der Mehrheit dieser Prognosen immer etwas anderes als die mit großer Sicherheit prophezeite Situation eingetreten ist, dürfte man den Wahrscheinlichkeitsangaben dieser Person kaum mehr Beachtung schenken. Doch auch objektive Wahrscheinlichkeiten sind teils subjektiv, da sie stets auf Annahmen beruhen, für die man sich nicht völlig objektiv entscheiden kann. Wenn wir beispielsweise die Wahrscheinlichkeit einer 6 beim Würfeln mit 1/6 angeben, so mag dies unter der Gültigkeit eines Laplace-Modells zwar korrekt sein, die Unterstellung dieses Modells an sich hat jedoch nichts mit Wahrscheinlichkeitsrechnung zu tun. Annahmen lassen sich nun einmal nicht mathematisch beweisen, sonst wären es ja auch keine Annahmen. Entscheidend ist also auch, welche Annahmen wir (subjektiv) überhaupt gelten lassen. Wahrscheinlichkeiten subjektive

objektive klassische (Laplace−Modell) Anteile an Anzahl gleich− wahrscheinlicher Möglichkeiten

Subjektive Einschätzungen über (Un−)Sicherheiten

statistische (empirisch | theoretisch) "

Langfristige" relative Häufigkeiten

?

Abb. 6.1.1: Verwendung und Interpretation von Wahrscheinlichkeiten

• Klassische vs. statistische Wahrscheinlichkeiten • Klassische Wahrscheinlichkeiten sind anders zu bewerten als statistische, da auf sie in der Regel Verlass ist. Ansonsten gäbe es kein Lotto, keine Spielautomaten und auch keine Spielcasinos. Auf statistische Wahrscheinlichkeiten ist hingegen nur bedingt Verlass. Wenn beispielsweise die Kreditausfallwahrscheinlichkeit in der Vergangenheit bei 1% lag, gibt es keinen natürlichen Grund dafür, dass dies auch noch für die Zukunft gelten sollte. Zu viele äußere Einflüsse könnten hier Veränderungen bewirken. Versucht Sie ein Berater einer Bank mit Angabe von Gewinnwahrscheinlichkeiten zum Kauf oder Verkauf

232 | 6 Einführung in die Wahrscheinlichkeitsrechnung

von Aktien zu bewegen, so müssen Sie sich ebenfalls bewusst sein, dass es sich hierbei nicht um derart „verlässliche“ Wahrscheinlichkeiten wie beim Würfeln handelt. • Zielsetzung der Wahrscheinlichkeitsrechnung • In welcher Weise werden nun die eben vorgestellten interpretatorischen Ansätze im Rahmen der Wahrscheinlichkeitsrechnung berücksichtigt? Die Antwort lautet: Im Grunde gar nicht. Vereinfacht gesagt wird es in erster Linie nur darum gehen, wie mit Wahrscheinlichkeiten (richtig) gerechnet wird, und welche Erkenntnisse daraus gewonnen werden können. Dennoch besitzt die Wahrscheinlichkeitsrechnung natürlich einen empirischen Bezug. So lassen sich viele als Zufallsvorgänge wahrgenommene Phänomene in Natur, Umwelt und Gesellschaft mithilfe der Wahrscheinlichkeitsrechnung hinreichend gut beschreiben und erklären. Ziel wird es im Folgenden sein, die wichtigsten Rechenregeln, Begriffe und Rechengesetze der Wahrscheinlichkeitsrechnung zu vermitteln. Dazu werden wir auch die mathematische Definition von Wahrscheinlichkeiten kennenlernen. In Vorbereitung dazu ist es hilfreich, sich mit elementarer Mengenlehre zu befassen.

6.1.2 Elementare Mengenlehre • Mengen und Elemente • Eine Menge ist eine Zusammenfassung unterscheidbarer Objekte zu einem Ganzen, wobei diese Objekte Elemente heißen. Notiert werden Mengen gewöhnlich über geschweifte Klammern, innerhalb derer die Elemente durch Kommata getrennt aufgelistet werden. Formal werden Mengen häufig mit lateinischen Großbuchstaben bezeichnet. Beispielsweise wird dann eine Menge Z, welche die Zahlen 2, 4 und 6 enthält, notiert mit Z = {2, 4, 6} und eine Menge W mit verschiedenen Wetterverhältnissen z.B. mit W = {sonnig, teils bedeckt, bedeckt, regnerisch}. Die Elemente müssen zwingend unterscheidbar sein. Doppelungen wie etwa {2, 4, 2, 6} sind also nicht zulässig. Ist ein Element x in einer Menge M enthalten, notiert man dafür x∈M

(lies: x Element von M).

Ist ein Element x in einer Menge M nicht enthalten, notiert man dagegen x ∉ M

(lies: x nicht Element von M).

In den vorhergehenden Beispielen gilt etwa: 1 ∈ ̸ Z, 2 ∈ Z, 2 ∈ ̸ W und „sonnig“ ∈ W. Eine Alternative zur vollständigen Auflistung aller Elemente ist eine mehr oder weniger formale inhaltliche Beschreibung der Menge. Eine solche ist insbesondere dann angezeigt, falls das Aufzählen aller Elemente zu aufwendig oder nicht einmal möglich ist. Anstelle von M10 = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} könnte man auch formal

6.1 Wichtige Grundbegriffe und Regeln | 233

schreiben: M10 = {x : x ∈ ℕ mit 1 ≤ x ≤ 10}. (Lies: M10 ist die Menge aller x, wobei x eine natürliche Zahl ist mit 1 ≤ x ≤ 10.) • Wichtige Standardmengen • Einige Zahlenmengen sind häufig von besonderem Interesse und werden deshalb mit eigenen Standardsymbolen notiert. Darüber hinaus wird die Menge, die kein einziges Element enthält, im Speziellen keine einzige Zahl, häufig mit dem Symbol „0“ notiert. Sie wird als leere Menge bezeichnet. Wichtige Standardmengen ℕ = {1, 2, 3, . . . }

Menge der natürlichen Zahlen.

ℕ0 = {0, 1, 2, 3, . . . }

Menge der natürlichen Zahlen inklusive 0.

ℤ = {0, ±1, ±2, ±3, . . . }

Menge der ganzen Zahlen.



Menge der rationalen Zahlen (siehe später).



Menge der reellen Zahlen (siehe später).

0

Leere Menge.

• Teilmenge • Falls jedes Element einer Menge auch in einer anderen Menge enthalten ist, bezeichnen wir eine solche Menge als Teilmenge der anderen Menge. Beispielsweise sind unter den drei Mengen A = {2, 4, 6}, B = {1, 2, 3, 4} und C = {1, 2, 3, 4, 5, 6}, sowohl A als auch B Teilmengen von C. Dies wird in Zeichen ausgedrückt über A ⊂ C (lies: A Teilmenge von C) bzw. B ⊂ C. A ist aber beispielsweise keine Teilmenge von B. Dafür notiert man dann A ⊄ B (lies: A nicht Teilmenge von B). Wir werden in diesem Buch auch von Teilmengen sprechen, wenn zwei Mengen identisch sind. Beispielsweise gilt mit D = {2, 4, 6} sowohl A ⊂ D als auch D ⊂ A. Eine nicht unmittelbar einleuchtende Besonderheit ist die folgende (Definition): Die leere Menge ist Teilmenge jeder Menge. Hierbei handelt es sich um eine Konvention, die zunächst etwas seltsam wirkt, die sich jedoch als zweckmäßig erweist und die Logik der Mengenlehre insgesamt erhält. • Intervalle • Unter Intervallen verstehen wir in der Regel spezifische Teilmengen von ℝ, die ein Kontinuum von Werten enthalten. So definieren die Mengen M1 = {x ∈

234 | 6 Einführung in die Wahrscheinlichkeitsrechnung ℝ : a < x < b} und M2 = {x ∈ ℝ : a ≤ x ≤ b} das offene bzw. abgeschlossene Intervall von a bis b. Üblicherweise notiert man (a, b), [a, b], (a, b] und [a, b) für offene, abgeschlossene und halboffene Intervalle je nachdem, ob die Endwerte noch im Intervall enthalten sind oder nicht. Außerdem gilt: [a, ∞) = {x ∈ ℝ : x ≥ a}, (a, ∞) = {x ∈ ℝ : x > a}, (−∞, b] = {x ∈ ℝ : x ≤ b} und (−∞, b) = {x ∈ ℝ : x < b}. • Schnittmenge • Die Schnittmenge zweier Mengen ist die Menge aller Elemente, die sowohl in der einen als auch in der anderen Menge enthalten sind. Wird eine Schnittmenge S aus zwei bestehenden Mengen M1 und M2 gebildet, so notiert man diese Mengenoperation mit S = M1 ∩ M2

(lies: S gleich M1 geschnitten M2 ).

Formal gilt dann also S = {x : x ∈ M1 und x ∈ M2 }. Legt man beispielweise die vorhergehenden Mengen A, B und C zugrunde, so würden sich dabei folgende Schnittmengen ergeben: A ∩ B = {2, 4},

A ∩ C = {2, 4, 6},

B ∩ C = {1, 2, 3, 4}.

Werden mehrere Mengen M1 , M2 , . . . , M n geschnitten, so ist die Schnittmenge die Menge aller Elemente, die in allen n Mengen enthalten sind. Die entsprechende Mengenoperation notiert man auch kurz mit n

⋂ Mi

für M1 ∩ M2 ∩ ⋅ ⋅ ⋅ ∩ M n .

i=1

• Vereinigungsmenge • Die Vereinigungsmenge zweier Mengen ist die Menge aller Elemente, die in der einen oder in der anderen Menge enthalten sind. Das „oder“ ist hierbei als „und/oder“ zu verstehen. Dies bedeutet, dass jedes Element der Vereinigungsmenge Element wenigstens einer der beiden Mengen ist. Wird eine Vereinigungsmenge V aus zwei bestehenden Mengen M1 und M2 gebildet, so notiert man diese Mengenoperation mit V = M1 ∪ M2

(lies: V gleich M1 vereinigt M2 ).

Formal gilt dann also S = {x : x ∈ M1 oder x ∈ M2 }. Mit den vorhergehenden Mengen A und B erhält man beispielsweise A ∪ B = {1, 2, 3, 4, 6}. Es sei bemerkt, dass die „2“ und die „4“ jeweils nur einmal in der Vereinigungsmenge enthalten sind.

6.1 Wichtige Grundbegriffe und Regeln | 235

Werden mehrere Mengen M1 , M2 , . . . , M n vereinigt, so ist die Vereinigungsmenge die Menge aller Elemente, die in wenigstens einer der n Mengen enthalten sind. Die entsprechende Mengenoperation notiert man auch kurz mit n

⋃ Mi

für M1 ∪ M2 ∪ ⋅ ⋅ ⋅ ∪ M n .

i=1

• Differenzmenge • Die Differenzmenge zweier Mengen ist die Menge aller Elemente, die nur in der einen, nicht aber in der anderen Menge enthalten sind (oder umgekehrt). Die korrespondierenden Mengenoperationen für zwei gegebene Mengen M1 und M2 werden mit M1 \ M2

bzw.

M2 \ M1

(lies: M1 ohne M2 bzw. M2 ohne M1 )

notiert. Formal gilt dann M1 \ M2 = {x : x ∈ M1 und x ∈ ̸ M2 } bzw. M2 \ M1 = {x : x ∈ M2 und x ∈ ̸ M1 }. Mit den vorhergehenden Mengen A, B und C erhält man beispielsweise A \ B = {6}, B \ A = {1, 3} und A \ C = 0. • Komplementärmenge • Ist M eine Teilmenge von M, so ist M\ M die Komplementärmenge von M bezogen auf M. Eine Komplementärmenge ist eine auf eine übergeordnete Menge, auch Grundmenge genannt, bezogene Differenzmenge. Notiert wird sie häufig mit einem Querbalken wie etwa M =M\M

(lies: M Komplement).

Die Vereinigung von Ursprungsmenge und Komplementärmenge ergibt die Grundmenge, d.h. es gilt stets: M ∪ M = M. Für die vorhergehenden Mengen A, B und C erhält man unter Zugrundelegung der Grundmenge C beispielsweise A = C \ A = {1, 3, 5}, B = C \ B = {5, 6} und C = C \ C = 0. • Disjunkte Mengen • Sofern zwei Mengen M1 und M2 keine gemeinsamen Elemente besitzen, bezeichnet man diese als disjunkt. Es gilt dann also: M1 ∩ M2 = 0. Beispielsweise ist eine Menge immer disjunkt zu ihrer Komplementärmenge, d.h. M ∩ M = 0.

236 | 6 Einführung in die Wahrscheinlichkeitsrechnung

• Venn-Diagramme • Mit den nach dem englischen Mathematiker John Venn (1834– 1923) benannten Venn-Diagrammen lassen sich Mengen und Mengenoperationen grafisch illustrieren. Insbesondere in der Wahrscheinlichkeitsrechnung erweisen sie sich häufig als sehr nützlich.

M 1 ⊂ M 2: Teilmenge

M 1 ∩ M 2: Schnittmenge zweier Mengen

M2 M1

M1

M2

M M 1 ∪ M 2: Vereinigungsmenge

M1

M M 1 ∩ M 2 ∩ M 3: Schnittmenge dreier Mengen M1

M2

M2 M3

M

M = M \ M : Komplementärmenge

M 1 \ M 2: Differenzmenge

M1

M

M

M2 M M

M

Abb. 6.1.2: Venn-Diagramme zur Illustration von Mengen und Mengenoperationen

• Elementare Regeln für Mengenoperationen • Folgende Regeln, deren Gültigkeit formal nicht bewiesen werden soll, lassen sich anhand von Venn-Diagrammen mit 2 oder 3 Mengen leicht nachvollziehen. Elementare Regeln für Mengenoperationen Kommutativgesetze: M1 ∩ M2 = M2 ∩ M1 ,

M1 ∪ M2 = M2 ∪ M1 .

Assoziativgesetze: (M1 ∩ M2 ) ∩ M3 = M1 ∩ (M2 ∩ M3 ), (M1 ∪ M2 ) ∪ M3 = M1 ∪ (M2 ∪ M3 ).

6.1 Wichtige Grundbegriffe und Regeln | 237

Distributivgesetze: (M1 ∩ M2 ) ∪ M3 = (M1 ∪ M3 ) ∩ (M2 ∪ M3 ), (M1 ∪ M2 ) ∩ M3 = (M1 ∩ M3 ) ∪ (M2 ∩ M3 ).

• Potenzmenge • Die Potenzmenge einer Menge M ist die Menge aller Teilmengen von M und wird hier mit P(M) notiert. Formal gilt: P(M) = {M ∗ : M ∗ ⊂ M}. Lies: Die Potenzmenge von M ist die Menge aller Mengen M ∗ , die Teilmengen von M sind. Die Potenzmenge ist also eine Menge von (Teil-)Mengen. Da die leere Menge Teilmenge jeder Menge ist, wäre beispielsweise die Potenzmenge von Z = {2, 4, 6} die Menge P(Z) = {{2}, {4}, {6}, {2, 4}, {2, 6}, {4, 6}, {2, 4, 6}, 0}. Für die Menge W = {sonnig, teils bedeckt, bedeckt, regnerisch} erhalten wir dagegen P(W)=

{{sonnig}, {teils bedeckt}, {bedeckt}, {regnerisch}, {sonnig, teils bedeckt}, {sonnig, bedeckt}, {sonnig, regnerisch}, {teils bedeckt, bedeckt}, {teils bedeckt, regnerisch}, {bedeckt, regnerisch}, {sonnig, teils bedeckt, bedeckt}, {teils bedeckt, bedeckt, regnerisch}, {sonnig, bedeckt, regnerisch}, {sonnig, teils bedeckt, regnerisch}, {sonnig, teils bedeckt, bedeckt, regnerisch}, 0 }.

• Produktmenge • Die Produktmenge oder Kreuzmenge (auch kartesisches Produkt genannt) zweier Mengen M1 und M2 ist die Menge M, die aus allen geordneten Paarungen von Elementen besteht, die über die beiden Mengen gebildet werden können. Dafür schreibt man M = M1 × M2 . Die Elemente von M werden gewöhnlich als 2-Tupel in der Form (x, y) notiert. Dabei gilt: M = {(x1 , x2 ) : x1 ∈ M1 und x2 ∈ M2 }. „Geordnet“ bedeutet, dass (x1 , x2 ) ≠ (x2 , x1 ) ist, sofern x1 ≠ x2 ist, d.h. A × B ≠ B × A, sofern A ≠ B. So wären beispielsweise die aus A = {1, 2, 3} und B = {2, 3, 4} bildbaren Produktmengen: A × B = {(1, 2), (1, 3), (1, 4), (2, 2), (2, 3), (2, 4), (3, 2), (3, 3), (3, 4)} bzw. B × A = {(2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3), (4, 1), (4, 2), (4, 3)}.

238 | 6 Einführung in die Wahrscheinlichkeitsrechnung Allgemeiner ist die aus n ≥ 2 Mengen M1 , . . . , M n gebildete Produktmenge die aus den n-Tupeln (x1 , x2 , . . . , x n ) bestehende Menge M = M1 × M2 × ⋅ ⋅ ⋅ × M n = {(x1 , x2 , . . . , x n ) : x1 ∈ M1 und x2 ∈ M2 und . . . und x n ∈ M n }. Wichtige und für dieses Lehrbuch besonders relevante Beispiele sind die aus der Menge der reellen Zahlen gebildeten Produktmengen ℝ2 = ℝ × ℝ

oder allgemeiner

ℝn = ℝ × ℝ × ⋅ ⋅ ⋅ × ℝ,

die das zweidimensionale bzw. n-dimensionale kartesische Koordinatensystem repräsentieren.

Abb. 6.1.3: Produktmengen

• Mächtigkeit einer Menge • Die Mächtigkeit einer Menge M gibt an, wie viele Elemente in M enthalten sind. Von den vorhergehenden Mengen beispielsweise enthält Z genau 3 Elemente und W genau 4 Elemente. Dies notiert man mit |Z| = 3

(Lies: Mächtigkeit von Z gleich 3) bzw.

|W| = 4.

Ist die Mächtigkeit einer Menge M endlich, d.h. |M| < ∞, so gilt stets |P(M)| = 2|M| . Tatsächlich stellen wir für die beiden vorliegenden Mengen fest: |P(Z)| = 2|Z| = 23 = 8

bzw.

|P(W)| = 2|W| = 24 = 16.

• Vergleich der Mächtigkeit von Mengen • Die Mächtigkeit einer endlichen Menge ergibt stets eine natürliche Zahl. Deshalb lassen sich endliche Mengen nach ihrer Mächtigkeit sehr einfach ordnen. Dazu müssen lediglich natürliche Zahlen größenmäßig miteinander verglichen werden. Wie gestaltet sich jedoch ein Vergleich bei nicht endlichen Mengen? Betrachten wir als Beispiel die Menge der natürlichen Zahlen ℕ. Eine Frage, die man nun stellen könnte, wäre, ob diese Menge beispielsweise mächtiger sei als die Menge der geraden Zahlen G = {2, 4, 6, . . . }. Viele wären hier sicherlich geneigt, dies

6.1 Wichtige Grundbegriffe und Regeln | 239

eindeutig zu bejahen, möglicherweise sogar noch mit der Einschätzung, dass ℕ genau doppelt so mächtig sein sollte wie G. Jedoch erweist sich diese Einschätzung mathematisch als nicht tragbar. Die Frage, wie sich die Mächtigkeit nicht endlicher Mengen sinnvoll vergleichen lässt, führt zu einem konzeptionell allgemeineren Ansatz. So gelten in der Mengenlehre zwei Mengen als gleich mächtig, wenn eine Bijektion zwischen beiden Mengen existiert. Unter einer solchen versteht man eine Zuordnungsvorschrift (Abbildung, Funktion), mit der jedem Element der einen Menge genau ein Element der anderen Menge zugeordnet werden kann und umgekehrt. Abbildung 6.1.4 illustriert das Ganze zunächst anhand endlicher Mengen.

1 2 3

Abb. 6.1.4: Bijektion zwischen endlichen Mengen

Der Vorteil dieser zunächst recht umständlich wirkenden Definition besteht darin, dass sie sich auch auf Mengen mit unendlich vielen Elementen anwenden lässt. Abbildung 6.1.5 führt vor Augen, wie beispielsweise eine einfache Bijektion zwischen ℕ und G ersichtlich wird, wenn beide Mengen lediglich günstig zueinander angeordnet werden. Ähnlich verhält es sich mit ℕ und der Menge der ganzen Zahlen ℤ. Auch in diesem Fall kann eine Bijektion recht einfach aufgestellt werden. Auf ähnliche Weise, nur etwas komplizierter, lässt sich auch nachweisen, dass selbst die Menge der rationalen Zahlen ℚ die gleiche Mächtigkeit wie ℕ aufweist (vgl. beispielsweise Davidson [2002, S. 9]). Zu den rationalen Zahlen zählen all diejenigen Zahlen, welche sich aus Quotienten zweier ganzer Zahlen ergeben, wie z.B. 1/3, 2/3, 0.8 = 4/5, 0.9 = 9/10, 1/9, −7/6, 17/123, 2.34125, −11.32. So sehr es also auch unserer Intuition widerspricht, sind ℕ, G, ℤ und ℚ allesamt gleich mächtig. Wir müssen uns damit von der Vorstellung lösen, dass eine (echte) Teilmenge weniger mächtig sein muss als ihre Grundmenge. • Abzählbare und überabzählbare Mengen • Jede Menge, welche die gleiche Mächtigkeit wie die Menge der natürlichen Zahlen aufweist, gilt als abzählbar unendlich. Dies rührt daher, dass mit den natürlichen Zahlen gewöhnlich bestimmte Dinge abgezählt werden. Endliche Mengen und abzählbar unendliche Mengen wie z.B. ℕ, ℤ oder ℚ zählen allgemeiner dann zu den abzählbaren Mengen. Bei weitem nicht jede beliebige reelle Zahl kann durch den Quotienten zweier ganzer Zahlen ausgedrückt werden. Derartige nicht rationale reelle Zahlen werden als irrational bezeichnet. Beispiele hierfür wären die Wurzel aus 2 (gerundet 1.4142) oder

240 | 6 Einführung in die Wahrscheinlichkeitsrechnung

: 1, 2, 3, 4, 5, 6, 7, ...

: 1, 2, 3, 4, 5, ...

G: 2, 4, 6, 8, 10, 12, 14, ...

: 0, +1, −1, +2, −2, ...

Abb. 6.1.5: Bijektion zwischen abzählbar unendlichen Mengen

die Kreiszahl π (gerundet 3.1416). Im Gegensatz zur Menge der rationalen Zahlen ist die Menge der irrationalen Zahlen, also ℝ \ ℚ, nicht abzählbar und damit natürlich auch nicht die Menge der reellen Zahlen. Nicht abzählbare Mengen werden auch als überabzählbar bezeichnet. Hierzu zählen beispielsweise die irrationalen Zahlen, die reellen Zahlen und auch alle Teilmengen von ℝ in Form von Intervallen [a, b) mit a, b ∈ ℝ und a < b. Tab. 6.1.1: Mächtigkeit von Mengen – Beispiele Mächtigkeit

Beispiele

endlich

{1, 2, 3, 4}, {sonnig, bewölkt, regnerisch}, ...

abzählbar unendlich

ℕ, ℤ, ℚ, ...

überabzählbar

ℝ, ℝ \ ℚ, [0, 1), [2, 4.6), ...

6.1.3 Axiomatischer Wahrscheinlichkeitsbegriff und Regeln • Ergebnisräume und Ereignisse • Mithilfe der Mengenlehre sind wir nun in der Lage, den Wahrscheinlichkeitsbegriff auf mathematische Weise zu definieren. Der entscheidende Punkt besteht darin, dass die in Verbindung mit einem Zufallsvorgang auftretenden Ereignisse als Mengen aufgefasst werden. Der Ergebnisraum ist die Menge aller möglichen Ergebnisse eines Zufallsvorgangs und wird üblicherweise mit Ω (lies: Omega) bezeichnet. Besteht Ω aus endlich oder abzählbar unendlich vielen Elementen, so sprechen wir von einem diskreten Ergebnisraum, sonst von einem überabzählbaren Ergebnisraum. Teilmengen von Ω, denen Wahrscheinlichkeiten in wohldefinierter Weise zugeordnet werden können, heißen Zufallsereignisse oder kurz Ereignisse. Die Elemente von Ω heißen Elementarereignisse. Der Ergebnisraum Ω selbst wird als sicheres Ereignis und das zugehörige Komplement Ω = 0 als unmögliches Ereignis bezeichnet. Sind A und B sich gegenseitig ausschließende Ereignisse, d.h. gilt A ∩ B = 0, so spricht man von disjunkten Ereignissen.

6.1 Wichtige Grundbegriffe und Regeln | 241

Die Definition für Ereignisse ist hier etwas vage. Offensichtlich ist jedes Ereignis eine Teilmenge von Ω, aber nicht jede Teilmenge von Ω zwingend ein Ereignis. Wie sich nachfolgend noch zeigt, ist dieser Punkt besonders für überabzählbare Ergebnisräume von Wichtigkeit. • Beispiele • ∙ Würfelwurf: Beim Würfelwurf ist der Ergebnisraum gegeben durch Ω = {1, 2, 3, 4, 5, 6}. Neben den Elementarereignissen ω1 = 1 , ω2 = 2, ω3 = 3, ω4 = 4, ω5 = 5 und ω6 = 6 sind weitere mögliche Ereignisse beispielsweise G = {2, 4, 6} und U = {1, 3, 5}. Dabei steht das Ereignis G für das Eintreten einer geraden Zahl und U für das Eintreten einer ungeraden Zahl. Da diese beiden Ereignisse nicht gleichzeitig eintreten können, sind sie disjunkt. ∙ Wetter am nächsten Tag: Der Ergebnisraum für das Wetter eines nachfolgenden Tages könnte beispielsweise so aussehen: Ω = {sonnig, teils bedeckt, bedeckt, regnerisch}. Das Ereignis S = {sonnig, teils bedeckt} steht für zumindest teilweise sonniges Wetter. ∙ Zweimaliger Münzwurf: Beim zweimaligen Werfen einer Münze lässt sich der zugehörige Ergebnisraum definieren als Ω = {(Zahl, Zahl), (Zahl, Wappen), (Wappen, Zahl), (Wappen, Wappen)}. Das Ereignis Z1 = {(Zahl, Wappen), (Wappen, Zahl), (Zahl, Zahl)} ließe sich dadurch beschreiben, dass mindestens einmal „Zahl“ geworfen wird. ∙ Würfeln bis zu ersten Sechs: Einen abzählbar unendlichen Ergebnisraum erhält man für das Zufallsexperiment „Würfeln bis zur ersten Sechs“. Es wird also solange gewürfelt bis zum ersten Mal eine Sechs fällt. Dann lautet die Menge der möglichen Ergebnisse Ω = {1, 2, 3, ...} = ℕ. Aus theoretischer Sicht gibt es keinen Grund bei einer bestimmten natürlichen Zahl abzubrechen. Das Ereignis W11 = {11, 12, 13, 14, ...} steht dafür, dass mindestens 11 Würfe bis zur ersten Sechs benötigt werden. ∙ Lebensdauer einer Computer-Festplatte: Die Lebensdauer einer Computer-Festplatte in Stunden ließe sich über den Ergebnisraum Ω = [0, ∞) festhalten. Dies wäre die Menge aller positiven reellen Zahlen, eine überabzählbare Teilmenge der reellen Zahlen, und folglich ein überabzählbarer Ergebnisraum. Das Ereignis L1 = [10 000, ∞) beispielsweise entspräche einer Lebensdauer von mindestens 10 Tausend Stunden und das Ereignis L2 = [10 000, 20 000] einer Lebensdauer zwischen 10 und 20 Tausend Stunden. • Wahrscheinlichkeiten und Ereignisse diskreter Ergebnisräume • Zur mathematischen Definition von Wahrscheinlichkeiten beschränken wir uns zunächst auf diskrete Ergebnisräume. Grundsätzlich ist es hier mathematisch stets möglich, allen Teilmengen des Ergebnisraumes Wahrscheinlichkeiten zuzuordnen. Dies erfolgt

242 | 6 Einführung in die Wahrscheinlichkeitsrechnung

durch eine Funktion, die bestimmten Mindestanforderungen genügen muss. Diese lassen sich in 3 Axiomen fassen. Definition 6.1.1: Diskretes Wahrscheinlichkeitsmaß Ordnet eine Funktion P den Teilmengen eines diskreten Ergebnisraumes Ω Zahlen unter Einhaltung folgender Regeln zu: (K1) P(A) ≥ 0 für A ⊂ Ω, (K2) P(Ω) = 1, (K3) falls A1 , A2 , A3 , ⋅ ⋅ ⋅ ⊂ Ω paarweise disjunkt sind, d.h. A i ∩ A j = 0 für i ≠ j und i, j = 1, 2, 3, . . . , dann gilt ∞



i=1

i=1

P(⋃ A i ) = ∑ P(A i ), so nennt man P ein diskretes Wahrscheinlichkeitsmaß auf der Potenzmenge von Ω und die Funktionswerte von P heißen Wahrscheinlichkeiten.

• Allgemeine Anmerkungen zur Axiomatik • Die vorliegende Definition gilt zunächst einmal nur für diskrete Ergebnisräume und nicht für überabzählbare Ergebnisräume. Bei der Lebensdauer einer Computer-Festplatte mit dem Ergebnisraum Ω = [0, ∞), könnte die vorliegende Definition also beispielsweise nicht verwendet werden. Das Zufallsexperiment „Würfeln bis zur ersten Sechs“ stellt dagegen kein Problem dar. Tatsächlich erzeugen überabzählbare Ergebnisräume ein erhebliches mathematisches Problem bei der Definition von Wahrscheinlichkeiten, was an späterer Stelle noch etwas näher ausgeführt wird. Dies ist auch der Grund dafür, dass wir auf eine etwas umständlich erscheinende Definition treffen. Wahrscheinlichkeiten werden als Funktionswerte einer Funktion, die mit „P“ bezeichnet wird, aufgefasst. Der Buchstabe „P“ wird durch das englische Wort „Probability“ für Wahrscheinlichkeit motiviert. Diese Funktion P erfüllt dabei die drei Eigenschaften (K1)–(K3), die weitgehend den von Kolmogoroff [1933] aufgestellten Axiomen (der Kolmogoroff’schen Axiomatik) entsprechen. Alle Rechenregeln der Wahrscheinlichkeitsrechnung lassen sich letztlich auf diese 3 Axiome zurückführen. Somit liegt die eigentliche Kunst dieser Definition darin, dass sie kurz und dennoch präzise genug ist, um damit arbeiten zu können. Man beachte, dass aus der Definition nicht hervorgeht, wie Wahrscheinlichkeiten konkret berechnet werden. Wir können daraus beispielsweise nicht schlussfolgern, dass die Wahrscheinlichkeit einer Sechs beim Würfeln mit 1/6 anzugeben ist. Ebenso taucht auch nicht das Wort „Zufall“ auf, und es wird nicht geklärt, wie Wahrscheinlichkeiten zu interpretieren sind. Ausschlaggebend ist allein die Einhaltung bestimmter Regeln, sobald Ereignissen Wahrscheinlichkeiten zugeordnet werden.

6.1 Wichtige Grundbegriffe und Regeln | 243

• Wahrscheinlichkeiten als Funktionswerte • Jede Funktion besitzt bekanntlich einen Definitionsbereich und einen Wertebereich. Der Definitionsbereich ist dabei die Menge aller „Werte“, welche in die Funktion als Argumente eingehen. Der Wertebereich ist die Menge aller „Werte“, welche die Funktion ausgeben kann. Beispielsweise sind Definitions- und Wertebereich der Funktion f(t) = t2 gegeben durch ℝ bzw. [0, ∞). Definitions- und Wertebereich von g(t) = 1/t sind dagegen jeweils (−∞, 0) ∪ (0, ∞). An der Stelle 0 ist g ja bekanntlich nicht definiert. Man mag es gewohnt sein, dass Definitions- und Wertebereiche von Funktionen gewöhnlich Zahlenmengen und Teilmengen von solchen sind. In der Mathematik versteht man unter einer Funktion (Abbildung) allgemein jedoch nur eine „wohldefinierte Vorschrift“, unter der Elemente einer Ausgangsmenge (Definitionsbereich) auf Elemente einer Zielmenge (Wertebereich) abgebildet werden. So werden nun im Falle eines diskreten Wahrscheinlichkeitsmaßes P den Teilmengen eines Ergebnisraumes, d.h. den Elementen der zugehörigen Potenzmenge, Zahlen zugeordnet, welche als Wahrscheinlichkeiten bezeichnet werden. Angenommen, in einer Urne liegen 3 gleichartige Kugeln mit den Zahlen 2, 4 und 6 beschriftet. Zufällig wird eine Kugel gezogen. Dann ist der Ergebnisraum gegeben durch Ω = {2, 4, 6}. Die Potenzmenge lautet dann P(Ω) = {{2}, {4}, {6}, {2, 4}, {2, 6}, {4, 6}, {2, 4, 6}, 0}. Aus wahrscheinlichkeitstheoretischer Sicht ist dies nun der Definitionsbereich von P. Die Argumente, welche in P eingesetzt werden, sind also Mengen. Man spricht deshalb auch von einer Mengenfunktion. Was genau wäre dann der Wertebereich von P? Tatsächlich ist er eine Teilmenge des Intervalls [0, 1], da Wahrscheinlichkeiten immer durch Zahlen zwischen 0 und 1 ausgedrückt werden. Allerdings ist diese Eigenschaft offensichtlich nicht direkt in der Definition enthalten. Sie kann jedoch, wie gleich gezeigt werden wird, aus den Axiomen hergeleitet werden. Mathematisch sind Wahrscheinlichkeiten Funktionswerte einer Funktion P, die den Teilmengen einer Grundmenge Ω unter Einhaltung der Regeln (K1)–(K3) Zahlen zwischen 0 und 1 zuordnet. Dabei wird P als Wahrscheinlichkeitsmaß und Ω als Ergebnisraum bezeichnet. Im Falle diskreter Ergebnisräume lässt sich dies auch formal ausdrücken als P : P(Ω) → [0, 1] ⊂ ℝ.

• Die Bedeutung der Axiome im Einzelnen • Die Forderung des ersten Axioms (K1) erscheint trivial. Wahrscheinlichkeiten sollen stets nichtnegativ sein. Axiom (K2) legt die Wahrscheinlichkeit des sicheren Ereignisses auf den Wert 1 fest. Mit diesem Normierungsaxiom wird der Wertebereich von P generell auf das Intervall [0, 1] festgelegt. Axiom (K3) beinhaltet schließlich die einzige Rechenvorschrift. Es besagt, dass sich die Wahrscheinlichkeit einer abzählbar unendlichen Vereinigung paarweise disjunkter Ereignisse aus der Summe der jeweiligen einzelnen Wahrscheinlichkeiten der Ereignisse ergibt.

244 | 6 Einführung in die Wahrscheinlichkeitsrechnung

Betrachten wir für letzteren Fall beispielsweise das Zufallsexperiment „Würfeln bis zur ersten Sechs“. Der Ergebnisraum für dieses Experiment ist gegeben durch Ω = {1, 2, 3, ...} = ℕ. Angenommen, man interessiere sich für das Ereignis, dass eine ungerade Anzahl von Würfen benötigt wird, also für U = {1, 3, 5, . . . }. Die Menge der ungeraden Zahlen lässt sich nun auffassen als abzählbar unendliche Vereinigung aller ungeraden Zahlen, sprich U = {1, 3, 5, . . . } = {1} ∪ {3} ∪ {5} ∪ . . . . Da die Ereignisse {2i + 1} paarweise disjunkt sind, muss nun gemäß (K3) gelten: ∞

P(U) = ∑ P({2i + 1}). i=0

Wie steht es dann um die Vereinigung endlich vieler Mengen? Gilt dann beispielweise auch P({1, 3}) = P({1}) + P({3})? Tatsächlich lässt sich aus Axiom (K3) eine entsprechende Eigenschaft für endliche Vereinigungen recht einfach ableiten, wie nachfolgend noch demonstriert werden wird. • Schlussfolgerungen aus den Axiomen • Aus den drei Axiomen ergeben sich alle weiteren Rechenregeln für Wahrscheinlichkeiten. Einige davon folgen relativ direkt und lassen sich einfach nachvollziehen (vgl. Fahrmeir [2010, S. 184]). Elementare Regeln für Wahrscheinlichkeiten Seien Ω ein Ergebnisraum und A, B, A1 , A2 , . . . , A n beliebige Ereignisse. Dann gelten: 1. 0 ≤ P(A) ≤ 1. 2. P(0) = 0. 3. Wenn A ⊂ B, dann ist P(A) ≤ P(B). 4. P(A) = 1 − P(A). 5. Wenn A1 , A2 . . . , A n paarweise disjunkt sind, d.h. A i ∩ A j = 0 für i ≠ j und i, j = 1, 2, . . . , n, dann ist n

n

P(⋃ A i ) = ∑ P(A i ). i=1

i=1

6. P(A ∪ B) = P(A) + P(B) − P(A ∩ B). 7. P(A ∪ B) = P(A) + P(B), wenn A ∩ B = 0 ist.

Zum Nachvollziehen der ersten 5 Regeln, erweist es sich als günstig, eine etwas andere Reihenfolge zu wählen und mit Regel Nr. 2 zu beginnen.

6.1 Wichtige Grundbegriffe und Regeln | 245

Regel Nr. 2: Die Wahrscheinlichkeit des unmöglichen Ereignisses ist gleich 0. Wir definieren A i = 0 für i = 1, 2, 3, . . . und erhalten damit abzählbar unendlich viele Ereignisse A i ⊂ Ω, die paarweise disjunkt sind, da 0 ∩ 0 = 0. Damit lässt sich das unmögliche Ereignis als abzählbare Vereinigung unmöglicher Ereignisse auffassen: 0 = A1 ∪ A2 ∪ A3 ∪ . . . Mit Axiom (K3) folgt dann ∞







i=1

i=1

i=1

i=1

P(0) = P(⋃ A i ) = ∑ P(A i ) = ∑ P(0), d.h. P(0) = ∑ P(0). Gleichheit kann hier jedoch nur gelten, falls P(0) = 0. Wäre die Wahrscheinlichkeit des unmöglichen Ereignisses nämlich positiv, so wäre die rechte Seite auf jeden Fall größer als die linke Seite. Regel Nr. 5 und Nr. 7: Regel Nr.5 entspricht Axiom (K3) für den Fall einer endlichen Vereinigung. Wir definieren A i = 0, für i > n, und erhalten mit A1 ∪ A2 ∪ ⋅ ⋅ ⋅ ∪ A n = A1 ∪ A2 ∪ ⋅ ⋅ ⋅ ∪ A n ∪ A n+1 ∪ A n+2 ∪ . . . auf der rechten Seite der Gleichung eine abzählbare Vereinigung disjunkter Ereignisse. Der endlichen Vereinigung von n Ereignissen auf der linken Seite wurden sozusagen unendlich viele unmögliche Ereignisse hinzuzufügt. Mit diesem Trick entspricht die Vereinigung auf der rechten Seite weiterhin der linken Seite. Damit folgt n





i=1

i=1

P(⋃ A i ) = P(⋃ A i ) = ∑ P(A i ), i=1

wobei sich die letzte Gleichung aus Axiom (K3) ergibt. Mit Regel Nr. 2 folgt dann aber P(A i ) = P(0) = 0 für i > n, und damit schließlich Regel Nr. 5: n

n

P(⋃ A i ) = ∑ P(A i ). i=1

i=1

Regel Nr. 7 folgt aus Regel Nr. 5, wenn man n = 2, A1 = A und A2 = B wählt. Regel Nr. 1 und Nr. 4: Wahrscheinlichkeiten liegen stets im Intervall [0, 1]. Da Ereignis und Gegenereignis stets disjunkt sind, folgt unmittelbar aus Axiom 2 und der eben nachgewiesenen Regel Nr. 5 1 = P(Ω) = P(A ∪ A) = P(A) + P(A).

246 | 6 Einführung in die Wahrscheinlichkeitsrechnung

Wegen Axiom (K1) müssen beide Summanden auf der rechten Seite nichtnegativ sein. Folglich sind beide Summanden kleiner gleich 1, da die Gleichung ansonsten nicht erfüllt sein kann. Durch Umstellen der obigen Gleichung erhält man Regel Nr. 4. Regel Nr. 3: Anhand eines Venn-Diagramms lässt sich einfach klarmachen, dass für A ⊂ B gilt: B = (B \ A) ∪ A. Damit lässt sich B als endliche Vereinigung zweier disjunkter Ereignisse B \ A und A darstellen. Mit Regel Nr. 5 folgt deshalb P(B) = P(B \ A) + P(A). Da aufgrund von Axiom 1 alle Wahrscheinlichkeiten dieser Gleichung nichtnegativ sein müssen, folgt unmittelbar P(B) ≥ P(A). Regel Nr. 6: Wie aus Abbildung 6.1.6 hervorgeht sind A \ B, A ∩ B und B \ A disjunkte Ereignisse, deren Vereinigung A ∪ B ergibt. Entsprechend folgt für diese Ereignisse mit Rechenregel Nr. 5 (i) P(A) = P(A \ B) + P(A ∩ B). (ii) P(B) = P(B \ A) + P(A ∩ B). (iii) P(A ∪ B) = P(A \ B) + P(A ∩ B) + P(B \ A). Durch Umstellen von (i) und (ii) erhält man P(A \ B) = P(A) − P(A ∩ B)

und

P(B \ A) = P(B) − P(A ∩ B).

Eingesetzt in (iii) ergibt dies den Additionssatz für zwei Ereignisse bzw. die Regel Nr. 6: P(A ∪ B) = [P(A) − P(A ∩ B)] + P(A ∩ B) + [P(B) − P(A ∩ B)] = P(A) + P(B) − P(A ∩ B). Sofern man sich Wahrscheinlichkeiten als Flächen der in einem Venn-Diagramm illustrierten Mengen vorstellt (Abb. 6.1.7), erhält der Additionssatz eine einfache Logik. Werden die Flächen von A und B addiert, so ergibt sich, dass die Schnittfläche doppelt gezählt wird. Dieses Flächenstück muss deshalb einmal abgezogen werden, um die Fläche der Vereinigung zu erhalten. • Beispiel 6.1.1: Würfelwurf • Der Ergebnisraum beim einmaligen Würfelwurf lautet Ω = {1, 2, 3, 4, 5, 6}. Dann können beispielsweise die Ereignisse „Eine gerade Zahl wird geworfen“ und „Eine Sechs wird gewürfelt“ über die Mengen A = {2, 4, 6} bzw. D = {6} ausgedrückt werden. Regel Nr. 3 besagt nun, dass die Wahrscheinlichkeit von A nicht kleiner sein darf als die Wahrscheinlichkeit von D. So trivial dies im vorliegenden Beispiel zunächst erscheinen mag, sollte hierzu gesagt werden, dass aus der Axiomatik und allen sich

6.1 Wichtige Grundbegriffe und Regeln | 247

A ∪B A

A \B

A ∩B

B \A

B Ω

Abb. 6.1.6: Illustration zum axiomatischen Nachweis des Additionssatzes

P (A ∪ B ) = P (A ) − P (A ∩ B ) + P (B )

A

1

2

1

B Ω

Abb. 6.1.7: „Geometrischer Nachweis“ des Additionssatzes für zwei Ereignisse

daraus ergebenden Regeln nicht abgeleitet werden kann, dass A beispielsweise die Wahrscheinlichkeit 1/2 und D die Wahrscheinlichkeit 1/6 erhält. Ähnliches gilt für Regel Nr. 4, also für die Berechnung der Wahrscheinlichkeit des Gegenereignisses. Beispielsweise wäre das Gegenereignis von „Gerade Zahl“ das Ereignis „Ungerade Zahl“. Welche Wahrscheinlichkeit wir nun auch immer einem der beiden Ereignisse zuordnen, so besagt die Regel lediglich, dass sich beide Wahrscheinlichkeiten zu 1 aufaddieren müssen. • Beispiel 6.1.2: Additionssatz für drei Ereignisse • Der Additionssatz für drei Ereignisse bzw. die zu Regel Nr. 6 entsprechende Erweiterung auf drei Ereignisse, lässt sich mithilfe eines Venn-Diagramms relativ einfach nachvollziehen (Abb. 6.1.8). Im Rahmen der „Flächeninterpretation“ werden zunächst alle Mengenflächen addiert. Danach werden alle doppelt verrechneten Flächen 1 Mal subtrahiert. Dabei wird die dreifache Schnittfläche jedoch 1 Mal zu oft subtrahiert, sodass die Fläche des dreifachen Schnittes wieder 1 Mal hinzuaddiert werden muss, um die Gesamtfläche der Vereinigung zu erhalten. Insgesamt erhält man also: P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(B ∩ C) − P(A ∩ C) + P(A ∩ B ∩ C). • Additionskalkül für diskrete Ergebnisräume • Während die Axiomatik lediglich die Eigenschaften eines Wahrscheinlichkeitsmaßes beschreibt, geht aus dem nachfol-

248 | 6 Einführung in die Wahrscheinlichkeitsrechnung

A

1 2

2 3 1

1 2

B

C

Ω

Abb. 6.1.8: „Geometrischer Nachweis“ des Additionssatzes für drei Ereignisse

genden Resultat hervor, wie sich im Falle diskreter Ergebnisräume konkrete Ereigniswahrscheinlichkeiten berechnen lassen. Satz 6.1.1: Additionskalkül für diskrete Ergebnisräume Sei Ω ein diskreter Ergebnisraum mit endlich oder abzählbar unendlich vielen Elementarereignissen ω1 , ω2 , . . . , ω k bzw. ω1 , ω2 , ω3 , . . . Sei A ⊂ Ω ein beliebiges Ereignis. Weiter gelte: (i) P({ω i }) ≥ 0 für alle i. (ii) ∑i P({ω i }) = 1. (iii) P(A) = P({ω i : ω i ∈ A}) = ∑ω i ∈A P({ω i }). Dann ist P ein diskretes Wahrscheinlichkeitsmaß auf P(Ω). Unter Kenntnis der Wahrscheinlichkeiten der Elementarereignisse, P({ω i }), lässt sich im Falle eines diskreten Ergebnisraumes die Wahrscheinlichkeit für jedes beliebige Ereignis bestimmen, indem die Wahrscheinlichkeiten der zu diesem Ereignis gehörenden Elementarereignisse addiert werden. Das einzige Erfordernis wäre, dass alle Elementarereignisse nichtnegative Wahrscheinlichkeiten besitzen, die in der Summe 1 ergeben. Dass eine auf einem solchen Additionskalkül basierende Funktion P den Axiomen (K1)–(K3) genügt, ist leicht ersichtlich. Ein wichtiger Spezialfall liegt vor, wenn 1. der Ergebnisraum Ω endlich ist und 2. alle Elementarereignisse gleichwahrscheinlich sind, d.h. P({ω i }) = 1/|Ω| für alle ω i ∈ Ω. Dann spricht man von einem Laplace-Modell und (iii) liefert die Formel der klassischen Wahrscheinlichkeit: |A| für A ⊂ Ω. (6.1.1) P(A) = |Ω|

6.1 Wichtige Grundbegriffe und Regeln | 249

• Beispiel 6.1.1 fortgesetzt • Betrachten wir als Beispiel nochmals den einmaligen Würfelwurf mit den Ereignissen A = {2, 4, 6}, B = {2, 3, 6}, C = {1, 2, 3, 4} und D = {6}. Angenommen, wir unterstellen ein Laplace-Modell und weisen jedem Elementarereignis die Wahrscheinlichkeit 1/6 zu. Dann ergeben sich für A, B, C und D nach (6.1.1) die Wahrscheinlichkeiten |A| |B| P(A) = = 3/6 = 1/2, P(B) = = 3/6 = 1/2, |Ω| |Ω| |D| |C| = 4/6 = 2/3 und P(D) = = 1/6. P(C) = |Ω| |Ω| Weiter erhält man die „zusammengesetzten“ Ereignisse „Eine gerade Zahl oder eine Zahl kleiner als Fünf“ bzw. „Eine gerade Zahl und eine Zahl kleiner als Fünf“ durch die Anwendung der Mengenoperationen Vereinigung bzw. Durchschnitt aus A und C: A ∪ C = {1, 2, 3, 4, 6}

bzw.

A ∩ C = {2, 4}.

Die zugehörigen Wahrscheinlichkeiten wären dann entsprechend P(A ∪ C) = 5/6

bzw.

P(A ∩ C) = 2/6 = 1/3.

Wie man nun erkennen kann, ist beispielsweise die in Regel Nr. 6 postulierte Eigenschaft erfüllt. So gilt tatsächlich P(A) + P(C) − P(A ∩ C) = 3/6 + 4/6 − 2/6 = 5/6 = P(A ∪ C). • Das Problem überabzählbarer Ergebnisräume • Wie lassen sich in überabzählbaren Ergebnisräumen Wahrscheinlichkeiten sinnvoll definieren und zuordnen? Wie bereits erwähnt, stellt dies ein größeres mathematisches Problem dar. Beispielsweise funktioniert der oben beschriebene Additionskalkül zur Bestimmung von Ereigniswahrscheinlichkeiten in dieser Weise nicht mehr. Eine (nichttriviale) Konsequenz davon ist, dass als Definitionsbereich eines Wahrscheinlichkeitsmaßes in der Regel eine „deutlich kleinere“ Teilmenge der Potenzmenge gewählt werden muss. Stellen wir uns dazu folgendes „Idealexperiment“ vor (Fahrmeir [2010, S. 217]: Ein Computer erzeuge Zufallszahlen aus dem Intervall [0, 1]. Dabei kann „zufällig“ jede beliebige reelle Zahl aus diesem Intervall gezogen werden. Der Ergebnisraum wäre damit also überabzählbar. Wir sprechen hier von einem Idealexperiment, da wir in der Praxis zunächst einmal keine „echten Zufallszahlen“ erzeugen können. Unter vollständiger Kenntnis des physikalischen Zustands des Rechners und des verwendeten Algorithmus zur Erzeugung der Zufallszahl, könnte jede Zufallszahl prognostiziert werden. Zum anderen, und das ist jetzt der wichtigere Punkt, kann jeder Rechner nur mit einer endlichen Anzahl von Nachkommastellen rechnen. Irgendwann wird jede Zahl, die gerade im Computer verrechnet wird, an einer bestimmten Nachkommastelle abgebrochen. Faktisch liegt also immer nur ein diskreter Ergebnisraum vor, ja sogar nur ein endlicher. Es ist praktisch also nicht möglich, Zufallszahlen aus abzählbaren,

250 | 6 Einführung in die Wahrscheinlichkeitsrechnung

geschweige denn überabzählbaren Mengen zu ziehen. Deshalb nehmen wir an dieser Stelle lediglich an, es gäbe einen solchen Computer. Nun kommt das eigentlich mathematische Problem: Es ist mathematisch gesehen nicht möglich, jedem Elementarereignis eines überabzählbaren Ergebnisraumes, in diesem Fall jeder reellen Zahl aus [0, 1], eine positive Wahrscheinlichkeit zuzuordnen, ohne die Axiomatik letztlich zu verletzen. Denn hätte jedes Elementarereignis eine positive Wahrscheinlichkeit, würde das zu einem Widerspruch zu Axiom (K2) bzw. (K3) führen. Die Summe überabzählbar vieler positiver Zahlen kann nicht endlich sein. Mathematisch funktioniert das nicht. Deshalb scheidet auch ein derartiger Additionskalkül wie bei diskreten Ergebnisräumen aus. • Integrationskalkül für überabzählbare Ergebnisräume • Der für diskrete Ergebnisräume operable Additionskalkül kann wie oben ausgeführt für überabzählbare Ergebnisräume in der Regel nicht mehr verwendet werden. Dieser wird dann durch ein Integrationskalkül ersetzt, bei dem anstelle von Summen aus Wahrscheinlichkeiten Flächen von Wahrscheinlichkeitsdichtefunktionen zur Bestimmung von Ereigniswahrscheinlichkeiten verwendet werden. Letztlich führt dies auch dazu, dass in der Regel nicht mehr allen Teilmengen von Ω Wahrscheinlichkeiten zugeordnet werden können. In dieser Hinsicht entsteht ein Messbarkeitsproblem. Nähere Ausführungen hierzu finden sich später bei der Behandlung stetiger Zufallsvariablen (Abschnitt 7.1.1). Additionskalkül vs. Integrationskalkül und Rechenregeln Im Rahmen diskreter Ergebnisräume lassen sich Ereigniswahrscheinlichkeiten über einen Additionskalkül bestimmen, innerhalb dessen anteilige Summen von Einzelwahrscheinlichkeiten bestimmt werden. Für überabzählbare Ergebnisräume wird dagegen ein Integrationskalkül verwendet, innerhalb dessen anteilige Flächen von Wahrscheinlichkeitsdichten zur Bestimmung von Ereigniswahrscheinlichkeiten bestimmt werden. Alle bisherigen und zukünftigen Rechenregeln für Wahrscheinlichkeiten gelten unabhängig von der Beschaffenheit des Ergebnisraumes, sofern keine Einschränkungen vorgenommen werden. • Maßtheoretische Verallgemeinerungen • Die eigentliche auf Kolmogoroff zurückgehende Definition von Wahrscheinlichkeitsmaßen ist für beliebige Ergebnisräume gültig, insbesondere also auch für überabzählbare. Es werden die gleichen Axiome vorausgesetzt und es gelten alle daraus abgeleiteten Rechenregeln. Jedoch ändert sich die Definitionsmenge des Wahrscheinlichkeitsmaßes. Diese manchmal auch als Ereignisraum bezeichnete Menge deckt sich in der Regel nicht mehr mit der Potenzmenge, sondern ist aufgrund des oben erwähnten Messbarkeitsproblems ein weniger

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 251

mächtiges Mengensystem, das die Eigenschaften einer sog. Sigma-Algebra aufweist und für alle praktischen Belange immer noch genügend groß ist. Solche Inhalte gehören zum mathematischen Gebiet der sog. Maßtheorie, innerhalb derer eine Unterscheidung zwischen diskreten und überabzählbaren Ergebnisräumen nicht mehr notwendig ist. In stark verallgemeinertem Rahmen werden dort beide Fälle einheitlich behandelt, wobei sich der Additionskalkül als spezieller Integrationskalkül erweist. Interessierte Leser seien auf Lehrbücher wie etwa von Billingsley [2012] oder Davidson [2002] verwiesen, die sich mit solchen maßtheoretischen Zugängen ausgiebig befassen. In letzterem Buch werden diese Grundlagen insbesondere auch im Hinblick auf statistisch-ökonometrische Anwendungen aufbereitet. Aus eigener Erfahrung sei jedoch bemerkt, dass aus einer intensiven Beschäftigung mit Maßtheorie nicht unbedingt ein besseres Verständnis wahrscheinlichkeitstheoretischer Inhalte resultiert. Insbesondere zu Anfang mag der zusätzliche Nutzen die unverhältnismäßig starke formalistische Erschwernis und damit verbundene „Irritation“ nicht aufwiegen (vgl. hierzu auch Hafner [1989, Vorwort]). Zudem besitzt das Messbarkeitsproblem keine relevante praktische Bedeutung, sondern ist ein rein mathematisch-theoretisches Problem.

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen

Die bedingte Wahrscheinlichkeit eines Ereignisses ist ein Wahrscheinlichkeitswert, der sich ergibt, wenn vorausgesetzt wird, dass ein anderes Ereignis eingetreten sein muss. Stimmen bedingte und unbedingte Wahrscheinlichkeiten überein, spricht man von stochastischer Unabhängigkeit. Dies lässt sich äquivalent auch über das Multiplikationskriterium ausdrücken. Für bedingte Wahrscheinlichkeiten gelten im Wesentlichen die gleichen Rechenregeln wie für unbedingte Wahrscheinlichkeiten. Besondere Formeln im Kontext bedingter Wahrscheinlichkeiten sind die Multiplikationsregel und die Formel von Bayes.

6.2.1 Bedingte Wahrscheinlichkeiten und Rechenregeln

• Definition • So wie die Wahrscheinlichkeiten das wahrscheinlichkeitstheoretische Pendant zu den empirischen relativen Häufigkeiten darstellen, so entsprechen die nachfolgend definierten bedingten Wahrscheinlichkeiten in gewisser Weise den bedingten Häufigkeiten aus Abschnitt 5.1.1. Dies gilt zumindest dann, wenn betreffende Wahrscheinlichkeiten frequentistisch gedeutet werden (Abschnitt 6.1.1).

252 | 6 Einführung in die Wahrscheinlichkeitsrechnung

Definition 6.2.1: Bedingte Wahrscheinlichkeit Seien A und B Ereignisse eines Ergebnisraumes Ω mit P(B) > 0. Dann ist die bedingte Wahrscheinlichkeit von A unter B definiert als P(A|B) =

P(A ∩ B) . P(B)

Die bedingte Wahrscheinlichkeit ist für P(B) = 0 nicht definiert. Veranschaulichen wir uns das Ganze anhand eines Venn-Diagramms, so lässt sich die bedingte Wahrscheinlichkeit von A unter B geometrisch als Anteil der „Schnittfläche“ von A und B an der Gesamtfläche von B interpretieren.

÷ A ∩B

A

B

Ω Abb. 6.2.1: Illustration zur bedingten Wahrscheinlichkeit von A unter B

• Beispiel 6.2.1 • Betrachten wir folgende Kontingenztabelle mit relativen Häufigkeiten für die gemeinsame Verteilung der Merkmale X für „Geschlecht“ und Y für „Rauchverhalten“. Tab. 6.2.1: Gemeinsame relative Verteilung von Geschlecht und Raucherstatus Raucher weiblich männlich Summe

0.04 0.12 0.16

Gelegenheitsraucher 0.08 0.12 0.20

Nichtraucher

Summe

0.28 0.36 0.64

0.40 0.60 1.00

Demnach betrug der Anteil der Raucher 16%, in empirischer Notation ausgedrückt, f∙1 = 0.16. Untersucht man den Raucheranteil für Männer und Frauen separat, erhält man die in Abschnitt 5.1.1 eingeführten bedingten Häufigkeiten. Im vorliegenden Fall ergibt dies Y|X

f11 =

f11 0.04 = = 0.10 f1∙ 0.40

und

Y|X

f21 =

f21 0.12 = = 0.20. f2∙ 0.60

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 253

für den Raucheranteil bei Frauen bzw. Männern. Somit wird also die relative Häufigkeit der gemeinsamen Verteilung durch die relative Häufigkeit der Randverteilung von „Geschlecht“ dividiert. Um dieses empirische Beispiel nun auf die theoretische Ebene der Wahrscheinlichkeiten zu übertragen, betrachte man als Zufallsvorgang die zufällige Ziehung einer Person aus der betreffenden Grundgesamtheit. Dazu ließe sich dann ein diskreter Ergebnisraum formulieren als Ω= {(weiblich, Raucher), (weiblich, Gelegenheitsraucher), (weiblich, Nichtraucher), (männlich, Raucher), (männlich, Gelegenheitsraucher), (männlich, Nichtraucher)}, wobei den Elementarereignissen entsprechende Wahrscheinlichkeiten zugeordnet werden. Beispielhaft betrachte man die beiden Ereignisse R: „Ein Raucher wird gezogen“ und F: „Eine Frau wird gezogen“. Dabei gilt R, F ⊂ Ω mit R = {(weiblich, Raucher), (männlich, Raucher)} und F = {(weiblich, Raucher), (weiblich, Gelegenheitsraucher), (weiblich, Nichtraucher)}. Formal lässt sich dann festhalten: P(R ∩ F) 0.04 = = 0.10, P(R|F) = P(F) 0.40 was genau dem empirischen Ergebnis entspricht. Eine völlig analoge Rechnung würde man für den Raucheranteil unter Männern vornehmen. Die theoretische Berechnung stützt sich dabei auf den in diskreten Ergebnisräumen verwendeten Additionskalkül. Der enge Zusammenhang zwischen bedingten Häufigkeiten und bedingten Wahrscheinlichkeiten dürfte damit klar geworden sein. • Arithmetik bedingter Wahrscheinlichkeiten • Für jedes Ereignis B mit P(B) > 0 definiert P(∙|B) wiederum ein (bedingtes) Wahrscheinlichkeitsmaß. Im Falle eines diskreten Ergebnisraumes lässt sich das formal ausdrücken als P(∙|B) : P(Ω) → [0, 1] ⊂ ℝ. Das Symbol „∙“ steht dabei stellvertretend für alle Ereignisse des Ergebnisraumes, d.h. in diesem Fall für alle Elemente der Potenzmenge. Im Falle überabzählbarer Ergebnisräume würde ein analoges Resultat gelten, sofern anstelle der Potenzmenge eine geeignete Sigma-Algebra gewählt würde (vgl. Abschnitt 6.1.3). Der Nachweis erfordert lediglich die Überprüfung der Axiome (K1)–(K3). So gilt offensichtlich P(Ω|B) = 1 und P(A|B) ≥ 0 für jedes Ereignis A, womit die ersten beiden Axiome erfüllt sind. Weiter erhält man für paarweise disjunkte Ereignisse A1 , A2 , . . .

254 | 6 Einführung in die Wahrscheinlichkeitsrechnung

mit dem Distributivgesetz für Mengenoperationen ∞



󵄨󵄨 P(⋃ A i 󵄨󵄨󵄨B) = 󵄨

i=1

P(B)

i=1

=



P[ ⋃ (A i ∩ B)]

P[( ⋃ A i ) ∩ B] ∑∞ i=1

=

i=1

P(B)

P(A i ∩ B) ∞ P(A i ∩ B) ∞ =∑ = ∑ P(A i |B). P(B) P(B) i=1 i=1

Man beachte hierbei, dass auch die Ereignisse (A1 ∩ B), (A2 ∩ B), . . . disjunkt sind, weshalb die Wahrscheinlichkeit über deren Vereinigung additiv zerlegt werden kann. Damit ist auch das dritte Axiom erfüllt. Somit gelten für bedingte Wahrscheinlichkeiten auch die gleichen Rechenregeln wie für „gewöhnliche“ (unbedingte) Wahrscheinlichkeiten. • Beispiel 6.1.1 fortgesetzt • Betrachten wir als Beispiel nochmals den Würfelwurf mit den Ereignissen A = {2, 4, 6}, B = {2, 3, 6} und C = {1, 2, 3, 4}. Mit P(B) = 3/6 = 1/2 > 0 ist zunächst P(A ∩ B) P({2, 6}) 2/6 = = = 2/3, P(B) P(B) 3/6 P((A ∪ C) ∩ B) P({2, 3, 6}) 3/6 = = = 1. P(A ∪ C|B) = P(B) P(B) 3/6 P(A|B) =

Man beachte, dass die Vereinigung von A und C Ereignis B enthält. Wenn B eintritt, dann tritt auf jeden Fall auch A ∪ C ein. Analog erhält man P(A ∩ C|B) = 1/3 und P(C|B) = 2/3. Dann folgt beispielsweise mit Rechenregel Nr. 6 (Abschnitt 6.1.3) 2 2 1 + − = 1 = P(A ∪ C|B). 3 3 3 Genauso gilt beispielsweise für das Gegenereignis von C nach Rechenregel Nr. 4 P(A|B) + P(C|B) − P(A ∩ C|B) =

P(C|B) =

2 P(C ∩ B) P({6}) 1/6 1 = = = = 1 − = 1 − P(C|B). P(B) P(B) 3/6 3 3

Wir sehen, dass lediglich der Aufwand für die „bedingte Notation“ etwas zugenommen hat. Bedingtes Wahrscheinlichkeitsmaß und gewöhnliche Rechenregeln Sei Ω ein Ergebnisraum und B ein Ereignis mit P(B) > 0. Dann wird durch P(∙|B) ein Wahrscheinlichkeitsmaß definiert, das auch als bedingtes Wahrscheinlichkeitsmaß unter B bezeichnet wird. Somit gelten für bedingte Wahrscheinlichkeiten die gewöhnlichen Rechenregeln für Wahrscheinlichkeiten.

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 255

• Multiplikationsregel • Eine besondere und nützliche Rechenregel, die auf der iterativen Verwendung bedingter Wahrscheinlichkeiten basiert, ist die Multiplikationsregel. Satz 6.2.1: Multiplikationsregel Seien A1 , A2 , . . . , A n mit n ≥ 2 Ereignisse eines Ergebnisraumes Ω, wobei P(A1 ∩ A2 ∩ ⋅ ⋅ ⋅ ∩ A n−1 ) > 0 sei. Dann gilt: P(A1 ∩ A2 ∩ ⋅ ⋅ ⋅ ∩ A n ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) ⋅ . . . ⋅ P(A n |A1 ∩ A2 ∩ ⋅ ⋅ ⋅ ∩ A n−1 ).

Gemäß Definition der bedingten Wahrscheinlichkeit von A2 unter A1 gilt zunächst einmal: P(A1 ∩ A2 ) . (6.2.1) P(A2 |A1 ) = P(A1 ) Man beachte, dass diese Wahrscheinlichkeit auf jeden Fall definiert ist. Denn wäre P(A1 ) = 0, dann wäre auch P(A1 ∩ A2 ∩ ⋅ ⋅ ⋅ ∩ A k−1 ) = 0. Letzteres wird per Annahme jedoch ausgeschlossen. Durch Umstellen von Gleichung (6.2.1) erhält man: P(A1 ∩ A2 ) = P(A1 )P(A2 |A1 ).

(6.2.2)

Weiter gilt mit Hinzunahme von Ereignis A3 gemäß Definition: P(A3 |A1 ∩ A2 ) =

P(A1 ∩ A2 ∩ A3 ) P(A1 ∩ A2 )

und nach Umstellen P(A1 ∩ A2 ∩ A3 ) = P(A1 ∩ A2 )P(A3 |A1 ∩ A2 ).

(6.2.3)

Durch Einsetzen von (6.2.2) in (6.2.3) erhält man schließlich P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ). Dieses Prinzip lässt sich entsprechend für beliebig viele Ereignisse fortsetzen. Die logische Struktur der Regel sollte bis hierher bereits offensichtlich geworden sein. Die Multiplikationsregel liefert eine Formel zur Berechnung der Wahrscheinlichkeit für das „Schnittereignis“ mehrerer Ereignisse. Sie erweist sich insbesondere im Zusammenhang zeitlich „gestufter“ Zufallsvorgänge als hilfreich wie nachfolgendes Beispiel zeigt. • Beispiel 6.2.2 • Das erste Rechen- bzw. Aufgabenbeispiel zur Multiplikationsregel ist dem Übungsbuch von Hartung und Heine [2004] entnommen. Daran lässt sich auch ein Stück weit nachvollziehen, wie sich typische Problemstellungen in der Wahrscheinlichkeitsrechnung mit den bisherigen Rechenregeln bearbeiten lassen.

256 | 6 Einführung in die Wahrscheinlichkeitsrechnung

Die Entwicklungsabteilung eines Produzenten von Haushaltsgeräten ist in 90% der Fälle für die Markteinführung der von ihr entwickelten Geräte. Ein positives Votum der Entwicklungsabteilung führt mit einer Wahrscheinlichkeit von 0.7 bei der Marketingabteilung ebenfalls zu einem positiven Votum. Sind beide Abteilungen für die Markteinführung des neuen Gerätes, so entscheidet die Geschäftsleitung dennoch mit einer Wahrscheinlichkeit von 0.2 dagegen. Ist die Marketingabteilung gegen die Markteinführung, die Entwicklungsabteilung aber dafür, so stimmt die Geschäftsleitung nur mit einer Wahrscheinlichkeit von 0.4 zu. a) Wie groß ist die Wahrscheinlichkeit, dass die Markteinführung eines neuen Produktes sowohl von der Geschäftsleitung als auch von der Entwicklungs- und der Marketingabteilung getragen wird? b) Mit welcher Wahrscheinlichkeit entscheiden sich Geschäftsleitung und Entwicklungsabteilung für die Markteinführung eines neuen Produktes? Im vorliegenden Fall geht es um einen Entscheidungsprozess, welcher sich auf mehreren Entscheidungsstufen (Entwicklungsabteilung, Marketingabteilung, Geschäftsleitung) vollzieht. Entsprechend der zeitlichen Ordnung der zu fällenden Entscheidungen definieren wir die Ereignisse A1 , A2 und A3 mit A1 = „Entwicklungsabteilung ist für die Markteinführung“, A2 = „Marketingabteilung ist für die Markteinführung“, A3 = „Geschäftsleitung ist für die Markteinführung“. Aus dem Aufgabentext gehen nun folgende Wahrscheinlichkeiten hervor: P(A1 ) = 0.9,

P(A2 |A1 ) = 0.7,

P(A3 |A1 ∩ A2 ) = 0.2,

P(A3 |A1 ∩ A2 ) = 0.4.

Die in a) bzw. b) gefragten Wahrscheinlichkeiten sind P(A1 ∩ A2 ∩ A3 ) bzw. P(A1 ∩ A3 ). Widmen wir uns zunächst Teil a) zu. Gemäß Multiplikationsregel gilt: P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ). Mit den Rechenregeln für Wahrscheinlichkeiten folgt schließlich P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) = P(A1 )P(A2 |A1 )[1 − P(A3 |A1 ∩ A2 )] = 0.9 ⋅ 0.7 ⋅ (1 − 0.2) = 0.504. Zur Berechnung der Wahrscheinlichkeit von A1 ∩ A3 in Teil b) beachten wir, dass gilt: A1 ∩ A3 = (A1 ∩ A2 ∩ A3 ) ∪ (A1 ∩ A2 ∩ A3 ). Hierbei handelt es sich um die Vereinigung zweier disjunkter Ereignisse, wie das Venn-Diagramm in Abbildung 6.2.2 illustriert. Deshalb werden die betreffenden Wahrscheinlichkeiten gemäß Rechenregel Nr. 7 addiert.

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 257

A1 ∩ A3

A1 ∩ A2 ∩ A3

A2

A1

A1 ∩ A2 ∩ A3

A3

Ω

Abb. 6.2.2: Illustration zur Bestimmung von P(A1 ∩ A3 )

Insgesamt erhalten wir damit P(A1 ∩ A3 ) = P(A1 ∩ A2 ∩ A3 ) + P(A1 ∩ A2 ∩ A3 ) = 0.504 + P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 )] = 0.504 + 0.9 ⋅ (1 − 0.7) ⋅ 0.4 = 0.504 + 0.108 = 0.612. Mit einer Wahrscheinlichkeit von 50.4% fällt die Entscheidung auf allen Instanzen einheitlich für die Markteinführung eines Produktes. Mit einer Wahrscheinlichkeit von 61.2% stimmen zumindest Entwicklungsabteilung und Geschäftsleitung für die Einführung. Alternativ lassen sich die gegebenen Wahrscheinlichkeiten der einzelnen Instanzen auch mithilfe eines sog. Wahrscheinlichkeitsbaumes darstellen. • Wahrscheinlichkeitsbäume • Ein Wahrscheinlichkeitsbaum ist ein baumartiges grafisches Schema bestehend aus Ästen und Verzweigungen, welches die Abhängigkeitsstruktur einer bestimmten Auswahl von Zufallsereignissen darstellt. Abbildung 6.2.3 zeigt ein Beispiel eines dreistufigen Baumes für drei Ereignisse mit jeweiligen Gegenereignissen. Entlang der Äste stehen bedingte Wahrscheinlichkeiten. Miteinander multipliziert ergeben sie gemäß Multiplikationsregel die Wahrscheinlichkeit für das gemeinsame Eintreten von drei Ereignissen, die auch als Pfadwahrscheinlichkeit bezeichnet wird. Die Abstufungen des Baumes korrespondieren mit einer zeitlichen oder logischen Abfolge eines bestimmten Vorgangs, wobei die konkrete Aststruktur auch deutlich vielfältiger und komplexer als im vorliegenden Beispiel ausfallen kann. Entscheidend ist dabei, dass die Wahrscheinlichkeiten entlang der Äste als bedingte Wahrscheinlichkeiten interpretiert werden und die Summe aller Pfadwahrscheinlichkeiten 1 ergeben muss. Letztere Eigenschaft gilt, da die Pfade paarweise disjunkte Ereignisse abbilden. Für das vorhergehende Rechenbeispiel ergibt sich ein Wahrscheinlichkeitsbaum gemäß Abbildung 6.2.4. Die nach oben gehenden Äste stehen jeweils für ein positives Votum, die nach unten gehenden für ein negatives. Für die im Aufgabentext gegebenen Wahrscheinlichkeiten 0.9, 0.7, 0.2 und 0.4 können im Baumdiagramm die betreffenden Gegenwahrscheinlichkeiten 0.1, 0.3, 0.8 und 0.6 eingetragen werden. An-

258 | 6 Einführung in die Wahrscheinlichkeitsrechnung

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2) P (A 2 | A 1)

A2

A1 P (A 1)

P (A 1)

P (A 2 | A 1)

P (A 2 | A 1)

A2

A2

A1 P (A 2 | A 1)

A2 P (A 3 | A 1 ∩ A 2)

Abb. 6.2.3: Beispiel einer Pfadstruktur eines Wahrscheinlichkeitsbaumes

schließend werden alle berechenbaren Pfadwahrscheinlichkeiten ermittelt. Die Wahrscheinlichkeiten der für Teil a) und Teil b) relevanten Ereignisse A1 ∩ A2 ∩ A3

und

A1 ∩ A2 ∩ A3

ergeben sich dann als Pfadwahrscheinlichkeiten des 1. bzw. 3. Pfades (von oben gezählt), was in der Summe 0.504 + 0.126 = 0.612 ergibt. Da die letzten 4 Pfadwahrscheinlichkeiten nicht berechnet werden können, ist mit den im Text angegebenen Wahrscheinlichkeiten jedoch nicht jede Ereigniswahrscheinlichkeit bestimmbar. Beispielsweise lässt sich die Wahrscheinlichkeit eines positiven Votums der Marketingabteilung P(A2 ) nicht berechnen. Es ist lediglich noch klar, dass die letzten 4 Pfadwahrscheinlichkeiten in der Summe 0.1 ergeben müssen. • Beispiel 6.2.3 • Das zweite Rechenbeispiel zur Multiplikationsregel ist das so genannte „Geburtstagsparadoxon“, vgl. z.B. Knight [2000, Beispiel 1.6]. Dieses Beispiel verdeutlicht, dass die Verwendung dieser Regel auch in Situationen nützlich sein kann, in denen der Zufallsvorgang eigentlich nicht in mehreren Stufen erfolgt, aber dennoch hilfsweise als ein solcher gedacht wird. Angenommen, in einem Raum befinden sich 30 Personen. Mit welcher Wahrscheinlichkeit haben dann wenigstens zwei von diesen Personen am gleichen Tag Geburtstag? Zur Beantwortung dieser Frage wird die vereinfachende Annahme getroffen, dass Geburtstage allgemein über die 365 Tage des Jahres gleichmäßig verteilt sind.

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 259

0.7

0.8

A3

0.504

0.2

A3

0.126

0.4

A3

0.108

0.6 Leitung ?

A3

0.162

A3

?

?

A3

?

?

A3

?

?

A3

?

A2

A1

0.9 0.3

0.9 Entwicklung

A2

Marketing

0.1

?

A2

A1

0.1 ?

A2

Abb. 6.2.4: Entscheidungsstruktur für die Markteinführung eines Produktes (Beispiel 6.2.2)

Definiere nun das Ereignis B als dasjenige, bei dem alle 30 Personen an unterschiedlichen Tagen Geburtstag haben. Somit wäre die gesuchte Wahrscheinlichkeit, die Gegenwahrscheinlichkeit von B. Zur Bestimmung dieser Wahrscheinlichkeit erweist sich die Vorstellung als vorteilhaft, dass die 30 Personen den Raum nacheinander betreten. Dazu werden die folgenden Ereignisse definiert: A2 = die 2. Person hat an einem anderen Tag Geburtstag als die 1. Person, A3 = die 3. Person hat an einem anderen Tag Geburtstag als die ersten 2 Personen, .. . A30 = die 30. Person hat an einem anderen Tag Geburtstag als die ersten 29 Personen. Dann gilt B = A2 ∩ A3 ∩ ⋅ ⋅ ⋅ ∩ A30 , und mit der Multiplikationsregel folgt P(B) = P(A2 )P(A3 |A2 )P(A4 |A2 ∩ A3 ) ⋅ ⋅ ⋅ ⋅ ⋅ P(A30 |A2 ∩ A3 ∩ . . . A29 ). Dies ergibt gemäß Annahme gleichwahrscheinlicher Geburtstage: P(B) =

364 363 362 336 ⋅ ⋅ ⋅ ⋅⋅⋅ ⋅ ≈ 0.294. 365 365 365 365

Folglich beträgt die gesuchte Wahrscheinlichkeit P(B) = 1 − 0.294 = 0.706 und ist damit, vermutlich entgegen der Intuition, überraschend hoch. Bei n = 70 Personen liegt diese Wahrscheinlichkeit gar schon bei über 99%.

260 | 6 Einführung in die Wahrscheinlichkeitsrechnung

363 365

362 365

A4

3 365

A4

363 365

A4

2 365

A4

363 365

A4

2 365

A4

364 365

A4

1 365

A4

P (B )

A3

A2 2 365

364 365

1 365

364 365

A3 P (B )

A3

A2 1 365

A3

Abb. 6.2.5: Geburtstag am gleichen Tag von n Personen (Beispiel 6.2.3)

6.2.2 Stochastische Unabhängigkeit von Ereignissen • Definition • Das theoretische Pendant zur empirischen Abhängigkeit bzw. Unabhängigkeit in der deskriptiven Statistik (Abschnitte 2.3 und 5.1.1) ist in der Wahrscheinlichkeitsrechnung die stochastische Abhängigkeit bzw. Unabhängigkeit. Frequentistisch gedeutet werden dazu die auf relativen Häufigkeiten basierenden empirischen Kriterien in entsprechende stochastischen Kriterien basierend auf Wahrscheinlichkeiten übersetzt. Definition 6.2.2: Abhängigkeit und Unabhängigkeit von zwei Ereignissen Seien A und B Ereignisse eines Ergebnisraumes mit P(A) > 0 und P(B) > 0. Dann sind A und B (stochastisch) unabhängig (kurz st.u.), falls eines der folgenden äquivalenten Kriterien erfüllt ist: (i) P(A|B) = P(A). (ii) P(B|A) = P(B). (iii) P(A ∩ B) = P(A)P(B). (Multiplikationskriterium) Für P(A) = 0 oder P(B) = 0 definieren wir A und B ebenfalls als (stochastisch) unabhängig. In allen anderen Fällen sind A und B (stochastisch) abhängig.

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 261

Die drei Unabhängigkeitskriterien sind äquivalent zueinander. Ist eines der drei Kriterien erfüllt, gelten automatisch immer auch die beiden anderen. Entweder sind also alle drei Kriterien erfüllt, oder alle drei Kriterien sind nicht erfüllt. Die Kriterien (i) und (ii) entsprechen in der deskriptiven Statistik der Forderung nach Gleichheit von bedingten Verteilungen. Im Falle einer Kontingenztabelle stimmen die Zeilen- bzw. Spaltenverteilungen überein, was dann auch zur Übereinstimmung mit den korrespondierenden Randverteilungen führt. Konkret sind dies die Kriterien (5.1.1) und (5.1.2) aus Abschnitt 5.1.1: n ij n ij = f∙j bzw. = f i∙ . n i∙ n∙j Kriterium (iii) ist die stochastische Variante des empirischen Multiplikationskriteriums f ij = f i∙ ⋅ f∙j . • Implizierte Unabhängigkeit von Gegenereignissen • Die Unabhängigkeit zweier Ereignisse impliziert für die korrespondierenden Gegenereignisse weitere paarweise Unabhängigkeiten. Sind A und B unabhängig, folgt mit P(A|B) = P(A) und herkömmlichen Rechenregeln, die auch für bedingte Wahrscheinlichkeiten gelten, P(A|B) = 1 − P(A|B) = 1 − P(A) = P(A). Damit ist das erste Unabhängigkeitskriterium für die Ereignisse A und B erfüllt. Die Ereignisse sind somit unabhängig. Umgekehrt folgt aus der Unabhängigkeit von A und B auf analoge Weise die Unabhängigkeit von A und B. Tatsächlich gilt: Die Ereignisse A und B sind genau dann stochastisch unabhängig, falls (i) A und B,

(ii) A und B

bzw.

(iii) A und B

stochastisch unabhängig sind. Der Nachweis für (ii) und (iii) gestaltet sich analog wie für (i) mit geringfügiger Modifikation. Insgesamt lassen sich diese Resultate in einer Kontingenztabelle mit Wahrscheinlichkeiten zusammenfassen (Tab.6.2.2). Dabei ist das stochastische Multiplikationskriterium erfüllt, d. h. das Produkt der Randwahrscheinlichkeiten ergibt jeweils die Wahrscheinlichkeit des „Schnittereignisses“. Tab. 6.2.2: Implizierte Kontingenztabelle für zwei unabhängige Ereignisse A und B B

B

Summe

A

P(A)P(B)

P(A)P(B)

P(A)

A

P(A)P(B)

P(A)P(B)

P(A)

Summe

P(B)

P(B)

1.00

262 | 6 Einführung in die Wahrscheinlichkeitsrechnung

• Interpretation • Mit der implizierten Unabhängigkeit der Gegenereignisse lässt sich stochastische Unabhängigkeit nun wie folgt zusammenfassend interpretieren. Interpretation stochastischer Unabhängigkeit Zwei Ereignisse A und B eines Ergebnisraumes Ω sind genau dann stochastisch unabhängig, falls die auf A, A, B und B beruhende Kontingenztabelle mit Wahrscheinlichkeiten das stochastische Multiplikationskriterium erfüllt (vgl. Tab.6.2.2). Für A und A impliziert dies beispielsweise: P(A) = P(A|B) = P(A|B)

und

P(A) = P(A|B) = P(A|B),

sofern 0 < P(B) < 1. Sowohl die Wahrscheinlichkeit für das Eintreten von A als auch die Wahrscheinlichkeit für das Nichteintreten von A ist unabhängig davon, ob B eintritt oder nicht eintritt. Analoges gilt für B und B.

• Beispiel 6.2.4 • Wir setzen das Beispiel mit Tabelle 6.2.1 aus Abschnitt 6.2.1 fort, wobei die relativen Häufigkeiten gleich als Wahrscheinlichkeiten gedeutet werden. Zunächst definieren wir die Ereignisse R

: „Ein Raucher wird gezogen.“

GR : „Ein Gelegenheitsraucher wird gezogen.“ NR : „Ein Nichtraucher wird gezogen.“ F

: „Eine Frau wird gezogen.“

M : „Ein Mann wird gezogen.“

Dann erhalten wir beispielsweise für R und F die bedingten Wahrscheinlichkeiten P(R|F) =

P(R ∩ F) 0.04 = = 0.10 P(F) 0.40

und

P(F|R) =

P(R ∩ F) 0.04 = = 0.25. P(R) 0.16

Mit P(R) = 0.16 und P(F) = 0.40 folgt damit für die drei Unabhängigkeitskriterien (i) P(R|F) = 0.10 ≠ 0.16 = P(R). (ii) P(F|R) = 0.25 ≠ 0.40 = P(F). (iii) P(R ∩ F) = 0.04 ≠ 0.064 = P(R)P(F). Natürlich würde es hier auch genügen, nur eines der drei Kriterien zu überprüfen. Die Ereignisse R und F sind stochastisch abhängig. Die Wahrscheinlichkeit, ob jemand Raucher ist oder nicht, ist vom Geschlecht abhängig, d.h. ist bei Frauen und Männern verschieden. Betrachten wir dagegen die beiden Ereignisse GR und F, so ergibt sich in Bezug auf das erste Unabhängigkeitskriterium P(GR|F) =

P(GR ∩ F) 0.08 = = 0.20 = P(GR). P(F) 0.40

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 263

Damit sind GR und F stochastisch unabhängig. Tabelle 6.2.3 zeigt die implizierte Kontingenztabelle, welche das Multiplikationskriterium erfüllt. Man beachte, dass hier gilt: GR = R ∪ NR

und

F = M.

Die Wahrscheinlichkeit dafür, ob jemand Gelegenheitsraucher ist oder nicht, ist also unabhängig vom Geschlecht und beträgt bei Männern wie Frauen 0.20. Tab. 6.2.3: Implizierte Kontingenztabelle für GR und F GR R ∪ NR Summe

F 0.08 0.32 0.40

M 0.12 0.48 0.60

Summe 0.20 0.80 1.00

• Disjunkte Ereignisse sind abhängig • Ein häufig gezogener schwerwiegender Fehlschluss ist, dass disjunkte Ereignisse unabhängig sein müssen. Disjunkte Ereignisse schließen sich jedoch gegenseitig aus und sind so gesehen maximal abhängig. Angenommen die Ereignisse A und B mit P(A) > 0 und P(B) > 0 seien disjunkt, d. h. es gelte A∩B = 0. Dann folgt daraus P(A|B) = 0 ≠ P(A). Das Ereignis A kann überhaupt nicht eintreten, falls das Ereignis B eintritt. Umgekehrt gilt das genauso für B, falls A eintritt. Einzige Ausnahme wäre, dass mindestens eines der beiden Ereignisse die Wahrscheinlichkeit 0 besitzt. Dann wären A und B und sozusagen per Definition unabhängig.

P (A ) > 0

P (B ) > 0 abhängig

A

B P (A | B ) = 0

Ω

Abb. 6.2.6: Disjunkte Ereignisse sind abhängig

Dieser Fehlschluss mag darauf beruhen, dass der Begriff „Unabhängigkeit“ im alltäglichen Sprachgebrauch mit etwas „voneinander Losgelöstem“ verbunden wird. Diese Intuition führt im Falle stochastischer Unabhängigkeit jedoch in die Irre. Ganz im Gegenteil, unabhängige Ereignisse müssen eine gemeinsame nichtleere Schnittmenge aufweisen, also eine gewisse Nähe zueinander aufweisen, um überhaupt unabhängig sein zu können.

264 | 6 Einführung in die Wahrscheinlichkeitsrechnung

• Unabhängigkeit ist nicht transitiv • Ein anderer Fehlschluss ist, dass sich Unabhängigkeit transitiv verhält. Sofern die Ereignisse A und B und die Ereignisse B und C unabhängig sind, folgt daraus jedoch nicht die Unabhängigkeit von A und C. Als einfaches Beispiel betrachte man zwei unabhängige Ereignisse A und B. Dann sind bekanntermaßen auch B und A unabhängig. Jedoch sind A und A als disjunkte Ereignisse nicht unabhängig. Wir erhalten eine Struktur wie in Abbildung 6.2.7, wobei C = A gilt. abhängig oder unabhängig

A

unabhängig

B

unabhängig

C

Abb. 6.2.7: Unabhängigkeit ist nicht transitiv

• Unabhängigkeit von mehreren Ereignissen • Wenn bei einer derartigen Konstellation wie in Abbildung 6.2.7 auch A und C unabhängig sind, spricht man von paarweiser Unabhängigkeit. Eine Menge paarweise unabhängiger Ereignisse kann jedoch immer noch stochastische Abhängigkeiten auf „höherer Stufe“ aufweisen. So folgt beispielsweise aus der paarweisen Unabhängigkeit von A, B und C nicht P(C|A ∩ B) = P(C). Dies bedeutet, dass die Wahrscheinlichkeit für das Eintreten von C zwar vom Eintreten von A und auch vom Eintreten von B unabhängig ist, nicht aber zwingend vom gemeinsamen Eintreten der beiden Ereignisse. Das Problem ist, dass bei der Berechnung von P(C|A ∩ B) =

P(A ∩ B ∩ C) P(A ∩ B)

(6.2.4)

der Zählerausdruck auf der rechten Seite nicht ohne weiteres zerlegt werden kann. Bei paarweiser Unabhängigkeit gilt zwar P(A ∩ B) = P(A)P(B), nicht aber zwingend P(A ∩ B ∩ C) = P(A)P(B)P(C).

(6.2.5)

Würde (6.2.5) gelten, ließe sich die rechte Seite von (6.2.4) unmittelbar zu P(C) vereinfachen. Somit ist das lediglich auf paarweisen Betrachtungen gründende Unabhängigkeitskonzept in dieser Hinsicht nicht ausreichend. Zur Berücksichtigung komplexerer Abhängigkeitsstrukturen wird eine Definition für die stochastische Unabhängigkeit von mehreren Ereignissen benötigt, die multiplikative Zerlegungen der Form (6.2.5) impliziert. Definition 6.2.3: Abhängigkeit und Unabhängigkeit von mehreren Ereignissen Seien A1 , A2 , . . . , A n (n ≥ 2) Ereignisse eines Ergebnisraumes Ω. Dann sind diese

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 265

Ereignisse (stochastisch) unabhängig, falls gilt: P(A i ∩ A j ) = P(A i )P(A j )

für i ≠ j,

P(A i ∩ A j ∩ A k ) = P(A i )P(A j )P(A k ) .. .

für i ≠ j, j ≠ k, i ≠ k

.. .

P(A1 ∩ A2 ∩ ⋅ ⋅ ⋅ ∩ A n ) = P(A1 )P(A2 ) . . . P(A n ). Sind nicht alle dieser Kriterien gleichzeitig erfüllt, sind die Ereignisse (stochastisch) abhängig. Ist das erste Kriterium erfüllt, sind die Ereignisse paarweise (stochastisch) unabhängig. Die Wahrscheinlichkeit des „Schnittereignisses“ muss für jede Teilmenge bestehend aus bis zu n Ereignissen dem Produkt der Wahrscheinlichkeiten der jeweiligen einzelnen Ereignisse entsprechen. Zur Klarheit beginnen wir zunächst mit 3 Ereignissen A1 , A2 und A3 . Diese sind demgemäß unabhängig, falls sie paarweise unabhängig sind und außerdem gilt: P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ). Mit dieser letzten Forderung würde dann auch beispielsweise folgen P(A3 |A1 ∩ A2 ) =

P(A1 ∩ A2 ∩ A3 ) P(A1 )P(A2 )P(A3 ) = = P(A3 ). P(A1 ∩ A2 ) P(A1 )P(A2 )

Im Falle von 4 Ereignissen A1 , A2 , A3 und A4 müsste nach der paarweisen Unabhängigkeit insgesamt noch gelten: P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ), P(A2 ∩ A3 ∩ A4 ) = P(A2 )P(A3 )P(A4 ), P(A1 ∩ A3 ∩ A4 ) = P(A1 )P(A3 )P(A4 ), P(A1 ∩ A2 ∩ A4 ) = P(A1 )P(A2 )P(A4 ), P(A1 ∩ A2 ∩ A3 ∩ A4 ) = P(A1 )P(A2 )P(A3 )P(A4 ). Im Falle von 5 Ereignissen wäre das „Zerlegungskriterium“ für alle Teilmengen bestehend aus 2, 3, 4 und 5 Ereignissen zu überprüfen usw. Sobald eine Gleichung nicht erfüllt ist, gelten die Ereignisse als abhängig. Um die Unabhängigkeit mehrerer Ereignisse deutlicher von der nur paarweisen Unabhängigkeit abzusetzen, wird gelegentlich auch der Begriff der „vollständigen Unabhängigkeit“ verwendet (vgl. etwa Rohatgi und Saleh [2000]). • Beispiel 6.2.5 • Gegeben sei ein gestufter Zufallsvorgang gemäß Abbildung 6.2.8. Dazu könnte man sich zur Anschauung einen Entscheidungsprozess wie zuvor in Abbildung 6.2.4 oder etwas Vergleichbares vorstellen.

266 | 6 Einführung in die Wahrscheinlichkeitsrechnung

0.5

0.75

A3

0.1875

0.25

A3

0.0625

0.25

A3

0.0625

0.75

A3

0.1875

0.25

A3

0.0625

0.75

A3

0.1875

0.75

A3

0.1875

0.25

A3

0.0625

A2

A1 0.5

0.5

0.5

0.5

A2

A2

A1 0.5

A2

Abb. 6.2.8: Paarweise aber nicht vollständig unabhängige Ereignisse

Beispielsweise ergibt sich damit die Wahrscheinlichkeit für A2 aus der Summe der Pfadwahrscheinlichkeiten 1, 2, 5 und 6 (von oben gezählt) und für A1 ∩ A2 aus den Pfadwahrscheinlichkeiten 1 und 2, d. h. P(A2 ) = 0.0625 + 0.1875 + 0.1875 + 0.0625 = 0.5, P(A1 ∩ A2 ) = 0.1875 + 0.0625 = 0.25. Insgesamt erhalten wir: P(A1 ) = 0.5, P(A1 ∩ A2 ) = 0.25,

P(A2 ) = 0.5, P(A2 ∩ A3 ) = 0.25,

P(A3 ) = 0.5, P(A1 ∩ A3 ) = 0.25.

Da das Multiplikationskriterium paarweise erfüllt ist, sind die Ereignisse A1 , A2 und A3 paarweise unabhängig. Insgesamt sind sie dennoch nicht „vollständig unabhängig“, da P(A1 ∩ A2 ∩ A3 ) = 0.1875 ≠ 0.53 = P(A1 )P(A2 )P(A3 ). Beispielsweise sind A3 und A1 ∩ A2 voneinander abhängig, da P(A3 |A1 ∩ A2 ) = 0.75 ≠ 0.5 = P(A3 ). • Implizierte Unabhängigkeit weiterer Ereignisse • Die (vollständige) Unabhängigkeit mehrerer Ereignisse impliziert die Unabhängigkeit weiterer Ereignisse wie bereits für den Fall zweier Ereignisse besprochen.

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 267

Implizierte Unabhängigkeit weiterer Ereignisse Gegeben seien n = n1 + n2 + ⋅ ⋅ ⋅ + n p unabhängige Ereignisse eines Ergebnisraumes Ω, die sich wie folgt in p Reihen anordnen lassen: A11 , A12 , . . . , A1n1 , A21 , A22 , . . . , A2n2 , .. .

.. .

...

.. .

A p1 , A p2 , . . . , A pn p . Werden jeweils nur aus den Ereignissen der einzelnen Reihen neue Ereignisse A1 , A2 , . . . , A p gebildet (durch Bildung von Komplementen, Schnitten oder Vereinigungen), so sind auch die so gebildeten Ereignisse unabhängig. Formal lässt sich dieses Resultat nur mit einigen zusätzlichen maßtheoretischen Aussagen beweisen, sodass wir hier nicht näher darauf eingehen (vgl. beispielsweise Billingsley [2012, S. 56]). Für p = 2 und n1 = n2 = 1 ergibt sich der bereits besprochene Fall für zwei Ereignisse. Man betrachtet dann lediglich die beiden „Reihen“ A11 und A21 . Nur die Bildung von Gegenereignissen führt hier dann zu neuen Ereignissen. Als weiterführendes Beispiel betrachten wir nun den Fall p = 3 mit n1 = 2, n2 = 3 und n3 = 1, d.h. A11 , A12 , A21 , A22 , A23 , A31 . Dann wären beispielsweise die Ereignisse A1 = A11 ∪ A12 ,

A2 = (A21 ∩ A22 ) ∪ A23

und

A3 = A31

unabhängig, jedoch nicht zwingend A = A11 ∪ A12 und B = A12 ∪ A21 , da in letzterem Fall das Ereignis A12 sowohl für A als auch für B verwendet wird.

6.2.3 Kalkül nach der Formel von Bayes • Satz von der totalen Wahrscheinlichkeit • Eine in Wahrscheinlichkeitsrechnung und Statistik bedeutende Formel ist die nach dem Engländer Thomas Bayes (1701– 1761) benannte Bayes-Formel. Für die Darstellung dieser Formel wird zunächst ein kleiner Zwischenschritt benötigt.

268 | 6 Einführung in die Wahrscheinlichkeitsrechnung

Satz von der totalen Wahrscheinlichkeit Seien A1 , A2 , . . . , A n paarweise disjunkte Ereignisse eines Ergebnisraumes Ω, d.h. für i ≠ j sei A i ∩ A j = 0. Weiter gelte A1 ∪ A2 ∪ ⋅ ⋅ ⋅ ∪ A n = Ω und P(A i ) > 0 für i = 1, . . . , n. Dann gilt für jedes Ereignis B ⊂ Ω: n

P(B) = ∑ P(B|A i )P(A i ). i=1

Eine derart beschriebene Menge von Ereignissen wird auch als disjunkte Zerlegung oder Partition des Ergebnisraumes bezeichnet. Eine solche Zerlegung führt dazu, dass gilt: n

B = (A1 ∩ B) ∪ (A2 ∩ B) ∪ ⋅ ⋅ ⋅ ∪ (A n ∩ B) = ⋃(A i ∩ B), i=1

wobei die Ereignisse (A1 ∩ B), (A2 ∩ B), . . . , (A n ∩ B) ebenfalls disjunkt sind. Daraus ergibt sich dann mit üblichen Rechenregeln n

n

n

P(B) = P[⋃(A i ∩ B)] = ∑ P(A i ∩ B) = ∑ P(B|A i )P(A i ). i=1

i=1

i=1

Abbildung 6.2.9 illustriert diesen Sachverhalt für n = 6. Zunächst werden die disjunkten Mengen A1 , . . . , A6 , die auch als Zellen oder Blöcke bezeichnet werden, mit der Menge B geschnitten. Die jeweils resultierenden Schnittmengen werden anschließend vereinigt. Im vorliegenden Fall ist die Schnittmenge von A2 und B die leere Menge.

A4 A5

A6

B

A3 A1

A2

Ω

Abb. 6.2.9: Illustration des Satzes von der totalen Wahrscheinlichkeit

• Bayes-Formel • Für eine beliebige Zelle der Partition gilt nun einerseits P(A j ∩ B) P(B) P(A j ∩ B) P(B|A j ) = P(A j )

P(A j |B) =

und andererseits

(6.2.6)

für j = 1, . . . , n.

(6.2.7)

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 269

Durch Umformen von (6.2.7) und Einsetzen in (6.2.6) erhält man unter Verwendung des Satzes von der totalen Wahrscheinlichkeit für P(B) den Satz von Bayes mit der Bayes-Formel. Satz 6.2.2: Satz von Bayes Angenommen, die Ereignisse A1 , A2 , . . . , A n bilden eine disjunkte Zerlegung des Ergebnisraumes Ω mit P(A i ) > 0 für i = 1, . . . , n. Dann gilt für jedes Ereignis B ⊂ Ω mit P(B) > 0: P(A j |B) =

P(B|A j )P(A j ) ∑ni=1 P(B|A i )P(A i )

für i = 1, . . . , n.

Die berühmte Formel wurde erst zwei Jahre nach Bayes’ Tod durch seinen Freund Richard Price 1763 publiziert (Bayes und Price [1763]). Wir machen uns die Bedeutung dieser Formel anhand der nachfolgenden typischen Beispielsituation klar. • Beispiel 6.2.6 • In Australien wird ein Patient, der von einer unbekannten Giftschlange gebissen wurde, in die Notaufnahme einer Klinik gebracht. Es muss nun möglichst schnell das richtige Antiserum gespritzt werden. Angenommen, es kommen im vorliegenden Fall nur drei verschiedene Schlangenarten in Frage, die wir hier mit A1 , A2 und A3 bezeichnen. Nach hauseigenen Statistiken des betroffenen Krankenhauses seien in der Vergangenheit 70% aller Bisse auf Schlange A1 , 20% auf Schlange A2 und 10% auf Schlange A3 zurückzuführen gewesen. Der Patient weist nun aber ein ganz bestimmtes Vergiftungssymptom auf, das einer landesweiten Studie zu Folge mit einer Wahrscheinlichkeit von 5% bei A1 , mit 20% bei A2 und mit 30% bei A3 auftritt. Wie sollte nun entschieden werden? Einerseits sind Bisse der Schlange A1 vorab (a priori) am wahrscheinlichsten, andererseits ist das beobachtete Symptom bei dieser Schlange gerade sehr unwahrscheinlich. Das eine Kriterium orientiert sich am Maximum der 3 Werte P(A1 ) = 0.70, P(A2 ) = 0.20

und

P(A3 ) = 0.10

(6.2.8)

und führt damit zu Schlange A1 . Das andere Kriterium orientiert sich dagegen am Maximum der 3 Werte P(B|A1 ) = 0.05, P(B|A2 ) = 0.20

und

P(B|A3 ) = 0.30,

(6.2.9)

also an der Frage, bei welcher Schlange das aufgetretene Symptom am wahrscheinlichsten ist. Dies führt dann zu Schlange A3 . Die Bayes-Formel stellt in dieser Situation einen Ausgleich zwischen diesen beiden Kriterien her. Gemäß Bayes-Kalkül erscheint es am rationalsten, sich für diejenige Schlange zu entscheiden, die unter dem beobachteten Symptom am wahrscheinlichsten ist. Damit orientiert sich der Bayes-Kalkül am Maximum der 3 Werte von

270 | 6 Einführung in die Wahrscheinlichkeitsrechnung

(6.2.6). Mit den Wahrscheinlichkeiten aus (6.2.8) und (6.2.9) ergibt sich als totale Wahrscheinlichkeit zunächst einmal 3

P(B) = ∑ P(B|A i )P(A i ) = 0.05 ⋅ 0.70 + 0.20 ⋅ 0.20 + 0.30 ⋅ 0.10 = 0.105. i=1

Dies bedeutet, dass in diesem Krankhaus 10.5% aller Patienten mit Bissen von Giftschlangen dieses Symptom aufweisen sollten, sofern man der Landesstudie glauben mag. Damit erhält man als bedingte Wahrscheinlichkeiten 0.05 ⋅ 0.70 0.20 ⋅ 0.20 ≈ 0.33, P(A2 |B) = ≈ 0.38 (6.2.10) 0.105 0.105 0.30 ⋅ 0.10 und P(A3 |B) = ≈ 0.29. 0.105 Die Entscheidung fällt folglich zugunsten von A2 aus. Es wird also nochmals anders entschieden als vorher. Abbildung 6.2.10 illustriert die unterschiedlichen Wahrscheinlichkeiten und jeweiligen Ansätze. P(A1 |B) =

Max. a−priori−Kalkül

Max.

Max.

A1

A2

A3

Bayes−Kalkül

Maximum−Likelihood−Kalkül

B |A 1

B |A 2

B |A 3

A 1|B

A 2|B

A 3|B

Abb. 6.2.10: Beispiel: Illustration der verschiedenen kalkulatorischen Ansätze

• Bayes-Kalkül vs. Maximum-Likelihood-Kalkül • Die Bayes-Formel stellt einen wichtigen Ausgangspunkt zur sog. Bayes-Statistik dar. Die in (6.2.8) aufgestellten Wahrscheinlichkeiten werden dort als A-priori-Wahrscheinlichkeiten bezeichnet, die Wahrscheinlichkeiten von (6.2.10) dagegen als A-posterioriWahrscheinlichkeiten. Gemäß Bayes-Kalkül entscheidet man sich für denjenigen Zustand, der unter gegebenen Beobachtungen am wahrscheinlichsten ist. Da bei der Berechnung der A-posteriori-Wahrscheinlichkeiten stets durch die gleiche totale Wahrscheinlichkeit dividiert wird, ist der Bayes-Kalkül auch äquivalent zur Suche nach der maximalen Wahrscheinlichkeit der Werte P(B|A i )P(A i ) = P(A i ∩ B)

für i = 1, . . . , n.

(6.2.11)

Somit wird das A i gesucht, welches die größte Wahrscheinlichkeit für das gemeinsame Auftreten mit B aufweist. Bildlich entspricht dies der Suche nach der größten Schnittfläche von B mit einer der n Zellen. Beispielsweise wäre in der Situation von

6.2 Rechnen mit abhängigen und unabhängigen Ereignissen | 271

Abbildung 6.2.9 bestehend aus einer Partition mit 6 Zellen die Schnittfläche von A3 und B am größten, wenngleich A5 die größte Zellenfläche besitzt. Der auf dem Maximum von (6.2.9) basierende Kalkül ist in der Statistik eng mit dem Maximum-Likelihood-Kalkül (vgl. Abschnitt 10.3.2) verwandt, bei dem man sich für denjenigen Zustand entscheidet, unter dem die gegebenen Beobachtungen am wahrscheinlichsten sind. Bildlich entspricht dies der Suche nach der Schnittfläche, die den größten relativen Anteil an einer Zelle besitzt. In Abbildung 6.2.9 führt dies zur Zelle A6 , für die offensichtlich P(B|A6 ) = 1 gilt. Wie auch im vorhergehenden Beispiel führen hier Maximum-Likelihood Kalkül und Bayes-Kalkül zu verschiedenen Ergebnissen. Wie an (6.2.11) leicht zu erkennen, führen die beiden Ansätze auf jeden Fall dann zum gleichen Ergebnis, falls alle A-priori-Wahrscheinlichkeiten gleich sind. So gesehen ist der Maximum-Likelihood-Kalkül ein Spezialfall des Bayes-Kalküls. Letzteres maximiert zwar die Wahrscheinlichkeit, sich richtig zu entscheiden, setzt dafür aber zusätzliche Information in Form von A-priori-Wahrscheinlichkeiten voraus, die aktuell und „zuverlässig“ sein müssen. Bayes-Kalkül vs. Maximum-Likelihood-Kalkül Grundfrage des Bayes-Kalküls: Welcher Zustand ist unter den beobachteten Gegebenheiten am wahrscheinlichsten? Grundfrage des Maximum-Likelihood-Kalküls: Unter welchem Zustand sind die beobachteten Gegebenheiten am wahrscheinlichsten?

7 Theoretische Verteilungen und Abhängigkeiten Abschnitt 7.1 befasst sich zunächst mit der Konzeption von Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen im ein- und mehrdimensionalen Kontext. In Abschnitt 7.2 werden wichtige theoretische Kennwerte zur Spezifikation von Wahrscheinlichkeitsverteilungen sowie deren Eigenschaften besprochen. Abschnitt 7.3 beinhaltet die Vorstellung einiger spezieller Verteilungen und deren möglichen Anwendungen. Abschnitt 7.4 befasst sich speziell mit der Verteilung zufallsabhängiger (stochastischer) Summen und Mittelwerte.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

Zufallsvariablen sind mathematische Funktionen, mit denen sich die Ergebnisse von Zufallsvorgängen durch Zahlenwerte ausdrücken lassen. Sie stellen das theoretische Pendant zu den metrischen Merkmalen in der deskriptiven Statistik dar. Dabei kann einerseits zwischen diskreten und stetigen Zufallsvariablen und andererseits zwischen ein- und mehrdimensionalen Zufallsvariablen unterschieden werden. Wichtigster Aspekt einer Zufallsvariable ist deren Wahrscheinlichkeitsverteilung, welche das theoretische Pendant zur empirischen Verteilung eines Merkmals darstellt. Im mehrdimensionalen Kontext wird darüber dann auch das Konzept der stochastischen Abhängigkeit und Unabhängigkeit von Zufallsvariablen definiert, welches in völliger Entsprechung zur empirischen Abhängigkeit und Unabhängigkeit von Merkmalen steht.

7.1.1 Eindimensionale Zufallsvariablen Konzept und Ausblick • Zufallsvariablen und Realisationen • Zufallsvariablen sind Funktionen, welche die Ergebnisse eines Zufallsvorgangs durch Zahlen ausdrücken. Die Definitionsmenge ist somit immer ein Ergebnisraum Ω eines Zufallsvorgangs und die Wertemenge die Menge der reellen Zahlen oder zumindest einer Teilmenge davon. Wie Merkmale in der deskriptiven Statistik werden Zufallsvariablen üblicherweise mit lateinischen Großbuchstaben wie etwa X, Y, Z oder X1 , X2 , . . . , X n bezeichnet. Betrachten wir beispielsweise den Raucherstatus einer zufällig ausgewählten Person mit dem zugehörigen Ergebnisraum. ΩRauchen = {Nichtraucher, Gelegenheitsraucher, Raucher},

https://doi.org/10.1515/9783110744194-007

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 273

so könnte man die 3 Elementarereignisse mithilfe der Zufallsvariablen X auch durch die Zahlen 0, 1 und 2 ausdrücken. Formal wäre X dann eine Funktion X : ΩRauchen → {0, 1, 2} ⊂ ℝ mit X(Nichtraucher) = 0, X(Gelegenheitsraucher) = 1 und X(Raucher) = 2. Dadurch wird auf der Menge der reellen Zahlen ein neuer Ergebnisraum Ω012 = {0, 1, 2} impliziert. Elementarereignisse dieses Ergebnisraumes werden je nach Kontext allgemein als Realisationen oder einschränkend als Realisationsmöglichkeiten von X bezeichnet. Mithilfe von Zufallsvariablen lassen sich Zufallsereignisse und deren Wahrscheinlichkeiten einfach und prägnant beschreiben (siehe nächster Punkt). Deshalb erweist sich deren Verwendung auch im Falle bereits „metrisch skalierter Ergebnisräume“ als nützlich. Sofern in solchen Fällen alle Elementarereignisse von Interesse sind, lassen sich die korrespondierenden Zufallsvariablen dann als identische Abbildungen auffassen. Dies bedeutet, dass die einzelnen Elementarereignisse auf sich selbst wieder abgebildet werden. Steht etwa W für das Ergebnis beim Würfelwurf mit dem Ergebnisraum ΩWürfel = {1, 2, 3, 4, 5, 6}, so gilt dann: W(i) = i für i = 1, . . . , 6. Die Zufallsvariable gibt die gewürfelte Zahl als solche wieder. Steht Z für die mit einem Taschenrechner erzeugte Zufallszahl mit dem (überabzählbaren) Ergebnisraum ΩZahl = [0, 1], so gilt: Z(x) = x, für x ∈ [0, 1]. Sofern nur von Interesse wäre, ob eine Zahl größer oder kleiner als 0.5 ist, könnte man jedoch auch die Zufallsvariable Z ∗ mit Z ∗ (x) = 0 für x ≤ 0.5 und Z ∗ (x) = 1 für x > 0.5 definieren. Dies würde den dichotomen Ergebnisraum Ω01 = {0, 1} mit den beiden Realisationsmöglichkeiten 0 und 1 implizieren. • Vorteil kurzer und operabler Schreibweisen • Mithilfe von Zufallsvariablen lassen sich einzelne Ergebnisse und Ereignisse notationsmäßig einfach und kurz ausdrücken. Betrachten wir dazu noch einmal das vorhergehende Beispiel mit dem Raucherstatus einer Person und dem von X implizierten Ergebnisraum Ω012 = {0, 1, 2}. Dann schreibt man beispielsweise für die Ereignisse „Nichtraucher“ und „Raucher“ jeweils nur kurz X = 0 bzw. X = 2. Mit X ∈ {1, 2} oder X > 0 wird das Ereignis ausgedrückt, dass eine Person gelegentlich oder regelmäßig raucht. Die korrespondierenden Ereigniswahrscheinlichkeiten werden dann notiert als P(X = 0), P(X = 2), P(X ∈ {1, 2})

bzw.

P(X > 0).

Interessant wird die Verwendung von Zufallsvariablen insbesondere auch dann, wenn gleichzeitig mehrere davon verwendet werden. Untersucht man beispielsweise das Rauchverhalten innerhalb 3-köpfiger Familien bestehend aus Vater, Mutter und einer erwachsenen Tochter, so könnten die Zufallsvariablen V, M und T das Raucherverhalten der einzelnen Familienangehörigen beschreiben. In diesem Fall stünde dann

274 | 7 Theoretische Verteilungen und Abhängigkeiten

beispielsweise P(T > 0|V = 2, M = 0) für die (bedingte) Wahrscheinlichkeit, dass die Tochter Gelegenheitsraucher oder Raucher ist, falls der Vater raucht und die Mutter nicht raucht. Die Wahrscheinlichkeit dafür, dass alle drei Familienangehörigen rauchen, ließe sich hingegen ausdrücken über P(V = 2, M = 2, T = 2). Mengenoperatoren entfallen normalerweise bei der Verwendung von Zufallsvariablen. Für letzteres Ereignis schreibt man also in der Regel nicht „P({V = 2} ∩ {M = 2} ∩ {K = 2})“, sondern setzt stattdessen Kommata zwischen die einzelnen Ereignisse. Der Einsatz von Zufallsvariablen zur Bestimmung bestimmter Ereigniswahrscheinlichkeiten erweist sich jedoch nicht immer als hilfreich oder nötig. In Situationen wie etwa im zweiten Beispiel zur Multiplikationsregel (Abschnitt 6.2.1) oder im Beispiel zur Bayes-Formel (Abschnitt 6.2.3) genügen Ereignisbetrachtungen ohne Zufallsvariablen. • Bemerkung zur mathematischen Definition • All dies erscheint zunächst einmal relativ unproblematisch. Mathematisch ergeben sich daraus jedoch ähnliche Probleme wie bereits bei der Definition von Wahrscheinlichkeitsmaßen (als Funktionen). Dies hängt vor allem wieder mit dem in überabzählbaren Ergebnisräumen auftretenden Messbarkeitsproblem zusammen. So müssen bestimmte, die Messbarkeit von Ereignissen betreffende Funktionseigenschaften erfüllt sein, damit berechtigterweise von Zufallsvariablen in einem wohldefinierten Sinne gesprochen werden kann. Es erscheint jedoch nicht notwendig, sich mit diesen mathematischen Details maßtheoretischer Natur näher auseinanderzusetzen, da sie für uns keine praktische Relevanz besitzen. Die Zweckmäßigkeit von Zufallsvariablen, die für uns im Vordergrund steht, wird sich uns Schritt für Schritt erschließen. • Wahrscheinlichkeitsverteilung einer Zufallsvariable • Unter der Wahrscheinlichkeitsverteilung (kurz Verteilung) einer Zufallsvariable versteht man die Art und Weise wie einzelne Realisationen wahrscheinlichkeitsmäßig auftreten, also wie diese theoretisch verteilt sind. Sie stellt das theoretische Pendant zur empirischen Verteilung eines Merkmals in der deskriptiven Statistik dar (Kapitel 3). In mathematischerem Sinne versteht man darunter das durch die Zufallsvariable implizierte Wahrscheinlichkeitsmaß auf der Menge der reellen Zahlen (siehe später). Konzeptionell wird gewöhnlich zwischen diskreten und stetigen Zufallsvariablen unterschieden, welche abzählbar oder überabzählbar viele Realisationsmöglichkeiten besitzen. Die Verteilung einer diskreten Zufallsvariable wird typischerweise

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 275

durch eine Wahrscheinlichkeitsfunktion beschrieben, diejenige einer stetigen Zufallsvariable durch eine Wahrscheinlichkeitsdichtefunktion. Die dabei zugrunde gelegten Wahrscheinlichkeiten können empirisch oder theoretisch fundiert sein (Abschnitt 6.1.1). Für letzteren Fall sind insbesondere die in Abschnitt 7.3 vorgestellten Verteilungsmodelle und die in Abschnitt 7.4.2 behandelten Grenzwertsätze von Bedeutung.

Diskrete Zufallsvariablen und Additionskalkül • Wahrscheinlichkeitsfunktion für diskrete Zufallsvariablen • Eine Zufallsvariable X heißt diskret, falls sie nur endlich oder abzählbar unendlich viele Werte annehmen kann. Formal lässt sich dies über eine Wahrscheinlichkeitsfunktion definieren, die das theoretische Pendant zur empirischen Häufigkeitsfunktion darstellt (Abschnitt 3.3.1). Diese ordnet spezifischen (diskreten) Werten positive Wahrscheinlichkeiten zu, die in der Summe 1 ergeben. Definition 7.1.1: Diskrete Zufallsvariable und Wahrscheinlichkeitsfunktion Eine Zufallsvariable X heißt diskret, falls es für endlich oder abzählbar unendlich viele Werte a1 , a2 , . . . , a k , . . . eine Funktion f X gibt, für die gilt: {P(X = a j ) = p j , f X (x) = { 0, {

für x = a j , j = 1, . . . , k, . . . sonst,

wobei (i) p j ≥ 0 für alle j und (ii) ∑∞ j=1 p j = 1. Die Funktion f X heißt dann Wahrscheinlichkeitsfunktion von X. Die Menge T X = {a j : p j > 0} wird als Trägermenge von X bezeichnet. Ihre Elemente heißen Realisationsmöglichkeiten, Träger- oder Massenpunkte von X. • Additionskalkül für diskrete Zufallsvariablen • Mittels der Einzelwahrscheinlichkeiten p i kann prinzipiell jedem Ereignis der Form {X ∈ A} für A ⊂ ℝ eine Wahrscheinlichkeit zugeordnet werden. In dem dafür verwendeten Additionskalkül werden alle Einzelwahrscheinlichkeiten der in A enthaltenen Realisationsmöglichkeiten addiert. Dies ergibt sich unmittelbar aus der Kolmogoroff’schen Axiomatik. Die Realisationsmöglichkeiten sind also nur diejenigen Werte (Realisationen) von X, die positive Wahrscheinlichkeiten aufweisen und somit auch eintreten können.

276 | 7 Theoretische Verteilungen und Abhängigkeiten

Satz 7.1.1: Additionskalkül für diskrete Zufallsvariablen Sei X eine diskrete Zufallsvariable mit Realisationsmöglichkeiten a1 , a2 , . . . , a k , . . . und zugehörigen Wahrscheinlichkeiten p1 , p2 , . . . , p k , . . . Dann gilt für jedes Ereignis X ∈ A mit A ⊂ ℝ: P(X ∈ A) = ∑ p j . j:a j ∈A

Beispiel D1−a

f X (x ) 0.4

0.4



0.3

0.3



0.2

Beispiel D1−b

f Y (y )



0.2



● ●



0.1

0.1



● ●



0.0 −1





0

1





2

3

0.0 4

5

−1











0

1

2

3

4

x

usw.





● ●





5

6

7

8

9

y

Abb. 7.1.1: Wahrscheinlichkeitsfunktionen diskreter Zufallsvariablen

• Beispiel D1-a • Sei X eine diskrete Zufallsvariable, welche die Anzahl mitreisender Kinder bei gebuchten Pauschalreisen eines bestimmten Reiseveranstalters angibt. Auf Basis empirischer Erfahrungen ergeben sich folgende Wahrscheinlichkeiten (Abb. 7.1.1, links): P(X = 0) = 0.4, P(X = 1) = 0.2, P(X = 2) = 0.3, P(X = 3) = 0.1. Die Trägermenge von X lautet dann T X = {0, 1, 2, 3}. Weiter gilt gemäß Notation p1 = 0.4, p2 = 0.2, p3 = 0.3 und p4 = 0.1 bzw. f X (0) = 0.4, f X (1) = 0.2, f X (2) = 0.3 und f X (3) = 0.1. Man beachte am Rande, dass der Index j der p j -Werte nicht mit den Realisationsmöglichkeiten übereinstimmen muss. Schwarze und weiße Punkte in Abbildung 7.1.1 verdeutlichen den genauen Verlauf der Wahrscheinlichkeitsfunktion. Betrachtet man nun beispielsweise das Ereignis {X ≤ 2}, so folgt mittels Additionskalkül P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) = 0.9. Alternativ erhält man dies auch über das Gegenereignis P(X ≤ 2) = 1 − P(X > 3) = 1 − P(X = 3) = 0.9. Die Wahrscheinlichkeit, dass in einer Buchung höchstens 2 mitreisende Kinder angegeben werden, beträgt folglich 90%. • Beispiel D1-b • Sei Y eine diskrete Zufallsvariable, welche die Anzahl eingehender Notrufe an einem Rettungswagen-Stützpunkt während einer Stunde angibt. Theo-

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 277

retische Überlegungen führen dazu, dass sich die Verteilung von Y durch eine sog. Poisson-Verteilung (Abschnitt 7.3.1) mit Parameter λ = 3 approximieren lassen sollte. Dabei sollte (idealerweise) gelten (zur Bedeutung des Fakultätssymbols „!“ siehe Abschnitt 7.3.1): y

{ 3 e−3 , f Y (y) = { y! 0, { Dies würde beispielsweise

y = 0, 1, 2, . . . , sonst.

32 −3 e ≈ 0.22 2! implizieren. Die Trägermenge ist hier die Menge aller natürlich Zahlen einschließlich 0, d.h. T Y = ℕ0 . Tatsächlich gilt auch hier: P(Y = 0) = e−3 ≈ 0.05

oder





j=0

j=1

P(Y = 2) =

∑ f Y (j) = ∑ p j = 1. Die Wahrscheinlichkeiten für Werte größer als 8 in Abbildung 7.1.1 (rechts) sind also nicht etwa gleich 0, sondern nur sehr klein. Dies entspricht natürlich nur einer theoretischen Vorstellung. In der Praxis sollte die Anzahl möglicher Notrufe nach oben beschränkt sein und kann natürlich nicht jeden beliebig großen Wert annehmen. Betrachtet man beispielsweise das Ereignis, dass mehr als 8 Notrufe eingehen, sprich das Ereignis Y > 8, so folgt mit dem Additionskalkül 8

3j −3 e ≈ 0.004. j! j=0

P(Y > 8) = 1 − P(Y ≤ 8) = 1 − ∑ Die Wahrscheinlichkeit beträgt ca. 0.4%.

Stetige Zufallsvariablen und Integrationskalkül • Wahrscheinlichkeitsdichtefunktion für stetige Zufallsvariablen • Stetige Zufallsvariablen besitzen überabzählbar viele Realisationsmöglichkeiten. Typischerweise bilden sie die Ausprägungen stetig skalierter Merkmale ab, wie etwa die Lebensdauer einer Computer-Festplatte, die Abfertigungs- oder Wartezeit an einem Gepäckschalter, die Körpergröße einer Person oder den monatlichen Umsatz eines Unternehmens. Die Ergebnisräume sind in solchen Fällen häufig abgeschlossene oder halboffene Intervalle wie etwa [a, b] für a < b oder [0, ∞). Theoretisch steht dann jede beliebige reelle Zahl des Ergebnisraumes als mögliches Ergebnis zur Disposition. Wie bereits in Abschnitt 6.1.3 ausgeführt, ist es mathematisch jedoch nicht möglich, jeder einzelnen reellen Zahl eine positive Wahrscheinlichkeit zuzuordnen, ohne dabei die Kolmogoroff’sche Axiomatik zu verletzen. Stattdessen werden in diesem Fall in erster Linie nur

278 | 7 Theoretische Verteilungen und Abhängigkeiten

noch Intervallereignissen wie etwa {X ≤ b},

{X > a},

{a ≤ X ≤ b}

{a < X ≤ b}

oder

positive Wahrscheinlichkeiten zugeordnet. Dies wird durch eine Wahrscheinlichkeitsdichtefunktion (kurz Dichte) definiert, die das theoretische Pendant zur empirischen Häufigkeitsdichtefunktion (Histogramm) darstellt (Abschnitt 3.3.2). Dabei handelt es sich um eine nichtnegative Funktion mit „Gesamtfläche“ 1, die Intervallereignissen über Integralbildung Wahrscheinlichkeiten zuordnet. Abbildung 7.1.2 illustriert dieses Integrationskalkül.

f X (x)

f X (x)



⌠ f (x) d x = 1 ⌡−∞ X x Trägermenge T X

a b

b

P (a ≤ X ≤ b ) = ⌠ f X (x) d x ⌡a

x

Abb. 7.1.2: Wahrscheinlichkeitsdichtefunktion und Integrationskalkül

Definition 7.1.2: Stetige Zufallsvariable und Wahrscheinlichkeitsdichtefunktion Eine Zufallsvariable X heißt stetig, falls es eine Funktion f X (x) gibt, für die gilt: b

P(a ≤ X ≤ b) = ∫ f X (x)dx

für alle a ≤ b, wobei

a

(i) f X (x) ≥ 0 für alle reellen x gilt und ∞

(ii) ∫−∞ f X (x)dx = 1 ist. Die Funktion f X heißt dann Wahrscheinlichkeitsdichtefunktion, Dichtefunktion oder Dichte von X. Die Menge T X = {x : f X (x) > 0} wird als Trägermenge von X bezeichnet. Ihre Elemente heißen Realisationsmöglichkeiten von X. Der besseren Übersichtlichkeit und Lesbarkeit wegen unterscheiden wir notationsmäßig nicht zwischen Wahrscheinlichkeits- und Dichtefunktionen, wenngleich der Rechenkalkül jeweils ein völlig anderer ist. Generell ist zu betonen: Dichtewerte sind keine Wahrscheinlichkeiten!

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 279

Dies lässt sich allein schon daraus ersehen, dass die Funktionswerte einer Dichte durchaus größer als 1 sein können (siehe Beispiel S1-a, unten). Einzig ausschlaggebend sind wie beim Histogramm Flächenbetrachtungen. • Integrationskalkül für stetige Zufallsvariablen • Das Integral einer Dichtefunktion über einem Intervall ergibt die Wahrscheinlichkeit, dass eine Realisation von X in dieses Intervall hineinfällt. Daraus folgt zwangsläufig für jedes a ∈ ℝ: a

P(X = a) = P(X ∈ [a, a]) = ∫ f X (x)dx = 0. a

Die Wahrscheinlichkeit für jede reelle Zahl ist gleich 0. Insbesondere sollten also dann selbst einzelne Werte innerhalb der Trägermenge von X „unmöglich“ sein. Allerdings sind „in unmittelbarer Umgebung“ um diese in der Regel bestimmte Intervallereignisse möglich, sodass es legitim erscheint, sie als Realisationsmöglichkeiten zu bezeichnen. Es gilt stets: P(X ∈ T X ) = 1

und

P(X ∈ T X ) = 0.

Weiter folgt dann mit der Rechenregel für disjunkte Ereignisse beispielsweise auch P(a < X ≤ b) = P(a ≤ X ≤ b) − P(X = a) = P(a ≤ X ≤ b). Somit ist es bei der Berechnung von Intervallwahrscheinlichkeiten für stetige Zufallsvariablen unerheblich, ob abgeschlossene, halboffene oder offene Intervalle betrachtet werden. Es sollte bedacht werden, dass es sich hierbei um ein rein mathematisches Resultat handelt, das sich zwangsläufig aus diesem Kalkül ergibt und reale Gegebenheiten nicht exakt widerspiegeln kann. Allerdings kann andersherum auch gefragt werden, ob in der Realität ein „Kontinuum“ überhaupt möglich ist. Sofern beispielsweise eine im freien Fall befindliche Kugel von 0 Meter pro Sekunde auf 1 Meter pro Sekunde beschleunigt, ist nicht ohne weiteres klar, ob diese dann tatsächlich jeden beliebigen Wert x ∈ [0, 1] als augenblickliche Geschwindigkeit angenommen hat. Wir überlassen dieses Problem jedoch den Physikern. Sofern A ⊂ ℝ eine aus abzählbar vielen Intervallen durch Vereinigung-, Schnittund Komplementbildung konstruierte oder konstruierbare Menge ist, gehört sie im Zusammenhang stetiger Zufallsvariablen zu den sog. messbaren Mengen. Aus der Axiomatik folgt dann P(X ∈ A) = ∫ f X (x)dx, A

wobei möglicherweise „abschnittsweise“ zu integrieren ist. So würde beispielsweise für die aus den Intervallen A1 = [0, 2], A2 = (1, 3] und A3 = [4, 6) konstruierte Menge

280 | 7 Theoretische Verteilungen und Abhängigkeiten A = (A1 ∩ A2 ) ∪ A3 = (1, 2] ∪ [4, 6) gelten: 2

6

P(X ∈ A) = ∫ f X (x)dx = ∫ f X (x)dx + ∫ f X (x)dx. 1

A

4

Satz 7.1.2: Integrationskalkül für stetige Zufallsvariablen Sei X eine stetige Zufallsvariable mit Dichtefunktion f X und A ⊂ ℝ eine aus abzählbar vielen Intervallen durch Vereinigung-, Schnitt- und Komplementbildung konstruierte oder konstruierbare Menge. Dann gilt P(X ∈ A) = ∫ f X (x)dx. A

Speziell folgt daraus: (i) P(X = a) = 0 für jedes a ∈ ℝ und (ii) P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b).

• Messbarkeitsproblem • Jedoch kann über den Integrationskalkül nicht jeder beliebigen Menge A ⊂ ℝ eine Wahrscheinlichkeit zugeordnet werden. Vereinfacht gesagt ergibt sich dies daraus, dass für bestimmte Mengen das Integral ∫ f X (x)dx A

nicht definiert ist. Solche nicht messbaren Mengen sind zwar sehr unanschaulich und lassen sich nur mit erheblichem mathematischem Aufwand definieren, dennoch können sie aufgrund ihrer Existenz aus mathematischer Sicht nicht einfach ignoriert werden kann. Aufgrund dieses Messbarkeitsproblems kann auch nicht jedem „Ereignis“ der Form {X ∈ A} eine wohl-definierte Wahrscheinlichkeit zugeordnet werden. Streng genommen wird {X ∈ A} für nicht messbares A dann auch nicht mehr als Ereignis bezeichnet. • Beispiel S1-a • Sei X eine stetige Zufallsvariable, welche die Höhe des Trinkgeldes angibt, welches den Servicekräften eines Restaurants pro Abrechnung überlassen wird. Auf Basis empirischer Erfahrungen ergibt sich näherungsweise folgende Verteilung: 60% aller Trinkgelder liegen zwischen 0 Euro und 50 Cent, 25% zwischen 50

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 281

f X (x )

f Y (y )

Beispiel S1−a

1.2

Beispiel S1−b

0.05

1.0

0.04

0.8 0.6

0.03

0.4

0.02

0.2

0.01

0.0

0.00 0.0 0.5 1.0 1.5 2.0 2.5 3.0

−10 0

10

x

20

30

40

50

60

70

80

y

Abb. 7.1.3: Dichtefunktionen stetiger Zufallsvariablen

Cent und 1 Euro und 15% zwischen 1 und 2 Euro. Die Dichtefunktion laute: 1.2, { { { { { {0.5, f X (x) = { { {0.15, { { { {0,

x ∈ (0, 0.5], x ∈ (0.5, 1.0], x ∈ (1.0, 2.0], sonst.

An der ersten Größenklasse wird deutlich, dass Dichtewerte durchaus größer als 1 sein können. Der Dichtewert 1.2 sagt aus, dass sich in diesem Bereich auf einer Einheit (1 Euro) ca. 120% Wahrscheinlichkeitsmasse befinden; oder äquivalent und in diesem Fall adäquater ausgedrückt, auf einer halben Einheit (50 Cent) 60% Wahrscheinlichkeitsmasse. Abbildung 7.1.3 illustriert den Verlauf der Dichtefunktion. Schwarze und weiße Punkte verdeutlichen den genauen Funktionsverlauf. Konzeptionell besteht hier kaum ein Unterschied zur Häufigkeitsdichtefunktion bzw. zum Histogramm (Abschnitt 3.2.3), außer dass wir jetzt anstelle relativer oder prozentualer Anteile nun von Wahrscheinlichkeiten sprechen. Deshalb könnte man eine derartige Dichtefunktion auch als Wahrscheinlichkeitshistogramm bezeichnen. Die Flächen der einzelnen Säulen entsprechen den korrespondierenden „Intervallwahrscheinlichkeiten“ und die Gesamtfläche beträgt 1. Der Integrationskalkül ist bei derartigen Wahrscheinlichkeitshistogrammen besonders einfach. Es genügt ein gedankliches Addieren von Rechteckflächen. Beispielsweise sind zur Bestimmung der Wahrscheinlichkeit von X ≤ 1 lediglich die ersten beiden Säulenflächen zu addieren, was offensichtlich 0.6 + 0.25 = 0.85 ergibt. Für X ≤ 0.8 lautet die Rechnung dagegen P(X ≤ 0.8) = 0.6+0.3⋅0.5 = 0.75. In diesem Fall wird die zweite Säule dann nur auf einer Länge von 0.3 berücksichtigt. Die Schraffierung im linken Schaubild von Abbildung 7.1.3 hebt die berechnete Fläche hervor. Die Wahrscheinlichkeit eines Trinkgeldes von höchstens 80 Cent beträgt demnach 75%, von höchstens 1 Euro dagegen 85%. • Beispiel S1-b • Sei Y eine stetige Zufallsvariable, welche die Wartezeit in Minuten bis zum nächsten eingehenden Notruf an einem Rettungswagenstützpunkt angibt.

282 | 7 Theoretische Verteilungen und Abhängigkeiten

Theoretische Überlegungen führen dazu, dass sich die Verteilung von Y durch eine sog. Exponential-Verteilung (Abschnitt 7.3.2) mit Parameter λ = 0.05 approximieren lassen sollte. Dabei sollte gelten: {0.05e−0.05y , y ≥ 0, f Y (y) = { 0, y < 0. { Da Wartezeiten üblicherweise nicht negativ sein können, macht es hier durchaus Sinn, eine theoretische Verteilung mit Trägermenge ℝ+ = [0, ∞) zu wählen. Tatsächlich gilt auch ∞

∫ f Y (y)dy = 1. −∞

Die Dichtewerte für Werte größer als 80 in Abbildung 7.1.3 (rechts) sind nicht etwa gleich 0, sondern nur sehr klein. Wie schon bei der Poisson-Verteilung entspricht dies nur einer theoretischen Vorstellung. In der Praxis sollte die Wartezeit nicht beliebig große Werte annehmen können und außerdem auch stark mit Tageszeit und Wochentag variieren. Betrachtet man beispielsweise das Ereignis, dass die Wartezeit zwischen 10 und 30 Minuten beträgt, sprich das Ereignis 10 ≤ Y ≤ 30, so folgt mit dem Integrationskalkül 30

P(10 ≤ Y ≤ 30) = ∫ 0.05e−0.05y dy = [−e−0.05y ]10 30

10

= −e−0.05⋅30 + e−0.05⋅10 ≈ 0.38. Die Wahrscheinlichkeit beträgt ca. 38%. Die Schraffierung im rechten Schaubild von Abbildung 7.1.3 hebt die berechnete Fläche hervor. Die Wahrscheinlichkeit für eine Wartezeit länger als 80 Minuten beträgt dagegen nur etwa 2%. Dies folgt aus 80

P(Y > 80) = 1 − P(Y ≤ 80) = 1 − ∫ 0.05e−0.05y dy 0

=1−

80 [−e−0.05y ]0

= 1 − [−e−0.05⋅80 + 1] ≈ 0.02.

• Verwendung von Indikatorfunktionen • Insbesondere auch zur Spezifizierung abschnittsweise definierter Funktionen stellt sich die Verwendung sog. Indikatorfunktionen als zweckmäßig heraus, da diese anstelle zahlreicher Fallunterscheidungen kompaktere Darstellungen erlauben. Die Indikatorfunktion, welche wir mit I notieren, ist eine Funktion, die nur die Werte 0 und 1 annehmen kann, d.h. I : ℝ → {0, 1}. Entscheidend ist eine (meist) im Index von I angegebene Indikatormenge A ⊂ ℝ: I A . Die Indikatorfunktion nimmt für jeden Wert x ∈ A den Wert 1 an und sonst den Wert

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 283

0, d.h. {1, x ∈ A, I A (x) = { 0, x ∈ ̸ A. { In der Praxis ist A häufig ein abgeschlossenes, offenes oder halboffenes Intervall. Beispielsweise würde gelten: I[1,2] (0.8) = 0, I[1,2] (1) = 1, I[1,2] (1.89) = 1, I[1,2] (2) = 1, I[1,2] (2.1) = 0, I(1,2] (1) = 0, I(−∞,4] (−3) = 1, I(4,∞] (2) = 0 usw. Somit lässt sich beispielsweise die Dichtefunktion korrespondierend zum Wahrscheinlichkeitshistogramm aus Beispiel S1-a kompakt formulieren als f X (x) = 1.2I(0,0.5] (x) + 0.5I(0.5,1] (x) + 0.15I(1,2] (x). Da die Indikatormengen disjunkt sind, ist immer nur genau eine der 3 Indikatorfunktionen 1, sofern x nicht kleiner gleich 0 oder größer als 2 ist. Beispielsweise gilt für x = 0.8: f X (0.8) = 1.2I(0,0.5] (0.8) + 0.5I(0.5,1] (0.8) + 0.15I(1,2] (0.8) = 1.2 ⋅ 0 + 0.5 ⋅ 1 + 0.1 ⋅ 0 = 0.5. Analoges gilt für die Dichte aus Beispiel S1-b, die sich dann notieren ließe als f Y (y) = 0.05e−0.05y I[0,∞) (y).

Theoretische Verteilungsfunktion • Verteilungsfunktion diskreter und stetiger Zufallsvariablen • Das theoretische Pendant zur empirischen Verteilungsfunktion (Abschnitt 3.3) ist die Verteilungsfunktion einer Zufallsvariable X, die man zur besseren Unterscheidung auch als theoretische Verteilungsfunktion bezeichnen könnte. Anstelle relativer Anteile von Beobachtungswerten kumuliert die theoretische Verteilungsfunktion „Wahrscheinlichkeiten“. Ihr Wert an der Stelle x entspricht der Wahrscheinlichkeit des Ereignisses X ≤ x. Definition 7.1.3: Theoretische Verteilungsfunktion Sei X eine diskrete oder stetige Zufallsvariable. Dann ist die (theoretische) Verteilungsfunktion von X definiert als F X (x) = P(X ≤ x). Daraus folgt: (i) Falls X diskret ist, gilt: F X (x) = ∑j:a j ≤x p j . x

(ii) Falls X stetig ist, gilt: F X (x) = ∫−∞ f X (t)dt.

Eine Anwendung der Verteilungsfunktion besteht darin, mit ihrer Hilfe Wahrscheinlichkeiten für bestimmte Intervallereignisse zu berechnen. So gilt allgemein für reelle

284 | 7 Theoretische Verteilungen und Abhängigkeiten a < b: P(a < X ≤ b) = F X (b) − F X (a).

Beispiel D1−a

F X (x ) 1.0



1.0



0.8

0.3

0.6



0.4



Beispiel D1−b

F Y (y )



0.8

● ●

0.6





0.4



0.2

−1

0



0.0



1

2

3

4

5

usw.





0.22

0.2

0.0

(7.1.1)

−1

x

● ●



0

1



2

3

4

5

y

Abb. 7.1.4: Verteilungsfunktionen diskreter Zufallsvariablen

Bei diskreten Zufallsvariablen ergibt sich die Verteilungsfunktion durch Kumulieren aller Einzelwahrscheinlichkeiten der Wahrscheinlichkeitsfunktion bis zu einem bestimmten Wert x. Daraus resultiert eine monoton steigende, rechtsstetige Treppenfunktion. „Rechtsstetig“ bedeutet, dass die Funktion „von rechts“ betrachtet an jeder Stelle stetig ist, aber nicht zwingend „von links“. Für „kleines ε > 0“ gilt stets F X (x) = F X (x + ε). Abbildung 7.1.4 zeigt die Verteilungsfunktionen F X und F Y der diskreten Zufallsvariablen X und Y aus den vorhergehenden beiden Beispielen D1-a und D1-b. Die „Sprunghöhen“ der einzelnen Stufen entsprechen den Wahrscheinlichkeiten der jeweiligen Realisationsmöglichkeiten, also den Werten der Wahrscheinlichkeitsfunktion f X bzw. f Y an diesen Stellen. Beispielsweise gilt, vgl. (7.1.1): F X (2) − F X (1) = P(1 < X ≤ 2) = P(X = 2) = f X (2) = 0.3

bzw.

F Y (2) − F Y (1) = P(1 < Y ≤ 2) = P(Y = 2) = f Y (2) ≈ 0.22. Außerdem werden die Funktionswerte an den Sprungstellen stets oben und nicht unten abgelesen. So gilt etwa F X (1) = 0.6 und nicht etwa F X (1) = 0.4. Eine unmittelbare Konsequenz daraus ist die Rechtsstetigkeit der Verteilungsfunktion. So gilt beispielsweise an der Sprungstelle 1 für „kleines ε > 0“ einerseits F X (1 + ε) = 0.6 und andererseits F X (1 − ε) = 0.4. Bei stetigen Verteilungen ergibt sich die Verteilungsfunktion durch Integration der Wahrscheinlichkeitsdichtefunktion bis zu einem bestimmten Wert x. Daraus resultiert stets eine monoton wachsende stetige Funktion, die zwangsläufig natürlich auch rechtsstetig ist. Abbildung 7.1.5 zeigt die Verteilungsfunktionen F X und F Y der stetigen Zufallsvariablen X und Y aus den vorhergehenden Beispielen S1-a und S1-b. Ist die Dichtefunktion f einer stetigen Zufallsvariable an der Stelle x stetig, dann ist die

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 285

Beispiel S1−a

F X (x )

Beispiel S1−b

F Y (y )

1.0

1.0

0.8

ΔF X

0.6

Δx

0.8

= 0.5

0.6

0.4

0.4

ΔF Y

0.2

0.2

Δy

0.0

= 0.018

0.0 0.0

0.5

1.0

1.5

2.0

2.5

3.0

−10

0

10

20

30

40

50

60

70

80

y

x

Abb. 7.1.5: Verteilungsfunktionen stetiger Zufallsvariablen

Verteilungsfunktion dort auch differenzierbar und es gilt dF(x) = f(x). dx Dies ergibt sich aus dem analytischen Zusammenhang von Verteilungsfunktion und Dichte im Rahmen der Differential- und Integrationstheorie. Ihre konkrete Berechnung wird in einem nachfolgenden Punkt anhand der obigen beiden Beispiele demonstriert. Da Verteilungsfunktionen Wahrscheinlichkeiten als Funktionswerte ausgeben, können sie offensichtlich nur Werte im Intervall [0, 1] annehmen. Für gegen −∞ strebende x-Werte strebt jede Verteilungsfunktion gegen 0 und für gegen +∞ gehende x-Werte gegen 1. Die Werte 0 und 1 selbst müssen dabei jedoch nicht zwingend angenommen werden. Im Falle der Poisson-Verteilung beispielsweise (Abb. 7.1.4 rechts) gibt es kein x ∈ ℝ, sodass gelten würde F Y (x) = 1. Gleiches gilt für die Exponentialverteilung (Abb. 7.1.5 rechts). Im Falle der Normalverteilung (Abschnitt 7.3.2) ist die Trägermenge sogar ganz ℝ, sodass weder die 0 noch die 1 als Funktionswerte möglich sind. F 󸀠 (x) =

Eigenschaften von Verteilungsfunktionen 1. Für die Verteilungsfunktion F X einer Zufallsvariablen X gilt stets: (a) F X (x) ∈ [0, 1] für jedes x ∈ ℝ. (b) F X ist monoton steigend, d.h. F X (x1 ) ≤ F X (x2 ) für x1 < x2 . (c) F X ist rechtsstetig, d.h. F X (x + 1n ) → F X (x) für n → ∞. (d) F X (x) → 0 für x → −∞. (e) F X (x) → 1 für x → +∞. 2. Die Verteilungsfunktion einer diskreten Zufallsvariable ist eine Treppenfunktion mit Sprungstellen an den Realisationsmöglichkeiten und Sprunghöhen, die den jeweiligen Wahrscheinlichkeiten entsprechen.

286 | 7 Theoretische Verteilungen und Abhängigkeiten

3. Die Verteilungsfunktion F X einer stetigen Zufallsvariable X mit Dichtefunktion f X ist stetig. Sofern F X an der Stelle x differenzierbar ist, gilt: F 󸀠X (x) = f X (x).

• Berechnung einer Verteilungsfunktion • Da die analytische Bestimmung der Verteilungsfunktion einer diskreten Zufallsvariablen wenig erkenntnisgewinnend und eher müßiger Natur erscheint, beschränken wir uns im Folgenden auf stetige Zufallsvariablen. Wir betrachten dazu nochmals die vorhergehenden Beispiele S1-a und S1-b. • Beispiel S1-a fortgesetzt • Die Dichtefunktion von Beispiel S1-a ist gegeben durch f X (x) = 1.2I(0,0.2] (x) + 0.5I(0.2,1] (x) + 0.15I(1,2] (x). Dann lautet die zu Abbildung 7.1.5 (links) gehörende Verteilungsfunktion F X (x) = 1.2xI(0,0.5] (x) + (0.5x + 0.35)I(0.5,1] (x) + (0.15x + 0.7)I(1,2] (x) + I(2,∞) (x). Die Dichtefunktion ist abschnittsweise zu integrieren. Die Stammfunktion des 1. Abschnitts im Intervall (0, 0.5] lautet 1.2x. Prinzipiell wäre jede Funktion 1.2x + c für c ∈ ℝ eine zulässige Stammfunktion. Jedoch hat im vorliegenden Fall die Funktion 1.2x + c nur für c = 0 an der Stelle 0 den Wert 0 und an der Stelle 0.5 den Wert 0.6. Die bis 0 bzw. 0.5 integrierte Wahrscheinlichkeitsmasse sollte ja 0 bzw. 0.6 betragen. Somit wird also stets diejenige Stammfunktion gewählt, die vor dem Hintergrund der Eigenschaften als Verteilungsfunktion korrekt ist und für eine insgesamt stetige Verteilungsfunktion ohne irgendwelche „Bruchstellen“ zwischen einzelnen Intervallen sorgt. Für den 2. Abschnitt im Intervall (0.5, 1] wählt man deshalb nicht einfach 0.5x, sondern 0.5x + 0.35 als Stammfunktion. Die bis 0.5 bereits integrierte Wahrscheinlichkeitsmasse von 0.6 wird damit korrekt berücksichtigt, und an der Stelle 1 weist die Verteilungsfunktion damit den Wert 0.85 auf. So geht es dann abschnittsweise immer weiter. Schließlich ist zu bedenken, dass für Werte größer als 2 die Verteilungsfunktion den Wert 1 annehmen muss, da ja gilt P(X ≤ x) = 1 für x ≥ 2. Das wird durch die Indikatorfunktion „I(2,∞) (x)“ gewährleistet. Die Verteilungsfunktion ist außerhalb der „Knickstellen“ 0.5, 1 und 2 überall differenzierbar. Die 1. Ableitung lässt sich abschnittsweise bilden und ergibt die Dichtefunktion f X . Beispielsweise gilt für x ∈ (0.5, 1): F 󸀠X (x) = f X (x) = 0.5. Man beachte, dass bereits in Abschnitt 3.3.2 ein analoges Resultat für die approximative empirische Verteilungsfunktion für klassierte Daten festgehalten wurde.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 287

• Beispiel S1-b fortgesetzt • Die Dichtefunktion von Beispiel S1-b ist gegeben durch f Y (y) = 0.05e−0.05y I[0,∞) (y). Für y < 0 gilt dann F Y (y) = P(Y ≤ y) = 0 und für y ≥ 0: y

y

F Y (y) = ∫ f Y (t)dt = ∫ 0.05e−0.05t dt = [−e−0.05t ]

y

0

0

0

= −e

−0.05y

− (−e−0.05⋅0 ) = −e−0.05y + 1.

Somit lautet die zu Abbildung 7.1.5 (rechts) gehörende Verteilungsfunktion insgesamt F Y (y) = (1 − e−0.05y )I[0,∞) (y). Man beachte, dass als Integrationsvariable eine andere Variable als „y“ wie etwa „t“ gewählt werden muss. Dies ergibt sich daraus, dass die Verteilungsfunktion bereits eine Funktion „von y“ ist, also bis zum Wert y integriert wird. Ein häufig verbreiteter Fehler ist, das Integral in der Form y

„ ∫ f Y (y)dy“ 0

zu fassen. Die F Y ist außer an der Stelle 0 überall differenzierbar; die 1. Ableitung ergibt erwartungsgemäß f Y . Beispielsweise gilt: F 󸀠Y (20) = f Y (20) = 0.05e−0.05⋅20 ≈ 0.018. Der Dichtewert 0.018 sagt aus, dass sich in der Grenzbetrachtung an der Stelle 20 pro Einheit (1 Minute) ca. 1.8% Wahrscheinlichkeitsmasse befinden. • Äquivalenz und Eindeutigkeit • Wahrscheinlichkeitsfunktion und Verteilungsfunktion einer diskreten Zufallsvariable sind vom Informationsgehalt völlig äquivalent. Von der Wahrscheinlichkeitsfunktion kann direkt und eindeutig auf die Verteilungsfunktion geschlossen werden und umgekehrt. Bei stetigen Zufallsvariablen ist das „fast“ genauso. Von einer Dichtefunktion kann eindeutig auf die Verteilungsfunktion geschlossen werden, die Umkehrung gilt jedoch „nicht ganz“. Betrachten wir dazu nochmals Beispiel S1-a. Insbesondere an den Knickstellen ließe sich die Dichtefunktion alternativ auch wählen als f X∗ (x) = 1.2I[0,0.5) (x) + 0.5I[0.5,1) (x) + 0.15I[1,2) (x). Hier würde man die Intervalle als links abgeschlossen und rechts offen wählen. Die implizierte Verteilungsfunktion wäre jedoch genau die gleiche. Theoretisch ließen sich sogar abzählbar viele „Sprungstellen“ in eine Dichtefunktion einbauen, ohne die Verteilungsfunktion dabei zu verändern. Analytisch ist damit die Dichtefunktion einer stetigen Zufallsvariable nur bis auf abzählbar viele Stellen eindeutig definiert. Das trifft auch auf Dichtefunktionen von stetigen Zufallsvektoren (vgl. Definition 7.1.8) zu. Im Folgenden wird die Nichteindeutigkeit der Dichtefunktion nicht weiter themati-

288 | 7 Theoretische Verteilungen und Abhängigkeiten

siert. Gewisse Aussagen sind aber so zu verstehen, dass sie für eine „geeignete Wahl“ der Dichtefunktion gelten. Das betrifft z.B. die Beziehung F 󸀠X (x) = f X (x) oder die Charakterisierung der Unabhängigkeit von Zufallsvariablen mithilfe von Dichtefunktionen (vgl. Definition 7.1.12). Die Dichtefunktion einer stetigen Zufallsvariable muss nicht zwingend stetig sein, wie etwa Beispiel S1-a verdeutlicht. Die Verteilungsfunktion einer stetigen Zufallsvariable ist jedoch immer stetig, worauf sich etwas vereinfacht gesagt dann auch die Bezeichnung „stetig“ begründet.

Wahrscheinlichkeitsverteilung • Impliziertes Wahrscheinlichkeitsmaß und Wahrscheinlichkeitsverteilung • Es lässt sich zeigen, dass eine Zufallsvariable ein Wahrscheinlichkeitsmaß auf ℝ als Ergebnisraum impliziert. Im diskreten Fall bedeutet diese etwas feinsinnige Betrachtung, dass jede Menge A ⊂ ℝ der reellen Zahlen als Ereignis betrachtet werden kann. Anstelle des Ereignisses {X ∈ A} mit zugehöriger Wahrscheinlichkeit P(X ∈ A) kann man also auch gleich direkt das Ereignis A und die zugehörige Wahrscheinlichkeit P X (A) betrachten. Unter P X wird das von X erzeugte Wahrscheinlichkeitsmaß auf ℝ verstanden, für das die Kolmogoroff’sche Axiomatik gilt wie auch alle daraus abgeleiteten Rechenregeln. Beispielsweise würde im Falle des Würfelwurfes mit dem Ergebnisraum Ω = {1, 2, 3, 4, 5, 6} für das Intervall A = [0.5, 3.2] einerseits P(X ∈ A) = P(X = 1) + P(X = 2) + P(X = 3) = 0.5 gelten und andererseits P X ([ 0.5, 3.2 ]) = P X (1) + P X (2) + P X (3) = 0.5. Damit wird zum Ausdruck gebracht, dass nicht mehr nur Teilmengen von Ω Wahrscheinlichkeiten zugeordnet werden können, sondern sich der Additionskalkül auf beliebige Teilmengen von ℝ fortsetzen lässt. Im stetigen Fall müsste man sich aufgrund des mit dem Integrationskalkül einhergehenden Messbarkeitsproblems auf messbare Mengen A ⊂ ℝ beschränken, was jedoch keinerlei Einschränkung in praktischer Hinsicht darstellt. Das implizierte Wahrscheinlichkeitsmaß P X wird dann im eigentlichen Sinne als Wahrscheinlichkeitsverteilung von X bezeichnet. Definition 7.1.4: Wahrscheinlichkeitsverteilung einer Zufallsvariable Unter der Wahrscheinlichkeitsverteilung einer Zufallsvariable X versteht man das von X implizierte Wahrscheinlichkeitsmaß P X auf der Menge der reellen Zahlen. Für messbare Mengen A ⊂ ℝ gilt stets: P(X ∈ A) = P X (A).

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 289

• Diskretes und stetiges Wahrscheinlichkeitsmaß auf ℝ • Weiter sollte bemerkt werden, dass unabhängig von der Existenz irgendeiner Zufallsvariable jede Funktion f : ℝ → [0, 1] eindeutig ein diskretes Wahrscheinlichkeitsmaß auf ℝ definiert, falls für abzählbare Werte a1 , a2 , . . . , a N , . . . gilt: (i) f(a i ) ≥ 0 für alle i



und

(ii) ∑ f(a i ) = 1. i=1

Damit lässt sich jede solche Funktion natürlich auch als Wahrscheinlichkeitsfunktion (irgendeiner) diskreten Zufallsvariable interpretieren. Analog definiert jede Funktion f : ℝ → [0, ∞) eindeutig ein stetiges Wahrscheinlichkeitsmaß auf ℝ, falls gilt: ∞

(i) f(x) ≥ 0

und

(ii) ∫ f(x)dx = 1. −∞

Damit lässt sich jede solche Funktion natürlich auch als Dichtefunktion (irgendeiner) stetigen Zufallsvariable interpretieren. Auf formale Beweise, die im Rahmen der Maßtheorie geführt werden müssten, wird an dieser Stelle verzichtet. • Was man unter „identisch verteilt“ versteht • Zwei Zufallsvariablen X und Y sind identisch verteilt, falls sie identische Wahrscheinlichkeitsverteilungen besitzen. Sind X und Y diskret, besitzen sie also identische Wahrscheinlichkeitsfunktionen. Da im stetigen Fall Dichtefunktionen nur „fast“ übereinstimmen müssen, um die gleiche Verteilung zu erzielen, setzen wir für diesen Fall die Identität der eindeutigen Verteilungsfunktionen voraus, was dann natürlich auch für den diskreten Fall ein gültiges Kriterium wäre. Zwei Zufallsvariablen X und Y, ob nun diskret oder stetig, sind also genau dann identisch verteilt, falls gilt: FX = FY . Identisch verteilt heißt nicht, dass X und Y identische Ergebnisse liefern, quasi immer übereinstimmen! Sei X beispielsweise das Ergebnis beim Würfelwurf, wobei nur entscheidend sei, ob eine gerade oder eine ungerade Zahl gewürfelt wird. Definiere X = 1 für eine gerade Zahl und X = 0 für eine ungerade Zahl. Dann gilt unter Annahme eines Laplace-Modells: P(X = 0) = P(X = 1) = 0.5. Sei nun Y eine weitere Zufallsvariable, die für denselben Wurf genau umgekehrt kodiert sei, also Y = 1 für „ungerade“ und Y = 0 für „gerade“. Dann gilt ebenfalls P(Y = 0) = P(Y = 1) = 0.5. Folglich sind X und Y identisch verteilt ungeachtet dessen, dass X = 1 und Y = 1 offensichtlich nicht gleichzeitig eintreten können.

290 | 7 Theoretische Verteilungen und Abhängigkeiten

7.1.2 Mehrdimensionale Zufallsvariablen Konzept und Ausblick • Hintergrund • Die gleichzeitige Betrachtung mehrerer Zufallsvariablen hat meist zum Zweck, etwaige Abhängigkeiten zwischen diesen analysieren oder berücksichtigen zu können. Auf stochastischer Ebene ergibt sich eine analoge Vorgehensweise wie bei der Untersuchung empirischer Abhängigkeiten in der deskriptiven Statistik. Anstelle von empirischen Abhängigkeiten oder Unabhängigkeiten spricht man dann von stochastischen Abhängigkeiten bzw. Unabhängigkeiten. Zur formalen Untersuchung stochastischer Abhängigkeitsstrukturen ist es zunächst erforderlich, sich mit der formalen Handhabung mehrdimensionaler Wahrscheinlichkeitsverteilungen zu befassen, was sich ebenso in völliger Analogie zu den empirischen Konzepten verhält. • Zufallsvektoren • Allgemein gehen wir von n Zufallsvariablen X1 , . . . , X n aus. Insbesondere bei geringer Anzahl können natürlich auch andere Bezeichnungen gewählt werden wie etwa X und Y im Falle n = 2. Alternativ kann auch die Tupel-Schreibweise (X1 , . . . , X n ) bzw. (X, Y) verwendet werden. Mit letzterer werden die einzelnen Zufallsvariablen zu einer mehrdimensionalen Zufallsvariable X = (X1 , . . . , X n )T bzw. XT = (X1 , . . . , X n ) zusammengefasst, die auch als Zufallsvektor bezeichnet wird. Das hochgestellte Symbol „T“ steht hierbei für den transponierten Vektor. Wie bereits im univariaten Fall wird konzeptionell zwischen diskreten und stetigen Zufallsvektoren unterschieden. Hinweise zu gemischt skalierten Fällen, bei denen Zufallsvektoren sowohl diskrete als auch stetige Zufallsvariablen enthalten, finden sich als ergänzendes Thema in Abschnitt 8.3.3. • Mehrdimensionale Wahrscheinlichkeitsverteilungen • Im Folgenden werden die verteilungstheoretischen Grundlagen wie gemeinsame Verteilung, Randverteilung und bedingte Verteilung eingeführt. Während im diskreten Fall mehrdimensionale Wahrscheinlichkeitsfunktionen eine maßgebliche Rolle spielen, sind dies im stetigen Fall mehrdimensionale Dichtefunktionen. Wahrscheinlichkeiten werden in ersterem Fall über einen Additionskalkül und im letzteren Fall über einen Integrationskalkül bestimmt. Zu berechnende Ereigniswahrscheinlichkeiten lauten jetzt beispielsweise P(X1 ∈ A1 , X2 ∈ A2 ) für A1 , A2 ⊂ ℝ,

P(X1 = x1 , X2 = x2 , X3 = x3 )

oder auch P(X1 ∈ A1 |X2 ∈ A2 )

und

P(X1 = x1 |X2 = x2 , X3 = x3 ).

Der durch die Zufallsvariablen X1 , . . . , X n implizierte neue Ergebnisraum ist dann ℝn = ℝ × ℝ × ⋅ ⋅ ⋅ × ℝ,

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 291

speziell im zweidimensionalen Fall also ℝ2 = ℝ × ℝ. Das durch die mehrdimensionalen Wahrscheinlichkeitsfunktionen bzw. Dichtefunktionen auf ℝn implizierte Wahrscheinlichkeitsmaß PX = P X1 ,...,X n definiert die (gemeinsame) Wahrscheinlichkeitsverteilung der Zufallsvariablen X1 , . . . , X n bzw. des Zufallsvektors X = (X1 , . . . , X n ). Auch das mit dem Integrationskalkül einhergehende und in Abschnitt 7.1.1 beschriebene Messbarkeitsproblem im Zusammenhang stetiger Zufallsvariablen ergibt sich im mehrdimensionalen Fall in analoger Weise. Im Allgemeinen können also nur sog. messbaren Teilmengen von ℝn Wahrscheinlichkeiten zugeordnet werden. Auf inhaltliche Ausführungen hierzu wird im Weiteren verzichtet. Wir werden uns zunächst auf zweidimensionale Zufallsvariablen bzw. einen zweidimensionalen Zufallsvektor beschränken. Der besseren Lesbarkeit wegen werden wir diese mit X und Y anstatt mit X1 und X2 bezeichnen. Ebenso werden wir anstelle von „Wahrscheinlichkeitsverteilungen“ im Folgenden zur Abkürzung nur noch von „Verteilungen“ sprechen.

Zweidimensionale diskrete Zufallsvariablen

• Gemeinsame diskrete Verteilung und Randverteilungen • Gegeben seien zwei Zufallsvariablen, die der einfacheren Notation wegen mit X und Y anstelle von „X1 “ und „X2 “ bezeichnet werden. Definition 7.1.5: Gemeinsame diskrete Verteilung Zwei Zufallsvariablen X und Y sind gemeinsam diskret verteilt, falls es für endlich oder abzählbar unendlich viele 2-Tupel (a i , b j ) mit a i ∈ {a1 , a2 , . . . , a k , . . . } und b j ∈ {b1 , b2 , . . . , b l , . . . } eine Funktion f XY gibt, für die gilt: {P(X = a i , Y = b j ) = p ij , f XY (x, y) = { 0, {

(x, y) = (a i , b j ), sonst,

wobei (i) p ij ≥ 0 für alle i und j und ∞ ∞

(ii) ∑ ∑ p ij = 1. i=1 j=1

Die Funktion f XY heißt dann gemeinsame Wahrscheinlichkeitsfunktion von X und Y. Sie legt die gemeinsame Verteilung von X und Y fest. Alternativ spricht man auch vom diskreten Zufallsvektor (X, Y) mit der (zweidimensionalen) Wahr-

292 | 7 Theoretische Verteilungen und Abhängigkeiten

scheinlichkeitsfunktion f XY . Die Menge T XY = {(a i , b j ) : p ij > 0} wird als Trägermenge von (X, Y) bezeichnet. Ihre Elemente heißen Realisationsmöglichkeiten, Träger- oder Massenpunkte von (X, Y). Besitzen X und Y jeweils nur endlich viele Realisationsmöglichkeiten, so lässt sich in einer Kontingenztabelle mit Wahrscheinlichkeiten die gemeinsame Verteilung von X und Y darstellen (vgl. Tab. 7.1.1). Man beachte, dass eine solche Kontingenztabelle auch Einträge mit p ij = 0 aufweisen kann. Aus der gemeinsamen Verteilung lässt sich die jeweils eindimensionale Verteilung von X bzw. Y mittels entsprechender Summation über Spalten bzw. Zeilen berechnen. In einem mehrdimensionalen Kontext werden die Verteilungen von X und Y deshalb auch als Randverteilungen bezeichnet. Sie sind bei endlicher Trägermenge durch die Wahrscheinlichkeiten p1∙ , p2∙ , . . . , p k∙ bzw. p∙1 , p∙2 , . . . , p∙l definiert. Tab. 7.1.1: Allgemeine Gestalt einer Kontingenztabelle mit Wahrscheinlichkeiten Y

b1

b2

...

bj

...

bl

P(X = x)

a1 a2 .. . ai .. . ak

p11 p21 .. . p i1 .. . p k1

p12 p22 .. . p i2 .. . p k2

... ... .. . ...

p1j p2j

... ...

p ij

... .. .

...

p kj

...

p1l p2l .. . p il .. . p kl

p1∙ p2∙ .. . p i∙ .. . p k∙

P(Y = y)

p∙1

p∙2

...

p∙j

...

p∙l

1

X

Definition 7.1.6: Diskrete Randverteilungen Sei (X, Y) ein diskreter Zufallsvektor mit Wahrscheinlichkeitsfunktion f XY (x, y). Dann sind die (eindimensionalen) Wahrscheinlichkeitsfunktionen von X und Y gegeben durch f X (x) = P(X = x) = ∑ f XY (x, b j )

bzw.

j

f Y (y) = P(Y = y) = ∑ f XY (a i , y). i

Die durch f XY mittels f X und f Y implizierten Verteilungen von X bzw. Y werden auch als Randverteilungen von X bzw. Y bezeichnet.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 293

• Bedingte diskrete Verteilungen • Die bedingten Verteilungen ergeben sich mittels Division der gemeinsamen Verteilung durch die Randverteilungen. Bei einer Kontingenztabelle mit Wahrscheinlichkeiten können diese auch als Spalten- bzw. Zeilenverteilungen bezeichnet werden, abhängig davon, ob auf Y = y oder X = x bedingt wird. Definition 7.1.7: Bedingte diskrete Verteilungen Sei (X, Y) ein diskreter Zufallsvektor mit Wahrscheinlichkeitsfunktion f XY (x, y). Dann ist die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = y definiert als f XY (x, y) für f Y (y) > 0 f X|Y (x|y) = f Y (y) und die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x als f Y|X (y|x) =

f XY (x, y) f X (x)

für f X (x) > 0.

Die durch die bedingten Wahrscheinlichkeitsfunktionen implizierten Verteilungen von X und Y werden als bedingte Verteilung von X gegeben Y = y bzw. bedingte Verteilung von Y gegeben X = x bezeichnet. Für f Y (y) = 0 bzw. f X (x) = 0 sind die bedingten Wahrscheinlichkeitsfunktionen bzw. Verteilungen jeweils nicht definiert. • Beispiel D2-a • Für das erste Beispiel legen wir Tabelle 6.2.1 aus Abschnitt 6.2.1 zugrunde, wobei die möglichen Zufallsergebnisse über die beiden Zufallsvariablen X und Y ausgedrückt werden. Dabei gelte: X = 0 für weiblich,

Y = 0 für Raucher,

X = 1 für männlich,

Y = 1 für Gelegenheitsraucher, Y = 2 für Nichtraucher.

Die gemeinsame Verteilung ergibt sich gemäß Tabelle 7.1.2 und lässt sich auch mithilfe eines 3D-Säulendiagramms darstellen (Abb. 7.1.6, links). Gemäß oben eingeführter Notation gilt beispielsweise p11 = 0.04, p∙1 = 0.16 und p1∙ = 0.40. Die Randverteilung von X wird durch die Wahrscheinlichkeiten p∙1 = 0.16, p∙2 = 0.20 und p∙3 = 0.64 bestimmt, die Randverteilung von Y durch die Wahrscheinlichkeiten p1∙ = 0.40 und p2∙ = 0.60. Da alle p ij positiv sind, ist die Trägermenge der gemeinsamen Verteilung T XY = {0, 1, 2} × {0, 1}. Für die gemeinsame Verteilung von X und Y gemäß Tabelle 7.1.2 erhält man beispielsweise P(X = 0, Y = 0) 0.04 = = 0.25 P(X = 0|Y = 0) = P(Y = 0) 0.16

294 | 7 Theoretische Verteilungen und Abhängigkeiten

Tab. 7.1.2: Kontingenztabelle mit Wahrscheinlichkeiten für Beispiel D2-a X

Y

0

0 1 Summe

1 0.04 0.12 0.16

2 0.08 0.12 0.20

Summe 0.40 0.60 1.00

0.28 0.36 0.64

oder mit der Notation für Wahrscheinlichkeitsfunktionen f XY (0, 0) = 0.25. f X|Y (0|0) = f Y (0) Weiter gilt: P(X = 1|Y = 0) =

P(X = 1, Y = 0) 0.12 = = 0.75. P(Y = 0) 0.16

Somit implizieren die Werte f X|Y (0|0) = 0.25

f X|Y (1|0) = 0.25

und

die bedingte Verteilung von X unter Y = 0. In analoger Weise ergeben sich die beiden anderen Spaltenverteilungen, also die bedingte Verteilung von X unter Y = 1 bzw. von X unter Y = 2. Die Zeilenverteilungen ergeben sich analog, indem die gemeinsame Verteilung nun durch die Randverteilung von X dividiert wird. Beispielsweise gilt: f Y|X (0|0) =

f XY (0, 0) 0.04 = = 0.1. f X (0) 0.40

Beispiel D2−a

f X Y (x,y)

Beispiel D2−b

f X Y (x,y)

0.5

0.16 0.14

0.4

0.12 0.10

0.3

0.08 0.2

3 2

0.1

1 0

0.0 −1.0

−0.5

0.0

0.5

x

1.0

1.5

2.0

−1

y

0.06 0.04 0.02 0.00

0

1

2

3

x

4

5

6

7

0

1

2

3

4

5

6

y

Abb. 7.1.6: Gemeinsame diskrete Verteilungen

Die Tabellen 7.1.3 und 7.1.4 fassen die Spalten- bzw. Zeilenverteilungen zusammen. Abbildung 7.1.8 illustriert diese (links und zentral). Wie man sieht, wird die Ungleichverteilung von X auf die beiden Trägerpunkte 0 und 1 mit steigendem y-Wert zusehends egalisiert. Es bleibt festzuhalten, dass es nicht die eine bedingte Verteilung gibt, sondern dass die bedingte Verteilung in der Regel ein Ensemble bedingter Verteilungen für unterschiedliche bedingende Werte ist.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 295

f X (x)

f Y (y)

Beispiel D2−a

f X (x) f Y (y)

Beispiel D2−a

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

0.0

0.0 −1

0

1

2

x

3

Beispiel D2−b

0.0 −1

0

1

2

y

3

−1

1

2

3

4

5

6

7

x/y

Abb. 7.1.7: Diskrete Randverteilungen

Tab. 7.1.3: Bedingte Verteilung von X unter Y = y für Beispiel D2-a X

Y=y

0 1 Summe

y=0 0.25 0.75 1.00

y=1 0.40 0.60 1.00

y=2 0.4375 0.5625 1.00

• Beispiel D2-b • Für das zweite Beispiel betrachten wir das zweimalige Werfen eines fairen Würfels. Sei X das Ergebnis im ersten und Y das Ergebnis im zweiten Wurf. Somit besitzt die Trägermenge 36 verschiedene Elemente (x, y). Die gemeinsame Verteilung lässt sich tabellarisch oder grafisch gemäß Tabelle 7.1.5 bzw. Abbildung 7.1.6 (rechts) darstellen. Die hierbei verwendete Wahrscheinlichkeitsfunktion unterstellt ein Laplace-Modell, d. h. die einzelnen 2-Tupel werden allesamt als gleichwahrscheinlich angenommen. Man spricht dann auch von einer zweidimensionalen diskreten Gleichverteilung. Die Trägermenge der gemeinsamen Verteilung lautet somit T XY = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. Die beiden Randverteilungen von X und Y sind auf den Trägerpunkten 1 bis 6 jeweils (eindimensional) diskret gleichverteilt. Somit sind X und Y identisch verteilt. Für die bedingten Verteilungen von X unter Y = y gemäß Tabelle 7.1.5 gilt offensichtlich f XY (x, y) 1/36 = = 1/6 für alle x = 1, . . . , 6 und y = 1, . . . , 6. f X|Y (x|y) = f Y (y) 1/6 Die Spaltenverteilungen sind somit identisch und stimmen mit der Randverteilung von X überein. Analoges gilt für Y bzw. die Zeilenverteilungen, d. h. f Y|X (y|x) =

f XY (x, y) 1/36 = = 1/6 f X (x) 1/6

für alle x = 1, . . . , 6 und y = 1, . . . , 6.

Wie man sich schon denken kann, wird die Übereinstimmung der bedingten Verteilungen später bei der Konzeption der stochastischen Unabhängigkeit von Zufallsvariablen ein entscheidender Gesichtspunkt sein. • Zweidimensionale diskrete Verteilungsfunktion • Die gemeinsame Verteilungsfunktion zweier Zufallsvariablen ist von eher geringer (praktischer) Bedeutung. Sie sei

296 | 7 Theoretische Verteilungen und Abhängigkeiten

f X | Y (x|0) Beispiel D2−a

f Y | X (y|0) Beispiel D2−a

f X | Y (x|y) Beispiel D2−b f Y | X (y|x)

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

0.0

0.0 −1

0

1

2

x

3

f X | Y (x|1) Beispiel D2−a

0.0 −1

0

1

2

y

3

−1

1

2

3

4

5

6

7

x/y

f Y | X (y|1) Beispiel D2−a

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

0.0 −1

0

1

2

x

3

−1

0

1

2

y

3

f X | Y (x|2) Beispiel D2−a 0.8 0.6 0.4 0.2 0.0 −1

0

1

2

x

3

Abb. 7.1.8: Bedingte diskrete Verteilungen

Tab. 7.1.4: Bedingte Verteilung von Y unter X = x für Beispiel D2-a X=x 0 1

Y

0

1 0.1 0.2

2 0.2 0.2

0.7 0.6

Summe 1.0 1.0

allein der Vollständigkeit wegen kurz vorgestellt. Auf die Beschreibung theoretischer Eigenschaften verzichten wir. Zweidimensionale diskrete Verteilungsfunktion Sei (X, Y) ein diskreter Zufallsvektor mit Wahrscheinlichkeitsfunktion f XY (x, y). Dann ist die Verteilungsfunktion von (X, Y) oder auch gemeinsame Verteilungsfunktion von X und Y gegeben durch F XY (x, y) = P(X ≤ x, Y ≤ y) = ∑

∑ f XY (a i , b j ),

i:a i ≤x j:b j ≤y

wobei (a i , b j ) Realisationsmöglichkeiten von (X, Y) sind.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 297

Tab. 7.1.5: Kontingenztabelle mit Wahrscheinlichkeiten für Beispiel D2-b X

Y

1 2 3 4 5 6 Summe

1 1/36 1/36 1/36 1/36 1/36 1/36 1/6

2 1/36 1/36 1/36 1/36 1/36 1/36 1/6

3 1/36 1/36 1/36 1/36 1/36 1/36 1/6

4 1/36 1/36 1/36 1/36 1/36 1/36 1/6

5 1/36 1/36 1/36 1/36 1/36 1/36 1/6

6 1/36 1/36 1/36 1/36 1/36 1/36 1/6

Summe 1/6 1/6 1/6 1/6 1/6 1/6 1.0

• Beispiel D2-a fortgesetzt • Betrachten wir die gemeinsame Verteilung von X und Y aus Beispiel D2-a (Rauchen und Geschlecht). Für die Verteilungsfunktion F XY gilt dann: F XY (0, 0) = 0.04,

F XY (0, 1) = 0.12,

F XY (0, 2) = 0.40,

F XY (1, 0) = 0.16,

F XY (1, 1) = 0.36,

F XY (1, 2) = 1.00.

Zugleich gilt aber auch z.B.: F XY (0, −0.1) = 0.0, F XY (0.8, 1.5) = 0.12,

F XY (0, 0.1) = 0.04,

F XY (1.2, 2.4) = 1,

F XY (5, 0) = 0.16,

usw.

Zweidimensionale stetige Zufallsvariablen • Gemeinsame stetige Verteilung und Randverteilungen • Die im diskreten Fall behandelten Konzepte von gemeinsamer Verteilung, Randverteilungen und bedingten Verteilungen können in analoger Weise auf den stetigen Fall übertragen werden. Die Wahrscheinlichkeitsfunktion wird lediglich durch eine Dichtefunktion ersetzt und der Additionskalkül durch den Integrationskalkül. Während die Konzepte im diskreten Fall relativ anschaulich nachvollzogen werden können, fällt dies im stetigen Fall aufgrund des Dichtekonzeptes deutlich schwerer. Zudem wurden parallele empirische Konzepte im deskriptiven Teil dieses Buches nicht durchgängig entwickelt. Beispielsweise wurde auf die Einführung der zweidimensionalen Häufigkeitsdichte (zweidimensionales Histogramm) verzichtet. Definition 7.1.8: Gemeinsame stetige Verteilung Zwei Zufallsvariablen X und Y sind gemeinsam stetig verteilt, falls es eine Funktion f XY gibt, sodass für alle reellen a ≤ b und c ≤ d gilt: b d

P(a ≤ X ≤ b, c ≤ Y ≤ d) = ∫ ∫ f XY (x, y)dydx, a c

298 | 7 Theoretische Verteilungen und Abhängigkeiten

wobei (i) f XY (x, y) ≥ 0 und ∞



(ii) ∫−∞ ∫−∞ f XY (x, y)dydx = 1. Die Funktion f XY heißt dann gemeinsame Wahrscheinlichkeitsdichtefunktion, gemeinsame Dichtefunktion oder gemeinsame Dichte von X und Y. Sie legt die gemeinsame Verteilung von X und Y fest. Alternativ spricht man auch vom stetigen Zufallsvektor (X, Y) mit der (zweidimensionalen) Dichtefunktion f XY . Die Menge T XY = {(x, y) : f XY (x, y) > 0} wird als Trägermenge von (X, Y) bezeichnet. Ihre Elemente bilden Realisationsmöglichkeiten von (X, Y). Wahrscheinlichkeiten werden somit mittels Doppelintegralen über die gemeinsame Dichte ermittelt. Man beachte, dass im diskreten Fall Doppelsummen aus Einzelwahrscheinlichkeiten berechnet werden. Geometrisch lassen sich die für bestimmte Rechteckereignisse der Form [a, b] × [c, d] ⊂ ℝ2 ermittelten Wahrscheinlichkeiten als Volumina unterhalb der gemeinsamen Dichte und oberhalb des Rechteckfelds deuten (siehe Beispiel S2-a). Aus der Vorstellung von Flächen für Intervallwahrscheinlichkeiten im eindimensionalen stetigen Fall wird also die Vorstellung von Volumina für Rechteckereignisse im zweidimensionalen Fall. Aus der gemeinsamen Verteilung lassen sich die jeweils eindimensionalen Verteilungen von X und Y berechnen, die auch als Randverteilungen von X bzw. Y bezeichnet werden. Mittels Integration über die gemeinsame Dichte f XY bezüglich y erhält man die Dichte f X von X („Rausintegrieren von y“) und mittels Integration bezüglich x die Dichte f Y von Y („Rausintegrieren von x“), die auch als Randdichten bezeichnet werden. Definition 7.1.9: Stetige Randverteilungen Sei (X, Y) ein stetiger Zufallsvektor mit Dichtefunktion f XY (x, y). Dann sind die (eindimensionalen) Dichtefunktionen von X und Y gegeben durch ∞

f X (x) = ∫ f XY (x, y)dy

bzw.

−∞ ∞

f Y (y) = ∫ f XY (x, y)dx. −∞

Die durch f XY mittels der Randdichten f X und f Y implizierten Verteilungen von X bzw. Y werden auch als Randverteilungen von X bzw. Y bezeichnet.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 299

• Bedingte stetige Verteilungen • Die bedingten Verteilungen ergeben sich mittels Division der gemeinsamen Dichte durch die Randdichten. Definition 7.1.10: Bedingte stetige Verteilungen Sei (X, Y) ein stetiger Zufallsvektor mit Dichtefunktion f XY (x, y). Dann ist die bedingte Dichte von X gegeben Y = y definiert als f X|Y =

f XY (x, y) f Y (y)

für f Y (y) > 0

und die bedingte Dichte von Y gegeben X = x als f Y|X =

f XY (x, y) f X (x)

für f X (x) > 0.

Die durch die bedingten Dichten implizierten Verteilungen von X und Y werden als bedingte Verteilung von X gegeben Y = y bzw. bedingte Verteilung von Y gegeben X = x bezeichnet. Für f Y (y) = 0 bzw. f X (x) = 0 sind die bedingten Dichten bzw. Verteilungen jeweils nicht definiert. • Beispiel S2-a • Seien X und Y gemeinsam stetig verteilt gemäß der Dichtefunktion f XY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y). Abbildung 7.1.9 (links) illustriert die Dichtefunktion, die sich als schiefe Ebene über dem Rechteck [0, 1] × [0, 2] darstellt. Außerhalb dieses Rechtecks ist die Dichte gleich 0. Wir verwenden diese Dichte hauptsächlich der Einfachheit wegen. In der Praxis dürfte es kaum Fälle geben, in denen zwei stetige Merkmale gemeinsam so verteilt sind. Beispiel S2−a

Beispiel S2−b

f X Y (x,y)

f X Y (x,y)

1.0

1.0

0.5

0.5 2.0

0

1.0 0.5

x

1.0

0

y

Abb. 7.1.9: Gemeinsame stetige Verteilungen

2.0 0

1.0 0.5

x

1.0

0

y

300 | 7 Theoretische Verteilungen und Abhängigkeiten f X (x)

f Y (y)

Beispiel S2−a

f X (x) f Y (y)

Beispiel S2−a

2.0

2.0

1.5

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0

0.0 −1

0

1

2

x

Beispiel S2−b

0.0

3

−1

0

1

2

y

3

−1

0

1

2

3

x/y

Abb. 7.1.10: Stetige Randverteilungen

Beispielsweise errechnet sich jetzt die Wahrscheinlichkeit für das Ereignis {0.1 ≤ X ≤ 0.5, 0.4 ≤ Y ≤ 0.9} als 0.5 0.9

0.5 0.9

∫ ∫ f XY (x, y)dydx = ∫ ∫ (0.5x + 0.25y)I[0,1] (x)I[0,2] (y)dydx 0.1 0.4

0.1 0.4 0.5

0.9

= ∫ I[0,1] (x)( ∫ (0.5x + 0.25y)dy)dx 0.1

0.4

0.5

= ∫ [0.5xy + 0.125y2 ]

y=0.9 y=0.4

dx

0.1 0.5

= ∫ (0.45x + 0.125 ⋅ 0.92 − 0.2x − 0.125 ⋅ 0.42 )dx 0.1 0.5

= ∫ (0.25x + 0.08125)dx = [0.125x2 + 0.08125x]

0.5 0.1

0.1

= (0.03125 + 0.040625 − 0.00125 − 0.008125) = 0.0625. Prinzipiell lässt sich die Integrationsreihenfolge stets auch umkehren, d.h. es gilt hier auch 0.9 0.5

∫ ∫ f XY (x, y)dxdy = ⋅ ⋅ ⋅ = 0.0625. 0.4 0.1

Das implizit unterhalb der Dichte und oberhalb des Rechteckfelds [0.1, 0.5] × [0.4, 0.9] errechnete Volumen ist im Schaubild entsprechend illustriert. Die Randdichte von X errechnet sich als ∞



f X (x) = ∫ f XY (x, y)dy = ∫ (0.5x + 0.25y)I[0,1] (x)I[0,2] (y)dy −∞

−∞

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 301

f X | Y (x|0) Beispiel S2−a

f Y | X (y|0) Beispiel S2−a

f X | Y (x|y) f Y | X (y|x)

2.0

2.0

1.5

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0

0.0 −1

0

1

2

x

3

f X | Y (x|1) Beispiel S2−a

Beispiel S2−b

0.0 −1

0

1

2

y

3

−1

0

1

2

3

x/y

f Y | X (y|0.5) Beispiel S2−a

2.0

2.0

1.5

1.5

1.0

1.0

0.5

0.5

0.0

0.0 −1

0

1

2

x

3

f X | Y (x|2) Beispiel S2−a

−1

0

1

2

y

3

f Y | X (y|1) Beispiel S2−a

2.0

2.0

1.5

1.5

1.0

1.0

0.5

0.5

0.0

0.0 −1

0

1

2

x

3

−1

0

1

2

y

3

Abb. 7.1.11: Bedingte stetige Verteilungen (Beispiele) 2

= I[0,1] (x) ∫(0.5x + 0.25y)dy = I[0,1] (x)[0.5xy + 0.125y2 ]

y=2 y=0

0

= I[0,1] (x)(x + 0.5 − 0) = (x + 0.5)I[0,1] (x). Die Randverteilung von X ist eine linksschiefe Verteilung ähnlich einer Dreiecksform. Für die Randdichte von Y erhält man analog ∞

f Y (y) = ∫ f XY (x, y)dx = ⋅ ⋅ ⋅ = (0.25y + 0.25)I[0,2] (y). −∞

Somit sind X und Y nicht identisch verteilt. Die bedingte Dichte von X gegeben Y = y lautet f X|Y (x|y) =

f(x, y) (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) 2x + y = = I[0,1] (x), f Y (y) (0.25y + 0.25)I[0,2] (y) y+1

für y ∈ [0, 2]. Für y ∈ ̸ [0, 1] ist die bedingte Dichte nicht definiert. Die bedingte Dichte von X unter Y = y ist als Funktion in der Variablen x für festes vorgegebenes y zu interpretieren. Aus dieser allgemeinen Form lassen sich alle bedingten Verteilungen von X für vorgegebene Werte y ableiten. So lautet beispielsweise die bedingte Dichte

302 | 7 Theoretische Verteilungen und Abhängigkeiten von X gegeben Y = 0 2x + 0 I[0,1] (x) = 2xI[0,1] (x). 0+1 Die bedingte Dichte von X gegeben Y = 1 lautet dagegen f X|Y (x|0) =

2x + 1 I[0,1] (x) = (x + 0.5)I[0,1] (x) 1+1 und die bedingte Dichte von X gegeben Y = 2 f X|Y (x|1) =

2 2x + 2 2 I[0,1] (x) = ( x + )I[0,1] (x) usw. 2+1 3 3 Für y = 1 entspricht die bedingte Dichte der Randdichte von X. Für steigenden Wert von y verteilt sich die Wahrscheinlichkeitsmasse zunehmend gleichmäßig über die Trägermenge [0, 1]. Wenngleich es sich hier um Dichtefunktionen handelt, ist dieses Beispiel mit dem zweidimensionalen Beispiel D2-a in gewisser Weise vergleichbar. Die zweidimensionale Verteilung hatte auch dort in der „hinteren rechten Ecke“ der Trägermenge die größte Wahrscheinlichkeitsmasse und in der „vorderen linken Ecke“ die kleinste. Die bedingte Verteilung von X unter Y = y zeigte dann für steigenden y-Wert vergleichbares Verhalten wie jetzt im stetigen Fall (Abb. 7.1.11, erste Spalte von Schaubildern). Für die bedingte Dichte von Y gegeben X = x erhält man analog f X|Y (x|2) =

f Y|X (y|x) =

f(x, y) (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) 0.5x + 0.25y = = I[0,2] (y), f X (x) (x + 0.5)I[0,1] (x) x + 0.5

für x ∈ [0, 1]. Für x ∈ ̸ [0, 1] ist die bedingte Dichte nicht definiert. Beispielsweise erhält man dann als bedingte Dichten 0 + 0.25y I[0,2] (y) = 0.5yI[0,2] (y), 0 + 0.5 0.25 + 0.25y I[0,2] (y) = (0.25y + 0.25)I[0,2] (y), f Y|X (y|0.5) = 0.5 + 0.5 1 0.5 + 0.25y 1 I[0,2] (y) = ( y + )I[0,2] (y) usw. f Y|X (y|1) = 1 + 0.5 6 3 Für x = 0.5 stimmt die bedingte Dichte mit der Randdichte von Y überein. Für steigenden Wert von x verteilt sich die Wahrscheinlichkeitsmasse zunehmend gleichmäßig auf [0, 2]. f Y|X (y|0) =

• Beispiel S2-b • Seien X und Y gemeinsam stetig verteilt gemäß der Dichtefunktion f XY (x, y) = I[0,1] (x)I[0,1] (y). Erzeugt man beispielsweise zwei Zufallszahlen aus dem Intervall [0, 1] mit einem Standardzufallsgenerator eines gewöhnlichen Taschenrechners, so wären die beiden Zufallszahlen so wie angegeben verteilt – zumindest theoretisch betrachtet. Man spricht hier von einer zweidimensionalen stetigen Gleich- oder Rechteckverteilung. Abbildung 7.1.9 (rechts) illustriert die Dichtefunktion, die sich als quadratische über dem Rechteck [0, 1] × [0, 1] „schwebende“ Ebene darstellt. Außerhalb dieses Recht-

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 303

ecks ist die Dichte gleich 0. Es sei angemerkt, dass die Achsenskalierung des Schaubildes hier die eigentlich quadratische Form dieser Ebene in x-Richtung länglich gestreckt erscheinen lässt. Wir betrachten nun das gleiche „Rechteckereignis“ wie zuvor in Beispiel S2-a und ermitteln die Wahrscheinlichkeit für das Ereignis {0.1 ≤ X ≤ 0.5, 0.4 ≤ Y ≤ 0.9}. Dieses entspricht dem Volumen unterhalb der Ebene über dem Rechteckfeld [0.1, 0.5]×[0.4, 0.9]. Diese Wahrscheinlichkeit beträgt gemäß den Kantenlängen des korrespondierenden Würfels (0.5 − 0.1) ⋅ (0.9 − 0.4) ⋅ 1 = 0.2. Die formale Berechnung über ein Doppelintegral würde lauten: 0.5 0.9

0.5 0.9

∫ ∫ f XY (x, y)dydx = ∫ ∫ I[0,1] (x)I[0,1] (y)dydx 0.1 0.4

0.1 0.4 0.5

0.9

0.5

= ∫ I[0,1] (x)( ∫ 1dy)dx = ∫ I[0,1] (x)[y] 0.1

0.4

y=0.9 y=0.4

dx

0.1

0.5

= ∫ 1 ⋅ (0.9 − 0.4)dx = 0.5[x]

0.5 0.1

= 0.5 ⋅ (0.5 − 0.1) = 0.2.

0.1

Die Randdichte von X errechnet sich als ∞



f X (x) = ∫ f XY (x, y)dy = ∫ I[0,1] (x)I[0,1] (y)dy −∞

−∞ 1

= I[0,1] (x) ∫ 1dy = I[0,1] (x)[y]

y=1 y=0

= I[0,1] (x)(1 − 0) = I[0,1] (x).

0

Die Randverteilung von X ist eine (eindimensionale) stetige Rechteck- oder Gleichverteilung über dem Intervall [0, 1]. Für die Randdichte von Y erhält man analog ∞

f Y (y) = ∫ f XY (x, y)dx = ⋅ ⋅ ⋅ = I[0,1] (y). −∞

Somit sind X und Y identisch verteilt. Die bedingte Dichte von X gegeben Y = y lautet f X|Y (x|y) =

f(x, y) I[0,1] (x)I[0,1] (y) = = I[0,1] (x) für y ∈ [0, 1] f Y (y) I[0,1] (y)

und stimmt mit der Randdichte von X überein. Für y ∈ ̸ [0, 1] ist sie nicht definiert. Für die bedingte Dichte von Y gegeben X = x erhalten wir f Y|X (y|x) =

f(x, y) = I[0,1] (y) für x ∈ [0, 1]. f X (x)

Diese stimmt mit der Randdichte von Y überein und ist für x ∈ ̸ [0, 1] nicht definiert.

304 | 7 Theoretische Verteilungen und Abhängigkeiten

• Zweidimensionale stetige Verteilungsfunktion • Wie auch im diskreten Fall sei die gemeinsame Verteilungsfunktion zweier stetiger Zufallsvariablen primär der Vollständigkeit wegen kurz vorgestellt. Auf eine detaillierte Vorstellung theoretischer Eigenschaften wird verzichtet. Definition 7.1.11: Zweidimensionale stetige Verteilungsfunktion Sei (X, Y) ein stetiger Zufallsvektor mit Dichtefunktion f XY (x, y). Dann ist die Verteilungsfunktion von (X, Y) oder auch gemeinsame Verteilungsfunktion von X und Y gegeben durch y

x

F XY (x, y) = P(X ≤ x, Y ≤ y) = ∫ ∫ f XY (u, v)dvdu. −∞ −∞

Ist F XY (x, y) in (x, y) differenzierbar, so gilt: ∂2 F XY (x, y) = f XY (x, y). ∂x∂y

• Beispiel S2-a fortgesetzt • Betrachten wir das vorhergehende Beispiel S2-a mit Dichtefunktion f XY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y). Für x < 0 oder y < 0 gilt F XY (x, y) = 0. Für (x, y) ∈ [0, 1] × [0, 2] folgt x

y

x y

F XY (x, y) = ∫ ∫ f XY (u, v)dvdu = ∫ ∫(0.5u + 0.25v)dvdu −∞ −∞ x

0 0 2

= ∫[0.5uv + 0.125v ]

v=y v=0

x

du = ∫(0.5uy + 0.125y2 )du

0

0 2

2

= [0.25u y + 0.125uy ]

u=x u=0

= 0.25x2 y + 0.125xy2 .

Für x > 1 und y ∈ [0, 2] gilt F XY (x, y) = P(X ≤ 1, Y ≤ y) = 0.25y + 0.125y2 und für y > 2 und x ∈ [0, 1] entsprechend F XY (x, y) = P(X ≤ x, Y ≤ 2) = 0.5x2 + 0.5x. Leitet man F XY für (x, y) ∈ [0, 1] × [0, 2] partiell nach y ab, erhält man zunächst. ∂F X,Y (x, y) = 0.25x2 + 0.25xy. ∂y

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 305

Erneutes partielles Ableiten nach x ergibt schließlich ∂ (0.25x2 + 0.25xy) = 0.5x + 0.25y = f XY (x, y). ∂x

Stochastische Abhängigkeit und Unabhängigkeit • Formale Unabhängigkeitskriterien • Völlig analog zu den Kriterien für die empirische Unabhängigkeit von Merkmalen (Abschnitt 5.1.1) lauten diejenigen für die stochastische Unabhängigkeit von Zufallsvariablen. Zwei diskrete oder stetige Zufallsvariablen X und Y sind genau dann stochastisch unabhängig, falls die bedingten Verteilungen mit den jeweiligen Randverteilungen übereinstimmen. Mit der für Wahrscheinlichkeits- und Dichtefunktionen einheitlichen Notation ausgedrückt, gilt dann also formal f X|Y (x|y) = f X (x)

für alle x, y ∈ ℝ mit f Y (y) > 0 bzw.

(7.1.2)

f Y|X (y|x) = f Y (y)

für alle x, y ∈ ℝ mit f X (x) > 0.

(7.1.3)

Mit f X|Y (x|y) =

f XY (x, y) f Y (y)

und

f Y|X (y|x) =

f XY (x, y) f X (x)

folgt aus (7.1.2) und (7.1.3) die stochastische Variante des Multiplikationskriteriums f XY (x, y) = f X (x)f Y (y)

für alle x, y ∈ ℝ.

(7.1.4)

Die Kriterien (7.1.2), (7.1.3) und (7.1.4) sind folglich äquivalent. Ist eines der drei Kriterien erfüllt, so auch die anderen beiden. Ist eines der drei Kriterien nicht erfüllt, so gelten auch nicht die anderen beiden. Definition 7.1.12: Stochastische Unabhängigkeit und Abhängigkeit Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig). Dann sind folgende Aussagen äquivalent. (i) X und Y sind stochastisch unabhängig. (ii) f X|Y (x|y) = f X (x) für alle x, y ∈ ℝ mit f Y (y) > 0. (iii) f Y|X (y|x) = f Y (y) für alle x, y ∈ ℝ mit f X (x) > 0. (iv) f XY (x, y) = f X (x)f Y (y) für alle x, y ∈ ℝ. Kriterium (iv) ist das sog. Multiplikationskriterium gemäß dem sich die gemeinsame Verteilung aus dem Produkt der Randverteilungen ergibt. Trifft eine der vier Aussagen nicht zu, sind X und Y stochastisch abhängig.

306 | 7 Theoretische Verteilungen und Abhängigkeiten

• Beispiel D2-a fortgesetzt • Für das erste Beispiel mit diskreten Zufallsvariablen legen wir Tabelle 7.1.2 zugrunde. Da beispielsweise für x = 0 und y = 0 gilt P(X = 0, Y = 0) = 0.04 ≠ P(X = 0)P(Y = 0), ist das Multiplikationskriterium nicht erfüllt. Im Allgemeinen gilt also nicht f XY (x, y) = f X (x)f Y (y). Äquivalent ist dies auch aus den Darstellungen der bedingten Verteilungen in den Tabellen 7.1.3 und 7.1.4 ersichtlich bzw. aus den Schaubildern der Abbildungen 7.1.7 und 7.1.8. Die Spalten- bzw. Zeilenverteilungen stimmen nicht mit den korrespondierenden Randverteilungen überein. Die Tatsache, dass zumindest die bedingte Verteilung von X gegeben Y = 1 mit der Randverteilung von X übereinstimmt, also f X|Y (x|1) = f X (x) gilt, ist bei weitem nicht ausreichend. Somit sind X und Y (Geschlecht und Rauchverhalten) stochastisch abhängig. Auf das inhaltliche Beispiel bezogen lässt sich dies dahingegen deuten, dass die Frauen den Nichtraucherstatus stärker und den Raucherstatus weniger stark präferieren als die Männer (vgl. Tab. 7.1.4). • Beispiel D2-b fortgesetzt • Für das zweite Beispiel mit diskreten Zufallsvariablen legen wir Tabelle 7.1.5 zugrunde. Für jedes (x, y) ∈ {1, . . . , 6} × {1, . . . , 6} gilt: P(X = x, Y = y) = 1/36 = P(X = x)P(Y = y). Somit ist das Multiplikationskriterium erfüllt und X und Y (Ergebnis des 1. und 2. Würfelwurfs) sind folglich stochastisch unabhängig. Die bedingten Verteilungen stimmen mit den Randverteilungen überein und sind in diesem Fall allesamt diskrete Gleichverteilungen auf den Trägerpunkten 1 bis 6. Auf das inhaltliche Beispiel bezogen, lässt sich dies dahingegen deuten, dass die Ergebnisse der beiden Würfelwurfe sich wahrscheinlichkeitsmäßig nicht beeinflussen. • Beispiel S2-a fortgesetzt • Für das erste Beispiel mit stetigen Zufallsvariablen legen wird die Dichtefunktion f XY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) zugrunde. Wie bereits aus den vorhergehenden Berechnungen einschließlich der Schaubilder von Abbildung 7.1.11 hervorgeht, stimmen die bedingten Verteilungen nicht überein. Auch hier ist die Tatsache, dass zumindest die bedingte Verteilung von X gegeben Y = 1 mit der Randverteilung von X übereinstimmt, also f X|Y (x|1) = f X (x) gilt, nicht ausreichend. Die Zufallsvariablen X und Y sind folglich stochastisch abhängig. Außerdem ist das Multiplikationskriterium nicht erfüllt, da f XY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) ≠ f X (x)f Y (y).

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 307

Richtung und Stärke dieser Abhängigkeit wird später in Abschnitt 7.2.2 über die (stochastische) Korrelation noch näher spezifiziert und quantifiziert werden. • Beispiel S2-b fortgesetzt • Für das zweite Beispiel mit stetigen Zufallsvariablen legen wird die Dichtefunktion f XY (x, y) = I[0,1] (x)I[0,1] (y) zugrunde. Da das Multiplikationskriterium erfüllt ist, also gilt f XY (x, y) = I[0,1] (x)I[0,1] (y) = f X (x)f Y (y), sind (die beiden Zufallszahlen) X und Y stochastisch unabhängig. Die bedingten Verteilungen stimmen mit den Randverteilungen überein und sind in diesem Fall allesamt stetige Gleichverteilungen auf dem Intervall [0, 1]. Auf das inhaltliche Beispiel bezogen, lässt sich dies ähnlich wie in Beispiel D2-b (Würfel) dahingegen deuten, dass die Ergebnisse der beiden erzeugten Zufallszahlen sich wahrscheinlichkeitsmäßig nicht beeinflussen. • Die Beziehung zwischen „unabhängig“ und „identisch verteilt“ • In Beispiel D2-b sind X und Y unabhängig und identisch verteilt, so auch in Beispiel S2-b. In den Beispielen D2-a und S2-a sind X und Y abhängig und nicht identisch verteilt. Es sollte jedoch betont werden, dass die Frage der Unabhängigkeit und die Frage der identischen Verteilung nichts miteinander zu tun haben (um hier die Umschreibung „voneinander völlig unabhängig sind“ zu vermeiden). Aus dem einen kann also nicht auf das andere geschlossen werden. Am Ende von Abschnitt 7.1.1 wurde bereits die Umschreibung „identisch verteilt“ erläutert. Als Beispiel dazu wurden zwei Zufallsvariablen X und Y betrachtet, die jeweils für einen einmaligen Würfelwurf jeweils angeben, ob eine gerade oder ein ungerade Zahl gewürfelt wird, wobei X = 1, falls die Zahl gerade, und X = 0, falls die Zahl ungerade, Y = 0, falls die Zahl gerade, und Y = 1, falls die Zahl ungerade. In diesem Fall waren dann X und Y zwar identisch verteilt, jedoch „hochgradig“ abhängig. Die Beziehung zwischen „unabhängig“ und „identisch verteilt“ Zwei Zufallsvariablen können stochastisch unabhängig sein und dabei sowohl identisch als auch nicht identisch verteilt sein. Genauso können zwei Zufallsvariablen stochastisch abhängig sein und dabei sowohl identisch als auch nicht identisch verteilt sein.

308 | 7 Theoretische Verteilungen und Abhängigkeiten

Zwei Zufallsvariablen können auch unabhängig und doch nicht identisch verteilt sein. Dazu betrachte man den gleichzeitigen Wurf einer Münze (1 = Kopf, 0 = Zahl) und eines Würfels mit den jeweiligen Trägermengen T X = {0, 1} und T Y = {1, . . . , 6}. Dann gilt für jedes (x, y) ∈ T X × T Y : P(X = x, Y = y) = P(X = x)P(Y = y) = 1/2 ⋅ 1/6 = 1/12, sofern ein Laplace-Modell unterstellt wird. Die beiden Zufallsergebnisse beeinflussen sich dann annahmegemäß nicht gegenseitig (was ja realistisch erscheint). Offensichtlich sind X und Y jedoch verschieden verteilt, da sie bereits unterschiedliche Trägermengen besitzen. • Implizierte Unabhängigkeit von Ereignissen • Sind X und Y unabhängig, so folgt daraus die Unabhängigkeit beliebiger Ereignisse der Form {X ∈ A} und {Y ∈ B}, wobei A und B Intervalle oder andere (messbare) Teilmengen von ℝ sein können. Wir können uns diesen Sachverhalt anhand zwei einfacher Beispiele klar machen. Betrachten wir zunächst den zweimaligen Würfelwurf (vorhergehendes Beispiel D2-a). Sei X das Ergebnis im 1. Wurf und Y das Ergebnis im 2. Wurf. Unter Beachtung der Trägermengen von X und Y gilt dann z.B. für A = (−∞, 2] und B = [1.2, 2.8): P(X ∈ A, Y ∈ B) = P(X ≤ 2, Y = 2) = P(X = 1, Y = 2) + P(X = 2, Y = 2). Wegen der Unabhängigkeit von X und Y folgt nun aber mit dem Multiplikationskriterium P(X = 1, Y = 2) + P(X = 2, Y = 2) = P(X = 1)P(Y = 2) + P(X = 2)P(Y = 2) = [P(X = 1) + P(X = 2)]P(Y = 2) = P(X ≤ 2)P(Y = 2). Insgesamt gilt dann also P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B). Damit folgt dann auch P(X ∈ A|Y ∈ B) = P(X ∈ A) und P(Y ∈ B|X ∈ A) = P(Y ∈ B), sofern P(Y ∈ B) > 0 bzw. P(X ∈ A) > 0. Im stetigen Fall wird der Additionskalkül durch einen entsprechenden Integrationskalkül ersetzt. Sind also X und Y gemeinsam stetig verteilt gemäß einer Dichte f XY (x, y), so folgt unmittelbar mit dem Multiplikationskriterium 2 2.8

2 2.8

P(X ∈ A, Y ∈ B) = ∫ ∫ f XY (x, y)dydx = ∫ ∫ f X (x)f Y (y)dydx −∞ 1.2 2

−∞ 1.2 2.8

2

= ∫ f X (x)( ∫ f Y (y)dy)dx = ∫ f X (x)P(Y ∈ B)dx −∞

1.2

−∞

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 309

2

= ( ∫ f X (x)dx)P(Y ∈ B) = P(X ∈ A)P(Y ∈ B). −∞

Satz 7.1.3: Unabhängige Zufallsvariablen implizieren unabhängige Ereignisse Sind X und Y unabhängige Zufallsvariablen und A und B beliebige (messbare) Teilmengen von ℝ, dann gilt (i) P(X ∈ A|Y ∈ B) = P(X ∈ A), falls P(Y ∈ B) > 0. (ii) P(Y ∈ B|X ∈ A) = P(Y ∈ B), falls P(X ∈ A) > 0. (iii) P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B).

Höherdimensionale Wahrscheinlichkeitsverteilungen • Allgemeines • Alle bisher behandelten Konzepte für gemeinsame Verteilung, Randverteilungen, bedingte Verteilungen und stochastische Unabhängigkeit bzw. Abhängigkeit für zwei Zufallsvariablen können ohne weiteres (so wie man es sich ohnehin denken würde) auf n Zufallsvariablen X1 , . . . , X n bzw. auf einen Zufallsvektor (X1 , . . . , X n )T , übertragen werden. Nur einige wenige neue Aspekte kommen hinzu. Zu diesen zählen insbesondere die stochastische Unabhängigkeit bzw. Abhängigkeit von Zufallsvektoren sowie das Konzept der bedingten Unabhängigkeit bzw. Abhängigkeit. Beide Themen werden später in Abschnitt 8.3.1 eingehender besprochen. Da der zweidimensionale Fall bereits ausführlich behandelt wurde, werden die wesentlichen Resultate für den n-dimensionalen Fall nun deutlich weniger formal sondern eher skizzenhaft aufbereitet und anhand einiger Beispiele für den Fall n = 3 illustriert. Auf die Besprechung n-dimensionaler Verteilungsfunktionen wird verzichtet. • n-dimensionale gemeinsame Verteilungen • Man betrachte n Zufallsvariablen X1 , . . . , X n , die entweder gemeinsam diskret oder gemeinsam stetig verteilt sind. Im diskreten Fall wird die gemeinsame Verteilung durch eine n-dimensionale Wahrscheinlichkeitsfunktion und im stetigen Fall durch eine n-dimensionale Dichtefunktion festgelegt. Für beide Fälle notieren wird diese mit f X1 X2 ...X n (x1 , x2 , . . . , x n ). Dabei gilt im diskreten Fall f X1 X2 ...X n (x1 , x2 , . . . , x n ) = P(X1 = x1 , X2 = x2 , . . . , X n = x n ). und im stetigen Fall

310 | 7 Theoretische Verteilungen und Abhängigkeiten P(a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , a n ≤ X n ≤ b n ) b1 b2

bn

= ∫ ∫ ⋅ ⋅ ⋅ ∫ f X1 X2 ...X n (x1 , x2 , . . . , x n )dx n . . . dx2 dx1 . a1 a2

an

• Randverteilungen • Die (eindimensionalen) Randverteilungen von X1 bis X n ergeben sich mittels entsprechender Addition bzw. Integration über jeweils alle anderen Variablen und werden mit f X1 (x1 ), f X2 (x2 ), . . . , f X n (x n ) notiert. Die späteren Beispiele mögen zur Anschauung genügen. Ein neu hinzukommender Aspekt ist, dass nun auch mehrdimensionale Randverteilungen gebildet werden können. Beispielsweise könnte die gemeinsame Verteilung von X1 und X2 , notiert als f X1 X2 (x1 , x2 ), auch als zweidimensionale Randverteilung der gemeinsamen Verteilung von X1 , X2 und X3 , notiert als f X1 X2 X3 (x1 , x2 , x3 ), erachtet werden. Zur Ermittlung dieser zweidimensionalen Randverteilung würde dann entsprechend nur über die Variable x3 hinweg addiert bzw. integriert. • Bedingte Verteilungen • Die bedingten Verteilungen ergeben sich analog zum zweidimensionalen Fall, indem eine gemeinsame Verteilung durch eine ein- oder eben nun auch eine mehrdimensionale Randverteilung dividiert wird. So wäre beispielsweise die bedingte Verteilung von X1 gegeben X2 = x2 , X3 = x3 , . . . , X n = x n bestimmt über die bedingte Dichte f X1 |X2 X3 ...X n (x1 |x2 , x3 , . . . , x n ) =

f X1 X2 ...X n (x1 , x2 , . . . , x n ) , f X2 X3 ...X n (x2 , x3 , . . . , x n )

die bedingte Verteilung von (X1 , X2 )T gegeben X3 = x3 über f X1 X2 |X3 (x1 , x2 |x3 ) =

f X1 X2 X3 (x1 , x2 , x3 ) f X3 (x3 )

und die bedingte Verteilung von (X1 , X2 )T gegeben X3 = x3 und X4 = x4 über f X1 X2 |X3 X4 (x1 , x2 |x3 , x4 ) =

f X1 X2 X3 X4 (x1 , x2 , x3 , x4 ) usw. f X3 X4 (x3 , x4 )

• Stochastische Unabhängigkeit mehrerer Zufallsvariablen • Ähnlich wie bei der Betrachtung mehrerer Zufallsereignisse genügt es auch im Falle von Zufallsvariablen nicht, stochastische Unabhängigkeit lediglich für paarweise Betrachtungen zu definieren. Um dies einzusehen, müssen wir lediglich das Beispiel von Abbildung 6.2.8

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 311

(Abschnitt 6.2.2) mittels binärer Zufallsvariablen X1 , X2 und X3 fassen. Aus der daraus resultierenden Abbildung 7.1.12 kann dann leicht abgeleitet werden, dass gilt: P(X i = 0) = P(X i = 1) = 0.5

für i = 1, 2, 3.

Ebenso leicht ersichtlich ist dann beispielsweise, dass gilt: P(X1 = 0, X2 = 0) = P(X1 = 1, X2 = 0) = P(X1 = 0, X2 = 1) = P(X1 = 1, X2 = 1) = 0.25. Aufgrund des Multiplikationskriteriums folgt somit die Unabhängigkeit von X1 und X2 , da für alle 2-Tupel (x1 , x2 ) ∈ {0, 1} × {0, 1} gilt: P(X1 = x1 , X2 = x2 ) = P(X1 = x1 )P(X2 = x2 ). Analoges gilt für X1 und X3 und X2 und X3 . Jedoch ist beispielsweise P(X3 = 1|X1 = 1, X2 = 1) = 0.75 ≠ P(X3 = 1) = 0.5. Somit ist X3 zwar von X1 und auch von X2 unabhängig, jedoch nicht von X1 und X2 zusammen betrachtet. Später werden wir auch sagen (Abschnitt 8.3.1), dass X3 vom Vektor (X1 , X2 )T abhängig ist. Die paarweise Unabhängigkeit von X1 , X2 und X3 Zufallsvariablen schließt diese Form von Abhängigkeit also nicht aus. Die (vollständige) Unabhängigkeit mehrerer Zufallsvariablen wird nun wie folgt gefasst. Definition 7.1.13: Stochastische Unabhängigkeit mehrerer Zufallsvariablen Die Zufallsvariablen X1 , . . . , X n (diskret oder stetig) sind (vollständig) stochastisch unabhängig, falls deren gemeinsame Verteilung dem Produkt der eindimensionalen Randverteilungen entspricht, d.h. falls für alle x1 , x2 , . . . , x n ∈ ℝ gilt: f X1 X2 ...X n (x1 , x2 , . . . , x n ) = f X1 (x1 )f X2 (x2 ) . . . f X n (x n ). Trifft dieses Multiplikationskriterium nicht zu, sind sie stochastisch abhängig.

• Implizierte Unabhängigkeiten • Ähnlich wie bei Zufallsereignissen folgt dann aus der Unabhängigkeit mehrerer Zufallsvariablen deren paarweise Unabhängigkeit. Betrachten wir dazu als Beispiel drei unabhängige stetige Zufallsvariablen mit gemeinsamer Dichte f X1 X2 X3 (x1 , x2 , x3 ) = f X1 (x1 )f X2 (x2 )f X3 (x3 ).

312 | 7 Theoretische Verteilungen und Abhängigkeiten

0.75

1

0.1875

0.25

0

0.0625

0.25

1

0.0625

0.75 X 3 | X 1, X 2 0.25

0

0.1875

1

0.0625

0.75

0

0.1875

0.75

1

0.1875

0.25

0

0.0625

1

0.5 1 0.5

0.5 X1

0

X2 | X1

0.5

1

0.5 0 0.5

0

Abb. 7.1.12: Paarweise, aber nicht vollständig unabhängige Zufallsvariablen

Dann ergibt sich die gemeinsame Verteilung von X1 und X2 durch Integration über x3 , d.h. ∞

f X1 X2 (x1 , x2 ) = ∫ f X1 X2 X3 (x1 , x2 , x3 )dx3 . −∞

Wegen der Unabhängigkeit aller drei Zufallsvariablen folgt dann unmittelbar ∞

f X1 X2 (x1 , x2 ) = ∫ f X1 (x1 )f X2 (x2 )f X3 (x3 )dx3 −∞ ∞

= f X1 (x1 )f X2 (x2 ) ∫ f X3 (x3 )dx3 = f X1 (x1 )f X2 (x2 ). −∞

Die zweite Gleichung gilt, da alle von x3 unabhängigen Bestandteile des Integranden vor das Integral gezogen werden können. Die dritte Gleichung gilt, da das Integral über die Randdichte von X3 genau 1 ergeben muss. Analog folgt die Unabhängigkeit von X1 und X3 und von X2 und X3 . Allgemein gilt folgendes: Satz 7.1.4: Implizierte Unabhängigkeiten Sind die Zufallsvariablen X1 , . . . , X n (vollständig) unabhängig, so auch jede kleinere Teilauswahl aus diesen. Insbesondere folgt daraus die paarweise Unabhängigkeit.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 313

Unabhängige Zufallsvariablen implizieren unabhängige Ereignisse. Für beliebige (messbare) Teilmengen A1 , A2 , . . . , A n von ℝ gilt deshalb stets: P(X1 ∈ A1 , X2 ∈ A2 , . . . , X n ∈ A n ) = P(X1 ∈ A1 )P(X2 ∈ A2 ) . . . P(X n ∈ A n ).

Im Falle dreier unabhängiger diskreter Zufallsvariablen würde demnach gelten P(X1 = x1 , X2 = x2 , X3 = x3 ) = P(X1 = x1 )P(X2 = x2 )P(X3 = x3 ). Daraus würde dann, um auf das Beispiel von Abbildung 7.1.12 nochmals zurückzukommen, beispielsweise auch folgen P(X1 = x1 , X2 = x2 , X3 = x3 ) P(X1 = x1 , X2 = x2 ) P(X1 = x1 )P(X2 = x2 )P(X3 = x3 ) = = P(X3 = x3 ), P(X1 = x1 )P(X2 = x2 )

P(X3 = x3 |X1 = x1 , X2 = x2 ) =

ebenso wie P(X1 = x1 , X2 = x2 , X3 = x3 ) P(X3 = x3 ) P(X1 = x1 )P(X2 = x2 )P(X3 = x3 ) = P(X1 = x1 , X2 = x2 ). = P(X3 = x3 )

P(X1 = x1 , X2 = x2 |X3 = x3 ) =

• Beispiel D3-a • Tabelle 7.1.6 zeigt ein Beispiel einer dreidimensionalen diskreten Verteilung. Die Realisationsmöglichkeiten von Y sind 0, 1 und 2, die von X und Z jeweils 0 und 1. Gemäß Lesart der Tabelle gilt dann beispielsweise P(X = 0, Y = 0, Z = 0) = 0.04, P(X = 0, Y = 0, Z = 1) = 0.07 oder P(X = 1, Y = 2, Z = 1) = 0.04. In Anlehnung an Beispiel D2-a könnte man sich vorstellen, die Tabelle fasse das Ergebnis einer Studie zusammen, im Rahmen derer der Zusammenhang zwischen Geschlecht (X), Rauchverhalten (Y) und Ernährungsweise (Z) untersucht wurde. Dabei gelte: X = 0 für weiblich,

Y = 0 für Raucher,

Z = 0 für nichtvegetarisch,

X = 1 für männlich,

Y = 1 für Gelegenheitsraucher,

Z = 1 für vegetarisch.

Y = 2 für Nichtraucher,

Empirisch gedeutet beträgt der Anteil von weiblichen Personen, die niemals rauchen und sich nichtvegetarisch ernähren, folglich bei 26%. Der Anteil von männlichen Personen, die regelmäßig rauchen und sich vegetarisch ernähren, liegt bei 1%. Alternativ kann die gemeinsame Verteilung auch über Tupel und deren Wahrscheinlichkeiten gemäß Tabelle 7.1.7 spezifiziert werden. Jede Darstellungsart hat ihre Vor- und Nachteile. Eine Tupel-Darstellung erleichtert beispielsweise das gezielte Ab-

314 | 7 Theoretische Verteilungen und Abhängigkeiten

Tab. 7.1.6: Gemeinsame Verteilung von Beispiel D3-a Z=0 X

Y

0

0 1 Summe

X

Y

0 1 Summe

1 0.04 0.11 0.15

2

0.07 0.10 0.17 Z=1

0

1 0.00 0.01 0.01

0.26 0.32 0.58

Summe 0.37 0.53 0.90

0.02 0.04 0.06

Summe 0.03 0.07 0.10

2 0.01 0.02 0.03

lesen von Ausprägungskombinationen und Randverteilungen. Dafür fällt die Analyse stochastischer Abhängigkeiten etwas schwerer als in einer mehrdimensionalen Tabelle. Tab. 7.1.7: Tupel-Darstellung für die gemeinsame Verteilung von Beispiel D3-a Tupel (0, 0, 0) (0, 1, 0) (0, 2, 0) (1, 0, 0) (1, 1, 0) (1, 2, 0)

Wahrsch. 0.04 0.07 0.26 0.11 0.10 0.32

Tupel (0, 0, 1) (0, 1, 1) (0, 2, 1) (1, 0, 1) (1, 1, 1) (1, 2, 1)

Wahrsch. 0.00 0.01 0.02 0.01 0.02 0.04

Aus der gemeinsamen dreidimensionalen Verteilung lassen sich nun über Addition alle möglichen Randverteilungen ermitteln. Addiert man jeweils nur über eine Variable, erhält man zunächst die zweidimensionalen Randverteilungen. Die gemeinsame Verteilung von X und Y ergibt sich durch Addition über Z. Diese erhält man über zellenweises Addieren der oberen und unteren Hälften von Tabelle 7.1.6. Daraus resultiert dann genau Tabelle 7.1.2 aus Beispiel D2-a. Die gemeinsame Verteilung von X und Z ergibt sich durch Addition über Y und entspricht den jeweils letzten Spalten der oberen und unteren Hälften von Tabelle 7.1.6 (Tab. 7.1.8, links). Die gemeinsame Verteilung von Z und Y schließlich ergibt sich durch Addition über X. (Tab. 7.1.8, rechts). Im vorliegenden Fall entspricht dies gerade den jeweils letzten Zeilen der oberen und unteren Hälften von Tabelle 7.1.6. Aus den zweidimensionalen Randverteilungen können weiter die eindimensionalen Randverteilungen anhand der Zeilen- bzw. Spaltensummen abgeleitet werden. Beispielsweise ist leicht ersichtlich, dass die Wahrscheinlichkeit für den Status „Vegetarier“ 10% beträgt. Außerdem leicht ersichtlich ist, dass keine paarweise Unabhängigkeit vorliegt. Tatsächlich entspricht keine einzige der drei zweidimensionalen Randverteilungen dem Produkt der jeweiligen eindimensionalen Randverteilungen ergeben.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 315

Tab. 7.1.8: Zweidimensionale Randverteilungen von Beispiel D3-a X

Z

0 1 P(Z = z)

0 0.37 0.53 0.90

1 0.03 0.07 0.10

P(X = x) 0.40 0.60 1.00

Z

Y

0 1 P(Y = y)

0 0.15 0.01 0.16

1 0.17 0.03 0.20

2 0.58 0.06 0.64

P(Z = z) 0.90 0.10 1.00

Die bedingte Verteilung von Z gegeben X = x und Y = y wird über die bedingte Wahrscheinlichkeitsfunktion f XYZ (x, y, z) f Z|XY (z|x, y) = f XY (x, y) bestimmt. Beispielsweise gilt dann für X = 0 und Y = 0 (vgl. Tab. 7.1.2 und 7.1.6): 0.04 0 = 1 und f Z|XY (1|0, 0) = = 0. 0.04 0.04 Da die gemeinsame Verteilung X und Y insgesamt 6 Trägertupel aufweist, gibt es für Z folglich insgesamt 6 bedingte Verteilungen. Tabelle 7.1.9 fasst diese zusammen. Beispielsweise beträgt die Wahrscheinlichkeit für den Status „Vegetarier“ (Z = 1) unter weiblichen Nichtrauchern 7% und unter männlichen Nichtrauchern 11%. f Z|XY (0|0, 0) =

Tab. 7.1.9: Bedingte Verteilung von Z gegeben X = x und Y = y Z

(x, y)

0 1 Summe

(0,0) 1.0 0.0 1.0

(0,1) 0.875 0.125 1.00

(0,2) 0.93 0.07 1.00

(1,0) 0.92 0.08 1.00

(1,1) 0.83 0.17 1.00

(1,2) 0.89 0.11 1.00

Die bedingte Verteilung von (X, Y)T gegeben Z = z wird dagegen über die bedingte Wahrscheinlichkeitsfunktion f XYZ (x, y, z) f XY|Z (x, y|z) = f Z (z) bestimmt. Beispielsweise gilt dann für Z = 0: 0.04 0.07 ≈ 0.04, f XY|Z (0, 1|0) = ≈ 0.08, 0.9 0.9 0.26 0.11 ≈ 0.29, f XY|Z (0, 0|1) = ≈ 0.12, f XY|Z (0, 2|0) = 0.9 0.9 0.10 0.32 ≈ 0.11, f XY|Z (0, 2|0) = ≈ 0.36. f XY|Z (0, 1|0) = 0.9 0.9 Da die Verteilung von Z die Trägerpunkte 0 und 1 aufweist, gibt es zwei verschiedene bedingte Verteilungen. Tabelle 7.1.10 fasst diese zusammen. Beispielsweise beträgt die Wahrscheinlichkeit für die Kombination „weiblich und Nichtraucher“ (X = 0, Y = 2) unter Nichtvegetariern 29% und unter Vegetariern 20%. Man beachte, dass die jeweiligen Randverteilungen den (eindimensionalen) bedingten Verteilungen von X unter f XY|Z (0, 0|0) =

316 | 7 Theoretische Verteilungen und Abhängigkeiten Z = z bzw. von Y unter Z = z entsprechen. So beträgt die Wahrscheinlichkeit für den Status „Nichtraucher“ unter Nichtvegetariern demnach 65% und unter Vegetariern 60%. Die unter den Bedingungen z = 0 und z = 1 auftretenden Abhängigkeiten zwischen X und Y (Tab. 7.1.10, links bzw. rechts) werden auch als bedingte Abhängigkeiten bezeichnet (vgl. Abschnitt 8.3.1). Tab. 7.1.10: Bedingte Verteilung von (X, Y)T gegeben Z = z von Beispiel D3-a z=0 Y X 0 1 Σ

0

1

2

Σ

0.04 0.12 0.16

0.08 0.11 0.19

0.29 0.36 0.65

0.41 0.59 1.00

0.60

● 1

0.20

0.20

0.60

z=1 Y X 0 1 Σ

● ●

0.40

0.70 0 ●

0.20

0.10

0.89 0.17

1

0 ●

Y |X

X

0.11

2

0.83 0.08 0.92

0

1

2

Σ

0.00 0.10 0.10

0.10 0.20 0.30

0.20 0.40 0.60

0.30 0.70 1.00

1 ● 0 ● 1 ● 0 ● 1 ● 0 ●

0.04 0.32 0.02 0.10 0.01 0.11

Z | X, Y 2 ● 1 ● 0 ●

1 ● 0 0.93 ● 0.125 1 ● 0 0.875 ● 0 1 ● 0 1 ● 0.07

0.02 0.26 0.01 0.07 0 0.04

Abb. 7.1.13: Wahrscheinlichkeitsbaum für Beispiel D3-a

Da sich die bedingten Verteilungen in den Tabellen 7.1.9 und 7.1.10 unterscheiden, sind X, Y und Z abhängig. Somit besteht weder vollständige noch paarweise Unabhängigkeit. Die Abhängigkeitsstruktur ließe sich insgesamt auch im Rahmen eines

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 317

Wahrscheinlichkeitsbaumes fassen. In Abbildung 7.1.13 wurden dazu nacheinander die Wahrscheinlichkeiten der Verteilungen bzw. bedingten Verteilungen von X (1. Stufe), Y (2. Stufe) und Z (3. Stufe) bestimmt. Die Verteilung von X kann der Randverteilung von Tabelle 7.1.8 entnommen werden, die bedingte Verteilung von Y unter X = x entspricht den Zeilenverteilungen von Tabelle 7.1.2 und ist mit Tabelle 7.1.4 identisch, und die bedingte Verteilung von Z unter X = x und Y = y entspricht Tabelle 7.1.9. Sämtliche Pfadwahrscheinlichkeiten können auch Tabelle 7.1.6 bzw. 7.1.7 entnommen werden. • Beispiel S3-a • Der Vollständigkeit halber werfen wir auch kurz einen Blick auf eine dreidimensionale stetige Verteilung. Seien X, Y und Z gemeinsam stetig verteilt gemäß der Dichte f XYZ (x, y, z) = (0.5x + 0.5yz)I[0,1] (x)I[0,2] (y)I[0,1] (z). Eine einfache grafische Veranschaulichung dieser Verteilung gibt es nicht. Zur Bestimmung von Ereigniswahrscheinlichkeiten sind nun Dreifachintegrale zu berechnen. Beispielsweise errechnet sich die Wahrscheinlichkeit für das Ereignis {0 ≤ X ≤ 0.5, 0 ≤ Y ≤ 1, 0 ≤ Z ≤ 0.5} als 0.5 1 0.5

0.5 1 0.5

∫ ∫ ∫ f XYZ (x, y, z)dzdydx = ∫ ∫ ∫ (0.5x + 0.5yz)dzdydx 0 0 0

0 0 0

0.5 1

= ∫ ∫[0.5xz + 0.25yz2 ]

z=0.5 z=0

0.5 1

dydx = ∫ ∫(0.25x + 0.0625y)dydx

0 0

0 0

0.5

= ∫ [0.25xy + 0.03125y2 ]

y=1 y=0

0.5

dx = ∫ (0.25x + 0.03125)dx

0

0 2

= [0.125x +

0.5 0.03125x]0

= 0.046875.

Die Wahrscheinlichkeit {0 ≤ X ≤ 1, 0 ≤ Y ≤ 2, 0 ≤ Z ≤ 1} muss indes 1 ergeben, da diese Wahrscheinlichkeit dem Dreifachintegral über die gesamte Dichte entspricht. Die eindimensionale Randdichte von Z ergibt sich mittels Integration der gemeinsamen Dichte über x und y. Daraus erhält man dann 1 2

1 2

f Z (z) = ∫ ∫ f XYZ (x, y, z)dydx = ∫ ∫(0.5x + 0.5yz)I[0,1] (z)dydx 0 0

0 0 1

= I[0,1] (z) ∫[0.5x + 0.5yz] 0

= I[0,1] (z)[0.5x2 + zx]

y=2 y=0

1

dx = I[0,1] (z) ∫(x + z)dx 0

x=1 x=0

= (z + 0.5)I[0,1] (z).

318 | 7 Theoretische Verteilungen und Abhängigkeiten

Die zweidimensionale Randdichte von X und Y ergibt sich dagegen mittels Integration der gemeinsamen Dichte über z. Daraus erhält man exakt die Dichte aus Beispiel S2-a. 1

1

f XY (x, y) = ∫ f XYZ (x, y, z)dz = ∫(0.5x + 0.5yz)I[0,1] (x)I[0,2] (y)dz 0

= [0.5xz + 0.25yz2 ]

0 z=1 z=0

I[0,1] (x)I[0,2] (y)

= (0.5x + 0.25y)I[0,1] (x)I[0,2] (y). Daraus folgt, dass die Randdichten von X und Y (wie in Beispiel D2-a) gegeben sind durch f X (x) = (x + 0.5)I[0,1] (x)

bzw.

f Y (y) = (0.25y + 0.25)I[0,2] (y).

Folglich sind X und Z identisch verteilt, da sie identische Dichtefunktionen besitzen. Analog erhalten wir für die zweidimensionalen Randdichten von X und Z und von Y und Z: f XZ (x, z) = (x + z)I[0,1] (x)I[0,1] (z) bzw. f YZ (y, z) = (0.5yz + 0.25)I[0,2] (y)I[0,1] (z). Die bedingte Verteilung von Z gegeben X = x und Y = y ist über die eindimensionale bedingte Dichte f XYZ (x, y, z) 0.5x + 0.5yz = I[0,1] (z) f XY (x, y) 0.5x + 0.25y x + yz I[0,1] (z) = x + 0.5y

f Z|XY (z|x, y) =

für x ∈ [0, 1] und y ∈ [0, 2] bestimmt. Beispielsweise gilt dann f Z|XY (z|0, 2) = 2zI[0,1] (z)

oder

2 2 f Z|XY (z|1, 1) = ( z + )I[0,1] (z). 3 3

Die bedingte Verteilung von (X, Y)T gegeben Z = z ist über die zweidimensionale bedingte Dichte f XYZ (x, y, z) 0.5x + 0.5yz = I[0,1] (x)I[0,2] (y) f Z (z) z + 0.5 x + yz I[0,1] (x)I[0,2] (y) = 2z + 1 für z ∈ [0, 1] bestimmt. Abbildung 7.1.14 zeigt dann beispielsweise die bedingten Dichten für z = 0 und z = 1, d.h. x+y I[0,1] (x)I[0,2] (y). f XY|Z (x, y|0) = xI[0,1] (x)I[0,2] (y) bzw. f XY|Z (x, y|1) = 3 f XY|Z (x, y|z) =

Für z = 0.5 stimmt die bedingte Verteilung von (X, Y)T mit der Verteilung von (X, Y)T überein. Die entsprechende Dichtefunktion kann Abbildung 7.1.9 (links) entnommen werden.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 319

Die unter verschiedenen Werten für z auftretenden Abhängigkeiten zwischen X und Y werden auch als bedingte Abhängigkeiten bezeichnet (Abschnitt 8.3.1). Beispiel S3−a für z = 0

Beispiel S3−a für z = 1

f X Y | Z (x,y | 0)

f X Y | Z (x,y | 1)

1.0

1.0

0.5

0.5 2.0

0

1.0 0.5

x

1.0

y

0

2.0 0

1.0 0.5 1.0

x

0

y

Abb. 7.1.14: Bedingte Verteilung von (X, Y)T gegeben Z = z von Beispiel S3-a

Die bedingten Verteilungen unterscheiden sich hier allesamt. Für steigende Werte von Z findet sich z.B. zunehmend Wahrscheinlichkeitsmasse in der „hinteren linken Ecke“ (kleine x- und große y-Werte werden wahrscheinlicher) der Trägermenge. Damit sind X, Y und Z auf jeden Fall nicht vollständig unabhängig, d.h. es gilt: f XYZ (x, y, z) ≠ f X (x)f Y (y)f Z (z). Da zudem auch f XY (x, y) ≠ f X (x)f Y (y),

f XZ (x, z) ≠ f X (x)f Z (z)

und

f YZ (y, z) ≠ f Y (y)f Z (z)

gilt, bestehen zwischen X, Y und Z auch keinerlei paarweise Unabhängigkeiten.

7.1.3 Verteilung von Funktionen von Zufallsvariablen Funktionen einer Zufallsvariable • Hintergrund • Aus verschiedenen Gründen ist es häufig notwendig oder zumindest von Interesse, bestimmte Funktionen von Zufallsvariablen in Betracht zu ziehen. Die empirische Entsprechung davon wäre eine Betrachtung transformierter Beobachtungswerte. So könnte man etwa anstelle der metrischen Beobachtungswerte x1 , x2 , . . . , x n die quadrierten Werte u1 = x21 , u2 = x22 , . . . , u n = x2n oder die linear transformierten Werte z1 , z2 , . . . , z n mit z i = a + bx i

für i = 1, . . . , n

in Betracht ziehen. Ersterer Fall mag bei der Berechnung der empirischen Varianz von Interesse sein, letzterer Fall beispielsweise bei einer Umskalierung oder bei einer

320 | 7 Theoretische Verteilungen und Abhängigkeiten

z-Standardisierung (Abschnitt 4.6). Diese Konzepte lassen sich nun aus sehr ähnlichen Gründen auf die theoretische Ebene von Zufallsvariablen und Wahrscheinlichkeitsverteilungen übertragen. Zur Definition und Berechnung der theoretischen Varianz (Abschnitt 7.2.1) einer Zufallsvariable X etwa wird dann die transformierte Größe U = X 2 benötigt. Wie im empirischen Fall ist von besonderem Interesse, ob und inwiefern sich die Verteilungen der transformierten Größen und damit einhergehende statistische Kennwerte verändern. Dabei erweist sich die analytische Ermittlung der Verteilung einer transformierten Zufallsvariable, insbesondere im stetigen Fall, häufig als schwierig. Deshalb werden transformierte Zufallsvariablen in mathematischeren Lehrbüchern meist in einem eigenen Abschnitt mit der Vorstellung spezifischer Techniken und formaler Sätze (sog. Transformations- und Faltungssätze) behandelt. Wir werden uns im Folgenden lediglich auf einfach verständliche und unproblematische Beispiele konzentrieren. Auf exakte Sätze und formale Beweise wird verzichtet. Allgemein gilt zunächst einmal nur festzuhalten: Funktionen von Zufallsvariablen sind i.A. wiederum Zufallsvariablen. Im Rahmen einer genaueren mathematischen Behandlung werden jedoch nicht alle Arten von Funktionen zugelassen. Dies hängt wiederum mit dem Messbarkeitsproblem zusammen. So gewährleisten nur sog. messbaren Funktionen, dass alle messbaren Mengen (Ereignisse) im Rahmen einer Transformation weiterhin messbar bleiben. Nicht messbare Funktionen sind jedoch schwierig zu konstruieren und besitzen für uns keine praktische Relevanz. • Beispiele: Funktionen einer Zufallsvariable • 0-1-Variable: Betrachten wir als einfaches Einstiegsbeispiel zunächst eine sog. Bernoulli-Variable X, die lediglich die Werte 0 und 1 annehmen kann. Dabei gelte P(X = 0) = 0.9

und

P(X = 1) = 0.1.

objekttechnisch eine Zufallsvariable, welche gerade die quadrierDann wäre U = ten Realisationen von X angibt. Für X = 0 gilt dann also U = 02 = 0 und für X = 1 gilt U = 12 = 1. Daraus folgt: X2

P(U = 0) = 0.9

und

P(U = 1) = 0.1.

Damit wären in diesem Fall X und U identisch verteilt, da die Wahrscheinlichkeitsfunktionen von X und U übereinstimmen. In diesem Fall hätte die Transformation verteilungsmäßig keinerlei Effekt. Dies ist natürlich nicht der Regelfall. Hier liegt das einfach nur daran, dass die Zahlen 0 und 1 beim Quadrieren unverändert bleiben. 0-2-Variable: Definiere nun P(X = 0) = 0.9

und

P(X = 2) = 0.1.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 321

Für X = 0 gilt jetzt U = 02 = 0, und für X = 2 gilt U = 22 = 4. Daraus folgt: P(U = 0) = 0.9

P(U = 4) = 0.1.

und

Trägerpunkte von X sind die Zahlen 0 und 2, Trägerpunkte von U dagegen die Zahlen 0 und 4. Somit sind X und U nicht identisch verteilt. Diskrete Gleichverteilung mit negativen Trägerpunkten: Sei X diskret gleichverteilt auf den Trägerpunkten −2, −1, 0, 1 und 2, d.h. P(X = −2) = P(X = −1) = P(X = 0) = P(X = 1) = P(X = 2) = 0.2. Dann gilt wegen (−2)2 = 22 = 4, (−1)2 = 12 = 1 und 02 = 0 für die Zufallsvariable U = X2 : P(U = 0) = 0.2,

P(U = 1) = 0.4,

P(U = 4) = 0.4.

Diskrete Gleichverteilung mit 6 Trägerpunkten (Würfel): Sei X diskret gleichverteilt auf den 6 Trägerpunkten 1, 2, . . . , 6, d.h. P(X = 1) = P(X = 2) = ... = P(X = 6) = 1/6. Wegen x

1

2

3

4

5

6

x2

1

4

9

16

25

36

ist U = X 2 diskret gleichverteilt auf den Trägerpunkten 1, 4, 9, 16, 25 und 36, d.h. P(U = 1) = P(U = 4) = ⋅ ⋅ ⋅ = P(U = 36) = 1/6. Abbildung 7.1.15 zeigt die Verteilung von X und U. Die Verteilung von U ist deutlich rechtsschief. So liegen 2/3 der Wahrscheinlichkeitsmasse in der ersten Größenklasse [0, 20], dagegen nur 1/3 in der zweiten Größenklasse (20, 40]. Betrachten wir die Lineartransformation Z = a + bX

mit b ≠ 0.

Dann ist Z diskret gleichverteilt auf den Trägerpunkten a + 1b, a + 2b, . . . , a + 6b. Stetige Gleichverteilung auf [0,1]: Bei stetigen Verteilungen ist zur Herleitung der Verteilung der transformierten Größe konzeptionell anders zu verfahren. Betrachten wir zunächst eine auf dem Intervall [0, 1] stetig gleichverteilte Zufallsvariable X mit Dichtefunktion f X (x) = I[0,1] (x).

322 | 7 Theoretische Verteilungen und Abhängigkeiten Dann ergibt sich beispielsweise die Dichte von U = X 2 nicht, wie häufig anfangs angenommen, aus der quadrierten Dichte von X, also (f X (u))2 = (I[0,1] (u))2 = I[0,1] (u). Sofern dies der Fall wäre, so wären X und U im vorliegenden Fall identisch verteilt, da sie die gleiche Dichtefunktion besäßen. Dies ist jedoch ein falscher Ansatz! Zur Herleitung der korrekten Dichte von X 2 nutzt man im vorliegenden Fall am besten den analytischen Zusammenhang zwischen Verteilungs- und Dichtefunktion. Bezeichne F X die Verteilungsfunktion von X und F U die Verteilungsfunktion von U = X 2 . Dann gilt zunächst einmal: F X (x) = 0 für x < 0, F X (x) = x für 0 ≤ x ≤ 1 und F X (x) = 1 für x > 1.

f X (x )

f U (u )

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 0

2

4

6

8

10

0

10

20

30

40

50

u

x

Abb. 7.1.15: Verteilung von X und U = X 2 bei einer diskreten Gleichverteilung

f X (x )

f U (u )

5

5

4

4

3

3

2

2

1

1

0

0 −0.5

0.0

0.5

1.0

1.5

−0.5

0.0

0.5

1.0

1.5

u

x

Abb. 7.1.16: Verteilung von X und U = X 2 bei einer stetigen Gleichverteilung

Unter Verwendung von Indikatorfunktionen können wir dafür auch kompakt schreiben F X (x) = xI[0,1] (x) + I(1,∞) (x).

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 323

Es ist offensichtlich, dass die Trägermenge von U nichtnegativ ist. Deshalb ist F U (u) = 0 für u < 0. Außerdem ist offensichtlich F U (u) = 1 für u > 1. Für 0 ≤ u ≤ 1 gilt dagegen F U (u) = P(U ≤ u) = P(X 2 ≤ u) = P(X ≤ √u) = F X (√u)

(7.1.5)

= √uI[0,1] (√u) = √uI[0,1] (u). Die letzte Gleichheit folgt aufgrund der Äquivalenz von 0 ≤ u ≤ 1 und 0 ≤ √u ≤ 1. Insgesamt gilt dann also F U (u) = √uI[0,1] (u) + I(1,∞) (u). Die Funktion F U besitzt die Eigenschaften einer Verteilungsfunktion einer stetigen Zufallsvariable. Sie ist überall außer an den Stellen 0 und 1 differenzierbar. Deshalb gilt: F 󸀠U (u) =

1 für 0 < u < 1 und F 󸀠U (u) = 0 für u < 0 oder u > 1. 2√u

Damit lautet die (eine) Dichte von U (Abb. 7.1.16, rechts): 1 I(0,1) (u). f U (u) = 2√u Aufgrund des in Abschnitt 7.1.1 angesprochenen Eindeutigkeitsproblems stetiger Dichtefunktionen wäre es auch möglich, das halboffene Intervall (0, 1] als Trägermenge von U zu verwenden. Die 0 bleibt aufgrund der Division durch √u in der Dichtefunktion jedoch auf jeden Fall ausgeschlossen. Der Wert der Dichte strebt gegen unendlich, falls u sich „von oben“ an die 0 annähert. Die Verteilung von U ist auf jeden Fall mit derjenigen von X nicht identisch, auch wenn die Trägermengen bis auf den Wert 0 übereinstimmen. Stattdessen entsteht eine stetige, rechtsschiefe Verteilung. Mit dem vorhergehenden Beispiel einer diskreten Gleichverteilung auf 6 Trägerpunkten erhält dieses Phänomen eine gewisse Plausibilität. Wie wäre dann Y = 2X verteilt? Analog wie zuvor folgt für 0 ≤ y ≤ 2: F Y (y) = P(2X ≤ y) = P(X ≤ 0.5y) = F X (0.5y) = 0.5yI[0,1] (0.5y) = 0.5yI[0,2] (y). Letzte Gleichung folgt aufgrund der Äquivalenz von 0 ≤ 0.5y ≤ 1 und 0 ≤ y ≤ 2. Insgesamt gilt dann F Y (y) = 0.5yI[0,2] (y) + I[2,∞) (y) und folglich 1 f Y (y) = I(0,2) (y) aus f Y (y) = F 󸀠Y (y) für y ≠ 0, 2. 2 Damit ist Y stetig gleichverteilt über dem Intervall (0, 2) (Abschnitt 7.3.2). Die Endpunkte 0 und 2 könnten hier ohne weiteres auch hinzugenommen werden. Betrachtet man in einem weiteren Schritt die transformierte Größe Z = 1 + 2X, so ergibt sich als Dichte von Z gerade f Z (z) =

1 1 I(1,3) (z) oder eben f Z (z) = I[1,3] (z). 2 2

324 | 7 Theoretische Verteilungen und Abhängigkeiten

Stetige Gleichverteilung auf [0, 2]: Völlig analog wie zuvor leitet man die Dichte von U = X 2 her, falls X über dem Intervall [0, 2] gleichverteilt ist (Abschnitt 7.3.2), d.h. falls gilt: f X (x) = 0.5I[0,2] (x) und F X (x) = 0.5xI[0,2] (x) + I(2,∞) (x). Für 0 ≤ √u ≤ 2 folgt nun, vgl. (7.1.5), F U (u) = F X (√u) = 0.5√uI[0,2] (√u) = 0.5√uI[0,4] (u). Die letzte Gleichheit folgt aufgrund der Äquivalenz von 0 ≤ u ≤ 4 und 0 ≤ √u ≤ 2. Insgesamt gilt dann also F U (u) = 0.5√uI[0,4] (u) + I(4,∞) (u) 1 I(0,4) (u). f U (u) = 4√u

und folglich

An diesem Beispiel wird auch besonders gut ersichtlich, dass sich die Dichte von U nicht durch Quadrieren von f X ergeben kann. Denn (f X (x))2 = 0.25I[0,2] (x) kann keine Dichtefunktion sein, da das Integral darüber 0.5 und nicht 1 ergibt. Exponentialverteilung: Sei X stetig verteilt wie in Beispiel S1-b (Abschnitt 7.1.1) mit Dichtefunktion f X (x) = 0.05e−0.05x I[0,∞) (x). Die Verteilungsfunktion wurde ebenfalls in Abschnitt 7.1.1 hergeleitet und lautet F X (x) = (1 − e−0.05x )I[0,∞) (x). Damit ist die Verteilungsfunktion F Z der linear transformierten Größe Z=

X − 20 = 0.05X − 1 20

(7.1.6)

gegeben durch F Z (z) = P(0.05X − 1 ≤ z) = P(X ≤ 20z + 20) = F X (20z + 20) = (1 − e−0.05(20z+20) )I[0,∞) (20z + 20) = (1 − e−z−1 )I[0,∞) (20z + 20) = (1 − e−z−1 )I[−1,∞) (z). Die letzte Gleichung folgt aufgrund der Äquivalenz von 0 ≤ 20z + 20 und −1 ≤ z. Folglich erhält man durch Ableiten von F Z : f Z (z) = e−z−1 I(−1,∞) (z). Wie sich später noch zeigen wird, entspricht Gleichung (7.1.6) gerade einer Standardisierung (mit Erwartungswert 0 und Varianz 1) im Sinne von Abschnitt 7.2.3.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 325

f X (x )

f Z (z )

0.05

1.0

0.04

0.8

0.03

0.6

0.02

0.4

0.01

0.2

0.00

Z=

X − 20 20

0.0 −10 0

10

20

30

40

x

50

60

70

80

−1

0

1

2

3

4

5

z

Abb. 7.1.17: Verteilung einer linear transformierten exponentialverteilten Zufallsvariable X

• Funktionen unabhängiger und identisch verteilter Zufallsvariablen • Folgende Resultate erscheinen intuitiv einleuchtend. Wir möchten diese dennoch ohne formale Beweise festhalten (vgl. beispielsweise White [2001, Proposition 3.2]). Satz 7.1.5: Funktionen unabhängiger und identisch verteilter Zufallsvariablen Für gegebene Zufallsvariablen X1 , X2 , . . . , X n und beliebige (messbare) Funktionen g1 , g2 , . . . , g n (ℝ → ℝ) gilt: Sind X1 , X2 , . . . , X n (i) stochastisch unabhängig, so auch g1 (X1 ), g2 (X2 ), . . . , g n (X n ). (ii) identisch verteilt, so auch g1 (X1 ), g1 (X2 ), . . . , g1 (X n ). (iii) stochastisch unabhängig und identisch verteilt (u.i.v.), so auch g1 (X1 ), g1 (X2 ), . . . , g1 (X n ).

Gemäß Resultat (i) sind Funktionen (Transformationen) unabhängiger Zufallsvariablen wiederum unabhängig. Dabei können unterschiedliche (messbare) Funktionen verwendet werden. Sind beispielsweise X und Y stochastisch unabhängig, so etwa auch X 2 und Y 2 oder auch X 2 und 2Y + 1. Gemäß Resultat (ii) sind identisch verteilte Zufallsvariablen bei identischer Transformation (hier etwa stets mit g1 ) wieder identisch verteilt. Im Allgemeinen sind also beispielsweise X und Y 2 nicht identisch verteilt, sofern X und Y identisch verteilt sind. Jedoch gibt es auch Ausnahmen wie das vorhergehende Beispiel mit 0-1-Variablen gezeigt hat. Resultat (iii) ergibt sich aus den Resultaten (i) und (ii). Eine naheliegende Verallgemeinerung dieser Resultate für Zufallsvektoren findet sich in Abschnitt 8.3.1.

326 | 7 Theoretische Verteilungen und Abhängigkeiten

Funktionen aus mehreren Zufallsvariablen • Hintergrund • Häufig ist es auch notwendig oder von Interesse bestimmte Funktionen aus zwei oder mehr Zufallsvariablen zu bilden, wie z. B. eine Summe oder ein Produkt, also X + Y oder X ⋅ Y. So wird das gemischte Produkt X ⋅ Y beispielsweise für die Definition und Berechnung der theoretischen Kovarianz bzw. Korrelation (Abschnitt 7.2.2) zwischen zwei Zufallsvariablen X und Y benötigt. Auch hier gilt zunächst einmal festzuhalten: Funktionen aus mehreren Zufallsvariablen sind i.A. wiederum Zufallsvariablen. Wie zuvor deutet die Einschränkung „im Allgemeinen“ darauf hin, dass im strengen mathematischen Sinn nur messbare Funktionen zulässig sind, was jedoch wiederum keinerlei Einschränkung in praktischer Hinsicht darstellt, sodass auf nähere technische Details hierzu verzichtet werden kann. Nachfolgende Beispiele mögen Sinn und Zweck solcher Betrachtungen verdeutlichen. Dabei beschränken wir uns wie im eindimensionalen Fall wieder nur auf einfache und unproblematische Beispiele. Konkret betrachten wir im Folgenden lediglich Summen und Produkte. Auf verallgemeinernde formale Sätze und dazu gehörige Beweise wird gänzlich verzichtet. • Beispiele: Funktionen mehrerer Zufallsvariablen • Summen unabhängiger 0-1-Variablen: Die Betrachtung des stochastischen Verhaltens einer Summe kann unterschiedlich motiviert sein. Angenommen die Erfolgsquote bei Telefonbefragungen eines Meinungsforschungsinstituts liege bei 40%. d.h. bei 60% aller Anrufversuche legt eine angerufene Person entweder wieder auf oder ist im Weiteren nicht zu einer Befragung bereit. Hieraus könnte sich nun die Frage ergeben, wie viele Anrufe theoretisch getätigt werden müssen, um mit einer bestimmten Wahrscheinlichkeit z.B. eine bestimmte Anzahl erfolgreiche Befragungen zu erhalten. Sofern nun n Anrufe getätigt werden, lassen sich diese mittels n identisch verteilter Zufallsvariablen X1 , X2 , . . . , X n beschreiben. Dabei gilt dann: P(X i = 0) = 0.6

und

P(X i = 1) = 0.4

für i = 1, . . . , n.

Wird unterstellt, dass die einzelnen Anrufe unabhängig voneinander sind, gilt: P(X1 = x1 , X2 = x2 , . . . , X n = x n ) = P(X1 = x1 )P(X2 = x2 ) . . . P(X n = x n ). Beginnen wir zunächst mit dem Fall n = 2. Dann gilt für die gemeinsame Verteilung von X1 und X2 bzw. für die Verteilung von (X1 , X2 )T in Tupelform ausgedrückt:

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 327

2-Tupel

Summe

Wahrschein.

(0, 0)

0

0.36

(1, 0)

1

0.24

(0, 1)

1

0.24

(1, 1)

2

0.16

Dies impliziert für die Verteilung der Summe S2 = X1 + X2 s

0

1

2

P(S2 = s)

0.36

0.48

0.16

Für n = 3 erhalten wir entsprechend 3-Tupel

Summe

Wahrsch.

3-Tupel

Summe

Wahrsch.

(0, 0, 0)

0

0.216

(0, 1, 1)

2

0.096

(1, 0, 0)

1

0.144

(1, 0, 1)

2

0.096

(0, 1, 0)

1

0.144

(1, 1, 0)

2

0.096

(0, 0, 1)

1

0.144

(1, 1, 1)

3

0.064

für die Verteilung von (X1 , X2 , X3 )T bzw. s

0

1

2

3

P(S3 = s)

0.216

0.432

0.288

0.064

für die Verteilung der Summe S3 = X1 + X2 + X3 . Das lässt sich allgemein auf S n = X1 + X2 + ⋅ ⋅ ⋅ + X n fortsetzen. Beispielsweise ergibt sich dann für n = 10 (die Wahrscheinlichkeiten wurden auf 2 Nachkommastellen gerundet): s

0

1

2

3

4

5

P(S10 = s)

0.01

0.04

0.12

0.21

0.25

0.20

s

6

7

8

9

10

P(S10 = s)

0.11

0.04

0.01

0.00

0.00

Abbildung 7.1.18 zeigt die Verteilungen von S1 , S2 , S3 und S10 . Später wird sich herausstellen, dass diese Summen jeweils binomialverteilt sind (Abschnitt 7.3.1). Je größer n ist, d.h. je höher die Anzahl der Anrufe, desto mehr dehnen sich die Trägerpunkte auf größere Werte aus. Es wird somit immer wahrscheinlicher, eine bestimmte Anzahl von Erfolgen zu erzielen, was an sich natürlich wenig überraschend ist. Beispielsweise gilt: P(S2 > 1) = 0.16,

P(S3 > 1) = 0.352,

P(S10 > 1) = 0.95.

328 | 7 Theoretische Verteilungen und Abhängigkeiten

Die Wahrscheinlichkeit, wenigstens zwei Erfolge zu erzielen, beträgt bei 3 Anrufen folglich über 35% und bei 10 Anrufen ca. 95%. S1

S3

S2

S 10

0.6

0.6

0.6

0.6

0.4

0.4

0.4

0.4

0.2

0.2

0.2

0.2

0.0

0.0 0

5

10

0.0 0

5

10

0.0 0

5

10

0

5

10

Abb. 7.1.18: Verteilung von Summen aus 0-1-Variablen

Summe und Produkt bei diskreter Gleichverteilung: Angenommen, bei einem Würfelspiel werden zwei Würfel auf einmal geworfen, wobei die Summe der beiden Augenzahlen X1 und X2 von Interesse sei (vergleiche dazu Beispiel D2-b aus Abschnitt 7.1.2 mit X1 = X und X2 = Y). Dann sind X1 und X2 unabhängige und auf den Trägerpunkten 1, 2, . . . , 6 diskret gleichverteilte Zufallsvariablen. Für die Verteilung S2 = X1 + X2 ergibt sich dann Tabelle 7.1.11. Zur technischen Ermittlung dieser Verteilung ist es am einfachsten, Tabelle 7.1.5 aus Abschnitt 7.1.2 um die Summen für jedes Augenpaar (2-Tupel) zu ergänzen. Tabelle 7.1.13 zeigt den Wert von S2 innerhalb jeder Zelle als 1. fettgedruckte Zahl. Insgesamt entsteht, wie das mittlere Schaubild von Abbildung 7.1.19 verdeutlicht, eine symmetrische Verteilung. Tab. 7.1.11: Zweimaliges Würfeln – Verteilung der Summe Augenzahlen s P(S2 = s) s P(S2 = s)

2 1/36 8 5/36

3 2/36 9 4/36

4 3/36 10 3/36

5 4/36 11 2/36

6 5/36 12 1/36

7 6/36

Tab. 7.1.12: Zweimaliges Würfeln – Verteilung des Produkts der Augenzahlen u P(U = u) u P(U = u)

1 1/36 12 4/36

2 2/36 15 2/36

3 2/36 16 1/36

4 3/36 18 2/36

5 2/36 20 2/36

6 4/36 24 2/36

8 2/36 25 1/36

9 1/36 30 2/36

10 2/36 36 1/36

Völlig analog ließe sich die Verteilung des Produkts U = X1 ⋅ X2 ermitteln. Tabelle 7.1.13 zeigt den Wert von U innerhalb jeder Zelle als 2. fettgedruckte Zahl. Daraus ableitend ergibt sich für die Verteilung von U, s. Tabelle 7.1.12. Insgesamt weist das Produkt eine rechtsschiefe Verteilung auf. So liegen im Intervall [1, 12] über 60% Wahrscheinlich-

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen | 329

keitsmasse, im Intervall (12, 24] nur 25% und im Intervall (24, 36] nur etwas mehr als 10%. Tab. 7.1.13: Zweimaliges Würfeln – Summe und Produkt der Augenzahlen X2 s|u

X1 1 2 3 4 5 6

1

2

3

4

5

6

2|1 1/36 3|2 1/36 4|3 1/36 5|4 1/36 6|5 1/36 7|6 1/36

3|2 1/36 4|4 1/36 5|6 1/36 6|8 1/36 7|10 1/36 8|12 1/36

4|3 1/36 5|6 1/36 6|9 1/36 7|12 1/36 8|15 1/36 9|18 1/36

5|4 1/36 6|8 1/36 7|12 1/36 8|16 1/36 9|20 1/36 10|24 1/36

6|5 1/36 7|10 1/36 8|15 1/36 9|20 1/36 10|25 1/36 11|30 1/36

7|6 1/36 8|12 1/36 9|18 1/36 10|24 1/36 11|30 1/36 12|36 1/36

X 1 bzw. X 2

0.20

S2 = X1 + X2

0.20

0.15

0.15

0.15

0.10

0.10

0.10

0.05

0.05

0.05

0.00

0.00 0

6

12

U = X 1X 2

0.20

0.00 0

6

12

0

6

12 18 24 30 36

Abb. 7.1.19: Verteilung von Summe und Produkt zweier Würfelergebnisse

Summe und Produkt bei stetiger Gleichverteilung: Bei stetigen Verteilungen ist die Herleitung der Verteilung von Funktionen mathematisch etwas „anspruchsvoller“ und erfolgt unter Verwendung des Integrationskalküls. Dazu existieren verschiedene Transformations- und Faltungssätze, aus denen hervorgeht, wie sich Dichtefunktionen für Summen oder Produkte herleiten lassen. Gewöhnlich werden solche Sätze einschließlich Beweisen in jedem mathematischeren Lehrbuch der Statistik oder der Wahrscheinlichkeitstheorie behandelt. Wie sich zeigen lässt, ergibt sich dann beispielsweise für die Summe S2 = X1 + X2 zweier unabhängiger über dem Intervall [0, 1] gleichverteilter Zufallsvariablen eine Dreiecksverteilung gemäß Dichte f S2 (s) = sI[0,1] (s) + (2 − s)I(1,2] (s).

330 | 7 Theoretische Verteilungen und Abhängigkeiten

3.0

3.0

X 1 bzw. X 2

3.0

S2 = X1 + X2

2.5

2.5

2.5

2.0

2.0

2.0

1.5

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0

0.0 0

1

2

U = X 1X 2

0.0 0

1

2

0

1

2

Abb. 7.1.20: Verteilung von Summe und Produkt zweier stetig gleichverteilter Zufallsvariablen

Für das Produkt U = X1 X2 erhält man dagegen die Dichte f U (u) = − ln(u)I(0,1] (u). Dabei bezeichnet ln( ) den natürlichen Logarithmus. Abbildung 7.1.20 zeigt die beiden Dichtefunktionen. Die Ähnlichkeit zu den unter einer diskreten Gleichverteilung erzielten Ergebnissen sticht ins Auge (vgl. Abb. 7.1.19). Häufig wird zunächst fälschlich vermutet, dass die Summe über dem Intervall [0, 2] gleichverteilt sein müsse. Dies ist jedoch ein Fehlschluss, da es für den mittleren Bereich der Trägermenge mehr Realisationsmöglichkeiten gibt als für die Ränder. Man möge dies am diskreten Würfelbeispiel anhand von Tabelle 7.1.13 nachvollziehen. Deshalb entsteht eine unimodale, symmetrische Verteilung.

7.2 Theoretische Kennwerte

Zur Deskription der empirischen Verteilung von Daten dienen verschiedene Kennwerte zur Beschreibung von Lage, Streuung und Schiefe. Zur Charakterisierung von Wahrscheinlichkeitsverteilungen dienen nun theoretische Kennwerte, die diesen empirischen Kennwerten in gewisser Weise entsprechen. Im Prinzip könnte man nun zu allen empirischen Kennwerten entsprechende wahrscheinlichkeitstheoretische Gegenstücke definieren. Im Folgenden werden jedoch nur die wichtigsten vorgestellt. Zu diesen zählen der Erwartungswert als Lagemaß und wichtigster Kennwert überhaupt, die theoretische Varianz als Streuungsmaß, die theoretischen Quantile als lokale Lagemaße sowie die theoretische Kovarianz und die theoretische Korrelation als Zusammenhangsmaße.

7.2 Theoretische Kennwerte

| 331

7.2.1 Kennwerte in Bezug auf Lage und Streuung Erwartungswert • Definition und Notation • Der Erwartungswert stellt das wahrscheinlichkeitstheoretische Pendant zum arithmetischen Mittel dar und ist wie folgt definiert:

Definition 7.2.1: Erwartungswert Sei X eine diskrete oder stetige Zufallsvariable mit Wahrscheinlichkeits- bzw. Dichtefunktion f X . Dann ist der Erwartungswert von X definiert als (i) μ X = E(X) = ∑ a j P(X = a j ) = ∑ a j f X (a j ) j

j

für diskretes X mit Realisationsmöglichkeiten a1 , a2 , . . . , a k , . . . und ∞

(ii) μ X = E(X) = ∫ xf X (x)dx −∞

für stetiges X.

Während das arithmetische Mittel metrischer Beobachtungswerte x1 , x2 , . . . , x n üblicherweise mit dem Symbol x notiert wird, verwendet man für den Erwartungswert einer Zufallsvariable X meist den griechischen Kleinbuchstaben μ (lies: mü). Sofern beispielsweise noch eine zweite Zufallsvariable Y in Betracht gezogen wird, schreibt man zur Unterscheidung μ X bzw. μ Y . Die Verwendung des Erwartungswertoperators E(⋅) hebt die Berechnungsoperation hervor, ähnlich wie das Summenzeichen (der Summenoperator) „Σ“ die Summation über eine Reihe von Werten. Die Gültigkeit bestimmter Rechenregeln für Erwartungswerte wird gewöhnlich mithilfe dieses Operators ausgedrückt. So ist beispielsweise der Erwartungswert einer Summe von Zufallsvariablen stets gleich der Summe der einzelnen Erwartungswerte (siehe (7.2.13)). Dies lässt sich dann über E(X + Y) = E(X) + E(Y) ausdrücken. Die Symbolschreibweise wird dagegen präferiert, um gezielt die Kennwerte von Zufallsvariablen zu spezifizieren, wie etwa: „X besitze den Erwartungswert μ=1“. Weniger üblich ist die Formulierung „X besitze den Erwartungswert E(X)=1“. In Ergänzung dazu beachte man ferner die Anmerkungen zur Endlichkeit von Erwartungswerten in Abschnitt 7.2.3.

332 | 7 Theoretische Verteilungen und Abhängigkeiten

• Interpretation des Erwartungswertes • Wie sind Erwartungswerte zu interpretieren? Beginnen wir mit dem diskreten Fall. Hier ergibt sich der Erwartungswert durch Multiplikation der Realisationsmöglichkeiten mit ihren jeweiligen Wahrscheinlichkeiten und anschließendem Aufsummieren. Sei X beispielsweise die Augenzahl beim Würfelwurf. Dann bilden die Zahlen 1 bis 6 die Realisationsmöglichkeiten bzw. die Trägermenge der Verteilung von X. Da jede Realisationsmöglichkeit die Wahrscheinlichkeit 1/6 besitzt, folgt dann 6

E(X) = ∑ j ⋅ P(X = j) = 1 ⋅ j=1

1 1 1 1 1 1 + 2 ⋅ + 3 ⋅ + 4 ⋅ + 5 ⋅ + 6 ⋅ = 3.5. 6 6 6 6 6 6

Empirisch entspricht dies der Berechnung des arithmetischen Mittels anhand der relativen Häufigkeiten f j für vorkommende Ausprägungen a j (Abschnitt 4.2.1), also x = ∑ aj fj . j

Wie ist jetzt der Wert 3.5 zu interpretieren? Ein erster Ansatzpunkt zur Interpretation ist die Bezeichnung „Erwartungswert“ selbst. Der Erwartungswert ist ein theoretisch erwarteter Mittelwert, welcher eine „durchschnittliche Erwartung“ bei häufiger Anzahl von Wiederholungen eines Zufallsvorgangs quantifiziert. Angenommen, ein Würfel werde 4 Mal geworfen. Diese 4 Würfe können durch 4 Zufallsvariablen X1 , X2 , X3 und X4 modelliert werden, die unabhängig und identisch verteilt sind. Angenommen, in einem konkreten Fall lauten die Realisationen: x1 = 4, x2 = 3, x3 = 1, x4 = 4. Dann lautet das arithmetische Mittel dieser Werte x=3 und stimmt in diesem Fall nicht mit dem Erwartungswert überein. Hätten wir dagegen zufällig die Zahlen 4, 3, 1 und 6 gewürfelt, würden arithmetisches Mittel und Erwartungswert übereinstimmen. Es ist nun so, dass mit wachsender Anzahl von Wiederholungen das arithmetische Mittel der Ergebnisse gegen den Erwartungswert konvergiert im Sinne der sog. stochastischen Konvergenz. Für großes n sollte das arithmetische Mittel deshalb (mit hoher Wahrscheinlichkeit) nahe am Erwartungswert liegen, d.h. (unpräzise ausgedrückt): x=

1 n ∑ x i ≈ E(X) = μ X n i=1

für großes n.

Dies liegt daran, dass die relativen Häufigkeiten f j der einzelnen Ausprägungen bei wachsender Anzahl von Wiederholungen gegen die theoretischen Wahrscheinlichkeiten P(X = a j ) (stochastisch) konvergieren. Bei 20 Würfelwürfen würde das arithmetische Mittel bereits mit ca. 90% Wahrscheinlichkeit nicht mehr als 0.5 vom Erwartungswert 3.5 abweichen, sprich zwischen 3 und 4 liegen. Basiert das arithmetische Mittel auf nur einem einzigen Wurf, so beträgt diese Wahrscheinlichkeit 1/3, da nur im Fal-

7.2 Theoretische Kennwerte

| 333

le der Ergebnisse 3 oder 4 die Abweichung nicht mehr als 0.5 beträgt. Mathematisch formal werden die Konvergenz des arithmetischen Mittels gegen den Erwartungswert und die Konvergenz der relativen Häufigkeiten gegen die theoretischen Wahrscheinlichkeiten durch das Gesetz der großen Zahlen beschrieben, das später in Abschnitt 7.4.2 behandelt wird. Die Interpretation des Erwartungswerts für stetige Zufallsvariablen ist die gleiche wie für diskrete. Der Additionskalkül wird lediglich durch einen Integrationskalkül ersetzt. Interpretation des Erwartungswertes Der Erwartungswert ist ein „theoretisch erwarteter Mittelwert“, der sich „langfristig“ einstellen sollte, sofern immer wieder erneut metrische Beobachtungswerte aus der gleichen unterstellten Wahrscheinlichkeitsverteilung gewonnen werden. Informal ausgedrückt gilt also: x → μ X für wachsendes n oder x ≈ μ X für großes n. Formal präzise wird dies durch das Gesetz der großen Zahlen beschrieben. • Begründung des Rechenkalküls für stetige Verteilungen • Der Rechenkalkül für den stetigen Fall sei nachfolgend für die folgenden beiden Fälle skizzenhaft begründet: (i) die Dichte besitzt die Form eines Wahrscheinlichkeitshistogramms, (ii) die Dichte besitzt nicht die Form eines Wahrscheinlichkeitshistogramms. Exemplarisch zeigt das linke Schaubild von Abbildung 7.2.1 die Dichte aus Beispiel S1-a aus Abschnitt 7.1.1. Eine solche Dichte wird auch als Wahrscheinlichkeitshistogramm bezeichnet, da sie wie ein Histogramm über Intervallen (c j−1 , c j ] konstante Dichtewerte aufweist. Definiere nun für diesen Fall die diskrete Zufallsvariable X D mit P(X D = m j ) = P(X ∈ (c j−1 , c j ]) = f X (m j )d j

für alle j,

wobei m j die Klassenmitte und d j die Klassenbreite der j-ten Klasse bezeichnen. Die Trägerpunkte der Verteilung von X D stimmen also mit den Klassenmitten des Histogramms überein. Dann gilt gemäß Rechenkalkül für diskrete Zufallsvariablen: E(X D ) = ∑ m j f X (m j )d j .

(7.2.1)

j

Wie sich nachfolgend (Rechenbeispiel S1-a) noch zeigen wird gilt dabei: ∞

∑ m j f X (m j )d j = ∫ xf X (x)dx. j

−∞

(7.2.2)

334 | 7 Theoretische Verteilungen und Abhängigkeiten

Weiter konvergieren nun mit wachsender Anzahl von Realisationen zum einen die Klassenmittelwerte gegen die jeweiligen Klassenmitten, d.h. xj ≈ mj

für alle j.

(7.2.3)

Zum anderen konvergieren die relativen Klassenhäufigkeiten gegen die theoretischen Einfallswahrscheinlichkeiten, d.h. ̃f j ≈ P(X ∈ (c j−1 , c j ]) = f X (m j )d j

für alle j.

(7.2.4)

Beide Approximationen folgen mehr oder weniger direkt aus dem Gesetz der großen Zahlen. Mit (7.2.1) bis (7.2.4) gilt deshalb für großes n: ∞

x = ∑ x j ̃f j ≈ ∑ m j f X (m j )d j = ∫ xf X (x)dx = E(X D ). j

j

(7.2.5)

−∞

Man beachte, dass die Gleichung auf der linken Seite der Approximation der Formel für das arithmetische Mittel gruppierter (klassierter) Daten entspricht (Abschnitt 4.3.1). Da nun aber auch für großes n gelten sollte x ≈ μX , erscheint es sinnvoll, den Erwartungswert von X demjenigen von X D gleichzusetzen: ∞

E(X) = E(X D ) = ∫ xf X (x)dx.

(7.2.6)

−∞

Insgesamt wird der Rechenkalkül für den stetigen Fall somit für Wahrscheinlichkeitshistogramme begründet. Ein konkretes Rechenbeispiel findet sich nachfolgend als Beispiel S1-a. f X (x )

f Y (y )

Beispiel S1−a

1.2

E (X ) = ∑ m j f X (m j )d j

1.0

j

0.8 0.6 0.2 0.0

m1 0.0

0.5

1.0

1.5

E (Y ) ≈ ∑ m j f Y (m j )d

0.04

j

⌠yf (y )d y ⌡ Y

0.02 0.01

m3

m2

0.05

0.03

= ⌠xf X (x )d x ⌡

0.4

Beispiel S1−b

0.00 2.0

2.5

3.0

−10

0

10

x

20

30

40

50

60

70

80

y

Abb. 7.2.1: Begründung des Rechenkalküls für stetige Verteilungen

Sofern die Dichte nicht die Form eines Wahrscheinlichkeitshistogramms besitzt, erhält die Argumentationskette einen zusätzlichen Zwischenschritt. Exemplarisch zeigt das rechte Schaubild von Abbildung 7.2.1 die Dichte einer stetigen Zufallsvariable Y aus Beispiel S2-b aus Abschnitt 7.1.1. Diese wird nun zunächst durch ein „möglichst

7.2 Theoretische Kennwerte

| 335

genaues“ Histogramm mit gleich breiten Klassen der Breite d approximiert. Basierend darauf lässt sich wiederum eine diskrete Größe Y D definieren, sodass folgende Approximation gilt: E(Y) ≈ E(Y D ) = ∑ m j f Y (m j )d.

(7.2.7)

j

Im Unterschied zu (7.2.6) stimmt der Erwartungswert von Y also zunächst einmal nicht exakt mit dem von Y D überein. Mit gegen 0 strebender Klassenbreite d wird die Approximation jedoch zunehmend genauer. Gemäß Integrationstheorie erhält man in der Grenzbetrachtung (informal ausgedrückt) für d → 0: ∞



∑ m j f Y (m j )d → ∫ mf Y (m)dm = ∫ yf Y (y)dy. j

−∞

(7.2.8)

−∞

Der Summenausdruck auf der linken Seite konvergiert im Sinne eines RiemannIntegrals gegen einen Grenzausdruck, welcher mit dem Symbol „∫“ (ein stilisiertes S für „Summe“) notiert wird. Wegen (7.2.7) und (7.2.8) postuliert man sinnvollerweise schließlich ∞

E(Y) = ∫ yf Y (y)dy. −∞

Insgesamt wird damit der Rechenkalkül mittels Grenzbetrachtung approximierender Wahrscheinlichkeitshistogramme auch für den zweiten Fall begründet. Ein konkretes Rechenbeispiel für diesen Fall findet sich nachfolgend als Beispiel S1-b. • Beispiel D1-a fortgesetzt • Wir setzen das Beispiel aus Abschnitt 7.1.1 fort und berechnen nun den Erwartungswert. Die diskrete Zufallsvariable X mit P(X = 0) = 0.4, P(X = 1) = 0.2, P(X = 2) = 0.3 und P(X = 3) = 0.1 gibt dabei die Anzahl mitreisender Kinder bei Pauschalreisen an. Mit den Realisationsmöglichkeiten a1 = 0, a2 = 1, a3 = 2 und a4 = 3 folgt dann: E(X) = ∑ a j P(X = a j ) = 0 ⋅ 0.4 + 1 ⋅ 0.2 + 2 ⋅ 0.3 + 3 ⋅ 0.1 = 1.1. j

Je Buchung werden theoretisch durchschnittlich 1.1 mitreisende Kinder angegeben. • Beispiel D1-b fortgesetzt • Auch hier setzen wir das gleichnamige Beispiel aus Abschnitt 7.1.1 fort. Sei Y eine diskrete Zufallsvariable, welche die Anzahl eingehender Notrufe an einem Rettungswagen-Stützpunkt während einer Stunde angibt. Dabei gilt: y

{ 3 e−3 , f Y (y) = { y! 0, {

y = 0, 1, 2, . . . , sonst.

336 | 7 Theoretische Verteilungen und Abhängigkeiten

Man beachte, dass die Trägermenge alle natürlichen Zahlen umfasst, also abzählbar unendlich groß ist. Die Berechnungsvorschrift bleibt davon jedoch unberührt. Es folgt dann: ∞

E(Y) = ∑ j ⋅ j=0

3j −3 2 ⋅ 32 −3 3 ⋅ 33 −3 e = 0 + 3e−3 + e + e +... j! 2! 3!

Mit etwas mathematischem Aufwand lässt sich zeigen, dass der Grenzwert dieser Summe gleich 3 ist. Somit gilt: E(Y) = 3. Theoretisch sollten also während einer Stunde durchschnittlich 3 Notrufe eingehen. • Beispiel S1-a fortgesetzt • Sei X eine stetige Zufallsvariable, welche die Höhe des Trinkgeldes angibt, welches den Servicekräften eines Restaurants pro Abrechnung überlassen wird. Dabei lautet die Dichte (Abb. 7.2.1, links): f X (x) = 1.2I(0,0.5] (x) + 0.5I(0.5,1.0] (x) + 0.15I(1.0,2.0] (x). Gemäß Intergrationskalkül folgt dann: ∞

E(X) = ∫ xf X (x)dx −∞ ∞

= ∫ [1.2xI(0,0.5] (x) + 0.5xI(0.5,1.0] (x) + 0.15xI(1.0,2.0] (x)]dx −∞ ∞





= ∫ 1.2xI(0,0.5] (x)dx + ∫ 0.5xI(0.5,1.0] (x)dx + ∫ 0.15xI(1.0,2.0] (x)dx −∞

−∞ 0.5

−∞

1

2

= 1.2 ∫ xdx + 0.5 ∫ xdx + 0.15 ∫ xdx 0

0.5 0.5

1 1

2

= 1.2[0.5x2 ]0 + 0.5[0.5x2 ]0.5 + 0.15[0.5x2 ]1 = 1.2 ⋅ 0.125 + 0.5 ⋅ 0.375 + 0.15 ⋅ 1.5 = 0.5625. Theoretisch erhalten die Servicekräfte pro Abrechnung durchschnittlich ca. 56 Cent. Verwenden wir die Berechnungsformel über die diskretisierte Variable X D gemäß (7.2.1) erhalten wir mit E(X D ) = ∑ m j f X (m j )d j = 0.25 ⋅ 1.2 ⋅ 0.5 + 0.75 ⋅ 0.5 ⋅ 0.5 + 1.5 ⋅ 0.15 ⋅ 1 j

= 0.5625, wie bereits in (7.2.2) postuliert, genau das gleiche Ergebnis. • Beispiel S1-b fortgesetzt • Sei Y eine stetige Zufallsvariable, welche die Wartezeit in Minuten bis zum nächsten eingehenden Notruf an einem Rettungswagenstütz-

7.2 Theoretische Kennwerte

| 337

punkt angibt (Abschnitt 7.1.1). Dabei lautet die Dichte (Abb. 7.2.1, rechts): f Y (y) = 0.05e−0.05y I[0,∞) (y). Es folgt dann ∞



E(Y) = ∫ yf Y (y)dy = ∫ 0.05ye−0.05y I[0,∞) (y)dy −∞

−∞ ∞

= 0.05 ∫ ye−0.05y I[0,∞) (y)dy. −∞

Mit einigem mathematischen Aufwand lässt sich zeigen, dass die Stammfunktion des Integranden gegeben ist durch e−0.05y (−0.05y − 1). (7.2.9) 0.052 Alternativ bietet sich auch die Technik des sog. partiellen Integrierens an, was hier jedoch nicht weiter vertieft werden soll. Mit (7.2.9) folgt weiter ∞

E(Y) = 0.05 ∫ ye−0.05y I[0,∞) (y)dy = 0.05[ −∞

∞ e−0.05y (−0.05y − 1)] 0 0.052

1 1 = 20. (0 − 1)) = 0.05 0.052 Man beachte, dass der Ausdruck (7.2.9) als Funktion in y durch die e-Funktion „dominiert“ wird. Deshalb strebt (7.2.9) für y → ∞ trotz −0.05y → −∞ gegen 0. Formal setzt man (7.2.9) für y = ∞ deshalb gleich 0. Theoretisch beträgt die durchschnittliche Wartezeit also 20 Minuten. Verwenden wir die Berechnungsformel über ein approximierendes Histogramm gemäß (7.2.1), erhalten wir beispielsweise unter Verwendung der 16 Klassenmitten 2.5, 7.5, 12.5, 17.5, . . . , 77.5 und der Klassenbreite d = 5 (gerundet): = 0 − 0.05(

16

E(Y D ) = ∑ m j f Y (m j )d = 2.5 ⋅ 0.05e−0.05⋅2.5 ⋅ 5 + 7.5 ⋅ 0.05e−0.05⋅7.5 ⋅ 5 + . . . j=1

+ 77.5 ⋅ 0.05e−0.05⋅77.5 ⋅ 5 ≈ 18.22. Die Approximation weicht immerhin noch um 1.78 vom tatsächlichen Wert 20 ab. Dies liegt vor allem daran, dass das approximierende Histogramm bei 80 abbricht, die Trägermenge jedoch bis unendlich geht. Verwenden wir die 200 Klassenmitten 0.5, 1, 1.5, . . . , 199.5 mit der Klassenbreite d = 1, erhalten wir bereits eine gute Näherung mit E(Y D ) = 2.5 ⋅ 0.05e−0.05⋅0.5 + 1.0 ⋅ 0.05e−0.05⋅1.0 + . . . + 100.5 ⋅ 0.05e−0.05⋅100.5 = 19.99. • Erwartungswert einer Funktion einer Zufallsvariable • Wie bereits in Abschnitt 7.1.3 festgehalten, sind Funktionen von Zufallsvariablen im Allgemeinen wiederum Zu-

338 | 7 Theoretische Verteilungen und Abhängigkeiten

fallsvariablen, deren Verteilungen sich in der Regel von den Ausgangsverteilungen unterscheiden. Im Rahmen theoretischer Berechnungen interessiert man sich häufig nicht für die gesamte Verteilung einer transformierten Größe, sondern lediglich für bestimmte Kennwerte wie etwa den Erwartungswert. Was also wären beispielsweise die Erwartungswerte von X 2 oder a + bX für eine Zufallsvariable X mit Erwartungswert μ? Die erste Frage interessiert beispielsweise bei der Berechnung der theoretischen Varianz (s. (7.2.15)). Allgemein können wir dazu folgende Resultate nutzen: Satz 7.2.1: Erwartungswert einer Funktion einer Zufallsvariable Sei X eine diskrete oder stetige Zufallsvariable mit Wahrscheinlichkeits- bzw. Dichtefunktion f X und g(x) eine (messbare) reellwertige Funktion, d.h. g : ℝ → ℝ. Dann gilt für Y = g(X): (i) E(Y) = E(g(X)) = ∑j g(a j )P(X = a j ) = ∑j g(a j )f X (a j ) für diskretes X mit Realisationsmöglichkeiten a1 , a2 , . . . , a k , . . . und ∞

(ii) E(Y) = E(g(X)) = ∫−∞ g(x)f X (x)dx für stetiges X. Sei f Y die Wahrscheinlichkeits- bzw. Dichtefunktion von Y. Alternativ zu (i) und (ii) können wir auch rechnen: (i*) E(Y) = ∑j b j P(Y = b j ) = ∑j b j f Y (b j ) wobei b1 , b2 , . . . , b l , . . . die Realisationsmöglichkeiten von Y sind bzw. ∞

(ii*) E(Y) = ∫−∞ yf Y (y)dy.

Auf allgemeine Beweise sei verzichtet. Insbesondere die Resultate (i) und (i*) für den diskreten Fall sind leicht einzusehen, wie nachfolgendes Beispiel noch zeigen wird. In der Praxis verwendet man stets diejenige Variante, welche gerade praktikabler erscheint. Das hängt dann davon ab, welche Information bereits vorliegt. Ist f Y bereits bekannt, so ist letztere Variante häufig die naheliegendere Methode. Für bestimmte Transformationen lassen sich vereinfachende Regeln über den Erwartungswertoperator E(⋅) formulieren. So gilt beispielsweise für Lineartransformationen der Form Z = a + bX die Linearitätseigenschaft des Erwartungswertoperators: E(a + bX) = a + bE(X).

(7.2.10)

Daraus ergibt sich die Verschiebungs- und Skalenäquivarianz des Erwartungswertes (vgl. Abschnitt 7.2.3). Im diskreten Fall ist die Gültigkeit von (7.2.10) leicht über die Berechnungsvariante (i) einzusehen. Demnach gilt: E(a + bX) = ∑(a + ba j )P(X = a j ) = ∑ aP(X = a j ) + ∑ ba j P(X = a j ) j

j=1

j

7.2 Theoretische Kennwerte

| 339

= a ∑ P(X = a j ) + b ∑ a j P(X = a j ) = a ⋅ 1 + b ⋅ E(X). j

j

Man beachte, dass die Summe aller Wahrscheinlichkeiten 1 ergibt. Im stetigen Fall folgt dies analog aus Berechnungsvariante (ii) mit ∞





E(a + bX) = ∫ (a + bx)f X (x)dx = ∫ af X (x)dx + ∫ bxf X (x)dx −∞ ∞

−∞

−∞



= a ∫ f X (x)dx + b ∫ xf X (x)dx = a ⋅ 1 + bE(X). −∞

−∞

Hierbei ist zu beachten, dass das Intergral über eine Dichte 1 ergibt. An diesen beiden Ausführungen lässt sich erahnen, woher ein verallgemeinernder maßtheoretischer Zugang zur Wahrscheinlichkeitsrechnung, im Rahmen dessen ständig separat geführte Nachweise für diskrete und stetige Verteilungen entfallen, sich motivieren lässt. Für metrische Ausgangswerte x1 , . . . , x n , die gemäß z i = a + bx i linear transformiert werden, lautet die empirische Entsprechung von Regel (7.2.10): z = a + bx. Dies ergibt sich aus der Skalen- und Verschiebungsäquivarianz des arithmetischen Mittels (Abschnitt 4.9.3). Ferner ist in diesem Zusammenhang zu beachten, dass allgemein E(g(X)) ≠ g(E(X))

(7.2.11)

gilt, auch wenn im Falle von Lineartransformationen die Gleichheit erfüllt ist. Jedoch ist im Allgemeinen beispielsweise E(X 2 ) ≠ (E(X))2 ,

(7.2.12)

so wie auch im empirischen Fall im Allgemeinen gilt: 2 1 n 2 1 n ∑ x i ≠ ( ∑ x i ) . n i=1 n i=1

• Beispiel D1-c • Sei X diskret gleichverteilt auf den Trägerpunkten 1 bis 6 (Würfelwurf). Dann gilt für die Verteilungen von X, U = X 2 und Z = 1 + 2X: x P(X = x) u=

x2

1

2

3

4

5

6

1/6

1/6

1/6

1/6

1/6

1/6

1

4

9

16

25

36

P(U = u)

1/6

1/6

1/6

1/6

1/6

1/6

z = 1 + 2x

3

5

7

9

11

13

P(Z = z)

1/6

1/6

1/6

1/6

1/6

1/6

340 | 7 Theoretische Verteilungen und Abhängigkeiten

Gemäß Variante (i) werden zur Berechnung von E(U) und E(Z) die Realisationsmöglichkeiten von X in die transformierenden Funktionen, hier also g1 (x) = x2 bzw. g2 (x) = 1 + 2x, eingesetzt und mit der Verteilung von X gemäß f X verrechnet. Daraus ergibt sich dann: 6

E(U) = E(X 2 ) = ∑ a2j P(X = a j ) j=1

1 1 1 1 1 1 91 = 1 2 ⋅ + 22 ⋅ + 32 ⋅ + 42 ⋅ + 5 2 ⋅ + 6 2 ⋅ = ≈ 15.17 6 6 6 6 6 6 6 bzw. 6

E(Z) = E(1 + 2X) = ∑ (1 + 2a j )P(X = a j ) j=1

1 1 1 = (1 + 2 ⋅ 1) ⋅ + (1 + 2 ⋅ 2) ⋅ + (1 + 2 ⋅ 3) ⋅ 6 6 6 1 1 1 + (1 + 2 ⋅ 4) ⋅ + (1 + 2 ⋅ 5) ⋅ + (1 + 2 ⋅ 6) ⋅ = 8. 6 6 6 Gemäß Variante (i*) werden die Verteilungen von U und Z gemäß f U bzw. f Z dagegen direkt herangezogen. Daraus ergibt sich dann: 6

E(U) = ∑ b j P(U = b j ) j=1

=1⋅

1 1 1 1 1 1 91 + 4 ⋅ + 9 ⋅ + 16 ⋅ + 25 ⋅ + 36 ⋅ = 6 6 6 6 6 6 6

bzw. 6

E(Z) = ∑ c j P(Z = c j ) j=1

1 1 1 1 1 1 + 5 ⋅ + 7 ⋅ + 9 ⋅ + 11 ⋅ + 13 ⋅ = 8. 6 6 6 6 6 6 Diese Rechnungen entsprechen genau den vorhergehenden Berechnungen. Unter Verwendung der Vereinfachungsregel (7.2.10) gilt außerdem: =3⋅

E(Z) = E(1 + 2X) = 1 + 2E(X). Mit 6

6

E(X) = ∑ a j P(X = a j ) = ∑ j ⋅ P(X = a j ) = 3.5 j=1

j=1

folgt E(Z) = 1 + 2E(X) = 8. Da X symmetrisch um den Wert 3.5 verteilt ist, sollte E(X) = 3.5 jedoch auch ohne Rechnung ersichtlich sein. Diese letzte Berechnungsvariante für E(Z) wäre hier na-

7.2 Theoretische Kennwerte | 341

türlich am schnellsten. Nebenbei erhalten wir die Ungleichheit (7.2.12) bestätigt. So gilt hier offensichtlich: 91 49 = E(X 2 ) ≠ (E(X))2 = 3.52 = . 6 4 • Beispiel S1-c • Sei X stetig gleichverteilt auf dem Intervall [0, 1] mit Dichte f X (x) = I[0,1] (x). Gemäß den Vorarbeiten in Abschnitt 7.1.3 können dann für die Verteilungen von U = X 2 und Z = 1 + 2X folgende Dichten hergeleitet werden: f U (u) =

1 I(0,1) (u) 2√u

bzw.

f Z (z) =

1 I[1,3] (z). 2

Gemäß Variante (ii) werden die Erwartungswerte von U und Z jeweils über die Dichte von X berechnet. Daraus ergibt sich dann ∞



E(U) = E(X 2 ) = ∫ x2 f X (x)dx = ∫ x2 I[0,1] (x)dx −∞

−∞

1

1 1 1 = ∫ x2 dx = [ x3 ] = 0 3 3 0

bzw. ∞



E(Z) = E(1 + 2X) = ∫ (1 + 2x)f X (x)dx = ∫ (1 + 2x)I[0,1] (x)dx −∞

−∞

1 1

= ∫(1 + 2x)dx = [x + x2 ]0 = 2. 0

Gemäß Variante (ii*) werden dagegen die Dichten von U bzw. Z verwendet, woraus sich ∞



E(U) = ∫ uf U (u)du = ∫ −∞

−∞

u I(0,1) (u)du 2√u

1

1 1 1 = ∫ 0.5√udu = [ u3/2 ] = 0 3 3 0

bzw. ∞



E(Z) = ∫ zf Z (z)dz = ∫ 0.5zI[1,3] (z)dz −∞

−∞ 3 3

= 0.5 ∫ zdz = 0.5[0.5z2 ]1 = 2 1

342 | 7 Theoretische Verteilungen und Abhängigkeiten

ergibt. Alternativ folgt aus ∞

1

E(X) = ∫ xf X (x)dx = ∫ xdx = 0.5 −∞

0

und der Vereinfachungsregel (7.2.10) E(Z) = 1 + 2E(X) = 2. Da X symmetrisch um den Wert 0.5 verteilt ist, sollte E(X) = 0.5 jedoch auch ohne Rechnung ersichtlich sein. Somit wäre diese letzte Berechnungsvariante für E(Z) am schnellsten. • Erwartungswert einer Funktion aus mehreren Zufallsvariablen • Wie bereits in Abschnitt 7.1.3 festgehalten wurde, sind auch (messbare) Funktionen aus mehreren Zufallsvariablen wiederum Zufallsvariablen. Auch hier interessiert man sich meist nicht für die gesamte Verteilung der transformierten Größe im Detail, sondern lediglich für bestimmte Kennwerte wie etwa den Erwartungswert. Der Einfachheit halber konzentrieren wir uns im Folgenden auf Funktionen aus zwei Zufallsvariablen X und Y. Mögliche Verallgemeinerungen auf n Variablen, X1 , . . . , X n , sind dann relativ naheliegend. Wir können dazu folgende Resultate nutzen: Satz 7.2.2: Erwartungswert einer Funktion aus mehreren Zufallsvariablen Seien X und Y zwei diskrete oder zwei stetige Zufallsvariablen mit gemeinsamer Wahrscheinlichkeits- bzw. Dichtefunktion f XY und g(x, y) eine (messbare) reellwertige Funktion, d.h. g : ℝ2 → ℝ. Dann gilt für Z = g(X, Y): (i) E(Z) = E(g(X, Y)) = ∑i ∑j g(a i , b j )P(X = a i , Y = b j ) für diskretes (X, Y)T mit Realisationsmöglichkeiten (a1 , b1 ), . . . , (a k , b l ), . . . und ∞



(ii) E(Z) = E(g(X, Y)) = ∫−∞ ∫−∞ g(x, y)f XY (x, y)dydx für stetiges (X, Y)T . Sei f Z die Wahrscheinlichkeits- bzw. Dichtefunktion von Z. Alternativ zu (i) und (ii) können wir auch rechnen: (i*) E(Z) = ∑j c j P(Z = c j ) = ∑j c j f Z (c j ), wobei c1 , c2 , . . . , c m , . . . die Realisationsmöglichkeiten von Z sind, bzw. ∞

(ii*) E(Z) = ∫−∞ zf Z (z)dz.

7.2 Theoretische Kennwerte | 343

Für bestimmte Transformationen lassen sich vereinfachende Regeln über den Erwartungswertoperator E(⋅) formulieren. Einige besonders wichtige seien nachfolgend vorgestellt. • Spezialfall: Erwartungswerte von Summen • Für den Erwartungswert der Summe aus mehreren Zufallsvariablen gilt folgende Regel: Satz 7.2.3: Erwartungswerte von Summen Für n Zufallsvariablen X1 , . . . , X n (diskret oder stetig) und Konstanten c0 , c1 , . . . , c n gilt: E(c0 + c1 X1 + c2 X2 + ⋅ ⋅ ⋅ + c n X n ) = c0 + c1 E(X1 ) + c2 E(X2 ) + ⋅ ⋅ ⋅ + c n E(X n ). Speziell folgt daraus für zwei Zufallsvariablen X und Y: E(X + Y) = E(X) + E(Y).

(7.2.13)

Der Erwartungswert einer Summe ist also gleich der Summe der einzelnen Erwartungswerte. In diesem Zusammenhang bezeichnet man den Erwartungswert, genauer den Erwartungswertoperator, auch als linear. Die Verschiebungs- und Skalenäquivarianz des Erwartungswertes ergibt sich dabei als Spezialfall. Zum Nachweis betrachten wir nur den speziellen Fall mit zwei Zufallsvariablen X und Y. Dann gilt für die Transformation g(x, y) = x + y laut Satz 7.2.2, Regel (ii): ∞ ∞

E(X + Y) = ∫ ∫ (x + y)f XY (x, y)dydx −∞ −∞ ∞ ∞

∞ ∞

= ∫ ∫ xf XY (x, y)dydx + ∫ ∫ yf XY (x, y)dydx −∞ −∞ ∞ ∞

−∞ −∞ ∞



= ∫ x( ∫ f XY (x, y)dy)dx + ∫ y( ∫ f XY (x, y)dx)dy −∞ ∞

−∞

−∞

−∞



= ∫ xf X (x)dx + ∫ yf Y (y)dy = E(X) + E(Y). −∞

−∞

Für metrische Ausgangswerte (x1 , y1 ), . . . , (x n , y n ), die gemäß z i = x i + y i transformiert werden, lautet die empirische Entsprechung dieser Regel z=

1 n ∑ (x i + y i ) = x + y. n i=1

344 | 7 Theoretische Verteilungen und Abhängigkeiten

Mit geringfügig mehr Schreibaufwand lässt sich auf diese Weise auch die Gültigkeit von E(c0 + c1 X + c2 Y) = c0 + c1 E(X) + c2 E(Y) zeigen. Das für n Zufallsvariablen postulierte Resultat folgt dann induktiv. Dabei wird beispielsweise die Summe aus drei Zufallsvariablen X1 , X2 und X3 dann als Summe von S2 und X3 betrachtet, wobei S2 = X1 + X2 ist. Daraus folgt E(S2 + X3 ) = E(S2 ) + E(X3 ) = E(X1 + X2 ) + E(X3 ) = E(X1 ) + E(X2 ) + E(X3 )

usw.

Der Nachweis für den diskreten Fall erfolgt analog unter Verwendung entsprechender Doppelsummen. • Spezialfall: Erwartungswerte von Produkten • Für den Erwartungswert eines Produkts aus mehreren Zufallsvariablen gilt folgende Regel: Satz 7.2.4: Multiplikationsregel bei Unabhängigkeit (und Unkorreliertheit) Für n (vollständig) unabhängige Zufallsvariablen X1 , . . . , X n (diskret oder stetig) gilt die Multiplikationsregel gemäß E(X1 ⋅ X2 ⋅ ... ⋅ X n ) = E(X1 ) ⋅ E(X2 ) ⋅ . . . E(X n ). Speziell folgt daraus für zwei unabhängige Zufallsvariablen X und Y: E(X ⋅ Y) = E(X) ⋅ E(Y).

(7.2.14)

Die Multiplikationsregel gilt auch bei Unkorreliertheit (Abschnitt 7.2.2). Tatsächlich ist die Unabhängigkeit aber nicht zwingend notwendig für die Gültigkeit der Multiplikationsregel. Unkorreliertheit, die durch Unabhängigkeit impliziert wird (Abschnitt 7.2.2), wäre bereits hinreichend. Ungeachtet dessen gelten die Rechenregeln (i) und (ii) auch für abhängige Zufallsvariablen. Beispiele zur Berechnung von X⋅Y im Kontext abhängiger Zufallsvariablen finden sich später noch in Abschnitt 7.2.2. Zum Nachweis der Multiplikationsregel betrachten wir wiederum nur den Fall mit zwei Zufallsvariablen X und Y, die nun als unabhängig voneinander angenommen werden. Mit dem Multiplikationskriteriums (7.1.4) gilt dann zunächst einmal f XY (x, y) = f X (x)f Y (y). Daraus folgt dann für die Transformation g(x, y) = xy laut Regel (ii): ∞ ∞

∞ ∞

E(X ⋅ Y) = ∫ ∫ xyf XY (x, y)dydx = ∫ ∫ xyf X (x)f Y (y)dydx −∞ −∞

−∞ −∞

7.2 Theoretische Kennwerte



| 345



= ∫ xf X (x)( ∫ yf Y (y)dy)dx −∞ ∞

−∞ ∞

= ( ∫ xf X (x)dx) ⋅ ( ∫ yf Y (y)dy) = E(X)E(Y). −∞

−∞

Das für n Zufallsvariablen postulierte Resultat folgt induktiv. Dabei wird das Produkt aus drei Zufallsvariablen X1 , X2 und X3 als Produkt von U und X3 betrachtet, wobei U = X1 X2 ist. Mit den Erkenntnissen aus Abschnitt 8.3.3 folgt, dass dann auch U und X3 unabhängig sind. Daraus ergibt sich dann sukzessive E(UX3 ) = E(U)E(X3 ) = E(X1 X2 )E(X3 ) = E(X1 )E(X2 )E(X3 )

usw.

Der Nachweis für den diskreten Fall erfolgt analog unter Verwendung entsprechender Doppelsummen. • Beispiel D2-b fortgesetzt • Wir setzen das gleichnamige Beispiel aus Abschnitt 7.1.2 fort. Ein Würfel werde zweimal geworfen, wobei X1 = X und X2 = Y die beiden Augenzahlen seien. Diese sind dann gemeinsam diskret verteilt gemäß Tabelle 7.1.5 mit E(X1 ) = E(X2 ) = 3.5. Daraus folgt mit der Linearität des Erwartungswertes: E(X1 + X2 ) = E(X1 ) + E(X2 ) = 3.5 + 3.5 = 7. Andererseits folgt dies auch mit der in Abschnitt 7.1.3 hergeleiteten Verteilung von S2 = X1 + X2 gemäß Tabelle 7.1.11 durch Anwendung von Regel (i*): 2 3 1 1 +3⋅ +4⋅ + ⋅ ⋅ ⋅ + 12 ⋅ = 7. 36 36 36 36 Für das Produkt folgt mit der Unabhängigkeit von X1 und X2 : E(S2 ) = 2 ⋅

E(X1 X2 ) = E(X1 )E(X2 ) = 3.5 ⋅ 2.5 = 12.25. Mit der in Abschnitt 7.1.3 hergeleiteten Verteilung von U folgt dies mit Regel (i*): 1 2 2 1 +2⋅ +3⋅ + ⋅ ⋅ ⋅ + 36 ⋅ = 12.25. 36 36 36 36 Man beachte, dass die Rechenregel für die Summe die Unabhängigkeit von X1 und X2 nicht voraussetzt, während dies bei der Multiplikationsregel jedoch der Fall ist. Der Erwartungswert einer Summe von Zufallsvariablen ist also gleich der Summe der einzelnen Erwartungswerte; ganz gleich, ob die Zufallsvariablen nun abhängig oder unabhängig sind. E(U) = 1 ⋅

• Beispiel S2-b fortgesetzt • Auch hier setzen wird das gleichnamige Beispiel aus Abschnitt 7.1.2 fort. Seien X1 = X und X2 = Y unabhängig und jeweils stetig gleichverteilt über [0,1]. Dann sind S2 = X1 + X2 und U = X1 ⋅ X2 wiederum stetig verteilt gemäß den Dichten (Abschnitt 7.1.3): f S2 (s) = sI[0,1] (s) + (2 − s)I(1,2] (s)

bzw.

f U (u) = − ln(u)I(0,1] (u).

346 | 7 Theoretische Verteilungen und Abhängigkeiten

Der Erwartungswert von X1 und X2 ist jeweils gleich 0.5. Dies ergibt sich aus ∞

1

1

E(X) = ∫ xI[0,1] (x)dx = ∫ xdx = [0.5x2 ] = 0.5, 0

−∞

0

sollte aber aufgrund der Symmetrie der Dichtefunktion auch ohne Rechnung offensichtlich sein. Damit folgt für die Summe E(X1 + X2 ) = E(X1 ) + E(X2 ) = 0.5 + 0.5 = 1 und für das Produkt E(X1 ⋅ X2 ) = E(X1 )E(X2 ) = 0.5 ⋅ 0.5 = 0.25. Alternativ erhalten wir die gleichen Ergebnisse unter Verwendung der Dichtefunktionen von S2 bzw. U. Dabei lautet die Rechnung für S2 : ∞



E(S2 ) = ∫ sf S2 (s)ds = ∫ s(sI[0,1] (s) + (2 − s)I(1,2] (s))ds −∞

−∞

1

2

0

1

1 2 1 1 = ∫ s2 ds + ∫(2s − s2 )ds = [ s3 ] + [s2 − s3 ] 0 1 3 3

8 1 1 = [ − 0] + [(4 − ) − (1 − )] = 1. 3 3 3 Vergegenwärtigt man sich die Gestalt der Dichte von S2 (Abb. 7.1.20) als Dreieck mit Modalwert 1, sollte das Ergebnis auch ohne Rechnung offensichtlich sein. Für U erhält man ∞



E(U) = ∫ uf U (u)du = ∫ u(− ln(u)I(0,1] (u))du. −∞

−∞

Mit partiellem Integrieren lässt sich zeigen, dass dieses Integral 0.25 ergibt. • Weitere Beispiele • Die Rechenregeln (i) und (ii) gelten natürlich nicht nur für Summen und Produkte, sondern für nahezu beliebige Funktionen und, wie bereits erwähnt, auch für abhängige Zufallsvariablen. Würde man beispielsweise für drei stetige Zufallsvariablen X1 , X2 und X3 (abhängig oder unabhängig) mit gemeinsamer Dichte f X1 X2 X3 den Erwartungswert von W = 1 + 2X1 X22 X33 + 3X1 √ X2 berechnen, so könnte man in einem ersten Schritt die Linearität des Erwartungswertes ausnutzen und zunächst einmal vereinfachen zu E(W) = 1 + 2E(X1 X22 X33 ) + 3E(X1 √ X2 ). Der weitere Kalkül wäre dann E(W) = 1 + 2E(X1 X22 X33 ) + 3E(X1 √ X2 )

7.2 Theoretische Kennwerte | 347

∞ ∞ ∞

= 1 + 2 ∫ ∫ ∫ x1 x22 x33 f X1 X2 X3 (x1 , x2 , x3 )dx3 dx2 dx1 −∞ −∞ −∞ ∞ ∞

+ 3 ∫ ∫ x1 √x2 f X1 X2 (x1 , x2 )dx2 dx1 , −∞ −∞

wobei für letzteres Integral zunächst die zweidimensionale Randdichte von (X1 , X2 )T hergeleitet werden müsste. Dazu äquivalent könnte man aber auch gleich rechnen: ∞ ∞ ∞

E(X1 √ X2 ) = ∫ ∫ ∫ x1 √x2 f X1 X2 X3 (x1 , x2 , x3 )dx3 dx2 dx1 . −∞ −∞ −∞

Insgesamt kann sich die Bestimmung der einzelnen Integrale im Weiteren dann als mehr oder weniger komplex erweisen. Auf ein ausführliches Rechenbeispiel wird verzichtet.

Theoretische Varianz und Standardabweichung • Definition und Notation • Die theoretische Varianz und die theoretische Standardabweichung, kurz Varianz und Standardabweichung (wir verwenden den Zusatz „theoretisch“ zur deutlicheren Unterscheidung), stellen die wahrscheinlichkeitstheoretischen Pendants zur empirischen Varianz und empirischen Standardabweichung (Abschnitt 4.4.4) ̃s2X =

1 n 1 n ∑ (x i − x)2 = ∑ x2i − x2 n i=1 n i=1

bzw.

̃s X = √̃s2X

dar und sind wie folgt definiert: Definition 7.2.2: Theoretische Varianz und Standardabweichung Sei X eine diskrete oder stetige Zufallsvariable mit Erwartungswert E(X) = μ X . Dann ist die (theoretische) Varianz von X definiert als σ2X = Var(X) = E[(X − μ X )2 ] = E(X 2 ) − μ2X

(7.2.15)

und die (theoretische) Standardabweichung als σ X = √ σ2X .

Theoretische Varianz und Standardabweichung werden mit dem griechischen Kleinbuchstaben σ

(lies: sigma)

348 | 7 Theoretische Verteilungen und Abhängigkeiten

notiert. Die Verwendung des Varianzoperators Var(⋅) hebt die Berechnungsoperation hervor. Wie beim Erwartungswertoperator lässt sich mithilfe dieses Operators insbesondere die Gültigkeit bestimmter Rechenregeln ausdrücken. • Verschiebungsformel für die theoretische Varianz • In Analogie zur Verschiebungsformel für die empirische Varianz (Abschnitt 4.4.4) gibt es auch eine Verschiebungsformel für die theoretische Varianz. Diese ergibt sich mit den Rechenregeln für den Erwartungswert wie folgt: E[(X − μ X )2 ] = E(X 2 − 2μ X X + μ2X ) = E(X 2 ) − 2μ X E(X) + E(μ2X ) = E(X 2 ) − 2μ X μ X + μ2X = E(X 2 ) − μ2X . Man beachte, dass μ X eine fest Zahl (Konstante) ist und deshalb vor den Erwartungswertoperator gezogen werden kann. • Interpretation der theoretischen Varianz • Zunächst erscheint hier die Feststellung wichtig, dass die theoretische Varianz ein spezieller Erwartungswert ist. Sie ist die erwartete quadratische Abweichung vom Erwartungswert, so wie ihr empirisches Pendant die mittlere quadratische Abweichungen vom Mittelwert ist. Insofern kommt der Varianz ein entsprechender interpretatorischer Ansatz über den Erwartungswert zu. Wird ein über die Zufallsvariable X modellierter Zufallsvorgang n Mal unabhängig und identisch wiederholt, sollte auf Basis der beobachteten Realisationen x1 , . . . , x n für großes n approximativ gelten: x=

1 n ∑ x i ≈ E(X) = μ X n i=1

und

1 n 2 ∑ x ≈ E(X 2 ). n i=1 i

In beiden Fällen ergibt sich dies aus dem Gesetz der großen Zahlen (Abschnitt 7.4.2). Mit der Verschiebungsformel folgt dann ̃s2X =

1 n 2 ∑ x − x2 ≈ E(X 2 ) − μ2X = σ2X . n i=1 i

Inhaltlich lässt sich die theoretische Standardabweichung analog zum empirischen Fall über theoretische Schwankungsintervalle deuten, die sich rechnerisch im Zusammenhang der Normalverteilung (Abschnitt 7.3.2) ergeben. So gilt für normalverteilte Zufallsvariablen X mit Erwartungswert μ und Varianz σ2 beispielsweise P(μ − 2σ ≤ X ≤ μ + 2σ) ≈ 0.95. Dies bedeutet, dass Realisationen von X mit ca. 95% Wahrscheinlichkeit nicht mehr als 2 Standardabweichungen vom Erwartungswert entfernt liegen.

7.2 Theoretische Kennwerte | 349

Interpretation der theoretischen Varianz und Standardabweichung Die theoretische Varianz ist die „langfristig“ sich einstellende empirische Varianz, falls immer wieder erneut metrische Beobachtungswerte aus der gleichen unterstellten Wahrscheinlichkeitsverteilung gewonnen werden. Informal ausgedrückt gilt also: ̃s2X → σ2X für wachsendes n oder ̃s2X ≈ σ2X für großes n. Für die theoretische Standardabweichung gilt analog: ̃s X → σ X für wachsendes n oder ̃s X ≈ σ X für großes n.

• Berechnung • Die Berechnung der Varianz einer Zufallsvariable X entspricht der Berechnung des Erwartungswertes der Funktion g(X) mit g(x) = (x − μ X )2 . Mit den Erkenntnissen des vorhergehenden Abschnitts lautet die Rechnung im stetigen Fall deshalb entweder ∞ 2

Var(X) = E[(X − μ X ) ] = ∫ (x − μ X )2 f X (x)dx −∞

oder alternativ, sofern die Verteilung Y = (X − μ X )2 mit einer Dichte f Y angegeben werden kann, ∞

Var(X) = E(Y) = ∫ yf Y (y)dy. −∞

Mit direkter Anwendung der Verschiebungsformel rechnet sich erstere Variante als ∞

Var(X) = E(X 2 ) − μ2X = ∫ x2 f X (x)dx − μ2X . −∞

Im diskreten Fall ist der Integrationskalkül durch einen entsprechenden Additionskalkül zu ersetzen. Einige Rechenbeispiele finden sich nachfolgend. • Spezialfall: Varianzen von Summen • Für den Erwartungswert einer Summe aus mehreren Zufallsvariablen gilt folgende Regel: Satz 7.2.5: Varianzen von Summen bei Unabhängigkeit Für n (vollständig) unabhängige Zufallsvariablen X1 , . . . , X n (diskret oder stetig)

350 | 7 Theoretische Verteilungen und Abhängigkeiten

und Konstanten c0 , c1 , . . . , c n gilt: Var(c0 + c1 X1 + ⋅ ⋅ ⋅ + c n X n ) = c21 Var(X1 ) + ⋅ ⋅ ⋅ + c2n Var(X n ). Speziell folgt daraus für zwei unabhängige Zufallsvariablen X und Y: Var(X + Y) = Var(X) + Var(Y). Diese Resultate gelten auch bei Unkorreliertheit (Abschnitt 7.2.2). Die Varianz einer Summe ist bei Unabhängigkeit gleich der Summe der einzelnen Varianzen. Folglich ist die Varianz bzw. der Varianzoperator bei Unabhängigkeit linear. Die Unabhängigkeit ist jedoch nicht notwendig für die Linearität der Varianz. Ähnlich wie bei der Multiplikationsregel (7.2.14) wäre Unkorreliertheit, die durch Unabhängigkeit impliziert wird (Abschnitt 7.2.2), bereits hinreichend. Sofern keine Unkorreliertheit vorliegt, müssen bei der Rechnung theoretische Kovarianzen, die zwischen den einzelnen Zufallsvariablen bestehen können, berücksichtigt werden (vgl. Abschnitt 7.4.1 mit Beispielen). Zum Nachweis der Linearität bei Unabhängigkeit betrachten wir den Fall zweier unabhängiger Zufallsvariablen X und Y mit Erwartungswerten μ X bzw. μ Y . Dann gilt zunächst: E(X + Y) = E(X) + E(Y) = μ X + μ Y . Außerdem gilt für die zentrierte Variable X − μ X (analog auch für Y − μ Y ): E(X − μ X ) = 0,

(7.2.16)

da E(X − μ X ) = E(X) − E(μ X ) = μ X − μ X = 0 ist. Aufgrund der Unabhängigkeit von X und Y sind auch X − μ X und Y − μ Y als Funktionen von X bzw. Y unabhängig (Satz 7.1.5, Abschnitt 7.1.3). Dies wiederum impliziert mit der Multiplikationsregel (7.2.14), dass gilt: E[(X − μ X )(Y − μ Y )] = E(X − μ X ) ⋅ E(Y − μ Y ) = 0 ⋅ 0 = 0.

(7.2.17)

Mit der Definition für die Varianz und der Linearität des Erwartungswerts folgt schließlich für Z = X + Y: Var(X + Y) = Var(Z) = E[(Z − E(Z))2 ] = E[(X + Y − μ X − μ Y )2 ] = E[(X − μ X + Y − μ Y )2 ] = E[(X − μ X )2 + (Y − μ Y )2 + 2(X − μ X )(Y − μ Y )] = E[(X − μ X )2 ] + E[(Y − μ Y )2 ] + 2E[(X − μ X )(Y − μ Y )] = Var(X) + Var(Y), wobei sich die letzte Gleichung aus (7.2.17) ergibt. Das für n Zufallsvariablen postulierte Resultat folgt dann induktiv. Zur Berücksichtigung möglicher Koeffizienten

7.2 Theoretische Kennwerte

| 351

c0 , c1 , . . . , c n beachte man die Transformationseigenschaften der Varianz in Abschnitt 7.2.3. Es sei ferner bemerkt, dass die linke Seite von (7.2.17) der theoretischen Kovarianz zwischen X und Y entspricht (Definition 7.2.5). Diese ist neben den einzelnen Varianzen zusätzlich zu bestimmen, falls X und Y nicht unkorreliert sind. • Beispiel D1-a fortgesetzt • Wir setzen das gleichnamige Beispiel aus den vorhergehenden Abschnitten fort und berechnen nun die Varianz von X (Anzahl mitreisender Kinder) mit P(X = 0) = 0.4, P(X = 1) = 0.2, P(X = 2) = 0.3 und P(X = 3) = 0.1. Wie bereits gezeigt, gilt: E(X) = 1 ⋅ 0.2 + 2 ⋅ 0.3 + 3 ⋅ 0.1 = 1.1. Weiter folgt dann mit dem zweiten theoretischen Moment E(X 2 ) = 12 ⋅ 0.2 + 22 ⋅ 0.3 + 32 ⋅ 0.1 = 2.3 über die Verschiebungsformel für die theoretische Varianz σ2 = Var(X) = E(X 2 ) − (E(X))2 = 2.3 − 1.12 = 1.09. Die theoretische Standardabweichung beträgt dann σ = √1.09 ≈ 1.04. • Beispiel S1-a fortgesetzt • Für das gleichnamige Beispiel aus den vorhergehenden Abschnitten mit der stetigen Zufallsvariable X (Höhe von Trinkgeld) gemäß Dichte f X (x) = 1.2I(0,0.5] (x) + 0.5I(0.5,1.0] (x) + 0.15 ⋅ I(1.0,2.0] (x) wurde bereits gezeigt: ∞

E(X) = ∫ xf X (x)dx = 0.5625. −∞

Mit dem zweiten theoretischen Moment ∞



E(X 2 ) = ∫ x2 f X (x)dx = ∫ 1.2x2 I(0,0.5] (x)dx −∞

−∞ ∞



+ ∫ 0.5x2 I(0.5,1] (x)dx + ∫ 0.15x2 I(1,2] (x)dx −∞

−∞

0.5

1 2

2

= 1.2 ∫ x dx + 0.5 ∫ x dx + 0.15 ∫ x2 dx 0

2

0.5

1

0.5 1 2 1 1 1 = 1.2[ x3 ] + 0.5[ x3 ] + 0.15[ x3 ] 0 0.5 1 3 3 3

352 | 7 Theoretische Verteilungen und Abhängigkeiten ≈ 0.5458 folgt über die Verschiebungsformel σ2 = Var(X) = E(X 2 ) − (E(X))2 ≈ 0.2294. Die theoretische Standardabweichung beträgt dann σ = √0.2294 ≈ 0.48. • Beispiel D2-b fortgesetzt • Wir setzen das gleichnamige Beispiel aus den vorhergehenden Abschnitten fort und berechnen die Varianz von S2 = X1 + X2 (zweimaliger Würfelwurf). Laut Beispiel D1-c aus Abschnitt 7.2.1 gilt für X (einmaliger Würfelwurf): E(X) = 3.5

und

E(X 2 ) = 91/6 ≈ 15.17.

Daraus folgt: Var(X) = E(X 2 ) − (E(X))2 ≈ 2.92. Da X1 und X2 identisch wie X verteilt sind, gilt: Var(X1 ) = Var(X2 ) ≈ 2.92. Da sie unabhängig sind, folgt Var(S2 ) = Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) ≈ 2.92 + 2.92 = 5.84. Alternativ könnte man die Varianz der Summe auch dadurch berechnen, indem man zunächst die Verteilung von S2 (Abschnitt 7.1.3, Tab. 7.1.11) herleitet und darauf basierend dann die Varianz von S2 berechnet. Auf weitere Ausführungen hierzu wird verzichtet. • Beispiel S2-b fortgesetzt • Hier berechnen wir für das gleichnamige Beispiel aus den vorhergehenden Abschnitten die Varianz von S2 = X1 + X2 , wobei X1 und X2 unabhängige auf dem Intervall [0, 1] stetig gleichverteilte Zufallsvariablen sind. Laut Beispiel S1-c aus Abschnitt 7.2.1 gilt für X: E(X) = 0.5

und

E(X 2 ) = 1/3.

Somit lautet die Varianz Var(X) = E(X 2 ) − (E(X))2 = 1/12 ≈ 0.08. Da X1 und X2 unabhängig und identisch wie X verteilt sind, folgt Var(S2 ) = Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) = 1/12 + 1/12 = 1/6. Alternativ könnte man auch die in Abschnitt 7.1.3 ermittelte Dichte von S2 f S2 (s) = sI[0,1] (s) + (2 − s)I(1,2] (s)

7.2 Theoretische Kennwerte

| 353

zur Berechnung der Varianz heranziehen. Auf weitere Ausführungen hierzu wird verzichtet.

Theoretische Quantile und theoretischer Median • Definition • Empirische Quantile teilen grob gesagt gegebene Beobachtungen in Bezug auf bestimmte Anteilswerte in eine kleinere und größere Hälfte ein (Abschnitt 4.3.2). Analog dazu lokalisieren die theoretischen Quantile grob gesagt diejenigen Werte, welche die Wahrscheinlichkeitsmasse einer theoretischen Verteilung in eine größere und kleinere Hälfte separieren. Das α-Quantil einer Zufallsvariable X, notiert mit q α , kann man durch folgende Ungleichungen einführen: P(X ≤ q α ) ≥ α

und

P(X ≥ q α ) ≥ 1 − α.

(7.2.18)

Dabei kann ein Interpretations- und Eindeutigkeitsproblem entstehen. Das linke Schaubild von Abbildung 7.2.2 verdeutlicht dies für diskrete Verteilungen. Es entsteht insbesondere durch die zwischen den Trägerpunkten liegenden „Lücken“. Für das 0.9Quantil erfüllen sämtliche Werte des Intervalls [2, 3] Kriterium (7.2.18). Ein 0.5-Quantil soll idealerweise den Wertebereich von X in zwei Teilbereiche zerlegen, in die X jeweils mit einer Wahrscheinlichkeit von genau 0.5 fällt. Für das 0.5-Quantil q0.5 = 1 kommt es hier zu einer Überlappung der beiden Bereiche an der Stelle des Quantils und beide Wahrscheinlichkeiten sind dadurch größer als 0.5. Bei stetigen Verteilungen tauchen solche Probleme nicht auf, sofern die Trägermenge nicht durch Intervalllücken unterbrochen wird und die Verteilungsfunktion somit auf der Trägermenge eine streng monotone stetige Funktion bildet. Alle α-Quantile für α ∈ (0, 1) können dann eindeutig durch Kriterium (7.2.18) bestimmt werden. Ferner kann das Kriterium deutlich vereinfacht werden, s. (7.2.19). Definition 7.2.3: Theoretische Quantile und theoretischer Median Sei X eine stetige Zufallsvariable mit streng monotoner Verteilungsfunktion auf der Trägermenge. Dann ist das (theoretische) α-Quantil q α bestimmt durch P(X ≤ q α ) = α

für α ∈ (0, 1).

(7.2.19)

Insbesondere heißt q0.5 (theoretischer) Median. Bei Zufallsvariablen mit nicht streng monotoner Verteilungsfunktion entstehen Eindeutigkeitsprobleme, die per Konvention unterschiedlich geregelt werden können.

• Interpretation der theoretischen Quantile • Wird ein über die Zufallsvariable X modellierter Zufallsvorgang n Mal unabhängig und identisch wiederholt, sollte für großes n approximativ gelten, dass ca. α× 100% aller beobachteten Realisationen klei-

354 | 7 Theoretische Verteilungen und Abhängigkeiten

f X (x ) 0.4

Y (y) ●

0.3



0.2

α



0.1



0.0 −1









0

1

2

3

4

y

⌠ f (y) d y = α ⌡−∞ Y

x

q 0.9 ∈ [2,3]

q 0.5 =?





5

Abb. 7.2.2: Theoretische Quantile diskreter und stetiger Verteilungen

ner und (1 − α)× 100% größer als das theoretischen Quantil q α sind. Die relativen Häufigkeiten von Unter- bzw. Überschreitungen streben dabei für großes n gegen die theoretischen Anteilswerte. • Berechnung • Die Wahrscheinlichkeit P(X ≤ q α ) entspricht gerade dem Wert der Verteilungsfunktion von X an der Stelle q α , d.h. (7.2.19) kann man auch schreiben als F X (q α ) = α.

(7.2.20)

Folglich lassen sich Quantile bei streng monotoner Verteilungsfunktion auch über die Umkehrfunktion auf der Trägermenge definieren, indem man q α = F −1 X (α) setzt. Die rechnerische Bestimmung kann dadurch erfolgen, dass man die Verteilungsfunktion dem gewünschten Anteilswert gemäß (7.2.20) gleichsetzt und die resultierende Gleichung nach dem erforderlichen Argument auflöst. Natürlich kann man auch gleich die gesamte Umkehrfunktion herleiten, sofern dies praktikabler erscheint. Beispiel S1−a

F X (x )

1.0

0.8

0.8

0.6

0.6

q 0.8 = 0.9

0.4 0.2

0.0

0.5

1.0

1.5

q 0.8 = 32.19

0.4 0.2

q 0.5 = 0.42

0.0

Beispiel S1−b

F Y (y )

1.0

q 0.5 = 13.86

0.0 2.0

2.5

3.0

−10

0

10

20

x

Abb. 7.2.3: Bestimmung theoretischer Quantile bei stetigen Verteilungen

30

40

y

50

60

70

80

7.2 Theoretische Kennwerte

| 355

• Beispiel S1-a fortgesetzt • Für das gleichnamige Beispiel aus den vorhergehenden Abschnitten mit der stetigen Zufallsvariable X (Höhe von Trinkgeld) wurde bereits die Verteilungsfunktion in Abschnitt 7.1.1 hergeleitet. Sie lautet (Abb. 7.2.3, links) F X (x) = 1.2xI(0,0.5] (x) + (0.5x + 0.35)I(0.5,1] (x) + (0.15x + 0.7)I(1,2] (x) + I(2,∞) (x). Zur Ermittlung eines α-Quantils wird bei einer abschnittsweise definierten Funktion derjenige Abschnitt gleich α gesetzt, in den das Quantil hineinfällt. Im Falle des Medians wäre dies im vorliegenden Fall das Intervall (0, 0.5]. Folglich setzt man 1.2q0.5 = 0.5, woraus sich q0.5 ≈ 0.42 ergibt. Im Falle des 0.8-Quantils würde man dagegen 0.5q0.8 + 0.35 = 0.8 setzen und q0.8 = 0.9 erhalten. • Beispiel S1-b fortgesetzt • Für das gleichnamige Beispiel aus den vorhergehenden Abschnitten mit der stetigen Zufallsvariable Y (Wartezeit bis zum nächsten Notruf) wurde die Verteilungsfunktion ebenfalls bereits in Abschnitt 7.1.1 hergeleitet. Sie lautet (Abb. 7.2.3, rechts) F Y (y) = (1 − e−0.05y )I[0,∞) (y). Zur Bestimmung eines α-Quantils setzt man gemäß (7.2.20) 1 − e−0.05q α = α

für α ∈ (0, 1).

Äquivalente Umformungen führen dann zu ⇐⇒ e−0.05q α = 1 − α ⇐⇒ −0.05q α = ln(1 − α) ⇐⇒ q α = −20 ln(1 − α). Man beachte, dass durch F −1 Y (α) = −20 ln(1 − α)

für α ∈ (0, 1)

die Umkehrfunktion der Verteilungsfunktion F X gegeben ist. Speziell erhält man nun beispielsweise für Median und 0.8-Quantil q0.5 = −20 ln(0.5) ≈ 13.86

bzw.

q0.8 = −20 ln(0.2) ≈ 32.19.

7.2.2 Kennwerte in Bezug auf Abhängigkeiten Bedingte Erwartungswerte und Varianzen • Definition • Erwartungswert und Varianz einer bedingten Verteilung werden als bedingter Erwartungswert bzw. als bedingte Varianz bezeichnet. Im Folgenden be-

356 | 7 Theoretische Verteilungen und Abhängigkeiten

schränken wir uns zunächst auf den zweidimensionalen Fall. Höherdimensionale und komplexere bedingte Erwartungswerte finden sich in Abschnitt 8.3.2. Definition 7.2.4: Bedingte Erwartungswerte und Varianzen Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig). Dann werden Erwartungswert und Varianz der bedingten Verteilung von Y gegeben X = x als bedingter Erwartungswert von Y gegeben X = x bzw. als bedingte Varianz von Y gegeben X = x bezeichnet. Dafür notiert man entsprechend E(Y|X = x)

Var(Y|X = x).

bzw.

Zur deutlicheren sprachlichen Unterscheidung spricht man auch vom unbedingten Erwartungswert bzw. der unbedingten Varianz, wenn man den Erwartungswert E(Y) bzw. die Varianz Var(Y) meint. • Interpretation bedingter Erwartungswerte und Varianzen • Da es nicht die eine bedingte Verteilung gibt, sondern die bedingte Verteilung von Y gegeben X = x für unterschiedliche Werte von x verschieden sein kann, gibt es auch nicht den einen bedingten Erwartungswert oder die eine bedingte Varianz. Die empirische Entsprechung bedingter Erwartungswerte und Varianzen bilden Gruppenmittelwerte und Gruppenvarianzen für gruppierte Daten (Abschnitte 4.3.1 und 4.5.1). Die Gruppen werden hierbei durch die Bedingung X = x für unterschiedliche Werte von x definiert. Zum inhaltlichen Verständnis mögen die späteren Beispiele dienen. • Berechnung und Rechenregeln • Für bedingte Erwartungswerte gelten die gleichen Berechnungs- und Rechenregeln wie für „gewöhnliche“ (unbedingte) Erwartungswerte. Es entsteht sozusagen nur ein zusätzlicher notationeller Aufwand. So gilt beispielsweise für die formale Definition der bedingten Varianz: 2

Var(Y|X = x) = E[(Y − E(Y|X = x)) |X = x]. Weiter folgt dann mit der Verschiebungsformel Var(Y|X = x) = E(Y 2 |X = x) − (E(Y|X = x))2 .

(7.2.21)

Die bedingte Varianz lässt sich also aus dem zweiten und dem ersten bedingten Moment errechnen. Im diskreten Fall wird der bedingte Erwartungswert von Y gegeben X = x (das erste bedingte Moment) über die Formel E(Y|X = x) = ∑ b j f Y|X (y|x) j

(7.2.22)

7.2 Theoretische Kennwerte

| 357

berechnet. Im stetigen Fall lautet der Integrationskalkül entsprechend ∞

E(Y|X = x) = ∫ yf Y|X (y|x)dy.

(7.2.23)

−∞

Dabei bezeichnen b1 , b2 , . . . , b l , . . . die Realisationsmöglichkeiten von Y und f Y|X die bedingte Wahrscheinlichkeitsfunktion bzw. die bedingte Dichtefunktion. Die Berechnung des zweiten Moments E(Y 2 |X = x) erfolgt mit entsprechenden Modifikationen „b2j “ bzw. „y2 “. Der bedingte Erwartungswert ist ebenso linear wie der (gewöhnliche) Erwartungswert. So gilt für drei Zufallsvariablen X, Y und Z also stets: E(X + Y|Z = z) = E(X|Z = z) + E(Y|Z = z).

(7.2.24)

Var(X + Y|Z = z) = Var(X|Z = z) + Var(Y|Z = z).

(7.2.25)

Für die Gültigkeit von

benötigt man hingegen noch das Konzept der bedingten Unabhängigkeit bzw. bedingten Unkorreliertheit, welches erst später in Abschnitt 8.3.1 als ergänzendes Thema behandelt wird. Satz 7.2.6: Rechenregeln für den bedingten Erwartungswert Für die Zufallsvariablen X, Y, Z, die reellen Konstanten a, b, c und die (messbaren) Funktionen g, h : ℝ → ℝ gelten: E(a + bX + cY|Z = z) = a + bE(X|Z = z) + cE(Y|Z = z), E(g(X)h(Y)|X = x) = g(x)E(h(Y)|X = x),

(7.2.26) (7.2.27)

sofern die angegebenen bedingten Erwartungswerte existieren. (7.2.26) ist eine Verallgemeinerung von (7.2.24) und zeigt, dass der bedingte Erwartungswert wie der unbedingte Erwartungswert linear ist. Rechenregel (7.2.27) erlaubt das Ausklammern von Faktoren, die nur von der Bedingung abhängen, aus dem bedingten Erwartungswert. Sie wird sich in Abschnitt 12.1.3 als nützlich erweisen. • Bedingte Kennwerte bei Unabhängigkeit • Sofern X und Y unabhängig sind, stimmen die bedingten Erwartungswerte und Varianzen mit den unbedingten Erwartungswerten und Varianzen überein, d.h. E(Y) = E(Y|X = x)

bzw.

Var(Y) = Var(Y|X = x).

Dies liegt daran, dass bei Unabhängigkeit die bedingten Verteilungen den unbedingten Verteilungen entsprechen, d.h. f Y|X = f Y (Definition 7.1.12).

358 | 7 Theoretische Verteilungen und Abhängigkeiten

• Beispiel D2-a fortgesetzt • Dem gleichnamigen Beispiel aus Abschnitt 7.1.2 (Geschlecht und Rauchgewohnheiten) liegt die gemeinsame diskrete Verteilung zweier Zufallsvariablen X und Y gemäß Tabelle 7.1.2 zugrunde. Die bedingten Verteilungen wurden bereits ermittelt, in den Tabellen 7.1.3 und 7.1.4 zusammengefasst und in den Schaubildern von Abbildung 7.1.8 dargestellt. Demnach ergibt sich gemäß (7.2.22) beispielsweise E(Y|X = 0) = 0 ⋅ 0.1 + 1 ⋅ 0.2 + 2 ⋅ 0.7 = 1.6, E(Y 2 |X = 0) = 02 ⋅ 0.1 + 12 ⋅ 0.2 + 22 ⋅ 0.7 = 3, Var(Y|X = 0) = E(Y 2 |X = 0) − E(Y|X = 0)2 = 3 − 1.62 = 0.44. Analog erhält man E(Y|X = 1) = 1.4

und

Var(Y|X = 1) = 0.64.

Andererseits erhält man für die bedingten Verteilungen von X gegeben Y E(X|Y = 0) = 0.75,

Var(X|Y = 0) = 0.1875,

E(X|Y = 1) = 0.60,

Var(X|Y = 1) = 0.24,

E(X|Y = 2) = 0.5625,

Var(X|Y = 2) ≈ 0.2461.

Die bedingten Erwartungswerte und Varianzen sind in diesem Beispiel inhaltlich mit Vorbehalt deutbar, da X und Y metrisch kodierte Variablen sind (X für Geschlecht, Y für Rauchverhalten) und die Metrisierung der einzelnen Kategorien in gewisser Weise willkürlich ist. Da es sich in diesem Fall bei X um eine 0-1-Variable handelt (0 für weiblich und 1 für männlich), gilt: E(X|Y = 0) = P(X = 1|Y = 0) = 0.75, E(X|Y = 1) = P(X = 1|Y = 1) = 0.6, E(X|Y = 2) = P(X = 1|Y = 2) = 0.5625. Daraus folgt, dass der theoretische Anteil von Männern bei Rauchern 75%, bei Gelegenheitsrauchern 60% und bei Nichtrauchern 56.25% beträgt. Gleichzeitig lesen wir aus E(Y|X = 0) = 1.6 > E(Y|X = 1) = 1.4, einen geringeren Zigarettenkonsum der Frauen im Vergleich zu den Männern heraus. Man beachte, dass die konkreten Vergleichswerte 1.6 und 1.4 von der Kodierung der einzelnen Stufen für die Rauchgewohnheit abhängen. Im vorliegenden Fall steht Y = 2 für Nichtraucher, Y = 1 für Gelegenheitsraucher und Y = 0 für Raucher. Wird also ein über die Zufallsvariable X und Y modellierter Zufallsvorgang n Mal unabhängig und identisch wiederholt, sollte auf Basis der beobachteten Realisationen für großes n approximativ gelten, dass beispielsweise der relative Anteil von Männern unter den Rauchern ca. 75% beträgt und die „durchschnittliche Rauchgewohn-

7.2 Theoretische Kennwerte

| 359

heit“ unter Männern unter der verwendeten Kodierung ca. 1.6 beträgt. Aus Var(Y|X = 0) = 0.44 < Var(Y|X = 1) = 0.64 lässt sich mit der gleichen Einschränkung lesen, dass die Rauchgewohnheiten bei Frauen im Sinne der Varianz stärker streuen als bei Männern. Ein Blick in Tabelle 7.1.4 zeigt, dass sich die Wahrscheinlichkeitsmasse bei den Männern etwas gleichmäßiger verteilt ist als bei den Frauen. Die empirischen Varianzen für die Rauchgewohnheit sollten für großes n diesen theoretischen Werten ungefähr entsprechen. • Beispiel D2-b fortgesetzt • Dem gleichnamigen Beispiel aus Abschnitt 7.1.2 (zweifacher Würfelwurf) liegt die gemeinsame diskrete Verteilung zweier Zufallsvariablen X und Y gemäß Tabelle 7.1.5 zugrunde. Da X und Y unabhängig sind, stimmen die bedingten Verteilungen mit den jeweiligen Randverteilungen überein, d.h. es gilt f Y|X = f Y

f X|Y = f X .

und

Außerdem sind X und Y identisch verteilt. Wie bereits ermittelt, gelten E(X) = E(Y) = 3.5

und

Var(X) = Var(Y) ≈ 2.92.

Wegen der Unabhängigkeit folgt nun: E(Y|X = 1) = E(Y|X = 2) = ⋅ ⋅ ⋅ = E(Y|X = 6) = 3.5, Var(Y|X = 1) = Var(Y|X = 2) = ⋅ ⋅ ⋅ = Var(Y|X = 6) = 2.92. Aus theoretischer Sicht würfelt man „im Durchschnitt“ also eine 3.5 im zweiten Wurf (ersten Wurf), unabhängig davon welche Zahl nun im ersten (zweiten) Wurf fällt. • Beispiel S2-a fortgesetzt • Dem gleichnamigen Beispiel aus Abschnitt 7.1.2 liegt die gemeinsame stetige Verteilung zweier Zufallsvariablen X und Y gemäß Dichte f XY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) zugrunde. Die bedingten Verteilungen wurden bereits ermittelt und lauten 0.5x + 0.25y I[0,2] (y) für x ∈ [0, 1] bzw. x + 0.5 2x + y I[0,1] (x) für y ∈ [0, 2]. f X|Y (x|y) = y+1 f Y|X (y|x) =

Beispielhaft sind diese für verschiedene Werte von y bzw. x in Abbildung 7.1.11 dargestellt. Gemäß (7.2.23) ergibt sich für x ∈ [0, 1] ∞



E(Y|X = x) = ∫ yf Y|X (y|x)dy = ∫ −∞

−∞ 2

=

0.5xy + 0.25y2 I[0,2] (y)dy x + 0.5

1 ∫(0.5xy + 0.25y2 )dy x + 0.5 0

360 | 7 Theoretische Verteilungen und Abhängigkeiten

=

1 1 3 y=2 x + 2/3 1 = y ] . [ xy2 + y=0 x + 0.5 4 12 x + 0.5

Speziell würde daraus folgen: E(Y|X = 0) = 4/3, E(Y|X = 0.5) = 7/6, E(Y|X = 1) = 10/9. Weiter lautet das zweite bedingte Moment für x ∈ [0, 1]: ∞

2

1 E(Y |X = x) = ∫ y f Y|X (y|x)dy = ∫(0.5xy2 + 0.25y3 )dy x + 0.5 2

2

−∞

0

1 1 4 y=2 (4/3)x + 1 1 y ] . = = [ xy3 + y=0 x + 0.5 6 16 x + 0.5 Daraus würde gemäß Verschiebungsformel (7.2.21) beispielsweise folgen: Var(Y|X = 0) ≈ 0.22, Var(Y|X = 0.5) ≈ 0.31, Var(Y|X = 1) ≈ 0.32. Für wachsendes x wird der bedingte Erwartungswert von Y gegeben X = x kleiner und nähert sich „von oben“ dem Wert 1. Dies liegt daran, dass die Schiefe der bedingten Verteilung abnimmt und sich die Wahrscheinlichkeitsmasse zunehmend gleichmäßiger auf der Trägermenge [0, 2] verteilt. Die bedingte Varianz wird gleichzeitig größer und nähert sich „von unten“ dem Wert 1/3. Man beachte, dass Erwartungswert und Varianz einer über dem Intervall [0, 2] gleichverteilten Zufallsvariable durch 1 bzw. 1/3 gegeben sind (vgl. Abschnitt 7.3.2). Völlig analoge Sachverhalte erhält man für die bedingte Verteilung von X unter Y = y. Beispielsweise gilt hier dann für y ∈ [0, 2]: ∞

E(X|Y = y) = ∫ xf X|Y (x|y)dx = −∞

2/3 + 0.5y . y+1

Für wachsendes y wird der bedingte Erwartungswert von X gegeben Y = y kleiner und nähert sich „von oben“ dem Wert 0.5, also dem Erwartungswert einer über dem Intervall [0, 1] gleichverteilten Größe. Auf weitere Ausführungen sei verzichtet. • Beispiel S2-b fortgesetzt • Dem gleichnamigen Beispiel aus Abschnitt 7.1.2 liegt die gemeinsame stetige Verteilung zweier Zufallsvariablen X und Y gemäß Dichte f XY (x, y) = I[0,1] (x)I[0,1] (y) zugrunde. Da X und Y unabhängig sind, stimmen die bedingten Verteilungen mit den jeweiligen Randverteilungen überein, d.h. es gilt f Y|X (y|x) = I[0,1] (y) für x ∈ [0, 1]

bzw.

f X|YX (x|y) = I[0,1] (x) für y ∈ [0, 1].

Außerdem sind X und Y identisch verteilt. Wie bereits ermittelt, gilt E(X) = E(Y) = 0.5

und

Var(X) = Var(Y) = 1/12.

7.2 Theoretische Kennwerte | 361

Wegen der Unabhängigkeit folgt dann E(Y|X = x) = E(X|Y = y) = 0.5

für jedes x bzw. y ∈ [0, 1] und

Var(Y|X = x) = Var(X|Y = y) = 1/12

für jedes x bzw. y ∈ [0, 1].

• Bedingter Erwartungswert als Zufallsvariable • Normalerweise sind bedingte Erwartungswerte und Varianzen der Form E(Y|X = x)

bzw.

Var(Y|X = x)

nichtstochastische Größen, falls für x feste Werte vorgegeben werden. Sie lassen sich jedoch auch stochastisch wie Zufallsvariablen behandeln, falls keine konkreten Werte vorgeben werden. Man schreibt in solchen Fällen dann nur E(Y|X)

bzw.

Var(Y|X).

Wie ist das dann genau zu verstehen? Zur Erläuterung beschränken wir uns im Folgenden auf bedingte Erwartungswerte. Die Konzeption für bedingte Varianzen ist völlig analog. • Beispiel D2-a fortgesetzt • Betrachten wir zunächst nochmals das vorhergehende Beispiel D2-a. Hier gilt: E(Y|X = 1) = 1.4

und

E(Y|X = 0) = 1.6.

Der bedingte Erwartungswert kann nun als eine vom Wert von X abhängige Funktion interpetiert werden. Der Deutlichkeit definieren halber wir dazu eine Funktion g(x) mit g(x) = E(Y|X = x),

wobei g(1) = 1.4 und g(0) = 1.6 sind.

Geht man zur Großschreibweise für Zufallsvariablen über, erhält man den bedingten Erwartungswert als Funktion der Zufallsvariable X, wobei g(X) = E(Y|X) die Realisationsmöglichkeiten 1.4 und 1.6 besitzt. Diese beiden Werte werden genau dann angenommen, falls X = 1 bzw. X = 0 ist. Die Wahrscheinlichkeiten dieser beiden Realisationsmöglichkeiten entsprechen dabei den Wahrscheinlichkeiten für X = 1 bzw. X = 0, d.h. P(g(X) = 1.4) = P(X = 1)

und

P(g(X) = 1.6) = P(X = 0)

oder, um es nun über den bedingten Erwartungswert auszudrücken, P(E(Y|X) = 1.4) = P(X = 1)

und

P(E(Y|X) = 1.6) = P(X = 0).

Der einfacheren Notation wegen setzen wir U := E(Y|X) und erhalten schließlich E(U = 1.4) = 0.6

und

P(U = 1.6) = 0.4,

da gemäß Tabelle 7.1.2 gilt: P(X = 1) = 0.6 und P(X = 0) = 0.4. Der bedingte Erwartungswert ist folglich eine diskrete Zufallsvariable mit den beiden Trägerpunkten

362 | 7 Theoretische Verteilungen und Abhängigkeiten

1.4 und 1.6 und den jeweiligen Eintrittswahrscheinlichkeiten 0.6 bzw. 0.4 (Abb. 7.2.4, links). Völlig analog erhält man für E(X|Y): P(E(X|Y) = 0.75) = P(Y = 0) = 0.16, P(E(X|Y) = 0.6) = P(Y = 1) = 0.20, P(E(X|Y) = 0.5625) = P(Y = 2) = 0.64. • Beispiel D2-b fortgesetzt • In Beispiel D2-b gilt einerseits E(Y|X = x) = 3.5

für jedes x ∈ {1, 2, . . . , 6}

E(X|Y = y) = 3.5

für jedes y ∈ {1, 2, . . . , 6}.

und andererseits

Deshalb wären hier E(Y|X) und E(X|Y) jeweils Einpunktverteilungen gemäß P(E(Y|X) = 3.5) = 1

bzw.

P(E(X|Y) = 3.5) = 1.

• Beispiel S2-a fortgesetzt • Im Falle der stetigen Verteilung von Beispiel S2-a ergab sich aus früheren Rechnungen: E(Y|X = x) =

x + 2/3 x + 0.5

E(X|Y = y) =

und

2/3 + 0.5y . y+1

In diesem Fall ist die funktionale Abhängigkeit des bedingten Erwartungswertes von den bedingenden Werten x bzw. y offensichtlich. Stochastisch aufgefasst erhält man mit X + 2/3 2/3 + 0.5Y E(Y|X) = und E(X|Y) = X + 0.5 Y +1 zwei (nichtlineare) Funktionen der Zufallsvariablen X bzw. Y. Wie bereits gezeigt, besitzen X und Y die Randdichten f X (x) = (x + 0.5)I[0,1] (x) bzw.

f Y (y) = (0.25y + 0.25)I[0,2] (y).

Definiert man nun 2/3 + 0.5Y X + 2/3 und V := E(X|Y) = , X + 0.5 Y +1 so lässt sich mit etwas Aufwand (univariater Transformationssatz) zeigen, dass U und V stetig verteilt sind gemäß den Dichten (s.a. Abb. 7.2.4, rechts) U := E(Y|X) =

f U (u) =

1 I 10 4 (u) bzw. 36(u − 1)3 [ 9 , 3 ]

f V (v) =

1 I 5 2 (v). 144(v − 0.5)3 [ 9 , 3 ]

• Beispiel S2-b fortgesetzt • In Beispiel S2-b gilt einerseits E(Y|X = x) = 0.5

für jedes x ∈ [0, 1]

7.2 Theoretische Kennwerte | 363

und andererseits E(X|Y = y) = 0.5

für jedes y ∈ [0, 1].

Hier wären E(Y|X) und E(X|Y) jeweils Einpunktverteilungen gemäß P(E(Y|X) = 0.5) = 1

Beispiel D2−a

f U (u ) 0.8

Beispiel S2−a

f U (u ) 20

U = E (Y |X )

0.6

P(E(X|Y) = 0.5) = 1.

bzw.



U = E (Y |X )

15



0.4

10



0.2

5

0.0



1.0

1.2

0



1.4

1.6

1.8

2.0

● ●



1.0

1.1

u

1.2

1.3

1.4

1.5

u

Abb. 7.2.4: Bedingter Erwartungswert als Zufallsvariable

• Iterierte Erwartungswertbildung • Sofern bedingte Erwartungswerte oder Varianzen selbst als Zufallsvariablen behandelt werden, lassen sich in Bezug auf die korrespondierenden Wahrscheinlichkeitsverteilungen natürlich auch wieder Kennwerte wie Erwartungswert und Varianz ermitteln. Damit erhalten zunächst irritierende Schreibweisen wie etwa E[E(Y|X)], Var[E(Y|X)], E[Var(Y|X)] oder Var[Var(Y|X)] einen Sinn. Insbesondere im Falle des Erwartungswertes des bedingten Erwartungswertes spricht man auch von iterierter Erwartungswertbildung. Hierbei gelten folgende Regeln: Satz 7.2.7: Regeln bei iterierter Erwartungswertbildung Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig). Dann gilt: (i) E(Y) = E[E(Y|X)]. (ii) Var(Y) = E[Var(Y|X)] + Var[E(Y|X)].

Die Rechenregeln (i) bzw. (ii) gelten im Allgemeinen nur dann, wenn E(Y) bzw. Var(Y) endlich sind, siehe dazu auch Abschnitt 7.2.3.

364 | 7 Theoretische Verteilungen und Abhängigkeiten

Regel (i) folgt im stetigen Fall aus ∞





E[E(Y|X)] = E[ ∫ yf Y|X (y|X)dy] = ∫ [ ∫ yf Y|X (y|x)dy]f X (x)dx −∞ −∞

−∞ ∞ ∞

∞ ∞

= ∫ ∫ yf Y|X (y|x)f X (x)dydx = ∫ ∫ yf XY (x, y)dydx −∞ −∞ ∞ ∞

−∞ −∞ ∞

= ∫ y( ∫ f XY (x, y)dx)dy = ∫ yf Y (y)dy = E(Y). −∞

−∞

−∞

Dabei bezeichnen f Y|X (y|x),

f XY (x, y),

f X (x)

und

f Y (y)

die bedingte Dichte, die gemeinsame Dichte und die Randdichten von X bzw. Y. Man beachte, dass der „innere Erwartungswert“ bedingt ist und bezüglich Y gebildet wird. Der „äußere Erwartungswert“ wird hingegen bezüglich X gebildet, da der bedingte Erwartungswert E(Y|X) eine Funktion von X ist. Auf einen Nachweis von Regel (ii) sei verzichtet. Im diskreten Fall ist der Integrationskalkül durch einen entsprechenden Additionskalkül zu ersetzen. Außerdem gilt natürlich genauso unter Vertauschung von X und Y E(X) = E[E(X|Y)]

und

Var(X) = E[Var(X|Y)] + Var[E(X|Y)].

• Interpretation • Auf empirischer Ebene entspricht Regel (i) der Berechnung des arithmetischen Mittels für gruppierte Daten (Abschnitt 4.3.1), während Regel (ii) die theoretische Variante der Streuungszerlegungsformel (Abschnitt 4.5.1) darstellt, also der Berechnung der empirischen Varianz für gruppierte Daten entspricht. Die bedingten Erwartungswerte entsprechen den Gruppenmittelwerten, die bedingten Varianzen den Gruppenvarianzen. Die „äußere Erwartungswertbildung“ entspricht der Summation über die Gruppen, wobei die einzelnen Gruppengewichte berücksichtigt werden. So wie dann das Gesamtmittel dem gewichteten Mittel von Gruppenmittelwerten entspricht, lässt sich der (unbedingte) Erwartungswert einer Zufallsvariable als Erwartungswert bedingter Erwartungswerte darstellen. Wie sich die empirische Gesamtstreuung von Daten aus interner und externer Streuung zusammensetzt, lässt sich die theoretische Streuung einer Zufallsvariable in eine erwartete bedingte Streuung und eine Streuung bedingter Erwartungen aufspalten. Ein Beispiel möge genügen. • Beispiel D2-a fortgesetzt • Wie bereits in vorhergehenden Abschnitten herausgearbeitet, ist Y diskret verteilt mit (vgl. Tab. 7.1.2) P(Y = 0) = 0.16, P(Y = 1) = 0.20, P(Y = 2) = 0.64.

7.2 Theoretische Kennwerte | 365

Dabei folgt mit den üblichen Berechnungsregeln: E(Y) = 1.48

und

Var(Y) = 0.5696.

Gemäß der zuvor ermittelten Verteilung von U = E(Y|X) gilt (Abb. 7.2.4, links): P(U = 1.4) = 0.6

und

P(U = 1.6) = 0.4.

Damit erhalten wir E[E(Y|X)] = E(U) = 1.4 ⋅ 0.6 + 1.6 ⋅ 0.4 = 1.48, E[E(Y|X)2 ] = E(U 2 ) = 1.42 ⋅ 0.6 + 1.62 ⋅ 0.4 = 2.2, Var[E(Y|X)] = Var(U) = E(U 2 ) − (E(U))2 = 0.0096. Wegen Var(Y|X = 0) = 0.44,

Var(Y|X = 1) = 0.64

folgt dann weiter E[Var(Y|X)] = Var(Y|X = 0)P(X = 0) + Var(Y|X = 1)P(X = 1) = 0.44 ⋅ 0.4 + 0.64 ⋅ 0.6 = 0.56. Damit erhalten wir E[Var(Y|X)] + Var[E(Y|X)] = 0.56 + 0.0096 = 0.5696. Insgesamt wurden damit die Regeln (i) und (ii) bestätigt.

Theoretische Kovarianz und Korrelation • Definition und Notation • Die theoretische Kovarianz und der theoretische Korrelationskoeffizient stellen die wahrscheinlichkeitstheoretischen Pendants zur empirischen Kovarianz und zum empirischen Korrelationskoeffizienten (Abschnitt 5.2.2) ̃s XY =

1 n 1 n ∑ (x i − x)(y i − y) = ∑ x i y i − xy n i=1 n i=1

und

r XY =

̃s XY √̃s2X ̃s2Y

dar und sind wie folgt definiert: Definition 7.2.5: Theoretische Kovarianz und Korrelation Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig) mit E(X) = μ X , Var(X) = σ2X , E(Y) = μ Y , Var(Y) = σ2Y . Dann ist die (theoretische) Kovarianz zwischen X und Y definiert als σ XY = Cov(X, Y) = E[(X − μ X )(Y − μ Y )] = E(XY) − μ X μ Y

(7.2.28)

366 | 7 Theoretische Verteilungen und Abhängigkeiten

und der (theoretische) Korrelationskoeffizient als ϱ XY = Corr(X, Y) =

Cov(X, Y) √ Var(X)Var(Y)

=

σ XY . σX σY

Dabei gilt: ϱ XY ∈ [−1, 1]. Theoretische Kovarianz und Korrelation werden mit dem griechischen Kleinbuchstaben σ

(lies: sigma)

bzw.

ϱ

(lies: rho)

notiert. Die korrespondierenden Operatoren Cov(⋅)

bzw. Corr(⋅)

heben die jeweiligen Berechnungsoperationen hervor. • Verschiebungsformel für die theoretische Kovarianz • In Analogie zur Verschiebungsformel für die empirische Kovarianz gibt es auch eine für die theoretische Kovarianz. Diese ergibt sich mit den Rechenregeln für den Erwartungswert wie folgt: Cov(X, Y) = E[(X − μ X )(Y − μ Y )] = E(XY) − μ Y E(X) − μ X E(Y) + E(μ X μ Y ) = E(XY) − μ X μ Y − μ X μ Y + μ X μ Y = E(XY) − μ X μ Y . Die Transformationseigenschaften von theoretischer Kovarianz und Korrelation bei Verschiebungen und Umskalierungen sind analog zum empirischen Fall (Abschnitt 7.2.3). Wie beim empirischen Korrelationskoeffizient liegen die Werte des theoretischen Koeffizienten stets zwischen −1 und 1. • Interpretation von theoretischer Kovarianz und Korrelation • Theoretische Kovarianz und Korrelation messen die Stärke des linearen Zusammenhangs zweier Zufallsvariablen, wobei letzteres Maß skaleninvariant ist. Wird ein über zwei Zufallsvariablen X und Y bzw. über einen Zufallsvektor (X, Y)T modellierter Zufallsvorgang n Mal unabhängig und identisch wiederholt, sollten auf Basis der beobachteten Realisationen (x1 , y1 ), . . . , (x n , y n ) die empirischen Kennwerte für großes n approximativ den theoretischen Kennwerten entsprechen. In beiden Fällen ergibt sich dies indirekt aus dem Gesetz der großen Zahlen (Abschnitt 7.4.2). Interpretation der theoretischen Kovarianz und Korrelation Theoretische Kovarianz und Korrelation sind die sich „langfristig“ einstellende empirische Kovarianz bzw. Korrelation, falls immer wieder erneut metrische Beobachtungswerte aus der gleichen unterstellten gemeinsamen Wahrscheinlichkeitsverteilung zweier Zufallsvariablen X und Y gewonnen werden. Informal ausgedrückt gilt

7.2 Theoretische Kennwerte | 367

also: ̃s XY → σ XY ̃s XY ≈ σ XY

und und

r XY → ϱ XY

für wachsendes n oder

r XY ≈ ϱ XY

für großes n.

Bei einer theoretischen Korrelation von 1 bzw. −1 liegen die zweidimensionalen Realisationen stets auf einer Geraden mit positiver bzw. negativer Steigung, d.h. dann gilt sogar stets r XY = ϱ XY = 1

bzw.

r XY = ϱ XY = −1.

In diesen Fällen spricht man dann von perfekten linearen Zusammenhängen. • Abhängigkeit und Korrelation • Die Beziehung zwischen stochastischer Abhängigkeit und theoretischer Korrelation gestaltet sich analog zum empirischen Fall. Bei Unabhängigkeit gilt gemäß Multiplikationsregel E(XY) = E(X)E(Y) (Abschnitt 7.2.1). Daraus folgt dann Cov(X, Y) = E(XY) − E(X)E(Y) = E(X)E(Y) − E(X)E(Y) = 0. Wir sagen, dass X und Y unkorreliert sind, wenn Cov(X, Y) = 0 gilt. Cov(X, Y) = 0 gilt dabei gerade dann, wenn ϱ XY = 0 ist, sofern ϱ XY existiert. Unabhängigkeit impliziert Unkorreliertheit, Unkorreliertheit jedoch nicht Unabhängigkeit. Beispiel D2-d (nachfolgend) belegt, dass aus der Unkorreliertheit nicht die Unabhängigkeit folgt. • Beispiel D2-c • Seien X und Y gemeinsam diskret verteilt gemäß Tabelle 7.2.1. Tab. 7.2.1: Kontingenztabelle mit Wahrscheinlichkeiten für Beispiel D2-c X

Y

0 1 2 Summe

0

1 0.00 0.12 0.03 0.15

2 0.10 0.25 0.15 0.50

0.05 0.03 0.27 0.35

Summe 0.15 0.40 0.45 1.00

Damit das Beispiel etwas greifbarer wird, möge man sich vorstellen, es gehe um den Eiskonsum von Paaren an einer Eisdiele. Dabei sei X der mengenmäßige Konsum (Anzahl von Kugeln) des Mannes und Y der Konsum der Frau. Es soll nun untersucht werden, ob und wie stark diese beiden Größen zusammenhängen. Abbildung 7.2.5 zeigt rechts die Trägerpunkte der gemeinsamen Verteilung, wobei die Flächen proportional

368 | 7 Theoretische Verteilungen und Abhängigkeiten

zu den theoretischen Eintrittswahrscheinlichkeiten sind. Die Darstellung kann in gewisser Weise als theoretisches Streudiagramm interpretiert werden. Eingezeichnet ist außerdem die theoretische KQ-Gerade, die sich für diesen Zusammenhang ergibt (siehe nächster Abschnitt). y

Beispiel D2−c

f X Y (x,y)

Theoretisches Streudiagramm

2

0.5 0.4

1

0.3 4

0.2 0.1

1 0

0.0 −0.5

0

3 2

0.0

0.5

1.0

1.5

2.0

2.5

−1

−1

y

−1

0

1

2

x

x

Abb. 7.2.5: Theoretischer Zusammenhang bei diskreter gemeinsamer Verteilung

Rechnerisch erhält man folgende Resultate: E(X) = 0 ⋅ 0.15 + 1 ⋅ 0.40 + 2 ⋅ 0.45 = 1.3, E(X 2 ) = 02 ⋅ 0.15 + 12 ⋅ 0.40 + 22 ⋅ 0.45 = 2.2, E(Y) = 0 ⋅ 0.15 + 1 ⋅ 0.50 + 2 ⋅ 0.35 = 1.2, E(Y 2 ) = 02 ⋅ 0.15 + 12 ⋅ 0.50 + 22 ⋅ 0.35 = 1.9. Damit folgt: Var(X) = E(X 2 ) − (E(X))2 = 2.2 − 1.32 = 0.51, Var(Y) = E(Y 2 ) − (E(Y))2 = 1.9 − 1.22 = 0.46. Weiter berechnet man gemäß den Rechenregeln für Erwartungswerte 2

2

E(XY) = ∑ ∑ i ⋅ j ⋅ P(X = i, Y = j) i=0 j=0

= 0 ⋅ 0 ⋅ 0 + 0 ⋅ 1 ⋅ 0.10 + 0 ⋅ 2 ⋅ 0.05 + 1 ⋅ 0 ⋅ 0.12 + 1 ⋅ 1 ⋅ 0.25 + 1 ⋅ 2 ⋅ 0.03 + 2 ⋅ 0 ⋅ 0.03 + 2 ⋅ 1 ⋅ 0.15 + 2 ⋅ 2 ⋅ 0.27 = 1.69. Daraus folgt dann Cov(X, Y) = E(XY) − E(X)E(Y) = 1.69 − 1.3 ⋅ 1.2 = 0.13 und ϱ XY =

Cov(X, Y) √ Var(X)Var(Y)

=

0.13 ≈ 0.2684. √0.51 ⋅ 0.46

Der Eiskonsum der Männer ist im Mittel leicht höher als bei den Frauen und variiert etwas stärker als bei den Frauen. Je mehr Kugeln der eine Partner konsumiert, de-

7.2 Theoretische Kennwerte | 369

sto mehr Kugeln konsumiert tendenziell der andere. Der lineare Zusammenhang ist schwach bis mittelstark ausgeprägt. • Beispiel D2-d • Seien X und Y gemeinsam diskret verteilt gemäß Tabelle 7.2.2. Tab. 7.2.2: Kontingenztabelle mit Wahrscheinlichkeiten für Beispiel D2-d X

Y

0

0 1 2 Summe

1 0.0 0.1 0.0 0.1

f X Y (x,y)

2 0.1 0.2 0.1 0.4

0.1 0.3 0.1 0.5

Summe 0.2 0.6 0.2 1.0

y

Beispiel D2−d

Theoretisches Streudiagramm

2

0.5 0.4

1

0.3 4

0.2

3

0.1

1 0

0.0 −0.5

0

2

0.0

0.5

1.0

1.5

2.0

2.5

−1

y

−1 −1

0

1

2

x

x

Abb. 7.2.6: Unkorreliert, aber nicht unabhängig

Analoge Berechnungen wie im vorhergehenden Beispiel D2-c führen hier zum Ergebnis Cov(X, Y) = E(XY) − E(X)E(Y) = 1.4 − 1 ⋅ 1.4 = 0. Folglich sind X und Y unkorreliert. Sie sind jedoch nicht unabhängig, da sich die bedingten Verteilungen in den Zeilen (Spalten) unterscheiden. • Beispiel S2-a fortgesetzt • Seien X und Y gemeinsam stetig verteilt gemäß der Dichtefunktion f XY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y). Abbildung 7.2.7 zeigt rechts einen sog. Imageplot (auch heatmap). Ein solcher bildet die Wahrscheinlichkeitsdichte über die Intensität der Schattierung ab. So sollten sich im vorliegenden Fall in den dunkleren Regionen mehr Beobachtungen realisieren als in den helleren. In gewisser Hinsicht könnte man diese Darstellung auch als ein theoretisches Streudiagramm interpretieren, das sich bei einer „sehr großen“ Anzahl von Realisationen ergeben würde, sofern die einzelnen Datenpunkte entsprechend winzig

370 | 7 Theoretische Verteilungen und Abhängigkeiten

dargestellt würden. Eingezeichnet ist außerdem wieder die theoretische KQ-Gerade (nächster Abschnitt). Beispiel S2−a

Imageplot

y f X Y (x,y) 1.5

1.0

1.0

0.5 2.0 0

1.0 0.5 1.0

x

y

0

0.5 0.0 0.0

0.2

0.4

0.6

0.8

Abb. 7.2.7: Theoretischer Zusammenhang bei stetiger gemeinsamer Verteilung

Wie bereits in Abschnitt 7.1.2 hergeleitet, lauten die Randdichten von X und Y f X (x) = (x + 0.5)I[0,1] (x) bzw. f Y (y) = (0.25y + 0.25)I[0,2] (y). Daraus folgt dann für X: ∞

1

−∞

0

1 1 1 7 , E(X) = ∫ xf X (x)dx = ∫(x2 + 0.5x) dx = [ x3 + x2 ] = 0 3 4 12 ∞

1

−∞

0

1 1 1 5 . E(X 2 ) = ∫ x2 f X (x)dx = ∫(x3 + 0.5x2 ) dx = [ x4 + x3 ] = 0 4 6 12

Aus der Verschiebungsformel der Varianz folgt: Var(X) = E(X 2 ) − (E(X))2 =

7 2 5 11 −( ) = . 12 12 144

Analog berechnet man für Y: E(Y) =

7 , 6

E(Y 2 ) =

5 11 und Var(Y) = . 3 36

Mit ∞ ∞

1 2

E(XY) = ∫ ∫ xyf XY (x, y)dydx = ∫ ∫(0.5x2 y + 0.25xy2 )dydx −∞ −∞

0 0

1

1 3 y=2 1 xy ] )dx = ∫([ x2 y2 + y=0 4 12 0 1

= ∫(x2 + 0

1 2 1 1 2 x)dx = [ x3 + x2 ] = 0 3 3 3 3

x

7.2 Theoretische Kennwerte

| 371

erhalten wir 7 7 1 2 − ⋅ =− und 3 12 6 72 Cov(X, Y) −1/72 1 ≈ −0.0909. = = =− 11 √ Var(X)Var(Y) √(11/144) ⋅ (11/36)

Cov(X, Y) = E(XY) − E(X)E(Y) = ϱ XY

Folglich besteht ein schwacher negativer linearer Zusammenhang zwischen X und Y. Die negative Korrelation lässt sich am besten anhand der bedingten Verteilungen erklären, s. Abbildung 7.1.11. So werden bei kleineren x-Werten größere y-Werte relativ betrachtet wahrscheinlicher als bei größeren x-Werte. Dies erkennt man auch daran, dass die Linksschiefe der bedingten Verteilung von Y gegeben X = x für größere xWerte abnimmt. Der bedingte Erwartungswert von Y gegeben X = x nimmt deshalb auch für wachsendes x ab. Wie in Abschnitt 7.2.1 berechnet, erhält man beispielsweise konkret E(Y|X = 0) ≈ 1.33, E(Y|X = 0.5) ≈ 1.17, E(Y|X = 1) ≈ 1.11.

Theoretische Regressionskoeffizienten • Definition und Notation • Die theoretischen KQ-Regressionskoeffizienten stellen die wahrscheinlichkeitstheoretischen Pendants zu den empirischen KQ-Koeffizienten ̂ 1 x und b ̂ 1 = ̃s XY ̂0 = y − b b ̃s2X dar und definieren die theoretische Kleinste-Quadrate-Gerade. Definition 7.2.6: Theoretische Kleinste-Quadrate-Regression Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig) mit E(X) = μ X , Var(X) = σ2X , E(Y) = μ Y , Cov(X, Y) = σ XY . Dann sind die theoretischen KQ-Regressionskoeffizienten definiert als Cov(X, Y) σ XY β̂ 1 = = 2 und Var(X) σX β̂ 0 = E(Y) − β̂ 1 E(X) = μ Y − β̂ 1 μ X . Die theoretische KQ-Regressionsgerade lautet dann ̂y(x) = β̂ 0 + β̂ 1 x.

372 | 7 Theoretische Verteilungen und Abhängigkeiten

• Interpretation • Ihre theoretische Fundierung erhält die theoretische KQ-Gerade im Rahmen der theoretischen KQ-Regression (siehe Abschnitt 12.1.2). Sie wird analog wie zuvor die theoretische Korrelation interpretiert. Interpretation der theoretischen KQ-Regression Die theoretischen KQ-Regressionskoeffizienten sind die sich „langfristig“ einstellenden empirischen KQ-Regressionskoeffizienten, falls laufend Beobachtungswerte aus der gemeinsamen Wahrscheinlichkeitsverteilung zweier Zufallsvariablen X und Y gewonnen werden. Informal ausgedrückt gilt also: ̂ 0 → β̂ b 0

und

̂ 1 → β̂ b 1

für wachsendes n oder

̂ 0 ≈ β̂ b 0

und

̂ 1 ≈ β̂ b 1

für großes n.

• Beispiel D2-c fortgesetzt • Setzen wir das vorhergehende gleichnamige Beispiel mit den diskreten Zufallsvariablen X und Y fort, erhalten wir für die Koeffizienten Cov(X, Y) 0.13 β̂ 1 = = ≈ 0.2549 und Var(X) 0.51 0.13 ⋅ 1.3 ≈ 0.8686. β̂ 0 = E(Y) − β̂ 1 E(X) = 1.2 − 0.51 Die resultierende theoretische Geradengleichung lautet dann ̂y(x) ≈ 0.8686 + 0.2549 x. Dies bedeutet, dass der Eiskonsum der Frau theoretisch im Durchschnitt um ca. 0.25 Kugeln zunimmt, falls der Mann eine Kugel mehr konsumiert. Konsumiert der Mann kein Eis, konsumiert die Frau im Durchschnitt ca. 0.87 Kugeln. • Beispiel D2-d fortgesetzt • Im gleichnamigen Beispiel von zuvor ergab sich, dass X und Y unkorreliert sind. Wegen Cov(X, Y) = 0, also auch β̂ = 0, verläuft die Re1

gressionsgerade horizontal, s. Abbildung 7.2.6. Hierbei ist β̂ 0 = E(Y) = 1.4. • Beispiel S2-a fortgesetzt • Setzen wir das vorhergehende gleichnamige Beispiel mit den stetigen Zufallsvariablen X und Y fort, erhalten wir für die Koeffizienten Cov(X, Y) −1/72 2 β̂ 1 = = =− ≈ −0.1818 Var(X) 11/144 11 7 2 7 β̂ 0 = E(Y) − β̂ 1 E(X) = − ⋅ ≈ 1.0606. 6 11 12

und

7.2 Theoretische Kennwerte

| 373

Die resultierende theoretische Geradengleichung lautet dann ̂y(x) = 1.0606 − 0.1818 x.

7.2.3 Spezifische Eigenschaften theoretischer Kennwerte Minimumeigenschaften von Lagekennwerten • Minimumeigenschaft des Erwartungswerts • Die theoretische Varianz quantifiziert die erwartete quadratische Abweichung vom Erwartungswert. Tatsächlich minimiert der Erwartungswert die erwartete quadratische Abweichung als Bezugspunkt. So gilt: Satz 7.2.8: Minimumeigenschaft des Erwartungswerts Gegeben sei eine Zufallsvariable X mit Erwartungswert μ X und Varianz σ2X . Dann gilt für jedes c ∈ ℝ: σ2X = E[(X − μ X )2 ] ≤ E[(X − c)2 ].

Damit erhalten wir ein analoges Resultat zur Minimumeigenschaft des arithmetischen Mittels (Abschnitt 4.9.1). Dazu definiere man die von c abhängige Funktion f(c) := E[(X − c)2 ]. Durch Anwendung der Rechenregeln für den Erwartungswert und Umstellen der Verschiebungsformel für die Varianz folgt dann weiter: f(c) = E(X 2 ) − E(2Xc) + E(c2 ) = Var(X) + (E(X))2 − 2cE(X) + c2 = σ2X + μ2X − 2cμ X + c2 . Für die Ableitung von f nach c erhält man f 󸀠 (c) = −2μ X + 2c = 2(c − μ X ) und als minimierende Lösung schließlich c = μ X . • Minimumeigenschaft des Medians • Der theoretische Median einer Verteilung minimiert den Erwartungswert der absoluten Abweichung als Bezugspunkt. So gilt: Satz 7.2.9: Minimumeigenschaft des theoretischen Medians Gegeben sei eine Zufallsvariable X mit theoretischem Median q0.5 . Dann gilt für je-

374 | 7 Theoretische Verteilungen und Abhängigkeiten

des c ∈ ℝ: E[|X − q0.5 |] ≤ E[|X − c|].

Damit erhalten wir ein analoges Resultat zur Miniumeigenschaft des empirischen Medians (Abschnitt 4.9.2). Auf einen entsprechenden Nachweis dieser Eigenschaft wird verzichtet.

Wichtige Transformationseigenschaften • Transformationseigenschaften des Erwartungswertes • Da gemäß den Rechenregeln für den Erwartungswert für jede Zufallsvariable X folgende Gleichungen gelten: E(X + c) = E(X) + c = μ X + c, E(cX) = cE(X) = cμ X ,

(7.2.29) (7.2.30)

ist der Erwartungswert analog zum arithmetischen Mittel verschiebungs- und skalenäquivariant (Abschnitt 4.9.3). Man beachte, dass wir analog zum empirischen Fall die Gültigkeit von (7.2.30) eigentlich nur für c > 0 als notwendig voraussetzen, um von Skalenäquivarianz sprechen zu können. Gleichwohl ist (7.2.30) für jedes c ∈ ℝ erfüllt. • Transformationseigenschaften der theoretischen Varianz • Mit (7.2.29) folgt für jedes c ∈ ℝ für die transformierte Größe Y = X + c gemäß Definition: Var(Y) = E[(Y − E(Y))2 ] = E[(X + c − μ X − c)2 ]

(7.2.31)

2

= E[(X − μ X ) ] = Var(X). Somit ist auch die theoretische Varianz analog zur empirischen Varianz verschiebungsinvariant (Abschnitt 4.9.3). Mit (7.2.30) folgt für jedes c > 0: Var(cX) = E[(cX − cμ X )2 ] = c2 E[(X − μ X )2 ] = c2 Var(X);

(7.2.32)

damit ist √ Var(cX) = c√ Var(X) = c σ X . Somit ist auch die theoretische Standardabweichung analog zur empirischen Standardabweichung skalenäquivariant. • Transformationseigenschaften der theoretischen Quantile • Sei q α das αQuantil einer Zufallsvariable X. Sofern dieses eindeutig bestimmt ist und P(X ≤ q α ) = α gilt, würde daraus auch P(X + c ≤ q α + c) = α

für jedes c ∈ ℝ und

7.2 Theoretische Kennwerte

P(cX ≤ cq α ) = α

| 375

für jedes c > 0

folgen. Ungeachtet möglicher Bestimmungsprobleme für theoretische Quantile lassen sich diese auf jeden Fall so definieren, dass die Eigenschaften der Verschiebungs- und Skalenäquivarianz gegeben sind. • Transformationseigenschaften von theoretischer Kovarianz und Korrelation • Seien X und Y Zufallsvariablen mit Erwartungswerten μ X bzw. μ Y . Dann sind die Erwartungswerte der mit konstanten Werten c X und c Y transformierten Größen U = X + c X und V = Y + c Y gegeben durch E(U) = μ X + c X und E(V) = μ Y + c Y . Somit folgt gemäß Definition: Cov(U, V) = E[(U − E(U))(V − E(V))] = E[(X + c X − μ X − c X )(Y + c Y − μ Y − c Y )] = E[(X − μ X )(Y − μ Y )] = Cov(X, Y). Betrachtet man stattdessen die mit c X und c Y umskalierten Größen U = c X X und V = c Y Y, erhält man mit E(U) = c X X bzw. E(V) = c Y Y: Cov(U, V) = E[(U − E(U))(V − E(V)))] = E[(c X X − c X μ X )(c Y Y − c Y μ Y )] = c X c Y E[(X − μ X )(Y − μ Y )] = c X c Y Cov(X, Y).

(7.2.33)

Damit ist die theoretische Kovarianz verschiebungsinvariant und skalenäquivariant, sofern lediglich eine der beiden Variablen umskaliert wird. Man beachte, dass wir analog zum empirischen Fall für die Skalenäquivarianz eigentlich nur von Umskalierungen mit positiven Konstanten ausgehen. Jedoch gilt (7.2.33) für beliebige Konstanten. Da die theoretische Korrelation zwischen zwei Zufallsvariablen X und Y definiert ist als Cov(X, Y) , Corr(X, Y) = √ Var(X)Var(Y) folgt mit den Transformationseigenschaften von Kovarianz und Standardabweichung die Verschiebungs- und Skaleninvarianz der Korrelation. Wichtige Transformationseigenschaften theoretischer Kennwerte Für Erwartungswert, Varianz, Kovarianz und Korrelation von Zufallsvariablen gelten folgende Transformationsregeln: (1) E(X + c) = E(X) + c für jedes c ∈ ℝ. (2) E(cX) = cE(X) für jedes c ∈ ℝ. (3) Var(X + c) = Var(X) für jedes c ∈ R.

376 | 7 Theoretische Verteilungen und Abhängigkeiten

(4) Var(cX) = c2 Var(X) für jedes c ∈ ℝ. (5) √ Var(cX) = c√ Var(X) für jedes c > 0. (6) Cov(X + c X , Y + c Y ) = Cov(X, Y) für alle c X , c Y ∈ ℝ. (7) Corr(X + c X , Y + c Y ) = Corr(X, Y) für alle c X , c Y ∈ ℝ. (8) Cov(c X X, c Y Y) = c X c Y Cov(X, Y) für alle cX, cY ∈ ℝ. (9) Corr(c X X, c Y Y) = Corr(X, Y) für alle c X , c Y > 0. Insbesondere folgen daraus die zu den entsprechenden empirischen Kennwerten völlig analogen Äquivarianz- und Invarianzeigenschaften in Bezug auf Verschiebungen und Umskalierungen. • Erwartungswert und Varianz nach Standardisierung • In Entsprechung zur zStandardisierung realer Beobachtungswerte (Abschnitt 4.6) erfolgt in der Wahrscheinlichkeitsrechnung die Standardisierung einer Zufallsvariable X mit Erwartungswert μ X und Varianz σ2X > 0 über die Transformation Z=

X − μX . σX

(7.2.34)

Dies entspricht jedenfalls der häufigsten und wichtigsten Variante einer Standardisierung, da sich im Falle einer Normalverteilung dadurch eine standardnormalverteilte Zufallsvariabel Z ergibt (Abschnitt 7.3.2). Eine Standardisierung gemäß (7.2.34) entspricht einer Lineartransformation: Z=−

1 μX + X σX σX

mit Verschiebungskonstante μ X /σ X und Umskalierungsfaktor 1/σ X . Daraus folgt: 1 μX 1 μX μX μX + X) = − + E(X) = − + = 0 und σX σX σX σX σX σX σ2 1 1 1 μX + X) = Var( X) = 2 Var(X) = 2X = 1. Var(− σX σX σX σX σX E(−

Kennwerte standardisierter Zufallsvariablen Gegeben sei eine Zufallsvariable X mit Erwartungswert μ X und Varianz σ2X > 0. Für die standardisierte Größe X − μX Z= σX gilt stets: E(Z) = 0 und Var(Z) = 1.

7.2 Theoretische Kennwerte

| 377

Endliche und nicht endliche theoretische Momente • Momente • Unter dem k-ten (theoretischen) Moment einer Zufallsvariable X versteht man den Erwartungswert von X k , also E(X k )

für k = 1, 2, . . .

Speziell ist der Erwartungswert das erste Moment einer Zufallsvariable. Die Varianz E[(X − E(X))2 ] wird auch als zweites zentriertes (theoretisches) Moment bezeichnet, da die Varianz dem zweiten theoretischen Moment der zentrierten Größe X − μ X entspricht. • Endlichkeit theoretischer Momente • Das k-te Moment E(X k ) einer diskreten bzw. stetigen Zufallsvariable gilt per Definition nur dann als endlich, falls die Kriterien ∑ |a kj |f X (a j ) < ∞

bzw.

(7.2.35)

j ∞

∫ |x k |f X (x)dx < ∞

(7.2.36)

−∞

erfüllt sind. Diese Festlegung hat sich aus theoretischer Sicht als zweckmäßig erwiesen. Es gilt dann: E(X k ) = ∑ a kj f X (a j )

bzw.

(7.2.37)

j ∞

E(X k ) = ∫ x k f X (x)dx

(7.2.38)

−∞

Die Kriterien (7.2.35) und (7.2.36) setzen die Eigenschaft der absoluten Summierbarkeit in (7.2.37) bzw. der absoluten Integrierbarkeit in (7.2.38) voraus. Wenn man also davon spricht, dass ein Moment endlich ist, impliziert dies stets die Gültigkeit von (7.2.35) bzw. (7.2.36). Normalerweise wird auch nur dann überhaupt von der Operatorschreibweise E(X k ) Gebrauch gemacht. Dies bedeutet, dass die rechte Seite von (7.2.37) bzw. (7.2.38) durchaus endlich sein kann, auch wenn keine absolute Summierbarkeit bzw. Integrierbarkeit gegeben ist. Dennoch wäre in solchen Fällen der Erwartungswert per Definition nicht endlich. Sofern das k-te Moment einer Verteilung endlich ist, sind auch alle niedrigeren Momente endlich. Insbesondere ist der Erwartungswert einer Verteilung endlich, falls das zweite Moment, E(X 2 ), endlich ist. In dem Fall ist dann auch die Varianz, also das zweite zentrierte Moment, endlich. Ist das k-te Moment nicht endlich, so auch nicht alle höheren Momente. Auf formale Nachweise hierzu wird verzichtet.

378 | 7 Theoretische Verteilungen und Abhängigkeiten

• Momenterzeugende Funktionen • Eine in der Wahrscheinlichkeitstheorie verbreitete (fortgeschrittene) Technik die Momente einer Zufallsvariable zu bestimmen, verwendet sog. momenterzeugenden Funktionen. Für s ∈ ℝ ist die momenterzeugende Funktion einer Zufallsvariable X definiert als M(s) = E(e sX ), sofern der Erwartungswert auf der rechten Seite für ein s ∈ (−c, c) mit c > 0 endlich ist. Mithilfe dieser Funktion können dann alle Momente E(X k ) für k > 0 relativ einfach bestimmt werden. Für nähere Details sei der Leser auf weiterführende Bücher zur Wahrscheinlichkeitstheorie wie etwa Rohatgi und Saleh [2000] oder Knight [2000] verwiesen. • Implikation und Deutung nicht endlicher Momente • Notwendig für die Nichtendlichkeit eines Moments ist stets eine unbeschränkte Trägermenge. Ist die Trägermenge beschränkt, d.h. gilt P(−c < X < c) = P(|X| < c) = 1

für ein c mit 0 < c < ∞,

so sind alle Momente endlich. An diesem Umstand mag man auch die praktische Relevanz dieses Problems beurteilen. Da in der Realität Beobachtungswerte stets durch natürliche Schranken in ihrem Wertebereich beschränkt sind, braucht man sich zumindest aus praktischer Sicht eigentlich nicht um unbeschränkte Trägermengen bzw. nicht endliche Momente zu sorgen. In gewisser Weise handelt es sich also nur um ein „künstliches“ mathematisch-technisches Problem. Man beachte hierzu auch die vereinfachenden Annahmen in Abschnitt 8.2.1. Verteilungen mit nicht endlichen Momenten neigen dazu, „extreme Ausreißer“ zu erzeugen, da nicht endliche Momente „unbeschränktes Schwankungsverhalten“ von Realisationen ermöglichen, sodass das Gesetz der großen Zahlen (Abschnitt 7.4.2) nicht zwingend greift. Dann ist wie etwa bei der Cauchy-Verteilung selbst für großes n eine Aussage x ≈ E(X)

mit − ∞ < E(X) < ∞

oft nicht (sinnvoll) möglich. Man vergleiche hierzu Aussage (8.1.14) in Abschnitt 8.1.2. • Beispiel S1-d • Sei X eine stetige Zufallsvariable mit Dichte 1 I[1,∞) (x), x2 vgl. Abbildung 7.2.8, links. Bei der Erwartungswertberechnung ergibt sich nun f X (x) =





E(X) = ∫ xf X (x)dx = ∫ −∞

∞ 1 dx = [ln x] . 1 x

1

Der Erwartungswert ist hier nicht endlich, da das Integral nicht endlich ist. Wohlgemerkt ist das Kriterium der absoluten Integrierbarkeit gemäß (7.2.36) nicht erfüllt. Jedoch könnte man hier durchaus E(X) = ∞ definitorisch festlegen.

7.3 Spezielle eindimensionale Verteilungen | 379

• Beispiel S1-e • Sei Y eine stetige Zufallsvariable mit Dichte (Abb. 7.2.8, rechts) f Y (y) =

1 π(1 + y2 )

und Trägermenge ℝ. Die entsprechende Verteilung heißt (Standard-)CauchyVerteilung (Abschnitt 8.1.2). In diesem Fall ist das Integral ∞



∫ yf Y (y)dy = ∫ y −∞

−∞

1 dy π(1 + y2 )

gemäß Integrationstheorie nicht wohldefiniert. Das Kriterium der absoluten Integrierbarkeit ist somit auch nicht erfüllt. Festlegungen wie E(X) = ∞ oder E(X) = −∞ wären hier nun willkürlich und wenig zweckmäßig. • Weitere Beispiele • Beispiele mit nicht endlichen Momenten bei diskreten Verteilungen finden sich etwa bei Rohatgi und Saleh [2001] oder Knight [2000]. Beispiel S1−d

f X (x )

Beispiel S1−e

f Y (y )

1.0

1.0

E (X ) = ∞ q 0.5 = 2

0.8 0.6

0.6

0.4

0.4

0.2

0.2

0.0

0.0 0

1

2

3

E (Y ) nicht def. q 0.5 = 0

0.8

4

5

6

−3

x

−2

−1

0

1

2

y

Abb. 7.2.8: Verteilungen mit nicht endlichen Erwartungswerten

7.3 Spezielle eindimensionale Verteilungen

Zur statistischen Modellierung bestimmter Probleme eigenen sich häufig spezielle Wahrscheinlichkeitsverteilungen, die aufgrund ihrer großen Bedeutung über eigene Bezeichnungen verfügen. Hierzu zählen sowohl spezielle diskrete Verteilungen wie etwa die Binomialverteilung oder die PoissonVerteilung als auch stetige Verteilungen wie etwa die Exponentialverteilung oder die Normalverteilung. Die Verwendung solcher Verteilungsmodelle sollte aus theoretischer Sicht jedoch begründbar sein, da diese Verteilungen nur unter bestimmten Annahmen zustande kommen bzw. gerechtfertigt erscheinen. Ein besonderes Augenmerk in der Wahrscheinlichkeitsrechnung und Statistik liegt häufig auf der Betrachtung stochastischer Summen und Mittelwerte. Hierbei kann zwischen exakten und asymptotischen oder approximativen Aussagen unterschieden werden (Abschnitt 7.4).

3

380 | 7 Theoretische Verteilungen und Abhängigkeiten

7.3.1 Spezielle diskrete Verteilungen Elementare Kombinatorik • Hintergrund • Die Kombinatorik als mathematische Disziplin befasst sich mit der Bestimmung der Anzahl von Anordnungen und Auswahlmöglichkeiten von Objekten aus vorgegebenen Mengen. Um beispielsweise die Gewinnwahrscheinlichkeit für das Lottospiel „6 aus 49“ angeben zu können, muss ermittelt werden, wie viele Möglichkeiten es insgesamt gibt, 6 Kugeln aus 49 Kugeln zu ziehen. Der für solche Fragestellungen verwendete mathematische Apparat stützt sich auf spezielle Formeln und Schreibweisen aus der Kombinatorik. Im Folgenden werden die Fakultät für die Anzahl von Permutationen und der Binomialkoeffizient für die Anzahl von Auswahlmöglichkeiten vorgestellt. Diese beiden Formeln (Schreibweisen) werden im Rahmen des Urnenmodells für die Binomialverteilung und die hypergeometrische Verteilung benötigt. • Fakultät und Permutationen • Zwei Objekte, die wir mit 1 und 2 nummerieren, lassen sich hinsichtlich der Reihenfolge auf zwei verschiedene Weisen anordnen: (1, 2) oder (2, 1). Bei drei Objekten 1, 2 und 3 existieren dagegen schon 6 Anordnungsmöglichkeiten: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) und (3, 2, 1). Abbildung 7.3.1 illustriert links die Anordnungsmöglichkeiten, auch Permutationen genannt, für letzteren Fall. Die Anzahl von Permutationen ist demnach gleich 3 ⋅ 2 ⋅ 1 = 6. Rechts ist der Fall für n = 4 Objekte dargestellt. So gehen von 4 Ausgangszweigen zunächst jeweils immer 3 Zweige weiter, von denen dann jeweils wieder 2 Zweige weiterführen. Schließlich mündet jeder Pfad in einem einzelnen Zweig. Damit ergeben sich insgesamt 4 ⋅ 3 ⋅ 2 ⋅ 1 = 24 Permutationen. Die allgemeine Berechnungsformel liegt damit auf der Hand. Über das Fakultätssymbol „!“ lassen sich solche „absteigenden Produkte“ kurz notieren. Dazu schreibt man dann beispielsweise 3!

(lies: 3 Fakultät) oder 4 ! (lies: 4 Fakultät)

anstelle von 3 ⋅ 2 ⋅ 1 bzw. 4 ⋅ 3 ⋅ 2 ⋅ 1. Fakultät und Permutationen Die Fakultät einer natürlichen Zahl n wird über das Symbol „!“ notiert und ist defi-

7.3 Spezielle eindimensionale Verteilungen | 381

niert als n! = n ⋅ (n − 1) ⋅ (n − 2) ⋅ ⋅ ⋅ ⋅ ⋅ 2 ⋅ 1

(lies: n Fakultät).

Für n = 1 und n = 0 definiert man dabei 1! = 1 und 0! = 1. Für n ≥ 2 entspricht n! der Anzahl der Anordnungsmöglichkeiten (Permutationen) von n verschiedenen Objekten.

Abb. 7.3.1: Anzahl von Permutationen und Auswahlmöglichkeiten

• Auswahlmöglichkeiten bei Berücksichtigung der Reihenfolge • Werden 2 Objekte beliebig aus einer Menge von 3 Objekten ausgewählt, so gibt es dafür 3 ⋅ 2 = 6 Möglichkeiten. Werden diese aus insgesamt 4 Objekten ausgewählt, so gibt es dafür 4 ⋅ 3 = 12 Möglichkeiten. Man möge dies anhand von Abbildung 7.3.1 nachvollziehen. Werden 3 aus 8 Objekten ausgewählt, gibt es 8 ⋅ 7 ⋅ 6 = 336 Möglichkeiten usw. Auch diese Art von Produkten lässt sich wieder über die Verwendung von Fakultäten kurz notieren. So schreibt man beispielsweise 4! (4 − 2)!

oder

8! (8 − 3)!

382 | 7 Theoretische Verteilungen und Abhängigkeiten anstelle von 4 ⋅ 3 bzw. 8 ⋅ 7 ⋅ 6, da 4! 4⋅3⋅2 = =4⋅3 (4 − 2)! 2

bzw.

8! 8⋅7⋅6⋅5⋅4⋅3⋅2 = = 8 ⋅ 7 ⋅ 6. (8 − 3)! 5⋅4⋅3⋅2

Werden allgemein also k Objekte aus n Objekten (k ≤ n) ausgewählt, so gibt es dafür n! (n − k)!

(7.3.1)

Möglichkeiten. Die Reihenfolge wird dabei allerdings berücksichtigt. So wird beispielsweise bei einer Auswahl „von 2 aus 3“ zwischen den Möglichkeiten „erst Objekt 1 und dann Objekt 2“ und „erst Objekt 2 und dann Objekt 1“ unterschieden. • Binomialkoeffizient und Auswahlmöglichkeiten ohne Reihenfolge • Spielt die Reihenfolge, in der Objekte ausgewählt werden, keine Rolle, sondern ist einzig die ausgewählte Menge entscheidend, reduziert sich die Anzahl von Möglichkeiten. Werden beispielsweise 2 aus 3 oder 2 aus 4 Objekten gewählt, so würde sich die Anzahl von Möglichkeiten halbieren. Werden 3 aus 8 Objekten gewählt, ist die Anzahl von Möglichkeiten nur noch ein Sechstel, da 3 Objekte auf 3! verschiedene Weisen permutiert werden können. Allgemein wird bei einer Auswahl von k aus n Objekten der Quotient (7.3.1) noch durch k! dividiert, d.h. n! . (n − k)! ⋅ k!

(7.3.2)

Der Ausdruck (7.3.2) definiert zugleich auch den sog. Binomialkoeffizienten. Binomialkoeffizient und Auswahlmöglichkeiten für „k aus n“ Für zwei natürliche Zahlen n und k mit k ≤ n ist der Binomialkoeffizient n ( ) k

(lies: n über k)

definiert als n n! . ( )= (n − k)! ⋅ k! k Der Binomialkoeffizient entspricht der Anzahl von Möglichkeiten, aus n Objekten k Objekte auszuwählen, wobei die Reihenfolge der Auswahl nicht berücksichtigt wird. • Beispiel 7.3.1: Lotto „6 aus 49“ • Beim Lottospiel „6 aus 49“ werden 6 aus 49 Kugeln ohne Zurücklegen gezogen. Dafür gibt es den vorhergehenden Überlegungen nach genau (

49 ) = 13 983 816 6

7.3 Spezielle eindimensionale Verteilungen | 383

Möglichkeiten. Die Gewinnwahrscheinlichkeit für 6 Richtige beträgt folglich 1 13 983 816 oder ca. 0.00000715%. Die Frage, wie sich beispielsweise auch die Wahrscheinlichkeit für „wenigstens 2 Richtige“ oder „wenigstens 3 Richtige“ berechnen lässt, wird im Rahmen der hypergeometrischen Verteilung nachfolgend beantwortet. P(„6 Richtige“) =

Einpunktverteilung • Modell und Definition • Eine Zufallsvariable X, die einen Wert a mit Wahrscheinlichkeit 1 annimmt, für die also P(X = a) = 1

und

P(X = x) = 0 für x ≠ a

gilt, heißt einpunktverteilt auf a. Die korrespondierende Verteilung heißt Einpunktverteilung. Da die Zufallsvariable kein stochastisches Schwankungsverhalten mehr aufweist, spricht man in diesem Zusammenhang auch von einer deterministischen oder degenerierten Verteilung. • Erwartungswert und Varianz • Für eine auf a einpunktverteilte Zufallsvariable X gilt: E(X) = a

und

Var(X) = 0.

Bernoulli-Verteilung • Modell und Definition • Zur Motivation der folgenden Verteilung stellen wir uns am besten eine Urne mit weißen und schwarzen Kugeln vor, aus der zufällig eine bestimmte Anzahl von Kugeln gezogen wird. Betrachten wir als Beispiel die Situation von Abbildung 7.3.2 mit 3 schwarzen und 5 weißen Kugeln. Wird lediglich eine einzige Kugel gezogen, so beträgt die Wahrscheinlichkeit dafür, dass eine schwarze Kugel gezogen wird, genau 3/8. Formaler definieren wir dazu nun die diskrete 0-1-Variable X mit X=1

X=0

für schwarz und

für weiß.

Dann heißt X Bernoulli-verteilt. Die korrespondierende Verteilung heißt BernoulliVerteilung. Im vorliegenden Beispiel würde dabei gelten: P(X = 0) = 0.625

und

P(X = 1) = 0.375.

Allgemein hängen die Wahrscheinlichkeiten der beiden Trägerpunkte 0 und 1 immer vom jeweiligen Anteil weißer bzw. schwarzer Kugeln ab. Notiert man nun etwa den

384 | 7 Theoretische Verteilungen und Abhängigkeiten

Anteil der schwarzen Kugeln mit dem griechischen Kleinbuchstaben π

(lies: pi),

so gilt allgemein also stets: P(X = 0) = 1 − π

und

P(X = 1) = π,

wobei π ∈ (0, 1). Die Extremwerte 0 und 1 können wahlweise ausgeschlossen werden, da diese jeweils nur Einpunktverteilungen auf 0 bzw. 1 implizieren würden. • Bernoulli-Verteilung als parametrische Verteilungsfamilie • Da es somit nicht nur eine einzige Bernoulli-Verteilung gibt, sondern die konkrete Gestalt dieser Verteilung von π abhängt, umfasst der Begriff „Bernoulli-Verteilung“ ein ganzes Ensemble von Verteilungen. Dieses Ensemble wird durch alle zulässigen Werte π ∈ (0, 1) erzeugt. In der Wahrscheinlichkeitstheorie wird die „wählbare“ Größe π gewöhnlich als Parameter bezeichnet. Die Menge der zulässigen Werte des Parameters heißt Parameterraum. Im vorliegenden Fall wäre dies gerade das offene Intervall (0, 1). Das durch den Parameter bzw. Parameterraum erzeugte Ensemble von Verteilungen wird als parametrische Verteilungsfamilie bezeichnet. Zur konkreten Spezifikation der Verteilung einer Zufallsvariable X wird die Kurzschreibweise X ∼ B(1, π) verwendet. Das Symbol „∼“ (lies: Tilde oder Schlange) steht dabei für „verteilt gemäß der“. Die Schreibweise „B(1, π)“ steht für „Bernoulli-Verteilung mit Parameter π“. Im vorliegenden Beispiel mit π = 0.375 schreibt man also kurz X ∼ B(1, 0.375). Die „1“ steht dabei nicht etwa für die Kodierung „1 für schwarz (oder ggf. weiß)“, sondern dafür, dass genau einmal gezogen wird. • Erwartungswert und Varianz • Erwartungswert und Varianz einer B(1, π)verteilten Zufallsgröße ergeben sich als E(X) = π

und

Var(X) = π(1 − π).

Letzteres folgt aus E(X 2 ) = 12 ⋅ π + 02 ⋅ (1 − π) = π 2

2

und 2

Var(X) = E(X ) − (E(X)) = π − π = π(1 − π). Im vorliegenden Beispiel gilt also: E(X) = 0.375 und Var(X) = 0.375 ⋅ (1 − 0.375) ≈ 0.2344.

Bernoulli-Verteilung Eine Zufallsvariable X heißt Bernoulli-verteilt mit Parameter π ∈ (0, 1), kurz

7.3 Spezielle eindimensionale Verteilungen | 385

X ∼ B(1, π), wenn gilt: P(X = 0) = 1 − π

P(X = 1) = π.

und

Die korrespondierende Verteilung heißt Bernoulli-Verteilung. Dabei gilt: E(X) = π

und

Var(X) = π(1 − π).

X 1,...,X n unabhängig B (1, π)−verteilt

n Mal Ziehen mit Zurücklegen

Sn =

n

∑ X i ~ B (n, π)(Anzahl schwarzer Kugeln)

i =1

Alle Kombinationen für S 4 = 2:

π = 0.375 (Anteil schwarzer Kugeln)

Abb. 7.3.2: Urnenmodell – Ziehen mit Zurücklegen

Binomialverteilung • Modell und Definition • Zur Motivation betrachten wir erneut die Situation von Abbildung 7.3.2. Angenommen, es werden nun n = 4 Kugeln mit Zurücklegen gezogen. Dann lassen sich die einzelnen Ergebnisse, d.h. ob eine weiße oder schwarze Kugel gezogen wurde, über 4 Bernoulli-verteilte Zufallsvariablen X1 , X2 , X3 und X4 modellierend beschreiben. Dabei gilt für i = 1, 2, 3 und 4: X i = 0,

falls im i-ten Zug eine weiße Kugel gezogen wird,

X i = 1,

falls im i-ten Zug eine schwarze Kugel gezogen wird.

Da die Kugeln immer wieder zurückgelegt werden, sind die einzelnen Ergebnisse und somit auch die korrespondierenden Zufallsvariablen unabhängig, wobei X i ∼ B(1, 0.375)

für i = 1, 2, 3 und 4.

Dies lässt sich natürlich auf beliebige Parameterwerte n ∈ ℕ und π ∈ (0, 1) verallgemeinern. Die Summe der Bernoullivariablen n

Sn = ∑ Xi i=1

386 | 7 Theoretische Verteilungen und Abhängigkeiten

entspricht stets der Summe der Einsen und somit der Anzahl der schwarzen Kugeln innerhalb der gezogenen Stichprobe. Die Größe S n ist als Funktion von Zufallsvariablen selbst wiederum eine Zufallsvariable, deren Verteilung durch n (Anzahl der Züge) und π (Anteil von schwarzen Kugeln) bestimmt ist. Die korrespondierende parametrische Verteilungsfamilie heißt Binomialverteilung. Zur konkreten Spezifikation der Verteilung wird gewöhnlich die Kurzschreibweise S n ∼ B(n, π) verwendet. Im vorliegenden Beispiel schreibt man also kurz S n ∼ B(4, 0.375). Doch wie sieht die Wahrscheinlichkeitsverteilung aus? Abbildung 7.3.2 illustriert beispielhaft die Situation, falls genau 2 schwarze Kugeln gezogen werden. Die Wahrscheinlichkeit P(S4 = 2) lässt sich nun mithilfe des Wahrscheinlichkeitskalküls für Zufallsvariablen in Verbindung mit kombinatorischen Überlegungen bestimmen. Beispielsweise würde aus X1 = 1, X2 = 1, X3 = 0, X4 = 0

bzw.

(X1 , X2 , X3 , X4 ) = (1, 1, 0, 0),

das Ergebnis S4 = 2 folgen. Die Wahrscheinlichkeit für genau diesen Fall beträgt P(X1 = 1,X2 = 1, X3 = 0, X4 = 0) = P(X1 = 1)P(X2 = 1)P(X3 = 0)P(X4 = 0) = 0.375 ⋅ 0.375 ⋅ (1 − 0.375) ⋅ (1 − 0.375) = 0.3752 ⋅ (1 − 0.375)4−2 . Die Zerlegung der gemeinsamen Wahrscheinlichkeit in das Produkt der Einzelwahrscheinlichkeiten erfolgt aufgrund des Multiplikationskriteriums bei Unabhängigkeit (Abschnitt 7.1.2). Genauso folgt S4 = 2 aber auch aus den Quartupeln (1, 0, 1, 0), (1, 0, 0, 1), (0, 0, 1, 1), (0, 1, 0, 1)

und

(0, 1, 1, 0).

Folglich gibt es insgesamt 6 verschiedene Ergebnisse für (X1 , X2 , X3 , X4 )T , die S4 = 2 implizieren. Die Anzahl möglicher Ergebnisse ergibt sich dabei aus der Anzahl von Möglichkeiten, 2 aus 4 Positionen für das Ergebnis „schwarz“ auszuwählen, d.h. 4 ( ) = 6. 2 Deshalb gilt: 4 P(S4 = 2) = ( )0.3752 (1 − 0.375)4−2 = 6 ⋅ 0.3752 ⋅ (1 − 0.375)2 ≈ 0.3296. 2 Die weiteren Wahrscheinlichkeiten für bestimmte Trägerpunkte von S4 bestimmen sich aufgrund analoger Überlegungen. So gilt für n = 4 und π = 0.375: 4 P(S4 = 0) = ( )0.3750 (1 − 0.375)4−0 = (1 − 0.375)4 ≈ 0.1526, 0

7.3 Spezielle eindimensionale Verteilungen | 387

4 P(S4 = 1) = ( )0.3751 (1 − 0.375)4−1 = 4 ⋅ 0.375 ⋅ (1 − 0.375)3 ≈ 0.3662, 1 4 P(S4 = 3) = ( )0.3753 (1 − 0.375)4−3 = 4 ⋅ 0.3753 ⋅ (1 − 0.375)1 ≈ 0.1318, 3 4 P(S4 = 4) = ( )0.3754 (1 − 0.375)4−4 = 0.3754 ≈ 0.0198. 4 Dabei beachte man, dass gilt: 4 4 ( ) = ( ) = 1. 0 4 • Bernoulli-Verteilung als Spezialfall • Wird lediglich einmal gezogen, ist die Summe der schwarzen Kugeln entweder 1 oder 0. Insofern ist die Bernoulli-Verteilung eine Binomialverteilung mit n = 1. Damit erklärt sich auch die Kurschreibweise „B(1,π)“. • Binomialverteilung bei unterschiedlichen Parameterwerten • Die Abbildungen 7.3.3 und 7.3.4 zeigen Beispiele für unterschiedliche Parameterkonstellationen. Wird der Wert von π unter Konstanz von n variiert, ändert sich in der Vorstellung eines Urnenmodells lediglich der Anteil von schwarzen Kugeln. Abbildung 7.3.3 illustriert dies am Beispiel von n = 10. So gilt: Die Binomialverteilung ist für (i) π < 0.5 rechtsschief, (ii) π = 0.5 symmetrisch, (iii) π > 0.5 linksschief. Außerdem verlagert sich die Wahrscheinlichkeitsmasse für festes n und wachsendes π hin zu größeren Werten, da infolge des gestiegenen Anteils schwarzer Kugeln eine höhere Anzahl von schwarzen Kugeln wahrscheinlicher wird. Wird der Wert von n unter Konstanz von π variiert, ändert sich lediglich die Zahl gezogener Kugeln (mit Zurücklegen). Abbildung 7.3.4 illustriert dies am Beispiel von π = 0.1. So gilt: Für wachsendes n (i) verlagert sich die Verteilung hin zu größeren Werten, (ii) werden die Wahrscheinlichkeiten einzelner Werte tendenziell kleiner, (iii) wird die Verteilung zunehmend symmetrisch. Im vorliegenden Beispiel könnte man in Bezug auf (iii) auch sagen, dass die Rechtsschiefe der Verteilung für wachsendes n immer schwächer wird. Dieses Phänomen lässt sich mithilfe des zentralen Grenzwertsatzes theoretisch erklären (Abschnitt 7.4.2).

388 | 7 Theoretische Verteilungen und Abhängigkeiten

π = 0.1

f S 10(s )

π = 0.25

f S 10(s )

0.5 0.4 0.3 0.2 0.1 0.0 0

5

10

π = 0.5

f S 10(s )

0.5 0.4 0.3 0.2 0.1 0.0 0

5

s

π = 0.8

f S 10(s )

0.5 0.4 0.3 0.2 0.1 0.0

0.5 0.4 0.3 0.2 0.1 0.0

10

0

5

s

10

0

5

s

10

s

Abb. 7.3.3: B(10, π)-Verteilung für unterschiedliche Werte von π

n = 10

f S 10(s )

n = 20

f S 20(s )

0.5 0.4 0.3 0.2 0.1 0.0 0

5

10 15 20

n = 30

f S 30(s )

0.5 0.4 0.3 0.2 0.1 0.0 0

5

10 15 20

s

0.5 0.4 0.3 0.2 0.1 0.0 0

s

n = 50

f S 50(s )

0.5 0.4 0.3 0.2 0.1 0.0 5

10 15 20

0

5

s

10 15 20

s

Abb. 7.3.4: B(n, 0.1)-Verteilung für unterschiedliche Werte von n

• Erwartungswert und Varianz • Mit den Rechenregeln für Erwartungswerte und Varianzen erhält man n

n

E(S n ) = E( ∑ X i ) = ∑ E(X i ) = nπ i=1

und

i=1 n

n

Var(S n ) = Var( ∑ X i ) = ∑ Var(X i ) = nπ(1 − π). i=1

i=1

Man beachte, dass die Varianz einer Summe von Zufallsvariablen der Summe der einzelnen Varianzen entspricht, falls die Zufallsvariablen unabhängig sind (Abschnitt 7.2.1). Binomialverteilung Eine Zufallsvariable S n heißt binomialverteilt mit Parametern n ∈ ℕ und π ∈ (0, 1), kurz S n ∼ B(n, π), wenn gilt: n P(S n = s) = ( )π s (1 − π)n−s s

für s = 0, 1, 2, . . . , n.

Die korrespondierende Verteilung heißt Binomialverteilung. Dabei gilt: E(S n ) = nπ

und

Var(S n ) = nπ(1 − π).

7.3 Spezielle eindimensionale Verteilungen | 389

• Anmerkung zur Notation „S n “ • In diesem Lehrbuch notieren wir B(n, π)-verteilte Zufallsvariablen generell mit S n , um die Interpretierbarkeit der Binomialverteilung als Verteilung einer Summe herauszustellen (vgl. dazu auch Abschnitt 7.4). Selbstverständlich wäre auch eine Bezeichnung mit X oder Y korrekt, sofern im jeweiligen Kontext die inhaltliche Zuordnung eindeutig ist und die Summendeutung nicht im Vordergrund steht. • Beispiel 7.3.2 • Angenommen eine Versicherung schließt Versicherungsverträge mit n = 100 Kunden ab. Aus früheren Datenbeständen weiß man, dass die Wahrscheinlichkeit für einen Versicherungsfall innerhalb eines Jahres pro Kunde bei etwa 0.5% liegt. Mit welcher Wahrscheinlichkeit wird dann im nächsten Jahr mindestens ein Versicherungsfall eintreten? Mit welcher Wahrscheinlichkeit werden höchstens zwei Versicherungsfälle eintreten? Solche und ähnliche Fragen lassen sich nun unter Umständen mithilfe einer Binomialverteilung beantworten. Zunächst wäre jedoch zu klären, ob eine Modellierung über eine Binomialverteilung überhaupt adäquat erscheint oder nicht. Stellen wir uns dazu eine Urne mit 200 Kugeln vor, wovon eine Kugel schwarz ist. Diese Kugel steht für unseren Versicherungsfall. Sie wird mit Wahrscheinlichkeit 0.5% gezogen. Was wir nun weiter annehmen müssten, wäre die Unabhängigkeit der Eintritte von Versicherungsfällen für die einzelnen Versicherungsnehmer. Die Frage wäre, ob eine solche Annahme gerechtfertigt erscheint. Denn nur unter dieser Annahme würde der Eintritt von Versicherungsfällen quasi einem 100-maligen Ziehen mit Zurücklegen aus einer solchen Urne entsprechen. Nur dann könnten die einzelnen Versicherungsnehmer durch unabhängige B(1, 0.005)-verteilte Zufallsvariablen modelliert werden, deren Summe gerade die Anzahl von Versicherungsfällen pro Jahr ergibt. Angenommen, es gehe um Lebensversicherungen. Wenn hier ein Versicherungsnehmer stirbt, sollte dies die Sterbewahrscheinlichkeit eines anderen Versicherungsnehmers nicht verändern. Diese Annahme erscheint weitgehend realitätsnah. Modellieren wir dann die Anzahl der Todesfälle S100 mit einer B(100, 0.005)-Verteilung, so erhalten wir 100 )0.0050 (1 − 0.005)100−0 = 1 ⋅ 1 ⋅ 0.995100 ≈ 0.6058, 0

P(S100 = 0) = (

100 )0.0051 (1 − 0.005)100−1 = 100 ⋅ 0.005 ⋅ 0.99599 ≈ 0.3044, 1

P(S100 = 1) = (

100 )0.0052 (1 − 0.005)100−2 = 4950 ⋅ 0.0052 ⋅ 0.99598 ≈ 0.0757. 2

P(S100 = 2) = (

Die Wahrscheinlichkeit, dass mindestens ein Versicherungsfall eintritt, beträgt damit P(S100 > 0) = 1 − P(S100 = 0) ≈ 1 − 0.6058 = 0.3942 und die Wahrscheinlichkeit, dass höchstens zwei Versicherungsfälle eintreten P(S100 ≤ 2) = P(S100 = 0) + P(S100 = 1) + P(S100 = 2) ≈ 0.9859.

390 | 7 Theoretische Verteilungen und Abhängigkeiten

Geht es dagegen um eine Versicherung für Hochwasserschäden, so ist stark zu bezweifeln, ob hier Versicherungsfälle als unabhängig voneinander angenommen werden können. Hochwasserkatastrophen betreffen meist sehr viele Personen gleichzeitig. Die Unabhängigkeitsannahme wäre in einem solchen Fall nicht realistisch und ein Binomialmodell nicht gerechtfertigt. In diesem Fall wäre es unter Umständen praktikabler, das Eintreten einer Hochwasserkatastrophe selbst als stochastisches Ereignis geeignet zu modellieren, um daraus die für die Versicherung notwendigen kalkulatorischen Schlüsse ziehen zu können. Insbesondere die der Binomialverteilung innewohnende Unabhängigkeitsannahme ist bei statistischen Modellierungen kritisch zu prüfen.

Poisson-Verteilung

• Modell und Definition • Die Anzahl des Auftretens eines bestimmten Ereignisses in einem fest vorgegebenen Zeitraum kann häufig als Poisson-verteilt angenommen werden. Die korrespondierende Verteilung heißt Poisson-Verteilung. Es handelt sich dabei um eine diskrete Verteilungsfamilie mit Trägermenge ℕ0 , Parameter λ > 0 (lies: lambda) und Wahrscheinlichkeitsfunktion λ x −λ e für x = 0, 1, 2, . . . x! Zur konkreten Spezifikation der Verteilung einer Zufallsvariable X wird die Kurzschreibweise f X (x) =

X ∼ Po(λ) verwendet. Man beachte hierzu auch Beispiel D1-b aus Abschnitt 7.1.1 mit λ = 3, in dem die Anzahl eingehender Notrufe an einem Rettungswagen-Stützpunkt während einer Stunde betrachtet wird. Die Po(λ)-Verteilung erhält man als Grenzverteilung der B(n, π)-Verteilung, falls π „klein“ ist und n „groß“, wobei dann λ = nπ gesetzt werden kann. Für Werte π < 0.05

und

n ≥ 30

bekommt man bereits eine recht gute Approximation. So wäre beispielsweise eine B(100, 0.001)-verteilte Zufallsvariable S100 approximativ Po(0.1)-verteilt, d.h. S100

approx



Po(0.1).

Nähere Details hierzu finden sich im nachfolgenden Punkt. Der Zusammenhang zwischen Binomialverteilung und Poisson-Verteilung bietet auch Anhaltspunkte dafür, ob ein bestimmter Zufallsvorgang durch eine Poisson-Verteilung adäquat modellierbar sein sollte oder nicht. Man beachte hierzu die späteren Anwendungsbeispiele.

7.3 Spezielle eindimensionale Verteilungen | 391

Weiter besteht ein Zusammenhang zwischen der Poisson-Verteilung und der stetigen Exponentialverteilung (Abschnitt 7.3.2). Mit letzterer lassen sich unter bestimmten Annahmen die Wartezeiten zwischen dem Eintreten bestimmter Ereignisse (des gleichen Typs) modellieren. Erscheinen diese Annahmen in Bezug auf die Wartezeiten realistisch, so ergibt sich für die Anzahl von Ereignissen in einem festen Zeitraum implizit eine Poisson-Verteilung. • Zusammenhang zwischen Binomialverteilung und Poisson-Verteilung • Die folgenden Ausführungen sind skizzenhaft und stellen keinen rigorosen Beweis dar. Für jedes feste s ∈ ℕ0 und festes λ > 0 können folgende Konvergenzresultate nachgewiesen werden: n − s + j n→∞ 󳨀󳨀󳨀󳨀󳨀→ 1, falls 1 ≤ j ≤ s, n λ −s n→∞ (1 − ) 󳨀󳨀󳨀󳨀󳨀→ 1, n λ n n→∞ (1 − ) 󳨀󳨀󳨀󳨀󳨀→ e−λ . n In Bezug auf (7.3.5) gilt beispielsweise für λ = 1: (1 −

1 10 1 100 ≈ 0.3660 ) ≈ 0.3487, (1 − ) 10 100

und

(1 −

(7.3.3) (7.3.4) (7.3.5)

1 1000 ≈ 0.3677 ) 1000

und andererseits e−1 ≈ 0.3670. Für n = 1000 ergibt sich also eine Übereinstimmung bis zur 3. Nachkommastelle. Sei nun S100 eine B(n, π)-verteilte Zufallsvariable. Sofern man nun λ = nπ setzt, gilt: λ n−s n n λ s P(S n = s) = ( )π s (1 − π)n−s = ( )( ) (1 − ) n s s n n ⋅ (n − 1) ⋅ ⋅ ⋅ ⋅ ⋅ 2 ⋅ 1 λ s λ n λ −s = ⋅ s (1 − ) (1 − ) (n − s)!s! n n n λ n n ⋅ (n − 1) ⋅ ⋅ ⋅ ⋅ ⋅ (n − s + 1) λ s λ −s = ⋅ (1 − ) (1 − ) . s n s! n n Aufgrund der Gleichheit n−s+1 n ⋅ (n − 1) ⋅ ⋅ ⋅ ⋅ ⋅ (n − s + 1) n n − 1 n − 2 = ⋅ ⋅ ⋅ ⋅⋅⋅ ⋅ ns n n n n folgt gemäß (7.3.3), dass jeder einzelne Quotient auf der rechten Seite der Gleichung gegen 1 konvergiert. Mit den anderen beiden Resultaten (7.3.4) und (7.3.5) folgt dann schließlich s n→∞ λ −λ e . P(S n = s) 󳨀󳨀󳨀󳨀󳨀→ s! Man beachte, dass ein konstanter Wert von λ dabei vorausgesetzt wird. Sofern also n gegen Unendlich strebt, muss π gleichzeitig gegen 0 streben damit λ = nπ unverändert bleibt. Daraus folgt die Approximationsregel „für kleines π und großes n“.

392 | 7 Theoretische Verteilungen und Abhängigkeiten

Zusammenhang zwischen Binomialverteilung und Poisson-Verteilung Eine B(n, π)-verteite Zufallsvariable S n ist für „kleines“ π und „großes“ n approximativ Po(λ)-verteit mit λ = nπ. Es gilt dann also: n λs P(S n = s) = ( )π s (1 − π)n−s ≈ e−λ . s s! Die Approximation ist für π < 0.05 und n ≥ 30 hinreichend gut.

• Poisson-Verteilung bei unterschiedlichen Parameterwerten • Abbildung 7.3.5 zeigt Beispiele für Wahrscheinlichkeitsfunktionen zu unterschiedlichen Parameterwerten von λ. Die Trägermenge ist die Menge der natürlichen Zahlen einschließlich 0. Für wachsendes λ verlagert sich die Wahrscheinlichkeitsmasse hin zu größeren Werten. Die Verteilung wird außerdem zunehmend symmetrisch, was sich mithilfe des zentralen Grenzwertsatzes (Abschnitt 7.4.2) erklären lässt. λ = 0.5

f X (x ) 0.6 0.5 0.4 0.3 0.2 0.1 0.0

λ=3

f X (x )

0

5

10 15 20

5

10 15 20

λ = 10

f X (x )

0.6 0.5 0.4 0.3 0.2 0.1 0.0 0

x

λ=5

f X (x )

0.6 0.5 0.4 0.3 0.2 0.1 0.0

0.6 0.5 0.4 0.3 0.2 0.1 0.0 0

5

x

10 15 20

0

x

5

10 15 20

x

Abb. 7.3.5: Po(λ)-Verteilung für unterschiedliche Werte von λ

• Erwartungswert und Varianz • Für X ∼ Po(λ) berechnen sich die ersten beiden Momente als ∞

E(X) = ∑ j=0 ∞

E(X 2 ) = ∑ j=0

jλ j −λ 2 ⋅ λ2 −λ 3 ⋅ λ3 −λ e = λe−λ + e + e + . . . und j! 2! 3! 22 ⋅ λ2 −λ 32 ⋅ λ3 −λ j2 λ j −λ e = λe−λ + e + e +... j! 2! 3!

Mit etwas mathematischem Aufwand lässt sich zeigen, dass gilt: E(X) = λ

bzw.

E(X 2 ) = λ + λ2 .

Daraus folgt Var(X) = E(X 2 ) − (E(X))2 = λ.

7.3 Spezielle eindimensionale Verteilungen | 393

Poisson-Verteilung Eine Zufallsvariable X heißt poissonverteilt mit Parameter λ > 0, kurz X ∼ Po(λ), wenn gilt: λ x −λ e für x = 0, 1, 2, . . . x! Die korrespondierende Verteilung heißt Poisson-Verteilung. Dabei gilt: P(X = x) =

E(X) = λ

und

Var(X) = λ.

• Beispiel 7.3.3 • Betrachten wir nochmals Beispiel D1-b aus Abschnitt 7.1.1, in dem es um die Anzahl eingehender Notrufe an einem Rettungswagen-Stützpunkt während einer Stunde ging. Für die Anzahl X wurde dabei eine Po(3)-Verteilung unterstellt, sodass also laut Modell im Durchschnitt theoretisch 3 Notrufe eingehen sollten. Die Wahl von λ = 3 kann, andersherum argumentiert, natürlich auf empirischen Erfahrungen beruhen, d.h. dass ein auf vielen Stunden beruhender Erfahrungswert bei etwa 3 lag. Weshalb erscheint eine Poisson-Verteilung in einem solchen Kontext jedoch überhaupt aus theoretischer Sicht gerechtfertigt? Zunächst einmal ist die Anzahl eingehender Anrufe nicht nach oben beschränkt (sieht man einmal vom Umstand ab, dass die Anzahl der Erdenbewohner begrenzt ist). In dieser Hinsicht eignet sich schon mal eine Poisson-Verteilung, da ihre Trägermenge alle natürlichen Zahlen erfasst. Die Anzahl potenzieller Anrufe ist „sehr groß“, da für eine große Zahl von Personen potenziell ein Notfall eintreten kann. Die Wahrscheinlichkeit eines Notfalls sollte für jede potenziell in Frage kommende Person gleichzeitig jedoch relativ gering sein. Außerdem erscheint es durchaus realistisch, dass die Notfälle für einzelne Personen weitgehend unabhängig voneinander eintreten. Ein Autounfall mit einem Schwerverletzten etwa sollte unabhängig von einem Sturz von einer Leiter an einer Baustelle eintreten. Insofern hätten wir, falls wir all diese Annahmen berechtigt treffen könnten, ein verstecktes Binomialmodell. Dabei wäre n die Anzahl potenzieller Anrufe und π die Wahrscheinlichkeit eines Notfalls. Allerdings kennen wir die konkreten Parameterwerte für n und π nicht. Empirisch müsste jedoch feststellbar sein, dass sich die Anzahl von Anrufen näherungsweise durch eine Po(λ)Verteilung beschreiben lässt. Auch das im Rahmen der Binomialverteilung behandelte Anwendungsbeispiel (Versicherung für n = 100 Versicherungsnehmer) könnte man über eine PoissonVerteilung lösen, da hier mit S100 ∼ B(100, 0.005) die Approximationskritieren „für großes n und kleines π“ erfüllt sind. So wäre mit nπ = 0.5 die Summe der Versicherungsfälle approximativ Po(0.5)-verteilt. Beispielsweise ergäbe sich dann (vgl. Abb. 7.3.5) P(S100 = 0) ≈

0.50 −0.5 e ≈ 0.6065, 0!

394 | 7 Theoretische Verteilungen und Abhängigkeiten 0.51 −0.5 ≈ 0.3033, e 1! 0.52 −0.5 e P(S100 = 2) ≈ ≈ 0.0758. 2! Vergleicht man diese approximativen Werte mit den auf Basis der B(100, 0.005)Verteilung ermittelten (exakten) Wahrscheinlichkeiten 0.6058, 0.3044 und 0.0757, ergibt sich für diese Fälle nahezu kein Unterschied. Die Frage der Adäquatheit einer Modellierung mit der Poisson-Verteilung schließt wie bei der Binomialverteilung wiederum Überlegungen in Bezug auf die Unabhängigkeit der eintretenden Ereignisse ein. P(S100 = 1) ≈

7.3.2 Spezielle stetige Verteilungen Stetige Gleichverteilung • Modell und Definition • Sind die Realisationen einer Zufallsvariable gleichmäßig über alle Werte eines Intervalls [a, b] mit a < b verteilt, spricht man von einer stetigen Gleichverteilung oder einer Rechteckverteilung. Jeder gewöhnliche Taschenrechner verfügt in der Regel über einen Zufallsgenerator, mit dem sich über [0, 1] gleichverteilte Zufallsvariablen erzeugen lassen. Die Dichte einer über [a, b] gleichverteilten Größe X ist gegeben durch 1 I[a,b] (x). b−a Wahlweise kann das Intervall [a, b] auch offen oder halboffen gewählt werden. Zur konkreten Spezifikation der Verteilung einer Zufallsvariable X verwenden wir die Kurzschreibweise f X (x) =

X ∼ G(a, b). Die Familie der stetigen Gleichverteilungen ist eher von theoretischem Interesse und empirisch kaum anzutreffen, wenn man einmal von durch Zufallsgeneratoren erzeugten Zufallszahlen absieht. Im Rahmen einer bedingten Betrachtung kann eine stetig verteilte Größe in einem bestimmten Intervall jedoch näherungsweise gleichverteilt sein, wie es etwa bei Beispiel S1-a (Abschnitt 7.1.1) abschnittsweise der Fall ist. Weiterhin besitzt die Gleichverteilung eine besondere Bedeutung für die Zufallszahlenerzeugung anderer stetiger Verteilungen. Sei X über [0, 1] gleichverteilt und Y eine beliebige andere stetige Zufallsvariable mit streng monotoner Verteilungsfunktion F Y . Sei F −1 Y die Umkehrfunktion von F Y . Dann gilt: Y ∼ F −1 Y (X).

7.3 Spezielle eindimensionale Verteilungen | 395

Die mit der Umkehrfunktion transformierte Größe X besitzt dann theoretisch die gleiche Verteilung wie Y. Man beachte hierzu das spätere Anwendungsbeispiel. • Stetige Gleichverteilung bei unterschiedlichen Parameterwerten • Abbildung 7.3.6 zeigt Beispiele von Gleichverteilungen für unterschiedliche Parameterwerte von a und b. G (0, 1)

f X (x )

G (0, 2)

f X (x ) 2.5

2.5

2.0

2.0

2.0

1.5

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0

0.0 0

1

2

G (0.9, 1.4)

f X (x )

2.5

0.0 0

1

x

2

0

x

1

2

x

Abb. 7.3.6: G(a, b)-Verteilung für unterschiedliche Intervalle [a, b]

• Erwartungswert und Varianz • Für X ∼ G(a, b) berechnen sich die ersten beiden Momente als ∞

b

−∞

a

x 1 I[a,b] (x)dx = E(X) = ∫ ∫ xdx b−a b−a b2 − a2 (b + a)(b − a) 1 b = = 0.5(a + b) = [0.5x2 ]a = b−a 2(b − a) 2(b − a) und ∞

b

−∞ b3

a

b 1 1 1 x2 I[a,b] (x)dx = E(X ) = ∫ [ x3 ] ∫ x2 dx = a b−a b−a b−a 3 2

(a + b)2 − ab − a3 = ⋅⋅⋅ = . = 3(b − a) 3 Daraus folgt Var(X) = E(X 2 ) − (E(X))2 =

(b − a)2 . 12

Stetige Gleichverteilung Für a < b heißt eine Zufallsvariable X auf [a, b] stetig gleichverteilt, kurz X ∼ G(a, b), wenn sie die Dichte f X (x) =

1 I[a,b] (x) b−a

396 | 7 Theoretische Verteilungen und Abhängigkeiten

besitzt. Die korrespondierende Verteilung heißt stetige Gleichverteilung oder Rechteckverteilung. Dabei gilt: E(X) =

a+b 2

Var(X) =

und

(b − a)2 . 12

• Verteilungsfunktion • Für die Verteilungsfunktion F X einer G(a, b)-verteilten Zufallsvariable X gilt zunächst einmal F X (x) = 0 für x ≤ a und F X (x) = 1 für x ≥ b. Für x ∈ (a, b) folgt dann x

x

F X (x) = ∫ f X (t)dt = ∫ −∞

a

x 1 x−a t dt = [ . ] = b−a b−a a b−a

Die Verteilungsfunktion ist über dem Intervall [a, b] linear, wobei die 1. Ableitung an jeder Stelle x ∈ (a, b) gerade dem Dichtewert über dem Intervall [a, b] entspricht. Abbildung 7.3.7 zeigt die Verteilungsfunktionen der Dichten von Abbildung 7.3.6. G (0, 1)

F X (x )

G (0, 2)

F X (x ) 1.0

1.0

0.8

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

0.0

0.0 0

1

x

2

G (0.9, 1.4)

F X (x )

1.0

0.0 0

1

2

x

0

1

2

x

Abb. 7.3.7: Verteilungsfunktionen stetiger Gleichverteilungen

• Beispiel 7.3.4 • Wir möchten die Idee der Zufallszahlenerzeugung anhand von Beispiel S1-b aus Abschnitt 7.1.1 erläutern. In diesem Beispiel ging es um eine stetige Zufallsvariable Y mit Dichte f Y (y) = 0.05e−0.05y I[0,∞) (y) und Verteilungsfunktion (zur Herleitung siehe Abschnitt 7.1.1) F Y (y) = (1 − e−0.05y )I[0,∞) (y). Es handelt sich dabei um eine Exponentialverteilung mit Parameterwert 0.05 (nächster Abschnitt). Die Umkehrfunktion von F Y wurde in Abschnitt 7.2.1 im Zusammenhang mit den theoretischen Quantilen hergeleitet. Sie lautet: F −1 Y (x) = −20 ln(1 − x)

für x ∈ [0, 1).

7.3 Spezielle eindimensionale Verteilungen | 397

Für eine über [0, 1] gleichverteilte Größe X gilt nun, dass die transformierte Größe −20 ln(1 − X) identisch wie Y verteilt ist mit Dichte f Y . Abbildung 7.3.8 illustriert diesen Vorgang. Man beachte, dass aufgrund der Stetigkeit der Verteilung formal gilt: P(X = 1) = 0, sodass x = 1 ohne Probleme auch ausgeschlossen werden kann. Im rechten Schaubild wird die Dichte von Y angedeutet. Sie entspricht der mit 20 multiplizierten Dichtefunktion aus Abbildung 7.1.3. F Y (y )

f X (x )

X ~ G (0, 1)

1.5

Idealtypische Verteilung von Zufallszahlen

1.0

Y ~ Exp (0.05)

1.0 0.8 0.6

Umskalierte Dichte

0.4 0.5

0.2

0.0

0.0 0.0

0.2

0.4

0.6

0.8

1.0

−10 0

10

20

30

40

50

60

70

80

y

x

Abb. 7.3.8: Zufallszahlenerzeugung illustriert am Beispiel S1-b

Exponentialverteilung • Modell und Definition • Zur Modellierung von Wartezeiten und Lebensdauern, wird häufig die Exponentialverteilung verwendet, die passenderweise über die Trägermenge ℝ+ = [ 0, ∞) verfügt. Es handelt sich dabei um eine stetige Verteilungsfamilie mit Parameter λ > 0 und Dichtefunktion f X (x) = λe−λx I[0,∞) (x). Zur konkreten Spezifikation der Verteilung einer Zufallsvariable X wird die Kurzschreibweise X ∼ Exp(λ) verwendet. Man beachte hierzu auch Beispiel S1-b aus Abschnitt 7.1.1 mit λ = 0.05, in dem die Wartezeit in Minuten bis zum nächsten eingehenden Notruf an einem Rettungswagenstützpunkt betrachtet wird. Es besteht ein enger Zusammenhang zwischen Poisson-Verteilung und Exponentialverteilung, der auch Anhaltspunkte dafür liefert, ob ein bestimmter Zufallsvorgang durch eine Exponentialverteilung adäquat modellierbar ist oder nicht. Nähere Details hierzu finden sich im nachfolgenden Punkt.

398 | 7 Theoretische Verteilungen und Abhängigkeiten

Doch nicht für jede Warte- oder Lebenszeit eignet sich eine Exponentialverteilung. Insbesondere muss auch die mit der Exponentialverteilung verknüpfte Eigenschaft der Gedächtnislosigkeit adäquat erscheinen (siehe späterer Punkt). • Zusammenhang zwischen Poisson-Verteilung und Exponentialverteilung • Die folgenden Ausführungen sind skizzenhaft und stellen keinen rigorosen Beweis dar. In Beispiel D1-b ging es um die Anzahl eingehender Notrufe während einer Stunde. Diese Anzahl X wurde durch eine Po(3)-Verteilung modelliert, wobei der Wert 3 dem theoretischen Durchschnittswert, spricht dem Erwartungswert von X, entspricht. Sofern nun ein Anruf erfolgt (das entsprechende Ereignis eintritt), erfolgt gemäß der Po(3)-Verteilung innerhalb der darauf folgenden 60 Minuten mit Wahrscheinlichkeit P(X = 0) =

30 −3 e = e−3 ≈ 0.0498 0!

kein weiterer Anruf und mit Wahrscheinlichkeit 1 − e−3 ≈ 0.9502 erfolgt mindestens ein weiterer Anruf. Sofern pro Stunde im Durchschnitt 3 Anrufe eingehen, so gehen in 2 Stunden im Schnitt 6 Anrufe, in einer halben Stunde im Schnitt 1.5 Anrufe, in 10 Minuten im Schnitt 0.5 Anrufe ein usw. Allgemein erfolgen in einem Zeitabschnitt der Länge z ≥ 0 (in Stunden gerechnet) im Schnitt also 3z Anrufe. Sei nun Z eine stetige Zufallsvariable, welche die Wartezeit in Stunden angibt, die bis zum nächsten Anruf gewartet werden muss, sofern gerade ein Anruf erfolgt ist. Sei weiter F Z die Verteilungsfunktion von Z. Dann folgt für z > 0: F Z (z) = P(Z ≤ z) = 1 − P(Z > z) = 1 − e−3z

(7.3.6)

und darüber dann für z > 0: f Z (z) = F 󸀠Z (z) = 3e−3z . Die Dichte von Z lautet somit insgesamt f Z (z) = 3e−3z I[0,∞) (z). Dies ist aber gerade die Dichte einer Exp(3)-Verteilung. Rechnen wir mit der Wartezeit in Minuten statt in Stunden und bezeichnen diese mit Y, erhalten wir für einen Zeitabschnitt der Länge y ≥ 0 (in Minuten) über Gleichung (7.3.6): F Y (y) = P(Y ≤ y) = P(60Z ≤ y) = P(Z ≤ y/60) = 1 − e−3y/60 = 1 − e−0.05y . Daraus folgt dann für die Dichte von Y: f Y (y) = 0.05e−0.05y I[0,∞) (y). Dies ist gerade die Dichte aus Beispiel S1-b. Die Beispiele D1-b und S1-b sind insofern aufeinander abgestimmt.

7.3 Spezielle eindimensionale Verteilungen | 399

Die Verallgemeinerung der obigen Ausführungen liegt auf der Hand und lässt sich folgendermaßen zusammenfassen. Zusammenhang zwischen Poisson-Verteilung und Exponentialverteilung Sei X die Anzahl des Auftretens eines bestimmten Ereignisses in einem bestimmten Zeitfenster, dessen Länge in einer bestimmten Einheit gemessen wird. Ist X Po(λ)verteilt, so ist die in der gleichen Einheit gemessene Wartezeit zwischen aufeinanderfolgenden Ereignissen Exp(λ)-verteilt.

• Eigenschaft der Gedächtnislosigkeit • Eine der Exponentialverteilung innewohnende Eigenschaft ist die der sog. Gedächtnislosigkeit. Dabei gilt, dass für jeden Zeitpunkt t eine noch verbleibende Wartezeit (bis zum nächsten Eintritt eines bestimmten Ereignisses) oder Lebensdauer (bis zum Verfall eines Objekts) nicht von der bereits bis t verstrichenen Wartezeit bzw. Lebensdauer abhängt. Formal ausgedrückt heißt das P(X ≤ t + s|X > t) = P(X ≤ s)

für alle t, s ∈ [0, ∞),

(7.3.7)

wobei X eine Exp(λ)-verteilte Warte- oder Lebenszeit ist. Angenommen eine als exponentialverteilt angenommene Wartezeit beträgt beispielsweise bereits 2 Minuten. Dann ist die Wahrscheinlichkeit für eine weitere Minute Wartezeit gleich der Wahrscheinlichkeit für höchstens 1 Minute, wenn noch keine Zeit verstrichen ist, d.h. P(X ≤ 2 + 1|X > 2) = P(X ≤ 1). Das ist aber auch der Fall, falls bereits 3 Minuten oder 27.5 Minuten Wartezeit verstrichen sind. Es gilt: P(X ≤ 3 + 1|X > 3) = P(X ≤ 27.5 + 1|X > 27.5) = P(X ≤ 1). Unter Verwendung der Verteilungsfunktion (7.3.9) einer Exp(λ)-verteilten Zufallsvariable X (zur Herleitung siehe späterer Punkt), die gegeben ist durch F X (x) = (1 − e−λx )I[0,∞) (x), lässt sich die Gültigkeit der Gleichung (7.3.7) recht einfach nachweisen. Denn es gilt: P(t < X ≤ t + s) P(X ≤ t + s) − P(X ≤ t) = P(X > t) 1 − P(X ≤ t) 1 − e−λ(t+s) − (1 − e−λt ) −e−λt e−λs + e−λt = = 1 − (1 − e−λt ) e−λt −λt −λs −e (1 − e ) = = 1 − e−λs = F X (s). e−λt Zur 2. Gleichung beachte man, dass allgemein gilt: P(X ≤ t + s|X > t) =

P(t < X ≤ t + s) = P(X ≤ t + s) − P(X ≤ t).

400 | 7 Theoretische Verteilungen und Abhängigkeiten

Die Eigenschaft der Gedächtnislosigkeit liefert ebenfalls Anhaltspunkte darüber, ob eine Modellierung mit einer Exponentialverteilung überhaupt in Frage kommt oder nicht. Man beachte hierzu auch die nachfolgenden Anwendungsbeispiele. • Exponentialverteilung bei unterschiedlichen Parameterwerten • Abbildung 7.3.9 zeigt im linken Schaubild Dichten für unterschiedliche Parameterwerte von λ. Die Trägermenge ist stets ℝ+ = [0, ∞). Die Verteilung ist generell rechtsschief. Die Stärke der Rechtsschiefe nimmt für wachsendes λ zu, da die Wahrscheinlichkeitsmasse zunehmend ungleichmäßiger verteilt ist. Das rechte Schaubild zeigt die korrespondierenden Verteilungsfunktionen (zur Herleitung siehe späterer Punkt). f X (x )

F X (x )

2.0

1.0

λ = 0.5 λ = 1.0 λ = 2.0

1.5 1.0

0.8 0.6 0.4

0.5

0.2

0.0

0.0 0

1

2

3

4

5

6

0

1

2

3

4

5

6

x

x

Abb. 7.3.9: Exp(λ)-Verteilung für unterschiedliche Werte von λ

• Erwartungswert und Varianz • Für X ∼ Exp(λ) berechnet sich der Erwartungswert als ∞



E(X) = ∫ xf X (x)dx = λ ∫ x e−λx dx. −∞

0

Mit einigem mathematischen Aufwand lässt sich zeigen, dass die Stammfunktion des Integranden gegeben ist durch e−λx (−λx − 1). (7.3.8) λ2 Alternativ bietet sich auch die Technik des sog. partiellen Integrierens an, was hier jedoch nicht weiter vertieft werden soll. Mit (7.3.8) folgt weiter ∞ 1 1 e−λx (−λx − 1)] = 0 − λ( 2 (0 − 1)) = . 2 0 λ λ λ Man beachte, dass der Ausdruck (7.3.8) als Funktion in x durch die e-Funktion „dominiert“ wird. Deshalb strebt (7.3.8) für x → ∞ trotz −λx → −∞ gegen 0. Formal setzt man (7.3.8) für x = ∞ deshalb gleich 0. Auf ähnliche Weise lässt sich mit etwas

E(X) = λ[

7.3 Spezielle eindimensionale Verteilungen | 401

Aufwand (doppeltes partielles Integrieren) zeigen, dass gilt: ∞



E(X 2 ) = ∫ x2 f X (x)dx = λ ∫ x2 λe−λx dx = −∞

0

2 . λ2

Daraus folgt dann Var(X) = E(X 2 ) − (E(X))2 =

1 . λ2

Exponentialverteilung Eine stetige Zufallsvariable X heißt exponentialverteilt mit Parameter λ > 0, kurz X ∼ Exp(λ), wenn sie die Dichte f X (x) = λe−λx I[0,∞) (x) besitzt. Die korrespondierende Verteilung heißt Exponentialverteilung. Dabei gilt: E(X) =

1 λ

und

Var(X) =

1 . λ2

• Verteilungsfunktion • Für die Verteilungsfunktion F X einer Exp(λ)-verteilten Zufallsvariable X gilt zunächst einmal F X (x) = 0 für x ≤ 0. Für x > 0 folgt dann x

x

F X (x) = ∫ f X (t)dt = ∫ λe−λt dt = [−e−λt ]0 = 1 − e−λx . x

−∞

0

Insgesamt erhalten wir somit F X (x) = (1 − e−λx )I[0,∞) (x).

(7.3.9)

• Beispiel 7.3.5 • Betrachten wir nochmals Beispiel S1-b aus Abschnitt 7.1.1, in dem es um die Wartezeit zwischen aufeinanderfolgenden Notrufen ging. Die betreffende Wartezeit wurde als Exp(3)- bzw. Exp(0.05)-verteilt angenommen, je nachdem ob diese in Stunden oder in Minuten gemessen wird. Über den Zusammenhang zwischen Poisson-Verteilung und Exponentialverteilung (siehe oben) korrespondiert das Beispiel direkt mit Beispiel D1-b, in dem es um die Anzahl eingehender Notrufe an einem Rettungswagen-Stützpunkt während einer Stunde ging. Diese wurde als Po(3)-verteilt angenommen. Insofern erscheint eine Modellierung der Wartezeit (in Stunden) zwischen zwei Notrufen mit einer Exponentialverteilung dann adäquat, falls eine Modellierung der Anzahl während einer Stunde mit einer Poisson-Verteilung adäquat erscheint. Außerdem kann zusätzlich die Eigenschaft der Gedächtnislosigkeit separat auf Plausibilität geprüft werden. Wäre es beispielsweise so, dass tagsüber deutlich mehr Notrufe eingehen als nachts, so wäre diese Eigenschaft nicht uneingeschränkt

402 | 7 Theoretische Verteilungen und Abhängigkeiten

gültig. So würde beispielsweise in der Übergangszeit von Nacht zu Tag, die Wahrscheinlichkeit zunehmen, dass „in nächster Zeit“ ein Notruf eintritt, wenn bereits eine bestimmte Zeit gewartet wurde. Beim Übergang von Tag zu Nacht wäre es umgekehrt. Angenommen eine U-Bahnlinie verkehre im 20-Minuten-Takt. Man komme ohne Kenntnis des Fahrplans zufällig an den Bahnsteig. Dann könnte man (in einem subjektiven Sinne) die anstehende Wartezeit als auf dem Intervall [0, 20] stetig gleichverteilt annehmen. In diesem Fall würde aber die Wahrscheinlichkeit stetig zunehmen, dass die U-Bahn in den nächsten 5 Minuten eintrifft, je länger man bereits warten würde. Nach 10 Minuten würde diese genau 50% betragen, da P(X ≤ 15|X > 10) =

0.25 P(10 < X ≤ 15) = = 0.5. 1 − P(X ≤ 10) 1 − 0.5

Nach 15 Minuten würde die U-Bahn mit Sicherheit (100%) in den nächsten 5 Minuten eintreffen – zumindest theoretisch. Generell ist die Exponentialverteilung mit allen periodisch oder näherungsweise periodisch auftretenden Ereignissen unvereinbar. Insbesondere die der Exponentialverteilung innewohnende Eigenschaft der Gedächtnislosigkeit ist bei statistischen Modellierungen kritisch zu prüfen.

Normalverteilung • Modell und Definition • Die Normalverteilung ist die in Wahrscheinlichkeitstheorie und Statistik mit Abstand bedeutendste Verteilung. Es handelt sich dabei um eine stetige Verteilung mit Dichtefunktion f X (x) =

1 √2πσ2

exp(−

1 (x − μ)2 ) 2 σ2

(7.3.10)

welche die Gestalt einer unimodalen „Glockenkurve“ besitzt (vgl. Abb. 7.3.10 und 7.3.11). Alles innerhalb der Klammern von „exp( )“ in (7.3.10) bildet den Exponenten zur Basis e (Euler’sche Zahl). Mit „π“ ist die Kreiszahl 3.1416 gemeint. Weiter spezifizieren die beiden Parameter μ und σ2 die konkrete Gestalt der Verteilung. Für eine normalverteilte Zufallsvariable X schreibt man auch kurz X ∼ N(μ, σ2 ). Es handelt sich also um eine zweiparametrige Verteilungsfamilie. Wie anhand der Notation zu vermuten, gilt: E(X) = μ

und

Var(X) = σ2

für μ ∈ ℝ und σ2 > 0.

Die Trägermenge ist ganz ℝ, da die Dichtefunktion überall strikt positiv ist. Die Dichte ist symmetrisch um den Erwartungswert und besitzt an dessen Stelle ihren theoreti-

7.3 Spezielle eindimensionale Verteilungen | 403

schen Modalwert (Maximalwert). Speziell die N(0, 1)-Verteilung wird auch als Standardnormalverteilung bezeichnet. Die korrespondierende Dichte wird eigens häufig mit dem griechischen Kleinbuchstaben φ (lies: Klein-Phi) notiert, d.h. 1 1 (7.3.11) exp(− x2 ). 2 √2π Die Normalverteilung besitzt eine wichtige theoretische Fundierung durch den zentralen Grenzwertsatz (Abschnitt 7.4.2), der grob formuliert besagt, dass Summen und Mittelwerte von Zufallsvariablen für großes n unter bestimmten Bedingungen approximativ normalverteilt sind. In der Natur ist die Normalverteilung immer dann empirisch beobachtbar, wenn viele einzelne Einflussgrößen, von denen keine dominiert, eine bestimmte Zielvariable bestimmen. Würde man beispielsweise mehrere Exemplare einer Pflanze unter weitgehend identischen Bedingungen anpflanzen und nach einer bestimmten Zeit die Wuchshöhen messen, wären diese näherungsweise normalverteilt. Würde man dieselbe Pflanze dagegen unter zwei völlig unterschiedlichen Anbaumethoden anpflanzen, ergäbe sich aller Voraussicht nach eine von einer Normalverteilung stark abweichende bimodale Verteilung. φ(x) =

• Normalverteilung bei unterschiedlichen Parameterwerten • Abbildung 7.3.10 zeigt im linken Schaubild Dichten der Normalverteilung für unterschiedliche Parameterwerte von μ. Das rechte Schaubild zeigt die korrespondierenden Verteilungsfunktionen (siehe späterer Punkt). Abbildung 7.3.11 zeigt Dichten bzw. Verteilungsfunktionen für unterschiedliche Parameterwerte von σ2 . Mit zunehmender Varianz verteilt sich die Wahrscheinlichkeitsmasse zunehmend gleichmäßiger auf die Trägermenge und ist weniger um den Erwartungswert herum konzentriert. f X (x )

F X (x )

0.5

μ = −1

0.4

μ=0

1.0

μ=2

0.8

0.3

0.6

0.2

0.4

0.1

0.2

0.0

0.0 −4

−3

−2

−1

0

1

2

3

4

−4

−3

−2

−1

0

1

2

3

4

x

x

Abb. 7.3.10: N(μ, 1)-Verteilung für unterschiedliche Werte von μ

• Erwartungswert und Varianz • Für X ∼ N(μ, σ2 ) würde man den Erwartungswert formal berechnen über ∞

E(X) = ∫ x ⋅ −∞

1 √2πσ2

exp(−

1 (x − μ)2 )dx, 2 σ2

404 | 7 Theoretische Verteilungen und Abhängigkeiten

Abb. 7.3.11: N(0, σ 2 )-Verteilung für unterschiedliche Werte von σ 2

was jedoch nicht mehr analytisch „per Hand“ berechenbar ist. Eine Möglichkeit besteht darin, die momenterzeugende Funktion von X zu verwenden (vgl. Abschnitt 7.2.3), was hier jedoch nicht weiter vertieft werden soll. Wegen der Symmetrie um μ ist jedoch relativ klar, dass μ dem Erwartungswert entspricht. Letztlich wird dadurch natürlich auch nur gerechtfertigt, diesen Parameter entsprechend mit μ zu bezeichnen. Mit etwas mathematischem Aufwand (beispielsweise wiederum unter Verwendung der momenterzeugenden Funktion) kann gezeigt werden, dass σ2 der Varianz entspricht, womit auch die notationelle Regelung für diesen zweiten Parameter legitim erscheint. • Lineartransformationen bei Normalverteilung • Falls X ∼ N(μ, σ2 )-verteilt ist, so ist die linear transformierte Variable Z = a + bX mit b ≠ 0 ebenfalls normalverteilt mit E(Z) = a + bμ

und

Var(Z) = b 2 σ2 .

Hierbei sei bemerkt, dass die Resultate für Erwartungswert und Varianz bereits aus den Transformationseigenschaften für Erwartungswerte und Varianzen folgen (Abschnitt 7.2.3). Das Neue an diesem Resultat ist, dass Z ebenfalls normalverteilt ist. Um dies zu zeigen, verwenden wir die gleiche Technik, die wir bereits in Abschnitt 7.1.3 verwendet haben und setzen an der Verteilungsfunktion F Z von Z an. Demnach gilt: F Z (z) = P(Z ≤ z) = P(a + bX ≤ z). Bezeichnet man die Verteilungsfunktion von X mit F X erhält man entsprechend dem Vorzeichen von b z−a z−a (7.3.12) F Z (z) = P(a + bX ≤ z) = P(X ≤ ) = FX ( ) b b für b > 0 und F Z (z) = P(a + bX ≤ z) = P(X ≥

z−a z−a ) = 1 − FX ( ) b b

(7.3.13)

7.3 Spezielle eindimensionale Verteilungen | 405

für b < 0. Die Dichten von Z und X, die wir mit f Z bzw. f X notieren, ergeben sich aus den 1. Ableitungen von F Z bzw. F X . Über gewöhnliche Regeln der Differentialrechnung (Kettenregel) erhält man deshalb aus (7.3.12) und (7.3.13) 1 1[ 1 z−a 1 exp(− fX ( )= |b| b 2 √b2 √2πσ2 1 1 [z − (a + bμ)]2 = exp(− ). 2 b2 σ2 √2πb2 σ2

f Z (z) = F 󸀠Z (z) =

z−a b

− μ]2

σ2

)

Der letzte Ausdruck ist gemäß (7.3.10) aber gerade als Dichtefunktion einer Normalverteilung mit Erwartungswert a + bμ und Varianz b2 σ2 interpretierbar. Satz 7.3.1: Lineartransformation bei Normalverteilung Falls X ∼ N(μ, σ2 )-verteilt ist, so gilt für b ≠ 0: Z = a + bX ∼ N(a + bμ, b2 σ2 ).

• Standardisierung bei Normalverteilung • Wie wir bereits aus der Diskussion wichtiger Transformationseigenschaften aus Abschnitt 7.2.3 wissen, ist jede Standardisierung eine spezielle Lineartransformation und jede standardisierte Zufallsvariable besitzt Erwartungswert 0 und Varianz 1. Dies wird aus der Umformung Z=

μ 1 X−μ =− + X σ σ σ

ersichtlich. Für 1 μ und b = σ σ folgt nun aus dem Resultat von Satz 7.3.1, dass jede standardisierte normalverteilte Zufallsvariable N(0, 1)-verteilt ist. a=−

Standardisierung bei Normalverteilung Ist X ∼ N(μ, σ2 )-verteilt ist, so ist die standardisierte Größe X−μ σ standardnormalverteilt, d.h. N(0, 1)-verteilt. Z=

406 | 7 Theoretische Verteilungen und Abhängigkeiten • Verteilungsfunktion • Die Verteilungsfunktion F X einer N(μ, σ2 )-verteilten Zufallsvariable X mit Dichte f X ist streng monoton und ergibt sich formal aus x

x

F X (x) = ∫ f X (t)dt = ∫ −∞

−∞

1 √2πσ2

exp(−

1 (t − μ)2 )dt. 2 σ2

(7.3.14)

Die Verteilungsfunktion der Standardnormalverteilung wird eigens häufig mit dem griechischen Großbuchstaben Φ (lies: Groß-Phi) notiert. Für X ∼ N(0, 1) gilt demnach: x

Φ(x) = ∫ −∞

1 1 exp(− t2 )dt. 2 √2π

(7.3.15)

Die Ausdrücke (7.3.14) und (7.3.15) lassen sich nicht einfacher analytisch darstellen. Die Integration über die Dichte einer Normalverteilung erfolgt deshalb numerisch, weshalb letztlich auch nur auf Vertafelungen der Verteilungsfunktion zurückgegriffen werden kann. Es genügt jedoch eine Vertafelung nur für die Standardnormalverteilung, wie sie beispielsweise Tabelle A.1 im Anhang zeigt. Denn mithilfe der vorhergehenden Eigenschaften der Normalverteilung bei Lineartransformationen bzw. Standardisierungen lässt sich aus Φ die Verteilungsfunktion für jede beliebige N(μ, σ2 )verteilten Zufallsvariable X herleiten. Es gilt nämlich: X−μ x−μ ≤ (7.3.16) ). σ σ Da die standardisierte Größe auf der linken Seite der Ungleichung in (7.3.16) standardnormalverteilt ist, folgt aus (7.3.16) mit der Definition für Verteilungsfunktionen direkt x−μ (7.3.17) F X (x) = Φ( ). σ Die Verteilungsfunktion von X an der Stelle x ist gleich der Verteilungsfunktion der Standardnormalverteilung an der Stelle (x − μ)/σ. Diese Eigenschaft wird allgemein zur „händischen Bestimmung“ aller Intervallwahrscheinlichkeiten bei Normalverteilungen ausgenutzt (siehe dazu die späteren Rechenbeispiele). P(X ≤ x) = P(

• Theoretische Quantile • Auch bei der Bestimmung der theoretischen Quantile genügt die Vertafelung der Standardnormalverteilung. Betrachten wir dazu eine N(μ, σ2 )-verteilte Zufallsvariable X. Dann gilt für das theoretische α-Quantil, notiert mit q α , gemäß Definition: P(X ≤ q α ) = α.

(7.3.18)

Formt man die Ungleichung innerhalb von (7.3.18) gemäß einer Standardisierung äquivalent um, erhält man P(

X − μ qα − μ ≤ ) = α. σ σ

(7.3.19)

7.3 Spezielle eindimensionale Verteilungen | 407

Da der Ausdruck auf der linken Seite der Ungleichung von (7.3.19) standardnormalverteilt ist, folgt mit der Definition für Verteilungsfunktionen qα − μ Φ( (7.3.20) ) = α. σ Mit der Definition der theoretischen Quantile folgt daraus wiederum, dass qα − μ σ gerade dem α-Quantil der N(0, 1)-Verteilung entspricht. Notiert man dieses mit z α , erhält man qα − μ . (7.3.21) zα = σ Durch Standardisierung der Quantile einer (beliebigen) Normalverteilung erhält man die entsprechenden Quantile der Standardnormalverteilung. Umgeformt erhält man daraus dann qα = μ + σ ⋅ zα .

(7.3.22)

Mithilfe von Gleichung (7.3.22) lassen sich aus der Vertafelung der Standardnormalverteilung Quantile für jede andere Normalverteilung ermitteln (siehe spätere Rechenbeispiele). • Zusammenfassung für die Normalverteilung • Fassen wir die wichtigsten Ergebnisse für die Normalverteilung nun zusammen. Zusammenfassung für die Normalverteilung Eine stetige Zufallsvariable X heißt normalverteilt mit Erwartungswert μ und Varianz σ2 > 0, kurz X ∼ N(μ, σ2 ), wenn sie die Dichte f X (x) =

1 √2πσ2

exp(−

1 (x − μ)2 ) 2 σ2

besitzt. Speziell heißt die N(0, 1)-Verteilung auch Standardnormalverteilung. Mit φ bezeichnen wir die Dichte der Standardnormalverteilung. Für die Verteilungsfunktion F X einer N(μ, σ2 )-verteilten Zufallsvariable X gilt: x−μ F X (x) = Φ( ). σ wobei Φ die Verteilungsfunktion der N(0, 1)-Verteilung bezeichnet, deren Werte aus Verteilungstafeln (vgl. A.1) abgelesen werden können. Außerdem gilt: qα = μ + σ ⋅ zα , wobei q α das theoretische α-Quantil einer N(μ, σ2 )-Verteilung und z α das theoretische α-Quantil der N(0, 1)-Verteilung bezeichnet.

408 | 7 Theoretische Verteilungen und Abhängigkeiten

• Vertafelung der Standardnormalverteilung • Tabelle A.1 im Anhang zeigt eine Vertafelung der Verteilungsfunktion der Standardnormalverteilung. Viele statistische Methoden setzen einen sachgerechten Umgang mit einer solchen Tabelle voraus, insbesondere falls bestimmte Berechnungen nicht ausschließlich softwaregestützt durchgeführt werden sollen (z.B. in Statistik-Übungen und Statistik-Klausuren). φ(x )

Φ(x )

0.5

1−α

0.4

1.0 0.8

0.3

0.6

0.2

0.4

0.1

α

0.0 −4

−3

−2

α −1

0

z α = − z 1−α

1

α 2

3

z 1−α

4

nicht vertafelt

vertafelt

0.2 0.0 −4

−3

−2

−1



x

0

1

2

z 1−α

3

4

x

Abb. 7.3.12: Dichte, Verteilungsfunktion und Quantile der Standardnormalverteilung

Für die Dichte φ(x) gilt aufgrund der Symmetrie um den Wert 0: φ(−x) = φ(x)

für jedes x ∈ ℝ.

Aus diesem Grund folgt für die Verteilungsfunktion Φ(−x) = 1 − Φ(x).

(7.3.23)

Eine Vertafelung für lediglich positive Werte reicht wegen der Beziehung (7.3.23) somit aus. Für die theoretischen Quantile, die mit z α notiert werden, folgt aufgrund der Symmetrieeigenschaft außerdem: z α = −z1−α

für α ∈ (0, 0.5).

(7.3.24)

• Zur Lesart der Tabelle • In Tabelle A.1 sind die x-Werte in der ersten Spalte der Tabelle (fett) bis zur ersten Nachkommastelle aufgeführt. In der ersten Zeile der Tabelle (fett) wird dann die zweite Nachkommastelle abgelesen. Beispielsweise ist der Wert der Verteilungsfunktion an der Stelle 1.75 gleich 0.9599, d.h. Φ(1.75) ≈ 0.9599. Für eine N(0, 1)-verteilte Zufallsvariable X gilt also P(X ≤ 1.75) ≈ 0.9599. Außerdem gilt P(X ≤ −1.75) = Φ(−1.75) = 1 − Φ(1.75) ≈ 1 − 0.9599 = 0.0401. Der Wert −1.75 wird mit etwa 4% Wahrscheinlichkeit unterschritten. Dies ist zugleich die Wahrscheinlichkeit, mit der +1.75 überschritten wird.

7.3 Spezielle eindimensionale Verteilungen | 409

Die theoretischen Quantile können durch „Rückwärtslesen“ der Tabelle ermittelt werden. So ist beispielsweise das 0.975-Quantil gegeben durch 1.96, d.h. z0.975 ≈ 1.96. Da der Wert 0.80 als Wahrscheinlichkeitswert in der Tabelle nicht direkt ablesbar ist, nehmen wir zur Ermittlung des 0.80-Quantils den zu 0.80 nächsten Wert in der Tabelle. Dies ist der Wert 0.7995. Somit gilt also: z0.80 ≈ 0.84. Unter Verwendung der Beziehung (7.3.24) gilt dann außerdem beispielsweise: z0.25 = −z0.75 ≈ −0.67. Mit 25%iger Wahrscheinlichkeit wird also der Wert −0.67 unterschritten und der Wert +0.67 überschritten. • Beispiel 7.3.6 • Angenommen X sei N(1, 4)-verteilt. Wie würde man dann beispielsweise die Wahrscheinlichkeit für die Ereignisse X < 0 oder 0 < X < 1 berechnen? Und wie lauten beispielsweise das 5%- bzw. 95%-Quantil dieser Verteilung? Zur Bestimmung von Intervallwahrscheinlichkeiten nutzt man den „Standardisierungstrick“ gemäß Gleichung (7.3.16) bzw. (7.3.17). So lautet die Rechnung für P(X < 0) dann P(X < 0) = P(X ≤ 0) = P(

0−1 X−1 0−1 ≤ ) = Φ( ) = Φ(−0.5). √4 √4 √4

Man beachte, dass die erste Gleichung aufgrund der Stetigkeit der Verteilung gilt. Im Zusammenhang der Normalverteilung spielt es bei Ungleichungen keine Rolle, ob das Gleichzeichen noch mit eingeschlossen wird oder nicht, da Wahrscheinlichkeiten für spezifische Realisationen ohnehin gleich 0 sind. Unter Ausnutzung von Gleichung (7.3.23) erhält man dann Φ(−0.5) = 1 − Φ(0.5) ≈ 1 − 0.6915 = 0.3085. Dabei wird der Wert der Verteilungsfunktion an der Stelle 0.5 Tabelle A.1 entnommen. Insgesamt lautet das Ergebnis somit P(X < 0) ≈ 0.3085. Im Falle von P(0 < X < 1) lautet die Rechnung zunächst P(0 < X < 1) = P(0 < X ≤ 1) = P(X ≤ 1) − P(X ≤ 0). Die letzte Gleichung versteht man am besten, wenn man sich das korrespondierende Integrationsproblem anhand des Flächenkalküls vorstellt. Demnach entspricht die zu bestimmende Wahrscheinlichkeit dem Integral der Dichte über dem Intervall (0, 1), also der Fläche zwischen 0 und 1. Diese Fläche ist gleich der Fläche von −∞ bis zum Wert 1 abzüglich der Fläche von −∞ bis zum Wert 0. Weiter erhält man P(X ≤ 1) − P(X ≤ 0) = P(

X−1 0−1 X−1 1−1 ≤ ≤ ) − P( ) 2 2 2 2

410 | 7 Theoretische Verteilungen und Abhängigkeiten = Φ(0) − Φ(−0.5) ≈ 0.5 − 0.3085 = 0.1915. Insgesamt lautet das Ergebnis somit P(0 < X < 1) ≈ 0.1915. Zur Bestimmung theoretischer Quantile lassen sich die Gleichungen (7.3.22) und (7.3.24) nutzen. Sei q0.95 das 0.95-Quantil der N(1, 4)-Verteilung. Dann folgt gemäß (7.3.22) zunächst q0.95 = μ + σz0.95 = 1 + 2z0.95 . Man beachte, dass hier die Standardabweichung σ = 2 zu verwenden ist und nicht etwa die Varianz, die in diesem Fall σ2 = 4 wäre. Das 0.95-Quantil der Standardnormalverteilung z0.95 wird Tabelle A.1 durch Rückwärtslesen entnommen. Dabei stellt man fest, dass mit den beiden Wahrscheinlichkeiten 0.9495 und 0.9505 korrespondierend zu den x-Werten 1.64 bzw. 1.65 zwei Werte gleich weit vom gesuchten Wert 0.95 entfernt liegen. Tatsächlich liegt der Wert 1.64 näher. Ansonsten wären solche Fälle per Konvention zu regeln. Weiter folgt dann q0.95 = 1 + 2z0.95 ≈ 1 + 2 ⋅ 1.64 = 4.28. Da aufgrund der Symmetrieeigenschaft (7.3.24) z0.05 = −z0.95 ≈ −1.64 gilt, erhält man das 0.05-Quantil schließlich als q0.05 = 1 + 2z0.05 ≈ 1 − 2 ⋅ 1.64 = −2.28. Somit liegen 0.05-Quantil und 0.95-Quantil symmetrisch um den Erwartungswert 1, wie es im Falle einer symmetrischen Verteilung auch zu erwarten ist. • Theoretische Schwankungsintervalle • Die auf empirischen Schwankungsintervallen beruhende Interpretation der empirischen Standardabweichung (Abschnitt 4.4.4) stützt sich auf ein theoretisches Pendant im Kontext einer Normalverteilung. Betrachten wir dazu eine N(μ, σ2 )-verteilte Zufallsvariable X. Dann folgt für ein Ereignis der Form μ − 2σ ≤ X ≤ μ + 2σ gemäß des zuvor beschriebenen Rechenkalküls: X−μ ≤ 2) σ = Φ(2) − Φ(−2) = Φ(2) − (1 − Φ(2))

P(μ − 2σ ≤ X ≤ μ + 2σ) = P(−2 ≤

= 2Φ(2) − 1 ≈ 2 ⋅ 0.9772 − 1 = 0.9545. Auf analoge Weise erhält man P(μ − σ ≤ X ≤ μ + σ) ≈ 0.6827, P(μ − 3σ ≤ X ≤ μ + 3σ) ≈ 0.9973 usw.

7.4 Verteilung stochastischer Summen und Mittelwerte | 411

Auf diese Weise erhält man Wahrscheinlichkeitsaussagen in Bezug auf theoretische Schwankungsintervalle der Form μ − kσ ≤ X ≤ μ + kσ

für k = 1, 2, . . .

Die hierbei insbesondere für k = 1, 2 und 3 ermittelten Wahrscheinlichkeiten werden häufig als Art Daumenregel bei der Interpretation empirischer Standardabweichungen verwendet. Demgemäß sollten beispielsweise innerhalb von zwei Standardabweichungen um den Mittelwert herum ca. 95% aller Beobachtungswerte liegen. Im Falle normalverteilter Daten wäre dies mit der korrespondierenden theoretischen Einfallswahrscheinlichkeit konsistent. f X (x )

99.73% 95.45% 68.27% − 3σ

− 2σ

−σ



+ 2σ

+ 3σ

μ

x

Abb. 7.3.13: Normalverteilung und theoretische Schwankungsintervalle

7.4 Verteilung stochastischer Summen und Mittelwerte

Summen und Mittelwerte aus Zufallsvariablen bezeichnen wir als stochastische Summen bzw. stochastische Mittelwerte. Im Kontext von Stichproben heißen diese später auch Stichprobensummen bzw. Stichprobenmittel (vgl. Abschnitt 9.3). Deren theoretische Verteilung ist in der Wahrscheinlichkeitsrechnung und Statistik häufig von besonderem Interesse, da viele induktive Verfahren auf ihnen basieren. Dabei können bestimmte Aussagen in Bezug auf die Verteilungen entweder exakt sein oder nur für großes n approximativ gültig sein. In letzterem Fall nehmen das Gesetz der großen Zahlen (GGZ) und der zentrale Grenzwertsatz (ZGWS) eine wichtige Rolle ein.

7.4.1 Exakte Aussagen Erwartungswerte und Varianzen • Grundrahmen und benötigte Resultate • Im Folgenden betrachten wir n Zufallsvariablen X1 , . . . , X n mit jeweils endlichen Erwartungswerten und Varianzen, die wir

412 | 7 Theoretische Verteilungen und Abhängigkeiten

mit μ1 , . . . , μ n

bzw.

σ21 , . . . , σ2n

notieren. Dazu definieren wir folgende stochastische bzw. theoretische Statistiken: n

Sn = ∑ Xi , i=1

Xn =

1 n ∑ Xi , n i=1

μn =

1 n ∑ μi n i=1

und

σ2n =

1 n 2 ∑σ . n i=1 i

Wie bereits in Abschnitt 7.2.1 ausgeführt, ist der Erwartungswertoperator linear. Es gilt stets: E(c0 + c1 X1 + c2 X2 + ⋅ ⋅ ⋅ + c n X n ) = c0 + c1 E(X1 ) + c2 E(X2 ) + ⋅ ⋅ ⋅ + c n E(X n )

(7.4.1)

für beliebige Konstanten c0 , c1 , . . . , c n . Für die Varianz gilt für jede Konstante c: Var(cX) = c2 Var(X).

(7.4.2)

Weiter gilt unter Verwendung der Definitionen für Varianz und Kovarianz für jede Zufallsvariable X mit Erwartungswert μ und Varianz σ2 : Cov(X, X) = E[(X − μ)(X − μ)] = E[(X − μ)2 ] = Var(X).

(7.4.3)

Die Kovarianz einer Zufallsvariable X „mit sich selbst“ ist also gleich der Varianz von X. Mithilfe von (7.4.1)–(7.4.3) lassen sich nun alle nachfolgenden Resultate herleiten. • Erwartungswerte stochastischer Summen • Wählen wir für die Konstanten in (7.4.1) c0 = 0, c1 = c2 = ⋅ ⋅ ⋅ = c n = 1, erhalten wir als Spezialfall die stochastische Summe: S n = X1 + X2 + ⋅ ⋅ ⋅ + X n . Für den betreffenden Erwartungswert folgt dann E(S n ) = E(X1 ) + E(X2 ) + ⋅ ⋅ ⋅ + E(X n ) = μ1 + μ2 + ⋅ ⋅ ⋅ + μ n oder mittels Summenoperator ausgedrückt: n

n

n

E( ∑ X i ) = ∑ E(X i ) = ∑ μ i . i=1

i=1

(7.4.4)

i=1

Der Erwartungswert der Summe ist stets gleich der Summe der einzelnen Erwartungswerte. Sind die Erwartungswerte identisch, d.h. gilt E(X1 ) = E(X2 ) = ⋅ ⋅ ⋅ = E(X n ) = μ, so folgt n

n

E( ∑ X i ) = ∑ μ i = nμ. i=1

(7.4.5)

i=1

Insbesondere gilt (7.4.5) natürlich, falls X1 , . . . , X n identisch verteilt sind. • Erwartungswerte stochastischer Mittelwerte • Wählen wir für die Konstanten in (7.4.1) c0 = 0, c1 = c2 = ⋅ ⋅ ⋅ = c n = 1/n, erhalten wir als Spezialfall den stochasti-

7.4 Verteilung stochastischer Summen und Mittelwerte | 413

schen Mittelwert (das stochastische Mittel) 1 1 1 1 1 n X1 + X2 + ⋅ ⋅ ⋅ + X n = (X1 + X2 + ⋅ ⋅ ⋅ + X n ) = ∑ X i = X n . n n n n n i=1 Für den betreffenden Erwartungswert folgt dann E(

1 n 1 n 1 n ∑ X i ) = ∑ E(X i ) = ∑ μ i n i=1 n i=1 n i=1

bzw. unter Verwendung entsprechender Symbole: E(X n ) = μ n .

(7.4.6)

Der Erwartungswert des stochastischen Mittels stimmt also mit dem Mittelwert der Erwartungswerte überein. Sind die Erwartungswerte identisch, erhält man E(X n ) =

1 n 1 ∑ μ i = nμ = μ. n i=1 n

(7.4.7)

Der Erwartungswert des stochastischen Mittels stimmt dann mit dem Erwartungswert jeder einzelnen Zufallsvariablen überein. Insbesondere gilt (7.4.7) bei identischer Verteilung. • Varianz stochastischer Summen • Aus (7.4.3) folgt insbesondere für die Summe zweier Zufallsvariablen: Var(X1 + X2 ) = Cov(X1 + X2 , X1 + X2 ). Unter Beachtung der Linearität des Erwartungswertoperators und E(X1 + X2 ) = μ1 + μ2 erhält man daraus dann gemäß der Definition für die theoretische Kovarianz bzw. Varianz Var(X1 + X2 ) = Cov(X1 + X2 , X1 + X2 ) = E[(X1 + X2 − μ1 − μ2 )(X1 + X2 − μ1 − μ2 )] = E[((X1 − μ1 ) + (X2 − μ2 ))((X1 − μ1 ) + (X2 − μ2 ))] = E[(X1 − μ1 )2 + (X2 − μ2 )2 + 2(X1 − μ1 )(X2 − μ2 )] = E[(X1 − μ1 )2 ] + E[(X2 − μ2 )2 ] + 2E[(X1 − μ1 )(X2 − μ2 )] = Var(X1 ) + Var(X2 ) + 2Cov(X1 , X2 ). Auf analoge Weise erhält man für drei Zufallsvariablen: Var(X1 + X2 + X3 ) = Var(X1 ) + Var(X2 ) + Var(X3 ) + 2Cov(X1 , X2 ) + 2Cov(X1 , X3 ) + 2Cov(X2 , X3 ).

414 | 7 Theoretische Verteilungen und Abhängigkeiten

Die Varianz der Summe ist gleich der Summe der einzelnen Varianzen plus dem zweifachen der Summe aller wechselseitigen Kovarianzen Cov(X i , X j ) mit i ≠ j. Wegen (7.4.3) und der Symmetrie des Kovarianzoperators ließe sich dies auch schreiben als Var(X1 + X2 + X3 ) = Cov(X1 , X1 ) + Cov(X2 , X2 ) + Cov(X3 , X3 ) + Cov(X1 , X2 ) + Cov(X2 , X1 ) + Cov(X1 , X3 ) + Cov(X3 , X1 ) + Cov(X2 , X3 ) 3

3

+ Cov(X3 , X2 ) = ∑ ∑ Cov(X i , X j ). i=1 j=1

Die Verallgemeinerung auf n Zufallsvariablen liegt auf der Hand. Es gilt: n

n

n

Var( ∑ X i ) = ∑ ∑ Cov(X i , X j ). i=1

(7.4.8)

i=1 j=1

Die Varianz der Summe ist gleich der Summe aller Elemente der theoretischen Kovarianzmatrix (Abschnitt 8.3.2) des korrespondierenden Zufallsvektors X = (X1 , X2 , . . . , X n )T . Sind die Zufallsvariablen unkorreliert, d.h. gilt Cov(X i , X j ) = 0

für i ≠ j,

so folgt n

n

n

Var( ∑ X i ) = ∑ Var(X i ) = ∑ σ2i . i=1

i=1

(7.4.9)

i=1

Die Varianz der Summe ist dann gleich der Summe der einzelnen Varianzen. Insbesondere folgt (7.4.9) bei stochastischer Unabhängigkeit. Gilt außerdem noch Var(X1 ) = Var(X2 ) = ⋅ ⋅ ⋅ = Var(X n ) = σ2 , so vereinfacht sich (7.4.9) schließlich noch zu n

n

Var( ∑ X i ) = ∑ σ2i = nσ2 . i=1

(7.4.10)

i=1

Insbesondere folgt (7.4.10), falls X1 , . . . , X n unabhängig und identisch verteilt (u.i.v.) sind. • Varianz stochastischer Mittel • Aus (7.4.2) und (7.4.8) folgt unmittelbar Var(

1 n n 1 n ∑ X i ) = 2 ∑ ∑ Cov(X i , X j ). n i=1 n i=1 j=1

Sind X1 , . . . , X n unkorreliert, so folgt mit (7.4.9) Var(

1 n 1 n ∑ X i ) = 2 ∑ σ2i n i=1 n i=1

(7.4.11)

7.4 Verteilung stochastischer Summen und Mittelwerte | 415

bzw. unter Verwendung entsprechender Symbole: Var(X n ) =

σ2n . n

(7.4.12)

Bei identischen Varianzen, σ2 = σ2i , gilt dann schließlich Var(

1 n 1 σ2 1 n ∑ X i ) = 2 ∑ Var(X i ) = 2 nσ2 = n i=1 n n i=1 n

bzw. unter Verwendung entsprechender Symbole: σ2 . (7.4.13) n Das letzte Resultat gilt insbesondere, falls X1 , . . . , X n unabhängig und identisch verteilt sind. Var(X n ) =

• Zusammenfassung • Die vorhergehenden Resultate werden in Wahrscheinlichkeitsrechnung und Statistik sehr häufig benötigt. Sie seien deshalb nochmals zusammengefasst. Erwartungswerte und Varianzen von Summen und Mittelwerten Für n Zufallsvariablen X1 , . . . , X n mit E(X i ) = μ i und Var(X i ) = σ2i für i = 1, . . . , n gelten folgende Aussagen allgemein bzw. bei Vorliegen von identischen Erwartungswerten bzw. Varianzen: n

E(S n ) = ∑ μ i

E(S n ) = nμ,

bzw.

(7.4.14)

i=1

E(X n ) = μ n n

bzw.

E(X n ) = μ,

(7.4.15)

n

Var(S n ) = ∑ ∑ Cov(X i , X j ),

(7.4.16)

i=1 j=1

d.h. speziell für n = 2: Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2Cov(X1 , X2 ). Sind X1 , . . . , X n paarweise unkorreliert, so gilt: n

Var(S n ) = ∑ σ2i Var(X n ) =

i=1 σ2n /n

bzw.

Var(S n ) = nσ2 ,

(7.4.17)

bzw.

Var(X n ) = σ2 /n.

(7.4.18)

Insbesondere gelten die letzten Resultate in (7.4.14), (7.4.15), (7.4.17) und (7.4.18), falls X1 , . . . , X n unabhängig und identisch verteilt (u.i.v.) sind.

416 | 7 Theoretische Verteilungen und Abhängigkeiten

Verteilungen unter bestimmten Ausgangsverteilungen • Allgemeines • Die exakte und vollständige Bestimmung der Verteilung einer Summe oder eines Mittelwertes ist nur unter bestimmten Verteilungsannahmen noch relativ einfach zu bewerkstelligen. Orientierung hierzu bieten zunächst einmal die in Abschnitt 7.1.3 vorgestellten Methoden, mit denen sich Verteilungen von Funktionen aus mehreren Zufallsvariablen, in diesem Fall also einer Summe bzw. eines Mittelwertes, bestimmen lassen. Besonders einfach wird die Bestimmung immer dann, wenn die Summe innerhalb der gleichen Verteilungsfamilie bleibt, wie es etwa bei der Binomialverteilung der Fall ist. Ansonsten gestaltet sich die Herleitung wie etwa im Falle einer Gleichverteilung entsprechend aufwändiger. Sind Wahrscheinlichkeits- bzw. Dichtefunktion einer Summe S n bekannt, so ist es dann relativ einfach, diese für den entsprechenden Mittelwert herzuleiten, da sich dieser lediglich aus einer Umskalierung der Form X n = S n /n ergibt. Bei einer diskreten Verteilung mit Trägerpunkten a1 , a2 , . . . , a k , . . . lauten die Trägerpunkte des Mittelwertes dann a1 /n, a2 /n, . . . , a k /n bei unveränderten Eintrittswahrscheinlichkeiten. Besitzt S n eine stetige Verteilung mit Dichte f S n , so lautet die Dichte von X n f X n (x) = nf S n (nx).

(7.4.19)

Dies ergibt sich wiederum mit der in Abschnitt 7.1.3 beschriebenen Methode unter Verwendung der korrespondierenden Verteilungsfunktionen F S n bzw. F X n . Demnach gilt: Sn (7.4.20) ≤ x) = P(S n ≤ nx) = F S n (nx). n Die 1. Ableitung von (7.4.20) führt unter Verwendung der Kettenregel zu (7.4.19). Im Folgenden werden für einige Ausgangsverteilungen die exakten Verteilungen von Summen und Mittelwerten präsentiert. Dabei gehen wir, soweit nicht anderslautend, stets von n unabhängigen und identisch verteilten Zufallsvariablen aus. F X n (x) = P(

• Diskrete und stetige Gleichverteilung • Abbildung 7.4.1 zeigt im linken Schaubild eine diskrete Gleichverteilung mit der Trägermenge 1, 2, . . . , 6 (Würfelwurf). In der Mitte ist in schwarz die Summe zweier unabhängiger Zufallsvariablen X1 und X2 aus einer solchen Verteilung dargestellt. Diese wurde in Abschnitt 7.1.3 hergeleitet. Offensichtlich ist die Summe diskret gleichverteilter Zufallsvariablen selbst nicht mehr gleichverteilt. Grau angedeutet ist die Verteilung des korrespondierenden Mittelwertes. Im rechten Schaubild sind analog die Verteilungen von Summe und Mittelwert für n = 3 abgebildet. Die Trägerpunkte der Verteilung des Mittelwertes lauten {1, 1.5, 2, 2.5, . . . , 6} für n = 2 bzw. {1, 4/3, 5/3, 2, 7/3, . . . , 6} für n = 3. Erwartungswert und Varianz der Ausgansverteilung sind gegeben durch 3.5 und 2.92. Gemäß (7.4.14) und (7.4.17) sind diese im Falle der Summen entsprechend 2 Mal bzw. 3 Mal so

7.4 Verteilung stochastischer Summen und Mittelwerte | 417

groß. Der Erwartungswert des Mittelwerts ist gemäß (7.4.15) stets 3.5, während die Varianzen der Mittelwerte gemäß (7.4.18) mit 2.92/2 bzw. 2.92/3 entsprechend kleiner werden. Bildlich gesprochen zieht sich mit wachsendem n die Verteilung des Mittelwertes deshalb über dem Erwartungswert 3.5 zusammen.

0.20

Ausgangsverteilung

n=2

0.20

S2

X2

0.15

0.15

0.10

0.10

0.10

0.05

0.05

0.05

0.00

0.15

0.00 0

6

12

18

n=3

0.20

S3

X3

0.00 0

6

12

18

0

6

12

18

Abb. 7.4.1: Verteilung von Summe und Mittelwert bei einer diskreten Gleichverteilung

2.5

Ausgangsverteilung

2.0

2.0

1.5

1.5

1.0

1.0

0.5

0.5

0.0

0.0 0

1

2

3

n=2

2.5

2.5

X2

2.0

n=3 X3

1.5

S2

S3

1.0 0.5 0.0

0

1

2

3

0

1

2

3

Abb. 7.4.2: Verteilung von Summe und Mittelwert bei einer stetigen Gleichverteilung

Abbildung 7.4.2 zeigt im linken Schaubild eine stetige Gleichverteilung über dem Intervall [0, 1]. In der Mitte ist in schwarz die Dichte von S2 = X1 + X2 dargestellt, wobei X1 und X2 unabhängig und über [0, 1] stetig gleichverteilt sind. Wie bereits in Abschnitt 7.1.3 erwähnt, lässt sich unter Verwendung sog. Faltungssätze zeigen, dass diese Summe dreiecksverteilt ist mit Dichte f S2 (s) = sI[0,1] (s) + (2 − s)I(1,2] (s). Wie zu erwarten sind Summen selbst nicht mehr gleichverteilt. Grau angedeutet ist die Dichte des korrespondierenden Mittelwertes. Sie lautet: f X2 (x) = 4xI[0,0.5] (x) + (4 − 4x)I(0.5,1] (x).

418 | 7 Theoretische Verteilungen und Abhängigkeiten Analog sind im rechten Schaubild die Dichten für n = 3 dargestellt: f S3 (s) = 0.5s2 I[0,1] (s) + [0.75 − (s − 1.5)2 ]I(1,2] (s) + 0.5(s − 3)2 I[2,3] (s) bzw. f X3 (x) = 13.5x2 I[0,1/3] (x) + [2.25 − 27(x − 0.5)2 ]I(1/3,2/3] (x) + 13.5(x − 1)2 I[2/3,1] (x). Erwartungswert und Varianz der Ausgangsverteilung sind gegeben durch 0.5 und 1/12. Die Erwartungswerte und Varianzen der Summen und Mittelwerte verhalten sich analog wie im vorhergehenden Beispiel. Insbesondere zieht sich die Verteilung des Mittelwerts mit wachsendem n über dem Erwartungswert 0.5 zusammen. Die Trägermenge des Mittelwertes bleibt stets [0, 1], wobei die Wahrscheinlichkeitsdichte an der Stelle 0.5 für wachsendes n zunimmt. Ferner beachte man die Gültigkeit von (7.4.19). So erhält man die Dichte des Mittelwertes für n = 2 über f X2 (x) = 2f S2 (2x) = 2 ⋅ [2xI[0,1] (2x) + (2 − 2x)I(1,2] (2x)] = 4xI[0,0.5] (x) + (4 − 4x)I(0.5,1] (x). Die letzte Gleichung folgt insbesondere aufgrund der Äquivalenz von 0 ≤ 2x ≤ 1 und 0 ≤ x ≤ 0.5 bzw. 1 < 2x ≤ 2 und 0.5 < x ≤ 1. Analog erhält man die Dichte von X 3 aus der Dichte von S3 . • Binomialverteilung • Die der Binomialverteilung innewohnende Modellvorstellung einer Urne mit schwarzen und weißen Kugeln (vgl. Abschnitt 7.3.1), aus der mit Zurücklegen gezogen wird, legt es nahe, dass die Binomialverteilung auch bei Summenbildung erhalten bleibt. Sind X1 ∼ B(n1 , π) und X2 ∼ B(n2 , π) unabhängig, so gilt: X1 + X2 ∼ B(n1 + n2 , π). In informaler „Merkschreibweise“ ausgedrückt, gilt also: B(n1 , π) + B(n2 , π) = B(n1 + n2 , π). In der Modellvorstellung werden demnach in zwei Teilschritten erst n1 Kugeln gezogen und danach nochmals n2 Kugeln. Insgesamt werden damit n1 + n2 Kugeln mit Zurücklegen gezogen. Die Summe der schwarzen Kugeln entspricht damit natürlich auch der Summe der schwarzen Kugeln aus beiden Teilschritten. Äquivalent dazu kann die Begründung auch über den Zusammenhang zwischen Bernoulli-Verteilung und Binomialverteilung geführt werden. Danach lässt sich X1 als Summe von n1 unabhängigen B(1, π)-Variablen interpretieren und X2 als Summe von n2 unabhängigen B(1, π)Variablen. Dies impliziert entsprechende Eigenschaft für X1 + X2 . Entscheidend ist, dass bildlich immer aus der gleichen Urne gezogen wird, also der Parameter π (Anteil der schwarzen Kugeln) konstant bleibt. Abbildung 7.4.3 zeigt die Verteilung der Summe unabhängiger B(1, 0.4)-verteilter Zufallsvariablen für n = 5 bzw. n = 10 als B(5, 0.4)- bzw. B(10, 0.4)-Verteilung. Letztere Verteilung lässt sich wiederum auch als Summe zweier unabhängiger B(5, 0.4)verteilter Zufallsvariablen interpretieren. Grau sind die Verteilungen der korrespondierenden Mittelwerte (relativen Häufigkeiten) angedeutet. Mit wachsendem n kon-

7.4 Verteilung stochastischer Summen und Mittelwerte | 419

zentrieren sich diese stärker um den theoretischen Anteilswert 0.4. In Abbildung 7.1.18 (Abschnitt 7.1.3) finden sich für die Summe noch die Fälle für n = 2, 3 und 10. Abbildung 7.3.4 (Abschnitt 7.3.1) zeigt hingegen die Verteilung der Summe unabhängiger B(1, 0.1)-verteilter Zufallsvariablen für unterschiedliches n. Ausgangsverteilung 0.6

0.6

0.4

0.4

n =5 X5

S 5 ~ B (5, 0.4)

B (1, 0.4) 0.2

0.2

0.0 2

4

6

8

10

0.4

X 10 S 10 ~ B (10, 0.4)

0.2

0.0 0

n = 10

0.6

0.0 0

2

4

6

8

10

0

2

4

6

8

10

Abb. 7.4.3: Verteilung von Summe und Mittelwert bei einer Binomialverteilung

• Poisson-Verteilung • Sind X1 , . . . , X n unabhängig Po(λ)-verteilt, so gilt S n = X1 + ⋅ ⋅ ⋅ + X n ∼ Po(nλ), informal ausgedrückt also: Po(λ) + ⋅ ⋅ ⋅ + Po(λ) = Po(nλ). Auf einen formalen Nachweis wird verzichtet. Aufgrund des herstellbaren Bezugs zur Binomialverteilung erscheint das Resultat jedoch nicht überraschend. Abbildung 7.3.5 (Abschnitt 7.3.1) zeigt Poisson-Verteilungen für unterschiedliche Werte von λ, die sich als Verteilungen von Summen interpretieren lassen. So ließe sich etwa die Po(5)Verteilung als Verteilung der Summe von 5 unabhängigen Po(1)-verteilten Zufallsvariablen interpretieren. • Normalverteilung • Sind X1 ∼ N(μ1 , σ21 ) und X2 ∼ N(μ2 , σ22 ) unabhängig, so gilt: X1 + X2 ∼ N(μ1 + μ2 , σ21 + σ22 ), informal ausgedrückt also: N(μ1 , σ21 ) + N(μ2 , σ22 ) = N(μ1 + μ2 , σ21 + σ22 ). Auf einen formalen Nachweis hierzu wird verzichtet. Da gemäß Satz 7.3.1 bei Lineartransformationen der Form Y1 = c0 + c1 X1 und Y2 = c2 X2 für Y1 und Y2 folgen würde Y1 ∼ N(c0 + c1 μ1 , c21 σ21 )

und

Y2 ∼ N(c2 μ2 , c22 σ22 ),

420 | 7 Theoretische Verteilungen und Abhängigkeiten

erhält man mit obigem Resultat automatisch auch Y1 + Y2 = c0 + c1 X1 + c2 X2 ∼ N(c0 + c1 μ1 + c2 μ2 , c21 σ21 + c22 σ22 ). Induktiv erhält man daraus für n Zufallsvariablen die folgenden Resultate: Verteilung von Summen und Mittelwerten bei Normalverteilung Sind X1 , . . . , X n unabhängig mit X i ∼ N(μ i , σ2i ) für i = 1, . . . , n, dann gilt: c0 + c1 X1 + ⋅ ⋅ ⋅ + c n X n ∼ N(c0 + c1 μ1 + ⋅ ⋅ ⋅ + c n μ n , c21 σ21 + ⋅ ⋅ ⋅ + c2n σ2n ).

(7.4.21)

für beliebige Konstanten c0 , c1 , . . . , c n , wobei mindestens ein c i ≠ 0 für i > 0 sei. Speziell folgt daraus: n

n

S n ∼ N( ∑ μ i , ∑ σ2i ) i=1

bzw.

(7.4.22)

i=1

X n ∼ N(μ n , σ2n /n).

(7.4.23)

Sind X1 , . . . , X n unabhängig und identisch verteilt mit X i ∼ N(μ, σ2 ) gilt: S n ∼ N(nμ, nσ2 )

bzw.

(7.4.24)

2

X n ∼ N(μ, σ /n).

(7.4.25)

Die Bedingung „mindestens ein c i ≠ 0 für i > 0“ für (7.4.21) gewährleistet, dass nicht alle Zufallsvariablen mit 0 multipliziert werden. Dies würde sonst eine Einpunktverteilung in c0 erzeugen. Mit der Wahl von c0 = 0, c1 = c2 = ⋅ ⋅ ⋅ = c n = 1 bzw. c0 = 0, c1 = c2 = ⋅ ⋅ ⋅ = c n = 1/n erhält man aus (7.4.21) die Resultate (7.4.22)–(7.4.25). Abbildung 7.4.4 zeigt die Verteilung von Summe und Mittelwert unabhängiger N(1, 1)verteilter Zufallsvariablen für n = 2 und 3. Die Resultate (7.4.21)–(7.4.25) lassen sich für den Fall abhängiger Zufallsvariablen verallgemeinern, sofern diese multivariat normalverteilt sind (Abschnitt 8.3.3). Ausgangsverteilung 0.8

0.6

0.6

N (1, 1)

0.4

n =3

n =2

0.8

0.8

X 2 ~ N (1, 0.5) S 2 ~ N (2, 2)

0.4

0.2

0.4

0.2

0.0 0

2

4

6

S 3 ~ N (3, 3)

0.2

0.0 −2

X 3 ~ N (1, 0.33)

0.6

0.0 −2

0

2

4

6

−2

Abb. 7.4.4: Verteilung von Summe und Mittelwert bei einer Normalverteilung

0

2

4

6

7.4 Verteilung stochastischer Summen und Mittelwerte | 421

• Exponentialverteilung und Erlangverteilung • Die Summe S n unabhängig, identisch exponentialverteilter Zufallsvariablen führt zur Erlangverteilung (vgl. Abschnitt 8.1.2) mit Dichtefunktion f S n (s) =

λn s n−1 e−λs I[0,∞) (s). (n − 1)!

(7.4.26)

Die Trägermenge ist wie bei der Exponentialverteilung ℝ+ = [0, ∞). Die stetige Verteilung wird durch zwei Parameter n ∈ ℕ und λ > 0 bestimmt. Zur konkreten Spezifikation wird dann die Kurzschreibweise S n ∼ Erlang(n, λ) verwendet. Speziell ist jede Exp(λ)-Verteilung eine Erlang(1, λ)-Verteilung. Sind X1 , . . . , X n unabhängig Exp(λ)verteilt, so gilt: S n = X1 + ⋅ ⋅ ⋅ + X n ∼ Erlang(n, λ), oder informal ausgedrückt: Exp(λ) + ⋅ ⋅ ⋅ + Exp(λ) = Erlang(n, λ). Es ist wie bei der Poisson-Verteilung zu beachten, dass nur Zufallsvariablen mit jeweils gleichem Parameterwert λ addiert werden. Auf einen formalen Nachweis wird verzichtet. Abbildung 7.4.5 zeigt Erlangverteilungen für unterschiedliche Werte von n für λ = 1, Abbildung 7.4.6 ebensolche für λ = 2. Beispielsweise wäre die Summe von 3 unabhängigen Exp(2)-verteilten Zufallsvariablen Erlang(3, 2)-verteilt mit Dichte f S3 (s) =

23 −2s e I[0,∞) (s) = 4s2 e−2s I[0,∞) (s). 2!

Ausgangsverteilung 2.0

2.0

1.5

1.5

Exp (1)

1.0

1.0

0.5

n =2

0.0

1.5

X 2 ~ Erlang (2, 2)

1.0

S 2 ~ Erlang (2, 1)

0.5 0.0 0

1

2

3

4

5

6

n =3

2.0

X 3 ~ Erlang (3, 3) S 3 ~ Erlang (3, 1)

0.5 0.0

0

1

2

3

4

5

6

0

1

2

3

4

5

6

Abb. 7.4.5: Verteilung von Summe und Mittelwert bei einer Exp(1)-Verteilung

Mit (7.4.19) erhält man aus (7.4.26) allgemein für die Dichte des Mittelwertes f X n (x) =

(nλ)n n−1 −nλx I[0,∞) (x). x e (n − 1)!

Dies ist aber gerade die Dichte einer Erlang(n, nλ)-Verteilung. Somit wäre also beispielsweise der Mittelwert aus 3 unabhängigen Exp(2)-verteilten Zufallsvariablen

422 | 7 Theoretische Verteilungen und Abhängigkeiten

Erlang(3, 6)-verteilt. Die betreffenden Dichtefunktionen sind grau eingezeichnet. Man beachte, dass der Erwartungswert einer Exp(λ)-verteilten Zufallsvariable gerade 1/λ ist. Im vorliegenden Fall zieht sich die Verteilung des Mittelwerts also über dem Wert 1 bzw. 0.5 zusammen. Ausgangsverteilung 2.0

2.0

1.5

1.5

Exp (2)

1.0

n =2

2.0

X 2 ~ Erlang (2, 4)

1.5

1.0

0.5

1.0

S 2 ~ Erlang (2, 2)

0.5

0.0

0.0 0

1

2

3

4

5

6

n =3 X 3 ~ Erlang (3, 6) S 3 ~ Erlang (3, 2)

0.5 0.0

0

1

2

3

4

5

6

0

1

2

3

4

5

6

Abb. 7.4.6: Verteilung von Summe und Mittelwert bei einer Exp(2)-Verteilung

Weiter ergibt sich aus dem Zusammenhang von Exponentialverteilung und Erlangverteilung ein weiteres impliziertes Verteilungsresultat für n1 , n2 ∈ ℕ: Erlang(n1 , λ) + Erlang(n2 , λ) = Erlang(n1 + n2 , λ).

7.4.2 Asymptotische und approximative Aussagen Gesetz der großen Zahlen (GGZ) • Hintergrund • Sind X1 , . . . , X n unabhängig und identisch verteilt mit E(X i ) = μ und Var(X i ) = σ2 für i = 1, . . . , n, so gilt laut (7.4.15) und (7.4.18) für den Mittelwert E(X n ) = μ

und

Var(X n ) = σ2 /n.

Die Varianz des stochastischen Mittelwerts strebt für wachsendes n gegen 0. Damit zieht sich die Verteilung bildlich über dem Erwartungswert zusammen. In den Abbildungen 7.4.1–7.4.6 lässt sich dies unter verschiedenen Ausgangsverteilungen bereits einigermaßen gut beobachten. So sind mit wachsendem n die Realisationen des Mittelwerts immer näher um den Erwartungswert herum verteilt. Dieser Erwartungswert ist beispielsweise gegeben durch (i) 3.5 in Abbildung 7.4.1, (ii) 0.5 in Abbildung 7.4.2, (iii) 0.4 in Abbildung 7.4.3 usw.

7.4 Verteilung stochastischer Summen und Mittelwerte | 423

Diese Gesetzmäßigkeit wird formal durch das Gesetz der großen Zahlen beschrieben bzw. begründet. Dadurch erhält der Erwartungswert einer Verteilung letztlich auch seine Deutung. • Schwaches Gesetz der großen Zahlen • Eine für unabhängige und identisch verteilte Zufallsvariablen häufig verwendete Variante wird als schwaches GGZ bezeichnet und lautet wie folgt: Satz 7.4.1: Schwaches GGZ für u.i.v. Zufallsvariablen Seien X1 , . . . , X n unabhängig und identisch verteilte Zufallsvariablen mit E(X i ) = μ für i = 1, . . . , n. Dann gilt für jedes c > 0: n→∞

P(|X n − μ| ≤ c) 󳨀󳨀󳨀󳨀󳨀→ 1

bzw.

n→∞

P(|X n − μ| > c) 󳨀󳨀󳨀󳨀󳨀→ 0.

Man sagt, das (stochastische) Mittel konvergiert stochastisch (nach Wahrscheinlichkeit) gegen μ. Dafür schreibt man auch kurz p

X n 󳨀󳨀→ μ.

Es lässt sich zeigen, dass für die stochastische Konvergenz des Mittelwerts die Varianz der Ausgangsvariablen nicht zwingend endlich sein muss. Tatsächlich existieren zahlreiche Varianten des GGZ. Diese unterscheiden sich dahingehend, dass in Bezug auf die Ausgangsbedingungen unterschiedliche Annahmen gestellt werden können. Darüber hinaus existiert noch (wie zu vermuten) ein starkes Gesetz der großen Zahlen mit zahlreichen Varianten, das jedoch auf einer anderen Konvergenzart basiert (vgl. die Ergänzungen in Abschnitt 8.2.1) • Interpretation • Die Wahrscheinlichkeit einer Realisation von X n im Intervall [μ − c, μ + c] strebt (konvergiert) für wachsendes n gegen 1. Die Wahrscheinlichkeit für eine Realisation außerhalb dieses Intervalls konvergiert entsprechend gegen 0. Dies gilt für jeden beliebigen positiven Wert von c, insbesondere also auch (und das ist das Entscheidende) für jeden noch so kleinen Wert c > 0. Diese Art von Konvergenz wird als stochastische Konvergenz bezeichnet (vgl. hierzu Abschnitt 8.2.2). Betrachten wir hierzu ein Beispiel. Angenommen X1 , . . . , X n sind unabhängig N(0, 1)-verteilt. Dann gilt für n = 1, 4 und 10 gemäß (7.4.25): (i) X 1 ∼ N(0, 1),

(ii) X 4 ∼ N(0, 0.25),

(iii) X 10 ∼ N(0, 0.1).

Abbildung 7.4.7 zeigt die Verteilung des stochastischen Mittels für diese drei Fälle. Die Wahrscheinlichkeit einer Realisation im Intervall [−0.5, 0.5] wurde jeweils als grau

424 | 7 Theoretische Verteilungen und Abhängigkeiten

schattierte Fläche markiert. Dies sind also die Wahrscheinlichkeiten zu |X n − μ| ≤ c für μ = 0, c = 0.5 und n = 1, 4 bzw. 10. Für n = 1 berechnet sich die konkrete Wahrscheinlichkeit als P(|X n − 0| ≤ 0.5) = P(−0.5 ≤ X n ≤ 0.5) = P(X n ≤ 0.5) − P(X n ≤ −0.5) X n − 0 0.5 − 0 X n − 0 −0.5 − 0 − − ) − P( ) 1 1 1 1 = Φ(0.5) − Φ(−0.5) = 2Φ(0.5) − 1 ≈ 0.3829.

= P(

Analog erhält man für n = 4 und n = 10 die Wahrscheinlichkeiten 0.6827 bzw. 0.8862. Die theoretischen Wahrscheinlichkeiten konvergieren für wachsendes n also gegen 1. Für das kleinere Intervall [−0.1, 0.1] erhält man dagegen die Wahrscheinlichkeiten (i) 0.0797,

(ii) 0.1585 bzw.

(iii) 0.2482.

Die Wahrscheinlichkeiten sind nun kleiner. Jedoch konvergieren auch diese für wachsendes n in gleicher Weise gegen 1. Diese Betrachtungen lassen sich für beliebig kleine Intervalle um den Erwartungswert fortsetzen.

n =1

n = 10

n =4

1.5

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0 −2.0

−1.0

0.0

1.0

2.0

0.0 −2.0

−1.0

0.0

1.0

2.0

0.0 −2.0

−1.0

0.0

1.0

2.0

Abb. 7.4.7: Gesetz der großen Zahlen illustriert anhand eines Schwankungsintervalls

Abbildung 7.4.8 zeigt eine Simulation zu diesen theoretischen Überlegungen. Die Simulation wurde unter Zuhilfenahme des Statistikprogramms R und des R-Pakets „animation“ durchgeführt. Zu jedem n = 1, 2, . . . , 50 wurden jeweils 30 Stichproben aus einer N(0, 1)-Verteilung gezogen und die jeweiligen Realisationen des stochastischen Mittels berechnet. Für jedes n liegen also jeweils 30 Realisationen eines auf n Beobachtungen beruhenden Mittelwerts vor. Die schwarz gestrichelten Linien markieren das Intervall [−0.5, 0.5]. Wie man sieht, liegen mit wachsendem n zunehmend mehr Realisationen innerhalb dieses Intervalls. Das Schaubild verdeutlicht auch die Bedeutung der stochastischen Konvergenz. Zu jedem noch so großen n gibt es keine Garantie (100% Wahrscheinlichkeit) dafür, dass alle Realisationen innerhalb eines bestimmen Intervalls um den Erwartungswert liegen werden. Lediglich die Wahrscheinlichkeit

−2

−1

x

0

1

2

7.4 Verteilung stochastischer Summen und Mittelwerte | 425

0

10

n

20

30

40

50

Abb. 7.4.8: Gesetz der großen Zahlen illustriert anhand einer Simulation

hierfür nimmt mit wachsendem n zu. Bei der stochastischen Konvergenz konvergieren also nicht Realisationen, sondern Wahrscheinlichkeiten. • Satz von Bernoulli • Das GGZ liefert auch eine formale Begründung für den frequentistischen Deutungsansatz von Wahrscheinlichkeiten (vgl. Abschnitt 6.1.1). Betrachten wir dazu eine Zufallsvariable X, die das Ergebnis bei einem Würfelwurf angibt und das Ereignis „gerade Zahl“, d.h. A = {2, 4, 6}. Dazu definieren wir nun die Zufallsvariable Y = I A (X), welche den Wert 1 annimmt, falls X ∈ A ist und sonst den Wert 0. Dann gilt: P(Y = 1) = P(X ∈ A) = 0.5

und

P(Y = 0) = P(X ∈ ̸ A) = 0.5.

Folglich genügt Y einer B(1, π)-Verteilung mit π = 0.5. Somit gilt auch: E(Y) = π

und

Var(Y) = π(1 − π).

Für n unabhängige und wie X verteilte Zufallsvariablen X1 , . . . , X n , (für n Würfe) lassen sich entsprechend n unabhängige wie Y verteilte Zufallsvariablen Y1 , . . . , Y n definieren mit Y i = I A (X i )

für i = 1, . . . , n.

Nach dem GGZ folgt dann unmittelbar Yn =

p 1 n ∑ Y i 󳨀󳨀→ E(Y i ) = π = 0.5. n i=1

Da die Summe der Y i gerade der Anzahl der Einsen entspricht, ist der entsprechende Mittelwert gerade die (stochastische) relative Häufigkeit gerader Zahlen. Diese konvergiert folglich (wie zu erwarten) gegen 0.5. Dies lässt sich natürlich auf beliebige Ereignisse und Situationen verallgemeinern. Formal gefasst wird dies im Satz von Bernoulli.

426 | 7 Theoretische Verteilungen und Abhängigkeiten

Satz 7.4.2: Satz von Bernoulli Seien X1 , . . . , X n unabhängig und identisch verteilt und sei A ⊂ ℝ ein beliebiges (messbares) Ereignis. Definiere Y i = I A (X i )

für i = 1, . . . , n.

Dann sind Y1 , . . . , Y n unabhängig B(1, π)-verteilt mit π = P(X i ∈ A), und die (stochastische) relative Häufigkeit des Ereignisses A konvergiert stochastisch gegen die Wahrscheinlichkeit von A, d.h. p

Y n 󳨀󳨀→ P(A).

• Spezialfall: Hauptsatz der Statistik • Einen weiteren speziellen Fall stellt die Betrachtung eines Ereignisses A der Form A = (−∞, x]

mit x ∈ ℝ

dar. Betrachten wir dazu eine Zufallsvariable X mit Verteilungsfunktion F X . Es gilt dann P(X ∈ A) = F X (x). Die Wahrscheinlichkeit für das Ereignis A entspricht gerade dem Wert der Verteilungsfunktion an der Stelle x. Sind nun X1 , . . . , X n unabhängig und wie X verteilte Zufallsvariablen, so sind die Zufallsvariablen Y1 , . . . , Y n mit Y i = I(−∞,x) (X i )

für i = 1, . . . , n

unabhängig B(1, π)-verteilt mit π = F X (x). Mit dem Satz von Bernoulli folgt dann Yn =

p 1 n ∑ I(−∞,x] (X i ) 󳨀󳨀→ F(x). n i=1

Der relative Anteil der X i , welche kleiner oder gleich x sind, konvergiert stochastisch gegen die entsprechende Wahrscheinlichkeit. Ersteres ist aber gerade der Wert der stochastischen Verteilungsfunktion an der Stelle x. Letzteres ist der Wert der theoretischen Verteilungsfunktion an der Stelle x. Bezeichnet F n (x) die stochastische Verteilungsfunktion an der Stelle x, so folgt F n (x) =

p 1 n ∑ I(−∞,x] (X i ) 󳨀󳨀→ F(x). n i=1

(7.4.27)

Da (7.4.27) jedoch für jeden beliebigen Wert x gilt, folgt daraus (informal ausgedrückt): Die stochastische Verteilungsfunktion konvergiert gegen die theoretische.

7.4 Verteilung stochastischer Summen und Mittelwerte | 427

Mit wachsendem n wird sich die empirische Verteilung der theoretischen Verteilung annähern. Dieser Befund ist in einer etwas komplexeren Fassung als Hauptsatz der Statistik oder als Satz von Glivenko-Cantelli bekannt. Abbildung 7.4.9 illustriert dies anhand einer Simulation mit der Normalverteilung. Dabei wurden Zufallszahlen aus einer N(0, 1)-Verteilung gezogen. Das linke Schaubild zeigt das Ergebnis einer Stichprobe vom Umfang n = 20, das rechte Schaubild für n = 100. Zumindest links ist noch die Treppengestalt der empirischen Verteilungsfunktion gut zu erkennen. Die durchgezogene graue Linie stellt die theoretische Verteilungsfunktion der Standardnormalverteilung dar. Man sieht, dass die Abweichungen der empirischen von der theoretischen Verteilungsfunktion für n = 100 nur noch sehr klein sind. Je mehr Realisationen aus einer Verteilung vorliegen, desto genauer spiegelt die empirische Verteilung die zugrunde liegende theoretische Verteilung wider. Auf dieser fundamentalen und fast schon trivial erscheinenden Erkenntnis beruht im Grunde der gesamte statistische Methodenapparat. F n (x ) / F (x )

F n (x ) / F (x )

n = 20

1.0

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

n = 100

0.0 −4

−3

−2

−1

0

1

2

3

4

−4

−3

−2

−1

0

1

2

x

3

4

x

Abb. 7.4.9: Hauptsatz der Statistik illustriert anhand einer Simulation

Zentraler Grenzwertsatz (ZGWS) • Hintergrund • Der zentrale Grenzwertsatz ist neben dem Gesetz der großen Zahlen in Wahrscheinlichkeitstheorie und Statistik von herausragender („zentraler“) Bedeutung. Was besagt dieser Satz? Dazu einige Vorüberlegungen. Sind X1 , . . . , X n unabhängig und identisch normalverteilt mit E(X i ) = μ und Var(X i ) = σ2 für i = 1, . . . , n, so gilt gemäß (7.4.24) und (7.4.25) für die Verteilung von Summe und Mittelwert σ2 ). n Werden Summe und Mittelwert standardisiert, erhält man entsprechend S n ∼ N(nμ, nσ2 )

Zn =

und

X n ∼ N(μ,

S n − nμ ∼ N(0, 1) √nσ2

bzw.

(7.4.28)

428 | 7 Theoretische Verteilungen und Abhängigkeiten

Zn =

Xn − μ ∼ N(0, 1). √ σ2 /n

(7.4.29)

Man beachte, dass die Ausdrücke (7.4.28) und (7.4.29) numerisch identisch sind. Werden Zähler und Nenner in (7.4.28) jeweils durch n dividiert, ergibt sich daraus (7.4.29). Standardisierte Summe und standardisierter Mittelwert sind also standardnormalverteilt und numerisch identisch. Der zentrale Grenzwertsatz besagt, dass die Resultate (7.4.24), (7.4.25), (7.4.28) und (7.4.29), näherungsweise auch für nicht normalverteilte unabhängige und identisch verteilte Zufallsvariablen gelten, falls n nur „hinreichend groß“ ist. Die Approximation wird dabei umso besser, je größer n (die Stichprobe) ist. Die in Abschnitt 7.4.1 durchgeführten Betrachtungen über die Verteilung von Summen und Mittelwerten verdeutlichen und illustrieren anhand der Abbildungen 7.4.1–7.4.6 diese besagte „Verteilungskonvergenz“. So lässt sich unabhängig von der Ausgangsverteilung stets feststellen, dass mit wachsendem n die Verteilungen der Summen und Mittelwerte zunehmend symmetrischer werden und der Dichtekurve einer Normalverteilung ähnlicher werden. • ZGWS nach Lindeberg-Lévy • Wie beim GGZ existieren auch zum ZGWS zahlreiche Varianten, die in Bezug auf die Ausgangsbedingungen unterschiedliche Annahmen stellen (vgl. die Ergänzungen in Abschnitt 8.2.1). Eine für unbhängige und identisch verteilte Zufallsvariablen häufig verwendete Variante wird auch zentraler Grenzwertsatz nach Lindeberg und Lévy bezeichnet (zur Namensgebung siehe Abschnitt 8.2.1). Sie lautet wie folgt: Satz 7.4.3: Zentraler Grenzwertsatz nach Lindeberg-Lévy Seien X1 , . . . , X n unabhängig und identisch verteilte Zufallsvariablen mit E(X i ) = μ und Var(X i ) = σ2 mit 0 < σ2 < ∞ für i = 1, . . . , n. Dann ist Zn =

S n − nμ X n − μ = √nσ2 √ σ2 /n

asymptotisch N(0, 1)-verteilt,

(7.4.30)

d.h. n→∞

P(Z n ≤ x) = F Z n (x) 󳨀󳨀󳨀󳨀󳨀→ Φ(x)

für jedes x ∈ ℝ,

(7.4.31)

wobei F Z n die Verteilungsfunktion von Z n und Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Wir schreiben dafür auch kurz a

Z n ∼ N(0, 1).

(7.4.32)

Summe und Mittelwert sind damit für großes n approximativ normalverteilt. Konkret gelten folgende Approximationen: Sn

approx



N(nμ, nσ2 ),

(7.4.33)

7.4 Verteilung stochastischer Summen und Mittelwerte | 429

Xn

approx



N(μ, σ2 /n).

(7.4.34)

Als Daumenregel verwenden wir n ≥ 30 gilt als „groß“. • Interpretation • Der Begriff „asymptotisch“ wird immer nur bei einer Grenzbetrachtung „für n → ∞“

(für n gegen unendlich)

verwendet. Sozusagen für „n = ∞“ ergibt sich als Grenzverteilung der standardisierten Summe (des standardisierten Mittelwerts) eine Standardnormalverteilung. Eine solche Grenzverteilung wird auch als asymptotische Verteilung bezeichnet. Bei einer Betrachtung für festes (endliches) n ist das asymptotische Resultat im Allgemeinen nur noch approximativ erfüllt, d.h. im Hinblick auf (7.4.31) gilt P(Z n ≤ x) = F Z n (x) ≈ Φ(x)

für großes n.

(7.4.32) bedeutet also, dass man die Verteilungsfunktion von Z n für große n durch Φ approximieren kann. Asymptotische Verteilungen sind als Grenzverteilungen stets von n unabhängige Verteilungen sein. Deshalb sind die approximativen Verteilungen in (7.4.33) und (7.4.34) nicht zugleich asymptotische Verteilungen, da sie selbst noch mit n variieren. Vergleichbar wäre dieser Unterschied beispielsweise mit einer Betrachtung des von n abhängigen Terms 1/n. Dieser ist für unendlich großes n gleich 0 (konvergiert gegen 0), für jedes endliche n jedoch nur approximativ gleich 0. Im Grunde haben wir es hier mit einer weiteren Konvergenzart zu tun. Diese wird als Verteilungskonvergenz oder Konvergenz nach Verteilung bezeichnet und formal üblicherweise über die Konvergenz von Verteilungsfunktionen definiert (Abschnitt 8.2.2). Verteilungskonvergenz ist deutlich von stochastischer Konvergenz (Konvergenz nach Wahrscheinlichkeit) zu unterscheiden, die wir im Zusammenhang des GGZ kennengelernt haben. Aus der zentralen Aussage (7.4.30) des ZGWS lässt sich folgende weitere häufig anzutreffende Variante ableiten: Xn − μ a ∼ N(0, 1). (7.4.35) σ Diese erhält man, indem man im letzten Ausdruck von (7.4.30) die Wurzel aus n im Nenner vor den Quotienten schreibt. Numerisch ändert sich dadurch natürlich nichts. Letztere Darstellung ist interpretatorisch jedoch interessant, da n1/2 in Bezug auf die stochastische Konvergenz als Konvergenzrate oder Konvergenzgeschwindigkeit interpretiert werden kann. Betrachten wir zu diesem Punkt GGZ und ZGWS zusammen. Mit den Annahmen des ZGWS folgt gemäß GGZ Z n = √n

p

X n 󳨀󳨀→ μ,

430 | 7 Theoretische Verteilungen und Abhängigkeiten

was wiederum Xn − μ p 󳨀󳨀→ 0 σ impliziert (vgl. zu diesen Implikationen die Ausführungen zur stochastischen Konvergenz im Abschnitt 8.2.2). Die Differenz zwischen Mittelwert und Erwartungswert konvergiert stochastisch also gegen 0. Zur Verteilungskonvergenz (7.4.35) gelangt man nun, indem man diese Differenz sozusagen mit dem Faktor n1/2 wieder „aufbläst“. Damit zieht sich die Verteilung der Differenz nicht mehr über dem festen Wert 0 zusammen. Sie konvergiert also nicht mehr gegen eine Einpunktverteilung auf 0, sondern gegen eine um die 0 herum konzentrierte Wahrscheinlichkeitsverteilung mit positiver Varianz. Der Faktor n1/2 ist ein Maß dafür, wie sehr die Differenz aufgeblasen werden muss, um die stochastische Konvergenz gegen die 0 zu verhindern. Somit ist dieser Faktor zugleich auch ein Maß für die Geschwindigkeit der stochastischen Konvergenz. Tatsächlich lassen sich unter alternativen Bedingungen auch schnellere oder langsamere Konvergenzraten für bestimmte Grenzverteilungen feststellen. p

X n − μ 󳨀󳨀→ 0

und

• Approximationsgüte und Daumenregel • Die Approximationsgüte in (7.4.33) und (7.4.34) für festes n hängt ausschließlich von der Ausgangsverteilung ab. Je stärker sich diese von einer Normalverteilung unterscheidet (starke Schiefe, möglicherweise bimodal oder ähnliches), desto größer muss n gewählt werden, um eine gute Approximation zu erhalten. Abbildung 7.4.10 illustriert dies in der Mitte und rechts anhand der BernoulliVerteilung. Dazu wurde den Abbildungen 7.4.3 und 7.3.4 jeweils die Verteilung der Summe von B(1, 0.4)- bzw. B(1, 0.1)-verteilten Zufallsvariablen für den Fall n = 10 entnommen. Man beachte, dass diese Summen exakt B(10, 0.4)- bzw. B(10, 0.1)verteilt sind mit Erwartungswert 4 bzw. 1 und Varianz 2.4 bzw. 0.9 (Abschnitt 7.3.1). Gemäß (7.4.33) sind diese Summen approximativ N(4, 2.4)- bzw. N(1, 0.9)-verteilt. Die entsprechenden Dichtekurven wurden dazu grau eingezeichnet. Bei der B(1, 0.1)Verteilung treten hierbei erwartungsgemäß stärkere Abweichungen auf. Im Falle der symmetrischen Gleichverteilung aus Abbildung 7.4.1 (Würfelwurf) wird hingegen schon für n = 3 eine sehr gute Approximation erzielt, wie man im linken Schaubild erkennen kann. An dieser Stelle sollte angemerkt werden, dass sich in ein und demselben Diagramm normalerweise nicht gleichzeitig diskrete und stetige Verteilungen abbilden und vergleichen lassen, da Wahrscheinlichkeits- und Dichtefunktion unterschiedlich konzipiert und in der Regel auch unterschiedlich skaliert sind. Im vorliegenden Fall ist dies jedoch möglich, da die Trägerpunkte im Abstand von jeweils 1 eine Reihe bilden. Da sich gleichzeitig die Wahrscheinlichkeiten von aufeinanderfolgenden Trägerpunkte kaum unterscheiden, entspricht die Fläche der Dichte zwischen zwei Punkten approximativ den entsprechenden Wahrscheinlichkeiten. Diese Approximation ist umso besser, desto größer n ist. Alternativ kann auch eine Stetigkeitskorrektur gemäß (7.4.47) verwendet werden (vgl. späterer Punkt nach Beispiel 7.4.2).

7.4 Verteilung stochastischer Summen und Mittelwerte | 431

Abbildung 7.4.11 illustriert links die Approximationsgüte anhand einer stetigen Gleichverteilung über [0, 1] als Ausgangsverteilung und in der Mitte anhand einer Exp(1)-Verteilung jeweils für n = 3. Die entsprechenden Verteilungen wurden den Abbildungen 7.4.2 und 7.4.5 entnommen. Letztere entspricht einer Erlang(3, 1)Verteilung. Erwartungswert und Varianz betragen in ersterem Fall 1.5 bzw. 0.25 und in letzterem Fall beide 3. Folglich kann die Verteilung der Summe durch eine N(1.5, 0.25)- bzw. eine N(3, 3)-Verteilung approximiert werden. Bei der schiefen Exp(1)-Verteilung als Ausgangsverteilung treten erwartungsgemäß größere Abweichungen auf als bei der bereits symmetrischen Gleichverteilung. In letzterem Fall wird eine nahezu perfekte Annäherung erzielt, wenngleich mit n = 3 längst noch kein großer Wert vorliegt. Das rechte Schaubild zeigt die Approximationsgüte für die Exp(1)-Verteilung für den Fall n = 30. Die exakte Verteilung wäre hier dann eine Erlang(30, 1)-Verteilung, die sich dann aber sehr gut durch eine N(30, 30)-Verteilung approximieren ließe. n = 10 aus B (1, 0.4)

n=3 0.6

Würfelwurf

0.20 0.15

n = 10 aus B (1, 0.1)

0.6

0.4

0.4

0.2

0.2

0.10 0.05 0.00

0.0 0

6

12

18

0.0 0

2

4

6

8

10

0

2

4

6

8

10

Abb. 7.4.10: Approximationsgüte des ZGWS bei verschiedenen diskreten Verteilungen

Abb. 7.4.11: Approximationsgüte des ZGWS bei verschiedenen stetigen Verteilungen

Kriterien zur Verwendbarkeit der Approximationen (7.4.33) und (7.4.34) schwanken und erscheinen teils etwas beliebig. Die in vielen Lehrbüchern zu findende Forde-

432 | 7 Theoretische Verteilungen und Abhängigkeiten rung „n ≥ 30“ als Daumenregel sollte für die meisten Fällen in der Praxis tauglich sein, solange man zumindest von einer halbwegs symmetrischen unimodalen Ausgangsverteilung ausgehen kann. Außerdem sind Verteilungsapproximationen „in der Mitte“ meist genauer als am Verteilungsrand. • Spezialfall: Grenzwertsatz von de Moivre • Die Gültigkeit des ZGWS im Kontext der Binomialverteilung wird häufig auch als Grenzwertsatz von de Moivre bezeichnet (zur Namensgebung siehe Abschnitt 8.2.1). Dabei wird lediglich der spezielle Fall betrachtet, dass die Ausgangszufallsvariablen, X i , B(1, π)-verteilt sind. Im engeren Sinne wird der ZGWS also auf die Bernoulli-Verteilung angewendet. Da eine B(1, π)verteilte Zufallsvariable den Erwartungswert π und die Varianz π(1 − π) besitzt, spezialisieren sich die Resultate (7.4.30)–(7.4.34) dann wie folgt: Satz 7.4.4: Grenzwertsatz nach de Moivre Seien X1 , . . . , X n unabhängig B(1, π)-verteilt. Dann gilt: Zn = Sn Xn

S n − nπ √ nπ(1 − π)

=

Xn − π √ π(1 − π)/n

a

∼ N(0, 1),

(7.4.36)

approx



N(nπ, nπ(1 − π))

für großes n und

(7.4.37)

approx

N(π, π(1 − π)/n)

für großes n.

(7.4.38)



• Anwendung • Viele inferenztheoretische Betrachtungen und Methoden, die in Teil 3 behandelt werden, basieren auf asymptotischen Resultaten, die sich mithilfe des ZGWS begründen lassen. Der ZGWS ist jedoch nicht nur aus theoretischer Sicht von großer Bedeutung, sondern er kann auch beim Berechnen ganz konkreter Ereigniswahrscheinlichkeiten von großem praktischen Nutzen sein. So ist er immer dann besonders hilfreich, wenn die Bestimmung der exakten Verteilung einer Summe oder eines Mittelwertes nur mit großem Aufwand verbunden wäre. Folgende Beispiele mögen dies verdeutlichen. • Beispiel 7.4.1 • Gegeben sei die Situation aus Beispiel D1-a in Abschnitt 7.1.1. Hierbei wird mit X eine diskrete Zufallsvariable betrachtet, welche die Anzahl mitreisender Kinder bei Pauschalreisen eines Reiseveranstalters angibt. Dabei gilt: P(X = 0) = 0.4, P(X = 1) = 0.2, P(X = 2) = 0.3, P(X = 3) = 0.1. Erwartungswert und Varianz von X wurden in Abschnitt 7.2.1 mit E(X) = 1.1

und

Var(X) = 1.09

7.4 Verteilung stochastischer Summen und Mittelwerte | 433

bereits berechnet. Angenommen, der Reiseveranstalter möchte ein Kontingent von 50 buchbaren Reisen verkaufen. Mit wie vielen mitreisenden Kindern muss dabei realistischerweise gerechnet werden? Sofern die einzelnen Buchungen über identisch wie X verteilte Zufallsvariablen X1 , X2 , . . . , X50 modelliert werden, könnte man den Wert 55 als erste Orientierungsgröße angeben. Dies ist ein Erwartungswert und begründet sich auf dem Kalkül: 50

E(S50 ) = ∑ E(X i ) = 50 ⋅ 1.1 = 55. i=1

Die Zufälligkeit wird hierbei jedoch nicht berücksichtigt. Aus ökonomischer Sicht wäre es sicherlich interessanter eine „realistische Schwankungsbreite“ angeben zu können. Da n mit n = 50 bereits „groß“ ist, kann man unter der zusätzlichen Annahme, dass X1 , . . . , X50 unabhängig sind, die Verteilung von S50 mithilfe des ZGWS mit einer Normalverteilung approximieren. Da 50

Var(S50 ) = ∑ Var(X i ) = 50 ⋅ 1.09 = 54.5 i=1

ist, erhalten wir gemäß (7.4.33) konkret die Approximation S50

approx



N(55, 54.5).

Gemäß (7.3.22) werden 5%- und 95%-Quantil dieser Verteilung dann berechnet als q0.05 = 55 + √54.5 ⋅ z0.05

bzw.

q0.95 = 55 + √54.5 ⋅ z0.95

Mit z0.05 ≈ −1.64 und z0.95 ≈ 1.64 (Tab. A.1) erhalten wir konkret q0.05 ≈ 42.9

und

q0.95 ≈ 67.1.

Mit einer Wahrscheinlichkeit von 90% sollte die Anzahl mitreisender Kinder bei 50 gebuchten Reisen unter diesen Annahmen also irgendwo zwischen 43 und 67 liegen. Angenommen, ab 70 Kindern erleide der Reiseveranstalter bestimmte finanzielle Einbußen, beispielsweise bedingt durch eine zu hohe Anzahl gewährter Ermäßigungen. Wie groß ist dann die Wahrscheinlichkeit, dass ein solcher Fall tatsächlich eintritt? Mit obiger Verteilungsapproximation bestimmt man für diesen Fall die (approximative) Wahrscheinlichkeit dafür, dass die Summe größer oder gleich 70 ist: S50 − 55 69 − 55 ≤ ) √54.5 √54.5 ≈ 1 − Φ(1.90) ≈ 1 − 0.9713 = 0.0287.

P(S50 ≥ 70) = 1 − P(S50 ≤ 69) = 1 − P(

Man beachte, dass mit der Approximation durch die stetige Normalverteilung Gleichheitszeichen an sich irrelevant werden. Insofern wäre es im ersten Schritt auch nicht verkehrt, mit 1 − P(S50 ≤ 70)

434 | 7 Theoretische Verteilungen und Abhängigkeiten

anzusetzen. Dafür erhielte man dann eine Wahrscheinlichkeit von 2.1%, was im Grunde keinen wesentlichen Unterschied ausmachen würde. Insgesamt erscheint der Eintritt dieses Falles unter den gegebenen Annahmen auf jeden Fall sehr unwahrscheinlich. • Beispiel 7.4.2 • Fluggesellschaften verkaufen manchmal mehr Tickets als eigentlich Plätze zur Verfügung stehen, da Buchungen regelmäßig kurzfristig storniert werden oder aus anderen Gründen der Flug nicht angetreten wird. Angenommen, die Wahrscheinlichkeit, dass ein Passagier auf einer bestimmten Strecke seine Reise tatsächlich antritt, betrage 90%. Auf dieser Strecke werde eine Maschine mit 200 Sitzplätzen eingesetzt. Mit welcher Wahrscheinlichkeit wird diese Maschine dann entweder (i) voll, (ii) mit genau 180 Passagieren, (iii) mit höchstens 190 Passagieren besetzt abheben, sofern genau 200 Tickets verkauft wurden? Prinzipiell werden die Ticketkäufe zunächst einmal über B(1, 0.9)-verteilte Zufallsvariablen X1 , . . . , X200 modelliert. Dabei gilt X i = 1, falls der i-te Passagier seine Reise antritt und X i = 0, falls dieser seine Reise nicht antritt. Werden die Entscheidungen der Passagiere zum Reiseantritt als unabhängig voneinander angenommen, ist die Anzahl aller Passagiere, die wir mit S200 notieren, exakt B(200, 0.9)-verteilt, d.h. 200

S200 = ∑ X i ∼ B(200, 0.9).

(7.4.39)

i=1

Da n = 200 genügend groß ist, erhalten wir mit (7.4.37) die ZGWS-Approximation S200

approx



N(180, 18).

(7.4.40)

Für (i)–(iii) sind P(S200 = 200), P(S200 = 180) und P(S200 ≤ 190) von Interesse. Diese Wahrscheinlichkeiten können aufgrund der Gültigkeit von (7.4.39) prinzipiell exakt bestimmt werden, sofern ein entsprechend „fähiger Taschenrechner“ zur Verfügung steht. Man erhält zu (i):

P(S200 = 200) = 0.9200 ≈ 0.000 000 000 7055,

zu (ii):

P(S200 = 180) = (

zu (iii):

P(S200 ≤ 190) = ∑ (

200 )0.9180 (1 − 0.9)20 ≈ 0.0936 und 180

190 s=0

200 )0.9s (1 − 0.9)200−s ≈ 0.9965. s

Mit der ZGWS-Approximation (7.4.40) erhält man für (iii) P(S200 ≤ 190) = P(

S200 − 180 190 − 180 ≤ ) ≈ Φ(2.36) ≈ 0.9909, √18 √18

7.4 Verteilung stochastischer Summen und Mittelwerte | 435

was größenmäßig dem exakten Wert sehr nahe kommt. In Bezug auf (i) und (ii) müsste man aufgrund der Stetigkeit der Normalverteilung eigentlich mit P(S200 = 200) ≈ 0

bzw.

P(S200 = 180) ≈ 0

approximieren. Aufgrund der im Punkt „Approximationsgüte und Daumenregel“ zuvor durchgeführten Überlegungen ist es in diesem Fall jedoch auch möglich und sinnvoller, den Dichtewert der approximierenden N(180, 18)-Verteilung als Näherungswert zu nehmen. Mit f S200 (s) =

1 √2π ⋅ 18

exp(−

(s − 180)2 ) 2 ⋅ 18

(7.4.41)

erhält man darüber dann P(S200 = 200) ≈ f S200 (200) = 0.000 001 405

bzw.

P(S200 = 180) ≈ f S200 (180) = 0.0940. Inhaltlich betrachtet ist es insgesamt auf jeden Fall extrem unwahrscheinlich, dass die Maschine vollbesetzt startet, sofern 200 Tickets verkauft werden. Die Wahrscheinlichkeit für höchstens 190 Passagiere, also mindestens 10 frei bleibende Plätzen, liegt bei über 99%. Die Wahrscheinlichkeit, dass wie erwartet genau 10% der Sitzplätze frei bleiben, beträgt ca. 9%.

bei Ausverkauf

bei Überbuchung max. Kapazität

Passagiere...

0.10 0.08 0.06

90%

0.04 0.02

10% 0.00 165

170

175

180

185

190

195

200

205

210

Abb. 7.4.12: Illustration zu Beispiel 7.4.2. ZGWS-Approximationen und Stetigkeitskorrektur

Nun könnte man fragen, wie viele Tickets über die eigentliche Sitzplatzanzahl hinaus verkauft werden könnten, sodass höchstens mit einer Wahrscheinlichkeit von 10% die Plätze nicht ausreichen würden? Im Rahmen eines solchen Optimierungskalküls erscheint die Verwendung der ZGWS-Approximation eleganter und praktikabler. Ansonsten könnte man durch „Ausprobieren“ verschiedener Binomialverteilungen B(201,0.9),

B(202,0.9),

B(203,0.9)

usw.

die Wahrscheinlichkeit von P(S n ≤ 200) einer entsprechend verteilten Zufallsgröße berechnen. Da n auf jeden Fall größer als 200 und damit auch weiterhin groß genug

436 | 7 Theoretische Verteilungen und Abhängigkeiten

sein wird, können wir die Approximation Sn

approx



N(n ⋅ 0.9, n ⋅ 0.9 ⋅ 0.1) = N(0.9n, 0.09n)

(7.4.42)

verwenden. Der Ansatz lautet dann 200 − 0.9n S n − 0.9n 200 − 0.9n ≤ P(S n ≤ 200) = P( ) ≈ Φ( ) ≥ 0.9, √0.09n √0.09n √0.09n

(7.4.43)

wobei letzte Ungleichung nach n zu lösen ist. Es ist klar, dass der Ausdruck 200 − 0.9n √0.09n wertmäßig größer oder gleich dem 0.9-Quantil der N(0, 1)-Verteilung sein muss. Anstelle von (7.4.43) betrachten wir deshalb die Ungleichung 200 − 0.9n ≥ z0.9 ≈ 1.28 (vgl. Tab. A.1). √0.09n

(7.4.44)

und lösen diese dann nach n auf. Hierbei ist die Restriktion 200 − 0.9n ≥ 0, d.h. n ≤ 222.22,

(7.4.45)

zu beachten. Mit einfachen Umformungen führt (7.4.44) zur quadratischen Ungleichung n2 − 444.63 + 49 382.7 ≥ 0.

(7.4.46)

Mit üblichen Berechnungsformeln („p-q-Formel“) erhalten wir als Lösungen n1 = 0.5 ⋅ 444.63 − 0.5√444.632 − 4 ⋅ 49 382.7 ≈ 215.9 n2 = 0.5 ⋅ 444.63 +

0.5√444.632

und

− 4 ⋅ 49 382.7 ≈ 228.7.

Die linke Seite von (7.4.46) ist eine nach oben offene Parabel, die an den Stellen n1 bzw. n2 den Wert Null annimmt. Ungleichung (7.4.46) ist dann erfüllt, sofern n ≤ 215.9

oder

n ≥ 228.7

ist. Aufgrund der Restriktion (7.4.45) lautet die korrekte Lösung n ≤ 215.9. Folglich dürfen höchstens 216 Tickets verkauft werden. Dann beträgt die Wahrscheinlichkeit, dass höchstens 200 Passagiere die Reise antreten, ca. 90%. Die Wahrscheinlichkeit, dass die Sitzplätze nicht ausreichen, beträgt damit also ca. 10%. Abbildung 7.4.12 illustriert den Kalkül. Eingezeichnet ist die exakte Verteilung der Passagieranzahl bei normalem Ausverkauf von 200 Tickets – eine B(200, 0.9)-Verteilung. Gestrichelt ist die approximierende Dichte (7.4.41) dargestellt. Die in Grau eingezeichnete Dichte entspricht der approximativen Verteilung bei maximaler Überbuchung mit 216 Tickets: N(194.4, 19.44) ≈ B(216, 0.9).

7.4 Verteilung stochastischer Summen und Mittelwerte | 437

• Stetigkeitskorrektur für einzelne Trägerpunkte • Eine häufig als Stetigkeitskorrektur bezeichnete Approximationsvariante bei einer diskret verteilten Summe S n besteht darin, die Wahrscheinlichkeit eines bestimmten Wertes s0 durch s0 +0.5

P(S n = s0 ) ≈

∫ f S n (s)ds

(7.4.47)

s0 −0.5

zu approximieren. In Abbildung 7.4.12 wird dies für s0 = 180 angedeutet. Dies setzt allerdings voraus, dass die Trägerpunkte einen Abstand von jeweils 1 haben (siehe vorheriger Punkt „Approximationsgüte und Daumenregel“). Im Falle einer B(n, π)Verteilung, bei der dies ja der Fall ist, führt dies allgemein dann zur Approximation P(S n = s0 ) ≈ P(s0 − 0.5 ≤ S n ≤ s0 + 0.5) S n − nπ s0 + 0.5 − nπ s0 − 0.5 − nπ ≤ ≤ ) √ nπ(1 − π) √ nπ(1 − π) √ nπ(1 − π) s0 − 0.5 − nπ s0 + 0.5 − nπ ≈ Φ( ) − Φ( ). √ nπ(1 − π) √ nπ(1 − π) = P(

(7.4.48)

In Beispiel 7.4.2 erhalten daraus dann mit n = 200 und π = 0.9 für (i) und (ii): P(S200 = 200) ≈ 0.000 001 5

bzw.

P(S200 = 180) ≈ 0.0938.

Auch diese Werte sind zu den exakten Wahrscheinlichkeiten für (i) und (ii) sehr ähnlich. • Kritische Prüfung der Annahmen des ZGWS • Von besonders großer Wichtigkeit ist die Gültigkeit der Unabhängigkeitsannahme. In Beispiel 7.4.1 könnte diese beispielsweise verletzt sein, wenn Familien mit Kindern immer nur dann eine Reise buchen, falls bereits genügend Reisen mit Kindern gebucht wurden („unsere Kinder sollen mit anderen Kindern spielen können“). Zusätzlich verschärfen könnte sich dieser Umstand, wenn bereits gebuchte Reisen wieder storniert werden, falls insgesamt zu wenige Kinder mitreisen. Im Extremfall wäre dann die Summe mitreisender Kinder nur entweder relativ groß oder praktisch gleich 0. Daraus ergäbe sich im Endeffekt eine bimodale Verteilung für die Summenverteilung, aber keine symmetrische Normalverteilung. In Beispiel 7.4.2 wäre die Unabhängigkeitsannahme beispielsweise verletzt, wenn größere Kontingente der Tickets regelmäßig von Firmen gebucht werden, die des öfteren kurzfristig alles wieder stornieren. Der Effekt könnte sich in ähnlicher Weise wie zuvor über Bimodalität äußern. Ein anderer Fall, in dem die Unabhängigkeitsannahme meist verletzt ist, tritt bei Zeitreihen auf. Werden Beobachtungen zu verschiedenen Zeitpunkten erhoben, erscheint es häufig inadäquat diese als Realisationen unabhängiger Zufallsvariablen aufzufassen.

8 Ergänzungen und Verallgemeinerungen In Abschnitt 8.1 werden weitere eindimensionale Verteilungen kurz vorgestellt, die zu den „allgemein bekannten Standardverteilungen“ zählen. Auf diese Weise lassen sich auch verschiedene Beziehungen einzelner Verteilungen zueinander besser aufzeigen. Darauf folgen in Abschnitt 8.2 einige nützliche Ergänzungen zur asymptotischen Theorie im Zusammenhang des GGZ und ZGWS. In Abschnitt 8.3 werden schließlich einige Möglichkeiten zur Verallgemeinerung verschiedener Konzepte aus Kapitel 7 für den Fall von Zufallsvektoren aufgezeigt.

8.1 Weitere eindimensionale Verteilungen

Weitere erwähnenswerte Verteilungen sind im diskreten Fall die hypergeometrische Verteilung, die geometrische Verteilung und die negative Binomialverteilung. Im stetigen Fall zählen hierzu die Gamma-Verteilung, die χ 2 -, t- und F-Verteilung sowie die Cauchy-Verteilung. Außerdem gibt es noch Verteilungen, die weder diskret noch stetig sind, sowie Verteilungsabwandlungen in Form von Mischung, Stutzung oder Zensierung.

8.1.1 Weitere diskrete Verteilungen

• Hypergeometrische Verteilung • Gegeben sei eine vergleichbare Situation wie in Abbildung 7.3.2 (Abschnitt 7.3.1). In einer Urne mit N Kugeln seien M Kugeln schwarz und N − M Kugeln weiß. In der Modellvorstellung der Binomialverteilung werden n Kugeln mit Zurücklegen gezogen, wobei die Anzahl der schwarzen Kugeln in der Stichprobe, bezeichnet mit S n , dann B(n, π)-verteilt ist mit π = M/N. Werden die Kugeln ohne Zurücklegen gezogen, genügt S n einer hypergeometrischen Verteilung mit Parametern n, M und N, kurz S n ∼ H(n, M, N). Die Wahrscheinlichkeit dafür, dass genau s schwarze Kugeln gezogen werden, beträgt dabei P(S n = s) =

(Ms)(N−M n−s ) (Nn )

.

Denn insgesamt gibt es (Nn ) Möglichkeiten aus N Kugeln n Stück, (Ms) Möglichkeiten aus M schwarzen Kugeln s Stück und (N−M n−s ) Möglichkeiten aus N − M weißen Kugeln n − s Stück zu ziehen. https://doi.org/10.1515/9783110744194-008

8.1 Weitere eindimensionale Verteilungen | 439

Die Parameter n, M und N unterliegen dabei gewissen Restriktionen. Beispielsweise muss stets gelten n ≤ N, da nicht mehr Kugeln gezogen werden können als sich überhaupt in der Urne befinden. Ebenso muss natürlich stets auch M ≤ N gelten. Es sollte klar sein, dass sich hypergeometrische Verteilung und Binomialverteilung sehr ähnlich sind, falls nur ein geringer Anteil der Kugeln gezogen wird. Ist der auch als Auswahlsatz bezeichnete Quotient n/N beispielsweise kleiner als 5% (Daumenregel), unterscheiden sich die Wahrscheinlichkeiten beider Verteilungen nur noch geringfügig. Im Lottospiel „6 aus 49“ können wir die Anzahl richtiger Tipps aus einer entsprechenden hypergeometrischen Verteilung errechnen. Dabei bilden die richtigen Tipps die schwarzen Kugeln und die falschen Tipps die weißen Kugeln. Bei beispielsweise genau 2 richtigen Tipps zieht man aus den 6 schwarzen Kugeln 2 Stück und aus den 43 weißen Kugeln die 4 restlichen Kugeln. Auf diese Weise erhält man dann etwa die Wahrscheinlichkeit für höchstens 2 Richtige im Lotto aus der Summe von P(S6 = 0) = P(S6 = 2) =

(60)(49−6 6−0 ) (49 6) (62)(49−6 6−2 ) (49 6)

≈ 0.4360,

P(S6 = 1) =

(61)(49−6 6−1 ) (49 6)

≈ 0.4130,

≈ 0.1324.

Die Wahrscheinlichkeit für mehr als 2 richtige Tipps beträgt mit 1 − 0.4360 − 0.4130 − 0.1324 = 0.0186 also lediglich etwa 1.9%. • Geometrische Verteilung • Eine diskrete Zufallsvariable X heißt geometrisch verteilt mit Parameter π ∈ (0, 1), kurz X ∼ Geo(π), falls sie die Wahrscheinlichkeitsfunktion {(1 − π)x π, x = 0, 1, 2, . . . , f X (x) = P(X = x) = { 0, sonst, { besitzt. Man beachte, dass für 0 < π < 1 jeder noch so großen natürlichen Zahl eine positive Wahrscheinlichkeit zugeordnet wird. Die Trägermenge ist also abzählbar unendlich groß. Die geometrische Verteilung eignet sich zur Modellierung diskret gemessener Wartezeiten bis zum erstmaligen Eintreten bestimmter Ereignisse. Sie kann damit als diskretes Pendant zur stetigen Exponentialverteilung (Abschnitt 7.3.2) erachtet werden. Beispielsweise kann beim Würfelwurf die Anzahl von Fehlversuchen, die man benötigt, bis zum ersten Mal eine 6 fällt, durch eine Geo(1/6)-Verteilung modelliert werden. Fällt beispielsweise erst im 4. Versuch eine 6, so impliziert dies genau 3 Fehlversuche. Nach den Rechenregeln für unabhängige Ereignisse beträgt die Wahr-

440 | 8 Ergänzungen und Verallgemeinerungen

scheinlichkeit dafür 5 3 1 P(X = 3) = ( ) ⋅ ≈ 0.0965. 6 6 • Negative Binomialverteilung • Eine diskrete Zufallsvariable X heißt negativ binomialverteilt mit Parametern n ∈ ℕ0 und π ∈ (0, 1), kurz X ∼ NB(n, π), falls sie die Wahrscheinlichkeitsfunktion {(n+x−1)π n (1 − π)x , für x = 0, 1, 2, . . . , f X (x) = P(X = x) = { x 0, sonst, { besitzt. Die Trägermenge ist wiederum abzählbar unendlich groß. Für n = 1 ergibt sich gerade eine geometrische Verteilung. Mit der negativen Binomialverteilung lassen sich diskret gemessene Wartezeiten bis zum n-ten Eintreten bestimmter Ereignisse modellieren. Somit stellt die negative Binomialverteilung eine Verallgemeinerung der geometrischen Verteilung dar. Zugleich kann gezeigt werden, dass die Summe aus n unabhängigen Geo(π)-verteilten Zufallsvariablen NB(n, π)-verteilt ist. Nichtformal ausgedrückt gilt also: Geo(π) + ⋅ ⋅ ⋅ + Geo(π) = NB(n, π). Die negative Binomialverteilung stellt damit das diskrete Pendant zur stetigen Erlangverteilung dar (Abschnitt 7.4.1). Beispielsweise kann beim Würfelwurf die Anzahl von Fehlversuchen, die man insgesamt benötigt, bis zum dritten Mal eine 6 fällt, durch eine NB(3, 1/6)-Verteilung modelliert werden. So beträgt dann etwa die Wahrscheinlichkeit für genau 18 Fehlversuche 20 1 3 5 18 P(X = 18) = ( ) ⋅ ( ) ⋅ ( ) ≈ 0.0330. 6 6 18

8.1.2 Weitere stetige Verteilungen • Gamma-Verteilung • Eine stetige Zufallsvariable X heißt gammaverteilt mit den Parametern δ > 0 und λ > 0, kurz X ∼ Gamma(δ, λ), falls sie die Dichtefunktion f X (x) =

λ δ x δ−1 −λx e I[0,∞) (x) Γ(δ)

(8.1.1)

besitzt. Dabei bezeichnet Γ(⋅) die Gammafunktion, die für δ > 0 definiert ist als ∞

Γ(δ) = ∫ x δ−1 e−x dx. 0

(8.1.2)

8.1 Weitere eindimensionale Verteilungen | 441

Es lässt sich zeigen, dass speziell für δ = n ∈ ℕ Γ(n) = (n − 1)! gilt. Aus (8.1.1) ergibt sich für δ ∈ ℕ die Dichte (7.4.26) einer Erlangverteilung. Wie bereits in Abschnitt 7.4.1 festgehalten, genügt die Summe aus n unabhängigen Exp(λ)verteilter Zufallsvariablen einer Erlang(n, λ)-Verteilung. Eine Exp(λ)-Verteilung ist damit eine Erlang(1, λ)- und eine Gamma(1, λ)-Verteilung, und eine Erlang(n, λ)Verteilung ist eine Gamma(n, λ)-Verteilung. Weiter kann gezeigt werden: Sind X1 ∼ Gamma(δ1 , λ) und X2 ∼ Gamma(δ2 , λ) unabhängig, so gilt X1 + X2 ∼ Gamma(δ1 + δ2 , λ), informal ausgedrückt also: Gamma(δ1 , λ) + Gamma(δ2 , λ) = Gamma(δ1 + δ2 , λ). In Abschnitt 7.3.2 wurde der Zusammenhang zwischen der Poisson-Verteilung und der Exponentialverteilung aufgezeigt. Demnach ist die Wartezeit zwischen aufeinander folgenden Ereignissen Exp(λ)-verteilt, sofern die Anzahl des Auftretens solcher Ereignisse in einem vorgegebenen Zeitfenster Po(λ)-verteilt ist. Es lässt sich zeigen, dass die (stetige) Wartezeit bis zum n-ten Ereignis Erlang(n, λ)-verteilt ist. Sofern also etwa eine Wartezeit bis zum nächsten Notruf in einer Notrufzentrale durchschnittlich m Minuten beträgt, müssen durchschnittlich n⋅m Minuten bis zum n-ten Notruf gewartet werden. Die Erlangverteilung stellt damit das stetige Pendant zur diskreten negativen Binomialverteilung dar (voriger Punkt). Spezielle Gamma-Verteilungen Für λ > 0 und n ∈ ℕ gelten folgende Zusammenhänge: Gamma(1, λ) = Exp(λ) = Erlang(1, λ),

(8.1.3)

Gamma(n, λ) = Erlang(n, λ),

(8.1.4)

• χ2 -Verteilung • Eine Gamma(n/2, 1/2)-Verteilung bezeichnet man für natürliches n auch als χ2 -Verteilung, kurz X ∼ χ2 (n). Die Dichte ist damit ein Spezialfall von (8.1.1). Eine χ2 -verteilte Zufallsvariable nimmt nur nichtnegative Werte an. In Abbildung 8.1.1, links, sind die Dichten von χ2 -Verteilungen mit 2, 5 bzw. 10 Freiheitsgraden dargestellt. Folgende wichtige Aussage kann man zeigen: Wenn Z1 , . . . , Z n ∼ N(0, 1) u.i.v. sind, dann ist n

X := ∑ Z 2i = Z12 + ⋅ ⋅ ⋅ + Z 2n ∼ χ2 (n). i=1

(8.1.5)

442 | 8 Ergänzungen und Verallgemeinerungen

0.5 0.4 0.3 0.2 0.1 0.0

0.5 0.4 0.3 0.2 0.1

χ2(n)−Dichten n=2 n=5 n=10

0

4

8

12

16

20

t (n ) − Dichten n=1 n=5 N(0,1)

−2

0

2

4

Abb. 8.1.1: Dichten der χ 2 -Verteilung und t-Verteilung

Für standardnormalverteilte Z i sind E(Z i ) = 0, Var(Z i ) = E(Z 2i ) = 1 und E(Z 4i ) = 3. Daraus folgt nach der Verschiebungformel: Var(Z 2i ) = E(Z 4i ) − (E(Z 2i ))2 = 3 − 12 = 2. Da die Z i u.i.v. sind, sind die Z 2i auch u.i.v. und es gilt: Aus X ∼ χ2 (n) folgen damit E(X) = E(Z12 + ⋅ ⋅ ⋅ + Z 2n ) = E(Z12 ) + ⋅ ⋅ ⋅ + E(Z 2n ) = n Var(X) =

Var(Z12

+ ⋅⋅⋅ +

Z 2n )

=

Var(Z12 )

+ ⋅⋅⋅ +

und

Var(Z 2n )

= 2n.

χ2 -Verteilung

besitzt in der schließenden Statistik eine große Bedeutung. Ihre Die Quantile werden mit χ2n,α bezeichnet und sind in Tabelle A.3 im Anhang vertafelt. Beziehung der χ2 -Verteilung zu anderen Verteilungen Für n ∈ ℕ gelten folgende Zusammenhänge: χ2 (n) = Gamma(0.5n, 0.5), 2

χ (2) = Gamma(1, 0.5) = Erlang(1, 0.5) = Exp(0.5).

(8.1.6) (8.1.7)

• t-Verteilung • Eine stetige Zufallsvariable X heißt t-verteilt (auch Student-verteilt) mit n Freiheitsgraden, n > 0, kurz X ∼ t(n), falls sie die Dichtefunktion f X (x) =

x2 − n+1 Γ((n + 1)/2) 2 (1 + ) n √nπΓ(n/2)

(8.1.8)

besitzt. Das α-Quantil einer t-Verteilung mit n Freiheitsgraden bezeichnen wir mit t n,α . In Abbildung 8.1.1, rechts, sind die Dichten der t-Verteilung mit n = 1 und n = 5 Freiheitsgraden abgebildet. Die t-Verteilung besitzt große Ähnlichkeit mit der Standardnormalverteilung. Ihre Dichte ist symmetrisch um 0 und hat ebenfalls die Gestalt einer Glockenkurve. Allerdings ist der Gipfel flacher und die Ränder der Verteilung sind stärker ausgeprägt. Für größer werdendes n konvergiert die Dichte der t-Verteilung gegen

8.1 Weitere eindimensionale Verteilungen | 443

die Dichte der Standardnormalverteilung. Diese Konvergenz impliziert, dass die Quanile einer t(n)-Verteilung für großes n (n ≥ 30) mithilfe der entsprechenden Quantile der Standardnormalverteilung approximiert werden können: t n,α ≈ z α . Der Erwartungswert von X ist aufgrund der Symmetrie der Dichtefunktion bzgl. 0 für n > 1 gleich 0. Allerdings existiert er für n = 1 nicht. Die Varianz ist für n < 3 unendlich und für n ≥ 3 gegeben durch n Var(X) = . n−2 Man kann zeigen: Wenn Z ∼ N(0, 1) und Y n ∼ χ2 (n) unabhängig sind, dann ist X n :=

Z ∼ t(n). √ Y n /n

(8.1.9)

Mit dieser Darstellung kann man auch die Konvergenz der t-Verteilung gegen eine Normalverteilung erklären. Dazu wählen wir für Y n eine Darstellung gemäß (8.1.5), d.h. Z1 , . . . , Z n seien u.i.v. standardnormalverteilt und Y n = Z12 + ⋅ ⋅ ⋅ + Z 2n . Dann gilt nach dem GGZ Yn 1 n 2 p = ∑ Z i 󳨀󳨀→ E(Z 2i ) = 1. n n i=1 a

Mit Z ∼ N(0, 1) und damit auch Z ∼ N(0, 1) folgt mit (8.2.8) aus Slutsky’s Theorem a (Satz 8.2.5): X n ∼ N(0, 1). Damit ist X n für große n approximativ standardnormalverteilt. Da die t-Verteilung in der schließenden Statistik eine sehr wichtige Rolle spielt, sind ihre Quantile vertafelt (Tabelle A.2 im Anhang). • Cauchy-Verteilung • Eine stetige Zufallsvariable X heißt Cauchy-verteilt mit den Parametern α ∈ ℝ und β > 0, kurz X ∼ C(α, β), falls sie die Dichtefunktion f X (x) =

1 πβ(1 +

(x−α)2 ) β2

(8.1.10)

besitzt. Dabei bezeichnet π die Kreiszahl (3.1416). Es handelt sich um eine unimodale symmetrische Verteilung, wobei der Parameter α die Lage des Medians bzw. Modalwerts festlegt und der Parameter β in gewisser Weise die Streuung. Speziell für α = 0 und β = 1 erhält man eine t(1)-Verteilung (voriger Punkt) und spricht auch von einer Standard-Cauchy-Verteilung. Diese wurde bereits in Beispiel S1-e (Abschnitt 7.2.3) im Kontext nicht endlicher Momente thematisiert. Es lässt sich nämlich zeigen, dass der Erwartungswert einer Cauchy-verteilten Zufallsvariable im Sinne der in Abschnitt 7.2.3 getroffenen Definition nicht endlich ist. Somit sind auch alle höheren Momente, insbesondere also auch die Varianz, nicht endlich. Sind X1 ∼ C(α1 , β1 ) und X2 ∼ C(α2 , β2 ) unabhängig, so gilt: X1 + X2 ∼ C(α1 + α2 , β1 + β2 ), informal ausgedrückt also:

444 | 8 Ergänzungen und Verallgemeinerungen

C(α1 , β1 ) + C(α2 , β2 ) = C(α1 + α2 , β1 + β2 ). Ein formaler Beweis dazu findet sich etwa bei Rohatgi und Saleh [2001, Abschnitt 5.3.4]). Die Summe n unabhängiger Cauchy-verteilter Zufallsvariablen S n = X1 + X2 + ⋅ ⋅ ⋅ + X n mit X i ∼ C(α i , β i ) ist demnach n

n

C( ∑ α i , ∑ β i )-verteilt i=1

i=1

mit Dichte −1

(s − ∑ni=1 α i )2 f S n (x) = [π ∑ β i (1 + )] (∑ni=1 β i )2 i=1 n

.

(8.1.11)

Daraus erhält man gemäß (7.4.19) als Dichte des Mittelwerts n

f X n (x) = nf S n (nx) = n ⋅ [π ∑ β i (1 + i=1

= [π ⋅

(nx − ∑ni=1 α i )2 )] (∑ni=1 β i )2

(x − 1n ∑ni=1 α i )2 1 n )] ∑ β i (1 + n i=1 ( 1n ∑ni=1 β i )2

−1

(8.1.12)

−1

.

Folglich gilt X n ∼ C(α n , β n )

mit α n =

1 n 1 n ∑ α i und β n = ∑ β i . n i=1 n i=1

Sind X1 , . . . , X n unabhängig und identisch verteilt mit X i ∼ C(α, β) implizieren (8.1.11) und (8.1.12) S n ∼ C(nα, nβ)

bzw.

X n ∼ C(α, β).

(8.1.13) (8.1.14)

Während (8.1.13) dem Resultat (7.4.22) bei einer Normalverteilung sehr ähnlich ist, weicht (8.1.14) fundamental von den bisherigen Resultaten für stochastische Mittel ab. Resultat (8.1.14) besagt, dass der Mittelwert identisch verteilt ist wie die Ausgangsvariablen selbst. Die Verteilung zieht sich also nicht über dem Lagewert α zusammen (vgl. Abb. 8.1.2). Es liegt keine stochastische Konvergenz gegen α vor. Offensichtlich gilt stattdessen: P(X n > α) = 0.5

für n ≥ 1.

8.1 Weitere eindimensionale Verteilungen | 445

Ausgangsverteilung 0.4

C (1, 1)

0.3

n =2

0.4

X 2 ~ C (1, 1)

0.3

0.2

0.2

0.1

0.1

0.0 0

2

4

6

X 3 ~ C (1, 1)

0.3

S 2 ~ C (2, 2)

0.2

S 3 ~ C (3, 3)

0.1

0.0 −2

n =3

0.4

0.0 −2

0

2

4

6

−2

0

2

4

6

Abb. 8.1.2: Verteilung von Summe und Mittelwert bei einer Cauchy-Verteilung

8.1.3 Sonstige eindimensionale Verteilungen • Weder diskret noch stetig • Neben diskreten und stetigen Zufallsvariablen existieren auch solche, die weder diskret noch stetig sind. Wird beispielsweise der wöchentliche Fernsehkonsum in Stunden erhoben, so mag es vorkommen, dass ein erheblicher Anteil von Personen den (diskreten) Wert 0 (keinerlei Fernsehkonsum) aufweist, während sich für die restlichen Personen eine stetige Verteilung auf ℝ+ ergibt. In einem solchen Fall müsste man mit einer Wahrscheinlichkeitsverteilung modellieren, die „teils diskret und teils stetig“ ist. Auf empirischer Ebene wertet man Daten, die in einem derartigen Kontext anfallen, häufig so aus, dass man sowohl Methoden zur Analyse kategorialer Merkmale als auch Methoden zur Analyse stetiger Merkmale verwendet. Im vorliegenden Fall könnte man dann beispielsweise zunächst einmal nur die jeweiligen Anteile von Personen ermitteln, die fernsehen und die nicht fernsehen. Anschließend könnte man die stetige Verteilung des vorkommenden Fernsehkonsums näher analysieren und auswerten. Auf theoretischer Ebene kann in Bezug auf „gemischt skalierte“ Wahrscheinlichkeitsverteilungen analog verfahren werden. Im Hinblick auf die praktische Relevanz erscheint der zusätzlich zu erbringende Aufwand, um diesen Sonderfall formal mit einbeziehen zu können, hier unverhältnismäßig groß. Deshalb bleiben solche gemischt skalierten eindimensionalen Verteilungen wie weitere existierende Spezialformen, die nicht in die Klasse diskreter oder stetiger Zufallsvariablen hineinfallen, in diesem Lehrbuch unberücksichtigt. • Mixturverteilungen • Seien f1 , f2 , . . . , f n entweder ausschließlich Wahrscheinlichkeits- oder ausschließlich Dichtefunktionen diskreter bzw. stetiger Zufallsvariablen X1 , X2 , . . . , X n . Seien weiter p i ≥ 0 für i = 1, . . . , n Konstanten (Parameter) mit n

∑ p i = 1. i=1

446 | 8 Ergänzungen und Verallgemeinerungen

Dann wird durch n

f X (x) = ∑ p i f i (x)

(8.1.15)

i=1

die Wahrscheinlichkeits- oder Dichtefunktion einer diskreten bzw. stetigen Zufallsvariable X definiert. Die Verteilung von X heißt Mixturverteilung aus X1 , . . . , X n . Die Parameter p i werden auch als Mischungsanteile bezeichnet. Angenommen X1 ∼ N(μ1 , σ21 ) und X2 ∼ N(μ2 , σ22 ), d.h. X1 und X2 sind jeweils normalverteilt mit korrespondierenden Dichten f1 (x) =

1 √2πσ21

exp(−

(x − μ1 )2 ) 2σ21

bzw.

f2 (x) =

1 √2πσ22

exp(−

(x − μ2 )2 ). 2σ22

Dann wäre beispielsweise f X (x) = p1 f1 (x) + p2 f2 (x) die Dichte der Mixturverteilung aus X1 und X2 mit den Mischungsanteilen p1 und p2 . Abbildung 8.1.3 zeigt im rechten Schaubild zwei Beispiele einer Mixtur aus einer N(0, 1)- und einer N(3, 0.5)-Verteilung mit unterschiedlichen Mischungsanteilen. Mixturverteilungen ermöglichen insbesondere die Modellierung multimodaler Verteilungen. Der Mixturansatz (8.1.15) lässt sich dabei noch dahingehend erweitern, dass über ein ganzes Kontinuum von Verteilungen eine Art „stetige Mischung“ gebildet werden kann. Im Rahmen der Bayes-Statistik ist dieser Ansatz sehr nützlich.

Abb. 8.1.3: Mixturverteilung aus zwei Normalverteilungen

• Gestutzte und zensierte Verteilungen • Diskrete Verteilungen mit abzählbar unendlich vielen Trägerpunkten oder stetige Verteilungen mit nicht beschränkter Trägermenge eignen sich nur bedingt zur statistischen Modellierung empirischer Daten. Oft erscheint es weitaus realistischer, lediglich einen bestimmten Ausschnitt einer solchen Verteilung zu betrachten. Dies erfolgt häufig über sog. Stutzen (Abschneiden) oder sog. Zensieren.

8.1 Weitere eindimensionale Verteilungen | 447

Für die erste Methode betrachten wir erneut Beispiel D1-b aus Abschnitt 7.1.1, in dem es um die Anzahl eingehender Notrufe Y an einem Rettungswagen-Stützpunkt ging. Hier sollte klar sein, dass die Trägermenge in der Praxis durch natürliche Schranken nach oben beschränkt ist. Käme es beispielsweise in der Praxis niemals vor, dass mehr als 5 Notrufe eingehen, so könnte man mit einer Po(3)-Verteilung modellieren, die an der Stelle 5 gestutzt (abgeschnitten) oder zensiert wird, je nachdem was gerade adäquater erscheint. Bei einer Stutzung wird die verbleibende Wahrscheinlichkeitsmasse, d.h. in diesem Fall P(Y > 5) = 1 − P(Y ≤ 5) auf die Wahrscheinlichkeiten P(Y = 0), P(Y = 1), . . . , P(Y = 5) proportional verteilt. Bei einer Zensierung wird hingegen die verbleibende Masse vollständig P(Y = 5) zugeschlagen. Auf diese Weise erhält man dann mit 5

3y −3 e ≈ 0.9161 y! y=0

P(Y ≤ 5) = ∑

bzw.

P(Y > 5) ≈ 0.0839

bei einer Stutzung (Abb. 8.2.1, links) P(Y S = y) =

3y ⋅ e−3 0.9161 ⋅ y!

für y = 0, 1, . . . , 5

(8.1.16)

und bei einer Zensierung (Abb. 8.2.1, zentral) y −3

{3 e , y = 0, 1, . . . , 4, (8.1.17) P(Y Z = y) = { 5y!−3 3 e + 0.0839, y = 5. { 5! Letzteres Verfahren erscheint beispielsweise adäquat, wenn bei einer hohen Anzahl eingehender Notrufe eine automatische Weiterleitung zu anderen Rettungsstellen erfolgt. Ist X eine stetige Zufallsvariable mit Dichte f X und Verteilungsfunktion F X , so ist die Dichte der an den Stellen a und b mit a < b gestutzten Verteilung gegeben durch f X S (x) =

f X (x)I[a,b] (x) . F X (b) − F X (a)

(8.1.18)

Man beachte, dass die gestutzte Dichte im Zähler von (8.1.18) mit der in [a, b] liegenden Wahrscheinlichkeitsmasse (berechnet im Nenner) geeignet umskaliert wird. Abbildung 8.2.1 zeigt rechts in Schwarz eine an den Stellen −2 und 4 gestutzte C(1, 1)Verteilung (vgl. hierzu auch Abb. 8.1.2). Mit eingezeichnet ist in Grau die nicht gestutzte Dichte. Aufgrund der beschränkten Trägermenge sind bei einer gestutzten CauchyVerteilung nun alle Momente endlich.

448 | 8 Ergänzungen und Verallgemeinerungen

8.2 Ergänzungen zu asymptotischen Aussagen

Mithilfe vereinfachender Annahmen lassen sich weitere GGZ- und ZGWS-Varianten ohne größere Umstände formulieren. Die Annahme (M) beinhaltet die Endlichkeit aller Momente, die Annahme (B) die gleichmäßige Beschränkung aller Trägermengen. Weiter kann vereinfachend angenommen werden, dass der durchschnittliche Erwartungswert und die durchschnittliche theoretische Varianz jeweils gegen feste Werte konvergieren. Die im Kontext von GGZ- und ZGWS-Sätzen verwendeten Konvergenzarten umfassen stochastische Konvergenz und Verteilungskonvergenz. Mit den dazu in Verbindung stehenden Resultaten, wie etwa dem Stetigkeitssatz oder dem Satz nach Slutsky, können GGZ- und ZGWS-Resultate noch deutlich ergänzt oder verallgemeinert werden.

Po (3) − gestutzt

Po (3) − zensiert

C (1, 1) − gestutzt

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0.1

0.0

0.0 0

2

4

6

8

0.0 0

2

4

6

8

−2

0

2

4

6

Abb. 8.2.1: Gestutzte und zensierte Verteilungen

8.2.1 Alternative GGZ- und ZGWS-Varianten

• Vereinfachende Annahmen • In praktisch allen GGZ- und ZGWS-Varianten finden sich mehr oder minder restriktive Annahmen über die Endlichkeit bestimmter Momente (Beschränkung nach oben) und häufig auch Annahmen über die Mindestvariabilität einzelner Zufallsvariablen (Beschränkung nach unten). Mathematisch sind solche Annahmen zwar notwendig aber meist doch von keiner oder nur geringer praktischer Relevanz. Insbesondere in Bezug auf die Beschränkung nach oben hin ist zu bedenken, dass in der Realität Beobachtungswerte stets durch natürliche Schranken in ihrem Wertebereich beschränkt sind. Insofern erscheinen im Prinzip überhaupt nur Verteilungen mit beschränkter Trägermenge für Modellierungen realer Phänomene adäquat. Anstelle einer Normalverteilung etwa müsste man eigentlich beispielsweise mit einer gestutzten Normalverteilung (vgl. Abschnitt 8.1.3) arbeiten. Wir formulieren an dieser Stelle stark vereinfachende Annahmevarianten, die zwar relativ restriktiv

8.2 Ergänzungen zu asymptotischen Aussagen | 449

sind, uns jedoch einiges an Formalismus ersparen. Wir werden von diesen dann im Folgenden an verschiedenen Stellen immer wieder Gebrauch machen. Definition 8.2.1: Annahmen (M) und (B) Für eine gegebene Folge von Zufallsvariablen X1 , . . . , X n , . . . gelte (i) Annahme (M), falls für alle Zufallsvariablen jeweils alle Momente endlich sind, d.h. falls gilt: E(X ik ) < ∞

für alle i = 1, . . . , n, . . . und jedes k ∈ ℕ.

(ii) Annahme (B), falls die Trägermengen aller Zufallsvariablen gleichmäßig beschränkt sind, d.h. falls es einen festen Wert c mit 0 < c < ∞ gibt, sodass P(|X i | < c) = 1

für alle i = 1, . . . , n, . . .

Man beachte, dass Annahme (M) bei allen Verteilungen aus den Abschnitten 7.3, 8.1.1 und 8.1.2 sowie allen Verteilungen mit beschränkter Trägermenge erfüllt ist. Ausgenommen hiervon sind lediglich die t- und F-Verteilung sowie die Cauchy-Verteilung. Ferner gilt sie bei allen aus diesen ableitbaren gestutzten und zensierten Varianten sowie Mixturen im Sinne von (8.1.15). Annahme (B) schließt hingegen Verteilungen mit unbeschränkter Trägermenge wie etwa die Normalverteilung aus und ist deutlich restriktiver. Sie impliziert Annahme (M). Beispielsweise würde eine Folge gleichverteilter Zufallsvariablen X1 , . . . , X n , . . . gemäß X1 ∼ G(0, 1), X2 ∼ G(0, 2), X3 ∼ G(0, 3), X4 ∼ G(0, 4), X5 ∼ G(0, 5), . . . Annahme (M), aber nicht Annahme (B) erfüllen, da die Trägermenge [0, n] mit n stetig wächst und somit nicht gleichmäßig beschränkt ist. • Konvergenzformen und alternative GGZ-Varianten • Neben dem schwachen GGZ gibt es noch das starke GGZ (in unterschiedlichen Varianten). Dieses beruht jedoch auf einer anderen (wie zu vermuten „stärkeren“) Konvergenzform, die als fast sichere Konvergenz bezeichnet wird. Sie impliziert die „schwächere“ Form der stochastischen Konvergenz, auf der das schwache GGZ beruht. Für weitergehende Ausführungen hierzu sei der Leser auf maßtheoretisch begründete Lehrbücher der Wahrscheinlichkeitstheorie verwiesen. Wir beschränken uns im Folgenden auf das schwache GGZ. Neben der in Abschnitt 7.4.2 formulierten Variante gibt es hierzu noch viele weitere Varianten, in denen in Bezug auf die Ausgangsbedingungen unterschiedliche Annahmen gestellt werden. Die erste Variante eines schwachen GGZ, häufig auch als Satz von Bernoulli bezeichnet (Abschnitt 7.4.2), geht auf Jacob Bernoulli [1713] zurück und bezog sich lediglich auf die Binomial- bzw. Bernoulli-Verteilung als Ausgangsverteilung. Diese Vari-

450 | 8 Ergänzungen und Verallgemeinerungen

ante wurde im 18. und 19. Jahrhundert verschiedentlich erweitert, so etwa auch von Poisson [1837], der die Umschreibung „Gesetz der großen Zahlen“ erstmals verwendete. Die in Abschnitt 7.4.2 vorgestellte allgemeine Standardvariante mit endlichen Varianzen lässt sich gemäß Seneta [2013] bereits auf Bienaymé [1853] zurückführen. Khintschin [1929] zeigte später, dass bereits die Endlichkeit des ersten Moments (des Erwartungswertes) für die Gültigkeit dieser Version hinreichend ist. Einige auf Markov [1913] zurückführbare Varianten ermöglichen Konvergenzaussagen auch für unabhängige, heterogen verteilte (u.h.v.) Zufallsvariablen. Eine vereinfachte Variante, die sich aus diesen Ergebnissen herleiten lässt, lautet wie folgt: Satz 8.2.1: Schwaches GGZ für u.h.v. Zufallsvariablen Seien X1 , . . . , X n unabhängig. Dabei gelte Annahme (M) sowie n→∞

μ n 󳨀󳨀󳨀󳨀󳨀→ μ

und

n→∞

σ2n 󳨀󳨀󳨀󳨀󳨀→ σ2 .

Dann folgt daraus p

X n 󳨀󳨀→ μ. Hinweis: Es gelte die Notation der Abschnitte 7.4.1 und 7.4.2. Diese Variante erlaubt unterschiedliche Verteilungen der einzelnen Zufallsvariablen, wobei der durchschnittliche Erwartungswert und die durchschnittliche theoretische Varianz jedoch gegen feste Werte konvergieren müssen. Für u.i.v. Variablen ergibt sich als Spezialfall die Standardvariante aus Abschnitt 7.4.2. Grundsätzlich ließen sich die hier aufgeführten Annahmen noch beträchtlich abschwächen, z.B. durch Verzicht auf Konvergenzannahmen oder durch das Einräumen „schwacher“ Abhängigkeiten zwischen den Zufallsvariablen. Weitere Details und Varianten zum GGZ können entweder den Übersichtsartikeln von Seneta [2013, 1992] zum schwachen bzw. starken GGZ entnommen werden oder vielen weiterführenden Lehrbüchern auf dem Gebiet der Wahrscheinlichkeitstheorie und Statistik. • Beispiel 8.2.1 • Gegeben sei folgende Folge unabhängiger Zufallsvariablen: X1 ∼ N(0, 1), X2 ∼ N(1, 2), X3 ∼ N(0, 1), X4 ∼ N(1, 2), X5 ∼ N(0, 1), ... Für endliches n > 1 sind X1 , . . . , X n stets heterogen normalverteilt, allerdings bei sich stabilisierenden Verhältnissen: Die eine Hälfte aller Variablen ist N(0, 1)- und die andere Hälfte ist N(1, 2)-verteilt ist. Der durchschnittliche Erwartungswert konvergiert damit gegen 0.5 und die durchschnittliche theoretische Varianz gegen 1.5. Damit konvergiert das stochastische Mittel gemäß GGZ stochastisch gegen 0.5. Es sei bemerkt, dass aufgrund der unbeschränkten Trägermenge der Normalverteilung Annahme (B) hier beispielsweise nicht erfüllt wäre.

8.2 Ergänzungen zu asymptotischen Aussagen | 451

• Beispiel 8.2.2 • Gegeben sei eine Folge unabhängiger Zufallsvariablen X1 ,. . . ,X n , . . . , die einen identischen Erwartungswert besitzen, jedoch wechselnde Varianzen gemäß folgendem Schema (Beispiel gemäß White [1980]): 1, 3, 1, 1, 3, 3, 1, 1, 1, 1, 1, 1, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1,. . . Die durchschnittliche theoretische Varianz konvergiert hier gegen keinen festen Wert, sondern oszilliert stattdessen zwischen 1.5 und 2. Es lässt sich allerdings zeigen, dass unter Annahme (B) das stochastische Mittel dennoch gegen den Erwartungswert konvergiert. • Normalverteilung und ZGWS-Varianten • Sehr ähnlich wie beim GGZ gibt es auch beim ZGWS neben der in Abschnitt 7.4.2 formulierten Standardvariante nach Lindeberg-Lévy noch viele weitere Varianten, die auf unterschiedlichen Annahmen beruhen. Einen Übersichtsartikel zur Historie der Grenzwertsatztheorie bietet beispielsweise Le Cam [1986]. Der folgende Kurzabriss orientiert sich an diesem. Die ersten Varianten von Grenzwertsätzen bezogen sich auf diskret verteilte Zufallsvariablen, vorrangig im Kontext der Binomialverteilung. Hier gilt Abraham de Moivre [1733, 1738] üblicherweise als Entdecker davon, dass sich die Binomialverteilung unter bestimmten Umständen durch die Normalverteilung approximieren lässt (Abschnitt 7.4.2). Er war es auch, der die Dichtefunktion der Standardnormalverteilung (in diesem Kontext) erstmals einführte und nicht etwa Carl Friedrich Gauß. Gleichwohl verwendet man bis heute „Gauß-Verteilung“ als einzige Alternativbezeichnung für die Normalverteilung. Le Cam sieht hier Stigler’s Gesetz (Stigler [1986]) klar bestätigt, nach dem wissenschaftliche Entdeckungen nie nach ihren ursprünglichen Entdeckern benannt werden. Die Lindeberg-Levý-Variante verdankt ihre Benennung vermutlich den mathematisch rigorosen Beiträgen von Lindeberg [1920, 1922] und Levý [1925] im Kontext verschiedener Grenzwertsätze. Die Frage, ob dies nun gerechtfertigt ist oder nicht, halten wir an dieser Stelle offen. Es existiert jedenfalls eine ganze Fülle von Varianten, so etwa auch für heterogen verteilte Zufallsvariablen. Eine Variante lautet wie folgt (vgl. White [2001, Theorem 5.10]): Satz 8.2.2: ZGWS für u.h.v. Zufallsvariablen Seien X1 , . . . , X n unabhängig. Dabei gelte Annahme (B) sowie n→∞

μ n 󳨀󳨀󳨀󳨀󳨀→ μ

und

n→∞

σ2n 󳨀󳨀󳨀󳨀󳨀→ σ2 > 0.

Dann folgt daraus Zn =

S n − nμ n √ nσ2n

=

Xn − μn √ σ2n /n

a

∼ N(0, 1)

(8.2.1)

452 | 8 Ergänzungen und Verallgemeinerungen

sowie für großes n, sofern σ2n > 0: Sn Xn Zn

approx



approx



approx



n

n

i=1

i=1

N( ∑ μ i , ∑ σ2i ) = N(nμ n , nσ2n ), N(μ n , σ2n /n)

und

N(0, 1).

(8.2.2) (8.2.3) (8.2.4)

Die Annahmen der vorhergehenden GGZ-Variante wurden um die Annahme (B) sowie die Annahme einer positiven durchschnittlichen Varianz verschärft. Man beachte, dass diese Annahmen für die Gültigkeit von (8.2.1)–(8.2.4) hinreichend, aber nicht zwingend notwendig sind. So könnte man etwa auf die Konvergenz des theoretischen Mittels ohne weiteres verzichten und beispielsweise auch oszillierendes Verhalten wie im vorigen Beispiel 8.2.2 gestatten. Weitere Varianten, die beispielsweise auch „schwache“ Abhängigkeiten zwischen den Zufallsvariablen erlauben oder gar solche, die sowohl Heterogenität als auch Abhängigkeiten erlauben, finden sich beispielsweise bei White [2001, Kap. 5]. • Beispiel 8.2.3 • Ein Taxi-Unternehmen verfüge über 50 Fahrzeuge, die teils unterschiedlich eingesetzt werden und unterschiedlich viel Kraftstoff verbrauchen. Der durchschnittliche tägliche Verbrauch betrage 15 Liter bei einer durchschnittlichen Varianz von 2 (Liter2 ). Dann sollte sich der tägliche Gesamtverbrauch durch eine N(750, 100)-Verteilung approximieren lassen, sofern die einzelnen Verbrauchswerte (weitgehend) unabhängig voneinander sind. Inhaltlich ähnliche Beispiele ließen sich beispielsweise mit der Gesamtnachfrage eines bestimmten Produktes an verschiedenen Standorten konstruieren oder mit dem Energieverbrauch unterschiedlicher Haushalte zu einem bestimmten Zeitpunkt. In all diesen Situationen wäre die Annahme identisch verteilter Zufallsvariablen inadäquat.

8.2.2 Stochastische Konvergenz und Verteilungskonvergenz • Hintergrund und Überblick • Variante gelte

Angenommen, gemäß einer bestimmten GGZp

X n 󳨀󳨀→ μ. Folgt daraus dann 2

p

X n 󳨀󳨀→ μ2 ?

8.2 Ergänzungen zu asymptotischen Aussagen | 453

Man mag es intuitiv bejahen. Allerdings ist der letzte Ausdruck ohne weiteres für uns eigentlich (noch) nicht interpretierbar. So wurde das Konzept der stochastischen Konvergenz bisher nur im Kontext des schwachen GGZ verwendet. Hier geht es jedoch um ein quadriertes stochastisches Mittel, also um eine Funktion des stochastischen Mittels. Deshalb wird im nächsten Punkt zunächst eine allgemeine Definition für stochastische Konvergenz angegeben, um im Weiteren dann obige Frage beantworten zu können. Eine andere Frage wäre, ob das stochastische Mittel der quadrierten Zufallsvariablen stochastisch gegen das zweite theoretische Moment konvergiert. Gilt also 1 n 2 p ∑ X 󳨀󳨀→ E(X 2i ) ? n i=1 i Mit den in Abschnitt 7.1.3 gewonnenen Erkenntnissen ergibt sich ja, dass die transformierten Größen u.i.v. sind, sofern X1 , . . . , X n u.i.v. sind. Insofern sollte gemäß GGZ deren stochastisches Mittel gegen ihren theoretischen Erwartungswert stochastisch konvergieren. Mathematisch betrachtet ist dieser Schluss jedoch nicht ohne Weiteres möglich, da hierzu die Endlichkeit betreffender theoretischer Momente vorausgesetzt werden muss. In diesem Kontext werden wir von der Annahme (M) Gebrauch machen. In den letzten beiden Punkten werden wir schließlich noch das Konzept der Verteilungskonvergenz näher definieren und für Situationen, in denen stochastische Konvergenz und Verteilungskonvergenz parallel auftreten, einige nützliche Aussagen aufstellen. • Stochastische Konvergenz • Das Konzept der stochastischen Konvergenz betrachten wir in diesem Lehrbuch ausschließlich für den Fall, dass eine bestimmte stochastische Statistik (vgl. Abschnitt 9.3) gegen einen festen (nichtstochastischen) Wert stochastisch konvergiert. Im Falle des GGZ etwa betrachten wir dazu eine Menge von Zufallsvariablen X1 , . . . , X n (Stichprobe) als Ausgangsbasis und das stochastische Mittel Xn =

1 n ∑ Xi n i=1

als Funktion dieser. Die Definition der stochastischen Konvergenz bezieht sich beim GGZ dann auf die Folge der Zufallsvariablen X 1 , X 2 , X 3 , . . . , X n , . . . , kurz notiert als (X n ). Dies lässt sich deutlich verallgemeinern. Innerhalb der Kernaussage n→∞

P(|X n − μ| ≤ c) 󳨀󳨀󳨀󳨀󳨀→ 1 lässt sich anstelle der Folge stochastischer Mittel auch jede andere Folge von Zufallsvariablen (Y n ) wählen. Nochmals allgemeiner kann dann eine solche Folge auch gegen eine stochastische Größe, sprich gegen eine andere Zufallsvariable Z konvergieren.

454 | 8 Ergänzungen und Verallgemeinerungen

Dann erhielte man im Kern eine Aussage der Form n→∞

P(|Y n − Z| > c) 󳨀󳨀󳨀󳨀󳨀→ 0. Da wir diesen Grad an Verallgemeinerung in diesem Lehrbuch jedoch nicht benötigen, beschränken wir uns auf die Konvergenz gegen feste Werte. Definition 8.2.2: Stochastische Konvergenz (gegen feste Werte) Sei (Y n ) eine Folge von Zufallsvariablen. Sofern für einen festen Wert θ und jedes c>0 n→∞

P(|Y n − θ| ≤ c) 󳨀󳨀󳨀󳨀󳨀→ 1

n→∞

P(|Y n − θ| > c) 󳨀󳨀󳨀󳨀󳨀→ 0

bzw.

gilt, sagen wir, dass Y n stochastisch (nach Wahrscheinlichkeit) gegen θ konvergiert und schreiben dafür auch kurz p

Y n 󳨀󳨀→ θ.

• Deterministische Konvergenz • Für feste Werte c1 , . . . , c n können X1 , . . . , X n im Speziellen auch einpunkverteilt sein im Sinne von P(X i = c i ) = 1

mit c i ∈ ℝ für i = 1, . . . , n.

Eine deterministische konvergente Folge wie etwa (1/n), die gegen 0 konvergiert, ist deshalb auch immer stochastisch konvergent. • Transformation stochastisch konvergenter Folgen • Zur Beantwortung der ersten Hintergrundfrage zu Beginn dieses Abschnitts ist folgendes häufig als Stetigkeitssatz bezeichnete Resultat hilfreich (vgl. White [2001, Proposition 2.27]): Satz 8.2.3: Stetigkeitssatz Sei (Y n ) eine Folge von Zufallsvariablen, h : ℝ → ℝ eine stetige Funktion und θ ein fester Wert. Sofern h(θ) definiert ist und gilt p

Y n 󳨀󳨀→ θ, folgt daraus für U n = h(Y n ): p

U n 󳨀󳨀→ h(θ)

bzw.

p

h(Y n ) 󳨀󳨀→ h(θ).

• Beispiel 8.2.4 • Da h1 (t) = t2 und h2 (t) = 1/t für t ≠ 0 stetig sind, folgen aus p

X n 󳨀󳨀→ μ beispielsweise die Resultate

8.2 Ergänzungen zu asymptotischen Aussagen | 455

2

p

(i) X n 󳨀󳨀→ μ2 für jedes μ und −1

p

(ii) X n 󳨀󳨀→ 1/μ für μ ≠ 0. • GGZ für k-te Momente • Zur Beantwortung der zweiten Hintergrundfrage zu Beginn dieses Abschnitts ist folgendes Resultat nützlich: Satz 8.2.4: GGZ für k-te Momente Seien X1 , . . . , X n u.i.v. mit E(X ik ) < ∞. Dann folgt daraus 1 n m p ∑ X 󳨀󳨀→ E(X im ) n i=1 i

für m ≤ k, wobei k, m ∈ ℕ.

Da X1 , . . . , X n u.i.v. Zufallsvariablen sind, überträgt sich diese Eigenschaft gemäß dem Satz für Funktionen aus u.i.v. Zufallsvariablen (Satz 7.1.5) auf deren m-ten Potenzen. Sind deren Erwartungswerte endlich, kann auf diese die Standardvariante des GGZ (Satz 7.4.1) angewendet werden. Damit konvergiert das m-te stochastische Moment stochastisch gegen das m-te theoretische Moment. • Konvergenz nach Verteilung • Das Konzept der Verteilungskonvergenz betrachten wir in diesem Lehrbuch ausschließlich im Kontext von zentralen Grenzwertsätzen. Dabei beziehen wir uns meist auf eine standardisierte Summe oder ein standardisiertes Mittel Z n gemäß (7.4.30) oder (8.2.1). Die Kernaussage a

Z n ∼ N(0, 1) bedeutet nach Definition 7.4.3 n→∞

P(Z n ≤ x) = F Z n (x) 󳨀󳨀󳨀󳨀󳨀→ Φ(x)

für jedes x ∈ ℝ,

(8.2.5)

wobei F Z n die Verteilungsfunktion von Z n und Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Erstere konvergiert für wachsendes n also an jeder Stelle x ∈ ℝ gegen Φ(x). Dies lässt sich deutlich verallgemeinern. So lassen sich innerhalb der Kernaussage (8.2.5) anstelle von (Z n ) auch andere Folgen von Zufallsvariablen (Y n ) betrachten. Nochmals allgemeiner kann dann eine solche Folge auch gegen eine andere Normalverteilung oder eine gänzlich andere Grenzverteilung als die Normalverteilung konvergieren. Im Kern resultiert daraus dann eine Aussage der Form n→∞

P(Y n ≤ x) 󳨀󳨀󳨀󳨀󳨀→ F(x)

für jedes x ∈ ℝ,

wobei F(x) die theoretische Verteilungsfunktion der entsprechenden Grenzverteilung bezeichnet. Wir beschränken uns in diesem Lehrbuch auf die Normalverteilung N(μ, σ2 ) als Grenzverteilung, welche gemäß (7.3.17) allgemein die Verteilungsfunktion F(x) = Φ((x − μ)/σ) besitzt.

456 | 8 Ergänzungen und Verallgemeinerungen

Definition 8.2.3: Verteilungskonvergenz gegen eine Normalverteilung Sei (Y n ) eine Folge von Zufallsvariablen. Sofern gilt: n→∞

P(Y n ≤ x) = F Y n (x) 󳨀󳨀󳨀󳨀󳨀→ Φ((x − μ)/σ)

für jedes x ∈ ℝ,

sagen wir, dass Y n asymptotisch N(μ, σ2 )-verteilt ist oder dass Y n gegen eine N(μ, σ2 )-Verteilung konvergiert und schreiben dafür auch kurz a

Y n ∼ N(μ, σ2 ).

• Alternative Notation • Sofern sich die Grenzverteilungsfunktion auf eine Zufallsvariable X bezieht, schreibt man zur Kennzeichnung obig definierter Verteilungskonvergenz auch häufig d

Y n 󳨀→ X. Dabei steht das „d“ für Verteilung (engl. distribution). • Stochastische Konvergenz und Verteilungskonvergenz parallel • Insbesondere in der induktiven Statistik (Teil 3) ist es auf theoretischer Ebene häufig erforderlich, das gemeinsame stochastische Verhalten von Zufallsvariablen festzustellen, die teils stochastisch und teils verteilungstechnisch konvergieren. In diesem Zusammenhang kommt einem nach Evgeny Slutsky (1880–1948) benannten Theorem eine bedeutende Rolle zu. Die nachfolgende Version ist eine für den Fall einer Normalverteilung spezialisierte Variante. Ein Beweis für den allgemeineren Fall findet sich etwa bei Rohatgi und Saleh [2001, Theorem 15]. Satz 8.2.5: Slutsky’s Theorem für Normalverteilungen Seien (A n ), (B n ) und (Y n ) jeweils Folgen von Zufallsvariablen mit p

p

A n 󳨀󳨀→ a, B n 󳨀󳨀→ b

und

a

Y n ∼ N(μ, σ2 ).

Dann folgt daraus: a

A n + B n Y n ∼ N(a + bμ, b2 σ2 ), p

A n + B n Y n 󳨀󳨀→ a, a

falls b ≠ 0,

falls b = 0, 2

2

Y n /B n ∼ N(μ/b, σ /b ),

falls b ≠ 0.

(8.2.6) (8.2.7) (8.2.8)

Die Resultate erscheinen vor dem Hintergrund gewöhnlicher Rechenregeln für die Normalverteilung bei Lineartransformationen (Abschnitt 7.3.2) plausibel. Aus (8.2.7) lässt sich ablesen, dass stochastische Konvergenz in gewisser Weise die „stärkere“

8.3 Einige multivariate Verallgemeinerungen | 457

der beiden Konvergenzform darstellt. So degeneriert die Grenzverteilung zu einer Einpunktverteilung an der Stelle 0, falls B n stochastisch gegen 0 konvergiert. Die stochastische Variabilität geht komplett verloren. • Beispiel 8.2.5 • Sei Z n wie in (8.2.1) und unter den dort getroffenen Annahmen definiert. Es gelte also Zn =

Xn − μn √ σ2n /n

=(

Xn √ σ2n /n



μn

a

√ σ2n /n

) ∼ N(0, 1).

Dann gelten gemäß Slutsky’s Theorem auch die beiden Resultate μ a ̃ n = Xn − μ = ( Xn − Z ) ∼ N(0, 1) √ σ2 /n √ σ2 /n √ σ2 /n

und

a – Z n = √n(X n − μ) ∼ N(0, σ2 ).

(8.2.9) (8.2.10)

Um dies zu begründen, definiert man die beiden deterministischen Folgen An =

μn σ2n /n



μ σ2n /n

n→∞

󳨀󳨀󳨀󳨀󳨀→ 0

und

Bn = √

σ2n n→∞ 󳨀󳨀󳨀󳨀󳨀→ 1, σ2

die deterministisch konvergieren. Dies impliziert auch stochastische Konvergenz in Form von p

A n 󳨀󳨀→ 0

bzw.

p

B n 󳨀󳨀→ 1.

̃ n , wobei A∗n = 0 ̃ n = A n + B n Z n folgt aus (8.2.6) Resultat (8.2.9). Mit – Z n = A∗n + B∗n Z Mit Z ∗ und B n = σ, führt erneute Anwendung von (8.2.6) mit schließlich zu Resultat (8.2.10).

8.3 Einige multivariate Verallgemeinerungen

Viele für Zufallsvariablen gültige Konzepte und Resultate lassen sich für den Fall von Zufallsvektoren verallgemeinern. Dazu gehören das Konzept der stochastischen Unabhängigkeit, diverse Kenngrößen zur Messung von Abhängigkeiten, die Normalverteilung sowie viele asymptotische Sätze. Außerdem lassen sich gemischt skalierte Vektoren, die gleichzeitig diskrete und stetige Komponenten enthalten, betrachten.

8.3.1 Multivariate Abhängigkeiten Abhängigkeit und Unabhängigkeit von Zufallsvektoren • Hintergrund und Definition • In Abschnitt 7.1.2 wurden bereits Zufallsvektoren (mehrdimensionale Zufallsvariablen) auch für den Fall n > 2 eingeführt. Stochas-

458 | 8 Ergänzungen und Verallgemeinerungen

tische Abhängigkeit bzw. Unabhängigkeit wurde jedoch nur für den Fall besprochen, dass innerhalb eines Vektors (X1 , ..., X n )T alle n Zufallsvariablen (vollständig) im Sinne von f X1 X2 ...X n = f X1 f X2 . . . f X n unabhängig voneinander sind. Dies implizierte wiederum die paarweise Unabhängigkeit aller Variablen im Sinn von f X1 X2 = f X1 f X2 , f X1 X3 = f X1 f X3 , f X2 X3 = f X2 f X3 usw. Das Unabhängigkeitskonzept im multivariaten Fall lässt sich jedoch stärker verallgemeinern. So können innerhalb aller involvierten Variablen auch einzelne Gruppen (Teilvektoren) unabhängig voneinander sein. Sofern dann beispielsweise für (X1 , X2 , X3 , X4 )T das Kriterium f X1 X2 X3 X4 = f X1 X2 f X3 X4 erfüllt ist, gelten die beiden Vektoren Z1 = (X1 , X2 )T und Z2 = (X3 , X4 )T als unabhängig. Die 4-dimensionale gemeinsame Verteilung von Z1 und Z2 ergibt sich dann aus dem Produkt der zweidimensionalen Randverteilungen von Z1 und Z2 . Äquivalent lässt sich dieses Kriterium auch über die multivariaten bedingten Verteilungen im Sinne von f X1 X2 |X3 X4 = f X1 X2

bzw.

fZ1 |Z2 = fZ1 und

f X3 X4 |X1 X2 = f X3 X4

bzw.

fZ2 |Z1 = fZ2

ausdrücken. Die vollständige Unabhängigkeit impliziert folglich die Unabhängigkeit einzelner (disjunkter) Gruppen, jedoch nicht umgekehrt. Definition 8.3.1: Abhängigkeit und Unabhängigkeit von Zufallsvektoren Zwei Zufallsvektoren (diskret oder stetig) X = (X1 , X2 , . . . , X p )T

und

Y = (Y1 , Y2 , . . . , Y q )T

sind stochastisch unabhängig, falls sich deren gemeinsame Verteilung aus dem Produkt der Randverteilungen ergibt, d.h. falls gilt fX,Y = fX fY . Anderenfalls sind sie stochastisch abhängig. Man beachte, dass X und Y unterschiedlich dimensioniert sein können (p ≠ q). Außerdem können in X bzw. Y prinzipiell auch diskrete und stetige Zufallsvariablen gleichzeitig enthalten sein. In diesem Fall bezeichnen wir die Vektoren als gemischt skaliert. Hinweise dazu finden sich in Abschnitt 8.3.3.

8.3 Einige multivariate Verallgemeinerungen | 459

• Interpretation • Um das Unabhängigkeitskonzept für Vektoren verstehen zu können, betrachten wir folgende illustrative Situation für n = 3 Zufallsvariablen. Sei (X, Y)T ein diskreter Vektor, der den Speiseeiskonsum von Ehepaaren an einem Eisstand angibt. Dabei sei X die konsumierte Anzahl von Kugeln des Mannes und Y die konsumierte Anzahl der Frau. Außerdem sei Z eine binäre Variable, die angibt, ob die Außentemperatur mehr als 25o C beträgt oder nicht. Sofern Z und (X, Y)T unabhängig voneinander sind, hängt die Verteilung des gemeinsamen Konsums nicht vom Wetter ab. Dies ist beispielsweise nicht erfüllt, falls bei wärmerem Wetter mehr Eis konsumiert wird als bei kälterem Wetter. Ungeachtet dessen wird keine Aussage über die Abhängigkeit von X und Y getroffen. Diese können also durchaus abhängig sein, etwa positiv korreliert, auch wenn Z und (X, Y)T unabhängig sind. Dieses Konzept verallgemeinert die bisherig behandelten Konzepte für paarweise und vollständige Unabhängigkeit, mit der sich solche Situationen nicht berücksichtigen lassen. • Beispiel D3-a fortgesetzt • In dem in Abschnitt 7.1.2 eingeführten Beispiel D3-a (Geschlecht, Raucherstatus und Ernährungsweise) ergibt sich aus den Tabellen 7.1.9 und 7.1.10, dass die Kriterien f Z|XY = f Z

bzw.

f Z|XY = f XYZ /f XY

f XY|Z = f XY mit bzw.

f XY|Z = f XYZ /f Z

nicht erfüllt sind. Die bedingten Verteilungen sind unterschiedlich und stimmen somit nicht mit den korrespondierenden Randverteilungen überein. Deshalb ist auch das Multiplikationskriterium f XYZ = f XY f Z

(8.3.1)

nicht erfüllt. Infolgedessen sind Z und (X, Y)T nicht unabhängig. Inhaltlich bedeutet dies im vorliegenden Fall, dass die Kenntnis von Geschlecht und Raucherstatus gewisse Rückschlüsse auf die Ernährungsgewohnheiten (vegetarisch oder nicht) zulässt. • Beispiel D3-b • Analysiert man mit den gleichen Methoden wie in Beispiel D3-a die Abhängigkeitsstruktur in Tabelle 8.3.1, so lassen sich folgende Fakten feststellen: (i) X und Z sind unabhängig, (ii) Y und Z sind unabhängig, (iii) X und Y sind abhängig. Die Randverteilung von Z lautet P(Z = 0) = 0.6

und

P(Z = 1) = 0.4.

Eine für uns interessante Frage ist nun, ob man aus (i) und (ii) auf die Unabhängigkeit von Z und (X, Y)T bereits schließen kann. Dies ist zu verneinen, da wir bereits Abschnitt 7.1.2 festgehalten haben, dass paarweise Unabhängigkeit keine vollständige Unabhängigkeit impliziert. Selbst falls hier auch X und Y noch unabhängig wären,

460 | 8 Ergänzungen und Verallgemeinerungen

wäre dieser Schluss nicht möglich. Abbildung 7.1.12 (Abschnitt 7.1.2) illustriert dazu ein Beispiel. Tab. 8.3.1: Gemeinsame Verteilung von (X, Y, Z)T von Beispiel D3-b Z=0 X

Y

0

0 1 Summe

X

Y

1 0.06 0.15 0.21

0

0 1 Summe

2

0.03 0.21 0.24 Z=1 1

0.04 0.10 0.14

0.00 0.15 0.15

Summe 0.09 0.51 0.60

0.00 0.10 0.10

Summe 0.06 0.34 0.40

2 0.02 0.14 0.16

Tab. 8.3.2: Randverteilung von (X, Y)T von Beispiel D3-b X

Y

0

0 1 P(Y = y)

1 0.10 0.25 0.35

2 0.05 0.35 0.40

0.00 0.25 0.25

P(X = x) 0.15 0.85 1.00

Tab. 8.3.3: Bedingte Verteilung von (X, Y)T gegeben Z = z von Beispiel D3-b z=0 Y X 0 1 Σ

0

1

2

Σ

0.10 0.25 0.35

0.05 0.35 0.40

0.00 0.25 0.25

0.15 0.85 1.00

z=1 Y X 0 1 Σ

0

1

2

Σ

0.10 0.25 0.35

0.05 0.35 0.40

0.00 0.25 0.25

0.15 0.85 1.00

Zur Überprüfung der Unabhängigkeit im vorliegenden Beispiel legen wir das Multiplikationskriterium (8.3.1) zugrunde. Demnach müsste für alle x, y und z gelten: P(X = x, Y = y, Z = z) = P(X = x, Y = y)P(Z = z). Vereinfacht gesagt muss sich hier Tabelle 8.3.1 ergeben (innere Zellen), wenn man Tabelle 8.3.2 (innere Zellen) mit den Wahrscheinlichkeiten von Z multipliziert. Tatsächlich ist dies für alle Zelleneinträge auch so erfüllt. So erhält man beispielsweise P(X = 0, Y = 0, Z = 0) = 0.06 = 0.1 ⋅ 0.6 = P(X = 0, Y = 0)P(Z = 0), P(X = 0, Y = 0, Z = 1) = 0.04 = 0.1 ⋅ 0.4 = P(X = 0, Y = 0)P(Z = 1)

8.3 Einige multivariate Verallgemeinerungen | 461

usw. Damit sind hier tatsächlich auch Z und (X, Y)T unabhängig. Alternativ beachte man, dass sich in Tabelle 8.3.1 die Werte des unteren Tabellenteils aus den Werten des oberen Teils ergeben, wenn letztere mit 2/3 multipliziert werden. Die bedingten Verteilungen von (X, Y)T unter Z = z, dargestellt in Tabelle 8.3.3, stimmen somit überein und entsprechen der Randverteilung.

Bedingte Abhängigkeit und Unabhängigkeit • Definition und Hintergrund • Die in Tabelle 8.3.3 bestehenden Abhängigkeiten zwischen X und Y bedingt auf z = 0 bzw. z = 1 werden als bedingte Abhängigkeit bezeichnet. Sofern das in diesem Fall relevante bedingte Multiplikationskriterium f XY|Z = f X|Z f Y|Z

(8.3.2)

erfüllt wäre, würde man X und Y als unter Z bedingt unabhängig bezeichnen. Offensichtlich ist dieses jedoch nicht erfüllt. Auf notationelle und definitorische Präzisierungen bzw. Verallgemeinerungen sei verzichtet. Bedingte Abhängigkeit ist ein für statistische Abhängigkeitsanalysen allgemein wichtiger Aspekt. Innerhalb dieses Lehrbuches taucht der Begriff bei der Behandlung von Scheinabhängigkeiten und systematischen Verzerrungen (Abschnitt 5.3.3) als auch im Rahmen des multiplen linearen Regressionsmodells auf (Kap. 12). Folgendes Beispiel mag als Anschauungsbeispiel dienen. • Beispiel 8.3.1 • Führt man für Tabelle 8.3.4 im Sinne der Tabellen 8.3.2 und 8.3.3 analoge Berechnungen wie in Beispiel D3-b durch, lässt sich feststellen, dass X und Y abhängig, unter Z jedoch bedingt unabhängig sind. In diesem Fall lässt sich diese Unabhängigkeit anhand der jeweils diskret gleichverteilten Zeilen- bzw. Spaltenwerte für z = 0 bzw. z = 1 leicht erkennen. Tab. 8.3.4: Beispiel einer 3-dimensionalen Verteilung mit bedingter Unabhängigkeit Z=0 X

Y

0 1 Summe

0 0.05 0.20 0.25

Z=1 1 0.05 0.20 0.25

Summe 0.10 0.40 0.50

X

Y

0 1 Summe

0 0.05 0.05 0.10

1 0.20 0.20 0.40

Summe 0.25 0.25 0.50

Wohlgemerkt sind (X, Y)T und Z dennoch stochastisch abhängig, da die gemeinsame Verteilung von X und Y nicht identisch ist, wenn auf den beiden Werten 0 bzw. 1 von Z bedingt wird.

462 | 8 Ergänzungen und Verallgemeinerungen

8.3.2 Kenngrößen multivariater Abhängigkeiten Theoretische Kovarianz- und Korrelationsmatrix

• Definition • Auch im multivariaten Fall wird mithilfe der Kovarianz bzw. der Korrelation die Stärke linearer Abhängigkeit quantifiziert. Dazu definiert man die theoretische Varianz-Kovarianzmatrix bzw. die theoretische Korrelationsmatrix eines Zufallsvektors als Gegenstück zu den in Abschnitt 5.2.2 beschriebenen empirischen Matrizen. Definition 8.3.2: Theoretische Kovarianz- und Korrelationsmatrizen Die (theoretische) Varianz-Kovarianzmatrix, kurz Kovarianzmatrix, eines Zufallsvektors X = (X1 , X2 , . . . , X p )T ist definiert als σ11 σ21 Σ X = Cov(X) = ( . .. σ p1 σ ij = Cov(X i , X j )

σ12 σ22 σ p2

... ... .. . ...

σ1p σ2p .. ) , wobei . σ pp

für i, j = 1, . . . , p sind.

Die (theoretische) Korrelationsmatrix von X ist die zu ΣX korrespondierende Matrix der Korrelationen (sofern σ ii > 0 für i = 1, . . . , p) σ ij ϱ ij = Corr(X i , X j ) = für i, j = 1, . . . , p. √σ ii σ jj Für gegebene Zufallsvektoren X = (X1 , X2 , . . . , X p )T und Y = (Y1 , Y2 , . . . , Y q )T ist der aus X und Y gestapelte Vektor Z definiert als X Z = ( ) = (X1 , . . . , X p , Y1 , . . . , Y q )T . Y Dabei gelte folgende Partition: X ΣX Cov(Z) = Cov(( )) = ( Y ΣYX

ΣXY ) ΣY

Dann ist die Kovarianzmatrix zwischen X und Y gegeben durch ΣXY = Cov(X, Y) und die Kovarianzmatrix zwischen Y und X durch T ΣYX = Cov(Y, X) = ΣXY .

(8.3.3)

8.3 Einige multivariate Verallgemeinerungen | 463

Die Korrelationsmatrix zwischen X und Y bzw. zwischen Y und X ist die zu ΣXY bzw. ΣYX korrespondierende Matrix der Korrelationen. Man beachte, dass hier notationsmäßig gilt: σ ii = Cov(X i , X i ) = Var(X i )

für i = 1, . . . , p.

Auf der Hauptdiagonalen einer Kovarianzmatrix stehen folglich die Varianzen der X i und auf den Nebendiagonalen alle wechselseitigen Kovarianzen. In vielen Fällen werden positive Varianzen vorausgesetzt, d.h. σ ii > 0, für i = 1, . . . , p. • Beispiel 8.3.2 • Die theoretische Kovarianzmatrix zwischen den beiden Vektoren X = (X1 , X2 )T und Y = (Y1 , Y2 , Y3 )T ist die (2 × 3)-Matrix Cov(X, Y) = ΣXY = (

Cov(X1 , Y1 ) Cov(X2 , Y1 )

Cov(X1 , Y2 ) Cov(X2 , Y2 )

Cov(X1 , Y3 ) ). Cov(X2 , Y3 )

T = ΣYX ist dann die Kovarianzmatrix zwischen Y und X. Die (3 × 2)-Matrix ΣXY Für das vorhergehende Beispiel D3-b erhält man mit den Regeln zur Berechnung von Kovarianzen (Abschnitt 7.2.2) als Varianz-Kovarianzmatrix des Vektors (X, Y, Z)T

X 0.13 Cov ((Y )) = (0.09 Z 0

0.09 0.59 0

0 0 ) 0.24

Daraus erhält man als Kovarianzmatrizen zwischen (X, Y)T und Z und zwischen Z und (X, Y)T 0 ( ) 0

bzw.

(0 0).

Hierbei ist zu beachten, dass bereits aus der Unabhängigkeit von (X, Y)T und Z folgt, dass diese Kovarianzen Null sind.

Bedingte Kennwerte für n > 2 • Hintergrund • Im Rahmen statistischer Analysen und Modelle ist es auf theoretischer Ebene immer wieder wichtig, mit bedingten Verteilungen richtig argumentieren und arbeiten zu können. Dies geht regelmäßig über den zweidimensionalen Kontext, der in Abschnitt 7.2.2 behandelt wurde, hinaus. Im Folgenden werden einige solcher Erweiterungsmöglichkeiten, die wir später insbesondere im Rahmen des Regressionsmodells (Kapitel 12) benötigen, besprochen. Dazu beschränken wir uns auf den Fall n = 3 und betrachten speziell nur Beispielrechnungen anhand eines diskreten Zufallsvektors (X, Y, Z)T . Konkret geht es darum, bedingte Kennwerte wie Erwartungswerte

464 | 8 Ergänzungen und Verallgemeinerungen

und Varianzen auch für den Fall mehrerer bedingender Variablen im Sinne von E(Y|X = x, Z = z)

oder

Var(Y|X = x, Z = z)

berechnen zu können. Hinzu kommen im Fall n > 2 außerdem noch bedingte Kovarianzen und Korrelationen, die wir dann z.B. mit Cov(X, Y|Z = z)

bzw.

Corr(X, Y|Z = z)

notieren. Außerdem besprechen wir kurz die Vorgehensweise bei Ausdrücken wie etwa E(XY|Z = z)

oder

E(XYZ|Z = z).

Auf eine stärker verallgemeinernde Behandlung verzichten wir. Für den größten Teil wären die hierfür aufzustellenden Definitionen und Regeln völlig analog oder eben so, wie man diese ohnehin erwarten würde. • Allgemeine Vorgehensweise • Die Berechnung bedingter Kennwerte setzt allgemein stets an der korrespondierenden bedingten Verteilung an. Diese erhält man aus der gemeinsamen Verteilung aller in einem bedingten Ausdruck involvierten Variablen und der Randverteilung aller bedingenden Variablen. Beispielsweise wird dann zur Berechnung von E(Y|X = x, Z = z)

oder

E(XY|Z = z)

mittels Additions- oder Integrationskalkül die bedingte Verteilung von Y unter X = x und Z = z benötigt bzw. die gemeinsame bedingte Verteilung von (X, Y)T unter Z = z, d.h. f XYZ f XYZ bzw. f XY|Z = . f Y|XZ = f XZ fZ Häufig lässt sich die bedingte Verteilung unter bestimmten Unabhängigkeitsbedingungen beträchtlich vereinfachen. Sind beispielsweise X, Y und Z unabhängig, so folgt aus dem Multiplikationskriterium f Y|XZ =

f XYZ fX fY fZ = = fY f XZ fX fZ

bzw.

f XY|Z =

f XYZ fX fY fZ = = fX fY . fZ fZ

Sind dagegen nur Z und (X, Y)T unabhängig, so ergibt sich nur für letzteren Fall unmittelbar eine Kürzungsmöglichkeit, da f XYZ f XY f Z = und f XZ f XZ f XYZ f XY f Z = = = f XY . fZ fZ

f Y|XZ = f XY|Z

Kommt die Unabhängigkeit von X und Z hinzu, erhält man für ersten Fall dagegen f Y|XZ =

f XYZ f XY f Z f XY = = . f XZ fX fZ fX

8.3 Einige multivariate Verallgemeinerungen | 465

Als Konsequenz solcher Kürzungen entfällt bei der Berechnung bedingter Kennwerte dann immer ein Teil bedingender Variablen. So erhält man dann beispielsweise E(Y|X = x, Z = z) = E(Y), E(Y|X = x, Z = z) = E(Y|X = x) oder E(XY|Z = z) = E(XY). Bei Ausdrücken mit Variablen, die gleichzeitig auch als bedingende Variablen auftreten, ist zu beachten, dass diese gemäß dem bedingenden Wert festgesetzt werden. Gegebenenfalls können diese noch vor den Erwartungswertoperator gezogen werden. So erhält man etwa E(XYZ|Z = z) = E(XYz|Z = z) = zE(XY|Z = z).

(8.3.4)

• Beispiel D3-a fortgesetzt • In Tabelle 7.1.6 (Abschnitt 7.1.2) bestehen keinerlei Unabhängigkeiten zwischen den Variablen. Somit erhalten wir beispielsweise (vgl. Tab. 7.1.9): E(Z|X = 0, Y = 0) = 0, E(Z|X = 0, Y = 1) = 0.125 oder E(Z|X = 1, Y = 2) = 0.11. Da Z hier Bernoulli-verteilt ist, lassen sich diese bedingten Erwartungswerte als theoretische Anteilswerte deuten. Inhaltlich gedeutet liegt demgemäß der theoretische Anteil von Vegetariern unter weiblichen Rauchern bei 0%, unter weiblichen Gelegenheitsrauchern bei 12.5% und bei männlichen Nichtrauchern bei 11%. Weiter ergibt sich (vgl. Tab. 7.1.10): E(XY|Z = 0) = 1 ⋅ 1 ⋅ 0.11 + 1 ⋅ 2 ⋅ 0.36 = 0.83 und E(XY|Z = 1) = 1 ⋅ 1 ⋅ 0.2 + 1 ⋅ 2 ⋅ 0.4 = 1.0 Hier verzichten wir auf eine inhaltliche Deutung und beachten nur die Rechenweise. Die berechneten Größen werden jedoch für die bedingten Kovarianzen benötigt. Hierbei gilt: Cov(X, Y|Z = 0) = E(XY|Z = 0) − E(X|Z = 0)E(Y|Z = 0) = 0.83 − 0.59 ⋅ (0.19 + 2 ⋅ 0.65) = −0.0491 und Cov(X, Y|Z = 1) = E(XY|Z = 1) − E(X|Z = 1)E(Y|Z = 1) = 1.0 − 0.7 ⋅ (0.3 + 2 ⋅ 0.6) = −0.05. Wie auch unbedingt sind X und Y bedingt auf Z negativ korreliert. Inhaltlich gedeutet heißt das hier, dass sowohl bei Vegetariern (Z = 1) als auch Nichtvegetariern (Z = 0) Männer zu einem höheren Rauchkonsum neigen als Frauen (negative Korrelation zwi-

466 | 8 Ergänzungen und Verallgemeinerungen

schen X und Y). Für den Ausdruck (8.3.4) erhalten wir E(XYZ|Z = 0) = 0 ⋅ E(XY|Z = 0) = 0 bzw. E(XYZ|Z = 1) = 1 ⋅ E(XY|Z = 0) = 1. Hier verzichten wir wiederum auf eine inhaltliche Deutung und beachten nur die Berechnungsweise. • Beispiel D3-b fortgesetzt • In Bezug auf Tabelle 8.3.1 wurde bereits festgestellt, dass (i) X und Z , (ii) Y und Z, (iii) Z und (X, Y)T unabhängig sind. Dagegen sind X und Y abhängig. Hier ergeben sich bei der Berechnung bedingter Kennwerte diverse Vereinfachungsmöglichkeiten. Gemäß der im vorigen Punkt beschriebenen Logik gilt hier für jedes x = 0, 1 und y = 0, 1, 2: E(Z|X = x, Y = y) = E(Z) = 0.4. Für jedes z = 0, 1 folgt außerdem E(Y|X = 0, Z = z) = E(Y|X = 0) = 0.05/0.15 = 1/3, E(X|Y = 0, Z = z) = E(X|Y = 0) = 0.25/0.35 ≈ 0.71 und E(XY 2 |Z = z) = E(XY 2 ) = 1 ⋅ 12 ⋅ 0.35 + 1 ⋅ 22 ⋅ 0.25 = 1.35. Aus Tabelle 8.3.2 erhalten wir weiter E(X) = 0.85,

E(Y) = 0.4 + 2 ⋅ 0.25 = 0.9 und

E(XY) = 1 ⋅ 1 ⋅ 0.35 + 1 ⋅ 2 ⋅ 0.25 = 0.85. Dies führt in (8.3.4) in diesem Beispiel dann zu E(XYZ|Z = 0) = 0 bzw. E(XYZ|Z = 1) = 0.85. Schließlich erhalten wir für jedes z = 0, 1 Cov(X, Y|Z = z) = Cov(X, Y) = E(XY) − E(X)E(Y) = 0.85 − 0.85 ⋅ 0.9 = 0.085. Aufgrund der Unabhängigkeit von Z und (X, Y)T stimmen die bedingten Korrelationen mit den unbedingten überein. Im Falle von Tabelle 8.3.4 ist es umgekehrt (siehe nächster Punkt). • Beispiel 8.3.3 • In Tabelle 8.3.4 gilt für jedes z = 0, 1: Cov(X, Y|Z = z) = 0. Andererseits ist Cov(X, Y) = −0.0225. Somit sind X und Y unbedingt korreliert und bedingt unkorreliert unter Z.

8.3 Einige multivariate Verallgemeinerungen | 467

8.3.3 Sonstige Verallgemeinerungen • Funktionen unabhängiger und identisch verteilter Zufallsvektoren • Nachfolgende Resultate verallgemeinern bestimmte Resultate aus Abschnitt 7.1.3 für den Vektorfall. Satz 8.3.1: Funktionen von unabhängigen Zufallsvektoren Für gegebene Zufallsvektoren (diskret oder stetig) X = (X1 , X2 , . . . , X p )T

und

Y = (Y1 , Y2 , . . . , Y q )T

und

g 2 : ℝq → ℝs

und beliebige (messbare) Funktionen g 1 : ℝp → ℝr gilt: Sind X und Y (i) stochastisch unabhängig, so sind auch g1 (X) und g2 (Y) stochastisch unabhängig. (ii) identisch verteilt, so sind auch g1 (X) und g1 (Y) identisch verteilt. (iii) stochastisch unabhängig und identisch verteilt, so sind auch g1 (X) und g1 (Y) unabhängig und identisch verteilt.

Man beachte hier, dass (iii) unmittelbar aus (i) und (ii) folgt. Ferner setzen die Resultate (ii) und (iii) gleiche Dimension der Vektoren (p = q) und die gleiche Transformation (g1 ) voraus. Erweiterungen für den Fall von mehr als zwei Zufallsvektoren liegen auf der Hand und stellen eher eine notationelle als eine theoretische Herausforderung dar. Dazu werden möglicherweise unterschiedlich dimensionierte Zufallsvektoren wie etwa X1 , . . . , Xn betrachtet. Diese sind dann unabhängig, falls gilt: fX1 ,X2 ,...,Xn = fX1 fX2 . . . fXn . Für die individuell mittels g1 , . . . , g n transformierten Größen g1 (X1 ), g2 (X2 ), . . . , g n (Xn ) greifen dann die vorhergehenden Resultate (i)–(iii) in analoger Weise. • Beispiel D3-b fortgesetzt • Im gleichnamigen Beispiel aus dem vorhergehenden Abschnitt folgt mit (i) aus der Unabhängigkeit von Z und (X, Y)T die Unabhängigkeit von Z und X. Dies ergibt sich aus Resultat (i), wobei hier die Funktionen g1 : ℝ → ℝ und g2 : ℝ2 → ℝ

mit g1 (t) = t und g2 (s, t) = s

implizit zugrunde gelegt werden. Konkret heißt das, dass g1 (Z) = Z

und

g2 (X, Y) = X

468 | 8 Ergänzungen und Verallgemeinerungen unabhängig sind. Analog folgt die Unabhängigkeit von Z und Y mit g2 (s, t) = t. Die Resultate gelten natürlich auch für komplexere Transformationen. Beispielsweise folgt aus der Unabhängigkeit von Z und (X, Y)T auch die von Z und XY oder die von Z 2 und X 2 +Y. Entscheidend ist, dass Komponenten unabhängiger Vektoren nicht vermischt werden, wie es etwa bei XZ und Y + Z der Fall wäre. • Anwendungsbeispiel: Multivariate Stichproben • Häufige Anwendung findet das Konzept unabhängiger Zufallsvektoren in der Statistik bei der stochastischen Modellierung mehrdimensionaler Stichproben (vgl. Abschnitt 9.2). • Multivariate Normalverteilung • Die multivariate Erweiterung der Normalverteilung führt auf die multivariate Normalverteilung. Wesentliche Grundzüge dieser Verteilung seien kurz skizziert. Ist ein p-dimensionaler Zufallsvektor X = (X1 , X2 , . . . , X p )T multivariat normalverteilt bzw. sind X1 , . . . , X n gemeinsam normalverteilt, so lautet seine Dichtefunktion 1 exp(−0.5(x − μ)T Σ −1 (x − μ)), (8.3.5) fX (x1 , . . . , x p ) = (2π)p/2 |Σ|1/2 wobei x = (x1 , . . . , x p )T , μ = (μ1 , . . . , μ p )T und Σ = Cov(X). Insbesondere bezeichnet μ den Erwartungswertvektor mit E(X i ) = μ i für i = 1, . . . , p, Σ die VarianzKovarianzmatrix von X, |Σ| die Determinante und Σ −1 die Inverse von Σ. Das hochgestellte „T“ steht für die Transponierung des zentrierten Vektors x. Allgemein wird |Σ| > 0 vorausgesetzt, was die Invertierbarkeit von Σ gewährleistet. Dies schließt beispielsweise Null-Varianzen einzelner Variablen oder betragsmäßige Korrelationen von 1 aus. In kompakter Form notiert man häufig auch nur X ∼ N p (μ, Σ). Man beachte, dass für p = 1 die Matrix Σ−1 gerade dem Kehrwert der entsprechenden Varianz entspricht und sich aus (8.3.5) deshalb die gewöhnliche univariate Dichte einer Normalverteilung in Form von (7.3.10) ergibt. Die mehrdimensionale Normalverteilung ist von ausgesprochen hoher Eleganz. Sowohl für die Randverteilungen als auch für die bedingten Verteilungen ergeben sich wiederum Normalverteilungen. Ebenso sind Lineartransformationen normalverteilter Zufallsvektoren wiederum normalverteilt. Im Detail gelten folgende allgemeine Resultate (Beweise finden sich beispielsweise in Johnson und Wichern [2014]). Satz 8.3.2: Ableitungen aus der multivariaten Normalverteilung Für einen r-dimensionalen Zufallsvektor Z gelte Z ∼ N r (μZ , ΣZZ ).

8.3 Einige multivariate Verallgemeinerungen | 469

Sei weiter C eine feste (nichtstochastische) (s × r)-Matrix und c0 ein fester (nichtstochastischer) s-dimensionaler Vektor. Dann gilt: c0 + CZ ∼ N s (CμZ , CΣZZ CT ) und (Z −

−1 (Z μZ )T ΣZZ

2

− μZ ) ∼ χ (r).

(8.3.6) (8.3.7)

In Anlehnung an die Notation aus Abschnitt 8.3.2 gelte X μX ΣXX ( ) ∼ N p+q (( ), ( Y μY ΣYX

ΣXY )). ΣYY

Dann folgt daraus: X ∼ N p (μX , ΣXX ),

(8.3.8)

Y ∼ N q (μY , ΣYY ) und Y|X = x ∼ X|Y = y ∼

(8.3.9)

−1 N q (μY + ΣYX ΣXX (x − μX ), ΣYY −1 N p (μX + ΣXY ΣYY (y − μY ), ΣXX

− −

−1 ΣYX ΣXX ΣXY ), −1 ΣXY ΣYY ΣYX ),

(8.3.10) (8.3.11)

wobei Y|X = x die bedingte Verteilung von Y unter X = x und X|Y = y die bedingte Verteilung von X unter Y = y bezeichnet.

μX = μY = 0, σ2X = σ2Y = 1, σX Y = 0

μX = μY = 0, σ2X = 2, σ2Y = 1, σX Y = 0

f X Y (x,y)

f X Y (x,y)

0.20

0.20

0.15

0.15

0.10

0.10

0.05 0.00 −3

−2

−1

0

x

1

2

3 −3

−2

−1

0

1

2

3

0.05 0.00 −3

y

−2

0

x

μX = μY = 0, σ2X = σ2Y = 1, σX Y = 0.7

1

2

3 −3

−2

−1

1

2

3

y

μX = μY = 0, σ2X = σ2Y = 1, σX Y = − 0.7

f X Y (x,y)

f X Y (x,y)

0.20

0.20

0.15

0.15

0.10

0.10

0.05 0.00 −3

−1

0

−2

−1

0

x

1

2

3 −3

−2

−1

0

1

y

2

3

0.05 0.00 −3

−2

−1

0

x

1

2

3 −3

−2

−1

0

1

2

3

y

Abb. 8.3.1: Beispiele von Dichten der bivariaten Normalverteilung

Man beachte, dass sich aus (8.3.10) und (8.3.11) Formeln für bedingte Erwartungswertvektoren und bedingte Kovarianzmatrizen bei gemeinsamer Normalverteilung erge-

470 | 8 Ergänzungen und Verallgemeinerungen

ben. So erhält man beispielsweise aus (8.3.10) die Formeln: −1 (x − μX ) μY|X=x = μY + ΣYX ΣXX

ΣY|X = ΣYY −

bzw.

−1 ΣYX ΣXX ΣXY .

(8.3.12) (8.3.13)

Aus (8.3.13) lassen sich die bedingten Varianzen und bedingten Kovarianzen für einzelne Komponenten von Y bedingt auf X = x ablesen. Wie man sieht, unterscheidet sich die bedingte Kovarianzmatrix ΣY|X zwar von der Varianz-Kovarianzmatrix Cov(Y) = ΣYY , sie hängt jedoch nicht vom bedingenden Wert x ab, sondern ist konstant. Analoges folgt aus der bedingten Verteilung von X unter Y = y. Anhand der Formeln (8.3.10) und (8.3.11) lässt sich feststellen: Sofern X und Y unkorreliert sind, also ΣXY = 0 bzw. ΣYX = 0 gilt, folgt Y|X = x ∼ N q (μY , ΣYY )

bzw.

X|Y = y ∼ N p (μX , ΣXX ).

Die bedingten Verteilungen entsprechen dann den Randverteilungen. Damit sind X und Y unabhängig. Unkorreliertheit impliziert im Falle einer gemeinsamen Normalverteilung folglich Unabhängigkeit. Man beachte, dass dieser Schluss im Allgemeinen nicht zulässig ist. Dies belegt etwa Beispiel D2-d aus Abschnitt 7.2.2. Sind X und Y gemeinsam normalverteilt, so sind Unkorreliertheit und Unabhängigkeit äquivalent. In nachfolgenden Beispielen wird die theoretische Nützlichkeit obiger Resultate gezeigt. • Beispiel 8.3.4 • Sei (X, Y)T zweidimensional (bivariat) normalverteilt, d.h. μX X σ2 ( ) ∼ N2 (( ), ( X μY Y σ XY

σ XY )). σ2Y

Gemäß (8.3.8) und (8.3.9) sind dann X1 und X2 jeweils normalverteilt mit X ∼ N(μ X , σ2X )

bzw.

Y ∼ N(μ Y , σ2Y ).

Aus (8.3.6) lässt sich beispielsweise die Verteilung der gewichteten Summe c0 + c1 X + c2 Y ableiten. Mit entsprechender Wahl von c0 = c 0

und

C = (c1

c2 )

erhält man nach einigen Vereinfachungsschritten c0 + c1 X + c2 Y ∼ N(c0 + c1 μ X + c2 μ Y , c21 σ2X + c2 σ2Y + 2c1 c2 σ XY ).

(8.3.14)

Auf diese Weise lassen sich die Resultate (7.4.21)–(7.4.25) aus Abschnitt 7.4.1 dahingehend verallgemeinern, dass auf die Annahme der Unabhängigkeit verzichtet werden kann. Aus (8.3.10) folgt für die bedingte Verteilung von Y unter X = x: Y|X = x ∼ N(μ Y +

σ2 σ XY (x − μ X ), σ2Y − XY ) 2 σX σ2X

(8.3.15)

8.3 Einige multivariate Verallgemeinerungen | 471

Interessanterweise erhält man durch Umschreibung der Formel für den bedingten Erwartungswert die theoretischen Regressionskoeffizienten aus Abschnitt 7.2.2: σ XY σ XY σ XY μ Y|X=x = μ Y + 2 (x − μ X ) = μ Y − 2 μ X + 2 x = β0 + β1 x. (8.3.16) σX σX σX Der bedingte Erwartungswert liegt folglich auf der theoretischen KQ-Regressionsgeraden einer theoretischen Regression von Y auf X. • Beispiel 8.3.5 • Sei (X, Y, Z)T dreidimensional normalverteilt, d.h. μZ σ2Z Z ( X ) ∼ N3 (( μ X ) , (σ ZX μY σ YZ Y

σ ZX σ2X σ XY

σ ZY σ XY )) . σ2Y

Sofern wir im Sinne einer notationsmäßigen Angleichung setzen X=Z

Y = (X, Y)T ,

und

erhalten wir als bedingte Verteilung von (X, Y)T unter Z gerade Formel (8.3.10). Aus Formel (8.3.13) erhält man als bedingte Kovarianzmatrix von (X, Y)T unter Z Σ XY|Z = ( =(

σ2X|Z σ XY|Z

σ XY|Z σ2X 2 )=( σ Y|Z σ XY

σ2X − σ2XZ /σ2Z σ XY − σ XZ σ YZ /σ2Z

σ XZ 1 σ XY )−( ) (σ XY σ YZ σ2Z σ2Y

σ XZ )

σ XY − σ XZ σ YZ /σ2Z ). σ2Y − σ2YZ /σ2Z

Daraus ergeben sich Formeln für die bedingten Varianzen und für die bedingte Kovarianz: σ2X|Z = Var(X|Z) = σ2X − σ2XZ /σ2Z ,

(8.3.17)

σ2Y|Z

(8.3.18)

= Var(Y|Z) =

σ2Y



σ2YZ /σ2Z ,

σ XY|Z = Cov(X, Y|Z) = σ XY − σ XZ σ YZ /σ2Z .

(8.3.19)

Die Formel für die bedingte Korrelation zwischen X und Y gegeben Z lautet folglich ϱ XY|Z = Corr(X, Y|Z) = σ XY|Z /√ σ2X|Z σ2Y|Z .

(8.3.20)

Setzen wir (8.3.17)–(8.3.19) in (8.3.20) ein, erhalten wir nach einigen Umformungen ϱ XY − ϱ XZ ϱ YZ ϱ XY|Z = (8.3.21) √(1 − ϱ2XZ )(1 − ϱ2YZ ) Diese Formel definiert zugleich auch die partielle Korrelation zwischen X und Y gegeben Z (Abschnitt 12.2.1). Sie erweist sich insbesondere im Rahmen des Regressionsmodells (Kap. 12) als recht nützlich. • Multivariate asymptotische Aussagen • Prinzipiell lassen sich alle in den Abschnitten 7.4.2 und 8.2 behandelten Definitionen und Sätze in Bezug auf stochastische Konvergenzen und Verteilungskonvergenzen auf den Vektorfall erweitern. Ausgangs-

472 | 8 Ergänzungen und Verallgemeinerungen

punkt ist dann im Allgemeinen eben eine Folge von Zufallsvektoren X1 , . . . , Xn , . . . , kurz notiert mit (Xn ). Zur Vereinfachung betrachten wir den zweidimensionalen Fall und notieren die entsprechende Folge mit (X n , Y n )T . Sind die Zufallsvektoren (X1 , Y1 )T , . . . , (X n , Y n )T beispielsweise unabhängig und identisch verteilt mit μX Xi μ = E (( )) = ( ) Yi μY

Xi σ2 Σ = Cov (( )) = ( X Yi σ XY

und

σ XY ) σ2Y

für i = 1, . . . , n und |Σ| > 0, so gilt (vgl. etwa Knight [2000, Theorem 3.12]): – Zn = √n(

Xn − μX

0 σ2 a ) ∼ N (( ), ( X 0 σ XY Y n − μY

σ XY )) . σ2Y

(8.3.22)

Das ist die zweidimensionale Version von Resultat (8.2.10). (8.3.22) gilt auch bei heterogener Verteilung unter Annahme (B) und den beiden Konvergenzkriterien n→∞

μ n 󳨀󳨀󳨀󳨀󳨀→ μ

und

n→∞

Σ n 󳨀󳨀󳨀󳨀󳨀→ Σ,

ohne dass wir dies näher ausführen möchten. Auch auf der Ebene der stochastischen Konvergenz ließen sich etliche Erweiterungen formulieren. Es sei lediglich auf folgendes wichtiges Resultat hingewiesen, welches Satz 8.2.3 verallgemeinert (vgl. White [2001, Proposition 2.27]): Satz 8.3.3: Multivariater Stetigkeitssatz Sei (Yn ) eine Folge p-dimensionaler Zufallsvektoren, h : ℝp → ℝq eine stetige Funktion und θ ein Vektor fester Werte. Sofern h(θ) definiert ist und gilt p

Yn 󳨀󳨀→ θ, folgt daraus für Un = h(Yn ): p

Un 󳨀󳨀→ h(θ)

bzw.

p

h(Yn ) 󳨀󳨀→ h(θ).

Hierbei ist zu bemerken, dass (Yn ) gegen θ stochastisch konvergiert, sofern jede Komponente von (Yn ) gegen die entsprechende Komponente des Vektors θ stochastisch konvergiert. • Beispiel 8.3.6 • Seien (X1 , Y1 )T , . . . , (X n , Y n )T u.i.v. wie (X, Y)T mit E(X) = μ X und E(Y) = μ Y . In Erweiterung von Satz 8.3.1 folgt, dass dann folglich auch X1 , . . . , X n u.i.v. wie X sind, Y1 , . . . , Y n u.i.v. wie Y, X12 , . . . , X 2n u.i.v. wie X 2 und die gemischten Produkte X1 Y1 , . . . , X n Y n u.i.v. wie XY sind. Gemäß dem GGZ für k-te Momente (Satz 8.2.4) folgen daraus unter der Annahme endlicher zweiter Momente die Resultate: p

X n 󳨀󳨀→ μ X ,

(8.3.23)

8.3 Einige multivariate Verallgemeinerungen | 473

p

Y n 󳨀󳨀→ μ Y ,

(8.3.24)

n

p 1 ∑ X 2i 󳨀󳨀→ E(X 2 ) und n i=1 p 1 n ∑ X i Y i 󳨀󳨀→ E(XY). n i=1

(8.3.25) (8.3.26)

Vektoriell ausgedrückt erhält man daraus dann (X n , Y n ,

p 1 n 2 1 n ∑ X , ∑ X i Y i )T 󳨀󳨀→ (μ X , μ Y , E(X 2 ), E(XY))T . n i=1 i n i=1

(8.3.27)

Aus (8.3.27) folgt dann mit dem multivariaten Stetigkeitssatz 1 n 2 2 p ∑ X i − X n 󳨀󳨀→ E(X 2 ) − μ2X , d.h. n i=1

(8.3.28)

p 1 n ∑ (X i − X n )2 󳨀󳨀→ Var(X) = σ2X und n i=1

(8.3.29)

p 1 n ∑ X i Y i − X n Y n 󳨀󳨀→ E(XY) − μ X μ Y , d.h. n i=1

(8.3.30)

p 1 n ∑ (X i − X n )(Y i − Y n ) 󳨀󳨀→ Cov(X, Y) = σ XY . n i=1

(8.3.31)

Die Ausdrücke (8.3.29) und (8.3.31) verleihen der theoretischen Varianz bzw. der theoretischen Kovarianz letztlich ihre inhaltlichen Deutungen. Die Ausdrücke auf den linken Seiten werden wir später als Stichprobenvarianz bzw. Stichprobenkovarianz bezeichnen (Abschnitt 9.3). • Gemischt skalierte Vektoren • In diesem Lehrbuch nennen wir einen Zufallsvektor gemischt skaliert, wenn er sowohl diskrete als auch stetige Zufallsvariablen enthält. Diesen Fall haben wir bei allen Betrachtungen zur Erzielung einer einfacheren Darstellung bisher außer Acht gelassen. Prinzipiell stellt dieser Fall jedoch kein Problem dar, wenn beachtet wird, dass dann Additions- und Integrationskalkül parallel zu verwenden sind. Alle bisher behandelten Definitionen, Konzepte und Sätze sind auch für diesen Fall gültig, sofern keine bestimmte Verteilung wie etwa eine Normal- oder Binomialverteilung zwingend vorausgesetzt wurde. Gemischte Skalierungen sind durchaus von hoher Relevanz und in der Praxis stochastischer Modellierungen keinesfalls Ausnahmeerscheinungen. • Beispiel 8.3.7 • Analysiert man den Zusammenhang zwischen Haushaltsgröße (in Anzahl von Personen) und Haushaltsbruttoeinkommen (in Euro), so erscheint auf theoretischer Ebene eine Modellierung mit einer diskreten Variablen X (1,2,. . . ) und einer stetigen Variablen Y (Einkommen) adäquat. Angenommen auf Basis empirischer

474 | 8 Ergänzungen und Verallgemeinerungen

Erfahrungswerte postuliere man: P(X = 1) = p1 , P(X = 2) = p2 , P(X = 3) = p3 und P(X = 4) = p4 . Weiter gelte für die bedingte Verteilung von Y unter X = x: Y|X = 1 ∼ N(μ1 , σ21 ),

Y|X = 2 ∼ N(μ2 , σ22 ),

Y|X = 3 ∼ N(μ3 , σ23 ),

Y|X = 4 ∼ N(μ4 , σ24 ).

Dann sind X und Y unabhängig, falls die bedingten Verteilungen von Y unter X = x identisch sind. Die Wahrscheinlichkeit, dass ein Haushalt beispielsweise weniger als 3 Personen und zugleich ein Einkommen von höchstens z Euro aufweist, kann dann über folgende Rechnung ermittelt werden: P(X ≤ 2, Y ≤ z) = P(X = 1, Y ≤ z) + P(X = 2, Y ≤ z) = P(X = 1)P(Y ≤ z|X = 1) + P(X = 2)P(Y ≤ z|X = 2) z − μ1 z − μ2 = p1 Φ( ) + p2 Φ( ). σ1 σ2 Hierbei wird nun die mithilfe der Verteilungsfunktion der Standardnormalverteilung durchgeführte Integration bezüglich Y mit der Addition bezüglich X kombiniert.

ĊǘȪɑ‫€ ޠܩڴ ޠ‬ɱǃ˺Ɉ˥Ȫ̝ǘ‫ ޠ‬ý˥Ɔ˥Ȫ˒˥ȪɈ‫ ޠݮ ޠ‬ĺǘʾƭȪɱǃ˺ɱȇ‫̝ ޠ‬ʂɱ‫ޠ‬ FɩʳȪʾȪǘ‫˺ޠ‬ɱǃ‫ޠ‬ĊȚǘʂʾȪǘ Die‫ޠ‬deskriptiven‫ޠ‬Methoden‫ޠ‬aus‫ޠ‬Teil‫ޠ‬1‫ޠ‬zielen‫ޠ‬darauf‫ޠ‬ab,‫ޠ‬konkret‫ޠ‬vorliegende‫ޠ‬Daten‫ޠ‬hinsichtlich‫ޠ‬wesentlicher‫ޠ‬Eigenschaften‫ޠ‬mit‫ޠ‬grafischen‫ޠ‬und‫ޠ‬rechnerischen‫ޠ‬Mitteln‫ޠ‬zu‫ޠ‬beschreiben.‫ޠ‬Sie‫ޠ‬beruhen‫ޠ‬auf‫ޠ‬keinem‫ޠ‬Wahrscheinlichkeitskalkül,‫ޠ‬sondern‫ޠ‬sind‫ޠ‬in‫ޠ‬erster‫ޠ‬ Linie‫ޠ‬datengestützt.‫ޠ‬Im‫ޠ‬Gegensatz‫ޠ‬dazu‫ޠ‬benötigt‫ޠ‬der‫ޠ‬theoretische‫ޠ‬Kalkül‫ޠ‬der‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬in‫ޠ‬Teil‫ޠ‬2‫ޠ‬keinerlei‫ޠ‬Daten.‫ޠ‬Was‫ޠ‬jetzt‫ޠ‬in‫ޠ‬Teil‫ޠ‬3‫ޠ‬folgt,‫ޠ‬ist‫ޠ‬eine‫ޠ‬Art‫ޠ‬ Vereinigung‫ޠ‬der‫ޠ‬ersten‫ޠ‬beiden‫ޠ‬Teile‫ޠ‬zur‫ޠ‬induktiven‫ޠ‬Statistik‫( ޠ‬schließenden‫ޠ‬Statistik).‫ޠ‬Diese‫ޠ‬ist‫ޠ‬immer‫ޠ‬dann‫ޠ‬notwendig,‫ޠ‬wenn‫ޠ‬vorliegende‫ޠ‬Daten‫ޠ‬einer‫ޠ‬gewissen‫ޠ‬Zufallsabhängigkeit‫ޠ‬unterworfen‫ޠ‬sind‫ޠ‬und‫ޠ‬somit‫ޠ‬stochastischen‫ޠ‬Charakter‫ޠ‬aufweisen.‫ޠ‬Dies‫ޠ‬ hat‫ޠ‬dann‫ޠ‬regelmäßig‫ޠ‬Deutungsprobleme‫ޠ‬zur‫ޠ‬Folge.‫ޠ‬Diese‫ޠ‬lassen‫ޠ‬sich‫ޠ‬in‫ޠ‬Schätz-‫ޠ‬und‫ޠ‬ Testprobleme‫ޠ‬einteilen‫ޠ‬und‫ޠ‬mit‫ޠ‬den‫ޠ‬Methoden‫ޠ‬der‫ޠ‬statistischen‫ޠ‬Schätztheorie‫ޠ‬bzw.‫ޠ‬ der‫ޠ‬statistischen‫ޠ‬Testtheorie‫ޠ‬handhaben.‫ޠ‬Wesentliche‫ޠ‬Elemente‫ޠ‬davon‫ޠ‬wurden‫ޠ‬bereits‫ޠ‬in‫ޠ‬Abschnitt‫ޠ‬1.2‫ޠ‬einführend‫ޠ‬erläutert.‫ޠ‬Im‫ޠ‬Kern‫ޠ‬geht‫ޠ‬es‫ޠ‬darum,‫ޠ‬die‫ޠ‬Zufallsabhängigkeit‫ޠ‬der‫ޠ‬Daten‫ޠ‬mithilfe‫ޠ‬der‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬adäquat‫ޠ‬zu‫ޠ‬modellieren.‫ޠ‬ Dabei‫ޠ‬wird‫ޠ‬das‫ޠ‬empirische‫ޠ‬Datenmaterial‫ޠ‬als‫ޠ‬Realisation‫ޠ‬einer‫ޠ‬Stichprobe‫ޠ‬aus‫ޠ‬einer‫ޠ‬ (teils‫ޠ‬unbekannten)‫ޠ‬übergeordneten‫ޠ‬Grundgesamtheit‫ޠ‬aufgefasst.‫ޠ‬Alle‫ޠ‬Aussagen,‫ޠ‬die‫ޠ‬ man‫ޠ‬dann‫ޠ‬von‫ޠ‬der‫ޠ‬Stichprobe‫ޠ‬auf‫ޠ‬diese‫ޠ‬Grundgesamtheit‫ޠ‬überträgt,‫ޠ‬formen‫ޠ‬den‫ޠ‬eigentlichen‫ޠ‬statistischen‫ޠ‬Schluss‫ޠ–ޠ‬die‫ޠ‬Induktion. Bis‫ ޠ‬etwa‫ ޠ‬zum‫ ޠ‬Jahr‫ ޠ‬1935‫ ޠ‬waren‫ ޠ‬alle‫ ޠ‬für‫ ޠ‬diesen‫ ޠ‬Teil‫ ޠ‬des‫ ޠ‬Lehrbuches‫ ޠ‬relevanten‫ޠ‬ Grundlagen‫ ޠ‬und‫ ޠ‬Begrifflichkeiten‫ޠ‬de r‫ޠ‬in duktiven‫(ޠ‬m athematischen)‫ޠ‬St atistik‫ޠ‬schon‫ޠ‬ weitestgehend‫ ޠ‬entwickelt‫ ޠ‬bzw.‫ ޠ‬eingeführt.‫ ޠ‬Fundamentale‫ ޠ‬Beiträge‫ ޠ‬erbrachten‫ ޠ‬hier‫ޠ‬ insbesondere‫ޠ‬Karl‫ޠ‬Pearson‫[ޠ‬1900a,‫ޠ‬1904],‫ޠ‬William‫ޠ‬Gosset‫[ޠ‬1908],‫ޠ‬Ronald‫ޠ‬Fisher‫[ޠ‬1922,‫ޠ‬ 1925a,‫ޠ‬1925b,‫ޠ‬1935]‫ޠ‬sowie‫ޠ‬Jerzy‫ޠ‬Neyman‫ޠ‬und‫ޠ‬Egon‫ޠ‬Pearson‫[ޠ‬1928,‫ޠ‬1933].‫ޠ‬In‫ޠ‬Bezug‫ޠ‬auf‫ޠ‬ Fisher‫ޠ‬ist‫ޠ‬herauszustellen,‫ޠ‬dass‫ޠ‬er‫ޠ‬einerseits‫ޠ‬auf‫ޠ‬theoretischer‫ޠ‬Ebene‫ޠ‬maßgeblich‫ޠ‬zur‫ޠ‬ Weiterentwicklung‫ ޠ‬der‫ ޠ‬Test-‫ ޠ‬und‫ ޠ‬Schätztheorie‫ ޠ‬beitrug‫ ޠ‬und‫ ޠ‬andererseits‫ ޠ‬auf‫ ޠ‬angewandter‫ ޠ‬Ebene‫ ޠ‬mit‫ ޠ‬seinen‫ ޠ‬beiden‫ ޠ‬viel‫ ޠ‬beachteten‫ ޠ‬Werken‫„ ޠ‬Statistical‫ ޠ‬Methods‫ ޠ‬for‫ޠ‬ Research‫ ޠ‬Workers“‫( ޠ‬Fisher‫[ ޠ‬1925a])‫ ޠ‬und‫„ ޠ‬The‫ ޠ‬Design‫ ޠ‬of‫ ޠ‬Experiments“‫( ޠ‬Fisher‫[ ޠ‬1935])‫ޠ‬ die‫ޠ‬Verwendung‫ޠ‬statistischer‫ޠ‬Methoden‫ޠ‬in‫ޠ‬Forschungsexperimenten‫ޠ‬fundamental‫ޠ‬geprägt‫ޠ‬hat.‫ޠ‬Umfassende‫ޠ‬und‫ޠ‬detaillierte‫ޠ‬Darstellungen‫ޠ‬zur‫ޠ‬Geschichte‫ޠ‬der‫ޠ‬induktiven‫ޠ‬ Statistik‫ޠ‬bieten‫ޠ‬beispielsweise‫ޠ‬Hald‫[ޠ‬1998,‫ޠ‬2007]‫ޠ‬und‫ޠ‬David‫[ޠ‬1995]. In‫ޠ‬Kapitel‫ޠ‬9‫ޠ‬wird‫ޠ‬zunächst‫ޠ‬die‫ޠ‬statistische‫ޠ‬Modellierung‫ޠ‬und‫ޠ‬Handhabung‫ޠ‬von‫ޠ‬ Schätz-‫ޠ‬und‫ޠ‬Testproblemen‫ޠ‬anhand‫ޠ‬erster‫ޠ‬Beispiele‫ޠ‬erläutert.‫ޠ‬Im‫ޠ‬Gegensatz‫ޠ‬zu‫ޠ‬Abschnitt‫ޠ‬1.2‫ޠ‬kann‫ޠ‬dabei‫ޠ‬nun‫ޠ‬von‫ޠ‬der‫ޠ‬Wahrscheinlichkeitsrechnung‫ޠ‬vollumfänglich‫ޠ‬Gebrauch‫ޠ‬gemacht‫ޠ‬werden.‫ޠ‬In‫ޠ‬den‫ޠ‬Kapiteln‫ޠ‬10‫ޠ‬und‫ޠ‬11‫ޠ‬werden‫ޠ‬dann‫ޠ‬jeweils‫ޠ‬getrennt‫ޠ‬die

476 | 8 Ergänzungen und Verallgemeinerungen

Grundlagen und Verfahren des statistischen Schätzens bzw. des statistischen Testens ausführlich behandelt. Dem linearen Regressionsmodell ist mit Kapitel 12 ein eigenes Kapitel gewidmet. Es ist das wohl wichtigste und populärste statistische Modell komplexerer Natur.

9 Einführung in die induktive Statistik In Abschnitt 9.1 wird anhand von Beispielen skizziert, wie sich statistische Probleme mithilfe des Wahrscheinlichkeitsapparats modellieren, interpretieren und handhaben lassen. Die hierbei verwendeten beiden Schlussweisen, Schätzen und Testen, werden dabei einführend erklärt. Ein wichtiger Begriff, der in diesem Zusammenhang immer wieder benötigt wird, ist der einer Stichprobe. Differenzierte Ausführungen hierzu finden sich in Abschnitt 9.2. Auf formaler und notationeller Ebene erfordern induktive Methoden aufgrund der gleichzeitigen Verwendung empirischen und theoretischen Kalküls wichtige Unterscheidungen. Dieser Gesichtspunkt wird in Abschnitt 9.3 thematisiert.

9.1 Modellierung und Handhabung von Schätz- und Testproblemen

Generell unterscheidet man in der induktiven Statistik zwischen Schätz- und Testproblemen. Für erstere steht der Methodenapparat der statistischen Schätztheorie zur Verfügung. Letztere sind als Entscheidungsprobleme interpretierbar und werden mit den Methoden der statistischen Testtheorie behandelt. Voraussetzung ist in beiden Fällen eine geeignete statistische Modellierung des Problems. Der Gewinn, der sich in praktischer Hinsicht daraus ergibt, sind konkrete Wahrscheinlichkeitsangaben darüber, mit welcher Sicherheit oder Unsicherheit bestimmte statistische Angaben oder Entscheidungen einhergehen.

• Hintergrund und Überblick • In Abschnitt 1.2 wurden die Begriffe „statistisches Problem“ und „statistisches Modell“ eingeführt. Ebenso wurden methodische Grundansätze der induktiven Statistik bereits exemplarisch erläutert. Mithilfe der in Teil 2 behandelten Wahrscheinlichkeitsrechnung werden diese Begriffe und Ansätze nun anhand nachfolgender Beispiele präzisiert und detaillierter erklärt. Abbildung 9.1.1 stellt den hierbei zugrunde gelegten Zusammenhang von Problemstellungen, Methoden und Zielen der induktiven Statistik vereinfachend dar. Induktive Statistik Statistisches Problem:

Schätzproblem

Entscheidungs−/Testproblem

Methodischer Ansatz:

Statistisches Schätzen

Statistisches Testen

Quantifizierung von...

Sicherheitswahrscheinlichkeiten

Irrtumswahrscheinlichkeiten

Abb. 9.1.1: Methodik der induktiven Statistik

https://doi.org/10.1515/9783110744194-009

478 | 9 Einführung in die induktive Statistik

• Beispiel 9.1.1: Mensabefragung • Gegeben sei die Situation aus Beispiel 1.2.1 in Abschnitt 1.2. Da Befragungen auf Stichprobenbasis zufallsabhängig sind, können darüber erhobene Häufigkeiten und Anteilswerte nicht „wortwörtlich“ genommen werden. Es besteht folglich ein statistisches Problem. Zur Modellierung des stochastischen Verhaltens der in diesem Fall relevanten Statistiken eignet sich die Binomialverteilung (Abschnitt 7.3.1). Bezeichnet π den tatsächlichen Anteil von Mensabefürwortern unter allen Studierenden, so lässt sich die Präferenz eines einzelnen zufällig ausgewählten Studierenden über eine Bernoulli-verteilte Zufallsvariable X mit P(X = 1) = π

und

P(X = 0) = 1 − π

beschreiben. Im Falle von 50 zufällig ausgewählten Studierenden ergibt sich die Anzahl von Mensabefürwortern in der Stichprobe dann aus der Summe 50

S50 = ∑ X i ∼ B(50, π),

(9.1.1)

i=1

wobei X1 , . . . , X50 unabhängig B(1, π)-verteilt sind. Diese u.i.v.-Annahme gilt zumindest approximativ, falls der Auswahlsatz klein ist (vgl. Abschnitt 9.2). Die Summe selbst ist dann B(50, π)-verteilt. Diese Rahmenbedingungen stellen hier das statistische Modell dar, über das sich die in Beispiel 1.2.1 aufgeworfenen Fragestellungen handhaben lassen. Wir beginnen mit dem statistischen Entscheidungsproblem, ab welchem Mehrheitsverhältnis innerhalb einer Stichprobe vom Umfang n = 50 „evident“ von einer mehrheitlichen Präferenz für die Mensa unter allen Studierenden auszugehen ist. Mit anderen Worten geht es darum, eine sinnvolle Entscheidungsregel zwischen den beiden Möglichkeiten π ≤ 0.5

und

π > 0.5

(9.1.2)

zu finden. Nehmen wir hypothetisch an, dass die Anteile von Befürwortern und Nichtbefürwortern mit jeweils 50% genau gleich sind, gilt: S50 ∼ B(50, π). Das linke Schaubild von Abbildung 1.2.3 zeigt die korrespondierende Wahrscheinlichkeitsfunktion. Dies impliziert dann beispielsweise 50

50 )0.550 ≈ 0.0595 oder i

P(S50 ≥ 31) = ∑ ( i=31 50

50 )0.550 ≈ 0.0013. i

P(S50 ≥ 36) = ∑ ( i=36

Die Wahrscheinlichkeit für mehr als 30 Befürworter beträgt also nur ca. 6% und für mehr als 35 Befürworter nur ca. 0.1%. Liegt der tatsächliche Anteil von Befürwortern unterhalb von 50%, d.h. ist eine Mehrheit gegen die Mensa, so erhalten wir eine

9.1 Modellierung und Handhabung von Schätz- und Testproblemen |

479

B(50, π)-Verteilung mit π < 0.5. Ist tatsächlich eine Mehrheit für die Mensa, erhalten wir hingegen eine B(50, π)-Verteilung mit π > 0.5. In ersten Fall verschiebt sich die Wahrscheinlichkeitsmasse nach links, womit die Wahrscheinlichkeiten P(S50 ≥ 31) und P(S50 ≥ 36) kleiner werden als für π = 0.5. In zweiten Fall verschiebt sich die Verteilung dagegen nach rechts, womit die betreffenden Wahrscheinlichkeiten größer werden (vgl. hierzu auch Abbildung 7.3.3 für den Fall einer B(10, π)-Verteilung). Dies bedeutet, dass es nicht nur aus intuitiver, sondern auch aus theoretischer Sicht plausibel ist, bei hohen Werten von S50 auf eine mehrheitliche Präferenz für die Mensa zu schließen, bei niedrigen Werten jedoch nicht. Was als „hoch“ bzw. „niedrig“ eingestuft wird, wird anhand der Wahrscheinlichkeiten, wie sie oben exemplarisch berechnet wurden, festgemacht. Diese werden später als Irrtumswahrscheinlichkeiten bezeichnet, die korrespondierenden Entscheidungsgrenzen wie 30 oder 35 als kritische Werte. Insgesamt entspricht diese Vorgehensweise der Methode eines statistischen Testverfahrens. Als nächstes befassen wir uns mit dem statistischen Schätzproblem, ein wohlbegründetes Intervall für den tatsächlichen Anteilswert von Befürwortern zu konstruieren. Sofern 40 von 50 Studierenden die Mensa befürworten, entspricht dies einem Anteilswert von 80% in der Stichprobe. Das rechte Schaubild von Abbildung 1.2.3 zeigt die Verteilung von S50 für π = 0.8. Analog wie zuvor gilt wieder, dass sich die Verteilung für π > 0.8 nach rechts und für π < 0.8 nach links verschiebt. So erscheint es plausibel, nur diejenigen Werte noch als „potenziell mögliche“ Werte zu erachten, die im Sinne der B(50, 0.8)-Verteilung nicht allzu groß oder allzu klein sind. Beispielsweise implizieren die Wahrscheinlichkeiten 34

50 )0.8i (1 − 0.8)50−i ≈ 0.0308 i

P(S50 ≤ 34) = ∑ ( i=0 50

und

50 )0.8i (1 − 0.8)50−i ≈ 0.0185 i

P(S50 ≥ 46) = ∑ ( i=46

die Grenzwerte 35 und 45, deren Unter- bzw. Überschreitung in der Summe nur mit ca. 5% Wahrscheinlichkeit möglich ist. Das hierdurch implizierte Intervall [0.7, 0.9] für den zu schätzenden Parameter π wird später als Konfidenzintervall (Sicherheitsintervall) bezeichnet. Die abgedeckte Wahrscheinlichkeitsmasse von 95% wird in diesem Zuge dann als Konfidenzniveau (Sicherheitswahrscheinlichkeit) bezeichnet. Umgekehrt macht es Sinn, die verbleibende Restunsicherheit von 5% gleichsam wie bei einem Test als Irrtumswahrscheinlichkeit zu bezeichnen. Somit besteht zwischen Test- und Schätzproblemen eine gewisse Äquivalenz (vgl. Abschnitt 11.1.3). • Beispiel 9.1.2: Gepäckabfertigungszeiten • Zur Bedarfsermittlung von Personal bei der Gepäckannahme an einem Flughafen soll die durchschnittliche Abfertigungszeit geschätzt werden. Hierzu werden stichprobenhaft 10 Abfertigungsvorgänge zeit-

480 | 9 Einführung in die induktive Statistik

lich gemessen. Für das hiermit einhergehende statistische Schätzproblem soll ein geeignetes statistisches Modell verwendet werden. Die 10 gemessenen Zeiten können nun beispielsweise, sofern gerechtfertigt, über unabhängige und identisch verteilte Zufallsvariablen X1 , . . . , X10 modelliert werden. Mit der zusätzlichen Annahme, dass die Abfertigungszeiten insgesamt N(μ, σ2 )verteilt sind, erhält man für das stochastische Mittel gemäß (7.4.25) X=

1 10 ∑ X i ∼ N(μ, σ2 /10). 10 i=1

f X (x )

(9.1.3)

Schätzung durch Stichprobenvarianz 2 X ~ N (9.52, σ 10)

2.5%

q 0.025

95%

9.52

2.5%

q 0.975

x

Abb. 9.1.2: Schwankungsverhalten des Stichprobenmittels für μ = 9.52

Die weitere Vorgehensweise würde dann nach analogen Prinzipien wie in Beispiel 9.1.1 erfolgen. Sofern man als mittlere Abfertigungszeit in der Stichprobe beispielsweise x = 9.52 erhält, wäre ein wohlbegründetes 95%-Sicherheitsintervall für den Parameter μ gegeben durch [q0.025 , q0.975 ], wobei q0.025 und q0.975 die entsprechenden Quantile einer N(9.52, σ2 /10)-Verteilung sind (vgl. Abb. 9.1.2). Im Detail ergäbe sich freilich noch das Problem, dass die Varianz σ2 unbekannt ist. Inwiefern hier ersatzweise die empirische Varianz in der Stichprobe als Schätzung für σ2 verwendet werden kann, wird später in Kapitel 10 (Beispiel 10.2.2). geklärt. • Beispiel 9.1.3: Pflanzenexperiment • Es soll die Tauglichkeit eines bestimmten Düngemittels für eine bestimmte Nutzpflanze experimentell untersucht werden. Dazu werden unter sonst identischen Bedingungen jeweils drei Exemplare einmal ohne und einmal mit Düngung angepflanzt. Statistische Problemstellungen, die sich hierbei ergeben, sind Fragen nach der grundsätzlichen Wirksamkeit des Düngemittels (ob es überhaupt wirksam ist) und der Stärke des Düngeeffekts. Anhaltspunkte darüber sollen die nach einem bestimmten Zeitraum gemessenen Wuchshöhen liefern (vgl. Abb. 1.2.1). Da diese generell zufälligen Schwankungen unterliegen und somit keine eindeutige Zuordnung von Ursachen möglich sind, gehen die zu untersuchenden Fragen automatisch mit einem statistischen Test- und Schätzproblem einher.

9.2 Was versteht man unter einer Stichprobe? | 481

In einem statistischen Modellierungsansatz könnte man nun beispielsweise, sofern gerechtfertigt, die Wuchshöhen der ohne Düngung gezüchteten Pflanzen als unabhängige N(μ0 , σ2 )-verteilte Zufallsvariablen Y01 , Y02 und Y03 modellieren und die der gedüngten Pflanzen als unabhängige N(μ1 , σ2 )-verteilte Zufallsvariablen Y11 , Y12 und Y13 . Die Frage nach der generellen Wirksamkeit lässt sich dann als Entscheidungsproblem zwischen μ0 = μ1

und

μ 0 ≠ μ 1

1 3 ∑ Y0i ∼ N(μ0 , σ2 /3) 3 i=1

und

Y1 =

(9.1.4)

auffassen. Da gemäß (7.4.25) Y0 =

1 3 ∑ Y1i ∼ N(μ1 , σ2 /3) 3 i=1

gilt, erhält man gemäß (7.4.21) für das stochastische Verhalten der Differenz Y 1 − Y 0 ∼ N(μ1 − μ0 , 2σ2 /3).

(9.1.5)

Je größer diese Differenz ausfällt, desto eher wird man auf eine positive oder negative Wirkung schließen. Definiert man die Effektstärke als theoretische Differenz μ1 − μ0 , so lässt sich diese über die Mittelwertdifferenz (9.1.5) schätzen. Ähnlich wie zuvor kann dabei auch ein Sicherheitsintervall für diese Schätzung konstruiert werden. Allerdings muss sowohl beim Testen als auch beim Schätzen die unbekannte Varianz σ2 geschätzt werden, was im Detail dann zu leichten Veränderungen führt (vgl. spätere Fortführung in Beispiel 10.2.3). • Zusammenfassung • Ziel jeder statistischen Modellierung ist es, das stochastische Verhalten der für ein Test- oder Schätzproblem maßgeblichen Statistik mehr oder weniger genau zu bestimmen, wie es etwa in (9.1.1), (9.1.3) oder (9.1.5) der Fall ist. Daraus lassen sich dann wahrscheinlichkeitstheoretisch begründete Entscheidungsregeln und Angaben ableiten. Die Schätz- und Testprobleme beziehen sich dabei häufig auf theoretische Kenngrößen (Parameter) der verwendeten Modelle und können darüber präzise formuliert werden.

9.2 Was versteht man unter einer Stichprobe?

Stichproben schlagen im Kern die Brücke zwischen Empirie und Theorie. Auf Basis realisierter Stichproben, d.h. konkret vorliegender Beobachtungswerte, können mittels statistischer Modellierung wahrscheinlichkeitstheoretisch fundierte Schlüsse in Bezug auf vorgegebene reale oder hypothetische Grundgesamtheiten gezogen werden. Im Zuge dessen sind Repräsentativität und Ziehungsschema solcher realer oder hypothetischer Stichproben zu prüfen bzw. zu spezifizieren.

482 | 9 Einführung in die induktive Statistik

• Stichproben und Stichprobenvariablen • Der Begriff der Stichprobe wurde im vorhergehenden Abschnitt bereits mehrfach verwendet. Zur definitorischen Eingrenzung halten wir uns an folgende eher allgemein gehaltene Umschreibung: Definition 9.2.1: Stichprobe und Stichprobenvariablen In der induktiven Statistik versteht man unter einer Stichprobe ein Ensemble von Zufallsvariablen, das bei der statistischen Modellierung eines Schätz- oder Testproblems jeweils relevant ist. Die Zufallsvariablen heißen dann auch Stichprobenvariablen. Beispielsweise besteht die Stichprobe in Beispiel 9.1.1 aus unabhängigen Bernoulliverteilten Zufallsvariablen X1 , . . . , X n , während sie sich in Beispiel 9.1.2 aus unabhängigen normalverteilten Zufallsvariablen zusammensetzt. In Beispiel 9.1.3 wird die Stichprobe aus unabhängigen normalverteilten Zufallsvariablen Y01 , Y02 , Y03 , Y11 , Y12 und Y13 gebildet, wobei die ersten drei möglicherweise anders verteilt sind. • Realisation einer Stichprobe • Als Ensemble von Zufallsvariablen sind Stichproben zunächst einmal nur wahrscheinlichkeitstheoretische Konstrukte. Jedoch kommt ein wesentlicher Aspekt hinzu, der die Brücke zwischen Empirie und Theorie schlägt und den Unterschied der Statistik zur reinen Wahrscheinlichkeitstheorie ausmacht: Dies sind die Realisationen von Stichproben. Definition 9.2.2: Realisation einer Stichprobe Unter der Realisation einer Stichprobe versteht man die korrespondierend zu einer Stichprobe X1 , . . . , X n konkret vorliegenden Beobachtungswerte (Realisationen), welche mit Kleinbuchstaben x1 , . . . , x n notiert werden. Eine mögliche Realisation der Stichprobe in Beispiel 9.1.1 mit n = 50 wäre beispielsweise: 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0. Dabei gilt: x1 = 0, x2 = 1, . . . , x50 = 0. Würde man ein weiteres Mal eine Stichprobe vom Umfang 50 ziehen, würden die neuen Realisationen mit sehr hoher Wahrscheinlichkeit von den gerade vorliegenden abweichen. Wie bereits festgestellt, erzeugt dieser Umstand ein statistisches Problem.

9.2 Was versteht man unter einer Stichprobe? | 483

• Induktion • Wie aus Definition 9.2.1 hervorgeht, sind Stichproben stets im Zusammenhang statistischer Probleme zu sehen. Ziel jeder statistischen Untersuchung ist es, über eine bestimmte Zielmenge von Objekten, Personen oder Vorgängen, die sich durch sachliche, räumliche und zeitliche Identifikationskriterien abgrenzt, bestimmte statistische Aussagen zu treffen. In vielen Fällen sind dabei die Objekte, Personen oder Vorgänge, an denen die Messungen selbst vorgenommen werden, im engeren Sinne nicht von Interesse. Vielmehr werden diese häufig nur als zufallsabhängige Teilinformation (Stichprobe) eines übergeordneten Ganzen interpretiert, das man als Grundgesamtheit bezeichnet. Stichprobenvariablen repräsentieren zufallsabhängige Daten, wobei konkret vorliegende Beobachtungswerte als Realisationen dieser aufgefasst werden. Letztliches Ziel ist es dann, anhand der realisierten Stichprobe wahrscheinlichkeitstheoretisch begründete Schlüsse mit den Methoden des Schätzens und Testens auf die Grundgesamtheit zu ziehen. Diesen Vorgang bezeichnet man dann als Induktion oder statistische Inferenz. Abbildung 1.2.5 illustriert diesen Vorgang. • Reale Grundgesamtheit und reale Stichprobe • Das, was man meist spontan unter einer Stichprobe versteht, unterliegt der idealtypischen Vorstellung eines Urnenmodells. Dabei wird aus einer größeren Menge von Objekten oder Personen ein kleinerer, mehr oder weniger zufälliger Teil ausgewählt, um darauf basierend dann Aussagen über die gesamte Menge zu treffen. Mit Beispiel 9.1.1 liegt ein typisches Beispiel eines solchen Falls vor. Im engeren Sinne sind hier also nicht die 50 Studierenden in der Stichprobe von Interesse, sondern es ist die Gesamtheit aller Studierenden an einer Hochschule, über die man bestimmte Aussagen treffen möchte. In einem solchen Kontext sprechen wir dann von einer realen Grundgesamtheit, da die übergeordnete Menge eine reale, greifbare Menge von Objekten oder Personen ist. Eine reale Grundgesamtheit könnte prinzipiell auch immer in einer Totalerhebung vollständig erfasst werden. Der damit verbundene Organisations-, Kosten- oder Zeitaufwand ist jedoch meist viel zu hoch, sodass lediglich eine stichprobenhafte Erfassung in Frage kommt. In einem solchen Kontext sprechen wir dann von einer realen Stichprobe. • Urnenmodell und Ziehungsschemata • Abbildung 9.2.1 illustriert im linken Schaubild den Fall einer eindimensionalen und im rechten Schaubild den einer zweidimensionalen Stichprobe. Beginnen wir mit dem linken Fall. Eine Urne enthält N = 4 Kugeln, die mit den Zahlen 1, 2, 2 und 3 beschriftet sind. Diese 4 Zahlen stehen für das interessierende metrische oder metrisch kodierte Merkmal einer interessierenden Grundgesamtheit. Wird aus dieser Urne nur eine Kugel zufällig gezogen und modellieren wir dies mit der Zufallsvariable Y, so gilt: P(Y = 1) = 1/4, P(Y = 2) = 1/2 und P(Y = 3) = 1/4. Die theoretische Verteilung von Y deckt sich mit der empirischen Verteilung der Zahlen in der Urne, d.h. mit der empirischen Verteilung in der Grundgesamtheit. Die

484 | 9 Einführung in die induktive Statistik

Wahrscheinlichkeiten bestimmter Zahlen entsprechen genau den relativen Anteilen der jeweiligen Zahlen in der Urne. Ziehen wir zufällig 2 Kugeln und modellieren diese mit den Zufallsvariablen Y1 und Y2 , so hängt deren gemeinsame Verteilung davon ab, ob wir die zuerst gezogene Kugel wieder zurücklegen oder nicht. Tabelle 9.2.1 zeigt die jeweiligen gemeinsamen Verteilungen.

Abb. 9.2.1: Illustration realer Stichproben

Tab. 9.2.1: Gemeinsame Verteilung von Y1 und Y2 (mit bzw. ohne Zurücklegen) Y2

Y1 1 2 3 Σ

1 1/16 1/8 1/16 0.25

2 1/8 1/4 1/8 0.50

3 1/16 1/8 1/16 0.25

Σ 0.25 0.50 0.25 1.00

Y2

Y1 1 2 3 Σ

1 0 1/6 1/12 0.25

2 1/6 1/6 1/6 0.50

3 1/12 1/6 0 0.25

Σ 0.25 0.50 0.25 1.00

Werden die Kugeln mit Zurücklegen gezogen, sind Y1 und Y2 unabhängig. Es gilt dann: P(Y2 = y2 |Y1 = y1 ) = P(Y2 = y2 ). Die Wahrscheinlichkeit für Y2 = y2 hängt nicht davon ab, ob Y1 = y1 eintritt oder nicht. Somit folgt dann für jede Kombination (y1 , y2 ) aus der gemeinsamen Trägermenge: P(Y1 = y1 , Y2 = y2 ) = P(Y1 = y1 )P(Y2 = y2 ). Dadurch erhalten wir im vorliegenden Fall P(Y1 = 1, Y2 = 1) = 1/4 ⋅ 1/4 = 1/16, P(Y1 = 1, Y2 = 2) = 1/4 ⋅ 1/2 = 1/8 usw. Werden die Kugeln dagegen ohne Zurücklegen gezogen, sind Y1 und Y2 abhängig. Dies erkennt man im vorliegenden Fall bereits daran, dass es nicht möglich ist, zwei

9.2 Was versteht man unter einer Stichprobe? | 485

Mal hintereinander eine 1 zu ziehen. In diesem Fall erhalten wir dann P(Y1 = 1, Y2 = 1) = P(Y2 = y2 |Y1 = y1 )P(Y1 = y1 ) = 0 ⋅ 1/4 = 0, P(Y1 = 1, Y2 = 2) = P(Y2 = 2|Y1 = 1)P(Y1 = 1) = 2/3 ⋅ 1/4 = 1/6 usw. Insgesamt lässt sich feststellen, dass Y1 und Y2 beim Ziehen mit Zurücklegen unabhängig und identisch wie Y verteilt sind. Beim Ziehen ohne Zurücklegen sind Y1 und Y2 abhängig, jedoch weiterhin identisch wie Y verteilt. Auch hier gilt also: P(Y i = 1) = 1/4, P(Y i = 2) = 1/2 und P(Y i = 3) = 1/4

für i = 1, 2.

Betrachten wir nun den rechten Fall von Abbildung 9.2.1. Eine Urne enthält N = 4 Kugeln, die mit den Zahlenpaaren (0, 1), (0, 2), (0, 2) und (1, 3) beschriftet sind. Diese Situation lässt sich auch als direkte Erweiterung der linken Situation erachten, da die zweiten Zahlen rechts mit den Zahlen links übereinstimmen. Es wird sozusagen noch ein weiteres (hier binäres) Merkmal X hinzugenommen. Wird hier nun eine Kugel zufällig gezogen und modellieren wir die beiden gezogenen Zahlen mit dem Zufallsvektor (X, Y)T , so gilt: P(X = 0, Y = 1) = 0.25, P(X = 0, Y = 2) = 0.5 und P(X = 1, Y = 3) = 0.25. Die theoretische Verteilung von (X, Y)T stimmt somit mit der empirischen Verteilung in der Grundgesamtheit (Zahlenpaare in der Urne) überein. Ziehen wir zufällig 2 Kugeln und modellieren diese mit den Vektoren (X1 , Y1 )T und (X2 , Y2 )T , so hängt deren gemeinsame 4-dimensionale Verteilung wiederum davon ab, ob mit oder ohne Zurücklegen gezogen wird. Tabelle 9.2.2 fasst die Verteilung für den Fall „mit Zurücklegen“ zusammen, Tabelle 9.2.3 für den Fall „ohne Zurücklegen“. Man beachte, dass sich Tabelle 9.2.1 gerade ergibt, wenn man die Randverteilung von (Y1 , Y2 )T aus diesen beiden Tabellen jeweils ableitet. Tab. 9.2.2: Gemeinsame Verteilung von (X1 , Y1 )T und (X2 , Y2 )T beim Ziehen „mit Zurücklegen“ Tupel (0, 1, 0, 1) (0, 1, 0, 2) (0, 2, 0, 1) (0, 1, 1, 3) (0, 2, 0, 2)

Wahrschein. 1/16 1/8 1/8 1/16 1/4

Tupel (1, 3, 0, 1) (0, 2, 1, 3) (1, 3, 0, 2) (1, 3, 1, 3)

Wahrschein. 1/16 1/8 1/8 1/16

Beim Ziehen mit Zurücklegen sind (X1 , Y1 )T und (X2 , Y2 )T unabhängig, sodass stets gilt: P(X1 = x1 , Y1 = y1 , X2 = x2 , Y2 = y2 ) = P(X1 = x1 , Y1 = y1 )P(X2 = x2 , Y2 = y2 ). Außerdem sind die beiden Vektoren identisch wie (X, Y)T verteilt. Dies ist auch beim Ziehen ohne Zurücklegen der Fall, jedoch sind die beiden Vektoren hier dann abhängig.

486 | 9 Einführung in die induktive Statistik

Tab. 9.2.3: Gemeinsame Verteilung von (X1 , Y1 )T und (X2 , Y2 )T bei Ziehen „ohne Zurücklegen“ Tupel (0, 1, 0, 1) (0, 1, 0, 2) (0, 2, 0, 1) (0, 1, 1, 3) (0, 2, 0, 2)

Wahrschein. 0 1/6 1/6 1/12 1/12

Tupel (1, 3, 0, 1) (0, 2, 1, 3) (1, 3, 0, 2) (1, 3, 1, 3)

Wahrschein. 1/12 1/6 1/6 0

Diese Erkenntnisse lassen sich für den Fall des n-maligen Ziehens mit und ohne Zurücklegen und für den höherdimensionalen Fall wie folgt verallgemeinern. Satz 9.2.1: Urnenmodell und Ziehungsschemata Gegeben sei eine Urne mit N ≥ 1 Kugeln, die jeweils mit p ≥ 1 Zahlen beschriftet sind. Es werden n Kugeln zufällig gezogen, wobei 1 ≤ n ≤ N. Die gezogenen p-dimensionalen Zahlentupel werden durch die Zufallsvektoren X1 , . . . , Xn modelliert. Dann sind X1 , . . . , Xn (i) unabhängig und identisch verteilt (u.i.v.) wie X, falls mit Zurücklegen gezogen wird, (ii) abhängig identisch verteilt (a.i.v.) wie X, falls ohne Zurücklegen gezogen wird, (iii) annähernd unabhängig identisch verteilt wie X, falls ohne Zurücklegen gezogen wird und der Auswahlsatz n/N sehr klein ist. Dabei steht X für ein einmaliges zufälliges Ziehen. Die Verteilung von X deckt sich dann mit der empirischen Verteilung der Zahlen in der Urne. Unter einem Auswahlsatz versteht man dabei den Quotienten n/N aus Anzahl n der Ziehungen, die vorgenommen werden, und Anzahl N der Kugeln in der Urne. Auf formale Beweise dazu wird verzichtet. Man beachte, dass wegen Satz 8.3.1 Subkomponenten der Vektoren jeweils auch stets u.i.v. sind. Beispielsweise folgt im zweidimensionalen Fall aus der Unabhängigkeit und der identischen Verteilung der Vektoren (X1 , Y1 )T , (X2 , Y2 )T , . . . , (X n , Y n )T auch diejenige von X1 , X2 , . . . , X n bzw. Y1 , Y2 , . . . , Y n . Andererseits können die zu gleichen Vektoren (Objekten oder Personen) zugehörigen Komponenten durchaus Abhängigkeiten aufweisen. Geht es beispielsweise um die beiden Merkmale Größe (X) und Gewicht (Y), so ist davon auszugehen, dass X i und Y i für i = 1, . . . , n jeweils immer positiv korreliert sind. Man beachte, dass dies auch in Tabelle 9.2.2 der Fall ist. Betrachtet man die Zahlenpaare in der Urne in Abbildung 9.2.1, so lässt sich die positive Korrelation recht schnell erkennen, da der größere x-Wert 1 mit dem größten y-Wert 3 einhergeht. In Bezug auf Resultat (iii) von Satz 9.2.1 sollte einleuchten, dass es bei einem kleinen Auswahlsatz unerheblich ist, ob Kugeln in die Urne wieder zurückgelegt werden oder nicht. Da die

9.2 Was versteht man unter einer Stichprobe? | 487

Wahrscheinlichkeit, ein und dieselbe Kugel zwei Mal zu ziehen, sehr klein ist, kann die an sich vorhandene Abhängigkeit vernachlässigt werden. • Hypothetische Grundgesamtheit und hypothetische Stichprobe • Definition 9.2.1 erlaubt jedoch eine deutlich flexiblere Handhabung des Stichprobenbegriffs als nur die im Sinne eines Urnenmodells. Die Beispiele 9.1.2 und 9.1.3 sind typische Beispiele dafür, dass die Betrachtung einer Urne mit endlich vielen Kugeln, aus der zufällig gezogen wird, sich häufig nicht als operabel erweist. In Beispiel 9.1.2 etwa stellen die 10 gemessenen Abfertigungszeiten eine zufällige Auswahl aus einem als allgemein-typisch unterstellten Potential dar. Man könnte dieses „Potential“ auch als sich langfristig einstellende Verteilung der Abfertigungszeiten definieren. In Beispiel 9.1.3 stellen die 6 gemessenen Höhen zufallsabhängige Werte dar, die sich teils aus nicht kontrollierten Resteinflüssen ergeben. Dennoch sollte anzunehmen sein, dass sich bei häufiger Wiederholung des Versuches eine allgemein-typische Verteilung für die Wachstumshöhen unter bestimmten Versuchsbedingungen herausbilden sollte. In beiden Beispielen existiert auf jeden Fall keine endliche real greifbare Menge von Objekten oder Personen, die man in irgendeiner Weise total erheben könnte. Die Vorstellung ist hier vielmehr, dass sich die Stichprobe gleichsam wie bei von einem Zufallsgenerator erzeugten Zufallszahlen ergibt. Die Stichprobe wird bildlich nicht aus einer Urne, sondern aus einem hypothetisch unterstellten Verteilungsmuster gezogen. In Beispiel 9.1.2 ist dies etwa eine N(μ, σ2 )-Verteilung, in Beispiel 9.1.3 dagegen eine N(μ0 , σ2 )- in Verbindung mit einer N(μ1 , σ2 )-Verteilung. In solchen Fällen spricht man dann von einer hypothetischen Grundgesamtheit bzw. einer hypothetischen Stichprobe (vgl. Abb. 9.2.2). 3 Mal + 3 Mal Ziehen

10 Mal Ziehen

X 1, ..., X 10 u. i. v. N (μ, σ2)

Y 01,Y 02,Y 03 u. i. v. Y 11,Y 12,Y 13 u. i. v.

Beispiel 9.1.2

N (μ0, σ2)

N (μ1, σ2)

Beispiel 9.1.3

Abb. 9.2.2: Illustration hypothetischer Stichproben

• Real vs. hypothetisch • Tatsächlich ist die Unterscheidung zwischen realen und hypothetischen Stichproben nicht immer so klar wie es zunächst erscheinen mag. So können im Kontext realer Stichproben zusätzliche hypothetische Annahmen über die Beschaffenheit der Grundgesamtheit getroffen werden. Zweck solcher zusätzlicher Annahmen ist häufig eine einfachere Handhabung bestimmter induktiver Verfahren.

488 | 9 Einführung in die induktive Statistik

Beispielsweise könnte man im Kontext einer Untersuchung zum Einkommen von Angestellten einer bestimmten Branche annehmen, dass dieses näherungsweise normalverteilt ist. Im Rahmen großer Bildungsstudien, wie etwa PISA, werden gewöhnlich groß angelegte reale Stichproben auf Schul- oder Klassenebene gezogen, um auf Basis von Aufgabenbearbeitungen Leistungsdaten zu erheben. Doch die Leistungsfähigkeit einer Person ist kein derart objektiv messbares Merkmal wie etwa das Einkommen, die Körpergröße oder das Alter einer Person. Vielmehr hängt sie von vielfältigen zufälligen Faktoren ab und ist tagesformabhängig. Insofern würde man selbst bei einer Totalerhebung das statistische Deutungsproblem nicht völlig loswerden können. Dies deutet darauf hin, dass es hier dann eigentlich um eine primär hypothetische Stichprobe geht. Bei einer primär realen Stichprobe würde sich dagegen das statistische Deutungsproblem erledigen, sobald eine Totalerhebung durchgeführt würde. • Spezifikation des Ziehungsschemas • Im Rahmen jeder statistischen Modellierung muss das Ziehungsschema der zugrunde liegenden Stichprobe mehr oder weniger genau spezifiziert werden. Dies ist deshalb wichtig, da spezifische induktive Verfahren immer nur unter spezifischen Ziehungsschemata anwendbar sind. So können dann Stichprobenvariablen beispielsweise als unabhängig identisch verteilt (u.i.v.), unabhängig heterogen verteilt (u.h.v.), abhängig identisch verteilt (a.i.v.) oder abhängig heterogen verteilt (a.h.v.) angenommen werden. Zusätzlich zu solchen Grundschemata können noch ganz spezifische Verteilungen wie etwa Bernoulli-Verteilungen oder Normalverteilungen unterstellt werden. Bei geplanten Erhebungs- oder Experimentalstudien (Abschnitt 5.3.3) lässt sich das Ziehungsschema aus dem Stichprobendesign (der Art und Weise, wie die Stichprobe gezogen wird) bzw. dem experimentellen Design ableiten. Bei beobachteten Daten, die nicht direkt einem geplanten Design entspringen, sondern „irgendwie“ gewonnen wurden, ist dagegen „per Überlegung“ zu klären, welches Ziehungsschema für die gewonnenen Daten realistisch erscheint. In diesem Kontext sprechen wir in diesem Lehrbuch dann auch von Quasi-Stichproben oder Quasi-Experimenten (siehe nächster Punkt). So könnte man bei geplanten Erhebungsstudien, wie etwa in Beispiel 9.1.1, ein u.i.v.-Schema unterstellen, sofern das Stichprobendesign einem Ziehen mit Zurücklegen bei einem Urnenmodell (weitgehend) entspricht. Dies würde beispielsweise bei einer größenproportionalen geschichteten (stratifizierten) Stichprobe nicht zutreffen. Bei einer solchen wird eine reale Grundgesamtheit in mehrere Schichten disjunkt zerlegt und dann aus jeder Schicht jeweils eine separate u.i.v.-Stichprobe gezogen, deren Umfang sich proportional nach der Größe der Schicht richtet. Hier ist dann ein u.h.v.-Schema adäquat. Beispielsweise könnte man zur Untersuchung der Einkommensverteilung abhängig Beschäftigter in Deutschland aus jedem Bundesland eine Stichprobe ziehen, wobei sich deren Umfang immer nach der Einwohnerzahl des jeweiligen Landes richtet. Da nun davon ausgegangen werden muss, dass die Einkommensverteilung in den einzelnen Ländern verschieden ausfällt, trifft ein u.i.v.-

9.2 Was versteht man unter einer Stichprobe? | 489

Schema jeweils nur für die Stichprobenvariablen innerhalb des gleichen Landes zu, jedoch nicht für Stichprobenvariablen verschiedener Länder. Allgemein lässt sich zeigen, dass bei einer entsprechend der Problemstellung „guten Schichtung“ stratifizierte Stichproben gemäß u.h.v.-Schema „durchschnittlich genauer“ sind als Stichproben gemäß u.i.v.-Schema. Weitergehende Details können Lehrbüchern zur Stichprobentheorie entnommen werden. Bei geplanten Experimentalstudien, wie etwa in Beispiel 9.1.3, erscheint ein u.i.v.-Schema ebenfalls unpassend. Da bei Experimenten bestimmte Untersuchungseinheiten (Personen oder Objekte) unterschiedlichen Behandlungen ausgesetzt werden, ergeben sich naturgemäß heterogen verteilte Variablen. Dies legt ein u.h.v.Schema nahe. Weitere Situationen, in denen u.h.v.-Schemata realistisch erscheinen, wurden bereits in Beispiel 8.2.3 skizziert. 450

xt

400

x t +1, x t +2, ...

350 300 250 200

x

150 100 50 0 1995

1997

1999

2001

2003

2005

2007

2009

2011

2013

Abb. 9.2.3: Positiv autokorrelierte Zeitreihe

Bei der statistischen Modellierung von Zeitreihen erscheinen Ziehungsschemata mit Unabhängigkeitsannahmen meist unrealistisch. Betrachten wir dazu beispielhaft die Situation von Abbildung 1.3.2, wobei wir uns auf die EURO-STOXX-Zeitreihe beschränken. Abbildung 9.2.3 zeigt die betreffende Zeitreihe, wobei die beobachteten Monatswerte in Form von Punkten dargestellt werden. Eingezeichnet ist außerdem das arithmetische Mittel des Index über den betrachteten Zeitraums. In der Zeitreihenanalyse fasst man die Beobachtungswerte als Realisationen von Zufallsvariablen X1 , . . . , X n auf, wobei der Index t, t = 1, . . . , n, einer Variable X t dem Zeitpunkt t entspricht. Im vorliegenden Fall lässt sich nun feststellen: Liegt eine bestimmte Realisation x t über dem Durchschnitt, so trifft dies für unmittelbar folgende Realisationen x t+1 , x t+2 , . . . in aller Regel auch zu. Liegt eine Realisation unter dem Durchschnitt, so gilt das entsprechend Umgekehrte. Auf Überdurchschnittlichkeit folgt tendenziell also eher Über- statt Unterdurchschnittlichkeit und auf Unterdurchschnittlichkeit eher Unterstatt Überdurchschnittlichkeit. In der Zeitreihenanalyse bezeichnet man ein solches Abhängigkeitsschema als positive Autokorrelation. Im Rahmen einer statistischen

490 | 9 Einführung in die induktive Statistik

Modellierung erscheint die Annahme unabhängiger Zufallsvariablen jedenfalls völlig unpassend. Stattdessen müssen nun a.i.v.- oder a.h.v.-Schemata in Betracht gezogen werden. Ähnliches trifft auch häufig auf räumliche Daten zu. Ermittelt man etwa Bodenoder Klimadaten an verschiedenen Orten eines größeren Gebietes, so ist davon auszugehen, dass Werte näher beieinander liegender Orte sich tendenziell ähnlicher sind als Werte weiter auseinander liegender Orte. Hier ist dann mit sog. räumlichen Korrelationen zu rechnen. • Quasi-Stichproben • Häufig werden reale oder hypothetische Stichproben nicht in der mustergültigen Form erhoben, wie es etwa einem u.i.v.- oder einem u.h.v.-Schema exakt entsprechen würde. Beispielsweise müsste ein mustergültiger Stichprobenplan gemäß u.i.v.-Schema in Beispiel 9.1.1 etwa so aussehen: Aus einem vollständigen Verzeichnis aller zu einem bestimmten Zeitpunkt eingeschriebenen Studierenden an einer Universität werden zufällig n Studierende ausgewählt. Diese Studierenden werden angeschrieben und dazu zwangsverpflichtet, die Frage nach der Mensapräferenz zeitnah zu beantworten. Die gering vorhandene Abhängigkeit durch das Ziehen ohne Zurücklegen wird dabei vernachlässigt. Dies entspräche dann einer konsequenten Umsetzung des Urnenmodells. Ein solcher Plan ist in der Praxis jedoch selten durchführbar. Stattdessen wird man irgendwo auf dem Campus mehr oder weniger zufällig Studierende auf freiwilliger Basis befragen und darauf hoffen, dass die so gewonnene Stichprobe weitgehend repräsentativ ist (siehe nächster Punkt). Bei der statistischen Modellierung wird man dann der gewonnenen Stichprobe beispielsweise ein u.i.v.Schema unterstellen. Für die Beispiele 9.1.2 und 9.1.3 könnte man sich ähnliche Szenarien vorstellen. Wir bezeichnen solche Stichproben als Quasi-Stichproben, da sie einem bestimmten Ziehungsschema nicht faktisch, sondern eben nur quasi entsprechen. Im Zusammenhang von Experimentalstudien ist auch die Bezeichnung „QuasiExperiment“ gängig, was einen ähnlichen Hintergrund hat (vgl. Abschnitt 5.3.3). • Repräsentativität • Gültige Inferenz setzt voraus, dass die Stichprobe tatsächlich auch eine Auswahl von dem darstellt, wofür man sich im Eigentlichen interessiert. Man spricht hier auch häufig von der Repräsentativität einer Stichprobe. Jedoch ist dieser häufig verwendete und sehr problematische Begriff weder eindeutig noch einheitlich definiert. Differenzierte und längliche Zusammenfassungen zu diesem Punkt bieten beispielsweise die Arbeiten von Kruskal und Mosteller [1979a, 1979b, 1979c, 1980]. Wir verwenden in diesem Lehrbuch eine Umschreibung, die den Versuch eines Kompromisses zwischen Einfachheit, Allgemeingültigkeit und formalmathematischer Exaktheit darstellt. Es sei betont, dass auch diese Umschreibung gewisse Defizite aufweist.

9.2 Was versteht man unter einer Stichprobe? | 491

Definition 9.2.3: Repräsentative Stichprobe Eine repräsentative Stichprobe ist eine solche, bei der sich mit wachsendem Stichprobenumfang die Verteilung der Realisationen der Verteilung der interessierenden Merkmale (Variablen) in der Grundgesamtheit annähert. Mathematisch ließe sich diese Umschreibung im Prinzip über die Konvergenzeigenschaft (7.4.27), die beim Hauptsatz der Statistik verwendet wurde, oder in ähnlicher Form ausdrücken. Die Stichprobe muss die Grundgesamtheit für n → ∞ sozusagen 1:1 widerspiegeln. Ist dies nicht der Fall, können von der Stichprobe im Allgemeinen keine gültigen Schlüsse auf die Grundgesamtheit gezogen werden. Die Stichprobe liefert dann ein verfälschtes Bild von der Grundgesamtheit. In solchen Fällen spricht man dann auch von einer verzerrten Stichprobe oder einer Stichprobenverzerrung. Auf eine weitere mathematische Präzisierung verzichten wir. Man beachte, dass Repräsentativität so aufgefasst als theoretische Eigenschaft verstanden wird, die sich auf das stochastische Grenzverhalten einer Stichprobe bezieht und nicht auf konkret vorliegende Realisationen (Beobachtungen). Zieht man beispielsweise aus der linken Urne von Abbildung 9.2.1 zufällig n Kugeln mit Zurücklegen, so liegt gemäß Hauptsatz der Statistik eine repräsentative Stichprobe vor. Gleichwohl kann für n = 5 eine konkrete Realisation beispielsweise aus den Zahlen 1, 2, 2, 1 und 2 bestehen. In diesem Fall würde die Zahl 3 überhaupt nicht vorkommen. Sie wäre im Vergleich zur Grundgesamtheit unterrepräsentiert. Die Zahlen 1 und 2 wären hingegen überrepräsentiert. Mit wachsendem n sollten die Realisationen jedoch die Grundgesamtheit immer besser widerspiegeln. Repräsentativität bezieht sich auf das stochastische Grenzverhalten einer Stichprobe, nicht auf konkrete Realisationen (Beobachtungen). Ein Defizit der vorliegenden Definition liegt darin, dass Repräsentativität nur über ein Grenzverhalten (quasi für unendlich große Stichproben) beschrieben wird. Was man eigentlich noch benötigen würde, wäre eine mathematische Beschreibung dafür, dass auch kleine Stichproben die Grundgesamtheit angemessen widerspiegeln. • Prüfung von Repräsentativität • In Beispiel 9.1.1 könnten beispielsweise alle zu einem bestimmten Zeitpunkt eingeschriebenen Studierenden einer Hochschule die vorgegebene reale Grundgesamtheit darstellen, für die man sich interessiert. Führt man nun beispielsweise die Befragung direkt in der Mensa oder in Mensanähe durch, so ist davon auszugehen, dass hier der Anteil von Mensabefürwortern deutlich höher sein sollte als an anderen Stellen. Der potenzielle Auswahlbereich dieser QuasiStichprobe würde sich nicht mit der Grundgesamtheit decken. Die Stichprobe wäre auch bei wachsendem Stichprobenumfang tendenziell immer verzerrt, sofern man

492 | 9 Einführung in die induktive Statistik

den Standort der Befragung nicht verändert. Dies wäre auch der Fall, falls die Beteiligung von männlichen und weiblichen Studierenden an der Befragung unterschiedlich und gleichzeitig deren Mensapräferenz unterschiedlich wäre. In Beispiel 9.1.2 könnte die hypothetisch vorgegebene Grundgesamtheit eine Normalverteilung sein, mit der man langfristig die Gepäckabfertigungszeit an einem Flughafenschalter beschreiben kann. Möglicherweise könnte dies noch auf eine ganz bestimmte Tageszeit oder ganz bestimmte Flugziele (z.B. nur Transatlantikflüge) eingeschränkt sein. Führt man die Erhebung der Zeiten nun beispielsweise an einem Tag durch, in dem es zu streikbedingten Verspätungen kommt, so kann es sein, dass aufgrund von Beschwerden und längeren Beratungszeiten die gemessenen Zeiten nicht mehr repräsentativ für eine „normale Abfertigung“ sind. Die Zeiten wären insgesamt alle zu lang. Dieses Problem ließe sich auch nicht durch eine Erhöhung des Stichprobenumfangs lösen. Bei einer Experimentalstudie wie in Beispiel 9.1.3 könnte man Repräsentativität als gegeben erachten, sofern das Experiment „genau wie geplant“ durchgeführt wird. Dies bedeutet, dass die zwei Gruppen von Pflanzen tatsächlich unter identischen Bedingungen (außer der Düngung) angepflanzt würden. Dies wäre beispielsweise nicht der Fall, falls die zwei Gruppen unter verschiedenen Raumtemperaturen angepflanzt würden. Potenziell könnte dies dann Unterschiede im Wachstum bewirken, sodass die Verteilungsunterschiede möglicherweise nicht mehr nur auf unterschiedlicher Düngung beruhen würden. Die Versuchsergebnisse wären dann tendenziell verzerrt und so gesehen nicht mehr repräsentativ. • Repräsentativität, Ziehungsschema und Induktion • Allein die Erfüllung eines bestimmten Ziehungsschemas ist für gültige Inferenz jedoch nicht ausreichend. Als einfaches Beispiel dazu betrachte man die linke Urne von Abbildung 9.2.1. Angenommen aus dieser werden n Kugeln mit Zurücklegen gezogen, wobei die Kugel mit der Zahl 1 am Boden festgeklebt und infolgedessen nicht gezogen werden kann. Der potenzielle Auswahlbereich der Stichprobe ist somit auf die Zahlen 2 und 3 beschränkt und stimmt nicht mit der interessierenden Grundgesamtheit (alle Zahlen in der Urne) überein. Gleichwohl würde man in dieser Situation faktisch eine u.i.v.Stichprobe X1 , . . . , X n ziehen, wobei dann eben P(X i = 2) = 2/3 und P(X i = 3) = 1/3 für i = 1, . . . , n gelten würde. Ähnliche Beispiele ließen sich auch für andere Ziehungsschemata konstruieren. Eine verzerrte Stichprobe liefert insgesamt ein falsches Bild von der Grundgesamtheit und schließt somit jegliche sinnvolle Inferenz aus. Insofern ist Repräsentativität eine Grundvoraussetzung für die Sinnhaftigkeit jeder statistischen Modellierung. Die Prüfung der Repräsentativität einer Stichprobe erfolgt anhand inhaltlicher Überlegungen mithilfe fachspezifischer Kenntnisse und ist nichtmathematischer Natur (siehe vorheriger Punkt). Die Spezifikation des Ziehungsschemas erfordert hingegen sowohl inhaltliche als auch mathematisch-statistische Kenntnisse. Sie ist im weiteren Verlauf vor allem

9.3 Formale Unterscheidungsebenen | 493

für die Wahl geeigneter Inferenzverfahren entscheidend. Wendet man beispielsweise ein nur unter einem u.i.v.-Schema gültiges Schätz- oder Testverfahren auf eine Zeitreihe an, die faktisch starke Abhängigkeiten aufweist, so sind alle aus diesen Verfahren abgeleiteten Schlüsse (Schätzungen und Entscheidungen) und damit einhergehende Sicherheits- und Irrtumswahrscheinlichkeiten letztlich verfälscht. • Ausblick: Beschränkung auf u.i.v.- und u.h.v.-Schemata • Die in den folgenden drei Kapiteln präsentierten Verfahren der induktiven Statistik beschränken sich auf Rahmenbedingungen und Beispiele, in denen u.i.v.- oder u.h.v.-Schemata angenommen werden können. Dafür kommen überwiegend nur Querschnittsdaten in Frage. Darunter versteht man Daten, die allesamt zum gleichen Zeitpunkt erhoben werden. Zeitreihendaten, sog. Paneldaten (eine Mischung aus Querschnitts- und Zeitreihendaten) oder räumliche Daten kommen hierfür also entweder nicht oder nur sehr eingeschränkt in Frage. Induktive Verfahren hierfür sind Gegenstand weiterführender, spezialisierter Lehrbücher.

9.3 Formale Unterscheidungsebenen

Die Verbindung von Theorie und Empirie erfordert die Unterscheidung zwischen stochastischen und empirischen (nichtstochastischen) Größen und zwischen empirischem und theoretischem Kalkül. Darüber hinaus gibt es über das GGZ eine logische Verbindung zwischen stochastischen, theoretischen und empirischen Kennwerten

• Zufallsvariablen und Realisationen • Zufallsvariablen werden in der Statistik gewöhnlich mit lateinischen Großbuchstaben wie etwa X, Y, Z oder X1 , X2 , . . . , X n notiert. Konkrete Beobachtungswerte (Realisationen) notiert man mit den entsprechenden Kleinbuchstaben, also x, y, z oder x1 , x2 , . . . , x n . Analoges gilt für Zufallsvektoren wie etwa (X1 , Y1 , Z1 ), . . . , (X n , Y n , Z n ) oder X1 = (X11 , X12 , X13 , X14 ), . . . , Xn = (X n1 , X n2 , X n3 , X n4 ) und entsprechende Realisationen (x1 , y1 , z1 ), . . . , (x n , y n , z n ) bzw. x1 = (x11 , x12 , x13 , x14 ), . . . , xn = (x n1 , x n2 , x n3 , x n4 ). • Stochastische und empirische Statistiken • Aus Zufallsvariablen oder Beobachtungen gebildete Funktionen bezeichnet man allgemein als Statistiken, wobei entsprechend zwischen stochastischen Statistiken und empirischen Statistiken unterschieden werden kann. Das auf den Beobachtungswerten x1 , . . . , x n beruhende arithmetische Mittel x wäre beispielsweise eine empirische Statistik. Die aus den Zufallsvariablen X1 , . . . , X n gebildete Statistik X=

1 n ∑ Xi n i=1

494 | 9 Einführung in die induktive Statistik

wäre hingegen eine stochastische Statistik. Diese könnte man als stochastisches Mittel bezeichnen oder, sofern X1 , . . . , X n als Stichprobe interpretiert wird, als Stichprobenmittel. Stochastische Statistiken sind objekttechnisch Zufallsvariablen (zumindest sofern es sich um messbare Funktionen von Zufallsvariablen handelt). Deshalb verwenden wir auch hier zur Unterscheidung wieder die Groß- und Kleinschreibung für stochastische bzw. empirische Größen (vgl. Tab. 9.3.1). • Empirischer vs. theoretischer Kalkül • Alle auf konkreten Beobachtungswerten beruhende Berechnungen zählen zum empirischen Kalkül, während Berechnungen in Bezug auf Zufallsvariablen zum theoretischen oder stochastischen Kalkül zählen. Beim empirischen Kalkül geht es um absolute oder relative Häufigkeiten oder Häufigkeitsdichten, während es beim theoretischen Kalkül um Wahrscheinlichkeiten und Wahrscheinlichkeitsdichten geht. Tab. 9.3.1: Empirische vs. stochastische Statistiken und ihre Bezeichnungen Empirische Statistiken (empirische Kennwerte) Merkmalssumme

Stochastische Statistiken (stochastische Kennwerte) Stochastische Summe/Stichprobensumme

n

n

∑ xi

∑ Xi

i=1

i=1

arithmetisches Mittel x=

1 n

n

1 n

i=1

n

∑ (x i − x)2 i=1

empirische Kovarianz ̃s XY =

1 n

n

∑ (x i − x)(y i − y) i=1

empirische Korrelation r XY =

X=

∑ xi

empirische Varianz ̃s2X =

Stochastisches Mittel/Stichprobenmittel

̃s XY ̃s X ̃s Y

1 n

n

∑ Xi i=1

Stochastische Varianz/Stichprobenvarianz ̃2 = S X

1 n

n

∑ (X i − X)2 i=1

Stochastische Kovarianz/Stichprobenkovarianz ̃ XY = S

1 n

n

∑ (X i − X)(Y i − Y) i=1

Stochastische Korrelation/Stichprobenkorrelation R XY =

̃ XY S ̃X S ̃Y S

größter Wert (Maximum)

stochastisches Maximum/Stichprobenmaximum

x(n)

X(n)

• Empirische vs. theoretische Kennwerte • Empirische Kennwerte sind empirische Statistiken, die empirische Verteilungen spezifizierend beschreiben, wie es beispielsweise arithmetisches Mittel und empirische Varianz in Bezug auf Lage und Streuung tun. Sie ergeben sich anhand eines empirischen Kalküls und werden mit lateinischen Buchstaben symbolisiert. Ihre stochastischen Gegenstücke könnte man als stochastische Kennwerte bezeichnen. Theoretische Kennwerte spezifizieren hingegen die Wahrscheinlichkeitsverteilungen von Zufallsvariablen. Zu den wichtigsten zählen Erwartungswert und theoretische Varianz. Sie ergeben sich aus einem theoretischen Kalkül und werden üblicherweise mit griechischen Buchstaben symbolisiert.

9.3 Formale Unterscheidungsebenen | 495

Alternativ können sie auch über Operatoren wie E(·) oder Var(·) ausgedrückt werden, sofern die Rechenoperation selbst im Vordergrund stehen soll. Tab. 9.3.2: Empirische vs. theoretische Kennwerte Theoretische Kennwerte

Empirische Kennwerte

μ X = E(X)

arithmetisches Mittel:

x

Erwartungswert:

empirische Varianz:

̃s2X

theoretische Varianz:

empirische Kovarianz:

̃s XY

theoretische Kovarianz:

σ XY = Cov(X, Y)

empirische Korrelation:

r XY

theoretische Korrelation:

ϱ XY = Corr(X, Y)

σ 2X = Var(X)

usw.

usw.

• Theoretische Statistiken • Da stochastische Statistiken selbst wiederum Zufallsvariablen sind, lassen sich für solche ebenso wieder theoretische Kennwerte berechnen. Angenommen, man betrachte die u.h.v.-Stichprobe X1 , X2 , . . . , X n , wobei E(X i ) = μ i und Var(X i ) = σ2i

für i = 1, . . . , n

gelte. Dann würde gemäß (7.4.15) und (7.4.18) gelten: E(X) = μ n

und

Var(X) = σ2n /n.

Dabei könnte man nun die hierbei verwendeten beiden Ausdrücke μn =

1 n ∑ μi n i=1

und

σ2n =

1 n 2 ∑σ n i=1 i

als theoretische Statistiken bezeichnen, da sie aus theoretischen Kennwerten gebildete Statistiken darstellen. Die Betrachtung theoretischer Statistiken wird beispielsweise bei der Formulierung von GGZ- oder ZGWS-Varianten für u.h.v.-Schemata häufig benötigt (vgl. hierzu Abschnitt 8.2.1). • Zusammenhang stochastischer, theoretischer und empirischer Kennwerte • Stochastische, theoretische und empirische Kennwerte stehen in einem logischen Zusammenhang zueinander. So lassen sich empirische Kennwerte zunächst einmal als Realisationen der entsprechenden stochastischen Gegenstücke auffassen. Letztere konvergieren unter einem u.i.v.-Schema aufgrund des GGZ in der Regel gegen theoretische Kennwerte, die in großen Stichproben approximativ mit den empirischen Kennwerten übereinstimmen. Abbildung 9.3.1 illustriert dies anhand von Mittelwert, Varianz und Kovarianz. Die theoretischen Begründungen hierfür finden sich in Beispiel 8.3.6. Mithilfe des multivariaten Stetigkeitssatzes (Satz 8.3.3) ließe sich daraus auch noch p

R XY 󳨀󳨀→ ϱ XY = Corr(X, Y) ≈ r XY

496 | 9 Einführung in die induktive Statistik

ableiten. Allerdings gilt nicht für jeden Kennwert ein solcher Zusammenhang. So konvergiert beispielsweise das Stichprobenmaximum nicht einmal zwingend gegen einen festen Wert. Grundlage des hier vereinfacht skizzierten Zusammenhangs bildet das GGZ, das sich nur auf Mittelwerte bezieht. So ist ja die Varianz letztlich nur ein Mittelwert mittelwertzentrierter Größen und die Kovarianz ein Mittelwert gemischter Produkte aus mittelwertzentrierten Größen. Entsprechende Zusammenhänge können auch für u.h.v.-Schemata formuliert werden, sofern bestimmte Konvergenzkriterien wie etwa n→∞

μ n 󳨀󳨀󳨀󳨀󳨀→ μ

oder

n→∞

σ2n 󳨀󳨀󳨀󳨀󳨀→ σ2

erfüllt sind. Hierzu sei auf die alternativen GGZ- und ZGWS-Varianten in Abschnitt 8.2.1 verwiesen. p

μX ≈ x

~2 SX

p

σ2X ≈ s~2X

~ S XY

p

σXY ≈ s~XY

Xn (X 1,Y 1), ..., (X n ,Y n ) u. i. v.

Abb. 9.3.1: Zusammenhang stochastischer, theoretischer und empirischer Kennwerte

10 Statistisches Schätzen Die beiden grundlegenden Techniken beim statistischen Schätzen sind die Punktschätzung und die Intervallschätzung, die jeweils separat in den Abschnitten 10.1 und 10.2 besprochen werden. Dabei stellt sich auch die Frage nach allgemeinen Schätzmethoden, die unabhängig von der Komplexität eines statistischen Modells zu sinnvollen Schätzergebnissen führen. Mit diesem Thema befasst sich der letzte Abschnitt 10.3.

10.1 Punktschätzung

Bei einer Punktschätzung wird ein unbekannter Kennwert einer Grundgesamtheit mithilfe eines Schätzers quantifiziert. Dabei lassen sich Schätzer hinsichtlich unterschiedlicher Gütekriterien bewerten und miteinander vergleichen. Ein erwartungstreuer Schätzer liefert „im Mittel“ den richtigen Wert. Mit dem MSE lässt sich die Genauigkeit eines Schätzers messen. Ist ein Schätzer konsistent, so wird er (grob gesagt) mit wachsendem Stichprobenumfang immer genauer. Ist ein Schätzer effizienter als ein anderer, so ist er (grob gesagt) „unter allen Konstellationen“ genauer als der andere.

10.1.1 Schätzer und ihre Gütekriterien • Schätzprobleme • Ausgangspunkt jeder Punktschätzung ist ein Schätzproblem. Ein Schätzproblem ist ein statistisches Problem, bei dem es meist darum geht, anhand einer Stichprobe einen bestimmten unbekannten Kennwert einer zugrunde gelegten Grundgesamtheit zu quantifizieren (zu schätzen). Dieser unbekannte Kennwert wird klassischerweise als Verteilungsparameter eines statistischen Modells oder als Funktion eines solchen interpretiert, unabhängig davon, ob eine reale oder hypothetische Grundgesamtheit (Abschnitt 9.2) unterstellt wird. Im Kontext realer Stichproben handelt es sich bei den zu schätzenden Kennwerten häufig um empirische Kennwerte, die sich mithilfe von Totalerhebungen exakt ermitteln lassen würden. In Beispiel 9.1.1 wäre dies beispielsweise der Anteil unter allen Studierenden an einer Hochschule, welcher die Mensa präferiert. Im Rahmen des Urnenmodells lässt sich dies jedoch auch als Schätzproblem des theoretischen Anteilswerts (Wahrscheinlichkeitswerts) π einer unterstellen B(n, π)-Verteilung formulieren. Insofern sind auch unbekannte empirische Kennwerte einer realen Grundgesamtheit statistisch wiederum als theoretische Kennwerte modellierbar. Im Kontext hypothetischer Stichproben handelt es sich um theoretische Kennwerte einer mehr oder weniger genau spezifizierten hypothetischen Grundgesamtheit. In Beispiel 9.1.2 wäre dies beispielsweise der Erwartungswertparameter μ einer https://doi.org/10.1515/9783110744194-010

498 | 10 Statistisches Schätzen N(μ, σ2 /10)-Verteilung, der sich als mittlere Abfertigungszeit interpretieren lässt. Im Falle von Beispiel 9.1.3 geht es um die Schätzung der theoretischen Differenz μ1 − μ0 bei Vorliegen einer N(μ0 , σ2 /3)- und einer N(μ1 , σ2 /3)-Verteilung, die sich als Effektstärke interpretieren lässt. Wie bereits festgestellt, kann es für die Konstruktion von Sicherheitsintervallen hierbei auch notwendig sein, die theoretischen Varianzen mit schätzen zu müssen. Insbesondere in der nichtparametrischen Statistik gibt es jedoch auch Schätzprobleme, die etwas allgemeiner gefasst sind und sich nicht zwingend als parametrische Schätzprobleme formulieren lassen. Hierzu gehört beispielsweise die Schätzung kompletter Dichtefunktionen anhand von Stichproben oder die Schätzung nichtlinearer funktionaler Beziehungen zwischen verschiedenen Variablen. Die in diesem Lehrbuch behandelten Schätzprobleme sind jedoch ausnahmslos auf parametrische Schätzprobleme beschränkt und können deshalb der parametrischen Statistik zugeordnet werden. • Schätzer • Im klassischen parametrischen Fall bestimmt man anhand einer realen oder hypothetischen Stichprobe einen oder mehrere unbekannte Parameter. Dieser Vorgang wird als Schätzen bezeichnet. Der dabei konkret ermittelte Wert heißt Schätzwert, Punktschätzung oder Schätzung. Die Bezeichnung „Punktschätzung“ basiert auf der Angabe eines einzelnen Wertes. Im Gegensatz dazu wird bei der Intervallschätzung (Abschnitt 10.2) ein ganzes Intervall für die Lage eines unbekannten Parameterwerts angegeben. In Beispiel 9.1.1 etwa wird man in aller Regel den relativen Anteil der Mensabefürworter in der Stichprobe bestimmen und diesen Wert als Schätzung für den relativen Anteil der Mensabefürworter in der Grundgesamtheit, notiert mit π, verwenden. Das stochastische Mittel X=

Sn 1 n = ∑ Xi n n i=1

stellt in diesem Fall die allgemeingültige Funktion zur Schätzung von π dar. Diese Funktion wird als Schätzfunktion, Punktschätzer oder Schätzer bezeichnet. Die Realisation dieses Schätzers ist dann der konkrete Schätzwert, d.h. in diesem Fall der empirische Anteilswert, der sich für die konkreten Beobachtungen der Stichprobe ergibt. Sofern wie im Beispiel 40 von 50 befragten Studierenden die Mensa präferieren, erhält man dann beispielsweise x = 0.8 als Schätzwert für π. In Beispiel 9.1.2 wird man Stichprobenmittel und Stichprobenvarianz als Schätzer für Erwartungswert und theoretische Varianz der Abfertigungszeit verwenden. In Beispiel 9.1.3 wird die theoretische Effektstärke über die Differenz der beiden Gruppenmittelwerte gemäß Versuchsausgang geschätzt.

10.1 Punktschätzung | 499

Bei parametrischen Schätzproblemen sind Schätzer nichts anderes als stochastische Statistiken (Abschnitt 9.3), deren Realisationen die Schätzwerte für bestimmte theoretische Parameter oder Funktionen dieser bilden. Schätzer sind stochastische Statistiken (Zufallsvariablen) deren Realisationen als Schätzwerte verwendet werden.

zu schätzende(r)

Statistische Modellierung

S 50 =

Parameter(funktion)

Schätzfunktion

50

∑ X i ~ B (50, π)

i =1

X ~ N (μ, σ2 10) Y 1 − Y 0 ~ N (μ1 − μ0, 2σ2 3)

π

^ = X = S 50 50 π

μ, σ2

~2 ^ = X, σ ^2 = S μ X

^2 = ? μ1 − μ0 = Y 1 − Y 0, σ

μ1 − μ0, σ2

Abb. 10.1.1: Parametrisches Schätzen in den Beispielen 9.1.1–9.1.3

• Notation für Schätzer • Wird beispielsweise das stochastische Mittel als Schätzer für einen theoretischen Anteilswert π verwendet, so schreibt man dafür gewöhnlich ̂ = X. π Die Notation hebt den zu schätzenden Parameter hervor. Das „Dach“ steht dabei für die Funktion als Schätzer. Genauso würde man also auch ̂=X μ

oder

̂ 2 = S̃ 2X σ

notieren, sofern es um die Schätzung eines Erwartungswertes bzw. einer theoretischen Varianz geht. Streng genommen müsste man zur Unterscheidung zwischen Schätzer und realisiertem Schätzwert große bzw. kleine griechische Buchstaben verwenden, also etwa ̂ = X und π ̂=x Π

̂=x oder ̂ M = X und μ

̂ 2 = S̃ 2 und σ ̂ 2 = ̃s2X . oder Σ X

Jedoch hat sich diese Unterscheidung in der Lehrbuchliteratur nicht etabliert. Es wird meist nur von der Kleinschreibung Gebrauch gemacht. Wir passen uns hier dem allgemeinen Standard an. Normalerweise ist mit der „Dachschreibweise“ vorrangig die stochastische Größe gemeint. Sofern es um einen konkreten Schätzwert geht, schreibt man dann beispielsweise ̂ = 0.8, π sodass auch für diesen Fall die inhaltliche Deutung klar wäre.

500 | 10 Statistisches Schätzen

• Statistische Schätztheorie • Häufig wird ein zu schätzender theoretischer Kennwert einfach durch das entsprechende stochastische Pendant geschätzt. Bei näherem Hinsehen erscheint dies jedoch nicht unbedingt selbstverständlich. Betrachten wir zu diesem Punkt die Schätzung des Erwartungswertparameters μ bei einer Normalverteilung wie etwa in Beispiel 9.1.2. Da die Normalverteilung symmetrisch ist, sind Erwartungswert und theoretischer Median identisch. Insofern könnte man nun auch auf die Idee kommen, den Erwartungswert durch den Stichprobenmedian zu schätzen (siehe dazu auch nächster Punkt). Sobald alternative Schätzer in Betracht gezogen werden, stellt sich sofort die Frage, welcher Schätzer der bessere ist. Ebenso stellt sich die Frage, wie man in bestimmten Situationen überhaupt sinnvolle Schätzer konstruieren kann, insbesondere, falls das Schätzproblem nicht mehr derart intuitiv lösbar erscheint. Um solche und ähnliche Fragestellungen kümmert sich die statistische Schätztheorie. Im Rahmen dieser werden Gütekriterien von Schätzern definiert und darauf basierend theoretische Aussagen zur Optimalität bestimmter Schätzmethoden entwickelt. Einige Elemente davon werden in den nachfolgenden Abschnitten auszugsweise thematisiert. Eine umfassende mathematische Behandlung der Schätztheorie bietet beispielsweise das klassische Lehrbuch „Theory of Point Estimation“ von Lehmann und Casella [1998], das Lehmann 1983 erstmals veröffentlichte. • Beispiel 10.1.1: Eine Simulation zur Illustration der Schätzproblematik • Angenommen es geht um die Schätzung des Erwartungswerts μ anhand einer u.i.v.Stichprobe. Als Schätzer werden nun folgende drei Alternativen in Betracht gezogen: (i) das Stichprobenmittel X, ̃ 0.5 und (ii) der Stichprobenmedian X (iii) der Stichproben-Midrange SMR = 0.5(X(1) + X(n) ). Der Stichproben-Midrange ist der aus Minimum und Maximum gebildete Mittelwert. Abbildung 10.1.2 zeigt nun das Ergebnis einer Simulation von u.i.v.-Stichproben aus einer Standardnormalverteilung, Abbildung 10.1.3 hingegen das Ergebnis einer solchen Simulation für eine Gleichverteilung über [−√3, √3] ≈ [−1.73, 1.73]. Hierbei wurden jeweils immer 1000 Stichproben vom Umfang n = 5 bzw. n = 25 aus der betreffenden Verteilung gezogen und für jede Realisation der Stichprobe die drei Schätzer berechnet. Alle dargestellten Boxplots basieren somit jeweils auf 1000 Werten. Man beachte, dass die Erwartungswerte bzw. Varianzen beider Verteilungen übereinstimmen; beide Erwartungswerte sind gleich 0 und beide Varianzen gleich 1. Anhand der Schaubilder können nun einige wesentliche Feststellungen getroffen werden. Zunächst einmal wird deutlich, dass Schätzwert und tatsächlicher Wert in aller Regel nicht übereinstimmen. Im vorliegenden Fall ist es sogar denkbar, dass kein einziger der insgesamt 12 000 Schätzwerte genau 0 war. Je nach Ausgangsverteilung, Schätzmethode und Stichprobenumfang streuen die Schätzwerte stets mehr oder weniger stark um den wahren Wert (hier also 0) herum. Bei beiden Ausgangsverteilungen scheinen die Realisationen aller drei Schätzer symmetrisch um die Null zu streuen.

10.1 Punktschätzung | 501

n =5

n = 25

SMR ~ X 0.5

SMR ~ X 0.5

X

X −3

−2

−1

0

1

2

3

−3

−2

−1

0

1

2

3

1

2

3

Abb. 10.1.2: Stichproben aus einer N(0, 1)-Verteilung

n =5

n = 25

SMR ~ X 0.5

SMR ~ X 0.5

X

X −3

−2

−1

0

1

2

3

−3

−2

−1

0

Abb. 10.1.3: Stichproben aus einer G(−1.73, 1.73)-Verteilung

Der höhere Stichprobenumfang geht dabei regelmäßig mit einer kleineren Streuung bei allen Schätzern einher. Bei der Normalverteilung scheint das Stichprobenmittel insgesamt die genauesten Schätzungen zu liefern. Danach scheint der Median zu folgen, während der Stichproben-Midrange am stärksten zu streuen scheint. Allerdings ist diese Rangfolge für n = 5 nicht so deutlich erkennbar wie für n = 25. Bemerkenswerterweise gilt diese Rangfolge bei der Gleichverteilung nicht mehr. Hier erweist sich nun der Stichproben-Midrange (zumindest dem Simulationsergebnis nach zu urteilen) als bester Schätzer, während der Median die schlechteste Alternative zu sein scheint. Die Simulation verdeutlicht in gewisser Weise die Nichttrivialität der Schätzproblematik und motiviert die Entwicklung einer statistischen Schätztheorie. • Verteilung von Schätzern • Schätzer sind Zufallsvariablen. Sofern Ausgangsverteilung (Grundgesamtheit), Ziehungsschema und Stichprobenumfang feststehen, weisen diese spezifische Wahrscheinlichkeitsverteilungen auf. Diese bilden die Basis zur Beurteilung und Einstufung von Schätzern. Die Herleitung der exakten Verteilung eines Schätzers erweist sich jedoch nicht immer als einfach, insbesondere falls die Ausgangsverteilung nicht genau spezifiziert werden kann. Dann ist man häufig auf asymptotische Resultate, wie sie sich etwa aus Grenzwertsätzen ergeben, angewiesen. Simulationen werden vor allem dann verwendet, wenn die Herleitung exakter Verteilungen einen zu großen Aufwand darstellt. Hierbei ist dann zu beachten, dass sich aus Simulationen prinzipiell keine sicheren und exakten Aussagen über die Qua-

502 | 10 Statistisches Schätzen

lität von Schätzern ableiten lassen, da die Ergebnisse von Simulationen nun einmal zufällig sind. Freilich dient eine möglichst hohe Anzahl simulierter Stichproben dazu, zufallsbedingte Fehlinterpretationen zu vermeiden. Wir betrachten zur Veranschaulichung noch einmal Beispiel 10.1.1, bei dem jede Ausgangskonstellation mit N = 1000 Stichproben simuliert wurde. Hier kann beispielsweise die Verteilung des Stichprobenmittels als Schätzer für μ auch ohne größeren Aufwand exakt angegeben werden. Denn gemäß (7.4.25) gilt: ̂ A = X ∼ N(μ, σ2 /n), μ

(10.1.1)

sofern eine u.i.v.-Stichprobe aus einer Normalverteilung gezogen wird. Für μ = 0, σ2 = 1 und n = 5 etwa ergäbe sich also eine N(0, 0.2)-Verteilung. Bei einer stetigen Gleichverteilung als Ausgangsverteilung gestaltet sich die Bestimmung der exakten Verteilung als sehr zeitaufwendig und mühsam. Anhaltspunkte hierüber liefern die in Abschnitt 7.4.1 durchgeführten Betrachtungen über die Verteilung stochastischer Summen und Mittelwerte bei einer stetigen Gleichverteilung (vgl. auch Abb. 7.4.2). Um dieses Problem zu umgehen, kann man sich auf „große“ Stichprobenumfänge beschränken und Grenzwertsatzresultate bemühen. So gilt ja (10.1.1) gemäß Satz 7.4.3 approximativ für großes n bei (fast) allen Ausgangsverteilungen, d.h. ̂A = X μ

approx



N(μ, σ2 /n).

(10.1.2)

Im Falle des Stichprobenmedians lässt sich zeigen (vgl. z.B. Mood, Graybill und Boes [1974, Theorem 12]), dass für ungerades n dessen Dichte gegeben ist durch f X̃ 0.5 (x) =

n! [F(x)]m−1 [1 − F(x)]n−m f(x), (m − 1)!(n − m)!

(10.1.3)

wobei m = (n +1)/2 ist und F bzw. f Verteilungsfunktion bzw. Dichtefunktion der Ausgangsverteilung bezeichnen. Für eine Standardnormalverteilung ergäbe sich damit f X̃ 0.5 (x) =

1 −0.5x2 n! [Φ(x)]m−1 [1 − Φ(x)]n−m . e (m − 1)!(n − m)! √2π

(10.1.4)

Für Ausgangsverteilungen mit streng monotoner Verteilungsfunktion bei denen Erwartungswert und theoretischer Median übereinstimmen (etwa bei symmetrischen Verteilungen), erhält man als asymptotisches Resultat (vgl. z.B. Mood, Graybill und Boes [1974, Theorem 14]): 1 ̃ 0.5 approx ̂B = X ∼ N(μ, (10.1.5) μ ). 4nf 2 (μ) Bei einer Standardnormalverteilung als Ausgangsverteilung ergäbe sich also etwa ̃ 0.5 ̂B = X μ

approx



N(0,

1 π ). ) = N(0, 2n 4nf 2 (0)

(10.1.6)

Für den Stichproben-Midrange sind ebenfalls analytische Ausdrücke für die Dichtefunktion unter einer Normalverteilung, einer Gleichverteilung oder anderen Verteilungen ableitbar (vgl. hierzu z. B. Pillai [1950] zur Normalverteilung, Mood, Graybill und Boes [1974, Theorem 13 mit Beispiel] zur Gleichverteilung oder in allgemeinerem

10.1 Punktschätzung | 503

Kontext David und Nagaraja [2003]). Da diese jedoch teils sehr länglich und komplex sind, verzichten wir hier auf weitere Details. Abbildung 10.1.4 zeigt nun korrespondierend zum Simulationsergebnis von Abbildung 10.1.2 die theoretischen Verteilungen von Stichprobenmittel und Stichprobenmedian im Falle der Standardnormalverteilung. Konkret erhält man X ∼ N(0, 0.2)

und

X ∼ N(0, 0.04)

für n = 5 bzw. n = 25. Die Verteilung des Stichprobenmedians ergibt sich hingegen aus der Dichtefunktion (10.1.4), wobei entsprechend n = 5 bzw. n = 25 gesetzt wird. n =5

f μ^ A (x ) / f μ^ B (x )

n = 25

f μ^ A (x ) / f μ^ B (x )

2.0

2.0 X ~ X 0.5

1.5 1.0

1.0

0.5

0.5

0.0

0.0 −1.5

−1.0

−0.5

X ~ X 0.5

1.5

0.0

0.5

1.0

1.5

−1.5

x

−1.0

−0.5

0.0

0.5

1.0

1.5

x

Abb. 10.1.4: Stichprobenmittel und Stichprobenmedian bei einer Normalverteilung

• Gütekriterien • Allgemein kann man bei zwei Schätzern denjenigen als besser einstufen, dessen Verteilung sich stärker um den zu schätzenden Parameter konzentriert. Im Falle der Beispiele von Abbildung 10.1.4 ist in dieser Hinsicht sowohl für n = 5 als auch für n = 25 das Stichprobenmittel besser als der Stichprobenmedian. Die Beurteilung ist hier insofern einfach, da beide Verteilungen jeweils symmetrisch um die Null liegen. Die Erwartungswerte beider Schätzer sind damit gleich 0. Die Varianz des Stichprobenmittels ist indes erkennbar kleiner ist als die des Medians. Es lässt sich zeigen, dass dieser qualitative Befund auch für jede andere Konstellation der Werte von μ und n ≥ 1 gelten würde. Somit ist das Stichprobenmittel bei einer normalverteilten Grundgesamtheit tatsächlich „uneingeschränkt besser“ als der Stichprobenmedian. Außerdem weisen die Schätzer bei höherem Stichprobenumfang eine kleinere Varianz auf, werden für wachsendes n „im Durchschnitt“ also genauer. Den Simulationen nach zu urteilen, scheint diese Konvergenzeigenschaft ganz offensichtlich auch für den Stichproben-Midrange zu gelten. Die nachfolgenden Abschnitte werden sich nun im Einzelnen mit verschiedenen Gütekriterien befassen. Hierzu zählen: (i) Erwartungstreue, (ii) Erwartete quadratische Abweichung (MSE), (iii) Konsistenz und

504 | 10 Statistisches Schätzen

(iv) Effizienz. Unter einem erwartungstreuen Schätzer versteht man einen solchen, der „im Mittel“ den zu schätzenden Parameter richtig schätzt. Formal bedeutet dies, dass der Erwartungswert des Schätzers dem Parameterwert entsprechen muss, wie es etwa in den Beispielen von Abbildung 10.1.4 der Fall ist. Detailliert wird die Eigenschaft der Erwartungstreue im nächsten Abschnitt behandelt. Als Maß für die Genauigkeit eines Schätzers wird häufig der MSE bestimmt. Dieser ist als erwartete quadratische Abweichung (engl. Mean Squared Error) des Schätzers vom Parameterwert definiert. Bei erwartungstreuen Schätzern ist der MSE gleich der Varianz des Schätzers. Dieses Kriterium wird in Abschnitt 10.1.3 thematisiert. Sofern sich die Verteilung des Schätzers für wachsendes n immer stärker um den interessierenden Parameterwert konzentriert, spricht man von einem konsistenten Schätzer. Formal konvergiert der Schätzer dann stochastisch gegen den wahren Parameterwert. Damit werden „große“ Schätzfehler mit wachsendem n immer unwahrscheinlicher. Die Eigenschaft der Konsistenz mit ihren unterschiedlichen Formen wird in Abschnitt 10.1.4 besprochen. Fragen nach dem „besseren“ oder „besten“ Schätzer werden unter dem Begriff der Effizienz abschließend in Abschnitt 10.1.5 behandelt.

10.1.2 Erwartungstreue • Definition • Kommen wir zunächst zur formalen Definition von Erwartungstreue und einigen weiteren Begriffen in diesem Zusammenhang. Unterstellt wird ein Schätzproblem im Rahmen eines parametrischen statistischen Modells mit einem unbekannten Parameter θ. Definition 10.1.1: Erwartungstreue und Verzerrung Ein Schätzer θ̂ heißt erwartungstreu für θ, falls ̂ =θ E(θ) für jeden zulässigen Wert θ gilt. Anderenfalls spricht man von einem verzerrten Schätzer. Die Verzerrung (engl. Bias) ist dabei definiert als ̂ = E(θ) ̂ − θ. Bias(θ) Ein Schätzer heißt asymptotisch erwartungstreu, falls gilt: ̂ = θ. lim E(θ)

n→∞

Die inhaltliche Deutung dieser Begriffe wird im Rahmen der nachfolgenden Beispiele geklärt.

10.1 Punktschätzung | 505

• Beispiel 10.1.2: Schätzung des Erwartungswerts • Sind X1 , . . . , X n identisch verteilt mit E(X i ) = μ für i = 1, . . . , n, dann gilt gemäß (7.4.15): E(X) = μ. ̂ = X, ist folglich erwartungstreu. Die Das Stichprobenmittel als Schätzer für μ, d.h. μ Stichprobenvariablen müssen dazu nicht einmal zwingend unkorreliert oder gar unabhängig sein. Selbst die Ausgangsverteilung ist unerheblich. • Beispiel 10.1.3: Schätzung des Mittelwerts einer realen Grundgesamtheit • Der Mittelwert einer realen Grundgesamtheit und der Erwartungswert der Stichprobenvariable bei einmaligem zufälligem Ziehen stimmen überein. Betrachten wir dazu beispielhaft die Situation von Abbildung 9.2.1. Sofern wir aus linker Urne zufällig eine Kugel ziehen und die gezogene Zahl mit der Zufallsvariable X modellieren, erhalten wir μ = E(X) = 1 ⋅ 0.25 + 2 ⋅ 0.5 + 3 ⋅ 0.25 = 2. Der Erwartungswert von X stimmt somit mit dem arithmetischen Mittel aller Zahlen in der Urne überein. Ziehen wir n Kugeln mit Zurücklegen und modellieren die gezogenen Zahlen mit X1 , . . . , X n , so erhalten wir gemäß Satz 9.2.1 (i) unabhängige, identisch wie X verteilte Stichprobenvariablen. Insbesondere gilt dann also auch wieder E(X i ) = 2

für i = 1, . . . , n und folglich E(X) = 2.

Dies alles würde natürlich auch für jeden anderen Mittelwert der Grundgesamtheit gelten. Gemäß Satz 9.2.1 (ii) sind X1 , . . . , X n auch identisch wie X verteilt, falls ohne Zurücklegen gezogen wird. Somit ist das Stichprobenmittel erwartungstreu für das arithmetische Mittel der Grundgesamtheit unabhängig davon, ob nun mit oder ohne Zurücklegen gezogen wird. Im Falle eines metrisch 0-1-kodierten kategorialen Merkmals, wie etwa in Beispiel 9.1.1, entspricht das Stichprobenmittel gerade der relativen Häufigkeit der mit 1 kodierten Ausprägung (vgl. hierzu Satz 7.4.2). Insofern ergibt sich aus diesen Überlegungen auch die Erwartungstreue des Stichprobenmittels für den relativen Anteil einer bestimmten Merkmalsausprägung in der Grundgesamtheit. Dieser wird häufig mit π anstelle von μ notiert. • Beispiel 10.1.4: Verzerrte und asymptotisch erwartungstreue Schätzung • Gegeben sei eine quadratische Metallplatte, deren Fläche zu bestimmen ist. Angenommen, eine Person A misst eine Kantenlänge von 32.1 cm und schließt daraus auf eine Fläche von 32.1 × 32.1 cm2 = 1030.41 cm2 . Eine andere Person B misst dagegen eine Kantenlänge von 31.8 cm und schließt daraus auf eine Fläche von nur 1011.24 cm2 . In dieser Situation liegt ein statistisches Problem aufgrund von Messfehlern vor. Solche können häufig als normalverteilt angenommen werden. Im vorliegenden Fall wäre μ die tatsächliche Kantenlänge und μ2 die tatsächliche Fläche, sofern die Platte exakt

506 | 10 Statistisches Schätzen quadratisch ist. Sei nun X eine einzelne Messung, wobei X als N(μ, σ2 )-verteilt angenommen werden kann und X 2 als Schätzer für μ2 verwendet wird. Mit der Verschiebungsformel für die theoretische Varianz gilt nun aber E(X 2 ) = Var(X) + (E(X))2 = σ2 + μ2 . Das bedeutet, dass X 2 nicht erwartungstreu ist, sondern die Fläche im Allgemeinen überschätzt. Die Verzerrung entspricht dabei der theoretischen Varianz einer Messung. Was würde passieren, wenn aus zwei oder mehreren Einzelschätzungen das Stichprobenmittel gebildet würde? Sofern X1 , . . . , X n unabhängig N(μ, σ2 )-verteilt wären, würde gelten: E(

1 n 1 n 1 n 2 ∑ X i ) = ∑ E(X 2i ) = ∑ (σ2 + μ2 ) = σ2 + μ2 . n i=1 n i=1 n i=1

(10.1.7)

Man erhielte für den Erwartungswert das gleiche Resultat. Am Ausmaß der erwarteten Überschätzung würde sich nichts verändern. Wie lässt sich diese Verzerrung nun eigentlich erklären? Die Messfehler schwanken aufgrund der Symmetrie der Normalverteilung symmetrisch um die wahre Kantenlänge. Beim Quadrieren geht diese Symmetrie jedoch verloren, da Überschätzungen stärker zu Buche schlagen als Unterschätzungen. Angenommen, die tatsächliche Kantenlänge beträgt 30 cm, was einer Fläche von 900 cm2 bedeutet. Wird nun, um das Beispiel extrem zu gestalten, die Kantenlänge einmal mit 20 cm unterschätzt und einmal mit 40 cm überschätzt, lauten die dazu entsprechenden verzerrten Flächenschätzungen 400 cm2 bzw. 1600 cm2 . Wohlgemerkt liegen diese beiden Werte nicht symmetrisch um die wahre Fläche 900 cm2 . Eine alternative Vorgehensweise würde darin bestehen, den Mittelwert der vermessenen Kantenlängen zu nehmen und diesen dann zu quadrieren, d.h. den Schätzer ̂2 = X μ

2

zu verwenden. Wegen Var(X) = σ2 /n

und

E(X) = μ

würde mit der Verschiebungsformel folgen: ̂ 2 ) = Var(X) + (E(X))2 = σ2 /n + μ2 . E(μ

(10.1.8)

Dies bedeutet, dass auch das quadrierte Stichprobenmittel ein verzerrter Schätzer ist. Jedoch strebt die Verzerrung σ2 /n für wachsendes n gegen 0. Folglich erhält man einen asymptotisch erwartungstreuen Schätzer. • Beispiel 10.1.5: Schätzung der theoretischen Varianz • Sind X1 , . . . , X n u.i.v. mit E(X i ) = μ und Var(X i ) = σ2 für i = 1, . . . , n, dann gilt gemäß (7.4.15) und (7.4.18): E(X) = μ

bzw.

Var(X) = σ2 /n.

10.1 Punktschätzung | 507

Nach der allgemeinen Verschiebungsformel (4.4.1) gilt auch: 1 n 1 n ∑ (X i − c)2 = ∑ (X i − X)2 + (X − c)2 n i=1 n i=1

für jedes beliebige c.

Für c = μ erhält man damit durch Umstellen dieser Gleichung für die Stichprobenvarianz 1 n 1 n S̃ 2 = ∑ (X i − X)2 = ∑ (X i − μ)2 − (X − μ)2 . n i=1 n i=1 Darüber ergibt sich dann E(S̃ 2 ) = E[ =

1 n 1 n ∑ (X i − X)2 ] = E[ ∑ (X i − μ)2 ] − E[(X − μ)2 ] n i=1 n i=1

1 n 1 n ∑ E[(X i − μ)2 ] − E[(X − E(X))2 ] = ∑ Var(X i ) − Var(X) n i=1 n i=1

σ2 n − 1 2 = ⋅σ . n n Folglich ist die Stichprobenvarianz kein erwartungstreuer Schätzer für die theoretische Varianz σ2 . Die Verzerrung ist gegeben durch = σ2 −

Bias(S̃ 2 ) = −σ2 /n.

(10.1.9)

Die theoretische Varianz wird systematisch unterschätzt, wobei die Verzerrung für wachsendes n gegen Null strebt. Die Stichprobenvarianz ist jedoch asymptotisch erwartungstreu. Ein erwartungstreuer Schätzer kann jedoch leicht konstruiert werden. Dazu muss die Stichprobenvarianz lediglich mit dem Vorfaktor n/(n − 1) multipliziert werden. Daraus resultiert dann die korrigierte Stichprobenvarianz: S2 =

n ̃2 1 n S = ∑ (X i − X)2 . n−1 n − 1 i=1

Für diese gilt: E(S2 ) = E[

n ̃2 n n−1 2 n S ]= E(S̃ 2 ) = ⋅ ⋅ σ = σ2 . n−1 n−1 n−1 n

(10.1.10)

• Beispiel 10.1.6: Schätzung der empirischen Varianz einer realen Grundgesamtheit • Die empirische Varianz einer realen Grundgesamtheit ist identisch mit der theoretischen Varianz der Stichprobenvariable bei einmaligem zufälligem Ziehen. Betrachten wir dazu wiederum beispielhaft die Situation von Abbildung 9.2.1. Sofern wir aus der linken Urne zufällig eine Kugel ziehen und die gezogene Zahl mit der Zufallsvariable X modellieren, erhalten wir E(X) = 1 ⋅ 0.25 + 2 ⋅ 0.5 + 3 ⋅ 0.25 = 2, E(X 2 ) = 12 ⋅ 0.25 + 22 ⋅ 0.5 + 32 ⋅ 0.25 = 4.5

508 | 10 Statistisches Schätzen

und damit σ2 = Var(X) = E(X 2 ) − (E(X))2 = 0.5. Die Berechnung der empirischen Varianz erfolgt analog zum theoretischen Kalkül. Für die betreffenden empirischen Werte wird lediglich die Notation angepasst. Für die N = 4 Kugeln zu Abbildung 9.2.1 ergibt sich 1 1 N ∑ z i = (1 + 2 + 2 + 3) = 2, N i=1 4 1 N 2 1 2 ∑ z = (1 + 22 + 22 + 32 ) = 4.5 N i=1 i 4 und schließlich ̃s2 =

1 N 1 N 2 ∑ (z i − z)2 = ∑ z − z2 = 0.5. N i=1 N i=1 i

Man beachte, dass die Anzahl der Kugeln hier nicht mit n notiert werden darf, da n bereits für die Anzahl der gezogenen Kugeln (Stichprobenumfang) verwendet wird. Ziehen wir nun n Kugeln mit Zurücklegen und modellieren die gezogenen Zahlen mit X1 , . . . , X n , so sind diese gemäß Satz 9.2.1 (i) unabhängig und identisch wie X verteilt. Insbesondere gilt also auch Var(X i ) = 0.5

für i = 1, . . . , n.

Mit (10.1.10) folgt damit dann auch E(S2 ) = 0.5. Möglicherweise irritierend könnte hier sein, dass die korrigierte Stichprobenvarianz mit Divisor (n − 1) erwartungstreu für die (nichtkorrigierte) empirische Varianz mit Divisor n ist. Dies alles würde auch für jede andere empirische Varianz der Grundgesamtheit gelten. Die Resultate (10.1.9) und (10.1.10) gelten jedoch nicht, sofern ohne Zurücklegen gezogen wird. Die Formeln zur erwartungstreuen Schätzung der theoretischen Varianz sind dann etwas komplexer. Auf weitere Details hierzu sei verzichtet. Jedenfalls wäre im Allgemeinen weder die (nichtkorrigierte) Stichprobenvarianz noch die korrigierte Stichprobenvarianz erwartungstreu für die theoretische Varianz. • Zusammenfassung • Die in den Beispielen dieses Abschnitts gewonnenen Erkenntnisse seien nun kompakt zusammengefasst. Satz 10.1.1: Erwartungstreue Schätzung von Erwartungswert und theoretischer Varianz Seien X1 , . . . , X n identisch verteilte Stichprobenvariablen mit Erwartungswert μ und Varianz σ2 . Weiter seien das Stichprobenmittel bzw. die korrigierte Stichpro-

10.1 Punktschätzung | 509

benvarianz ̂=X μ

bzw.

̂ 2 = S2 = σ

1 n ∑ (X i − X)2 . n − 1 i=1

Dann gilt: ̂ ) = μ, E(μ ̂2

2

E(σ ) = σ ,

(10.1.11) falls X1 , . . . , X n unabhängig sind.

(10.1.12)

Satz 10.1.2: Erwartungstreue Schätzung von Mittelwert und empirischer Varianz bei realer Grundgesamtheit (Urnenmodell) Gegeben sei eine Urne mit N ≥ 1 Kugeln, die mit Zahlen z1 , . . . , z N beschriftet sind. Sei μ = z das arithmetische Mittel aller Zahlen und σ2 = ̃s2Z die empirische Varianz. Es werden n ≥ 1 Kugeln zufällig gezogen und die gezogenen Zahlen mit den Stichprobenvariablen X1 , . . . , X n modelliert. Dann gilt: E(X) = μ = z, 2

2

E(S ) = σ =

̃s2Z ,

falls mit oder ohne Zurücklegen gezogen wird, falls mit Zurücklegen gezogen wird.

(10.1.13) (10.1.14)

Bemerkung: Für das Ziehen ohne Zurücklegen in (10.1.13) wird implizit N ≥ n vorausgesetzt. Man beachte, dass die Unterscheidung von Schätzproblemen im Kontext hypothetischer und realer Grundgesamtheiten in gewisser Weise unnötig ist. Im Zuge der statistischen Modellierung realer Stichproben wird aus dem arithmetischen Mittel der Grundgesamtheit ein Erwartungswert und aus der empirischen Varianz der Grundgesamtheit eine theoretische Varianz. Dadurch begründen sich auch die Gleichsetzungen μ=z

bzw.

σ2 = ̃s2Z .

Hierbei ist zu beachten, dass wir nicht μ = x und σ2 = ̃s2X setzen dürften, da die rechten Ausdrücke für die Realisationen der betreffenden Schätzer verwendet werden.

10.1.3 Erwartete quadratische Abweichung (MSE) • Hintergrund und Definition • Beispiel 10.1.1 hat gezeigt, dass Erwartungstreue („im Mittel richtig schätzen“) nicht das einzige Gütekriterium zur Beurteilung eines Schätzers sein sollte. Entscheidend ist vielmehr, wie sehr sich die Verteilung eines Schätzers um den wahren Wert konzentiert. Was wir somit benötigen, ist ein objektives Maß, mit dem sich die Genauigkeit eines Schätzers quantifizieren lässt. Im Falle

510 | 10 Statistisches Schätzen

erwartungstreuer Schätzer wäre es naheliegend, dafür gerade die theoretische Varianz des Schätzers zu nehmen, im Falle verzerrter Schätzer jedoch nicht. Wie sollte denn auch beispielsweise ein Schätzer, der mit kleiner Varianz um den falschen Wert herum streut, nützlich sein? Ein häufig verwendetes Maß ist das folgende. Definition 10.1.2: Erwartete quadratische Abweichung (MSE) Gegeben sei ein Schätzer θ̂ für einen Parameter θ. Die erwartete quadratische Abweichung, die auch als MSE (engl. Mean Squared Error) bezeichnet wird, ist definiert als ̂ + (Bias(θ)) ̂ 2. ̂ = E([θ̂ − θ]2 ) = Var(θ) MSE(θ)

Die letzte Gleichung der Definition ergibt sich wie folgt: ̂ + E(θ) ̂ − θ]2 ) E([θ̂ − θ]2 ) = E([θ̂ − E(θ) ̂ ̂ − θ]) + E([E(θ) ̂ − θ]2 ) ̂ 2 ) + 2E([θ̂ − E(θ)][E( θ) = E([θ̂ − E(θ)] ̂ − θ] ⋅ E(θ̂ − E(θ)) ̂ + ([E(θ) ̂ − θ]2 ) ̂ 2 ) + 2[E(θ) = E([θ̂ − E(θ)] ̂ + 2[E(θ) ̂ − θ] ⋅ 0 + (Bias(θ)) ̂ 2. = Var(θ) Der MSE ist der Erwartungswert der quadrierten Abweichung des Schätzers vom zu schätzenden Parameter. Im Falle eines erwartungstreuen Schätzers entspricht der MSE gerade der Varianz. Ansonsten geht als zweite Komponente noch die quadrierte Verzerrung mit ein. Der MSE eines Schätzers ist umso größer, je größer seine Varianz und seine Verzerrung ist. • Beispiel 10.1.7 • Stellen wir uns als Beispiel unabhängige N(μ, σ2 )-verteilte Zufallsvariablen X1 , . . . , X n vor. Zur Schätzung des Erwartungswertes betrachten wir nun folgende 3 Schätzer: ̂ A = X, μ

̂ B = X1 , μ

̂ C = X + 1/n. μ

̂ B sind erwartungstreu. Der Schätzer μ ̂ C weist die Verzerrung ̂ A und μ Die Schätzer μ 1/n auf. Da wir von normalverteilten Zufallsvariablen ausgehen, gilt gemäß (7.4.21) und (7.4.25): ̂ A ∼ N(μ, σ2 /n), μ

̂ B ∼ N(μ, σ2 ), μ

̂ C ∼ N(μ + 1/n, σ2 /n). μ

Abbildung 10.1.5 zeigt die Verteilungen aller drei Schätzer für den Fall μ = 0, σ2 = 1 und n = 2 bzw. n = 10. Betrachtet man die Konzentration der einzelnen Verteilungen um den wahren Wert ̂ A offensichtlich die besten Eigen0, so besitzt die Verteilung des Stichprobenmittels μ ̂ C sieht zumindest für den Fall n = 10 günstiger aus schaften. Die Verteilung von μ ̂ C verzerrt ist. Diese Verzerrung geht aber für wachsendes n ̂ B , obwohl μ als die von μ

10.1 Punktschätzung | 511

n = 10

n =2 f

f

1.5

1.5

^ μ A

^ μ A

1.0

^ μ B

1.0

^ μ B

0.5

^ μ C

0.5

^ μ C

0.0

0.0 −3

−2

−1

0

1

2

3

−3

x

−2

−1

0

1

2

3

x

Abb. 10.1.5: Verteilung der drei Schätzer von Beispiel 10.1.7

̂ A und μ ̂ C für n = 10 gegen Null. Außerdem ist zu sehen, dass die Verteilungen von μ enger beieinander liegen als für n = 2. Im Fall n = 2 ist nicht ganz eindeutig, ob ̂ C die bessere Wahl ist. ̂ B oder der verzerrte Schätzer μ der erwartungstreue Schätzer μ ̂ C mit der Gesamtheit seiner WahrscheinlichDafür kommt aber die Verteilung von μ keitsmasse recht nahe an die 0 heran. Berechnet man für jeden Schätzer den MSE, erhält man: ̂ A ) = MSE(X) = Var(X) = MSE(μ

σ2 , n

̂ B ) = MSE(X1 ) = σ2 , MSE(μ 1 1 1 1 2 σ2 + 2. ) = Var(X + ) + (Bias(X + )) = n n n n n ̂ A den Zunächst einmal ist klar, dass hinsichtlich des MSE-Kriteriums der Schätzer μ ̂ A ist stets kleiner oder gleich anderen beiden Schätzern überlegen ist. Der MSE von μ ̂C ̂ B und μ den MSE’s der anderen beiden Schätzer. Die Präferenzordnung zwischen μ ist dagegen nicht eindeutig. Für den Fall σ2 = 1 und n = 2 erhalten wir beispielsweise ̂ C ) = MSE(X + MSE(μ

̂B) = 1 MSE(μ

bzw.

̂ C ) = 0.5 + 0.52 = 0.75. MSE(μ

̂ B vorzuziehen. Für σ2 = 0.1 und ̂ C wäre in diesem Fall dem Schätzer μ Der Schätzer μ n = 2 erhalten wir dagegen ̂ B ) = 0.1 MSE(μ

bzw.

̂ C ) = 0.05 + 0.52 = 0.30. MSE(μ

̂C. ̂ B besser als μ Bei dieser Konstellation wäre also μ

10.1.4 Konsistenz • Hintergrund und Definition • Ein entscheidender Punkt ist die Abhängigkeit des MSE vom Stichprobenumfang. So sollte der MSE als Maß für die Genauigkeit eines Schätzers für wachsenden Stichprobenumfang kleiner werden. Bildlich gesprochen, sollte sich die Verteilung eines Schätzers über dem wahren Wert „zusammenziehen“.

512 | 10 Statistisches Schätzen

Sind X1 , . . . , X n beispielsweise u.i.v. Stichprobenvariablen mit Erwartungswert μ und Varianz σ2 < ∞, so ist der MSE des Stichprobenmittels X als Schätzer für μ gegeben durch MSE(X) = σ2 /n. In diesem Fall gilt dann: n→∞

MSE(X) 󳨀󳨀󳨀󳨀󳨀→ 0. Auf der anderen Seite wissen wir auch, dass das Stichprobenmittel aufgrund des GGZ (Satz 7.4.1) stochastisch gegen den Erwartungswert konvergiert. Es gilt also auch: n→∞

P(|X − μ| < ε) 󳨀󳨀󳨀󳨀󳨀→ 1

n→∞

P(|X − μ| ≥ ε) 󳨀󳨀󳨀󳨀󳨀→ 0

bzw.

für jedes ε > 0 bzw. in Kurznotation: p

X 󳨀󳨀→ μ. Die Wahrscheinlichkeit, dass sich das Stichprobenmittel außerhalb eines beliebig kleinen Bereichs um μ herum realisiert, konvergiert für wachsendes n gegen Null. Auf diesen beiden Konzepten, also der Konvergenz des MSE gegen 0 einerseits und der stochastischen Konvergenz gegen den wahren Wert andererseits, wird die Eigenschaft der Konsistenz eines Schätzers definiert. Definition 10.1.3: MSE-Konsistenz und schwache Konsistenz Ein Schätzer θ̂ n für einen Parameter θ heißt (i) MSE-konsistent, falls gilt: MSE(θ̂ n ) 󳨀󳨀󳨀󳨀󳨀→ 0. n→∞

(ii) schwach konsistent, falls für jedes ε > 0 gilt: P(|θ̂ n − θ| < ε) 󳨀󳨀󳨀󳨀󳨀→ 1 n→∞

bzw.

P(|θ̂ n − θ| ≥ ε) 󳨀󳨀󳨀󳨀󳨀→ 0, n→∞

p in Kurzschreibweise: θ̂ n 󳨀󳨀→ θ.

• Bemerkung zur Notation • Man beachte, dass in der hier gewählten Notation der Schätzer zusätzlich mit dem Index n versehen wurde. Dadurch wird die Abhängigkeit des Schätzers vom Stichprobenumfang deutlicher erkennbar gemacht. Formal wird dann eigentlich die Folge der Schätzer θ̂ 1 , θ̂ 2 , θ̂ 3 , . . . betrachtet. Üblich ist diese Schreibweise vor allem bei der Formulierung asymptotischer Sachverhalte (n → ∞). Möchte man beispielsweise asymptotische Eigenschaf-

10.1 Punktschätzung | 513

ten des Stichprobenmittels formal beschreiben, so ist in der Regel die Schreibweise X n gegenüber X zu bevorzugen. Anderenfalls kann auf die Indizierung mit n auch verzichtet werden. • MSE-Konsistenz impliziert schwache Konsistenz • Eine Frage, die sich stellt, ist, ob MSE-Konsistenz und schwache Konsistenz äquivalent sind, d.h. das eine das jeweils andere impliziert. Es mag teils überraschen, dass dies nicht der Fall ist. MSEKonsistenz ist eine stärkere Form von Konvergenz und impliziert schwache Konsistenz. Die Umkehrung gilt jedoch nicht, d.h. ein schwach konsistenter Schätzer ist nicht zwingend MSE-konsistent. MSE-Konsistenz impliziert schwache Konsistenz. Die Umkehrung gilt nicht. Wir zeigen zunächst, dass MSE-Konsistenz schwache Konsistenz impliziert. Dazu betrachten wir einen MSE-konsistenten Schätzer θ̂ n für einen Parameter θ. Dann gilt für jedes ε > 0: P(|θ̂ n − θ| ≥ ε) = P((θ̂ n − θ)2 ≥ ε2 ) ≤ MSE(θ̂ n )/ε2 .

(10.1.15)

Bei einem MSE-konsistenten Schätzer konvergiert die rechte Seite der Ungleichung für jedes ε > 0 für wachsendes n gegen Null. Dies impliziert für die linke Seite P(|θ̂ n − θ| ≥ ε) 󳨀󳨀󳨀󳨀󳨀→ 0, n→∞

d.h. die schwache Konsistenz des Schätzers. Zum Beweis der Ungleichung definiert man die diskrete Zufallsvariable Y n mit {0, Yn = { 1, {

für |θ̂ n − θ| < ε, für |θ̂ n − θ| ≥ ε,

Damit gilt generell (θ̂ n − θ)2 . (10.1.16) ε2 Denn für Y n = 0 ist Ungleichung (10.1.16) auf jeden Fall erfüllt, da die rechte Seite nicht negativ sein kann. Für Y n = 1 gilt hingegen Yn ≤

(θ̂ n − θ)2 ≥ ε2 ,

d.h. (θ̂ n − θ)2 /ε2 ≥ 1.

Somit ist Ungleichung (10.1.16) ebenfalls erfüllt. Für den Erwartungswert impliziert dies P(|θ̂ n − θ| ≥ ε) = E(Y n ) ≤ E([θ̂ n − θ]2 /ε2 ), wobei der Zähler des Quotienten auf der rechten Seite der Ungleichung gerade dem MSE des Schätzers entspricht. Damit ist Ungleichung (10.1.15) bewiesen.

514 | 10 Statistisches Schätzen

Das spätere Beispiel 10.1.11 belegt, dass ein schwach konsistenter Schätzer nicht zwingend MSE-konsistent sein muss. • Konsistente Schätzung von Funktionen eines Parameters • Aus dem Stetigkeitssatz (Satz 8.2.3) ergibt sich folgendes nützliche Resultat. Dazu beachte man das spätere Beispiel 10.1.9. Satz 10.1.3: Konsistente Schätzung von Funktionen eines Parameters Ist θ̂ n ein schwach konsistenter Schätzer für einen Parameter θ und g eine stetige Funktion, dann ist g(θ̂ n ) ein schwach konsistenter Schätzer für g(θ), sofern g(θ) definiert ist.

• Nachweis von MSE-Konsistenz • Zum Nachweis der MSE-Konsistenz eines Schätzers ist im Allgemeinen der MSE analytisch zu bestimmen und dann zu klären, ob dieser für wachsendes n gegen Null konvergiert. Im vorhergehenden Beispiel 10.1.7 ̂ C MSE-konsistent sind, nicht aber ̂ A und μ ergibt sich daraus dann, dass lediglich μ ̂ B . Aus der Zerlegbarkeit des MSE in Varianz und Verzerrung (Def. 10.1.2) erhält man μ außerdem folgendes Resultat: Ein erwartungstreuer oder asymptotisch erwartungstreuer Schätzer ist genau dann MSE-konsistent, falls dessen Varianz für wachsendes n gegen Null konvergiert.

• Nachweis von schwacher Konsistenz • Da MSE-Konsistenz schwache Konsistenz impliziert, ist letztere automatisch nachgewiesen, sofern sich erstere Konsistenzform ̂C ̂ A und μ nachweisen lässt. So impliziert in Beispiel 10.1.7 die MSE-Konsistenz von μ automatisch auch deren schwache Konsistenz. Bisweilen erweist sich jedoch die analytische Herleitung einer MSE-Formel als sehr schwierig, sodass man anders vorgehen muss. Dann greift man häufig auf das Gesetz der großen Zahlen zurück, möglicherweise noch in Kombination mit dem Stetigkeitssatz bzw. Satz 10.1.3. Das spätere Beispiel 10.1.8 führt diese Variante näher aus. Scheidet auch diese Variante aus, so bleibt häufig nur der direkte Nachweis bzw. die direkte Widerlegung anhand der Definition ̂ B in Beispiel 10.1.7: der schwachen Konsistenz. So gilt etwa für den Schätzer μ P(|X1 − μ| > σ) ≈ 1 − 0.6827 = 0.3173 (vgl. Abb. 7.3.13) für jedes n ≥ 1. Die Wahrscheinlichkeit konvergiert für wachsendes n also nicht gegen 0. Dies liegt daran, dass von den n Stichprobenvariablen X1 , . . . , X n immer nur die erste Beobachtung als Schätzung verwertet wird. Die schwache Konsistenz wurde somit direkt anhand der Definition widerlegt.

10.1 Punktschätzung | 515

Schwache Konsistenz lässt sich, sofern vorhanden, 1. über die stärkere Form der MSE-Konsistenz, 2. anhand asymptotischer Resultate (GGZ + Stetigkeitssatz) oder 3. direkt anhand der Definition nachweisen. • Beispiel 10.1.8: Konsistente Schätzung von Erwartungswert und Varianz • Mit den vorhergehenden Überlegungen folgt, dass das Stichprobenmittel bei u.i.v.Stichproben sowohl ein MSE-konsistenter als auch ein schwach konsistenter Schätzer für μ ist. In Bezug auf die Schätzung der theoretischen Varianz muss etwas weiter ausgeholt werden. Aus Abschnitt 10.1.2 (Satz 10.1.1) wissen wir bereits, dass die korrigierte Stichprobenvarianz S2 ein erwartungstreuer Schätzer für σ2 ist. Zum Nachweis der MSE-Konsistenz muss nun die Varianz von S2 bestimmt werden. Dies erweist sich als recht aufwändig (vgl. hierzu auch die Resultate von Beispiel 10.3.1). Das Resultat lautet 1 ∗ n−3 4 σ ), wobei μ∗4 = E([X i − μ]4 ) < ∞ (10.1.17) (μ − n 4 n−1 vorausgesetzt wird. Unter der Annahme endlicher 4. Momente (oder alternativ unter der strengeren Annahme (M) aus Definition 8.2.1) gilt folglich Var(S2 ) =

σ n−1 2 S n ) + (− ) MSE(S̃ 2n ) = Var(S̃ 2n ) + (Bias(S̃ 2n ))2 = Var( n n 4 (n − 1)2 σ n→∞ = Var(S2n ) + 2 󳨀󳨀󳨀󳨀󳨀→ 0. n2 n Somit sind korrigierte und nichtkorrigierte Stichprobenvarianz sowohl MSEkonsistente als auch schwach konsistente Schätzer für die theoretische Varianz. Um lediglich die schwache Konsistenz nachzuweisen, genügt bereits die Annahme endlicher zweiter Momente. Gemäß (8.3.29) in Beispiel 8.3.6 gilt dann: 2 2

p S̃ 2n 󳨀󳨀→ σ2

(10.1.18)

Durch Anwendung des multivariaten Stetigkeitssatzes (Satz 8.3.3) folgt aus (10.1.18) n ̃2 p 2 S 󳨀󳨀→ σ . (10.1.19) S2n = n−1 n n→∞

wegen n/(n − 1) 󳨀󳨀󳨀󳨀󳨀→ 1. Satz 10.1.4: Konsistente Schätzung von Erwartungswert und Varianz Seien X1 , . . . , X n u.i.v. mit Erwartungswert μ und Varianz σ2 und E(X 4i ) < ∞. Dann gilt:

516 | 10 Statistisches Schätzen

(i) Das Stichprobenmittel X ist ein MSE-konsistenter und schwach konsistenter Schätzer für μ. (ii) Die korrigierte (nichtkorrigierte) Stichprobenvarianz S2 (S̃ 2 ) ist ein MSEkonsistenter und schwach konsistenter Schätzer für σ2 .

• Beispiel 10.1.9: Konsistente Schätzung einer Funktionen eines Parameters • Gegeben sei die Situation aus Beispiel 10.1.4. Ausgehend von unabhängigen und identische verteilten Zufallsvariablen X1 , . . . , X n mit Erwartungswert μ betrachten wir zur 2 Schätzung von μ2 (Fläche einer Metallplatte) den Schätzer X . Mit dem GGZ gilt dann: p

X 󳨀󳨀→ μ. Wählen wir die stetige Funktion g(t) = t2 , so folgt mit dem Stetigkeitssatz (Satz 8.2.3) p

2

g(X) = X 󳨀󳨀→ g(μ) = μ2 . Der Schätzer ist somit schwach konsistent. Nicht viel anders verhält es sich, falls X1 , . . . , X n unabhängig Exp(λ)-verteilt sind mit E(X i ) = 1/λ p

für i = 1, . . . , n. p

Aus X 󳨀󳨀→ 1/λ folgt unmittelbar 1/X 󳨀󳨀→ λ. Der Kehrwert des Stichprobenmittels ist ein schwach konsistenter Schätzer für λ. Als Funktion g wählen wir in diesem Fall g(t) = 1/t. Man beachte, dass die Funktion g im gesamten Definitionsbereich stetig ist. An der Stelle 0 ist g jedoch nicht definiert. • Beispiel 10.1.10: Konsistente Schätzung eines theoretischen Maximums • Seien X1 , . . . , X n unabhängig und stetig gleichverteilt (Abschnitt 7.3.2) über dem Intervall [0, θ], wobei der Parameter θ > 0 die Obergrenze der Trägermenge (theoretisches Maximum) bildet. Sofern dieser Parameter unbekannt ist, stellt sich die Frage nach einem sinnvollen Schätzer. Aufgrund des GGZ ist das Stichprobenmittel ein schwach konsistenter Schätzer für den Erwartungswert der Verteilung, der in diesem Fall gegeben ist durch θ/2 (die Intervallmitte): p

X 󳨀󳨀→ θ/2. Durch Betrachtung der stetigen Funktion g(t) = 2t folgt dann mit dem Stetigkeitssatz p

2X 󳨀󳨀→ θ. Somit wäre das Zweifache des Stichprobenmittels ein schwach konsistenter Schätzer für diese Obergrenze. Tatsächlich ist dieser auch MSE-konsistent. Der MSE lässt sich auch relativ einfach bestimmen. Eine alternative Möglichkeit besteht darin, das Stichprobenmaximum X(n) als Schätzer zu wählen. Hierbei muss man zum Nachweis der schwachen Konsistenz di-

10.1 Punktschätzung | 517

rekt an der Definition ansetzen. So gilt für jedes ε > 0 zunächst einmal: P(|X(n) − θ| ≤ ε) = P(θ − ε ≤ X(n) ≤ θ + ε) = P(X(n) ≤ θ + ε) − P(X(n) < θ − ε) = 1 − P(X(n) < θ − ε).

(10.1.20)

Die letzte Gleichung gilt, da θ das theoretische Maximum ist, und somit das Stichprobenmaximum keinen größeren Wert realisieren kann. Ist die größte Beobachtung kleiner θ − ε, so trifft dies für alle Werte zu, d.h. man erhält weiter P(X(n) < θ − ε) = P(X1 < θ − ε, X2 < θ − ε, . . . , X n < θ − ε) = [P(X1 < θ − ε)]n

(10.1.21)

Letzte Gleichung ergibt sich aus dem Multiplikationskriterium, da X1 , . . . , X n unabhängig und identisch verteilt sind. Für ε ≥ θ erhält man aus (10.1.21) [P(X1 < θ − ε)]n = 0n = 0, da das theoretische Minimum durch die untere Intervallgrenze 0 gebildet wird. Für 0 < ε < θ erhält man hingegen (vgl. Abb. 10.1.6) P(X1 < θ − ε) = P(X1 ≤ θ − ε) = F X1 (θ − ε) =

θ−ε . θ

(10.1.22)

Somit ergibt sich aus (10.1.20)–(10.1.22) für jedes ε ≥ θ P(|X(n) − θ| ≤ ε) = 1 − 0 = 1

(10.1.23)

und für jedes 0 < ε < θ θ−ε n (10.1.24) ) . θ Wegen (θ − ε)/θ < 1 für 0 < ε < θ konvergiert die rechte Seite von (10.1.24) für wachsendes n gegen 1. Insgesamt erhält man aus (10.1.23) und (10.1.24) die schwache Konsistenz des Stichprobenmaximums für die theoretische Obergrenze θ. P(|X(n) − θ| ≤ ε) = 1 − (

X 1 ~ G (0, θ) 1 θ θ−ε θ θ

0 θ−ε

ε

Abb. 10.1.6: Illustration zu Gleichung (10.1.22)

518 | 10 Statistisches Schätzen

• Beispiel 10.1.11: Schwache Konsistenz impliziert keine MSE-Konsistenz • Seien X1 , . . . , X n unabhängig mit 1 1 und P(X i = θ + i) = für i = 1, . . . , n, wobei θ ∈ ℝ. i i Wir beachten, dass die Zufallsvariablen nicht identisch verteilt sind. Die Verteilung hängt jeweils vom Index i ab. Jedes X i genügt hier einer diskreten Verteilung mit zwei Trägerpunkten. Der erste Trägerpunkt ist konstant gleich θ, während der zweite den Wert θ+i besitzt und für wachsendes i und n gegen Unendlich strebt. Gleichzeitig wird die Wahrscheinlichkeit des ersten Trägerpunktes immer größer und die des zweiten immer kleiner. Damit konzentriert sich die Verteilung für wachsendes i immer stärker um den Parameterwert θ. Als Schätzer für θ betrachten wir nun die n-te Beobachtung X n . Dabei gilt: P(X i = θ) = 1 −

P(X n = θ) = 1 − 1/n

P(X n = θ + n) = 1/n.

und

Daraus folgt: P(|X n − θ| = 0) = 1 − 1/n

und

P(|X n − θ| = n) = 1/n.

Damit ist X n schwach konsistent für θ, da n→∞

1 ≥ P(|X n − θ| < ε) ≥ P(|X n − θ| = 0) 󳨀󳨀󳨀󳨀󳨀→ 1 n→∞

P(|X n − θ| < ε) 󳨀󳨀󳨀󳨀󳨀→ 1

für jedes ε > 0, d.h.

für jedes ε > 0.

Andererseits gilt: E(X n ) = θ(1 − 1/n) + (θ + n)/n = θ + 1, E(X 2n ) = θ2 (1 − 1/n) + (θ + n)2 /n = θ2 + 2θ + n, Bias(X n ) = E(X n ) − θ = θ + 1 − θ = 1 und Var(X n ) = E(X 2n ) − (E(X n ))2 = θ2 + 2θ + n − (θ + 1)2 = n − 1. Somit folgt für den MSE MSE(X n ) = Var(X n ) + (Bias(X n ))2 = n − 1 + 12 = n. Der MSE strebt für wachsendes n gegen Unendlich und nicht gegen 0. Dies ist darauf zurückzuführen, dass die Varianz der Verteilung aufgrund der auseinanderstrebenden Trägerpunkte zunimmt. Deshalb ist X n als Schätzer für θ nicht MSE-konsistent. Dieses Beispiel ist sicherlich sehr konstruiert und besitzt kaum praktische Relevanz. Dennoch ändert dies nichts an der Tatsache, dass schwache Konsistenz keine MSE-Konsistenz impliziert. Weitere Gegenbeispiele lassen sich immer dann konstruieren, falls die Ausgangsverteilung der Stichprobenvariablen einen endlichen Erwartungswert aber keine endliche Varianz besitzt. Dann gilt gemäß GGZ (Satz 7.4.1) zwar, dass das Stichprobenmittel bei einem u.i.v.-Schema schwach konsistent für den Erwartungswert ist, jedoch lässt sich aufgrund der nicht endlichen Varianz keine MSE-Konsistenz erzielen. Bei-

10.1 Punktschätzung | 519

spielsweise würde dies bei einer t-Verteilung mit 2 Freiheitsgraden als Ausgangsverteilung zutreffen (Abschnitt 8.1.2). • Konsistenz ist Mindestanforderung • Die Konsistenz ist die wichtigste Eigenschaft eines Schätzers und zugleich auch eine Mindestanforderung, die man an einen Schätzer stellt. Denn jeder sinnvoll konstruierte Schätzer sollte für wachsenden Stichprobenumfang genauer werden.

10.1.5 Effizienz • Hintergrund • In der Praxis arbeitet man in der Regel mit einem festen Stichprobenumfang, der mehr oder weniger vorgegeben ist. Stehen nun mehrere sinnvolle Schätzer zur Auswahl, ist i.d.R. derjenige zu bevorzugen, der den kleineren MSE aufweist. Folgendes Beispiel verdeutlicht, dass die Frage nach dem „besseren“ oder gar „besten“ Schätzer jedoch keinesfalls immer eindeutig beantwortet werden kann. Vielmehr läuft es häufig auf ein „es kommt darauf an“ hinaus. • Beispiel 10.1.12: Schätzung eines theoretischen Anteilswerts • Seien X1 , . . . , X n unabhängig B(1, π)-verteilt, wobei der Parameter π geschätzt werden soll. In der Praxis könnte damit beispielsweise die Schätzung eines Anteilswerts in einer dichotomen Grundgesamtheit wie etwa in Beispiel 9.1.1 (Anteil von Mensabefürwortern) modelliert werden. Es werden nun folgende 4 Schätzer betrachtet, wobei n als gerade Zahl vorausgesetzt wird: ̂A = π

1 n ∑ Xi , n i=1

̂B = π

2 n/2 ∑ Xi , n i=1

̂ C = 0.5, π

̂D = π

1 n 1 . ∑ Xi + n + 2 i=1 n+2

̂ A ist das Stichprobenmittel und entspricht der relativen Häufigkeit der Der Schätzer π ̂ B verwendet nur die erste Hälfte der StichproEinsen in der Stichprobe. Der Schätzer π ̂C be. Die zweite Hälfte der Beobachtungen wird sozusagen ignoriert. Der Schätzer π ist eigentlich kein „richtiger“ Schätzer, da er die Stichprobe überhaupt nicht verwertet. Egal wie die Beobachtungswerte auch ausfallen, wird als Schätzung der Wert 0.5 verwendet. Man könnte diesen Schätzer als auf 0.5 einpunktverteilte Zufallsvariable ̂ D erscheint zunächst einmal nur eigenartig. Für großes interpretieren. Der Schätzer π n entspricht er approximativ dem ersten Schätzer, weist jedoch den Divisor (n + 2) und eine zusätzliche Verschiebungskonstante 1/(n + 2) auf. Im Folgenden werden die MSE-Eigenschaften dieser 4 Schätzer miteinander verglichen. Da der Erwartungswert einer B(1, π)-Verteilung gleich π ist, folgt ̂ A ) = E( E(π

1 n 1 n 1 n ∑ X i ) = ∑ E(X i ) = ∑ π = π, n i=1 n i=1 n i=1

̂ B ) = E( E(π

2 n/2 2 n/2 2 n/2 ∑ X i ) = ∑ E(X i ) = ∑ π = π, n i=1 n i=1 n i=1

520 | 10 Statistisches Schätzen ̂ C ) = E(0.5) = 0.5, E(π ̂ D ) = E( E(π

1 n 1 nπ + 1 . )= ∑ Xi + n + 2 i=1 n+2 n+2

̂ A und ̂ A folgt bereits aus Satz 10.1.1 für μ = π. Die Schätzer π Die Erwartungstreue von π ̂ C und π ̂ D sind es nicht. Die Verzerrungen der ̂ B sind erwartungstreu, die Schätzer π π ̂ D lauten ̂ C und π Schätzer π ̂ C ) − π = 0.5 − π und ̂ C ) = E(π Bias(π nπ + 1 1 − 2π ̂ D ) = E(π ̂D) − π = Bias(π −π= . n+2 n+2 Mit den Rechenregeln für die Varianz erhält man dann weiter ̂ A ) = Var( Var(π

1 n 1 n π(1 − π) 1 n , ∑ X i ) = 2 ∑ Var(X i ) = 2 ∑ π(1 − π) = n i=1 n n i=1 n i=1

̂ B ) = Var( Var(π

2 n/2 4 n/2 2π(1 − π) 4 n/2 , ∑ X i ) = 2 ∑ Var(X i ) = 2 ∑ π(1 − π) = n i=1 n n i=1 n i=1

̂ C ) = Var(0.5) = 0, Var(π ̂ D ) = Var( Var(π

nπ(1 − π) 1 n 1 n 1 . ) = Var( ∑ Xi + ∑ Xi ) = n + 2 i=1 n+2 n + 2 i=1 (n + 2)2

Daraus resultiert schließlich π(1 − π) , n 2π(1 − π) ̂B) = ̂ B ) = Var(π , MSE(π n ̂ C ) = Var(π ̂ C ) + (Bias(π C ))2 = 0 + (0.5 − π)2 = (0.5 − π)2 MSE(π

̂ A ) = Var(π ̂A) = MSE(π

und ̂ D ) = Var(π ̂ D ) + (Bias(π D ))2 = MSE(π

nπ(1 − π) (1 − 2π)2 + . (n + 2)2 (n + 2)2

̂ B vorzuziehen ist, da der MSE ̂ A dem Schätzer π Es ist offensichtlich, dass der Schätzer π ̂ A unter allen Konstellationen, d.h. für alle Werte von π und n, in der Regel kleiner von π ̂ B . Zieht man jedoch die anderen und auf jeden Fall nie größer ist als derjenige von π beiden Schätzer in Betracht, läuft die Antwort auf die Frage nach dem besten Schätzer auf ein „es kommt darauf an“ hinaus. Denn der MSE hängt bei allen Schätzern mit ̂ C sowohl von π als auch von n ab. Abbildung 10.1.7 illustriert diesen Ausnahme von π Sachverhalt für n = 10 und n = 20. Die beiden Schaubilder zeigen die jeweilige Abhängigkeit des MSE vom Parameter π. ̂ C für n = 20 Gut zu erkennen ist, dass der MSE bei allen Schätzern mit Ausnahme von π kleiner ist als für n = 10. Dahinter steckt die Eigenschaft der Konsistenz. Dennoch ̂ C unter gewissen Umständen „der beste“ sein. Dies ist insbesonkann der Schätzer π

10.1 Punktschätzung | 521

n = 10

MSE (π)

^B π

0.06 0.05 0.04

0.06

^C π

^C π

0.05 0.04

^A π

0.03

n = 20

MSE (π)

^B π

0.03

0.02

^A π

0.02

^D π

0.01

0.01

0.00

^D π

0.00 0.0

0.2

0.4

0.6

0.8

1.0

0.0

π

0.2

0.4

0.6

0.8

1.0

π

Abb. 10.1.7: MSE-Kurven der Schätzer von Beispiel 10.1.12

dere für π = 0.5 der Fall. Für Werte im Randbereich (kleine oder große Werte von π) ̂D. ̂ A als beste Wahl, für „mittlere Werte“ hingegen π erscheint π • Fazit • Im Allgemeinen gibt es selten einen „uneingeschränkt besten“ Schätzer. ̂ C in Betracht Dies liegt schon daran, dass stets auch einpunktverteilte Schätzer wie π gezogen werden können, die immer genau dann am besten sind, wenn ihr einziger Trägerpunkt dem tatsächlichen Parameterwert entspricht. Eine Möglichkeit, solche „unsinnigen Schätzer“ ausschließen zu können, besteht darin, die Klasse der in Betracht kommenden Schätzer von Vorneherein einzuschränken. Beispielsweise könnte man sich nur auf die Klasse der erwartungstreuen Schätzer beschränken und innerhalb dieser Klasse dann nach dem besten Schätzer suchen. Dies würde im vorhergê C auf jeden Fall ausschließen. Denn zur Erwartungstreue genügt es henden Beispiel π laut Definition 10.1.1 nicht, wenn ̂C) = π E(π

(10.1.25)

lediglich für π = 0.5 erfüllt ist. Vielmehr muss Gleichung (10.1.25) für jedes π ∈ (0, 1) gelten. Das Optimierungskriterium besteht dann bildlich ausgedrückt darin, denjenigen Schätzer zu ermitteln, dessen MSE-Kurve im gesamten Parameterraum – im Beispiel ist dies das Intervall [ 0, 1] – möglichst flach verläuft. Tatsächlich existiert hierzu in der mathematischen Statistik eine ausgebaute Theorie, die formal unter dem Begriff der Effizienz behandelt wird. So können beispielsweise unter bestimmten Annahmen gleichmäßig beste erwartungstreue Schätzer bestimmt werden. Dies sind Schätzer, die innerhalb der Klasse der erwartungstreuen Schätzer im gesamten Parameterraum minimale Varianzen aufweisen.

522 | 10 Statistisches Schätzen

10.2 Intervallschätzung

Stochastisch betrachtet ist ein Konfidenzintervall ein Zufallsintervall, das mit einer vorgegebenen Wahrscheinlichkeit, die als Sicherheitswahrscheinlichkeit oder als Konfidenzniveau bezeichnet wird, einen zu schätzenden Parameter überdeckt. Häufig wird ein Konfidenzintervall auf Basis der Verteilung eines Schätzers konstruiert. Dabei geht neben einem Punktschätzer insbesondere auch dessen Varianz, d.h. die Unsicherheit der Schätzung, mit ein. Regelmäßig ist dabei die Adäquatheit der verwendeten Modellannahmen zu überprüfen.

10.2.1 Was versteht man unter einem Konfidenzintervall? • Hintergrund und Überblick • Im Alltag verwenden wir häufig Intervallangaben, um unsere Unsicherheit in Bezug auf bestimmte statistische Größen auszudrücken. Dies führt dann zu Aussagen wie etwa „Das Durchschnittsalter der Konzertbesucher gestern Abend dürfte irgendwo zwischen 25 und 30 Jahren gelegen haben“. Solche „statistischen Angaben“ beruhen jedoch überwiegend auf subjektiven Einschätzungen und fallen mehr oder weniger willkürlich aus. In diesem Abschnitt werden wir uns mit der Konstruktion von Konfidenzintervallen befassen. Dies sind Intervalle, die anhand von Beobachtungswerten einer Stichprobe berechnet werden und mit einer spezifisch vorgegebenen Wahrscheinlichkeit einen bestimmten Parameterwert enthalten. Es geht also darum, Intervalle zu konstruieren, die eine theoretische Fundierung aufweisen und somit auch objektiv sind. Was genau ein Konfidenzintervall ist und wie ein solches konstruiert und interpretiert werden kann, wird anhand der nachfolgenden Ausführungen exemplarisch vorgeführt. • Herleitung eines Konfidenzintervalls für μ • Seien X1 , . . . , X n unabhängig N(μ, σ2 )-verteilt, wobei σ2 bekannt und μ unbekannt ist. Dann gilt gemäß (7.4.25) X ∼ N(μ, σ2 /n). ̂ = X. Daraus folgt Dies ist zugleich eine Aussage über die Verteilung des Schätzers μ Z=

X−μ ∼ N(0, 1). √ σ2 /n

Das standardisierte Stichprobenmittel bzw. der standardisierte Schätzer ist standardnormalverteilt. Bezeichnet z α das α-Quantil der Standardnormalverteilung für α ∈ (0, 0.5), so gilt (Abb. 10.2.1): 1 − α = P(z α/2 ≤ Z ≤ z1−α/2 ) = P(−z1−α/2 ≤

X−μ ≤ z1−α/2 ). √ σ2 /n

Das standardisierte Stichprobenmittel realisiert sich zwischen dem α/2-Quantil und dem (1 − α/2)-Quantil mit Wahrscheinlichkeit 1 − α. Man beachte, dass aufgrund der

10.2 Intervallschätzung

| 523

Symmetrie der N(0, 1)-Verteilung das α/2-Quantil dem (1 − α/2)-Quantil mit umgekehrtem Vorzeichen entspricht. f Z (z ) Z ~ N (0, 1) α 2

1−α

z α 2 = − z 1−α

2

0

α 2 z 1−α

z

2

Abb. 10.2.1: Schwankungsverhalten des standarisierten Stichprobenmittels

Es lassen sich nun folgende weitere Umformungen vornehmen: 1 − α = P(−z1−α/2 ≤

X−μ ≤ z1−α/2 ) √ σ2 /n

= P(−z1−α/2 √ σ2 /n ≤ X − μ ≤ z1−α/2 √ σ2 /n) = P(X − z1−α/2 √ σ2 /n ≤ μ ≤ X + z1−α/2 √ σ2 /n). Mit der letzten Gleichung erhalten wir ein wichtiges Ergebnis. Man beachte zunächst, dass das Stichprobenmittel eine Zufallsvariable ist. Deshalb sind G u = X − z1−α/2 √ σ2 /n

und

G o = X + z1−α/2 √ σ2 /n

wiederum Zufallsvariablen. Diese schließen den (unbekannten) Parameterwert μ mit einer Wahrscheinlichkeit von 1 − α ein und bilden somit die untere und obere Grenze des Intervalls [X − z1−α/2 √ σ2 /n, X + z1−α/2 √ σ2 /n].

(10.2.1)

Dieses stochastische Intervall überdeckt den gesuchten Parameterwert mit einer Wahrscheinlichkeit von (1 − α). Fachterminologisch bezeichnet man das Intervall dann als ein (1– α)-Konfidenzintervall und die Wahrscheinlichkeit (1 − α) als Konfidenzniveau oder Sicherheitswahrscheinlichkeit. • Beispiel 10.2.1: Gepäckabfertigungszeiten • Gegeben sei die Situation aus Beispiel 9.1.2. Hierbei liegen folgende 10 Beobachtungswerte einer Stichprobe (u.i.v.) vor: 7.8, 10.1, 9.0, 8.0, 11.6, 10.7, 8.1, 8.6, 9.4, 11.9.

524 | 10 Statistisches Schätzen

Unter der Annahme normalverteilter Abfertigungszeiten lautet die Realisation des 0.95-Konfidenzintervalls dann [x − z1−α/2 √ σ2 /n, x + z1−α/2 √ σ2 /n]. mit x = 9.52 und z0.975 ≈ 1.96. Sofern die Varianz bekannt ist, lässt sich das Intervall konkret bestimmen. Angenommen, es gelte σ2 = 2, dann ergibt sich aus (10.2.1) das konkrete Intervall [9.52 − 1.96 ⋅ √2/10, 9.52 + 1.96 ⋅ √2/10] ≈ [8.64, 10.40]. Abbildung 10.2.2 illustriert die mit der Datenlage einhergehende Unsicherheit über die Lage des Erwartungswerts bei einem Sicherheitsniveau von 95%. Man beachte, dass für μ = 9.52, σ2 = 2 und n = 10 das Stichprobenmittel N(9.52, 0.2)-verteilt ist. Deshalb entsprechen die Grenzen 8.64 und 10.40 aufgrund der Beziehung (7.3.22), d.h. q α = μ + σz α , dem 0.025- bzw. 0.975-Quantil einer N(9.52, 0.2)-Verteilung. Man beachte, dass in (7.3.22) hierfür entsprechend μ = 9.52 und σ2 = 0.2 zu setzen ist. Diese Sichtweise korrespondiert dann direkt mit der Darstellung von Abbildung 9.1.2. Ist die Varianz hingegen unbekannt ist, was in der Praxis der realistischere Fall ist, kann zunächst kein konkretes Intervall angeben werden. Die Varianz wäre dann ebenfalls anhand der Stichprobe zu schätzen. Die Frage, ob man hierfür dann einfach die realisierte Stichprobenvarianz s2 = 1.50 als Schätzwert verwenden kann, wird später in Abschnitt 10.2.2 geklärt. 99%

95% 6

90% 7

8

9

x

10

11

12

13

Abb. 10.2.2: Realisierte Konfidenzintervalle aus einer Stichprobe (n = 10)

• Interpretation • Im vorhergehenden Beispiel wären wir nun vermutlich geneigt zu sagen „Mit einer Wahrscheinlichkeit von 95% liegt μ zwischen 8.64 und 10.40“. Im frequentistischen Sinne (Abschnitt 6.1.1) wäre eine solche Aussage jedoch nicht zulässig. Hierbei können sich Wahrscheinlichkeitsaussagen immer nur auf Zufallsvorgänge bzw. auf das stochastische Verhalten von Zufallsvariablen beziehen, nicht aber auf bereits realisierte Zustände. Im Zusammenhang mit Konfidenzintervallen bezieht sich die Wahrscheinlichkeitsaussage auf das stochastische Verhalten des Intervalls als Zufallsintervall. Liegt eine konkrete Realisation wie etwa [8.64,10.40] vor, so liegt der unbekannte Parameter entweder in diesem realisierten Intervall drin oder eben nicht. In der Regel wird man den wahren Wert des Parameters nie erfahren und damit auch die Frage nicht beantworten können, ob das Intervall diesen nun tatsächlich eingeschlossen hat oder nicht.

10.2 Intervallschätzung

| 525

Abbildung 10.2.3 illustriert ein Simulationsexperiment dazu, wie Wahrscheinlichkeiten im Zusammenhang von Konfidenzintervallen zu verstehen sind. Dabei wurden insgesamt N = 50 Stichproben vom Umfang n = 10 aus einer Normalverteilung mit Erwartungswert μ = 10 und Varianz σ2 = 2 gezogen. Für jede Stichprobe wurde dann ein 0.95-Konfidenzintervall gemäß (10.2.1) berechnet. Der wahre Parameterwert, der fiktiv als unbekannt angenommen wird, entspricht damit dem Wert 10. Die Varianz wird hingegen als bekannt angenommen. N = 50, n = 10, μ = 10, σ2 = 2, 1 − α = 0.95

Konfidenintervall

13 12 11 10 9 8 7 0

5

10

15

20

25

N

30

35

40

45

50

Abb. 10.2.3: Realisierte Konfidenzintervalle aus 50 Stichproben bei bekannter Varianz

Im vorliegenden Fall war in genau 2 der 50 Stichproben die 10 nicht im realisierten Konfidenzintervall enthalten (Stichproben Nr. 35 und 46). Die empirische Überdeckungsrate der Simulation betrug damit 96%. Mit wachsendem N, d.h. mit wachsender Anzahl von Stichproben vom Umfang n = 10, sollte die empirische Abdeckungsrate als relative Häufigkeit aufgrund des Satzes von Bernoulli (Satz 7.4.2) jedoch immer näher an der theoretischen Wahrscheinlichkeit von 0.95 liegen. Ein Konfidenzintervall ist ein Zufallsintervall, das mit einer vorgegebenen Wahrscheinlichkeit einen zu schätzenden Parameter überdeckt. • Definition • Je nach Schätzproblem erweist sich die Herleitung eines Konfidenzintervalls als nicht immer so einfach wie im vorhergehenden Beispiel 10.2.1. Die grundsätzliche Vorgehensweise kann mitunter dennoch ähnlich sein. Folgende Definition fällt deshalb recht allgemein aus. Weitere konkrete Beispiele werden dann in den nächsten Abschnitten folgen. Definition 10.2.1: Konfidenzintervall Seien X1 , . . . , X n Stichprobenvariablen und θ ein unbekannter Parameter einer zugrunde liegenden Grundgesamtheit. Dann liefern die stochastischen Intervallgren-

526 | 10 Statistisches Schätzen

zen G u (X1 , . . . , X n )

und

G o (X1 , . . . , X n )

ein (1 − α)-Konfidenzintervall für θ, falls gilt: (i) P(G u ≤ G o ) = 1 und (ii) P(G u ≤ θ ≤ G o ) = 1 − α. Der Wert 1 − α wird dabei als Konfidenzniveau oder als Sicherheitswahrscheinlichkeit bezeichnet. Bedingung (i) erscheint recht selbstverständlich, da zur sinnvollen Konstruktion eines Intervalls vorausgesetzt werden muss, dass die obere Intervallgrenze auf jeden Fall nicht kleiner ist als die untere. • Grundlegende Eigenschaften von Konfidenzintervallen • Betrachten wir erneut die Situation des vorhergehenden Beispiels 10.2.1 mit den 10 konkret vorliegenden Beobachtungswerten, um einige grundlegende Eigenschaften von Konfidenzintervallen zu beleuchten. Ein wichtiger Gesichtspunkt ist dabei die Intervalllänge. Gemäß (10.2.1) ist diese im vorliegenden Beispiel durch folgende Formel gegeben: L Z = G o − G u = (X + z1−α/2 √ σ2 /n) − (X − z1−α/2 √ σ2 /n) = 2z1−α/2 √ σ2 /n.

(10.2.2)

Die Länge dieses Intervalls hängt offensichtlich von α, σ2 und n ab und wohlgemerkt nicht von der Realisation des Stichprobenmittels. Wie würde sich dieses Intervall nun ändern, falls ein anderes Konfidenzniveau zugrunde gelegt würde? Bei der Bestimmung dieser Intervallgrenzen geht das Konfidenzniveau gemäß (10.2.1) maßgeblich nur über das Quantil z1−α/2 ein. Dabei gilt folgender logischer Zusammenhang für α ∈ (0, 0.5): Ein höheres Konfidenzniveau 1 − α geht mit einem niedrigeren Wert von α einher. Dies impliziert wiederum einen höheren Wert von 1 − α/2. Ein höherer Wert von 1 − α/2 geht mit einem höheren oberen Quantilswert der Standardnormalverteilung einher. Das Intervall wird deshalb länger. Umgekehrt geht ein niedrigeres Konfidenzniveau mit einem kürzeren Intervall einher. Die Intuition dahinter liegt auf der Hand: Ein längeres Intervall führt zu einer höheren Sicherheit. Betrachten wir einige konkrete Rechenbeispiele. Das 0.95-Konfidenzintervall lautete [8.64, 10.4]. Bei einem höheren Konfidenzniveau von 1 − α = 0.99 erhält man mit α = 0.01

und

z1−α/2 = z0.995 ≈ 2.58

das längere Intervall [9.52 − 2.58 ⋅ √2/10, 9.52 + 2.58 ⋅ √2/10] ≈ [8.37, 10.67].

10.2 Intervallschätzung

| 527

Bei einem niedrigeren Konfidenzniveau von 1 − α = 0.9 erhält man mit α = 0.1

und

z1−α/2 = z0.95 ≈ 1.64

hingegen das kürzere Intervall [9.52 − 1.64 ⋅ √2/10, 9.52 + 1.64 ⋅ √2/10] ≈ [8.79, 10.25]. Eine höhere Streuung σ2 in der Grundgesamtheit verlängert das Konfidenzintervall gemäß (10.2.2). Auch dies ist intuitiv nachvollziehbar. Je stärker die Werte innerhalb einer Grundgesamtheit streuen, desto schwieriger wird es, den Erwartungswert zu lokalisieren. Im Extremfall, wenn alle Werte gleich wären, könnte man anhand einer einzelnen Beobachtung bereits den Erwartungswert korrekt schätzen. Mit wachsendem Stichprobenumfang wird das Konfidenzintervall gemäß (10.2.2) kürzer, wobei eine Vervierfachung von n zu einer Halbierung der Länge führt. Auch dieser Zusammenhang sollte plausibel erscheinen. Je mehr Information über die Grundgesamtheit vorliegt, desto genauer kann die zu schätzende Größe lokalisiert werden. Die Varianz des Stichprobenmittels als Schätzer für μ nimmt mit wachsendem n ab. • Übertragung auf andere Konfidenzintervalle • Die anhand der Formel (10.2.2) aufgezeigten Eigenschaften gelten zunächst einmal nur für das in Beispiel 10.1.2 hergeleitete Konfidenzintervall. Im Grunde können diese jedoch auf sämtliche in der Praxis verwendeten Konfidenzintervalle „im Wesentlichen“ übertragen werden, wie sich in nachfolgenden Abschnitten noch zeigen wird. Halten wir deshalb folgende Merkregel fest: Ein Konfidenzintervall wird i.d.R. länger, falls (i) die Sicherheitswahrscheinlichkeit zunimmt, (ii) die Streuung in der Grundgesamtheit zunimmt, (iii) der Stichprobenumfang abnimmt.

• Fazit • Die Kunst der Konfidenzschätzung besteht aufgrund des Zusammenhangs zwischen Sicherheitswahrscheinlichkeit und Intervalllänge darin, möglichst kurze Intervalle mit möglichst hoher Sicherheitswahrscheinlichkeit zu konstruieren. Allein die Erzielung einer hohen Sicherheitswahrscheinlichkeit stellt indes keine Schwierigkeit dar, da eine solche stets durch entsprechende Verlängerung des Intervalls erreicht werden kann. Allzu lange Konfidenzintervalle verlieren jedoch ihre Nützlichkeit. Ähnlich wie bereits bei der Effizienzbetrachtung von Schätzern (Abschnitt 10.1.5) existiert auch hierzu in der mathematischen Statistik eine ausgebaute Theorie zur optimalen Konstruktion von Konfidenzintervallen.

528 | 10 Statistisches Schätzen

10.2.2 Konfidenzintervalle für Erwartungswerte • Modellrahmen und Überblick • Ausgehend von unabhängig und identisch verteilten Stichprobenvariablen X1 , . . . , X n mit Erwartungswert μ und Varianz σ2 können unter verschiedenen Ausgangsbedingungen Konfidenzintervalle für μ konstruiert werden. Die in den folgenden Punkten vorgestellten Konfidenzintervalle berücksichtigten Situationen, in denen X1 , . . . , X n (i) normalverteilt sind mit bekannter Varianz, (ii) normalverteilt sind mit unbekannter Varianz, (iii) einer beliebigen Ausgangsverteilung genügen. • Schätzung von μ bei Normalverteilung und bekannter Varianz • Sind X1 , . . . , X n unabhängig N(μ, σ2 )-verteilt mit bekannter Varianz, so liegt eine Situation wie in Beispiel 10.2.1 vor. Ein geeignetes Konfidenzintervall ist in diesem Fall durch Formel (10.2.1) gegeben. Diese Situation wurde bereits ausführlich im vorhergehenden Abschnitt besprochen. • Schätzung von μ bei Normalverteilung und unbekannter Varianz • In den meisten Anwendungen ist die theoretische Varianz der Grundgesamtheit unbekannt und muss anhand der Stichprobe geschätzt werden. Ein naheliegender Schätzer für σ2 ist die korrigierte Stichprobenvarianz, d.h. ̂ 2 = S2 = σ

1 n ∑ (X i − X)2 . n − 1 i=1

Dieser liefert gemäß den Erkenntnissen aus Abschnitt 10.1 (Satz 10.1.1 und 10.1.4) eine erwartungstreue und konsistente Schätzung. Die Frage, die sich stellt, ist, ob Formel (10.2.1) dann einfach zu [X − z1−α/2 √ S2 /n, X + z1−α/2 √ S2 /n].

(10.2.3)

umfunktioniert werden kann. Die Antwort darauf lautet: in großen Stichproben zumindest approximativ, in kleinen Stichproben jedoch nicht. Ausgangspunkt zur Herleitung der Formel (10.2.1) war die Statistik Z=

X−μ ∼ N(0, 1), √ σ2 /n

(10.2.4)

die unter den gegebenen Umständen N(0, 1)-verteilt ist. Verschiedene Umformungsschritte führten dann zur Formel (10.2.1). Das Problem besteht nun darin, dass Z in (10.2.4) nicht mehr N(0, 1)-verteilt ist, sofern σ2 durch S2 ersetzt wird. Es wäre freilich auch erstaunlich, wenn diese Ersetzung keinerlei Auswirkungen auf die Verteilung hätte. Aus diesem Grund ist aber auch Formel (10.2.1) nicht mehr ohne Weiteres gül-

10.2 Intervallschätzung

| 529

tig. Vielmehr lässt sich zeigen, dass T :=

X−μ ∼ t(n − 1) √ S2 /n

(10.2.5)

gilt. Die Statistik T genügt einer t-Verteilung mit n − 1 Freiheitsgraden, kurz t(n − 1)-Verteilung, wobei n dem Stichprobenumfang entspricht. Nähere Details zur tVerteilung finden sich in Abschnitt 8.1.2. Die t-Verteilung konvergiert für wachsendes n gegen die N(0, 1)-Verteilung. Daher können anstelle der t-Quantile auch die Quantile der N(0, 1)-Verteilung verwendet werden, falls n „genügend groß“ ist. Diese Konvergenz ergibt sich daraus, dass sich die Verteilungen der beiden Statistiken (10.2.4) und (10.2.5) für wachsendes n angleichen, weil S2 stochastisch gegen σ2 konvergiert (siehe hierzu nachfolgender Punkt „Konfidenzintervall bei unbekannter Ausgangsverteilung“). Die Herleitung eines Konfidenzintervalls aus der Verteilung der T-Statistik (10.2.5) erfolgt völlig analog wie in Beispiel 10.2.1 bei bekannter Varianz. An die Stelle der Quantile einer Standardnormalverteilung treten nun die Quantile einer t(n − 1)Verteilung. Bezeichnet t n−1,α das α-Quantil einer t(n − 1)-Verteilung für α ∈ (0, 0.5), so gilt (vgl. Abb. 10.2.4): 1 − α = P(t n−1,α/2 ≤ T ≤ t n−1,1−α/2 ) = P(−t n−1,1−α/2 ≤

X−μ ≤ t n−1,1−α/2 ) √ S2 /n

= P(X − t n−1,1−α/2 √ S2 /n ≤ μ ≤ X + t n−1,1−α/2 √ S2 /n). Daraus resultiert als (1 − α)-Konfidenzintervall schließlich [X − t n−1,1−α/2 √ S2 /n, X + t n−1,1−α/2 √ S2 /n].

f T (t ) T ~ t (9) α 2 t 9, α 2 = − t 9, 1−α

1−α

2

0

α 2 t 9, 1−α

2

t

Abb. 10.2.4: Schwankungsverhalten der T -Statistik für n = 10

(10.2.6)

530 | 10 Statistisches Schätzen

Die Länge des Konfidenzintervalls (10.2.6) ist gegeben durch L T = 2t n−1,1−α/2 √ S2 /n.

(10.2.7)

Im Unterschied zu (10.2.2) ist die Länge nun stochastisch, da S2 eine Zufallsvariable ist. Je nach Stichprobenergebnis, kann die Länge des Intervalls unterschiedlich ausfallen. Abbildung 10.2.5 illustriert die mit bestimmten Datenlagen einhergehende Unsicherheit, falls die Varianz unbekannt ist und geschätzt werden muss. Die geschätzten Standardabweichungen sowie die Stichprobenumfänge sind jeweils mit angegeben. Wie man sieht, werden die Konfidenzintervalle bei gleichem Stichprobenumfang länger, falls die Streuung in der Stichprobe größer ist. Bei gleichem Konfidenzniveau sind die Intervalle in den vorliegenden Fällen für n = 30 uneingeschränkt kürzer als diejenigen für n = 10, auch wenn für n = 30 die Standardabweichung größer ist als für n = 10 (1.47 zu 0.99). Allerdings überkompensiert der größere Stichprobenumfang den Effekt der größeren Standardabweichung. s X = 1.63 n = 10 5

99% 90%95% 6

7

8

9

10

11

12

13

14

15

6

7

8

9

10

11

12

13

14

15

6

7

8

9

10

11

12

13

14

15

6

7

8

9

10

11

12

13

14

15

s X = 0.99 n = 10 5 s X = 1.47 n = 30 5 s X = 1.28 n = 30 5

Abb. 10.2.5: Konfidenzintervalle für μ bei unbekannter Varianz (n = 10 und n = 30)

Abbildung 10.2.6 illustriert eine Simulation mit insgesamt N = 50 Stichproben vom Umfang n = 10 aus einer Normalverteilung mit Erwartungswert μ = 10 und Varianz σ2 = 2, wobei die theoretische Varianz nun anhand der Stichprobenvarianz geschätzt wurde. Für jede Stichprobe wurde ein 0.95-Konfidenzintervall gemäß (10.2.6) berechnet. Die empirische Abdeckungsrate des fiktiv unbekannten Parameterwerts μ = 10 beträgt hier 0.92, da in genau 4 der 50 Stichproben die 10 nicht im realisierten Konfidenzintervall enthalten ist. Mit wachsendem N sollte diese sich jedoch der theoretischen Wahrscheinlichkeit von 0.95 annähern. Auch wenn das 0.975-Quantil der t(9)-Verteilung mit t9,0.975 ≈ 2.26 an sich größer als dasjenige der N(0, 1)-Verteilung mit z0.975 ≈ 1.96 ist, lässt sich daraus nicht grundsätzlich schließen, dass 0.95-Konfidenzintervalle bei unbekannter Varianz länger sind als bei bekannter Varianz (Abb. 10.2.3). Es kann jedoch gezeigt werden, dass der Erwartungswert der Länge größer ist als bei bekannter Varianz. So gilt für gleiches

10.2 Intervallschätzung

N = 50, n = 10, μ = 10, σ2 = 2, 1 − α = 0.95

13

Konfidenintervall

| 531

12 11 10 9 8 7 0

5

10

15

20

25

N

30

35

40

45

50

Abb. 10.2.6: Realisierte Konfidenzintervalle aus 50 Stichproben bei unbekannter Varianz

Konfidenzniveau und gleichen Stichprobenumfang n ≥ 2 stets: E(L T ) ≥ E(L Z ), wobei L Z und L T den Ausdrücken (10.2.2) und (10.2.7) entsprechen. Durchschnittlich betrachtet führt das Weniger an Information folglich zu einem längeren Intervall. • Schätzung von μ bei beliebiger Ausgangsverteilung • In vielen Fällen erscheint es unrealistisch, von normalverteilten Stichprobenvariablen auszugehen, da bestimmte Merkmale schief oder multimodal verteilt sind oder verteilt sein können. Wie lassen sich in solchen Situationen dann wohlbegründete Konfidenzintervalle konstruieren? „Zum Glück“ gibt es für solche Fälle eine einfache Lösung, sofern der Stichprobenumfang nur genügend groß ist. Sind X1 , . . . , X n u.i.v. mit Erwartungswert μ und Varianz 0 < σ2 < ∞, so gilt gemäß ZGWS (7.4.32) für großes n X−μ a ∼ N(0, 1). √ σ2 /n

(10.2.8)

Das standardisierte Stichprobenmittel ist für großes n approximativ N(0, 1)-verteilt. Unter Verwendung dieses Sachverhalts kann zunächst mit der gleichen Vorgehensweise wie in Beispiel 10.2.1 bei Vorliegen einer Normalverteilung und bekannter Varianz ein zu (10.2.1) identisches Konfidenzintervall für μ konstruiert werden. Allerdings handelt es sich dann nur noch um ein approximatives Konfidenzintervall. Dies bedeutet, dass das vorgegebene Niveau 1−α aufgrund der Approximation (10.2.8) nicht exakt eingehalten wird. Je größer n jedoch ist, desto genauer wird diese Approximation sein. Im Falle, dass die Varianz unbekannt ist, wird diese durch die Stichprobenvarianz geschätzt. Gemäß Beispiel 10.1.8 liefert diese eine konsistente Schätzung, d.h. unter den obigen Annahmen gilt: p

S2 󳨀󳨀→ σ2

bzw.

p S̃ 2 󳨀󳨀→ σ2 .

(10.2.9)

532 | 10 Statistisches Schätzen

Aufgrund des Stetigkeitssatzes (Satz 8.2.3) impliziert dies für die korrespondierenden Stichprobenstandardabweichungen p

S 󳨀󳨀→ σ

bzw.

p S̃ 󳨀󳨀→ σ.

(10.2.10)

Deshalb gilt für großes n ebenfalls X−μ a ∼ N(0, 1) √ S2 /n

bzw.

X−μ √ S̃ 2 /n

a

∼ N(0, 1).

(10.2.11)

Um die Gültigkeit von (10.2.11) nachzuweisen, nutzen wir Slutsky’s Theorem (Satz 8.2.5). Unter Verwendung der Notation aus Satz 8.2.5 setzen wir dafür zunächst Yn =

Xn − μ a ∼ N(0, 1), A n = 0 und B n = σ. √ σ2 /n

Daraus erhalten wir gemäß (8.2.6) das asymptotische Verteilungsresultat a

A n + B n Y n = √n(X n − μ) ∼ N(0, σ2 ).

(10.2.12)

Anschließend dividieren wir (10.2.12) durch die korrigierte bzw. nichtkorrigierte Stichprobenstandardabweichung und erhalten gemäß (8.2.8) das nachzuweisende Resultat (10.2.11). Das approximative (1 − α)-Konfidenzintervall lautet somit [X − z1−α/2 √ S2 /n, X + z1−α/2 √ S2 /n]

bzw.

(10.2.13)

[X − z1−α/2 √̃S2 /n, X + z1−α/2 √̃S2 /n].

(10.2.14)

Die Wahl zwischen (10.2.13) oder (10.2.14) ist im Prinzip unerheblich, da beide Intervalle auf asymptotischer Theorie basieren. • Notwendiger Stichprobenumfang zur Erzielung bestimmter Intervalllängen • Die Länge des Konfidenzintervalls für μ ist bei bekannter Varianz durch Formel (10.2.2) gegeben. Den Umstand, dass diese Länge nichtstochastischer Natur ist und bereits vor Realisation der Stichprobe feststeht, kann man sich zunutze machen, um für eine vorgegebene Länge L Z den dafür erforderlichen Stichprobenumfang zu bestimmen. Dazu wird (10.2.2) entsprechend nach n aufgelöst. Dies ergibt: n = (2z1−α/2 ⋅ σ/L Z )2 .

(10.2.15)

Bei unbekannter Varianz ist die Intervalllänge L T in (10.2.7) hingegen stochastisch und eine derart einfache Formel wie (10.2.15) nicht nutzbar. Jedoch könnte man hier in einer Art Vorstichprobe mit relativ kleinem Stichprobenumfang eine erste Schätzung für σ2 erhalten, um dann Formel (10.2.15) nutzend eine Abschätzung für einen notwendigen Stichprobenumfang zu gewinnen. Ebenso kann eine erste Abschätzung von σ2 auch auf vorhergehenden Studien oder lediglich fachlichen Plausibilitätsüberlegungen ohne jede Datengrundlage basieren. Bei einer solchen zweistufigen Vorgehensweise kann die exakte Einhaltung einer vorgegebenen Länge allerdings nicht mehr garantiert werden.

10.2 Intervallschätzung

| 533

• Zusammenfassung von Resultaten • Fassen wir die verschiedenen Fälle dieses Abschnitts formal zusammen. Satz 10.2.1: Konfidenzintervalle für Erwartungswerte Seien X1 , . . . , X n unabhängig und identisch verteilt mit Erwartungswert μ und Varianz 0 < σ2 < ∞. Dann ist ein (1 − α)-Konfidenzintervall für μ, falls (i) X1 , . . . , X n normalverteilt sind mit bekannter Varianz, gegeben durch [X − z1−α/2 √ σ2 /n, X + z1−α/2 √ σ2 /n], (ii) X1 , . . . , X n normalverteilt sind mit unbekannter Varianz, gegeben durch [X − t n−1,1−α/2 √ S2 /n, X + t n−1,1−α/2 √ S2 /n], (iii) n groß ist und die Varianz bekannt ist, gegeben durch [X − z1−α/2 √ σ2 /n, X + z1−α/2 √ σ2 /n], (iv) n groß ist und die Varianz unbekannt ist, gegeben durch [X − z1−α/2 √̃S2 /n, X + z1−α/2 √̃S2 /n]. In den Fällen (iii) und (iv) handelt es sich um approximative Konfidenintervalle für n ≥ 30. In (iv) kann sowohl die nichtkorrigierte als auch die korrigierte Stichprobenvarianz verwendet werden. • Allgemeine Merkregel via Standardfehler • Da das Stichprobenmittel ein Schätzer für μ ist, spezifizieren die Verteilungsresultate (10.2.4) bzw. (10.2.8) zugleich auch die exakte bzw. approximative Verteilung des Schätzers bei normalverteilten bzw. bê = X auch noliebig verteilten Stichprobenvariablen. Entsprechend können wir für μ tieren: ̂ ∼ N(μ, σ2 /n) μ

bzw.

̂ μ

approx



N(μ, σ2 /n).

̂ bezeichnen wir mit σ2μ̂ . Dann ist Die Varianz von μ ̂ ) = σ2 /n. σ2μ̂ = Var(μ Alternativ können wir damit schreiben: ̂ ∼ N(μ, σ2μ̂ ) μ

bzw.

̂ μ

approx



N(μ, σ2μ̂ ).

Die Varianz des Schätzers spiegelt die mit der Schätzung einhergehende Unsicherheit wider und ist entweder bekannt oder unbekannt. In letzterem Fall kann diese etwa durch ̂ 2μ̂ = S2 /n, σ

̂ μ̂ = √̂ σ2μ̂ sei, wobei σ

534 | 10 Statistisches Schätzen

geschätzt werden. Die zugehörige bekannte bzw. geschätzte Standardabweichung, σ μ̂ ̂ μ̂ , wird auch als Standardfehler bezeichnet. Die in Satz 10.2.1 aufgestellten bzw. σ Konfidenzintervalle lassen sich nun auch alternativ formulieren als ̂ + q1−α/2 ⋅ σ μ̂ ] ̂ − q1−α/2 ⋅ σ μ̂ , μ [μ

bzw.

̂ μ̂ , μ ̂ μ̂ ], ̂ − q1−α/2 ⋅ σ ̂ + q1−α/2 ⋅ σ [μ

wobei q1−α/2 ein jeweils geeignetes Quantil ist. Rein verbal ausgedrückt, impliziert dies dann als allgemeine Merkregel zur Konstruktion der Konfidenzintervalle: Schätzwert ± Quantil ⋅ (geschätzter) Standardfehler

• Beispiel 10.2.2: Gepäckabfertigungszeiten • Wir betrachten zunächst die gleiche Situation wie in Beispiel 10.2.1 mit n = 10 Beobachtungswerten. Unter der Annahme einer Normalverteilung und einer bekannten Varianz von σ2 = 2 ergab sich als 0.95Konfidenzintervall für μ [9.52 − 1.96 ⋅ √2/10, 9.52 + 1.96 ⋅ √2/10] ≈ [8.64, 10.40]. Ist die Varianz hingegen unbekannt, müssen wir diese durch die korrigierte Stichprobenvarianz schätzen. Im vorliegenden Fall erhalten wir dafür als Schätzwert ̂ 2 = s2 = 2.24. σ Mit t9,0.975 ≈ 2.26 (vgl. Tab. A.2) resultiert daraus [9.52 − 2.26 ⋅ √2.24/10, 9.52 + 2.26 ⋅ √2.24/10] ≈ [8.45, 10.59] Bei einem Niveau von 95% sollte die langfristige durchschnittliche Abfertigungszeit irgendwo zwischen 8.45 und 10.59 Minuten liegen. Soll das 0.95-Konfidenzintervall bei einer als bekannt angenommenen Varianz von σ2 = 1.5 die Länge L Z = 1 aufweisen, was einer ±0.5 Minuten genauen Schätzung gleichkommt, so erhält man gemäß (10.2.15) als erforderlichen Stichprobenumfang n = (2z0.975 √1.5/1) ≈ (2 ⋅ 1.96√1.5/1) ≈ 23.04. 2

2

Da n ganzzahlig sein muss, könnte man als erforderlichen Umfang beispielsweise die nächstgrößere ganze Zahl 24 wählen. Gemäß (10.2.2) wäre damit die tatsächliche Länge mit 0.98 dann geringfügig kürzer. Allerdings setzt dieser Ansatz voraus, dass die Varianz der Abfertigungszeiten mit 1.5 Minuten auch tatsächlich korrekt ist. Beruht der Wert σ2 = 1.5 beispielsweise nur auf einer Schätzung aus einer relativ kleinen Vorstichprobe (n < 30), so ist es adäquater, im Rahmen der eigentlichen Hauptstichprobe vom Umfang n = 24 die Varianz erneut zu schätzen und ein Konfidenzintervall gemäß Fall (ii) statt (i) von Satz 10.2.1 zu konstruieren. Dieses könnte am Ende dann freilich auch länger als 1 sein.

10.2 Intervallschätzung

| 535

10.2.3 Konfidenzintervalle für Erwartungswertdifferenzen • Hintergrund, Modellrahmen und Überblick • Zu den wichtigsten Zielen empirischer Studien zählt die Untersuchung kausaler Abhängigkeiten. In diesem Zusammenhang werden häufig gewisse Gruppenvergleiche durchgeführt, die sich über Differenzbetrachtungen von Erwartungswerten unterschiedlicher Verteilungen statistisch modellieren lassen. Teils lassen sich solche theoretischen Differenzen dann als kausale Effekte interpretieren. Man beachte hierzu etwa Beispiel 9.1.3 (Pflanzenexperiment). Die Herleitung wohlbegründeter Konfidenzintervalle für Erwartungswertdifferenzen vollzieht sich in nahezu analoger Weise wie im vorhergehenden Abschnitt für Erwartungswerte. In Anlehnung an die Notation von Beispiel 9.1.3 gehen wir im Folgenden von insgesamt n0 + n1 Stichprobenvariablen aus, die wir gemäß einer nicht zwingend balancierten (gleichgewichtigen) Gruppierung mit Y01 , Y02 , . . . , Y0n0

bzw.

Y11 , Y12 , . . . , Y1n1

notieren. Die Stichprobenvariablen sind innerhalb der Gruppen jeweils identisch verteilt mit E(Y0i ) = μ0 , Var(Y0i ) = σ20

mit 0 < σ20 < ∞ für i = 1, ..., n0 ,

E(Y1i ) = μ1 , Var(Y1i ) = σ21

mit 0 < σ21 < ∞ für i = 1, ..., n1 .

Die in den folgenden Punkten vorgestellten Konfidenzintervalle für die Größe μ1 − μ0 berücksichtigen Situationen, in denen Y01 , Y02 , . . . , Y0n0 , Y11 , Y12 , . . . , Y1n1 (i) (ii) (iii) (iv)

normalverteilt sind mit bekannten Varianzen, normalverteilt sind mit unbekannten Varianzen, beliebigen Ausgangsverteilungen genügen, abhängig sind in Form verbundener Werte.

• Schätzung von μ1 − μ0 bei Normalverteilung und bekannten Varianzen • Sind alle Stichprobenvariablen unabhängig und normalverteilt, d.h. gilt Y0i ∼ N(μ0 , σ20 )

und

Y1i ∼ N(μ1 , σ21 ),

so folgt daraus für die jeweiligen Stichprobenmittel zunächst einmal Y 0 ∼ N(μ0 , σ20 /n0 )

und

Y 1 ∼ N(μ1 , σ21 /n1 ).

Da die beiden Stichprobenmittel gemäß Satz 8.3.1 (i) unabhängig sind, folgt aus Resultat (7.4.21) (wähle n = 2, c0 = 0, c1 = 1 und c2 = −1) für die Mittelwertdifferenz Y 1 − Y 0 ∼ N(μ1 − μ0 ,

σ20 σ21 + ). n0 n1

(10.2.16)

Analog zur Herleitung des Konfidenzintervalls für μ in Beispiel 10.2.1 lässt sich nun ein solches für μ1 − μ0 herleiten. Dazu betrachtet man zunächst die standardisierte

536 | 10 Statistisches Schätzen

Differenz Z D :=

Y 1 − Y 0 − (μ1 − μ0 ) √ σ20 /n0 + σ21 /n1

∼ N(0, 1),

(10.2.17)

welche standardnormalverteilt ist. Ausgehend von (10.2.17) erhält man dann nach einigen Umformungen aus dem Ansatz 1 − α = P(−z1−α/2 ≤ Z D ≤ z1−α/2 ): 1 − α = P(Y 1 − Y 0 − z1−α/2 √

σ20 σ21 σ2 σ2 + ≤ μ1 − μ0 ≤ Y 1 − Y 0 + z1−α/2 √ 0 + 1 ). n0 n1 n0 n1

Daraus resultiert als (1 − α)-Konfidenzintervall für μ1 − μ0 : [Y 1 − Y 0 − z1−α/2 √

σ20 σ21 σ2 σ2 + , Y 1 − Y 0 + z1−α/2 √ 0 + 1 ] n0 n1 n0 n1

(10.2.18)

Man beachte, dass die Stichprobendifferenz Y 1 − Y 0 für wachsendes n0 und n1 eine konsistente Schätzung für die theoretische Differenz μ1 − μ0 liefert. Dies ergibt sich aus dem gewöhnlichen GGZ für jedes einzelne Stichprobenmittel und dem multivariaten Stetigkeitssatz, angewendet auf deren Differenz. Zugleich entspricht (10.2.16) der Verteilung des Schätzers der unbekannten Erwartungswertdifferenz, aus welcher das Konfidenzintervall abgeleitet wird.

Abb. 10.2.7: Stichprobe bei homoskedastischer und heteroskedastischer Varianz

• Schätzung von μ1 − μ0 bei Normalverteilung und unbekannten Varianzen • Sind alle Stichprobenvariablen unabhängig normalverteilt, die Varianzen jedoch unbekannt (was dem realistischeren Fall in der Praxis entspricht), so können diese durch die korrespondierenden Stichprobenvarianzen 1 n0 S̃ 20 = ∑ (Y0i − Y 0 )2 n0 i=1

und

1 n1 S̃ 21 = ∑ (Y1i − Y 1 )2 n1 i=1

erwartungstreu und konsistent geschätzt werden. Das (große) Problem besteht nun allerdings darin, dass die zunächst naheliegend erscheinende Statistik T D :=

Y 1 − Y 0 − (μ1 − μ0 ) √ S̃ 20 /n0 + S̃ 21 /n1

(10.2.19)

keiner einfach zu spezifizierenden Verteilung genügt. Lediglich für großes n0 und n1 kann man hier den ZGWS bemühen (siehe späterer Punkt). Auch genügt die Statistik

10.2 Intervallschätzung

| 537

T D nicht etwa einer t-Verteilung wie die Statistik T in Formel (10.2.5). Eine einfache Lösung für dieses Problem gibt es nur, falls die beiden Gruppenvarianzen gleich sind (homoskedastische Varianz), d.h. für σ20 = σ21 . Für diesen Fall lässt sich dann folgendes Resultat zeigen: ̃ D := Y 1 − Y 0 − (μ1 − μ0 ) ∼ t(n0 + n1 − 2), T √ S2p /n0 + S2p /n1

(10.2.20)

wobei S2p = =

n0 n1 1 ( ∑ (Y0i − Y 0 )2 + ∑ (Y1i − Y 1 )2 ) n0 + n1 − 2 i=1 i=1

1 (n0 S̃ 20 + n1 S̃ 21 ) n0 + n1 − 2

ein erwartungstreuer (und konsistenter) Schätzer für die mit σ2 notierte einheitliche Gruppenvarianz ist, d.h. für σ2 = σ20 = σ21 . Dieser Schätzer kombiniert die beiden Gruppenvarianzen anteilig nach den jeweiligen Gruppengrößen zu einer einheitlĩ D genügt dann einer t(n0 + n1 − 2)chen („gepoolten“) Schätzung. Die Statistik T Verteilung genügt. Ausgehend von (10.2.20) erhält man dann nach einigen Umformungen ̃ D ≤ t n +n −2,1−α/2 ) = . . . 1 − α = P(−t n0 +n1 −2,1−α/2 ≤ T 0 1 = P(Y 1 − Y 0 − t n0 +n1 −2,1−α/2 √

S2p S2p + ≤ μ1 − μ0 n0 n1 ≤ Y 1 − Y 0 + t n0 +n1 −2,1−α/2 √

S2p S2p + ), n0 n1

woraus sich das (1 − α)-Konfidenzintervall für μ1 − μ0 ergibt: [Y 1 − Y 0 − t n0 +n1 −2,1− 2α √

S2p S2p S2p S2p + , Y 1 − Y 0 + t n0 +n1 −2,1− 2α √ + ]. n0 n1 n0 n1

(10.2.21)

• Schätzung von μ1 − μ0 bei beliebigen Ausgangsverteilungen • Liegen keine Normalverteilungen vor und sind die Varianzen unbekannt und möglicherweise noch verschieden (heteroskedastische Varianz), so gilt für großes n0 und n1 : Y1 − Y0

approx



N(μ1 − μ0 ,

σ20 σ21 + ). n0 n1

(10.2.22)

Dies lässt sich mithilfe des ZGWS für u.h.v. Zufallsvariablen (Satz 8.2.2) begründen. Um dies im Einzelnen zu sehen, schreiben wir die Mittelwertdifferenz zunächst wie

538 | 10 Statistisches Schätzen

folgt um: Y1 − Y0 =

n0 1 n1 1 n0 1 n1 n n Y1i − ∑ Y0i ] ∑ Y1i − ∑ Y0i = [ ∑ n1 i=1 n0 i=1 n i=1 n1 n i=1 0

(10.2.23)

Dabei entspricht n = n0 + n1 der Gesamtanzahl aller involvierten Zufallsvariablen. Der letzte Ausdruck von (10.2.23) lässt sich nun dahingehend deuten, dass die Mittelwertdifferenz dem Stichprobenmittel aus n unabhängigen, heterogen verteilten Stichprobenvariablen entspricht. Konkret handelt es sich dabei um die Variablen n n n n n n Y11 , Y12 , . . . , Y1n1 , Y01 , Y02 , . . . , Y0n0 , n1 n1 n1 n0 n0 n0 wobei die ersten n1 und die letzten n0 Variablen jeweils identisch verteilt sind. Dabei gilt: E(

n n Y1i ) = μ1 n1 n1

und

Var(

n n2 Y1i ) = 2 σ21 für i = 1, . . . , n1 bzw. n1 n1

E(

n n Y0i ) = μ0 n0 n0

und

Var(

n2 n Y0i ) = 2 σ20 für i = 1, . . . , n0 . n0 n0

Unter Verwendung der Notation für u.h.v.-Zufallsvariablen folgt daraus für das theoretische Mittel und die theoretische Varianz des Stichprobenmittels obiger n Variablen: 1 n n (n1 μ1 − n0 μ0 ) = μ1 − μ0 bzw. n n1 n0 1 n2 n2 n 2 n 2 σ2n = (n1 2 μ1 + n0 2 μ0 ) = σ + σ . n n1 1 n0 0 n1 n0

μn =

(10.2.24) (10.2.25)

Damit ist das zweite Konvergenzkriterium von Satz 8.2.2 allerdings noch nicht zwingend erfüllt. Wir treffen deshalb die zusätzliche Konvergenzannahme n0 n→∞ n1 n→∞ 󳨀󳨀󳨀󳨀󳨀→ π > 0 und 󳨀󳨀󳨀󳨀󳨀→ 1 − π > 0. (10.2.26) n n Mit der Annahme, dass die relativen Anteile gegen feste, von Null verschiedene Werte konvergieren, folgt σ20 σ21 + > 0. (10.2.27) π 1−π Es genügt nicht, wenn n0 und n1 nur absolut jeweils hinreichend groß sind, vielmehr muss dies auch relativ gelten. Über Resultat (8.2.1) von Satz 8.2.2 erhält man dann mit der zusätzlich getroffenen Annahme (B) aus Definition 8.2.1 n→∞

σ2n 󳨀󳨀󳨀󳨀󳨀→

Y 1 − Y 0 − (μ1 − μ0 ) √ σ20 /n0 + σ21 /n1

=

Y 1 − Y 0 − μn √ σ2n /n

a

∼ N(0, 1).

(10.2.28)

Damit ist auch Resultat (10.2.22) nachgewiesen. Weiter ergibt sich aus (10.2.27) und (10.2.28) (vgl. Beispiel 8.2.5) das asymptotische Verteilungsresultat a

√n(Y 1 − Y 0 − (μ1 − μ0 )) ∼ N(0,

σ20 σ2 + 1 ). 1−π π

(10.2.29)

10.2 Intervallschätzung

| 539

Mit der stochastischen Konvergenz von p S̃ 20 󳨀󳨀→ σ20

und

p S̃ 21 󳨀󳨀→ σ21 ,

den Konvergenzannahmen (10.2.26) und dem Stetigkeitssatz gilt außerdem 2 2 ̃2 ̃2 √ n S0 + n S1 󳨀󳨀p→ √ σ0 + σ1 . n0 n1 1−π π

(10.2.30)

Dividieren wir nun die Statistik (10.2.29) durch den stochastischen Ausdruck auf der linken Seite von (10.2.30), d.h. durch die geschätzte Standardabweichung der Mittelwertdifferenz, erhalten wir mittels Slutsky’s Theorem schließlich TD =

Y 1 − Y 0 − (μ1 − μ0 ) √ S̃ 20 /n0 + S̃ 21 /n1

a

∼ N(0, 1).

(10.2.31)

Dies impliziert für μ1 − μ0 das approximative (1 − α)-Konfidenzintervall [Y 1 − Y 0 − z1−α/2 √

S̃ 20 S̃ 21 S̃ 2 S̃ 2 + , Y 1 − Y 0 + z1−α/2 √ 0 + 1 ]. n0 n1 n0 n1

(10.2.32)

Man beachte, dass anstelle der nichtkorrigierten Stichprobenvarianzen ohne Weiteres auch die korrigierten Varianten verwendet werden können. • Schätzung von μ1 − μ0 bei Abhängigkeit in Form verbundener Werte • Angenommen, eine weltweit operierende Schnellrestaurant-Kette betreibt eine groß angelegte Werbekampagne. Zur Überprüfung der Wirksamkeit der Kampagne werden stichprobenartig einige Filialen ausgewählt und deren wöchentliche Umsätze sowohl vor als auch nach der Werbekampagne ermittelt. Wie lässt sich nun eine Intervallschätzung für den Werbeeffekt konstruieren? In diesem Fall muss beachtet werden, dass die Umsätze vor bzw. nach der Werbekampagne für die jeweils gleichen Filialen betrachtet werden. Bezeichnen wir den Umsatz einer zufällig ausgewählten Filiale vor und nach der Werbekampagne mit Y0 bzw. Y1 , so erhalten wir für n zufällig ausgewählte Filialen unabhängige und identisch wie Y0 verteilte Zufallsvariablen Y01 , Y02 , . . . , Y0n und unabhängige und identisch wie Y1 verteilte Zufallsvariablen Y11 , Y12 , . . . , Y1n . Allerdings sind die Zufallsvariablen Y01 , Y02 , . . . , Y0n , Y11 , Y12 , . . . , Y1n insgesamt nicht unabhängig, da Y0i und Y1i für i = 1, . . . , n jeweils an den gleichen Merkmalsträger (die i-te Filiale) gebunden sind. Es liegt also im Grunde eine zweidimensionale Stichprobe (Y01 , Y11 ), (Y02 , Y12 ),. . . , (Y0n , Y1n ) vom Umfang n vor. Im vorliegenden Beispiel wäre es naheliegend davon auszugehen, dass Y0 und Y1 positiv korreliert sind. So sollte eine Filiale, die vor der Werbeaktion bereits überdurchschnittlich hohen Umsatz erzielte, dies tendenziell auch nach der Werbeaktion tun. Aufgrund möglicher Abhängigkeit innerhalb der Wertepaare sind die Verteilungsresultate der vorhergehenden Fälle in Form

540 | 10 Statistisches Schätzen

von (10.2.17), (10.2.20) oder (10.2.32) nicht nutzbar. Insbesondere gilt nämlich nicht: σ20 σ21 + . n n Die Lösung besteht darin, anstelle der Differenz der Stichprobenmittel, das Stichprobenmittel der Differenzen Y11 − Y01 , Y12 − Y02 , . . . , Y1n − Y0n zu betrachten (Abb. 10.2.8). Setzt man Var(Y 1 − Y 0 ) =

D i := Y1i − Y0i

für i = 1, . . . , n,

so sind D1 , . . . , D n als Funktionen der u.i.v.-Paare (Y01 , Y11 ), . . . , (Y0n , Y1n ) ebenfalls unabhängig und identisch verteilt mit E(D i ) = δ

und

Var(D i ) = σ20 + σ21 − 2σ01 =: σ2D ,

wobei σ01 = Cov(Y0 , Y1 ). Letzteres Resultat ergibt sich aus Formel (7.4.16) und den für Varianzen und Kovarianzen geltenden Rechenregeln. Denn es gilt: Var(Y1 − Y0 ) = Var(Y1 + (−1)Y0 ) = Var(Y1 ) + Var(−Y0 ) + 2Cov(Y1 , −Y0 ) = Var(Y1 ) + Var(Y0 ) − 2Cov(Y1 , Y0 ). Die bisherigen Formeln für Konfidenzintervalle werden nun auf die Differenzen D1 , . . . , D n bezogen und angewendet. Gleichwohl entspricht dabei der Erwartungswert der Differenz δ der Differenz der Erwartungswerte und das Stichprobenmittel der Differenzen der Differenz der Stichprobenmittel, da gilt: E(D) = E(Y1 − Y0 ) = μ1 − μ0 bzw. D=

1 n 1 n ∑ D i = ∑ (Y1i − Y0i ) = Y 1 − Y 0 . n i=1 n i=1

Im vorliegenden Fallbeispiel kann der Werbeeffekt deshalb unverändert über die theoretische Differenz δ definiert und anhand der Differenz der Stichprobenmittel geschätzt werden. Es ändert sich sozusagen nur die Schätzung der zugehörigen Varianz. Hierbei ist zu beachten, dass es zur Schätzung von σ2D nicht notwendig ist, die Varianzen von Y0 und Y1 sowie deren Kovarianz im Einzelnen zu schätzen. Vielmehr wird diese, sofern unbekannt, anhand der Stichprobenvarianz der Differenzenwerte quasi en bloc geschätzt. Sofern nun D1 , . . . , D n als unabhängig N(δ, σ2D )-verteilt angenommen werden können, gilt in Anlehnung an die Resultate (10.2.4) und (10.2.5): Z= T=

D−δ √ σ2D /n D−δ √ S2D /n

∼ N(0, 1) bzw. ∼ t(n − 1)

mit S2D =

(10.2.33) 1 n ∑ (D i − D)2 . n − 1 i=1

(10.2.34)

10.2 Intervallschätzung

| 541

Die Normalverteilung wäre beispielsweise dann gerechtfertigt, falls Y0 und Y1 gemeinsam (bivariat) normalverteilt wären. Aus (

μ0 Y0 σ2 ) ∼ N(( ), ( 0 Y1 μ1 σ01

σ01 )) σ21

würde dann gemäß (8.3.6) folgen: D = Y1 − Y0 ∼ N(μ1 − μ0 , σ20 + σ21 − 2σ01 ). Ansonsten gilt in Anlehnung an die Resultate (10.2.8) und (10.2.11), sofern n groß ist: Z= T=

D−δ √ σ2D /n D−δ √ S̃ 2D /n

a

∼ N(0, 1) bzw.

(10.2.35)

a

∼ N(0, 1).

(10.2.36)

Als (1 − α)-Konfidenzintervalle für die als Effektstärke interpretierbare, theoretische Größe δ resultieren daraus die verschiedenen Fälle gemäß Satz 10.2.1, wobei lediglich X durch D

und

S2 durch S2D

bzw.

S̃ 2 durch S̃ 2D

ersetzt werden.

Abb. 10.2.8: Modellierung einer Stichprobe bei verbundenen Werten

• Zusammenfassung der Resultate • Fassen wir die verschiedenen Fälle dieses Abschnitts formal zusammen. In Bezug auf verbundene Werte sei auf die Ausführungen des vorherigen Punktes verwiesen. Satz 10.2.2: Konfidenzintervalle für Erwartungswertdifferenzen Gegeben seien n = n0 + n1 unabhängige Stichprobenvariablen Y01 , Y02 , . . . , Y0n0

und

Y11 , Y12 , . . . , Y1n1 ,

die innerhalb der beiden Gruppen jeweils identisch verteilt sind mit E(Y0i ) = μ0 , Var(Y0i ) = σ20

mit 0 < σ20 < ∞ für i = 1, ..., n0 ,

542 | 10 Statistisches Schätzen

E(Y1i ) = μ1 , Var(Y1i ) = σ21

mit 0 < σ21 < ∞ für i = 1, ..., n1 .

Dann ist ein (1 − α)-Konfidenzintervall für μ1 − μ0 , falls (i) alle Variablen normalverteilt sind mit bekannten Varianzen, gegeben durch [Y 1 − Y 0 − z1−α/2 √

σ20 σ21 σ2 σ2 + , Y 1 − Y 0 + z1−α/2 √ 0 + 1 ], n0 n1 n0 n1

(ii) alle Variablen normalverteilt sind mit unbekannter gleicher Varianz (σ20 = σ21 , homoskedastischer Fall), gegeben durch [Y 1 − Y 0 − t n0 +n1 −2,1−α/2 √ mit S2p =

S2p S2p S2p S2p + , Y 1 − Y 0 + t n0 +n1 −2,1−α/2 √ + ] n0 n1 n0 n1

1 (n0 S̃ 20 + n1 S̃ 21 ), n0 + n1 − 2

(iii) n0 und n1 groß sind, Annahme (B) von Definition 8.2.1 und die Bedingung n1 n→∞ 󳨀󳨀󳨀󳨀󳨀→ π ∈ (0, 1) n erfüllt und die Varianzen bekannt sind, gegeben durch [Y 1 − Y 0 − z1−α/2 √

σ20 σ21 σ2 σ2 + , Y 1 − Y 0 + z1−α/2 √ 0 + 1 ], n0 n1 n0 n1

(iv) die Varianzen unbekannt und sonst alle Annahmen von (iii) erfüllt sind, gegeben durch [Y 1 − Y 0 − z1−α/2 √

S̃ 20 S̃ 21 S̃ 2 S̃ 2 + , Y 1 − Y 0 + z1−α/2 √ 0 + 1 ]. n0 n1 n0 n1

In den Fällen (iii) und (iv) handelt es sich um approximative Konfidenzintervalle für n0 , n1 ≥ 30. Hierzu beachte man, dass Annahme (B) erfüllt ist, sofern die Trägermengen der Verteilungen der beiden Gruppen beschränkt sind. Außerdem können im Fall (iv) sowohl nichtkorrigierte als auch korrigierte Stichprobenvarianzen verwendet werden. • Allgemeine Merkregel via Standardfehler • Die nach Satz 10.2.1 formulierte Merkregel lässt sich auch hier wieder in analoger Weise anbringen. Mit δ = μ1 − μ0

und

δ̂ = Y 1 − Y 0

erhält man nach Wahl eines entsprechenden Quantils q1−α/2 das Intervall [δ̂ − q1−α/2 ⋅ σ δ̂ , δ̂ + q1−α/2 ⋅ σ δ̂ ].

10.2 Intervallschätzung

| 543

Bei unbekannten Varianzen σ20 und σ21 , muss die Standardabweichung σ δ̂ entsprechend mittels ̃ δ̂ = √ σ

S2p S2p + n0 n1

̂ δ̂ = √ σ

bzw.

S̃ 20 S̃ 21 + n0 n1

(10.2.37)

geschätzt werden, je nachdem ob Fall (ii) oder Fall (iv) vorliegt. Das Intervall wird allgemein also aus Schätzwert, Quantil und (geschätztem) Standardfehler konstruiert. • Beispiel 10.2.3: Pflanzenexperiment Nr.1 • Gegeben sei die Situation aus Beispiel 9.1.3 (Pflanzenexperiment). Hierbei liegen folgende 6 gemessene Wuchshöhen (in cm) vor: Gruppe 0 (ohne Düngung): 14, 25, 36, Gruppe 1 (mit Düngung): 64, 46, 55. Das linke Schaubild von Abbildung 10.2.9 illustriert die Situation maßstabsgerecht. y 11 y1

y 13 y 12

y 03

y1 − y0 y 02 y 01

(y 03, y 13) (y 02, y 12) (y 01, y 11)

y0

Gruppe 0:

Gruppe 1:

ohne Düngung

mit Düngung

Zeitpunkt 0

Zeitpunkt 1

... die gleichen Pflanzen ...

Abb. 10.2.9: Pflanzenexperimente der Beispiele 10.2.3 und 10.2.4

Angenommen, die Wuchshöhen der ohne Düngung gezüchteten Pflanzen werden als unabhängige N(μ0 , σ2 )-verteilte Stichprobenvariablen Y01 , Y02 und Y03 modelliert und die der gedüngten Pflanzen als unabhängige N(μ1 , σ2 )-verteilte Zufallsvariablen Y11 , Y12 und Y13 . Dann lässt sich der Düngeeffekt als theoretische Differenz δ = μ1 − μ0 definieren und über die Differenz der Stichprobenmittelwerte schätzen. Konkret ergibt dies im vorliegenden Fall δ̂ = y1 − y0 = 55 − 25 = 30. Demnach bewirkt die Düngung eine um durchschnittlich 30 cm höhere Wuchshöhe. Ein adäquates 0.95-Konfidenzintervall für δ, das diesem Modellrahmen, in dem insbesondere auch eine in beiden Gruppen einheitliche Varianz angenommen wird, genügt, erhalten wir aus Satz 10.2.2, Fall (ii). Mit n0 = n1 = 3, ̃s20 ≈ 80.67 und ̃s21 = 54.0

544 | 10 Statistisches Schätzen ergibt sich als Schätzwert für σ2 zunächst einmal ̂ 2 = s2p = σ

1 1 (n0 ̃s20 + n1 ̃s21 ) ≈ (3 ⋅ 80.67 + 3 ⋅ 53.0) ≈ 101. n1 + n2 − 2 4

Mit t4,0.975 ≈ 2.7764 (Tab. A.2) ergibt dies dann das Intervall [30 − 2.7764√

101 101 101 101 + , 30 + 2.7764√ + ] ≈ [7.2, 52.8]. 3 3 3 3

Bei einem Niveau von 95% sollte der Düngeeffekt folglich irgendwo zwischen 7.2 und 52.8 cm liegen. Die Länge dieses Intervalls spiegelt eine denkbar große Unsicherheit wider. So übersteigt die obere Intervallgrenze für die geschätzte Effektstärke selbst die Spannweite aller Beobachtungen, die bei 50 liegt. Hauptgrund hierfür ist die Größe der Stichprobe von insgesamt nur 6 Beobachtungen. Stellen wir uns für einen Moment vor, die exakt gleichen Stichprobenmittel und Stichprobenvarianzen beruhten auf jeweils 30 Beobachtungswerten. Mit n0 = n1 = 30 und t58,0.975 ≈ z0.975 ≈ 1.96 ergäbe dies das deutlich kürzere Intervall [30 − 1.96√

101 101 101 101 + , 30 + 1.96√ + ] ≈ [26.4, 33.6]. 30 30 30 30

• Beispiel 10.2.4: Pflanzenexperiment Nr.2 • Gegeben sei ein weiteres Pflanzenexperiment, bei dem das Wachstum von Efeu in einem bestimmten Zeitfenster untersucht wird. Dazu werden 3 vergleichbare Ableger einer Efeupflanze angepflanzt und deren Wuchslängen zu 2 verschiedenen Zeitpunkten gemessen. Damit liegt ein klassischer Fall verbundener Werte vor. In Anlehnung an die vorhergehende Notation lassen sich die Längen über 3 Zufallsvektoren (Y01 , Y11 ), (Y02 , Y12 ) und (Y03 , Y13 ) modellieren, wobei die ersten Komponenten mit dem ersten Zeitpunkt (Zeitpunkt 0) und die zweiten Komponenten mit dem zweiten Zeitpunkt (Zeitpunkt 1) korrespondieren. Das rechte Schaubild von Abbildung 10.2.9 illustriert diese Situation für folgende Daten: Pflanze 1

Pflanze 2

Pflanze 3

Zeitpunkt 0

14

25

36

Zeitpunkt 1

46

55

64

Man beachte, dass insgesamt die gleichen Zahlen wie im vorhergehenden Beispiel verwendet wurden. Mit E(Y0i ) = μ0 und E(Y1i ) = μ1 für i = 1, 2, 3 lässt sich nun der zwischen den beiden Zeitpunkten zu erwartende Längenzuwachs als theoretische Differenz δ = μ1 − μ0 definieren. Dieses wird mittels der entsprechenden Differenz der Stichprobenmittel bzw. mittels des Stichprobenmittels der Differenzen geschätzt. Ein adäquates 0.95-Konfidenzintervall für μ basiert dann auf den Differenzen Y11 − Y01 , Y12 − Y02 und Y13 − Y03 und ist unter der Annahme einer Normalverteilung durch Fall

10.2 Intervallschätzung

| 545

(ii) von Satz 10.2.1 gegeben. Mit den obigen Daten erhalten wir zunächst einmal d1 = y11 − y01 = 32, d2 = y12 − y02 = 30 und d3 = y13 − y03 = 28, δ̂ = d = y1 − y0 = 30 und s2D = 4. Mit t2,0.975 ≈ 4.3027 (Tab. A.2) resultiert daraus dann als realisiertes Intervall 4 4 [30 − 4.3027√ , 30 + 4.3027√ ] ≈ [25.0, 35.0]. 3 3 Bei einem Niveau von 95% sollte der zu erwartende Längenzuwachs folglich irgendwo zwischen 25 und 35 cm liegen. Man beachte, dass das resultierende Intervall trotz des sehr kleinen Stichprobenumfangs deutlich kürzer als im vorhergehenden Beispiel 10.2.3 für n0 = n1 = 3 ist. Dies liegt daran, dass die Differenzenwerte nur eine relativ geringe Streuung aufweisen. Gleichwohl entsprechen die zu den jeweiligen Zeitpunkten korrespondierenden Varianzen der Längen exakt den Gruppenvarianzen des vorgehenden Beispiels (es wurden im Ganzen ja die gleichen Zahlen verwendet). Dies verdeutlicht, dass es einen erheblichen Unterschied ausmachen kann, ob das stochastische Verhalten einer Differenz von Stichprobenmitteln oder eines Stichprobenmittels von Differenzen betrachten wird. • Bemerkung zum Zweistichproben-Gedanken • In manchen Lehrbüchern wird die Gruppierung der Stichprobenvariablen in Y01 , Y02 , . . . , Y0n0

und

Y11 , Y12 , . . . , Y1n1

gleichsam als Vorliegen von zwei verschiedenen Stichproben interpretiert. Gemäß den Ausführungen in Kapitel 9 ziehen wir es vor, immer nur von einer einzigen Stichprobe auszugehen. Dabei kommt es dann zu einer heterogenen Verteilung der Stichprobenvariablen innerhalb einer solchen Stichprobe. Dieser interpretatorische Ansatz bringt den Vorteil mit sich, dass man Fälle, in denen sich die jeweiligen Gruppenumfänge n0 und n1 zufällig ergeben, mit dem gleichen Stichprobenkonzept behandeln kann. Man beachte hierzu die Ausführungen in Abschnitt 10.2.5 (Punkt „nichtstochastische vs. stochastische Gruppenumfänge“). • Äquivalente Darstellungen im Regressionsmodell • Erwartungswertvergleiche lassen sich teils äquivalent als statistische Probleme im Rahmen des Regressionsmodells formulieren und behandeln. Ausführungen und Beispiele hierzu finden sich in Abschnitt 12.1.4 („Spezialfall: Binärer Regressor“).

10.2.4 Weitere Konfidenzintervalle • Konfidenzintervalle für Anteilswerte • In Abschnitt 10.2.2 wurden approximative Konfidenzintervalle für Erwartungswerte vorgestellt, die, vereinfacht gesagt, unter beliebigen Ausgangsverteilungen gelten. Ein wichtiger Spezialfall stellt dabei die

546 | 10 Statistisches Schätzen

Bernoulli-Verteilung dar, mit der sich statistische Probleme in Bezug auf Anteilsbetrachtungen dichotomer Merkmale modellieren lassen. Da für eine B(1, π)-verteilte Zufallsvariable X insbesondere E(X) = π

Var(X) = π(1 − π)

und

gilt, können die approximativen Intervalle gemäß Satz 10.2.1 für den Fall μ = π spezialisiert werden. Der Erwartungswert entspricht dann einem theoretischen Anteilswert (einer Wahrscheinlichkeit). Da in diesem Fall die Varianz selbst vom zu schätzenden Parameter π abhängt, schließen wir den Fall einer bekannten Varianz aus. Weiter beachte man, dass aufgrund der Trägermenge {0, 1} die Zufallsvariable X identisch wie X 2 verteilt ist. Für n Bernoulli-verteilte Stichprobenvariablen X1 , . . . , X n führt dies deshalb zur Gleichung S̃ 2 = X(1 − X).

(10.2.38)

Dies folgt wegen 1 n 1 n 2 S̃ 2 = ∑ (X i − X)2 = ∑ X 2i − X n i=1 n i=1 =

1 n 2 2 ∑ Xi − X = X − X , n i=1

wobei hier im ersten Umformungsschritt die Verschiebungsformel für die Stichprobenvarianz ausgenutzt wurde. Man beachte, dass hier die Gleichheit (10.2.38) lediglich erfüllt ist, weil X i = X 2i für X i ∼ B(1, π) ist. Die Gleichheit gilt jedoch nicht unter beliebigen Verteilungsannahmen. Insgesamt erhalten wir damit [X − z1−α/2 √ X(1 − X)/n, X + z1−α/2 √ X(1 − X)/n]

(10.2.39)

in direkter Entsprechung zu Formel (10.2.14) als approximatives (1 − α)-Konfidenzintervall für π. Man beachte dabei, dass das auf Grundlage Bernoulli-verteilter Zufallsvariablen gebildete Stichprobenmittel der relativen Häufigkeit der Einsen in der Stichprobe entspricht. Mit der für dieses Schätzproblem zutreffenden Notation ̂=X π erhalten wir die bedeutungsgleiche gängigere Formel ̂ (1 − π ̂ )/n, π ̂ + z1−α/2 √ π ̂ (1 − π ̂ )/n]. ̂ − z1−α/2 √ π [π

(10.2.40)

Sie beruht auf dem für Bernoulli-Variablen spezialisierten ZGWS-Resultat ̂−π π

a

√ π(1 − π)/n ̂ π

approx



∼ N(0, 1) bzw.

(10.2.41)

π(1 − π) ). n

(10.2.42)

N(π,

10.2 Intervallschätzung

| 547

Satz 10.2.3: Konfidenzintervalle für Anteilswerte Seien X1 , . . . , X n unabhängig B(1, π)-verteilt mit 0 < π < 1 und n ≥ 30. Dann ist ein approximatives (1 − α)-Konfidenzintervall für π gegeben durch ̂ − z1−α/2 √ [π

̂ (1 − π ̂) ̂ (1 − π ̂) π π ̂ + z1−α/2 √ ,π ]. n n

̂ = X die relative Häufigkeit der Einsen in der Stichprobe. Dabei ist π • Notwendiger Stichprobenumfang zur Erzielung bestimmter Genauigkeiten • Die Intervalllänge von (10.2.40) ist gegeben durch ̂ (1 − π ̂ )/n L π̂ = 2z1−α/2 √ π und damit stochastisch. Da relative Häufigkeiten zwischen 0 und 1 liegen können, ̂ (1 − π ̂ ) maximal kann diese Länge jedoch nach oben abschätzt werden. So nimmt π ̂ = 0.5 ist. Dann den Wert 0.25 an. Am größten werden die Konfidenzintervalle, wenn π ist die Unsicherheit der Schätzung am größten. Je näher die relativen Häufigkeiten dagegen an den Extremwerten 0 und 1 liegen, d.h. je homogener eine Grundgesamtheit ist, desto genauer kann π bestimmt werden. Die maximale Länge für ein vorgegebenes Konfidenzniveau 1 − α beträgt somit Lmax = z1−α/2 /√n. ̂ π

(10.2.43)

Diesen Umstand kann man sich in einer Art „Worst-Case-Kalkül“ zunutze machen, um für eine angestrebte maximale Länge den erforderlichen Mindeststichprobenumfang zu bestimmen. Dazu löst man (10.2.43) nach n auf und erhält die Formel 2

n = (z1−α/2 /Lmax ̂ ) . π

(10.2.44)

Soll also etwa ein 0.95-Konfidenzintervall nicht länger als 0.02 sein, was einer ±1% genauen Schätzung entspricht, erhält man n = (z0.975 /0.02)2 ≈ (1.96/0.02)2 = 9604 als erforderlichen Mindestumfang. Bei einer Stichprobe vom Umfang 9604 wird das entsprechende Konfidenzintervall also in aller Regel kürzer als 0.02 sein. Die Länge ̂ = 0.5 realisiert werden. 0.02 würde dabei nur im ungünstigsten Falle von π • Exakte Konfidenzintervalle für Anteilswerte • Prinzipiell lassen sich auch Konfidenzintervalle beruhend auf der exakten Verteilung des Stichprobenmittels konstruieren. Da die Stichprobensumme B(n, π)-verteilt ist, lässt sich die Verteilung des Stichprobenmittels spezifizieren. Jedoch treten bei dieser Vorgehensweise im Detail einige Probleme auf, die darauf zurückgeführt werden können, dass die Binomialverteilung zum einen eine diskrete und zum anderen eine (für π ≠ 0.5) asymmetrische Verteilung ist. Man beachte hierzu die Bemerkungen im nachfolgenden Beispiel.

548 | 10 Statistisches Schätzen

• Beispiel 10.2.5: Mensabefragung • Gegeben sei die Situation aus Beispiel 1.2.1 (Mensabefragung). Votieren 40 von 50 befragten Studierenden für die Mensa, so gilt ̂ = 40/50 = 0.8. π Mit z0.975 = 1.96 erhält man daraus als approximatives 0.95-Konfidenzintervall für π: [0.8 − 1.96√0.8 ⋅ 0.2/50, 0.8 + 1.96√0.8 ⋅ 0.2/50] ≈ [0.69, 0.91]. Bei einem Niveau von 95% sollte der Anteil von Mensabefürwortern unter allen Studierenden folglich zwischen 69% und 91% liegen. Alternativ lässt sich für π = 0.8 auch die Verteilung der Summe 50

S50 = ∑ X i ∼ B(50, 0.8) i=1

der Stichprobenvariablen betrachten (vgl. rechtes Schaubild von Abb. 1.2.3) und dann durch „Stutzen“ der entsprechenden Trägermenge am oberen und unteren Ende ein Konfidenzintervall konstruieren. Dies führt dann zu Berechnungen, wie sie im Detail in Beispiel 9.1.1 ausgeführt wurden. Im vorliegenden Fall ergibt dies dann das Intervall [0.70, 0.90], was sehr ähnlich zum obigen ist. Die exakte Ausschöpfung eines vorgegebenen Konfidenzniveaus lässt sich i.d.R. nicht bewerkstelligen, da die Trägerpunkte der Binomialverteilung nur bestimmte Wahrscheinlichkeiten auf sich vereinen. Damit lässt sich die Verteilung nicht auf jede beliebig vorgegebene Wahrscheinlichkeitsmasse stutzen, wie es etwa bei der stetigen Normalverteilung der Fall ist. Möchte man zu einem vorgegebenen Konfidenzniveau möglichst kurze Intervalle konstruieren, dann sollte die Stutzung meist nicht völlig symmetrisch vorgenommen werden. Die hierfür notwendigen Berechnungen erweisen sich dann als nicht ganz trivial. Im vorliegenden Beispiel wurden unten 3.08% und oben 1.85% der Wahrscheinlichkeitsmasse gestutzt. Asymptotisch führt die Stutzung aber auch zu (10.2.40), da gemäß ZGWS Sn

approx



N(nπ, nπ(1 − π))

gilt. Beispiel 10.2.6: Politbarometer und Wahlergebnis der Bundestagswahl 2013 Tabelle 10.2.1 zeigt das Ergebnis der letzten Telefonbefragung der Forschungsgruppe Wahlen (Politbarometer) vor der Bundestagswahl 2013 und das offizielle Wahlergebnis. Die Telefonbefragung wurde am 18.09. und 19.09.2013 durchgeführt und umfasste insgesamt n = 1369 befragte Personen. Die Bundestagswahl fand drei Tage später am 22.09.2013 statt. Abbildung 10.2.10 illustriert die Ergebnisse und deutet die mit den Umfrageergebnissen einhergehenden 0.95-Konfidenzintervalle für jede Partei an. Die jeweiligen Genauigkeiten zum Niveau 95% sind in der Tabelle mit angegeben. Alle Intervalle überdecken jeweils den bei der Wahl erzielten Stimmenanteil. Insofern war das Politbarometer erfolgreich.

Stimmenanteil in %

10.2 Intervallschätzung

| 549

50

Umfrage

40

Wahl

30 20 10 0

Union

SPD

FDP

Linke

Grüne

AfD

Sonstige

Daten: Der Bundeswahlleiter [2016], Forschungsgruppe Wahlen [2016] Abb. 10.2.10: Politbarometer und Wahlergebnis der Bundestagswahl 2013 Tab. 10.2.1: Umfrageergebnis und Wahlergebnis (in %) der Bundestagswahl 2013 Partei

Union

SPD

FDP

Linke

Grüne

AfD

Sonst.

Umfrage und

40.0

27.0

5.5

8.5

9.0

4.0

6.0

Genauigkeit

±2.6%

±2.4%

±1.2%

±1.5%

±1.5%

±1.0%

±1.3%

Endergebnis

41.5

25.7

4.8

8.6

8.4

4.7

6.3

Daten: Der Bundeswahlleiter [2016], Forschungsgruppe Wahlen [2016]

• Konfidenzintervalle für Anteilswertdifferenzen • Zur Konstruktion von Konfidenzintervallen für Differenzen von Anteilswerten lassen sich die approximativen Intervalle für Erwartungswertdifferenzen von Satz 10.2.2 wiederum auf die BernoulliVerteilung spezialisieren. Die Konstruktion folgt den gleichen Prinzipien, die zu Satz 10.2.3 geführt haben. Der Logik der vorhergehenden Notation folgend ist dann ein (1 − α)-Konfidenzintervall für die theoretische Differenz π1 − π0 gegeben durch: ̂ 0 − z1−α/2 √ ̂1 − π [π

̂ 0) π ̂ 1) ̂ 1 (1 − π ̂ 0 (1 − π π + , n0 n1 ̂1 − π ̂ 0 + z1−α/2 √ π

̂ 1 (1 − π ̂ 0 (1 − π ̂ 0) π ̂1) π + ]. n0 n1

(10.2.45)

• Konfidenzintervalle für σ2 • Auch für die theoretische Varianz lassen sich Konfidenzintervalle konstruieren. Diese basieren zumeist auf der Annahme normalverteilter Stichprobenvariablen und verwenden dann Stichprobenvarianz und Quantile der sog. Chi-Quadrat-Verteilung zur Konstruktion. Allerdings geschieht dies in Abweichung von der bisherigen Regel, dass sich die Intervallgrenzen aus Schätzwert ± Quantil ⋅ (geschätzter) Standardfehler

550 | 10 Statistisches Schätzen

ergeben. Nähere Ausführungen hierzu finden sich etwa bei Bamberg et al. [2012, Abschnitt 13.2]. Bei der Konstruktion approximativer Intervalle für große Stichproben ohne Normalverteilungsannahme kann man sich jedoch wieder den ZGWS zunutze machen und basierend auf den Quantilen der Standardnormalverteilung obige Konstruktionsregel anwenden. Dabei kann der Standardfehler mittels der sog. Momentenmethode (Abschnitt 10.3.1) geschätzt werden. Man beachte hierzu Formel (10.3.9) in Beispiel 10.3.3. • Konfidenzintervalle für sonstige Größen • Auch für Quotienten theoretischer Varianzen, theoretische Quantile, Variationskoeffizienten und Korrelationskoeffizienten und noch viele weitere theoretische Größen lassen sich Konfidenzintervalle unter bestimmten Annahmen konstruieren. Einen Einblick hierzu bieten etwa Sachs und Hedderich [2012, Kapitel 6].

10.2.5 Adäquatheit bestimmter Modellannahmen • Hintergrund und Überblick • Jede statistische Modellierung beruht auf spezifischen Annahmen, welche die Eigenheiten der Stichprobe bzw. der Stichprobenvariablen formal beschreiben. Nur sofern diese Annahmen auch tatsächlich erfüllt sind, ist statistische Inferenz zulässig, akkurat und sinnvoll. Doch was genau bedeutet das? Angenommen, im Rahmen eines Schätzproblems für einen Erwartungswert μ seien die zugrunde gelegten Stichprobenvariablen X1 , . . . , X n zwar identisch N(μ, σ2 )-verteilt aber nicht unabhängig. Wird nun fälschlicherweise Unabhängigkeit unterstellt und ein Konfidenzintervall gemäß Satz 10.2.1, Fall (i), konstruiert, so ist dieses nicht mehr korrekt. Dies liegt daran, dass die Varianz des Stichprobenmittels X nicht mehr σ2 /n beträgt, sondern gemäß Formel (7.4.11): Var(X) =

1 n n ∑ ∑ Cov(X i , X j ). n2 i=1 j=1

(10.2.46)

̂ = X würde bspw. bei Vorliegen positiver Korrelationen gelten: Für μ Var(X) > σ2 /n. Man beachte, dass speziell für n = 2 aus (10.2.46) Var(0.5(X1 + X2 )) = 0.5(σ2 + Cov(X1 , X2 )) > 0.5σ2 folgt. Der unterstellte Standardfehler wäre, sofern σ2 bekannt ist, zu klein und das resultierende Intervall zu kurz. Dies alles führt dann dazu, dass das Konfidenzniveau tatsächlich kleiner ist als vorgegeben. Ist die Annahme identischer Verteilung verletzt, kann sogar jegliche Sinnhaftigkeit verloren gehen. Dies gilt insbesondere dann, falls kein sinnvoll interpretierbarer Erwartungswert μ mehr existiert. Im Folgenden werden wir uns mit den obigen und noch einigen weiteren kritischen Punkten in Bezug auf die Modellannahmen befassen. Die Problematik der ein-

10.2 Intervallschätzung

| 551

zelnen Punkte soll dabei vorrangig anhand der Beispiele 9.1.1–9.1.3 (Mensabefragung, Gepäckabfertigung, Pflanzenexperiment) verdeutlicht werden. Zu diesen kritischen Punkten gehören (i) (ii) (iii) (iv)

das Vorliegen von Repräsentativität, die Annahmen in Bezug auf die Verteilung, die Unabhängigkeitsannahme, spezielle Annahmen bei Differenzenschätzungen.

• Zu allererst: Repräsentativität • Grundvoraussetzung für die Sinnhaftigkeit jeglicher Inferenz ist das Vorliegen einer repräsentativen Stichprobe. Die Stichprobe muss die interessierende Grundgesamtheit so gut es geht widerspiegeln. Definition und Problematik von Repräsentativität wurden bereits ausführlich in Abschnitt 9.2 behandelt und anhand der obigen drei Beispiele erläutert. Wie bereits festgestellt, gehört Repräsentativität nicht zu den Modellannahmen im engeren Sinne, sondern ist eine nichtmathematische Eigenschaft, die anhand inhaltlicher Überlegungen und mithilfe fachspezifischer Kenntnisse überprüft werden muss. Dabei ist zu beachten, dass allein die Erfüllung bestimmter Ziehungsschemata (u.i.v., u.h.v. oder andere) nicht ausreichend ist. • Identisch vs. heterogen verteilt • Gegeben sei die Situation aus Beispiel 9.1.2 (fortgesetzt in den Beispielen 10.2.1 und 10.2.2). Werden hier beispielsweise sämtliche Gepäckabfertigungszeiten einer kompletten Frühschicht von 5 Uhr bis 13 Uhr als (hypothetische) Stichprobe genommen, so wäre es denkbar, dass die Annahme identisch verteilter Stichprobenvariablen für diesen gesamten Zeitraum nicht realistisch ist. So könnte es etwa sein, dass sich die morgendlichen Abfertigungszeiten von den mittäglichen aufgrund unterschiedlicher Anteile von Kurz- und Langstreckenflügen systematisch unterscheiden. Sofern die jeweiligen Anteile jedoch langfristig stabil sind und die Stichprobe dies repräsentativ abdeckt, kann man auch unter dieser Heterogenität sinnvolle und gültige Inferenz betreiben. Mithilfe des ZGWS für u.h.v. Zufallsvariablen (Satz 8.2.2) lässt sich hierfür ein identisches approximatives Konfidenzintervall begründen, wie in Fall (iv) von Satz 10.2.1. Die zu schätzende mittlere Abfertigungszeit kann hierbei als langfristiger Durchschnittswert aller zur Frühschicht abgefertigten Flüge, zu denen eben sowohl Kurz- als auch Langstreckenflüge zählen, sinnvoll interpretiert werden. Wäre es nun allerdings so, dass sich die betreffenden Anteile tagtäglich verändern, wäre ein langfristiges Mittel nicht mehr sinnvoll definierbar. Die Sinnhaftigkeit jeglicher Inferenz ginge somit auch verloren. Auf theoretischer Ebene wären die Konvergenzbedingungen des ZGWS für u.h.v. Zufallsvariablen nicht erfüllt. Eine naheliegende Lösung bestünde dann darin, die Inferenz für Kurzund Langstreckenabfertigungen getrennt zu betreiben, was möglicherweise ohnehin nützlicher sein könnte. Im Pflanzenexperiment von Beispiel 9.1.3 (fortgesetzt in Beispiel 10.2.3) interpretieren wir die Wuchshöhen der in zwei Gruppen eingeteilten Versuchspflanzen als ei-

552 | 10 Statistisches Schätzen ne Stichprobe vom Umfang n = 6. Aufgrund der Variation der Düngung in den beiden Gruppen nehmen wir sinnvollerweise heterogen verteilte Stichprobenvariablen an, wobei die Variablen innerhalb der Behandlungsgruppen jeweils identisch verteilt sind. Diese Annahme ist dann gerechtfertigt, falls alle weiteren Versuchsbedingungen völlig identisch sind. Würde man nun beispielsweise die Pflanzen innerhalb der Gruppen systematisch unterschiedlich stark bewässern, wäre diese Annahme verletzt, zumindest sofern die Bewässerung die Wuchshöhe beeinflusst. Die statistische Modellierung wäre dann falsch und die Inferenz ungültig. Intuitiv sollte auf jeden Fall einleuchten, dass der Düngeeffekt nicht richtig geschätzt werden kann, sofern außer der Düngung noch andere Einflussfaktoren systematisch variieren. Entweder muss dann in einem solchen Fall die störende Variation beseitigt oder im Rahmen eines anderen Modellierungsansatzes mit berücksichtigt werden. • Normal- vs. nicht normalverteilt • Bei der Konstruktion von Konfidenzintervallen für Erwartungswerte und Erwartungswertdifferenzen wird in verschiedenen Fällen von der Normalverteilungsannahme Gebrauch gemacht. Ist diese Annahme verletzt, so stimmen die verwendeten Verteilungsquantile aus der Normal- oder tVerteilung nicht mehr. Man beachte, dass unter dem u.i.v.-Schema Stichprobenmittel und Stichprobenvarianz immer noch erwartungstreue und konsistente Schätzer für Erwartungswert und theoretische Varianz sind. Aufgrund der falsch verwendeten Quantile werden die Intervalle jedoch zu lang oder zu kurz. Das tatsächliche Konfidenzniveau weicht dann im Allgemeinen von dem vorgegebenen ab. Aufgrund des ZGWS wird diese Abweichung mit wachsendem n jedoch immer kleiner. Außerdem ist die fälschliche Unterstellung einer Normalverteilung selbst in kleinen Stichproben praktisch vernachlässigbar, sofern die tatsächliche Verteilung unimodal und einigermaßen symmetrisch ist. In Beispiel 9.1.2 könnte man sich gemäß dem im vorigen Punkt beschriebenen Szenario vorstellen, dass die Gepäckabfertigungszeit aufgrund der systematischen Unterschiede von Kurz- und Langstreckenabfertigungen einer bimodalen Mixturverteilung (Abschnitt 8.1.3) genügt. Bei kleinen Stichproben wäre deshalb Vorsicht mit der Normalverteilungsannahme geboten, insbesondere falls man sich nicht für eine getrennte Analyse von Kurz- und Langstreckenabfertigungen entscheidet. Die Annahme normalverteilter Wuchshöhen innerhalb der beiden Pflanzengruppen in Beispiel 9.1.3 (fortgesetzt im Beispiel 10.2.3) erscheint realistisch, sofern die Bedingungen ansonsten völlig identisch sind. Eine sich langfristig einstellende mittlere Wuchshöhe mit symmetrischer Schwankung um diesen Wert erscheint absolut plausibel. Zudem ist es bekannt, dass die Normalverteilung bei derartig kontrollierten Experimenten regelmäßig als „natürliche Verteilung“ beobachtet werden kann. • Verwendung der Approximationsregeln • Die approximativen Konfidenzintervalle der Sätze 10.2.1 und 10.2.2 beruhen auf einer durch den ZGWS begründbaren Normalverteilung der Stichprobensumme bzw. des Stichprobenmittels. Ist die Stichprobe

10.2 Intervallschätzung

| 553

für eine gute Approximation noch zu klein, so ist das berechnete Intervall aus den gleichen Gründen wie im vorherigen Punkt zu kurz oder zu lang, da die Verwendung der Normalverteilungsquantile noch nicht gerechtfertigt ist. Das vorgegebene Konfidenzniveau wird deshalb i.d.R. nicht eingehalten. Den Ausführungen zur Approximationsgüte von Abschnitt 7.4.2 folgend, hängt die Güte der Approximation maßgeblich von der Ausgangsverteilung ab. Dabei wird umso schneller eine hohe Approximationsgüte erzielt, je ähnlicher die Ausgangsverteilung bereits der Normalverteilung ist. In den meisten Fällen sollten die hier vorgeschlagenen Empfehlungen n ≥ 30 bzw. n0 , n1 ≥ 30 eine ausreichend gute Approximationsgüte gewährleisten. • Unabhängig vs. abhängig • Auch bei abhängigen, identisch verteilten Stichprobenvariablen kann das Stichprobenmittel immer noch ein konsistenter Schätzer für den Erwartungswert sein. Theoretische Resultate hierzu liefern GGZ-Varianten für a.i.v.-Schemata (abhängig identisch verteilt). Diese werden besonders bei der Modellierung von Zeitreihendaten häufig verwendet werden, da dort die Unabhängigkeitsannahme meist unrealistisch erscheint (vgl. Abschnitt 9.2). Erwartungstreu ist das Stichprobenmittel gemäß Resultat (7.4.15) auf jeden Fall. Selbst bei Abhängigkeit ist es deshalb möglich, dass das Konfidenzintervall im Durchschnitt richtig zentriert liegt. Allerdings weist es aufgrund der anders gearteten Varianz des Stichprobenmittels gemäß (10.2.46) bei irrtümlicher Unterstellung von Unabhängigkeit die falsche Länge auf und hält das vorgegebene Niveau i.d.R. nicht ein. Ist die Abhängigkeit „zu stark“ ausgeprägt, kann sogar die Konsistenzeigenschaft des Stichprobenmittels verloren gehen und das Konfidenzniveau weit unterhalb dem vorgegebenen liegen. Wir machen uns dies kurz an einem Extrembeispiel klar. Angenommen, im Rahmen einer Anteilsschätzung seien X1 , . . . , X n ∼ B(1, π)-verteilt, wobei X1 = X2 = ⋅ ⋅ ⋅ = X n gelte. Da alle Stichprobenvariablen stets übereinstimmen sind diese „maximal abhängig“. Gleichwohl sind die Variablen identisch verteilt. Allerdings kann das Stichprobenmittel aufgrund dessen nur noch die beiden Werte 1 und 0 annehmen. Dabei gilt: P(X = 1) = P(X1 = 1) = π,

P(X = 0) = P(X1 = 0) = 1 − π

und infolgedessen auch P(X(1 − X) = 0) = 1. Somit kann selbst in großen Stichproben kein sinnvolles Konfidenzintervall mehr konstruiert werden. Das „approximative Intervall“ besteht entweder nur aus dem Wert 0 oder 1. Für 0 < π < 1 enthält dieses „Intervall“ den wahren Parameterwert sogar mit Sicherheit nicht. Somit ist gerade im Kontext sog. Quasi-Stichproben stets zu hoffen, dass etwaige nicht berücksichtigte Abhängigkeiten nur schwach ausgeprägt sind und das Konfidenzniveau nur leicht verfälscht wird.

554 | 10 Statistisches Schätzen

Sofern in Beispiel 9.1.1 (fortgesetzt in Beispiel 10.2.5) bei der Befragung zur Mensa etwa nebeneinander Studierende befragt werden, könnte es passieren, dass diese nicht mehr ganz unabhängig voneinander antworten. Allerdings kann hier auch ohne Expertenwissen eine stark verfälschende Abhängigkeit sicherlich ausgeschlossen werden. Auch in Beispiel 9.1.2 (Gepäckabfertigungszeiten) ist denkbar, dass aufeinander folgende Zeiten positiv korreliert sein könnten. Eine Möglichkeit, diese Abhängigkeit zu verhindern oder wenigstens zu reduzieren, bestünde darin, zwischen einzelnen Messungen zeitliche oder örtliche Sprünge einzubauen und nicht einfach hintereinander in der Warteschlange stehende Reisende zu erfassen. Im Rahmen des kontrollierten Pflanzenexperiments von Beispiel 9.1.3 könnte Abhängigkeit durch gegenseitige positive oder negative Beeinflussung der einzelnen Pflanzen dadurch entstehen, dass diese zu dicht nebeneinander platziert werden. Unter Verwendung von Expertenwissen muss hier ein geeignetes Versuchsdesign solche Effekte ausschließen. • Homoskedastizität vs. Heteroskedastizität • Besitzen alle Stichprobenvariablen die gleiche Varianz, spricht man von Homoskedastizität, andernfalls von Heteroskedastizität. Die korrespondierenden Adjektive zu diesen Eigenschaften lauten homoskedastisch bzw. heteroskedastisch. Diese Begriffe, die in der Regressionstheorie besonders verbreitet sind (Kapitel 12), sind nicht zwingend an eine Normalverteilungsannahme gebunden. Die Annahme einer homoskedastischen Varianz erscheint in vielen Fällen unrealistisch, da mit zunehmendem Niveau der Daten in der Regel eine größere Streuung verbunden ist. Mithilfe eines speziellen F-Tests (vgl. etwa Schira [2012, Abschnitt 15.8]) lässt sich statistisch überprüfen (testen), ob die Annahme einer homoskedastischen Varianz plausibel ist oder nicht. Im Pflanzenexperiment von Beispiel 9.1.3 könnte man etwa erwarten, dass die Varianz in der Gruppe der größeren Pflanzen größer ist als diejenige in der Gruppe der kleineren Pflanzen. Ähnliche Sachverhalte könnten sich beispielsweise im Rahmen eines Einkommensvergleichs von abhängig Beschäftigten mit Abitur und solchen ohne Schulabschluss ergeben. • Nichtstochastische vs. stochastische Gruppenumfänge • Erwartungswertdifferenzen lassen sich auch dann statistisch analysieren, falls sich die beiden Gruppenumfänge n0 und n1 zufällig ergeben. Dabei können die in Satz 10.2.2 aufgestellten Formeln für die verschiedenen Fälle (i) bis (iv) unverändert verwendet werden. Es ändert sich im Grunde nur die modelltheoretische Beschreibung. Dies sei im Folgenden nur kurz skizziert. Auf detaillierte Beweisführungen wird verzichtet. Allerdings ergibt sich ein direkter Bezug zur einfachen Regression mit binärem Regressor. Hierzu beachte man die Ausführungen in Abschnitt 12.1.4. Angenommen, es soll das Einkommen männlicher und weiblicher Angestellter in einer bestimmten Branche miteinander verglichen werden. Dazu wird nun eine

10.2 Intervallschätzung

| 555

Stichprobe von Angestellten dieser Branche gezogen, wobei sich allerdings erst im Rahmen der Stichprobe das Geschlecht einer gezogenen Person ergibt. Im Rahmen einer statistischen Modellierung wird man dies nun mit einer zweidimensionalen Stichprobe berücksichtigen. Dabei bezeichnet X das Geschlecht und Y das Einkommen einer zufällig gezogenen Person, wobei X = 0 beispielsweise für männlich und X = 1 für weiblich steht. Somit genügt X einer B(1, π)-Verteilung, wobei π = P(X = 1) den Anteil der weiblichen Angestellten in der Grundgesamtheit darstellt. Die Stichprobe besteht dann aus n zweidimensionalen Stichprobenvariablen (X 1 , Y1 ), (X2 , Y2 ), . . . , (X n , Y n ), die (beispielsweise) unabhängig und identisch wie (X, Y) verteilt sind. Gilt dann etwa auch Y|X = 0 ∼ N(μ0 , σ20 )

und

Y|X = 1 ∼ N(μ1 , σ21 ),

d.h. ist Y bedingt auf X = 0 bzw. X = 1 jeweils normalverteilt, kann die zu Fall (i) korrespondierende Formel von Satz 10.2.2 unverändert verwendet werden. Man beachte, dass hierbei dann gemäß Notation gilt: μ0 = E(Y|X = 0),

σ20 = Var(Y|X = 0),

μ1 = E(Y|X = 1),

σ21 = Var(Y|X = 1).

Das Konfidenzintervall bezieht sich somit auf die Differenz der bedingten Erwartungswerte anstelle auf die Differenz „gewöhnlicher“ (unbedingter) Erwartungswerte bei nichtstochastischen Stichprobenumfängen. Zur Berechenbarkeit muss einzig vorausgesetzt werden, dass die Realisationen n0 und n1 der stochastischen Umfänge N0 bzw. N1 jeweils positiv sind. Es muss also gelten: n

n

N1 = ∑ X i ≥ 1 i=1

und

N0 = ∑ (1 − X i ) ≥ 1. i=1

Sofern die bedingten Varianzen unbekannt, aber gleich groß sind (bedingte Homoskedastizität), kann gemäß der Formel nach Fall (ii) verfahren werden, wobei dann zur Berechenbarkeit die jeweiligen Gruppenumfänge in der Summe mindestens 3 betragen müssen. In den Fällen (iii) und (iv) ist die zusätzliche Konvergenzannahme bei nichtstochastischen Gruppenumfängen n1 n→∞ 󳨀󳨀󳨀󳨀󳨀→ π ∈ (0, 1) n hinfällig. Stattdessen gilt gemäß GGZ für π ∈ (0, 1): N1 p 1 n 󳨀󳨀→ π > 0. ∑ Xi = n i=1 n Insofern müssen zur Gültigkeit der approximativen Intervalle lediglich die trivialen Fälle π = 0 und π = 1 ausgeschlossen werden.

556 | 10 Statistisches Schätzen

Abb. 10.2.11: Nichtstochastische vs. stochastische Gruppenumfänge

Bei der Modellierung mit stochastischen Stichprobenumfängen kann also im Allgemeinen weiterhin mit einem u.i.v.-Schema gearbeitet werden. Die Bildung der Gruppen kommt dabei über die Betrachtung bedingter Verteilungen zustande. Abbildung 10.2.11 illustriert das Ganze. Bei stochastischen Umfängen lässt sich die Verteilung von Y als Mixturverteilung (Abschnitt 8.1.3) der bedingten Verteilungen von Y unter X = 1 und Y unter X = 0 mit den Mischungsanteilen π bzw. 1 − π interpretieren. Bei nichtstochastischen Umfängen sind die Werte des gruppenbildenden Merkmals X hingegen determiniert. Prinzipiell könnte man dies auch als zweidimensionales Problem auffassen, wobei man dann (x1 , Y1 ), (x2 , Y2 ), . . . , (x n , Y n ) notieren würde; die Kleinschreibweise steht dabei für nichtzufällige Werte. Die einzelnen Vektoren sind hierbei heterogen verteilt, da die x i -Werte in der Regel nicht alle identisch sind. In der Situation von Beispiel 10.2.3 würde gemäß dieser Sichtweise dann gelten: x1 = x2 = x3 = 0, x4 = x5 = x6 = 1 und Y1 = Y01 , Y2 = Y02 , . . . , Y6 = Y13 .

10.3 Schätzmethoden

Die Momentenmethode basiert auf dem GGZ und ist in einfachen Modellen häufig die intuitivste Schätzmethode. Die Maximum-Likelihood-Methode wählt als Schätzung denjenigen Parameterwert, unter dem die Beobachtungen am wahrscheinlichsten erscheinen. Darüber hinaus gibt es noch viele weitere Schätzmethoden, wie etwa die Bayes-Methode oder die Kleinste-Quadrate-Methode. Teils können unterschiedliche Methoden zu identischen oder sehr ähnlichen Schätzergebnissen führen.

10.3 Schätzmethoden | 557

10.3.1 Momentenmethode • Allgemeiner Ansatz • Die Momentenmethode basiert darauf, dass die stochastischen Momente (Stichprobenmomente) gemäß GGZ stochastisch gegen die korrespondierenden theoretischen Momente konvergieren (Satz 8.2.4). Für eine u.i.v.Stichprobe X1 , . . . , X n gilt also: 1 n m p ∑ X 󳨀󳨀→ E(X im ) n i=1 i

für m ≤ k, wobei k, m ∈ ℕ,

sofern das k-te Moment endlich ist. Bei vielen (parametrischen) Schätzproblemen lassen sich die theoretischen Momente als Funktionen der zu schätzenden Parameter darstellen. Im Rahmen der Momentenmethode werden diese funktionalen Beziehungen nach den interessierenden Parametern umgestellt und die Parameter so in Abhängigkeit der theoretischen Momente dargestellt. Sofern dies möglich ist, werden im zweiten Schritt die theoretischen Momente durch die korrespondierenden Stichprobenmomente ersetzt. Die Konsistenz der daraus resultierenden und als Momentenschätzer bezeichneten Funktionen lässt sich mithilfe des GGZ und des Stetigkeitssatzes (Satz 8.3.3) begründen. Stelle, sofern möglich, zunächst die zu schätzenden Parameter als Funktionen theoretischer Momente dar. Ersetze dann letztere durch die korrespondierenden Stichprobenmomente. • Beispiel 10.3.1: Exponentialverteilung • Angenommen, X1 , . . . , X n seien unabhängig Exp(λ)-verteilt. Es soll der Parameter λ geschätzt werden. Bekanntlich gilt nun (Abschnitt 7.3.2): E(X i ) = 1/λ. Durch Umstellen erhalten wir λ = 1/E(X i ). Damit lautet der resultierende Momentenschätzer ̂λ MM = 1/X. • Beispiel 10.3.2: Schätzung von μ und σ2 • Mit der Momentenmethode lassen sich auch bereits bekannte und hergeleitete Resultate nochmals bestätigen. Sind X1 , . . . , X n u.i.v. mit Erwartungswert μ und Varianz σ2 und sollen beide Parameter geschätzt werden, so beginnen wir mit dem Aufstellen der beiden Momentengleichungen: (i) E(X i ) = μ, (ii) E(X 2i ) = σ2 + μ2 .

558 | 10 Statistisches Schätzen

In Gleichung (i) ist μ als Funktion des ersten theoretischen Moments bereits dargestellt. Gleichung (ii), die sich mit dem Verschiebungssatz für die theoretische Varianz (7.2.15) ergibt, wird nach σ2 aufgelöst. Dies ergibt dann σ2 = E(X 2i ) − μ2 = E(X 2i ) − (E(X i ))2 . Als Momentenschätzer resultieren daraus somit ̂ MM = X μ

und

̂ 2MM = σ

1 n 2 2 ∑ X − X = S̃ 2 . n i=1 i

• Beispiel 10.3.3: Approximatives Konfidenzintervall für die Varianz • Im Folgenden leiten wir ein approximatives Konfidenzintervall für die theoretische Varianz her. Basierend auf einem ZGWS-Resultat, stützt sich dies auf die sehr gebräuchliche Konstruktionsregel Schätzwert ± Quantil ⋅ (geschätzter) Standardfehler. Dabei wird zur Schätzung des Standardfehlers die Momentenmethode verwendet. Angenommen, die Stichprobenvariablen X1 , . . . , X n sind u.i.v. mit E(X i ) = μ und 0 < Var(X i ) = σ2 < ∞. Dann folgt mit Satz 7.1.5, dass auch die transformierten Größen (X1 − μ)2 , . . . , (X n − μ)2 u.i.v. sind mit E[(X i − μ)2 ] = σ2 und Var[(X i − μ)2 ] = E[(X i − μ)4 ] − [E(X i − μ)2 ]

2

Letztere Umformung ergibt sich durch Anwendung des Verschiebungssatzes auf das zweite zentrierte Moment. Hier müsste man endliche vierte Momente voraussetzen. Setzen wir nun μ∗4 = E[(X i − μ)4 ], erhalten wir über den gewöhnlichen ZGWS das Verteilungsresultat √n(

1 n a ∑ (X i − μ)2 − σ2 ) ∼ N(0, μ∗4 − σ4 ). n i=1

(10.3.1)

Dies impliziert auch √n(S̃ 2 − σ2 ) = √n(

1 n a ∑ (X i − X)2 − σ2 ) ∼ N(0, μ∗4 − σ4 ). n i=1

(10.3.2)

Die nichtkorrigierte Stichprobenvarianz ist somit asymptotisch normalverteilt. Zum Beweis von Resultat (10.3.2), können wir zunächst die folgenden beiden Resultate nutzen: a

√n(X − μ) ∼ N(0, σ2 ) und p

X − μ 󳨀󳨀→ 0.

(10.3.3) (10.3.4)

10.3 Schätzmethoden | 559

Ersteres Resultat folgt mit dem ZGWS, letzteres mit dem GGZ. Mit (8.2.7) aus Slutsky’s Theorem (Satz 8.2.5) implizieren (10.3.3) und (10.3.4) zusammen p

√n(X − μ)2 = √n(X − μ)(X − μ) 󳨀󳨀→ 0.

(10.3.5)

Weiter lässt sich die in (10.3.1) aufgestellte Statistik wie folgt umschreiben: √n(

1 n 1 n 2 2 ∑ (X i − μ)2 − σ2 ) = √n([ ∑ X 2i − 2μX + μ2 ] − σ2 + [−X + X ]) n i=1 n i=1 = √n(

1 n 2 2 ∑ X − X − σ2 ) + √n(X − μ)2 n i=1 i

= √n(S̃ 2 − σ2 ) + √n(X − μ)2 Aufgrund der Gültigkeit von (10.3.1) und (10.3.5) folgt nun durch erneute Anwendung von Slutsky’s Theorem Resultat (10.3.2). Dazu nutzt man (8.2.6), indem man Y n = √n(

1 n ∑ (X i − μ)2 − σ2 ), n i=1

A n = −√n(X − μ)2

und

Bn = 1

setzt. Basierend auf (10.3.2) kann man ein approximatives (1 − α)-Konfidenzintervall für σ2 herleiten: [S̃ 2 − z1−α/2 √

μ∗4 − σ4 ̃ 2 μ∗ − σ4 , S + z1−α/2 √ 4 ]. n n

(10.3.6)

Der Haken dabei ist freilich, dass die theoretischen Größen des Standardfehlers unbekannt sind und somit geschätzt werden müssen. Hierzu bietet sich nun die Momentenmethode an. Dazu stellen wir das vierte zentrierte Moment zunächst als Funktion der nichtzentrierten Momente dar. Dies ergibt: μ∗4 = E[(X i − μ)4 ] = E(X 4i ) − 4E(X 3i )μ + 6E(X 2i )μ2 − 4E(X i )μ3 + μ4 = E(X 4i ) − 4E(X 3i )μ + 6E(X 2i )μ2 − 3μ4 . Ein sinnvoller Momentenschätzer für μ∗4 lautet somit ̂ ∗4 = μ

1 n 4 4 n 3 6 n 1 n 2 4 ∑ X i − ∑ X i X + ∑ X 2i X − 3X = ∑ (X i − X)4 . n i=1 n i=1 n i=1 n i=1

(10.3.7)

Die theoretische Varianz σ2 wird gemäß dem vorhergehenden Beispiel durch die nichtkorrigierte Stichprobenvarianz geschätzt. Dies impliziert dann ̂ 4 = (S̃ 2 )2 . σ

(10.3.8)

Insgesamt erhalten wir somit als approximatives Intervall mit geschätztem Standardfehler: [S̃ 2 − z1−α/2 √

̂4 2 ̂4 ̂ ∗4 − σ ̂∗ − σ μ μ , S̃ + z1−α/2 √ 4 ]. n n

(10.3.9)

560 | 10 Statistisches Schätzen

10.3.2 Maximum-Likelihood-Methode • Vorbemerkung • Modellparameter sind häufig Erwartungswerte oder Varianzen einer vorgegebenen Verteilung oder können als Funktionen dieser Kennwerte ausgedrückt werden. Oft ist dann schon intuitiv klar, welche Schätzer in Frage kommen. Im Rahmen komplexerer Modelle ist jedoch nicht immer klar ersichtlich, wie bestimmte Parameter geschätzt werden können. Neben der Momentenmethode stellt die Maximum-Likelihood-Methode eine der gängigsten Konstruktionsmethoden dar, die ungeachtet der Komplexität eines vorgegebenen Modells im Allgemeinen zu sinnvollen Schätzern führt. Als Anwendungsbeispiele werden wir im Folgenden lediglich einfache Verteilungsmodelle heranziehen. Zum Verständnis ist dies jedoch unerheblich, da bei komplexeren statistischen Modellen analytische Berechnungen „von Hand“ ohnehin oft nicht mehr möglich sind. Hier müssen dann rechnergestützte numerische Verfahren weiterhelfen, wobei die eigentliche Schätzmethode jedoch die gleiche bleibt. Primäres Ziel im Folgenden ist also das Verständnis des methodischen Ansatzes. Die jeweils gewonnenen Ergebnisse werden indes wenig überraschen und Altbekanntes nur bestätigen. • Allgemeiner Ansatz • In Kapitel 6 wurde im Rahmen von Beispiel 6.2.6 bereits der Grundansatz des Maximum-Likelihood-Kalküls anhand der Wahrscheinlichkeiten für Zufallsereignisse vorgestellt. Diesen Ansatz gilt es nun auf statistische Verteilungen und parametrische Schätzprobleme zu übertragen. Stellen wir uns dazu zunächst folgende Situation vor. Es liege nur eine einzige Realisation einer diskreten Zufallsvariable X vor, von der wir wissen, dass sie einer von drei möglichen Verteilungen genügen muss. Wir wissen jedoch nicht welcher. Zur Wahl stehen dabei Verteilung 1: P(X = 1) = 0.5, P(X = 2) = 0.25, P(X = 3) = 0.25, Verteilung 2: P(X = 1) = 0.1, P(X = 2) = 0.1, P(X = 3) = 0.8, Verteilung 3: P(X = 1) = 0.5, P(X = 2) = 0.3, P(X = 3) = 0.2. Beobachten wir nun die Realisation x = 3, so vergleichen wir die Wahrscheinlichkeiten der drei Verteilungen an dieser Stelle. Demnach besitzt Verteilung Nr. 2 die höchste Wahrscheinlichkeit für diese Ausprägung. Es wäre somit plausibel auf diese Verteilung zu tippen. Lautet die Realisation hingegen x = 2, so käme am ehesten Verteilung Nr. 3 in Frage. Im Falle von x = 1 wäre man bei dieser Verfahrensweise indifferent zwischen den Verteilungen 1 und 3. Das Maximum-Likelihood-Prinzip ist wörtlich das Prinzip der größten Wahrscheinlichkeit. Gemäß diesem entscheidet man sich stets für diejenige Verteilung, unter der vorliegende Beobachtungswerte „am ehesten“ zustande kommen (am wahrscheinlichsten sind). Dieses Prinzip gilt es nun auf parametrische Schätzprobleme zu übertragen. Im Unterschied zum obigen Fall hängen die zur Wahl stehenden Verteilungen hier von einem zu schätzenden Verteilungsparameter direkt ab. Somit lautet die zu stellende Grundfrage:

10.3 Schätzmethoden | 561

Unter welchem Parameterwert sind die Beobachtungen am wahrscheinlichsten?

f 1(x)

Verteilung 1

f 2(x)

Verteilung 2

f 3(x)

1.0

1.0

1.0

0.8

0.8

0.8

0.6

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

0.0

0.0 0

1

2

x

3

4

Verteilung 3

0.0 0

1

2

x

3

4

0

1

2

x

3

4

Abb. 10.3.1: Drei zur Wahl stehende Verteilungen

• Beispiel 10.3.4: Schätzung von λ bei einer Poisson-Verteilung für n=1 • Abbildung 7.3.5 zeigt die Po(λ)-Verteilung für unterschiedliche Werte von λ. Angenommen, es liege nur eine einzige Realisation einer Po(λ)-Verteilung vor, wobei λ nicht bekannt ist. Für welche Verteilung würde man sich dann gemäß ML-Prinzip entscheiden? Tatsächlich lässt sich dies analytisch berechnen. Die Wahrscheinlichkeitsfunktion einer Po(λ)-verteilten Zufallsvariable X lautet λ x −λ für x = 0, 1, 2, . . . e x! Für n = 1 lautet somit die Grundfrage: Für welchen Wert von λ ist die Wahrscheinlichkeit λ x −λ e P(X = x) = x! am größten? Analytisch betrachten wir diese Wahrscheinlichkeit als Funktion von λ für vorliegendes x und maximieren diese bezüglich λ. Formal definiert man dazu die Funktion λ x −λ e , L(λ|x) = f X (λ|x) = x! die als Likelihood-Funktion bezeichnet wird. Zur einfacheren Bestimmung der Extremstellen verwenden wir die logarithmierte Form f X (x) =

l(λ|x) = ln L(λ|x) = x ln(λ) − ln(x!) − λ. Nach Ableiten, Nullsetzen der Ableitung und Auflösen nach λ ergibt sich dann ∂l(λ|x) x ! = − 1 = 0, ∂λ λ Der Schätzer für n = 1 lautet somit ̂λ ML = X.

also λ = x.

562 | 10 Statistisches Schätzen Die Poisson-Verteilung mit λ = x ist diejenige Verteilung, welche die Wahrscheinlichkeit von P(X = x) maximiert. Der allgemeine Fall n ≥ 1 wird später in Beispiel 10.3.7 behandelt. • Beispiel 10.3.5: Schätzung von μ bei einer Normalverteilung für n=1 • Abbildung 7.3.10 zeigt Dichtefunktionen der N(μ, 1)-Verteilung für unterschiedliche Werte von μ. Dieses Mal handelt es sich um eine stetige Verteilung. Angenommen, es liege wiederum nur eine einzige Realisation vor. Hier ist zu bedenken, dass Dichtewerte keine Wahrscheinlichkeiten sind und generell gilt: P(X = x) = 0

für jedes x ∈ ℝ.

Ungeachtet dessen erscheint es in einem solchen Kontext sinnvoll, diejenige Verteilung zu wählen, unter der eine Beobachtung den größten Dichtewert besitzt. Der entsprechende Kalkül ist somit im Prinzip der gleiche wie bei diskreten Verteilungen. Die Likelihood-Funktion im Rahmen einer Schätzung von μ für n = 1 lautet somit L(μ|x) =

1

exp(−

1 (x − μ)2 ). 2 σ2

√2πσ2 Aus Abbildung 7.3.10 ist leicht ersichtlich, dass diese Funktion für μ = x maximiert wird, da die Normalverteilung an der Stelle des Erwartungswerts die größte Dichte aufweist. Zur formalen Herleitung gehen wir aus den gleichen Gründen wie im vorhergehenden Beispiel zur Betrachtung der Log-Likelihood-Funktion 1 (x − μ)2 2 σ2 über. Ableiten, Nullsetzen und Auflösen nach μ ergibt dann l(μ|x) = ln L(μ|x) = −0.5 ln(2πσ2 ) − ∂l(μ|x) x − μ ! = = 0, ∂μ σ2

d.h. μ = x.

Der Schätzer für n = 1 lautet somit, wie ohnehin bereits klar war, ̂ ML = X. μ Der allgemeine Fall n ≥ 1 wird später in Beispiel 10.3.8 behandelt. • Beispiel 10.3.6: Schätzung von λ bei einer Exponentialverteilung für n=1 • Abbildung 7.3.9 zeigt Dichtefunktionen der Exp(λ)-Verteilung für unterschiedliche Werte von λ. Für n = 1 ergibt sich das ML-Kalkül analog wie in Beispiel 10.3.5. Für x > 0 erhält man hier L(λ|x) = λe−λx . Man beachte, dass die Annahme x > 0 keine Einschränkung darstellt, da wir x als realisierte Beobachtung interpretieren. Deshalb gilt ohnehin aufgrund der Stetigkeit der Verteilung: P(X > 0) = 1

und

P(X = 0) = 0.

10.3 Schätzmethoden | 563

Auch hier erweist sich wieder die Betrachtung der Log-Likelihood-Funktion l(λ|x) = ln(λ) − λx als vorteilhaft. Ableiten, Nullsetzen und Auflösen nach λ ergibt hier ∂l(λ|x) 1 ! = −x=0 ∂λ λ Der Schätzer für n = 1 lautet somit

λ=

und

1 . x

̂λ ML = 1/X. Der allgemeine Fall n ≥ 1 wird später in Beispiel 10.3.9 behandelt. • Beispiel 10.3.7: Schätzung von λ bei einer Poisson-Verteilung für n ≥1 • Liegen mehrere Beobachtungen x1 , . . . , x n vor, so ist entsprechend dem ML-Prinzip diejenige n-dimensionale Verteilung auszuwählen, für welche die gemeinsame Wahrscheinlichkeit P(X1 = x, X2 = x, . . . , X n = x) maximal ist. Für eine u.i.v.-Stichprobe X1 , . . . , X n aus einer Po(λ)-Verteilung erhält man die gemeinsame Einzelwahrscheinlichkeit als Produkt der Randeinzelwahrscheinlichkeiten, d.h. n

f X1 ...X n (x1 , . . . , x n ) = ∏ i=1

λ x i −λ e . xi !

Die zu maximierende Likelihood-Funktion lautet dann n

L(λ|x1 , . . . , x n ) = ∏ i=1

λ x i −λ e xi !

und die Log-Likelihood-Funktion entsprechend n

l(λ|x1 , . . . , x n ) = ∑ ln( i=1

n n λ x i −λ e ) = ln(λ) ∑ x i − nλ − ∑ ln(x i !). xi ! i=1 i=1

Ableiten, Nullsetzen und Auflösen nach λ ergibt dann ∂l 1 n ! (λ|x1 , . . . , x n ) = ∑ x i − n = 0 ∂λ λ i=1

und

λ = x.

Der Schätzer für n ≥ 1 lautet somit ̂ ML = X. μ Da der Erwartungswert der Verteilung dem Parameterwert λ entspricht, ist das Ergebnis überaus plausibel. Der Schätzer ist erwartungstreu und gemäß GGZ konsistent. • Beispiel 10.3.8: Schätzung von μ und σ2 bei einer Normalverteilung für n ≥1 • Sind X1 , . . . , X n unabhängig N(μ, σ2 )-verteilt und beide Parameter unbekannt, dann

564 | 10 Statistisches Schätzen

lautet die Likelihood-Funktion für gegebene Realisationen x1 , . . . , x n : n

L(μ, σ2 |x1 , . . . , x n ) = ∏ i=1

1 √2πσ2

exp(−

1 (x i − μ)2 ). 2 σ2

Sie ergibt sich aus dem gemeinsamen Produkt aller Randdichten. Alternativ lässt sich die Funktion auch schreiben als L(μ, σ2 |x1 , . . . , x n ) = (2πσ2 )−n/2 exp(−

1 n ∑ (x i − μ)2 ). 2σ2 i=1

Die Log-Likelihood-Funktion ist dann l(μ, σ2 |x1 , . . . , x n ) = −

n 1 n n ln(2π) − ln(σ2 ) − ∑ (x i − μ)2 . 2 2 2σ2 i=1

Im Falle mehrerer Parameter werden die ersten partiellen Ableitungen berechnet und gleich Null gesetzt. Im vorliegenden Fall ergibt dies ∂l 1 n 1 n nμ ! (μ, σ2 |x1 , . . . , x n ) = 2 ∑ (x i − μ) = 2 ∑ x i − 2 = 0 und ∂μ σ i=1 σ i=1 σ n 1 n ∂l ! 2 (μ, σ |x , . . . , x ) = − + ∑ (x i − μ)2 = 0. 1 n ∂σ2 2σ2 2σ4 i=1

(i) (ii)

Hierzu beachte man, dass in (ii) nach σ2 abgeleitet wird und nicht etwa nach σ. Diese sog. Likelihood-Gleichungen formen nun ein Gleichungssystem mit den zwei zu schätzenden Parametern als unbekannte Größen. Das Lösen der ersten Gleichung führt dabei zu μ = x. Setzt man dies in (ii) ein, erhält man −

1 n n ! + ∑ (x i − x)2 = 0. 2σ2 2σ4 i=1

Auflösen nach σ2 ergibt dann σ2 =

1 n ∑ (x i − x)2 . n i=1

Die ML-Schätzer für μ und σ2 lauten somit ̂ ML = X μ

bzw.

̂ 2ML = σ

1 n ∑ (X i − X)2 = S̃ 2 . n i=1

Auch diese Ergebnisse sind überaus plausibel. Beide Schätzer sind konsistent. In letzterem Fall stimmt der Schätzer mit dem Momentenschätzer (Beispiel 10.3.2) überein, ist jedoch nicht erwartungstreu. Nebenbei bemerkt, erhält man für n = 1 als MLSchätzung für σ2 den Wert 0, was für eine „normale“ Normalverteilung zwar keinen

10.3 Schätzmethoden | 565

zulässigen Wert darstellt, dennoch aber das formal korrekte und an sich sinnvolle Schätzergebnis.

−3

0. 01

0.0

6

0.1 0.03

−3 −2 −1

0.07

1

x1

2

3

8) 7 0.0

0.1 1

0.04

0.01

2 0.0

−2

0.01

−3 0

01

0.14

0.13 0.09

) .8

x 2 −1

0.03

−2

5 0.0

0

6 0.0

0.1

0.0 6

(1 .2 ,− 0.

0.12

1

0.1

0. 09

8)

0

x 2 −1

0.13 0.0 9

0.11 2 0.0

−2

08 0.

7 0.0 0.12

0

x 2 −1

1

0.04

(1 .2 ,− 0.

2

0.0

0.05 0.04 0. 08 0.13

0.

0.03

5

0.0

2

0.08

0.01

1

3 0.02

(1 .2 ,− 0

2

2 0.0

3

2

) .2 ,0 .2 (0

3

−3 −3 −2 −1

0

1

x1

2

3

−3 −2 −1

0

1

x1

2

3

Abb. 10.3.2: ML-Schätzung von μ bei Vorliegen von zwei Beobachtungen

Abbildung 10.3.2 illustriert die ML-Schätzung für μ bei Vorliegen von zwei Beobachtungswerten x1 = 1.2 und x2 = −0.8. Da wir von unabhängigen jeweils N(μ, σ2 )verteilten Stichprobenvariablen X1 und X2 ausgehen, ist die Gestalt der gesuchten gemeinsamen Dichte sphärisch (unkorreliert und gleiche Varianzen). Ohne Einschränkung können wir zur Illustration σ2 = 1 annehmen, da die Varianz den Schätzwert für μ nicht beeinflusst. Aufgrund des identischen Erwartungswerts muss die maximierende Dichte auf der Winkelhalbierenden, x2 = x1 , zentriert liegen, sprich den Erwartungswertvektor (μ, μ)T aufweisen. Für ̂ ML = X = 0.5(1.2 − 0.8) = 0.2 μ erhält man für den Beobachtungspunkt (1.2, −0.8)T als dichtemaximierende bivariate Normalverteilung diejenige mit Erwartungswert (0.2, 0.2)T . Geometrisch betrachtet, ist dies diejenige Verteilung, die den euklidischen Abstand zwischen (μ, μ)T und (1.2, −0.8)T minimiert. • Beispiel 10.3.9: Schätzung von λ bei einer Exponentialverteilung für n ≥1 • Sind X1 , . . . , X n unabhängig Exp(λ)-verteilt, so lautet die Likelihood-Funktion n

n

i=1

i=1

L(λ|x1 , . . . , x n ) = ∏ λe−λx i = λ n exp(−λ ∑ x i ). Die Log-Likelihood-Funktion ergibt sich dann als n

l(λ|x1 , . . . , x n ) = n ln(λ) − λ ∑ x i . i=1

Ableiten, Nullsetzen und Auflösen nach λ ergibt n ∂l n ! (λ|x1 , . . . , x n ) = − ∑ x i = 0 ∂λ λ i=1

und

λ=

1 . x

566 | 10 Statistisches Schätzen Der Schätzer für n ≥ 1 lautet somit ̂λ ML = 1/X. Dies deckt sich mit dem Ergebnis der Momentenmethode in Beispiel 10.3.1. • Abschließende Bemerkungen • Die Likelihood-Gleichungen sind im Falle mehrerer Parameter analytisch nicht immer lösbar. Dann müssen rechnergestützte numerische Verfahren die Gleichungssysteme lösen. Zu bemerken ist außerdem, dass die ML-Methode nicht immer zu eindeutigen Lösungen führt. Theoretisch lässt sich zeigen, dass unter der Gültigkeit bestimmter Annahmen, welche auch als Regularitätsbedingungen bezeichnet werden, die ML-Methode asymptotisch zu effizienten Schätzungen führt (vgl. etwa Knight [2000, Kapitel 6]. Dies bedeutet, dass die ML-Schätzer konsistent sind und für wachsenden Stichprobenumfang unter allen Schätzern die kleinsten Varianzen aufweisen. Sie sind unter gewissen Bedingungen also optimal. In den vorhergehenden Beispielen stimmen die ML-Schätzer mit den Momentenschätzern stets überein. Daraus sollte jedoch keine feste Regel abgeleitet werden. Gerade bei komplexen statistischen Modellen können die beiden Methoden zu recht unterschiedlichen Ergebnissen führen.

10.3.3 Weitere Schätzmethoden • Bayes-Methode • Wie das ML-Kalkül wurde auch das Bayes-Kalkül bereits in Beispiel 6.2.6 vorgestellt. Zur Übertragung dieses Ansatzes auf parametrische Schätzprobleme können wir zur Einführung wiederum die Situation von Abbildung 10.3.1 betrachten. Allerdings belegen wir die Verteilungen nun mit einer „subjektiven Vorahnung“. Dabei ordnen wir den drei möglichen Verteilungen von vornherein (a priori) Wahrscheinlichkeiten zu. Diese können sich auf subjektive Einschätzungen oder empirische Vorerfahrungen stützen und ausdrücken aus, wie wahrscheinlich das Auftreten der verschiedenen Verteilungen vor der eigentlichen Datenerhebung eingeschätzt wird. Dies bewerkstelligen wir im vorliegenden Beispiel über einen „künstlichen“ Parameter θ, wobei θ = 1 für Verteilung 1, θ = 2 für Verteilung 2 und θ = 3 für Verteilung 3 steht. Für das Beispiel setzen wir: P(θ = 1) = 0.6, P(θ = 2) = 0.1, P(θ = 3) = 0.3. Diese auf den Parameter θ bezogene Verteilung heißt dann A-priori-Verteilung. Gemäß dem Bayes-Kalkül entscheidet man sich dann für denjenigen Parameterwert, der unter gegebenen Beobachtungen am wahrscheinlichsten ist. Die zu stellende Grundfrage lautet jetzt also:

10.3 Schätzmethoden | 567

Welcher Parameterwert ist unter den Beobachtungen am wahrscheinlichsten? Beobachten wir etwa x = 3, so vergleichen wir die drei Wahrscheinlichkeiten der als A-posteriori-Verteilung bezeichneten bedingten Verteilung von θ unter X = 3: 0.15 P(X = 3|θ = 1)P(θ = 1) 0.25 ⋅ 0.6 = = , P(X = 3) P(X = 3) P(X = 3) 0.08 P(X = 3|θ = 2)P(θ = 2) 0.8 ⋅ 0.1 = = , P(θ = 2|X = 3) = P(X = 3) P(X = 3) P(X = 3) P(X = 3|θ = 3)P(θ = 3) 0.2 ⋅ 0.3 0.06 P(θ = 3|X = 3) = = = . P(X = 3) P(X = 3) P(X = 3)

P(θ = 1|X = 3) =

Für X = 3 ist somit θ = 1 am wahrscheinlichsten. Man beachte, dass die Wahrscheinlichkeit von X = 3 dabei unerheblich ist. Gleichwohl lässt sich diese hier berechnen als 3

P(X = 3) = ∑ P(X = 3|θ = i)P(θ = i) = 0.15 + 0.08 + 0.06 = 0.29. i=1

Analog erscheint auch unter x = 2 und x = 1 der Zustand θ = 1 am wahrscheinlichsten. Damit erhält man also überwiegend andere Ergebnisse als zuvor bei der MLMethode. Übertragen auf typische Schätzprobleme, gestaltet sich der mit der BayesMethode einhergehende Rechenapparat häufig als recht aufwendig. Auf detaillierte Beispiele hierzu wird verzichtet. Eine umfassende Behandlung Bayes’scher Methodik bieten beispielsweise Gelman et al. [2014]. • Kleinste-Quadrate-Methode • Vor allem zur Schätzung der Regressionskoeffizienten in einem Regressionsmodell spielt die Kleinste-Quadrate-Methode eine herausragende Rolle. Nähere Ausführungen hierzu finden sich in Kapitel 12.

11 Statistisches Testen In Abschnitt 11.1 wird anhand von Beispielen das Grundkonzept und die Grundstruktur statistischer Tests vorgestellt. Die wichtigsten Begriffe werden dabei bereits sukzessive eingeführt und erklärt. In Abschnitt 11.2 befassen wir uns dann vertiefend mit einigen besonders wichtigen Aspekten der Testtheorie. Abschließend werden in Abschnitt 11.3 wichtige und weit verbreitete Standardtests vorgestellt.

11.1 Was versteht man unter einem Test?

Ausgangspunkt eines jeden Tests ist ein Testproblem. Ein Testproblem ist ein statistisches Problem in Form eines Entscheidungsproblems. Dabei muss zwischen zwei sich gegenseitig ausschließenden Aussagen in Bezug auf eine zugrunde gelegte reale oder hypothetische Grundgesamtheit eine Entscheidung gefällt werden. Im Rahmen eines geeigneten statistischen Modells lassen sich diese beiden Alternativen, auch Hypothesen genannt, häufig mittels bestimmter Modellparameter ausdrücken. Ein statistischer Test ist dann eine auf einer Stichprobe basierende formale Entscheidungsregel, die stets zugunsten einer der beiden Hypothesen eine Entscheidung herbeiführt.

11.1.1 Einführende Beispiele • Vorbemerkung • In Abschnitt 9.1 wurden bereits Grundzüge des Testens anhand von Beispielen angedeutet. Dies soll in diesem Abschnitt nun etwas detaillierter fortgesetzt werden, wobei die wichtigsten Grundbegriffe der Testtheorie eingeführt werden. Besonders wichtige Aspekte werden dann später in Abschnitt 11.2 nochmals separat behandelt. • Beispiel 11.1.1: Raten vs. Wissen • Angenommen, eine Multiple-Choice-Klausur besteht aus 30 Aussagen, die entweder richtig oder falsch sind. Falls nun ein Student 19 dieser Fragen korrekt und 11 Fragen falsch beantwortet, wie ist dann eine solche Leistung einzustufen? Zunächst einmal ist klar, dass die korrekte Bearbeitung einer Frage keine Garantie dafür ist, dass der Student die Antwort tatsächlich auch gewusst hat. Er könnte nur zufällig richtig geraten haben. Sofern der Student tatsächlich eine Antwort rät, liegt er mit 50% Wahrscheinlichkeit richtig. Somit kann es natürlich keine ausreichende Leistung sein, wenn ein Student beispielsweise die Hälfte aller Fragen richtig bearbeitet und die andere Hälfte falsch. Die Frage, die sich im vorliegenden Fall nun stellt, ist, ob 19 richtige Antworten bei 30 gestellten Fragen bereits genügend viele sind, um zumindest pures Raten ausschließen zu können. Somit liegt ein Entscheidungsproblem zwischen „Raten“ und „Wissen“ vor. https://doi.org/10.1515/9783110744194-011

11.1 Was versteht man unter einem Test? | 569

Eines ist jedoch bereits jetzt schon klar: Wie auch immer die Entscheidung am Ende ausfallen wird, unterliegt sie der Gefahr eines Irrtums. Denn auch ein Student, der die eine Hälfte richtig und die andere Hälfte falsch bearbeitet, kann ja tatsächlich etwas gewusst haben. Andererseits ist es theoretisch möglich, dass ein Student alleine durch Raten alle 30 Fragen korrekt beantwortet, wenngleich die Wahrscheinlichkeit dafür auch nur klein sein mag. Somit existiert keine absolut sichere Entscheidung, sofern sich diese nur auf die beobachteten Daten (Anzahl korrekter und falscher Antworten) stützt. Das Ziel eines statistischen Testverfahrens besteht nun im Wesentlichen darin, die Wahrscheinlichkeit einer falschen Entscheidung möglichst klein zu halten. Wie könnte das im vorliegenden Fall funktionieren? Der erste Schritt zur Beantwortung dieser Fragen besteht darin, ein geeignetes statistisches Modell zu finden, in welches die gesamte Problemstellung eingebettet und gelöst werden kann. Gegeben seien die Antworten eines dem Prüfer nicht bekannten Studenten, die man sich als Ergebnisse von Bernoulli-verteilten Zufallsvariablen vorstellen kann: Wir erinnern uns, dass diese lediglich die Werte 0 oder 1 annehmen können. Dabei könnte 0 beispielsweise für „falsch bearbeitet“ und 1 für „richtig bearbeitet“ stehen. Werden insgesamt 30 Fragen beantwortet, so lässt sich dies dann über B(1, π)-verteilte Zufallsvariablen X1 , . . . , X30 modellieren, wobei der Parameter π der Wahrscheinlichkeit einer richtigen Beantwortung entspricht. Nehmen wir zusätzlich noch an, dass die einzelnen Fragen unabhängig voneinander bearbeitet werden, lautet der vollständige Modellansatz: X1 , . . . , X30 sind unabhängige B(1, π)-verteilte Zufallsvariablen. Für einen ausschließlich ratenden Studenten, der jede einzelne Frage quasi durch Werfen einer Münze („Kopf“ für „richtig“ und „Zahl“ für „falsch“) bearbeitet, gilt dann π = 0.5. Aus Sicht des Prüfers ist ein Student nur dann besser als ein ratender Student, falls π > 0.5 als Hypothese plausibel erscheint. Ein wissender Student muss „langfristig“ also mehr als die Hälfte aller Aufgaben richtig bearbeiten. Die Entscheidungsalternativen lauten somit: Raten: π = 0.5 versus (vs.) Wissen: π > 0.5. Diese zwei Entscheidungsalternativen heißen in der statistischen Testtheorie Nullhypothese, kurz H0 , und Alternativhypothese oder Alternative, kurz H1 . Kurz notiert man das mit H0 : π = 0.5

vs.

H1 : π > 0.5.

Für den Prüfer ist es zunächst am wichtigsten zu vermeiden, dass ein ausschließlich ratender Student als wissend eingestuft und belohnt wird. Formal ausgedrückt möchte er sich also nicht irrtümlich für H1 entscheiden, falls in Wirklichkeit H0 vorliegt. Die ausschlaggebende Statistik, anhand derer in diesem Fall die Entscheidung gefällt

570 | 11 Statistisches Testen

wird, ist die Summe aller korrekt bearbeiteten Aufgaben, also 30

S30 = ∑ X i . i=1

Sofern H0 zutrifft, d.h. π = 0.5 wahr ist, gilt: S30

π=0.5



B(30, 0.5).

Die Anzahl richtiger Antworten eines ausschließlich ratenden Studenten ist B(30, 0.5)-verteilt. Das linke Schaubild von Abbildung 11.1.1 illustriert diese Verteilung. S 30

P (S 30 = s )

Anzahl richtiger Antworten

0.15 0.10

95.1%

30 25 20 15 10 5 0

4.9%

0.05 0.00 0

5

10

15

s

20

25

30

Verwerfung von H 0

Beibehaltung von H 0 0

20

40

60

80

100

Student Nr.

Abb. 11.1.1: Einseitiger oberer Binomialtest – Testverteilung und Simulation

Die Wahrscheinlichkeit, dass durch pures Raten beispielsweise mehr als 19 Fragen richtig beantwortet werden, ergibt sich aus der Summe der Einzelwahrscheinlichkeiten der Trägerpunkte von 20 bis 30 und beträgt gerundet 4.9%. Wir sehen, dass durch pures Raten jede noch so große Anzahl richtiger Antworten mit positiver Wahrscheinlichkeit realisiert werden kann. Im Entscheidungszwang zwischen H0 und H1 ist es dann naheliegend, sich erst dann für H1 (Wissen) zu entscheiden, wenn H0 sehr unwahrscheinlich erscheint. Legt der Prüfer beispielsweise fest, dass erst ab 20 richtig bearbeiteten Fragen Wissen unterstellt wird, so beträgt die Wahrscheinlichkeit einer Fehlentscheidung knapp 5%. Genauer gesagt ist dies die Wahrscheinlichkeit irrtümlich Wissen zu unterstellen, falls tatsächlich nur geraten wurde. Das rechte Schaubild von Abbildung 11.1.1 illustriert diesen Sachverhalt anhand einer Simulation. Die einzelnen Punkte markieren jeweils die erreichte Anzahl richtiger Bearbeitungen von insgesamt N = 100 ausschließlich ratenden Studenten. Wir sehen, dass der Wert 19 genau 4 Mal zufällig übersprungen wurde. Mit steigender Anzahl ratender Studenten, d.h. mit wachsendem N, sollte der Anteil der Studenten mit mindestens 20 korrekten Antworten gegen die Wahrscheinlichkeit P(S30 ≥ 20) ≈ 0.049 stochastisch konvergieren (Satz von Bernoulli). Der Wert, welcher die Entscheidungsgrenze zwischen H0 und H1 bildet, wird als kritischer Wert bezeichnet. Wir notieren diesen hier mit c. Üblicherweise gehört der

11.1 Was versteht man unter einem Test? | 571

kritische Wert selbst noch zum Annahmebereich von H0 . Entscheidet sich der Prüfer also ab dem Wert 20 für H1 , so lautet der kritische Wert c = 19. Insgesamt lautet die formale Entscheidungsregel dann: Falls S30 > 19, wird H0 verworfen (Entscheidung für H1 ) falls S30 ≤ 19, wird H0 beibehalten. Eine solche Entscheidungsregel stellt den Kern des Testverfahrens dar. Speziell handelt es sich im vorliegenden Fall um einen exakten Binomialtest, wobei man „einseitig nach oben“ testet. Die allgemeine Struktur der verschiedenen Varianten dieses Tests wird später in Abschnitt 11.3.4 beschrieben. Die für einen Test maßgebliche Statistik wird als Teststatistik oder Prüfgröße bezeichnet. Die Verteilung der Teststatistik unter dem maßgeblichen Nullhypothesenwert heißt Testverteilung. Im vorliegenden Fall ist die Teststatistik also die Summe S30 und die Testverteilung eine B(30, 0.5)Verteilung. Die maximale Irrtumswahrscheinlichkeit eines Tests, sich fälschlicherweise für H1 zu entscheiden, falls H0 wahr ist, heißt Testniveau oder Signifikanzniveau und wird üblicherweise mit α notiert. Im vorliegenden Fall beträgt das Testniveau für c = 19 also α = 0.049 und wäre für größeres c entsprechend kleiner. Im Falle einer Verwerfung von H0 spricht man auch von einem signifikanten (bedeutsamen) Ergebnis. Allerdings erweist sich die Verwendung dieses Begriffs als problematisch (vgl. hierzu die Ausführungen in Abschnitt 11.2.4). Somit kommen wir nun endlich zur Beantwortung der Ausgangsfrage. Sofern ein Student 19 von 30 Fragen korrekt beantwortet, kann im Rahmen der eben vorgestellten Entscheidungsregel bei einem Niveau von 4.9% kein Wissen unterstellt werden. Die gezeigte Leistung ist nicht signifikant. Die Anzahl korrekter Antworten ist noch nicht groß genug, um den Vorwurf reiner Zufälligkeit verwerfen zu können. Bei einem Testniveau von ca. 10% (c = 18) oder mehr wäre dies allerdings möglich. Jedoch stellt sich dann die Frage, ob die Einräumung einer Irrtumswahrscheinlichkeit von 10% nicht schon zu groß wäre. • Beispiel 11.1.2: Kein Rückgang vs. Rückgang • Gegeben sei eine ähnliche Situation wie in Beispiel 1.2.1. Studierende werden zu ihrer Zufriedenheit mit der Mensa befragt. Angenommen, die Zufriedenheitsquote lag in einem vorhergehenden Jahr bei 80%. In einer Blitzumfrage äußerten sich aktuell nun 15 von 20 Befragten zufrieden. Dies entspricht einem aktuellen Anteil von nur noch 75%. Ist damit die Zufriedenheit unter allen Studierenden in der Grundgesamtheit nun tatsächlich zurückgegangen? Zunächst einmal ist klar, dass das Ergebnis jeder Stichprobe zufällig ist. So ist es im vorliegenden Fall durchaus denkbar, dass die Zufriedenheitsquote in der Grundgesamtheit tatsächlich unverändert bei 80% liegt oder gar gestiegen ist. Die Frage, die sich quasi stellt, ist somit, ob 75% bei einem Stichprobenumfang von 20 signifikant (bedeutsam) weniger sind als 80%. Ab welchem Anteilswert erscheint es plausibel genug, auf einen Rückgang der Zufriedenheit zu schließen? Sicherheit gibt es auch hier wieder nicht. Wir können am Ende einen Rückgang der Zufriedenheit unterstellen,

572 | 11 Statistisches Testen

obwohl diese konstant geblieben oder sogar gestiegen ist. Genauso können wir aber auch bei der Auffassung bleiben, dass die Zufriedenheit nicht gesunken ist, obwohl dies tatsächlich der Fall ist. S 20

P (S 20 = s )

Anzahl Zufriedener

0.25 3.2%

0.20

96.8%

0.15

15

0.10

10

0.05

5

0.00

0 0

5

10

15

Beibehaltung von H 0

20

20

Verwerfung von H 0

0

s

20

40

60

80

100

Stichprobe Nr.

Abb. 11.1.2: Einseitiger unterer Binomialtest – Testverteilung und Simulation

Auch für dieses Testproblem eignet sich wiederum ein exakter Binomialtest, wobei dieser im Unterschied zum vorhergehenden Beispiel dieses Mal „einseitig nach unten hin“ durchgeführt wird. Die Stichprobe der 20 befragten Studenten wird über 20 unabhängige B(1, π)-verteilte Stichprobenvariablen X1 , . . . , X20 modelliert, wobei X i = 1 für „zufrieden“ und X i = 0 für „unzufrieden“ steht. Damit entspricht der Parameter π gerade der Zufriedenheitsquote in der Grundgesamtheit. Die Testhypothesen lauten dann H0 : π ≥ 0.80

vs.

H1 : π < 0.80.

Die Teststatistik ist die Summe der Zufriedenen in der Stichprobe, also 20

S20 = ∑ X i . i=1

Für π = 0.8 ist die Teststatistik B(20, 0.8)-verteilt. Es gilt also: S20

π=0.8



B(20, 0.8).

Das linke Schaubild von Abbildung 11.1.2 illustriert die Testverteilung. Erst wenn die Anzahl von Zufriedenen in der Stichprobe „bedeutsam klein“ ist, wird man sich für H1 entscheiden. Um die Wahrscheinlichkeit eines Irrtums dabei möglichst klein zu halten, wird der kritische Wert am unteren Ende der Verteilung festgemacht. Wählt man etwa c = 13, so beträgt die Wahrscheinlichkeit einer Unterschreitung dieses Werts 3.2% für π = 0.8. Die Entscheidungsregel lautet dann: Falls S20 < 13, wird H0 verworfen, falls S20 ≥ 13, wird H0 beibehalten.

11.1 Was versteht man unter einem Test? | 573

Man beachte, dass sich die Wahrscheinlichkeitsmasse der Verteilung von S20 für π > 0.8 weiter nach rechts verschieben würde. Für π = 0.9 beispielsweise erhielte man dann eine B(20, 0.9)-Verteilung. Die Wahrscheinlichkeit einer irrtümlichen Entscheidung für H1 wäre für Werte π > 0.8 somit auf jeden Fall nicht größer als das Testniveau. Das festgelegte Testniveau α = 0.032 bildet somit eine obere Grenze für alle Irrtumswahrscheinlichkeiten unter H0 . Das rechte Schaubild von Abbildung 11.1.2 zeigt das Ergebnis einer Simulation. Die einzelnen Punkte markieren jeweils die Anzahl Zufriedener von insgesamt N = 100 simulierten Stichproben vom Umfang n = 20 mit π = 0.8. Wir sehen, dass der kritische Wert genau 3 Mal unterboten wurde. Mit wachsendem N sollte dieser Anteil dann stochastisch gegen α = 0.032 konvergieren. Beantworten wir nun die Ausgangsfrage. Im Rahmen des eben vorgestellten Tests können wir bei einem Niveau von 3.2% keinen signifikanten Verlust attestieren. Dies wäre erst bei 12 oder weniger zufriedenen Studierenden in der Stichprobe der Fall, was dann einer Zufriedenheitsquote von 60% oder weniger entspräche. Aus statistischer Sicht fehlt somit noch einiges, um von einem signifikanten Rückgang der Zufriedenheit sprechen zu können. • Beispiel 11.1.3: Norm vs. Abweichung • In der Kunststoffverarbeitung müssen bei der Herstellung eines bestimmten Produktes ein weißes und ein schwarzes Kunststoffgranulat im Verhältnis von 2:3 miteinander vermischt werden. Das korrekte Mischungsverhältnis wird dabei in regelmäßigen Abständen kontrolliert. Dazu wird mithilfe eines Messbechers der laufenden Produktion eine Stichprobe entnommen, von der dann 500 Körner maschinell nach Farben sortiert und ausgezählt werden. Der Anteil schwarzer Körner darf hierbei vom Sollanteil 0.6 nicht signifikant abweichen. Doch wo sind hier die Grenzen zu setzen? S 500

P (S 500 = s )

Anzahl schwarzer Körner

95.1%

0.04

340

0.03 0.02

Verwerfung von H 0

320 2.5%

2.4%

280

0.00

260 270

280

290

300

310

320

330

Beibehaltung von H 0

300

0.01

Verwerfung von H 0 0

20

s

40

60

80

100

Kontrolle Nr.

Abb. 11.1.3: Zweiseitiger Binomialtest – Testverteilung und Simulation

Auch hierfür eignet sich wiederum ein exakter Binomialtest, wobei dieser „zweiseitig“ durchgeführt wird. Die Stichprobe wird nun über 500 unabhängige B(1, π)-verteilte Stichprobenvariablen X1 , . . . , X500 modelliert, wobei X i = 1 für „schwarz“ und X i = 0

574 | 11 Statistisches Testen für „weiß“ steht für i = 1, . . . , 500. Damit entspricht π dem Anteil schwarzer Körner in der laufenden Produktion. Die Testhypothesen lauten jetzt H0 : π = 0.6

vs.

H1 : π ≠ 0.6.

Bei korrektem Mischungsverhältnis, sprich unter H0 , gilt dann: 500

S500 = ∑ X i

π=0.6



B(500, 0.6).

i=1

Das linke Schaubild von Abbildung 11.1.3 illustriert diese Testverteilung auszugsweise. Eine signifikante Abweichung vom Sollwert 300 wird attestiert, sofern ein oberer kritischer überschritten oder ein unterer kritischer Wert unterschritten wird. Wählt man etwa c1 = 279 als unteren und c2 = 321 als oberen kritischen Wert, so lautet die Entscheidungsregel Falls S500 < 279 oder S500 > 321, wird H0 verworfen, falls 279 ≤ S500 ≤ 321, wird H0 beibehalten. Das implizierte Testniveau ist dann α ≈ 0.049. Dieser Wert entspricht der Wahrscheinlichkeit einer Verwerfung von H0 , obwohl π = 0.6 zutrifft. Er ergibt sich aus der Summe P(S500 < 279) + P(S500 > 321) ≈ 0.025 + 0.024 = 0.049. Die kritischen Werte korrespondieren zu den Anteilswerten 55.8% und 64.2%. Bei einem Testniveau von 4.9% würde man also erst eine Abweichung von etwas mehr als 4 Prozentpunkten als signifikant erachten und möglicherweise in die Produktion eingreifen. Das rechte Schaubild von Abbildung 11.1.3 zeigt das Ergebnis einer Simulation. Die einzelnen Punkte markieren jeweils die Anzahl schwarzer Körner von insgesamt N = 100 simulierten Kontrollstichproben vom Umfang n = 500 mit π = 0.6. Wir sehen, dass die Prüfgröße insgesamt genau 6 Mal außerhalb des Toleranzbereichs lag. Mit wachsendem N sollte dieser Anteil dann stochastisch gegen α = 0.049 konvergieren. Ferner sei bemerkt, dass die beiden kritischen Werte hier nicht mit genau gleicher Wahrscheinlichkeit unter- bzw. überschritten werden, wenngleich sie symmetrisch um den Sollwert 300 liegen. Dies ist auf die leichte Schiefe der Verteilung zurückzuführen (nur für π = 0.5 ist die Binomialverteilung symmetrisch). Für kleineres n und Werte von π nahe 0 oder 1 ist die Schiefe noch viel deutlicher ausgeprägt. In solchen Fällen können die kritischen Werte auch asymmetrisch um den hypothetischen Sollwert gewählt werden, sodass Unter- und Überschreitungswahrscheinlichkeit in etwa gleich sind. Anderenfalls würde man den beiden Arten von Abweichungen unterschiedliche Wichtigkeit beimessen. • Approximative Binomialtests – nichtstandardisierte Varianten • Jeder exakte Binomialtest lässt sich auch immer approximativ mit der Normalverteilung als Test-

11.1 Was versteht man unter einem Test? | 575

verteilung durchführen, sofern der Stichprobenumfang n groß genug ist. Dies folgt aus den Resultaten des ZGWS, insbesondere aus Satz 7.4.4. Als erstes Beispiel vergegenwärtigen wir uns nochmals die Situation des vorhergehenden Beispiels 11.1.3 (Norm vs. Abweichung). Mit Resultat (7.4.37) aus Satz 7.4.4 folgt hier für π = 0.6 und n = 500: S500

approx



N(300, 120).

(11.1.1)

In Abbildung 11.1.3 zeichnet sich die Gestalt dieser approximierenden Verteilung bereits deutlich ab. Da nun eine symmetrische und stetige Testverteilung vorliegt, können zu jedem vorgegebenen Niveau unterer und oberer kritischer Wert symmetrisch um den Erwartungswert liegend gewählt werden. Für das am häufigsten gewählte Testniveau von α = 0.05 etwa wählt man das 0.025- und das 0.975-Quantil der N(300, 120)-Verteilung als kritische Werte. Diese werden mit jeweils 2.5% unter- bzw. überschritten. Gemäß Formel (7.3.22) erhalten wir dafür q0.025 = 300 + √120 ⋅ z0.025 ≈ 300 − √120 ⋅ 1.96 ≈ 278.5 und q0.975 = 300 + √120 ⋅ z0.975 ≈ 300 + √120 ⋅ 1.96 ≈ 321.5. Unter Berücksichtigung der Tatsache, dass S500 nur ganze Zahlen annehmen kann, lautet die Entscheidungsregel für das Testproblem H0 : π = 0.6

vs.

H1 : π ≠ 0.6

somit: Falls S500 < 279 oder S500 > 321, wird H0 verworfen, falls 279 ≤ S500 ≤ 321, wird H0 beibehalten. Diese Entscheidungsregel ist mit der vorhergehenden des exakten Tests identisch, wobei lediglich das Testniveau mit α = 0.05 minimal höher ist. Da dieses allerdings ja auch nur approximativ erfüllt ist, sind die beiden Tests aufgrund der guten Approximation mit der Normalverteilung für n = 500 äquivalent. Analog ließe sich in der Situation von Beispiel 11.1.1 (Raten vs. Wissen) verfahren. Hier folgt für π = 0.5 und n = 30 zunächst das approximative Resultat: S30

approx



N(15, 7.5).

(11.1.2)

Bei einem Testniveau von α = 0.05 wählt man hier für das Testproblem H0 : π = 0.5

vs.

H1 : π > 0.5

das 0.95-Quantil der N(15, 7.5)-Verteilung als kritischen Wert: q0.95 = 15 + √7.5 ⋅ z0.95 ≈ 15 + √7.5 ⋅ 1.64 ≈ 19.5. Wiederum unter Berücksichtigung der Tatsache, dass S30 nur ganze Zahlen annehmen kann, lautet die Entscheidungsregel dann: Falls S30 > 19, wird H0 verworfen,

576 | 11 Statistisches Testen falls S30 ≤ 19, wird H0 beibehalten. Auch diese Entscheidungsregel ist mit der des exakten Tests zum Niveau 4.9% identisch. Für die Situation von Beispiel 11.1.2 (Kein Rückgang vs. Rückgang) erhalten wir für π = 0.8 und n = 20: S20

approx



N(16, 3.2).

(11.1.3)

Man beachte, dass mit n = 20 < 30 die Faustregel zur Zulässigkeit der Approximation eigentlich noch nicht erfüllt ist. Bei einem Testniveau von α = 0.05 wählt man hier für das Testproblem H0 : π ≥ 0.8

vs.

H1 : π < 0.8

das 0.05-Quantil der N(16, 3.2)-Verteilung als kritischen Wert: q0.05 = 16 + √3.2 ⋅ z0.05 ≈ 16 − √3.2 ⋅ 1.64 ≈ 13.1. Die Entscheidungsregel lautet dann: Falls S20 < 14, wird H0 verworfen, falls S20 ≤ 14, wird H0 beibehalten. Der kritische Wert dieser Entscheidungsregel wäre um 1 größer als die des exakten Tests zum Niveau 3.2% in Beispiel 11.1.2. Bei der Wahl eines Testniveaus von α = 0.03 oder gar α = 0.031 würde man mit q0.03 = 12.6 bzw. q0.031 = 12.7 jedoch die identische Entscheidungsregel erhalten. Allerdings sind Tests zu solchen Niveaus eher unüblich (vgl. Abschnitt 11.1.2). Abbildung 11.1.4 illustriert in den oberen drei Schaubildern die verschiedenen Testvarianten der soeben beschriebenen Beispiele. Die Dichtefunktionen wurden jeweils mit einem Schlangensymbol notiert, um herauszustellen, dass diese die jeweiligen Summenverteilungen approximieren, aber nicht exakt widergeben. • Approximative Binomialtests - standardisierte Varianten • Üblicherweise werden die aus Bernoulli-Variablen gebildeten Summenausdrücke approximativer Binomialtests standardisiert. Dies hat den Vorteil, dass man ausschließlich mit der Standardnormalverteilung als Testverteilung arbeiten kann. Betrachten wir die im vorhergehenden Punkt beschriebene Entscheidungsregel zu Beispiel 11.1.1 (Raten vs. Wissen) nochmals genauer. Das Testproblem hierzu lautete H0 : π = 0.5

vs.

H1 : π ≠ 0.5.

Falls S30 > 15 + √7.5 ⋅ z0.95 ,

(11.1.4)

11.1 Was versteht man unter einem Test? | 577

S 30

~ f S 30 (s ) 0.15

0.04 0.03

0.15 95%

0.05

0.05

N (15, 7.5) 5

10

15

5%

0.10

5%

20

0.00

25

N (16, 3.2) 10

12

14

16

18

20

22

0.00 260

Z 20

~ f Z 20 (z )

0.4

0.3

0.3

0.3

95%

5%

0.2 0.1

N (0, 1) −3 −2 −1

0

5%

1

2

0.0

3

95%

280

300

−3 −2 −1

0

320

340

Z 500

0.2 2.5% 0.1

N (0, 1)

z

2.5%

N (300, 120)

~ f Z 500 (z )

0.4

0.0

95%

s

0.4

0.2

2.5%

0.01

s

Z 30

~ f Z 30 (z )

0.02

95%

s

0.1

S 500

~ f S 500 (s )

0.20

0.10

0.00

S 20

~ f S 20 (s )

1

2

3

0.0

z

95%

2.5%

N (0, 1) −3 −2 −1

0

1

2

3

z

Abb. 11.1.4: Approximative Binomialtests – Testverteilungen

wird H0 verworfen, sonst nicht. Diese Verwerfungsregel (Ungleichung) kann nun äquivalent umgeformt werden zu S30 − 15 > z0.95 ≈ 1.64. √7.5

(11.1.5)

Anstelle der Summe kann man also auch immer die standardisierte Summe als Teststatistik verwenden, wobei dann Quantile aus der Standardnormalverteilung als kritische Werte verwendet werden. Hierzu beachte man, dass aufgrund von Resultat (11.1.2) gilt: a

Z30 ∼ N(0, 1)

mit Z30 =

S30 − 15 . √7.5

(11.1.6)

Die N(0, 1)-Verteilung ist somit die auf der standardisierten Summe basierende (approximative) Testverteilung. Bearbeitet ein Student also etwa 19 der 30 Fragen korrekt, so ergibt dies gemäß (11.1.5) als Wert der Teststatistik z30 =

19 − 15 ≈ 1.46 < 1.64. √7.5

(11.1.7)

Dieser liegt unterhalb des kritischen Wertes. Somit wird H0 nicht verworfen. Völlig analog kann man in den Beispielen 11.1.2 und 11.1.3 verfahren. Allgemein geht man bei approximativen Binomialtests von n unabhängigen B(1, π)-verteilten Stichprobenvariablen X1 , . . . , X n aus. Für großes n gilt dann für

578 | 11 Statistisches Testen einen hypothetischen Wert π = π0 : n

Sn = ∑ Xi

approx



N(nπ0 , nπ0 (1 − π0 )) und

(11.1.8)

i=1

Zn =

S n − nπ0

a

√ nπ0 (1 − π0 )

∼ N(0, 1).

(11.1.9)

Dividiert man nun Zähler und Nenner von Z n in (11.1.9) jeweils durch n, erhält man Zn =

X n − π0

a

√ π0 (1 − π0 )/n

∼ N(0, 1)

mit X n =

1 n ∑ Xi . n i=1

(11.1.10)

Ein approximativer Binomialtest lässt sich folglich auch immer über das standardisierte Stichprobenmittel durchführen, welches mit der standardisierten Summe übereinstimmt. Für Beispiel 11.1.1 erhält man gemäß (11.1.10) Z30 =

X 30 − 0.5 . √0.5 ⋅ 0.5/30

Man beachte, dass das Stichprobenmittel dem relativen Anteil von Einsen in der Stichprobe entspricht. Bearbeitet ein Student also 19 der 30 Fragen korrekt, so entspricht dies einem Anteilswert von 19/30 ≈ 0.633 und ergibt mit z30 =

19/30 − 0.5 ≈ 1.46 √0.5 ⋅ 0.5/30

genau den gleichen Wert wie zuvor. Analog lassen sich in den Beispielen 11.1.2 und 11.1.3 die Teststatistiken Z20 =

X 20 − 0.8 √0.8 ⋅ 0.2/20

bzw.

Z500 =

X 500 − 0.6 √0.6 ⋅ 0.4/500

.

verwenden, wobei die kritischen Werte der N(0, 1)-Verteilung entnommen werden. Abbildung 11.1.4 illustriert in den unteren drei Schaubildern die verschiedenen standardisierten Testvarianten der soeben beschriebenen Beispiele. Wie zuvor wurden die Dichtefunktionen mit Schlangensymbol für die Approximation notiert. Diese stellen Spezialfälle approximativer Gauß-Tests dar. Eine allgemeine Zusammenfassung für die verschiedenen Testvarianten findet sich in Abschnitt 11.3.4. • Beispiel 11.1.4: Keine Wirkung vs. Wirkung • Gegeben sei das Pflanzenexperiment aus Beispiel 9.1.3 (fortgesetzt mit Beispiel 10.2.3). Wie lässt sich hier statistisch prüfen und entscheiden, ob ein gemessener Unterschied zwischen den beiden Behandlungsgruppen signifikant oder möglicherweise nur Zufall ist? Ab wann kann man von einer systematischen Wirkung der Düngung ausgehen? Unter Verwendung der eingeführten Notation gilt unter der Annahme normalverteilter Wuchshöhen, einer homoskedastischen Varianz σ2 und n0 = n1 = 3: Y 1 − Y 0 ∼ N(μ1 − μ0 ,

2σ2 ). 3

(11.1.11)

11.1 Was versteht man unter einem Test? | 579

Dies folgt mit Resultat (10.2.16). Da die Differenz der beiden Stichprobenmittel eine geeignete Statistik darstellt, anhand der sich eine mögliche Wirkung ablesen lässt, kann diese auch als Teststatistik verwendet werden. Das Testproblem „keine Wirkung vs. Wirkung“ lässt sich innerhalb dieses Modellrahmens dann ausdrücken als H0 : μ0 = μ1

H 1 : μ 0 ≠ μ 1

vs.

H0 : μ1 − μ0 = 0

oder äquivalent

H1 : μ1 − μ0 ≠ 0.

vs.

Unter H0 gilt dann: 2σ2 (11.1.12) ). 3 Sofern die Düngung also keine Wirkung hat, sollte die Stichprobendifferenz mit Varianz 2σ2 /3 um den Erwartungswert 0 normalverteilt sein. Diese Verteilung definiert die Testverteilung, aus der die kritischen Werte entnommen werden. Im vorliegenden Fall sprechen besonders große und besonders kleine Werte für eine systematische Wirkung, sprich für eine Verwerfung von H0 . Äquivalent dazu kann wie beim approximativen Binomialtest die Teststatistik auch wieder standardisiert werden. Teststatistik und Testverteilung unter H0 ergeben sich dann als Y 1 − Y 0 ∼ N(0,

ZD =

Y1 − Y0 ∼ N(0, 1). √2σ2 /3

(11.1.13)

Die Testverteilung ist dann eine Standardnormalverteilung. Aus dieser werden die kritischen Werte entnommen. Zum Niveau α = 0.05 mit den kritischen Werte z0.025 ≈ −1.96 und z0.975 ≈ 1.96 etwa lautet die Entscheidungsregel dann: Falls Z D < −1.96 oder Z D > 1.96, wird H0 verworfen, falls −1.96 ≤ Z D ≤ 1.96, wird H0 beibehalten. Das linke Schaubild von Abbildung 11.1.5 illustriert den Test, der zugleich ein Beispiel eines zweiseitigen Gauß-Tests für Erwartungswertdifferenzen ist (vgl. Abschnitt 11.3.2). ZD

f Z D (z )

~ TD

f T~D (t )

0.4

0.4

0.3

0.3 2.5%

0.2

95%

0.1

2.5%

0.2

2.5%

95%

0.1

N (0, 1)

0.0

2.5%

t (4)

0.0 −4

−3

−2

−1

0

1

2

3

4

−4

−3

−2

−1

z

Abb. 11.1.5: Zweiseitiger Gauß-Test und zweiseitiger t-Test – Testverteilungen

0

t

1

2

3

4

580 | 11 Statistisches Testen Der Verwendung des Gauß-Tests steht jedoch entgegen, dass die Varianz σ2 in den meisten Fällen in der Praxis unbekannt ist. Hiermit ergibt sich dann eine vergleichbare Situation wie in Beispiel 10.2.3 bei der Konstruktion eines Konfidenzintervalls für μ1 − μ0 bei unbekannter Varianz. Die Varianz wird dann anhand der Stichprobe geschätzt. Bei homoskedastischer Varianz verwendet man hierfür den Schätzer 1 (n0 S̃ 20 + n1 S̃ 21 ). S2p = n0 + n1 − 2 Gemäß Resultat (10.2.20) gilt dann unter H0 : ̃D = T

Y1 − Y0 √ S2p /n0

+ S2p /n1

∼ t(n0 + n1 − 2).

Im vorliegenden Fall mit n0 = n1 = 3 ergibt sich daraus konkret ̃ D = Y 1 − Y 0 ∼ t(4). T √2S2p /3 Die Testverteilung ist eine t(4)-Verteilung. Zum Niveau α = 0.05 lauten die kritischen Werte t4,0.025 ≈ −2.78 und t4,0.975 ≈ 2.78. Die Entscheidungsregel ist dann gegeben durch: ̃ D > 2.78, wird H0 verworfen, ̃ D < −2.78 oder T Falls T ̃ falls −2.78 ≤ T D ≤ 2.78, wird H0 beibehalten. Das rechte Schaubild von Abbildung 11.1.5 illustriert den Test. Dieser ist zugleich ein Beispiel eines zweiseitigen t-Tests für Erwartungswertdifferenzen ist (vgl. Abschnitt 11.3.2). Man beachte, dass die t(4)-Verteilung ähnlich zur Normalverteilung ist. Sie besitzt (wie jede t-Verteilung) in den Rändern jedoch etwas mehr Wahrscheinlichkeitsmasse (nähere Details zur t-Verteilung finden sich in Abschnitt 8.1.2). Damit fallen bei gleichem Testniveau die kritischen Werte stets größer aus als bei einem Gauß-Test. Dies liegt daran, dass das Schätzen der Varianz eine größere Streuung der Teststatistik verursacht. Somit muss die Stichprobendifferenz größer ausfallen als bei bekannter Varianz, um noch als signifikant zu gelten. Als konkretes Rechenbeispiel betrachten wir nochmals die Daten aus Beispiel 10.2.3. Führen wir hier einen zweiseitigen t-Test durch, erhalten wir mit y1 − y0 = 30

und

s2p = 101

als Wert der Teststatistik ̃D = T

30 = 3.66 > 2.78. √2 ⋅ 101/3

Somit kann H0 verworfen werden. Bei einem Niveau von 5% ist der Unterschied von 30 cm signifikant. Folglich kann von einer Wirkung der Düngung ausgegangen werden. • Statistische Testtheorie • Die Kunst des Testens besteht darin, für ein Testproblem eine geeignete Teststatistik zu finden, die unter der Nullhypothese einer wohlde-

11.1 Was versteht man unter einem Test? | 581

finierten Verteilung genügt. Nur so lassen sich dann sinnvolle Entscheidungsgrenzen begründen. Mit der Frage, wie man für bestimmte Testprobleme allgemein sinnvolle Testverfahren konstruieren kann, befasst sich die statistische Testtheorie. Ähnlich wie beim Vergleich von Schätzern lassen sich auch für statistische Tests bestimmte Güte- und Optimalitätskriterien formulieren, auf die wir hier im engeren Sinne jedoch nicht eingehen werden. Dazu sei lediglich bemerkt, dass die hier vorgestellten Testverfahren aus theoretischer Sicht bereits optimal oder zumindest „weitgehend optimiert“ sind. Dennoch setzt die sachgerechte Anwendung statistischer Tests die Berücksichtigung einiger wichtiger theoretischer Aspekte voraus. Einige besonders wichtige davon werden deshalb später in Abschnitt 11.2 vertieft besprochen. Eine umfassende mathematische Behandlung der Testtheorie bietet etwa das klassische Lehrbuch „Testing Statistical Hypotheses“ von Lehmann und Romano [2008]. Lehmann veröffentlichte die erste Ausgabe dieses Buches bereits 1959. Daran schloss er 1983 mit der „Theory of Point Estimation“ sein zweites großes Lehrbuch zur induktiven Statistik an.

11.1.2 Grundstruktur und Durchführung • Überblick • Die Grundstruktur eines statistischen Tests ist im Prinzip immer gleich. Im Folgenden soll dies anhand der Beispiele des vorhergehenden Abschnitts, hier als (B1)–(B4) bezeichnet, nochmals in kompakter Form verdeutlicht werden. Die allgemeine Grundstruktur kann in folgende 5 Bestandteile zerlegt werden: – das statistische Entscheidungsproblem, – das statistische Modell, – die Teststatistik und die Testverteilung, – das Testniveau und die Entscheidungsregel, – die Testdurchführung und die Testentscheidung. Art und Strenge der Testdurchführung hängen dabei von der eigentlichen Zielsetzung ab. Darauf gehen wir im letzten Punkt ein. • Statistisches Entscheidungsproblem • Zu jedem statistischen Test gibt es ein statistisches Problem in Form eines Entscheidungsproblems zwischen zwei Hypothesen. B1: Multiple Choice

Raten vs. Wissen

B2: Mensa-Befragung

Kein Rückgang vs. Rückgang

B3: Qualitätskontrolle

Norm vs. Abweichung

B4: Pflanzenexperiment

Keine Wirkung vs. Wirkung

• Statistisches Modell • Im Rahmen eines statistischen Modells werden die beiden Entscheidungsmöglichkeiten in geeigneter Weise über die Modellparameter als Null-

582 | 11 Statistisches Testen

hypothese (H0 ), und Alternativhypothese (H1 ) formuliert. Welche der beiden Möglichkeiten dabei als Nullhypothese formuliert wird, ist ein außerordentlich wichtiger Gesichtspunkt, auf den wir in Abschnitt 11.2.1 näher eingehen. B1

Modellrahmen: X1 , . . . , X30 unabhängig B(1, π)-verteilt Testproblem: H0 : π = 0.5 vs. H1 : π > 0.5.

B2

Modellrahmen: X1 , . . . , X20 unabhängig B(1, π)-verteilt Testproblem: H0 : π ≥ 0.8 vs. H1 : π < 0.8.

B3

Modellrahmen: X1 , . . . , X500 unabhängig B(1, π)-verteilt Testproblem: H0 : π = 0.6 vs. H1 : π ≠ 0.6.

B4

Modellrahmen: Y01 , Y02 , Y03 unabhängig N(μ0 , σ 2 )-verteilt und Y11 , Y12 , Y13 unabhängig N(μ1 , σ 2 )-verteilt Testproblem: H0 : μ0 = μ1 vs. H1 : μ0 ≠ μ1 .

• Teststatistik und Testverteilung • Anhand einer geeigneten Teststatistik (Prüfgröße) lässt sich sinnvoll beurteilen, ob H0 verworfen werden soll oder nicht. Dazu muss sie unter einem maßgeblichen Nullhypothesenwert (i.d.R. der Schwellenwert zwischen H0 und H1 ) einer bekannten Verteilung genügen. Diese wird als Testverteilung (Prüfverteilung) bezeichnet. 30

B1:

S30 = ∑ X i ∼ B(30, 0.5) für π = 0.5.

B2:

S20 = ∑ X i ∼ B(20, 0.8) für π = 0.8.

B3:

S500 = ∑ X i ∼ B(500, 0.6) für π = 0.6.

B4:

T̃D =

i=1 20

i=1 500 i=1

Y 1 −Y 0 √2S2p /3

∼ t(4) für μ0 = μ1 .

• Testniveau und Entscheidungsregel • Maßgeblich zur Festlegung der Entscheidungsgrenzen ist das Testniveau oder Signifikanzniveau. Die Wahrscheinlichkeit, sich irrtümlich für H1 zu entscheiden, obwohl H0 wahr ist, bezeichnet man als Irrtumswahrscheinlichkeit 1. Art; die maximale Irrtumswahrscheinlichkeit 1. Art als Testniveau. Bei zusammengesetzten Nullhypothesen, d.h. wenn die Nullhypothese nicht nur aus einem einzelnen Wert besteht, wie etwa bei H0 : π ≥ 0.80 in (B2), sind also alle Irrtumswahrscheinlichkeiten 1. Art kleiner oder gleich dem Testniveau. Nähere Hinweise dazu finden sich in Abschnitt 11.2.2. Zu einem vorgegebenen Testniveau werden dann passende Quantile der Testverteilung als Entscheidungsgrenzen verwendet. Diese heißen kritische Werte. Sie trennen den Annahmebereich und den kritischen Bereich der Testverteilung. Unter dem Annahmebereich versteht man die Menge aller Werte der Teststatistik, für die H0 beibehalten wird. Der kritische Bereich ist entsprechend die Menge aller Werte der Teststatistik, für die H0 verworfen wird. Beispielsweise wären im Fall (B1) Annahmebe-

11.1 Was versteht man unter einem Test? | 583

reich und kritischer Bereich gegeben durch {0, 1, 2, . . . , 19}

bzw.

{20, 21, . . . , 30}.

Beide zusammen implizieren die zum vorgegebenen Testniveau gültige Entscheidungsregel, den eigentlichen Kern des Tests. B1

Testniveau:

α = 0.049.

Entscheidungsregel:

Falls S30 > 19, verwerfe H0 , falls S30 ≤ 19, behalte H0 bei.

B2

Testniveau:

α = 0.032.

Entscheidungsregel:

Falls S20 < 13, verwerfe H0 , falls S20 ≥ 13, behalte H0 bei.

B3

Testniveau:

α = 0.049.

Entscheidungsregel:

Falls S500 < 279 oder S500 > 321, verwerfe H0 , falls 279 ≤ S500 ≤ 321, behalte H0 bei.

B4

Testniveau:

α = 0.05.

Entscheidungsregel:

Falls T̃D < −2.78 oder T̃D > 2.78, verwerfe H0 , falls −2.78 ≤ T̃D ≤ 2.78, behalte H0 bei.

• Testdurchführung und Testentscheidung • Im letzten Schritt wird für konkret vorliegende Daten die Teststatistik berechnet und anhand der gewählten Entscheidungsregel eine Entscheidung gefällt. Wird hierbei H0 verworfen und H1 angenommen, so gilt das in H1 repräsentierte Ergebnis als signifikant. Anderenfalls bleibt man lediglich bei H0 . Das in H0 repräsentierte Ergebnis wird also nicht als signifikant bezeichnet. Zu den Hintergründen dieser asymmetrischen Auslegung beachte man die Ausführungen in Abschnitt 11.2.1. B1

Sofern von 30 Fragen mindestens 20 korrekt beantwortet werden, liegt bei einem Niveau von 4.9% signifikantes Wissen vor.

B2

Sofern weniger als 13 von 20 Befragten die Mensa präferieren, ist ihr Anteil bei einem Niveau von 3.2% signifikant geringer als 80%.

B3

Sofern mehr als 321 oder weniger als 279 von 500 Körnern schwarz sind, weicht dies bei einem Niveau von 4.9% signifikant vom Normanteil 0.6 ab.

B4

Sofern T̃D den Wert 2.78 betragsmäßig überschreitet, wirkt sich die Düngung bei einem Niveau von 5% signifikant auf das Wachstum aus.

584 | 11 Statistisches Testen

Definition 11.1.1: Statistischer Test Ein statistischer Test ist eine auf einer Stichprobe basierende Entscheidungsregel, die zugunsten einer der beiden Hypothesen eines Testproblems eine Entscheidung herbeiführt. • Deskriptiv vs. konfirmatorisch • In vielen Situationen werden Testniveaus erst nach Erhebung der Daten (ex post) geklärt. Im Hinblick auf die dann vorliegenden Daten fragt man sich dabei, zu welchem Niveau man bestimmte Nullhypothesen noch verwerfen könnte bzw. welche signifikanten Sachverhalte sich überhaupt finden lassen. In dieser Weise werden Tests quasi deskriptiv oder explorativ verwendet. Je nach Ergebnis ist dann etwa von nicht signifikanten, signifikanten oder „hoch signifikanten“ Resultaten die Rede. Solche ex post beobachteten oder feststellbaren Testniveaus bezeichnet man als p-Werte. Auf diese gehen wir in Abschnitt 11.2.3 näher ein. Es gibt jedoch auch Situationen, in denen die Testdurchführung einem vorher (a priori) genau festgelegten Ablauf folgen muss. Hier sei vor allem auf die Tests im Zusammenhang klinischer Studien vor der Marktzulassung von Medikamenten verwiesen (vgl. etwa Schuhmacher und Schulgen [2008]). Die Durchführung biometrischer Tests zu Wirksamkeit und Risiko von Medikamenten unterliegt strengen gesetzlichen Vorschriften. Für die genaue Einhaltung spezifischer Normen gelten vor der Datenerhebung festgelegte Signifikanzniveaus, die ex post auf keinen Fall mehr verändert werden dürfen. Um jegliche Manipulation auszuschließen, müssen hier auch Versuchs- und Testdesign a priori festgelegt, detailliert beschrieben und teils notariell hinterlegt werden. Generell gestalten sich statistische Tests, mit denen man gezielt spezifische Forschungshypothesen nachzuweisen oder zu widerlegen versucht, als deutlich stärker geregelt als „deskriptive Tests“ für bereits vorliegende Daten. Zur Hervorhebung ihrer „Nachweisfunktion“ werden solche Tests manchmal als konfirmatorische Tests bezeichnet. Auch wenn deren sachgerechte Durchführung nicht immer behördlich überwacht wird, gilt es doch den Eindruck zu vermeiden, Daten und Testverfahren seien bewusst so ausgewählt und verarbeitet („manipuliert“) worden, um bestimmte gewünschte Resultate herbeizuführen. Man denke in diesem Zusammenhang nur etwa an die vielen Kausalitätsstudien im Zusammenhang (potenziell) krebserzeugender Stoffe oder Lebensmittel.

11.1.3 Zusammenhang zur Intervallschätzung • Hintergrund • Zwischen Schätzen und Testen besteht ein enger Zusammenhang. So lassen sich die nicht in einem (1 − α)-Konfidenzintervall für einen Parameter θ enthaltenen Werte als verworfene Nullhypothesenwerte zweiseitiger Tests zum Niveau α interpretieren (vgl. Abb. 11.1.6). Alternativ ausgedrückt, impliziert die mit einem Kon-

11.1 Was versteht man unter einem Test? | 585

fidenzintervall einhergehende Sicherheitswahrscheinlichkeit von 1 − α eine Irrtumswahrscheinlichkeit von α. Angenommen, ein Schätzer für einen Parameter θ sei normalverteilt oder für großes n zumindest approximativ normalverteilt, d.h. θ̂ ∼ N(θ, σ2̂ ) θ

bzw.

θ̂

approx



N(θ, σ2̂ ). θ

Um auf fortwährende Fallunterscheidungen verzichten zu können, nehmen wir im Folgenden nur den letzteren realistischeren Fall an. Ein Beispiel wäre hier das Stichprobenmittel als Schätzer für den Erwartungswert, das in großen u.i.v.-Stichproben approximativ normalverteilt ist, d.h. X

approx



N(μ, σ2μ̂ )

mit σ2μ̂ = σ2 /n.

Allgemein folgt dann θ̂ − θ a ∼ N(0, 1). σ ̂θ ̂ ̂θ ein konsistenter Schätzer für die Standardabweichung σ ̂θ . Dann gilt nach Sei nun σ Slutsky’s Theorem (Satz 8.2.5) θ̂ − θ a ∼ N(0, 1). ̂ ̂θ σ

(11.1.14)

Aus (11.1.14) erhält man daraus die (approximative) Wahrscheinlichkeitsaussage P(−z1−α/2 ≤

θ̂ − θ ≤ z1−α/2 ) ≈ 1 − α ̂ ̂θ σ

(11.1.15)

für großes n, die mit entsprechender Umformung zur Formel für ein approximatives (1 − α)-Konfidenzintervall für θ führt (Abschnitt 10.2.1): ̂ ̂θ , θ̂ + z1−α/2 ⋅ σ ̂ ̂θ ]. KI = [θ̂ − z1−α/2 ⋅ σ Andererseits erhält man aus (11.1.14) zugleich eine sinnvolle Teststatistik für das Testproblem H0 : θ = θ0

vs.

H 1 : θ ≠ θ 0 .

Die zu H0 passende (standardisierte) Teststatistik lautet dann Z=

θ̂ − θ0 . ̂ ̂θ σ

(11.1.16)

Diese ist gemäß (11.1.14) unter H0 approximativ standardnormalverteilt, wobei besonders große und besonders kleine Werte für H1 sprechen. Die Entscheidungsregel lautet somit: Falls Z < −z1−α/2 oder Z > z1−α/2 , wird H0 verworfen, falls −z1−α/2 ≤ Z ≤ z1−α/2 , wird H0 beibehalten.

586 | 11 Statistisches Testen

Aus dieser Entscheidungsregel und (11.1.15) ist schnell ersichtlich, dass jeder Nullhypothesenwert θ0 beibehalten (nicht verworfen) wird, sofern er im (1 − α)Konfidenzintervall für θ enthalten ist: θ0 ∈ KI gilt genau dann, falls |Z| ≤ z1−α/2 . Auf analoge Weise lässt sich auch für andere Verteilungen von Schätzern bzw. Teststatistiken ein Zusammenhang zwischen Intervallschätzung und Tests herstellen (vgl. folgendes Beispiel). Zu beachten ist lediglich, dass Test- und Konfidenzniveau, d.h. Irrtums- und Sicherheitswahrscheinlichkeit, zueinander passen müssen. Zu einem 99%-Konfidenzintervall korrespondieren also zweiseitige Tests zum Niveau 1% und zu einem 95%-Intervall zweiseitige Tests zum Niveau 5%. H 0: θ = θ0

Verwerfung

Beibehaltung von H 0

Verwerfung

Konfidenzintervall

Abb. 11.1.6: Zusammenhang von Konfidenzintervallen und Testentscheidungen

• Beispiel 11.1.5 • Betrachten wir als konkretes Beispiel nochmals das Pflanzenexperiment aus Beispiel 9.1.3. Fortgesetzt mit Beispiel 10.2.3 wurde hierfür ein 95%Konfidenzintervall für den Düngeeffekt δ = μ1 − μ0 bestimmt. Notationsmäßig den vorhergehenden Ausführungen angepasst, ergab sich dabei für n0 = n1 = 3 σ2̂ , δ̂ + t4,0.975 √̂ σ2̂ ] ≈ [7.2, 52.8]. [δ̂ − t4,0.975 √̂ δ

δ

Weiter fortgesetzt mit Beispiel 11.1.4 wurde dann das Testproblem H0 : δ = δ0

H 1 : δ ≠ δ 0

vs.

mit der Teststatistik ̂ ̃ D = δ − δ0 , T ̂ 2̂ √σ δ

betrachtet, die unter H0 einer t(4)-Verteilung genügt. Der Test zum Niveau 5% für das Testproblem H0 : δ = 0

vs.

H 1 : δ ≠ 0

mit den beiden kritischen Werten −t4,0.975 ≈ −2.79 und t4,0.975 ≈ 2.79 führte hierbei zur Verwerfung von H0 . Wie man sieht, ist der Wert 0 auch nicht im Konfidenzinter-

11.2 Wichtige Aspekte beim Testen | 587

vall enthalten. Prinzipiell wird hier jeder außerhalb des Intervalls [7.2, 52.8] liegende Nullhypothesenwert δ0 zum Niveau 5% verworfen und jeder im Intervall liegende Wert nicht verworfen. Satz 11.1.1: Konfidenzintervalle und Tests Es sei KI = [G u , G o ] ein (1 − α)-Konfidenzintervall für einen Parameter θ. Wir betrachten das zweiseitige Testproblem H0 : θ = θ0

vs

H 1 : θ ≠ θ 0 .

(*)

Einen α-Niveau-Test für (*) erhalten wir dann durch die Entscheidungsregel: Falls θ0 ∈ ̸ KI, wird H0 verworfen, falls θ0 ∈ KI, wird H0 beibehalten.

11.2 Wichtige Aspekte beim Testen

Statistische Tests werden in gewisser Weise asymmetrisch konstruiert. So treten Fehlentscheidungen mit unterschiedlich großen Wahrscheinlichkeiten auf. Das Signifikanzniveau eines Tests ist die maximale Irrtumswahrscheinlichkeit 1. Art. Diese gilt es primär klein zu halten. Gleichzeitig ist man bestrebt, auch die Irrtumswahrscheinlichkeit 2. Art zu minimieren. Dieser Aspekt betrifft die Güte eines Tests. Der p-Wert eines Tests gibt an, zu welchem Testniveau man gerade noch H0 verworfen hätte. Stets ist zu beachten, dass Signifikanz nicht automatisch mit inhaltlicher Relevanz einhergeht.

11.2.1 Hypothesenwahl und Fehlerarten • Arten von Testproblemen • Es gibt viele Arten von Testproblemen, die sich nicht immer zwingend über Parameterwerte ausdrücken lassen. Dennoch stellen parametrischen Testprobleme eine wichtige Klasse von Testproblemen dar, die sich terminologisch wie folgt einteilen und benennen lassen: Definition 11.2.1: Typische parametrische Testprobleme Sei θ ein Parameter. Dann bezeichnet man ein Testproblem der Form H0 : θ = θ0

vs.

H 1 : θ ≠ θ 0

588 | 11 Statistisches Testen

als zweiseitiges Testproblem und den dazu korrespondierenden Test als zweiseitigen Test („Test nach unten und oben“). Die Testprobleme H0 : θ ≥ θ0

vs.

H1 : θ < θ0 und

H0 : θ ≤ θ0

vs.

H1 : θ > θ0

werden als einseitige Testprobleme bezeichnet und die korrespondierenden Tests als einseitiger unterer Test („Test nach unten“) und einseitiger oberer Test („Test nach oben“). Besteht H0 (H1 ) nur aus einem einzelnen Wert (wie etwa bei einem zweiseitigen Test), so liegt eine einfache Nullhypothese (Alternative) vor. Umfasst H0 (H1 ) hingegen mehrere Werte, so spricht man von einer zusammengesetzten Nullypothese (Alternative). Es sei bemerkt, dass im Falle der Multiple-Choice-Klausur von Beispiel 11.1.1 mit H0 : π = 0.5

vs.

H1 : π > 0.5

(Raten vs. Wissen)

(11.2.1)

ebenfalls ein einseitiges Testproblem, jedoch mit einfacher Nullhypothese vorliegt. Dies liegt daran, dass Werte von π < 0.5 („schlechter als Raten“) wenig sinnvoll erscheinen. • Asymmetrische Auslegung von Testentscheidungen • Entscheidungsregeln statistischer Tests wohnt stets eine gewisse Asymmetrie in Bezug auf die Auslegung von Testentscheidungen inne. Vergegenwärtigen wir uns dazu nochmals die Situation aus Beispiel 11.1.1 (Raten vs. Wissen). Die Entscheidungsregel des einseitigen oberen Binomialtests zum Niveau 4.9% sieht hier vor, ab 20 korrekten Antworten von Wissen auszugehen und die Hypothese des Ratens zu verwerfen. Denn sofern der kritische Wert überschritten wird, besteht aus wahrscheinlichkeitstheoretischer Sicht starke Evidenz gegen H0 , da allein durch Raten ein solches Ergebnis nur mit geringer Wahrscheinlichkeit (konkret 4.9%) erzielt werden kann. Gleichzeitig besteht starke Evidenz für H1 , also für vorhandenes Wissen. Umgekehrt besteht jedoch nicht zwingend starke Evidenz gegen Wissen und starke Evidenz für Raten, falls der kritische Wert nicht überschritten wird. Dies gilt insbesondere dann, falls die Anzahl korrekter Antworten nur knapp unterhalb des kritischen Werts liegt. Wurden beispielsweise genau 19 Fragen korrekt beantwortet, so ist dies bei 30 Fragen zwar schon deutlich mehr als die Hälfte, zum Niveau 4.9% aber eben noch nicht signifikant mehr als die Hälfte. Ähnliche Sachverhalte würden auch für Werte wie 18, 17 oder 16 gelten. Erst wenn die Anzahl korrekter Antworten deutlich unterhalb der Hälfte (15) liegen würde, könnte man unter Umständen starke Evidenz gegen Wissen ablesen. Sofern jemand alle 30 Fragen falsch beantwortet, würde man jedoch sicherlich die gesamte Situation in Frage stellen, da auch dieses Ergebnis bei ausschließlichem Raten sehr unwahrscheinlich

11.2 Wichtige Aspekte beim Testen | 589

erscheint. In ähnlicher Weise lässt sich diese Art von Asymmetrie auch anhand aller anderen bisherig behandelten Beispiele aufzeigen. Allgemein ist festzuhalten, dass statistische Tests stets so konstruiert werden, dass zu einer Verwerfung von H0 starke wahrscheinlichkeitstheoretische Evidenz vorliegen muss, zu einer Beibehaltung jedoch nicht. In textlichen Formulierungen wird diesem Umstand dadurch Rechnung getragen, dass man einerseits von einer „Verwerfung von H0 “ oder „Annahme von H1 “ spricht, niemals jedoch (zumindest ist es absolut unüblich) von einer „Verwerfung von H1 “ oder „Annahme von H0 “. Stattdessen spricht man in letzterem Fall lediglich von einer „Beibehaltung von H0 “. Damit soll zum Ausdruck gebracht werden, dass die Evidenz der Daten gegen H0 einfach noch nicht stark genug ist. Zugleich wird damit aber auch nicht gesagt, dass man von der Gültigkeit von H0 überzeugt wäre. Bei Testentscheidungen wird H0 verworfen (abgelehnt) und H1 angenommen, falls H0 sehr unplausibel und H1 sehr plausibel erscheint. Ist dies nicht der Fall, bleibt man bei H0 . • Wahl der Hypothesen • Insbesondere für konfirmatorische Tests (vgl. Abschnitt 11.1.2) hat die im vorhergehenden Punkt beschriebene Asymmetrie wichtige Konsequenzen in Bezug auf die Hypothesenwahl. Soll ein bestimmter Sachverhalt mithilfe eines statistischen Tests nachgewiesen werden, so muss das Nachzuweisende stets der Alternativhypothese eines Tests entsprechen und nicht der Nullhypothese. Soll ein bestimmter Sachverhalt hingegen widerlegt werden, so ist es genau umgekehrt. Das zu Widerlegende muss dann als Nullhypothese formuliert werden. Denn Nachweise („Beweise“) und Widerlegungen („Gegenbeweise“) erscheinen nur vor dem Hintergrund starker Evidenzen, d.h. geringer Irrtumswahrscheinlichkeiten, glaubhaft. „Statistisch nachweisen“ heißt also immer aufzuzeigen, wie unwahrscheinlich das Gegenteil des Behaupteten ist und wie plausibel zugleich das Behauptete. „Statistisch widerlegen“ heißt hingegen aufzuzeigen, wie unwahrscheinlich das zu Widerlegende ist, und wie plausibel zugleich das Gegenteil davon. Nachzuweisendes wird in der Alternativhypothese formuliert, zu Widerlegendes hingegen in der Nullhypothese. • Grenzen bei der Hypothesenwahl • Der Umsetzung der vorhergehenden Regel sind jedoch auch Grenzen gesetzt, da sich statistische Tests nicht für jede Präferenzrichtung gut konstruieren lassen. Betrachten wir hierzu nur nochmals die Situation von Beispiel 11.1.1 (Raten vs. Wissen). Angenommen, ein Dozent möchte statistisch nachweisen, dass ein Student nur geraten hat. Dazu formuliert er das Testproblem H0 : π > 0.5

vs.

H1 : π = 0.5.

590 | 11 Statistisches Testen

Das Problem dabei ist, dass für diesen Fall keine sinnvolle Testverteilung abgeleitet werden kann. Für welchen Wert aus H0 sollte denn nun die Testverteilung überhaupt gelten? Welche Anzahl korrekter Antworten spricht hier stark gegen Wissen und stark für Raten? Wie bereits im vorhergehenden Punkt erläutert, würde eine sehr geringe Anzahl korrekter Antworten zwar gegen Wissen sprechen, im Extremfall jedoch auch ein zufälliges Raten als unwahrscheinlich erscheinen lassen. Wenn überhaupt könnte man dann als Testproblem H0 : π ≥ 0.5

vs.

H1 : π < 0.5.

wählen. Hierfür hätte man für π = 0.5 zumindest eine wohldefinierte Testverteilung. Allerdings kann die Sinnhaftigkeit der Alternative hierbei in Frage gestellt werden. Testprobleme lassen sich also nicht in beliebiger Weise aufstellen. Es gibt keine sinnvollen statistischen Tests zu einem Testproblem der Form H 0 : θ ≠ θ 0

vs.

H1 : θ = θ0 .

Das ergibt sich aus den schlechten Güteeigenschaften eines solchen Tests unter der Alternative (Abschnitt 11.2.2). Allerdings können Tests zu Nullhypothesen der Form H0 : [θ1 , θ2 ] oder H0 : (−∞, θ1 ] ∪ [θ2 , ∞) konstruiert werden. Dies gestaltet sich allerdings deutlich komplizierter. Ausführungen dazu finden sich etwa bei Lehmann und Romano [2008]. • Verhältnis zum Signifikanzbegriff • Nur falls die Nullhypothese verworfen wird, gilt das in der Alternativhypothese repräsentierte Ergebnis als signifikant. Bei Beibehaltung der Nullhypothese spricht man nicht von einem signifikanten Ergebnis. Dieser Umstand ist auf die zuvor beschriebene Asymmetrie zurückzuführen. Auf die dem Signifikanzbegriff innewohnende Deutungsproblematik gehen wir gesondert in Abschnitt 11.2.4 ein. • Fehlerarten • So wie wir bei der Intervallschätzung in vielen Fällen nie erfahren werden, ob ein zu schätzender Wert nun tatsächlich im berechneten Konfidenzintervall Intervall lag oder nicht, werden wir auch bei einem statistischen Test häufig nie erfahren, ob die Testentscheidung korrekt war oder nicht. Man könnte diesen Umstand als das grundsätzliche Dilemma statistischer Methodik schlechthin erachten. Im Falle des Testens können wir einerseits H0 verwerfen, obwohl H0 wahr ist, oder wir können H0 beibehalten, obwohl H1 wahr ist. Andererseits können wir natürlich auch H0 richtigerweise verwerfen oder richtigerweise bei H0 bleiben. Vor dem Hintergrund der asymmetrischen Auslegung der Testentscheidungen bezeichnet man eine fälschliche Verwerfung von H0 als Fehler 1. Art, eine fälschliche Beibehaltung dagegen als Fehler 2. Art. Der Fehler 1. Art ist sozusagen der schlimmere der beiden Fehler. Diesen gilt es vorrangig zu verhindern. Folgende Tabelle fasst die 4 möglichen Konstellationen bei Testentscheidungen zusammen. In Beispiel 11.1.1 (Raten vs. Wissen) begeht man einen Fehler 1. Art, sofern man einen Studenten als wissend einstuft, obwohl dieser nur geraten hat. Man begeht einen Feh-

11.2 Wichtige Aspekte beim Testen

| 591

Tab. 11.2.1: Entscheidungsmatrix beim Testen Testentscheidung Wahrer Zustand H0 H1

H0 richtig Fehler 2.Art

H1 Fehler 1.Art richtig

ler 2. Art, sofern man bei der Nullhypothese des Ratens bleibt, obwohl ein Student etwas gewusst hat. In Beispiel 11.1.4 (keine Wirkung vs. Wirkung) begeht man einen Fehler 1. Art, sofern man eine Wirkung des Düngers unterstellt, obwohl dieser keine Wirkung hat. Man begeht einen Fehler 2. Art, sofern man bei der Nullhypothese bleibt, dass der Dünger keine Wirkung hat, obwohl er eine hat.

11.2.2 Irrtumswahrscheinlichkeiten und Güte • Allgemeines Optimierungsbestreben • Allgemein wird man bestrebt sein einen statistischen Test so zu konstruieren, dass am Ende eine richtige Entscheidung gefällt wird und beide Fehlerarten vermieden werden. Der Idealfall wäre im Grunde eine Entscheidungsregel, die stets zu einer richtigen Entscheidung führt. Solch eine „Traumregel“ lässt sich jedoch nur in sehr speziellen Situationen konstruieren, deren Betrachtung meist uninteressant sein dürfte. Man stelle sich als Beispiel vor, es soll festgestellt werden, ob sich in einer Urne ausschließlich weiße oder ausschließlich schwarze Kugeln befinden. Bei der Übersetzung dieses Entscheidungsproblems in ein parametrisches Testproblem würde man dann für den Anteil schwarzer Kugeln nur die Anteilswerte 0 und 1 zulassen. Entsprechend würde das Testproblem dann entweder H0 : π = 0 vs. H1 : π = 1

oder

H0 : π = 1 vs. H1 : π = 0

lauten. Es ist klar, dass bereits ein einzelner Zug genügen würde, um eine mit Sicherheit richtige Entscheidung zu fällen. Solche Konstellationen entsprechen jedoch nicht den typischen Situationen von Testproblemen und stellen eigentlich auch keine statistischen Probleme dar, da die hierbei erhobenen Statistiken eindeutige Schlüsse erlauben. Bei „richtigen Testproblemen“ kann es deshalb nur darum gehen, die Wahrscheinlichkeiten von Fehlentscheidungen möglichst klein zu halten. Um die Frage zu klären, wie dies am besten geschehen kann, muss zunächst der Begriff der Irrtumswahrscheinlichkeit differenziert geklärt werden. Wir verwenden hierzu einerseits ein nichtstatistisches Entscheidungsproblem und andererseits das Testproblem von Beispiel 11.1.1 (Raten vs. Wissen) zur Erläuterung. • Ein nichtstatistisches Beispiel zur Begriffserläuterung • Dem Prinzip „im Zweifel für den Angeklagten“ folgend ergibt sich für die Rechtsprechung eine Entscheidungsmatrix gemäß Tabelle 11.2.2. Demnach würde man es als den größeren Fehler erachten, einen Unschuldigen zu bestrafen als einen Schuldigen nicht zu bestrafen.

592 | 11 Statistisches Testen

Gemäß den Begrifflichkeiten aus der Testtheorie würde man somit ersteren Fehler als Fehler 1. Art und letzteren als Fehler 2. Art bezeichnen. Tab. 11.2.2: Entscheidungsmatrix bei einem Strafprozess Urteil Angeklagter unschuldig schuldig

unschuldig richtig Fehler 2.Art

schuldig Fehler 1.Art richtig

Tab. 11.2.3: Fiktive Historie von 10 Strafprozessen mit jeweiligen Entscheidungen Prozess-Nr. Angeklagter Endurteil

1 S U

2 U U

3 U S

4 U S

5 S U

6 S U

7 S S

8 U U

9 S U

10 U U

Tabelle 11.2.3 zeigt eine fiktive Historie von Urteilen eines Gerichts in 10 verschiedenen Strafprozessen. Primär fiktiv ist dabei vor allem die Vorstellung, dass die Information über den wahren Hintergrund des Angeklagten vorliegt. Hierbei stehe „S“ für schuldig und „U“ für unschuldig. Demnach wurden in den insgesamt 10 Prozessen (i) 3 Unschuldige freigesprochen,

(ii) 2 Unschuldige bestraft,

(iii) 4 Schuldige nicht bestraft,

(iv) 1 Schuldiger bestraft.

• Globale Irrtumswahrscheinlichkeit • Empirisch betrachtet betrug die globale Fehlerrate 60%, da nur in 4 der 10 Fälle ein richtiges Urteil gefällt wurde. In einer theoretischen Betrachtung könnte man diese Fehlerrate als Wahrscheinlichkeit einer Fehlentscheidung interpretieren und als globale Irrtumswahrscheinlichkeit bezeichnen. Betrachten wir im Gegenzug nochmals die Situation aus Beispiel 11.1.1 (Raten vs. Wissen) mit dem parametrischen Testproblem H0 : π = 0.5

vs.

H1 : π > 0.5.

Die Entscheidungsregel sieht vor, sich ab 20 korrekten Antworten für H1 (Wissen) zu entscheiden. Mit welcher globalen Irrtumswahrscheinlichkeit geht diese Regel einher? Wie groß ist die Wahrscheinlichkeit, dass man mit dieser Regel eine richtige Testentscheidung fällt? Diese Fragen lassen sich nicht ohne Weiteres beantworten. Dies liegt daran, dass wir weder über eine empirische (es gibt keine Gesamtanzahl von Tests) noch über eine theoretisch unterstellte Verteilung des Parameters π verfügen, zumindest sofern wir keinen Bayes-Test durchführen (vgl. Abschnitt 11.3.4 „Sonstige Tests“). Deshalb lassen sich Wahrscheinlichkeitsaussagen immer nur aufstellen, wenn für π bestimmte feste Werte angenommen werden. Dies führt dann zu zwei Arten von Irrtumswahrscheinlichkeiten, die sich als eine Art Pseudoform bedingter Wahrscheinlichkeiten auffassen lassen.

11.2 Wichtige Aspekte beim Testen | 593

Bei einem klassischen statistischen Test kann keine globale Wahrscheinlichkeit für eine falsche (oder eine richtige) Entscheidung angegeben werden.

• Irrtumswahrscheinlichkeit 1. Art • Im Falle der Strafprozesse wurde 2 Mal ein Fehler 1. Art begangen (dunkelgrau). Bei 10 Prozessen entspricht dies einer Rate von 20%. Theoretisch betrachtet könnte man hier deshalb die globale Irrtumswahrscheinlichkeit 1. Art mit 20% quantifizieren. Andererseits könnte man im Rahmen einer bedingten Betrachtung sagen, dass 2 der insgesamt 5 Unschuldigen bestraft wurden, was einer Wahrscheinlichkeit von 40% entspricht. Formal lässt sich dies folgendermaßen ausdrücken: P(Urteil = S, Angeklagter = U) = 0.2 und P(Urteil = S|Angeklagter = U) = 0.4. Eine unbedingte Wahrscheinlichkeit wäre hier also von einer bedingten Wahrscheinlichkeit zu unterscheiden. Betrachten wir nun wiederum Beispiel 11.1.1. Da wir π als feste und nicht als stochastische Größe auffassen, kann hier keine globale Irrtumswahrscheinlichkeit 1. Art der Form P(Verwerfung von H0 , H0 wahr) angegeben werden. Sofern wir jedoch π = 0.5 als gegeben annehmen, können wir eine Wahrscheinlichkeit einer falschen Entscheidung zugunsten von H1 angeben. Wählen wir etwa 19 als kritischen Wert, so beträgt diese als Irrtumswahrscheinlichkeit 1. Art bezeichnete Wahrscheinlichkeit 4.9%. Dies ist zugleich die Definition des Testniveaus. Formal ausgedrückt heißt das: P(Verwerfung von H0 |π = 0.5) ≈ 0.049.

Definition 11.2.2: Irrtumswahrscheinlichkeit 1. Art Unter einer Irrtumswahrscheinlichkeit 1. Art (auch Fehlerwahrscheinlichkeit 1. Art) eines Tests versteht man eine Wahrscheinlichkeit, sich für H1 zu entscheiden, falls ein bestimmter Wert aus H0 zutrifft. Die sehr gängige und zugleich sehr missverständliche Sprechweise „die Wahrscheinlichkeit für einen Fehler 1. Art beträgt x%“ bedeutet also nicht, wie man meinen könnte, dass langfristig in x% aller getroffenen Testentscheidungen ein Fehler 1. Art begangen wird. Vielmehr ist damit gemeint, dass

594 | 11 Statistisches Testen

man sich langfristig in x% aller Testentscheidungen, in denen ein bestimmter Wert aus H0 vorliegt, sich fälschlicherweise für H1 entscheidet. • Irrtumswahrscheinlichkeit 2. Art • Analoges gilt für den Fehler 2. Art. Im Falle der Strafprozesse wurden in den 10 Prozessen insgesamt 4 Schuldige nicht bestraft (hellgrau), was theoretisiert einer globalen Irrtumswahrscheinlichkeit 2. Art von 40% entspricht. Andererseits wurden 4 von insgesamt 5 Schuldigen nicht bestraft, was einer Wahrscheinlichkeit von 80% entspricht. Formal haben wir hier also: P(Urteil = U, Angeklagter = S) = 0.4 und P(Urteil = U|Angeklagter = S) = 0.8. Im Falle des Parameterproblems von Beispiel 11.1.1 kann keine globale Irrtumswahrscheinlichkeit 2. Art der Form P(Beibehaltung von H0 , H1 wahr) angegeben werden. Sofern wir jedoch für π einen bestimmten Wert mit π > 0.5 annehmen, können wir eine spezifische Wahrscheinlichkeit einer fälschlichen Beibehaltung von H0 angeben. Wählen wir etwa 19 als kritischen Wert (was einem Testniveau von Niveau 4.9% entspricht) und π = 0.6, so beträgt diese als Irrtumswahrscheinlichkeit 2. Art bezeichnete Wahrscheinlichkeit 70.9%. Wählen wir zum gleichen Testniveau hingegen π = 0.8, so beträgt die Irrtumswahrscheinlichkeit 2. Art nur noch 2.6%. Formal hätten wir also beispielsweise P(Beibehaltung von H0 |π = 0.6) = 0.709 oder P(Beibehaltung von H0 |π = 0.8) = 0.026.

Definition 11.2.3: Irrtumswahrscheinlichkeit 2. Art Unter einer Irrtumswahrscheinlichkeit 2. Art (auch Fehlerwahrscheinlichkeit 2. Art) eines Tests versteht man eine Wahrscheinlichkeit, H0 beizubehalten, falls ein bestimmter Wert aus H1 zutrifft. • Quantifizierung von Irrtumswahrscheinlichkeiten • Bei parametrischen Testproblemen lassen sich beide Arten von Irrtumswahrscheinlichkeiten aus den unter bestimmten Parameterwerten jeweils gültigen Verwerfungswahrscheinlichkeiten der Nullhypothese herleiten und quantifizieren. Dies sei im Folgenden anhand von Beispiel 11.1.1 erläutert. In diesem Beispiel ergeben sich die Verwerfungswahrscheinlichkeiten aus der Betrachtung einer B(30, π)-verteilten Zufallsvariable X, die je nach Wert von π mit bestimmten Wahrscheinlichkeiten einen vorgegebenen kritischen Wert überschreitet.

11.2 Wichtige Aspekte beim Testen | 595

Für c = 19 und π = 0.5, 0.6 und 0.8 etwa erhält man dann P(Verwerfung von H0 |π = 0.5) = P0.5 (X > 19) ≈ 0.049, P(Verwerfung von H0 |π = 0.6) = P0.6 (X > 19) ≈ 0.291, P(Verwerfung von H0 |π = 0.8) = P0.8 (X > 19) ≈ 0.974.

H 0: π = 0.5 vs. H 1: π > 0.5

P (H 0 verwerfen | π) 1.0 0.8

P (H 0 beibehalten | 0.6) = 0.709

0.6

0.291 α = 0.049

1 − α = 0.951

0.4 0.2 0.0 0.0

0.1

0.2

0.3

0.4

0.5

H0

0.6

0.7

0.8

0.9

1.0

π

H1

Abb. 11.2.1: Verwerfungswahrscheinlichkeiten der Nullhypothese in Beispiel 11.1.1

Abbildung 11.2.1 illustriert die Abhängigkeit der Verwerfungswahrscheinlichkeit vom Parameterwert π. Je tiefer wir in die Alternative vordringen, d.h. je mehr wir uns vom Nullhypothesenwert 0.5 entfernen und dem Wert 1 („perfektes Wissen“) annähern, desto eher werden wir die Nullhypothese (Raten) verwerfen. Für π = 1 wird H0 mit 100%iger Wahrscheinlichkeit verworfen. Dies macht natürlich auch Sinn, da bei „perfektem Wissen“ stets alle 30 Fragen richtig beantwortet werden. Auch für Werte π < 0.5 wurden hier die Verwerfungswahrscheinlichkeiten dargestellt, wenngleich sie bei diesem Testproblem keine Relevanz besitzen, da sie weder zu H0 noch zu H1 gehören. Es ist jedoch einsichtig, dass auch für diese Werte die Verwerfungswahrscheinlichkeiten alle unterhalb des Testniveaus liegen. Für π = 0 würde sie dann exakt 0% betragen. Würde man in einem anderen Zusammenhang also das Testproblem H0 : π ≤ 0.5

vs.

H1 : π > 0.5

betrachten, so wäre mit der gleichen Entscheidungsregel gewährleistet, dass unter allen Werten der Nullhypothese die Irrtumswahrscheinlichkeit 1. Art maximal 4.9% beträgt. Das Testniveau bildet somit eine Obergrenze für die Irrtumswahrscheinlichkeit 1. Art und wird an der Schwelle zwischen Nullhypothese und Alternative exakt eingehalten. Doch welcher Zusammenhang besteht nun zwischen Verwerfungswahrscheinlichkeit und den verschiedenen Irrtumswahrscheinlichkeiten? Für Werte aus H0 ist die Verwerfungswahrscheinlichkeit definitionsgemäß gleich der Irrtumswahrscheinlich-

596 | 11 Statistisches Testen

keit 1. Art. Statistische Tests werden i.d.R. so konstruiert, dass für einen vorgegebenen Wert α ∈ (0, 1) gilt: P(Verwerfung von H0 |π) ≤ α

für alle Werte π aus H0 .

(11.2.2)

Ein typischer Wert für α ist 0.05. Nach Definition ist das Testniveau dann höchstens α. Idealerweise konstruiert man Tests so, dass Testniveau und α übereinstimmen. Bei diskreten Testverteilungen ist das aber nicht immer möglich (vgl. Beispiel 11.1.1, 11.1.2 und 11.1.3). Für Werte aus H1 ist die Verwerfungswahrscheinlichkeit die Wahrscheinlichkeit einer korrekten Entscheidung für H1 . Die entsprechende Gegenwahrscheinlichkeit ist dann definitionsgemäß die Irrtumswahrscheinlichkeit 2. Art. Für π aus H1 ergibt sich diese über P(Beibehaltung von H0 |π) = 1 − P(Verwerfung von H0 |π).

(11.2.3)

Bei gut konstruierten Tests strebt die Irrtumswahrscheinlichkeit 2. Art gegen 0, je tiefer man in die Alternative vordringt. Im vorliegenden Fall etwa beträgt sie für π = 1 exakt 0%. Eine Obergrenze für die Irrtumswahrscheinlichkeit 2. Art ergibt sich aus der minimalen Verwerfungswahrscheinlichkeit aller Werte aus H1 . Im vorliegenden Fall ist diese „kurz nach“ dem Schwellenwert π = 0.5 mit „knapp über“ 4.9% am geringsten. Eine Obergrenze für die Irrtumswahrscheinlichkeit 2. Art wäre hier somit im Grenzfall 95.1% oder allgemeiner P(Beibehaltung von H0 |θ) ≤ 1 − α

für alle Werte θ aus H1 .

(11.2.4)

Allgemein muss ein Test zum Niveau α Eigenschaft (11.2.4) im Gegensatz zu (11.2.2) jedoch nicht zwingend erfüllen. Allerdings erscheint Eigenschaft (11.2.4) als Forderung an einen Test durchaus sinnvoll. Ein derartiger Test wird dann auch als unverfälscht bezeichnet. Bei einem verfälschten Test hingegen ist die Verwerfungswahrscheinlichkeit für Werte aus H1 teils oder gänzlich geringer als für Werte aus H0 . Definition 11.2.4: Niveau-α-Test Es sei α ∈ (0, 1). Ein statistischer Test zu einem Testproblem über einen Parameter θ heißt Niveau-α-Test oder Test zum Signifikanzniveau α, wenn die Irrtumswahrscheinlichkeit 1. Art stets kleiner oder gleich α ist: P(Verwerfung von H0 | θ) ≤ α

für alle Werte θ aus H0 .

Ein Niveau-α-Test heißt unverfälscht, wenn die Irrtumswahrscheinlichkeit 2. Art stets kleiner oder gleich 1 − α ist: P(Beibehaltung von H0 | θ) ≤ 1 − α

für alle Werte θ aus H1 .

11.2 Wichtige Aspekte beim Testen | 597

• Güte und Gütefunktion • Im Allgemeinen wird man bestrebt sein, einen Test zu verwenden, der für jeden Wert von H1 eine möglichst hohe Verwerfungswahrscheinlichkeit von H0 aufweist. Schließlich möchte man sich für die Alternativhypothese entscheiden, sofern diese tatsächlich wahr ist. Eine für einen Wert aus H1 geltende Verwerfungswahrscheinlichkeit wird auch als Güte eines Tests bezeichnet. Die Funktion, welche den zulässigen Werten eines Parameters die jeweilige Verwerfungswahrscheinlichkeit zuordnet, heißt Gütefunktion. Definition 11.2.5: Gütefunktion und Güte Gegeben sei ein parametrischer Test bezüglich eines Parameters θ. Dann bezeichnet man die Funktion g mit g(θ) = P(Verwerfung von H0 | θ) als Gütefunktion des Tests. Für jeden Wert θ aus H1 wird g(θ) als Güte oder Macht des Tests an der Stelle θ bezeichnet. Beispielsweise zeigt Abbildung 11.2.1 den Verlauf der Gütefunktion des Binomialtests von Beispiel 11.1.1. Dabei gilt etwa g(0.5) ≈ 0.049 und g(0.6) ≈ 0.291, wobei letzterer Wert die Güte des Tests an der Stelle 0.6 ist. Äquivalent zu (11.2.3) ergibt sich dann folgender Zusammenhang zwischen Güte und Irrtumswahrscheinlichkeit 2. Art: P(Beibehaltung von H0 |θ) = 1 − g(θ)

für alle Werte θ aus H1

(11.2.5)

oder kurz gesagt: Irrtumswahrscheinlichkeit 2. Art = 1 − Güte An der Gütefunktion lassen sich alle wichtigen Eigenschaften eines Tests ablesen. Gleichwohl kann die analytische Herleitung einer Gütefunktion mitunter sehr umständlich oder schwierig sein. Im Falle eines sog. Gauß-Tests (Abschnitt 11.3.1) lassen sich jedoch für alle drei gängigen Testvarianten kompakte funktionale Ausdrücke der jeweiligen Gütefunktionen formulieren. Diese sind vor allem deshalb interessant, da wichtige daran auszumachende Eigenschaften und Zusammenhänge auch für viele andere Tests gelten. • Gütefunktionen der Gauß-Test-Varianten • Ausgangsbasis eines Gauß-Tests ist eine Stichprobe aus unabhängigen N(μ, σ2 )-verteilten Stichprobenvariablen X1 , . . . , X n . Die Testprobleme beziehen sich dabei auf den Erwartungswert, wobei die Varianz als bekannt angenommen wird. Die Testprobleme der drei gängigen Testvarianten lauten (i) H0 : μ ≥ μ0 vs. H1 : μ < μ0 ,

598 | 11 Statistisches Testen (ii) H0 : μ ≤ μ0 vs. H1 : μ > μ0 , (iii) H0 : μ = μ0 vs. H1 : μ ≠ μ0 . Als Teststatistik kann grundsätzlich zunächst einmal das Stichprobenmittel verwendet werden. Für die Testverteilung ergibt sich dann in allen drei Fällen: X ∼ N(μ0 , σ2 /n).

(11.2.6)

Der für die Testverteilung maßgebliche Parameterwert in den Fällen (i) und (ii) ist der zu H0 gehörige Schwellenwert μ0 zwischen den beiden Hypothesen. Die kritischen Werte ergeben sich nach der Logik des jeweiligen Testproblems aus den Quantilen dieser Verteilung. Bei einem Niveau-α-Test würde dann etwa die Entscheidungsregel zu Testproblem (i) lauten: Falls X < q α , wird H0 verworfen, falls X ≥ q α , wird H0 beibehalten, wobei q α das α-Quantil der N(μ0 , σ2 /n)-Verteilung ist. Sehr ähnlich wie bei den approximativen Binomialtests in Abschnitt 11.1.1 kann jedoch auch äquivalent das standardisierte Stichprobenmittel als Teststatistik verwendet werden. Dies hat den Vorteil, dass die Testverteilung stets gleich bleibt. Es gilt dann: Z=

X − μ0 ∼ N(0, 1) √ σ2 /n

für μ = μ0 .

(11.2.7)

Die Entscheidungsregel zu Testproblem (i) lautet dann: Falls Z < z α , wird H0 verworfen, falls Z ≥ z α , wird H0 beibehalten, wobei z α das α-Quantil der N(0, 1)-Verteilung ist. Entscheidend zur Ermittlung der Gütefunktion ist die Verteilung der (nicht standardisierten bzw. standardisierten) Teststatistik für einen beliebigen zulässigen Parameterwert. Wir leiten im Folgenden exemplarisch die Gütefunktion des einseitigen unteren Gauß-Tests für das Testproblem (i) her, wobei wir uns an der nichtstandardisierten Teststatistik, d.h. dem Stichprobenmittel, orientieren. Für beliebigen vorgegebenen Wert μ gilt X ∼ N(μ, σ2 /n)

bzw.

X−μ ∼ N(0, 1). √ σ2 /n

(11.2.8) (11.2.9)

Der kritische Wert q α leitet sich indes aus dem nur für μ = μ0 gültigen Resultat (11.2.6) ab, wobei gemäß (7.3.22) gilt: q α = μ0 + z α √ σ2 /n.

(11.2.10)

Man beachte hierbei, dass die Standardabweichung des Stichprobenmittels durch σ/√n und nicht etwa durch σ gegeben ist. Folglich erhalten wir für die Gütefunkti-

11.2 Wichtige Aspekte beim Testen | 599

on 󵄨 g(μ) = P(H0 verwerfen|μ) = P(X < q α |μ) = P(X < μ0 + z α √ σ2 /n󵄨󵄨󵄨μ). Wird nun für jeden Funktionswert von g der Parameterwert μ als wahr angenommen, erhält man mittels Standardisierung X−μ μ0 − μ + z α √ σ2 /n 󵄨󵄨󵄨 󵄨 < g(μ) = P(X < μ0 + z α √ σ2 /n󵄨󵄨󵄨μ) = P( 󵄨󵄨μ) 󵄨 √ σ2 /n √ σ2 /n μ0 − μ μ − μ0 = Φ(z α + ) = Φ(−z1−α − ). √ σ2 /n √ σ2 /n wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Die vorletzte Gleichung folgt dabei aus (11.2.9). Die letzte Gleichung folgt mit z α = −z1−α und Umschreibung des Quotienten. Analog lassen sich die Gütefunktionen des einseitigen oberen Gauß-Tests und des zweiseitigen Gauß-Tests für die Testprobleme (ii) und (iii) herleiten. Im letzteren Fall wäre der Aufwand aufgrund der zweiseitigen Betrachtung etwas aufwändiger. Satz 11.2.1: Gütefunktionen des Gauß-Tests Die Gütefunktion des Gauß-Tests ist im Falle des Testproblems (a) H0 : μ ≥ μ0 vs. H1 : μ < μ0 gegeben durch g(μ) = Φ(−z1−α −

μ − μ0 ), √ σ2 /n

(b) H0 : μ ≤ μ0 vs. H1 : μ > μ0 gegeben durch g(μ) = Φ(−z1−α +

μ − μ0 ), √ σ2 /n

(c) H0 : μ = μ0 vs. H1 : μ ≠ μ0 gegeben durch μ − μ0 μ − μ0 g(μ) = Φ(−z1−α/2 − ) + Φ(−z1−α/2 + ). √ σ2 /n √ σ2 /n

Wichtige Eigenschaften und Zusammenhänge sollen anhand des nachfolgenden Beispiels aufgezeigt werden. • Beispiel 11.2.1: Gütefunktionen eines einseitigen Gauß-Tests • Angenommen, eine Maschine produziere Metallstifte der Länge 40 mm. Laut Herstellerangaben arbeite die Maschine mit einer Standardabweichung von σ = 1 mm. Die Länge der Metallstifte kann dabei als normalverteilt angenommen werden. Im Rahmen der Qualitätskontrolle werden in regelmäßigen Abständen n Stifte entnommen und deren mittlere Länge festgestellt. Bei einer signifikanten Abweichung von der Soll-Länge, muss

600 | 11 Statistisches Testen

die Produktion auf jeden Fall kurzeitig unterbrochen werden, wobei irrtümliche Produktionsstopps möglichst zu vermeiden sind. Die Situation lässt sich im Rahmen eines Gauß-Tests statistisch lösen, wobei die Wahl des konkreten Testproblems davon abhängt, in welche Richtung primär keine Abweichung auftreten darf. Sind primär zu kurze Stifte zu vermeiden, so ist ein unterer Gauß-Test adäquat. Zur Vermeidung von zu langen Stiften ist hingegen ein oberer Gauß-Test zu verwenden. Sind sowohl zu lange als auch zu kurze Stifte zu vermeiden, muss schließlich zweiseitig geprüft werden. Für alle Fälle wird die Stichprobe über ein Ensemble von n unabhängigen Stichprobenvariablen X1 , . . . , X n modelliert, welche N(μ, 1)-verteilt sind. Der Parameter μ entspricht dabei der wahren mittleren Länge aller Metallstifte. Angenommen, es werde nur „nach unten hin“ geprüft, sodass das Testproblem formal H0 : μ ≥ 40

vs.

H1 : μ < 40.

lautet. Gemäß (11.2.6) ist das Stichprobenmittel N(40, 1/n)-verteilt, sofern die Maschine korrekt arbeitet. In der nichtstandardisierten Testvariante ergibt sich dann beispielsweise für n = 4 als kritischer Wert zum Niveau 5%: q0.05 = μ0 + z0.05 √ σ2 /n ≈ 40 − 1.64√0.25 ≈ 39.2.

(11.2.11)

Sofern das Stichprobenmittel also kürzer als 39.2 mm ausfällt, läge eine signifikante Abweichung nach unten vor. Was passiert nun, falls die Maschine tatsächlich abweichend vom Sollwert produziert? Gemäß (11.2.8) sieht hier der Modellrahmen für das Stichprobenmittel dann eine N(μ, 0.25)-Verteilung mit μ ≠ 40 vor. Das linke Schaubild von Abbildung 11.2.2 illustriert die Situation für zwei verschiedene Abweichungen von der „Soll-Verteilung“. Einmal produziert die Maschine mit μ = 39.5 zu kurze Stifte und einmal mit μ = 40.5 zu lange Stifte. In ersterem Fall wird die Unterschreitung des kritischen Werts wahrscheinlicher. Die Güte fällt also höher als das Testniveau aus. In letzterem Fall wird eine Verwerfung von H0 hingegen deutlich weniger wahrscheinlich. Beide Wahrscheinlichkeiten lassen sich nun auch über die Gütefunktion des Tests berechnen. Diese lautet allgemein μ − 40 ). 1 Für n = 4 und α = 0.05 ergibt sich daraus konkret g(μ) = Φ(−z1−α − √n ⋅

(11.2.12)

μ − 40 (11.2.13) ) ≈ Φ(−1.64 − 2(μ − 40)). 1 Hieraus wiederum erhält man für die Stellen 39.5 und 40.5 die Wahrscheinlichkeiten g4,0.05 (μ) = Φ(−z1−α − √n ⋅

g4,0.05 (39.5) ≈ Φ(−0.64) ≈ 0.26

bzw.

g4,0.05 (40.5) ≈ Φ(−2.64) ≈ 0.004.

Führen wir genau die gleichen Betrachtungen für n = 8 (doppelte Stichprobengröße) unter ansonsten identischen Bedingungen durch, so erhält man eine N(40, 0.125)Verteilung als Testverteilung. Da die Varianz des Stichprobenmittels nun kleiner ist,

11.2 Wichtige Aspekte beim Testen | 601

n =4

f (x )

n =8

f (x )

1.2

μ0

1.2

1.0

1.0

μ0

0.8

0.8

26%

0.6

41%

0.6

0.4

0.4

0.2

0.2

0.0

0.0 38

39

q 0.05

40

41

42

38

x

39

q 0.05

40

41

42

x

Abb. 11.2.2: Verteilung des Stichprobenmittels für verschiedene Konstellationen

können systematische Unterschiede bereits früher festgestellt werden. Der kritische Wert fällt entsprechend höher aus und beträgt zum Niveau 5% nun 39.4. Auf Basis der Gütefunktion μ − 40 g8,0.05 (μ) = Φ(−z0.95 − √8 ⋅ (11.2.14) ) ≈ Φ(−1.64 − √8(μ − 40)) 1 erhält man dann g8,0.05 (39.5) ≈ Φ(0.23) ≈ 0.41 bzw. g8,0.05 (40.5) ≈ Φ(−3.06) ≈ 0.001. Für μ = 39.5 ergibt sich eine deutlich höhere Verwerfungswahrscheinlichkeit (Güte) als für n = 4. Für μ = 40.5 sinkt die Verwerfungswahrscheinlichkeit nochmals. Das rechte Schaubild von Abbildung 11.2.2 illustriert die Situation für n = 8 und α = 0.05. Das linke Schaubild von Abbildung 11.2.3 korrespondiert mit Abbildung 11.2.2 und zeigt die Gütefunktionen g4,0.05 und g8,0.05 für n = 4 bzw. n = 8 und α = 0.05.

α = 0.05

g (μ)

α = 0.1

g (μ)

1.0

1.0

0.8

0.8

n =4 n =8

0.6 0.41 0.4 0.26 0.2

α

α 0.0 38

39 39.5 40

41

μ0

H0

H1

42

μ

n =4 n =8

0.55 0.6 0.39 0.4 0.2 0.0 38

39 39.5 40

41

μ0

H0

H1

42

μ

Abb. 11.2.3: Gütefunktionen eines einseitigen unteren Gauß-Tests

Analoge Sachverhalte ergeben sich, wenn anstelle des Stichprobenumfangs n die Varianz σ2 variiert wird. Je kleiner die Varianz in der Grundgesamtheit ist, desto präziser kann der Erwartungswert durch das Stichprobenmittel geschätzt werden. Damit kön-

602 | 11 Statistisches Testen

nen Abweichungen von einem Nullhypothesenwert auch schneller entdeckt werden. Die Güte an jeder Stelle der Alternative nimmt somit zu. Schließlich ist klar, dass bei Wahl eines höheren Testniveaus α > 0.05 die Güte des Tests an der Stelle 39.5 steigen würde. Der kritische Wert wäre größer und infolgedessen würde der Überlappungsbereich der N(39.5, 0.25)- und der N(40, 0.25)Verteilung zunehmen. Konkret würde beispielsweise bei einem Testniveau von 10% für n = 4 39.5 − 40 g4,0.1 (39.5) = Φ(−z0.9 − √4 ⋅ ) ≈ Φ(−1.28 − √4(−0.5)) ≈ 0.39 1 gelten und für n = 8 39.5 − 40 ) ≈ Φ(−1.28 − √8(−0.5)) ≈ 0.55. 1 Das rechte Schaubild von Abbildung 11.2.3 zeigt die Gütefunktionen g4,0.1 und g8,0.1 für n = 4 bzw. n = 8 und α = 0.1. Man kann sich leicht überlegen, dass die Gütefunktionen des einseitigen oberen Gauß-Tests zum Testproblem g8,0.1 (39.5) = Φ(−z0.9 − √8 ⋅

H0 : μ ≤ 40

H1 : μ > 40

vs.

genau spiegelverkehrt wären. Beispielsweise würde dann die Güte an der Stelle 40.5 bei einem Testniveau von α = 0.05 und n = 4 entsprechend 26% betragen. • Beispiel 11.2.2: Gütefunktionen eines zweiseitigen Gauß-Tests • Quasi analog lassen sich alle im vorhergehenden Beispiel durchgeführten Betrachtungen für den zweiseitigen Gauß-Test zum Testproblem H0 : μ = 40

H1 : μ ≠ 40

vs.

durchführen. Hierbei wird dann von der Gütefunktion (c) in Satz 11.2.1 Gebrauch gemacht.

α = 0.05

g (μ)

α = 0.1

g (μ)

1.0

1.0

n =4 n =8

0.8 0.6

n =4 n =8

0.8 0.6 0.41 0.4 0.26 0.2

0.4 0.29 0.17 0.2

α

α 0.0 38

39 39.5 40

41

H0

H1

H1

0.0

42

μ

Abb. 11.2.4: Gütefunktionen eines zweiseitigen Gauß-Tests

38

39 39.5 40

41

H0

H1

H1

42

μ

11.2 Wichtige Aspekte beim Testen | 603

Wie Abbildung 11.2.4 zeigt, wird das Testniveau an der Stelle der einfachen Nullhypothese exakt eingehalten. Aufgrund des zweiseitigen Testens werden die kritischen Werte größer. Deshalb ist die Güte des zweiseitigen Tests an gleicher Stelle kleiner als beim einseitigen Test. Wie man sieht, entsprechen die Gütewerte zum Niveau 10% an der Stelle 39.5 den Gütewerten des einseitigen Tests zum Niveau 5%. Dies liegt daran, dass der untere kritische Wert zum Niveau 10% beim zweiseitigen Test mit dem kritischen Wert des einseitigen Tests zum Niveau 5% übereinstimmt. Ansonsten gelten sehr ähnliche Sachverhalte, wie sie zuvor beim einseitigen Testen beobachtet werden konnten. • Eigenschaften von Gütefunktionen • Wir fassen die in den vorhergehenden beiden Beispielen beobachteten Eigenschaften der Gütefunktionen zusammen. Sie gelten in dieser oder ähnlicher Weise auch für viele andere parametrische Testprobleme. Eigenschaften von Gütefunktionen Im Rahmen eines Testproblems bezüglich eines Parameters θ gelten für die Gütefunktion g(θ) im Allgemeinen folgende Eigenschaften: (i) g(θ) ≤ α für alle Werte θ aus H0 . (ii) Die Güte nimmt zu, „je weiter man in die Alternative vordringt“. (iii) Die Güte nimmt für wachsendes n zu, d.h. die Fehlerwahrscheinlichkeit 2. Art nimmt für wachsendes n ab. (iv) Die Güte nimmt für wachsendes α zu, d.h. die Fehlerwahrscheinlichkeit 2. Art nimmt für wachsendes α ab.

• Praktische Implikation zur Fehlervermeidung • Bei einem statistischen Test wird die Irrtumswahrscheinlichkeit 1. Art durch das Testniveau kontrolliert. Ein kleines Testniveau wie etwa 5% oder 1% gewährleistet somit, dass diese Irrtumswahrscheinlichkeit klein ist. Allerdings besteht zwischen den beiden Arten von Irrtumswahrscheinlichkeiten ein Zielkonflikt. Wählt man ein kleines Testniveau, so geht dies stets auf Kosten der Güte. Ein größeres Testniveau erhöht hingegen die Irrtumswahrscheinlichkeit 1. Art und senkt gleichzeitig die Irrtumswahrscheinlichkeit 2. Art. Die einzige Möglichkeit, beide Irrtumswahrscheinlichkeiten möglichst klein zu halten, besteht darin, bei einem möglichst kleinen Testniveau eine möglichst große Stichprobe zu ziehen. Wähle α möglichst klein und n möglichst groß! • Optimale Tests • Die Gütefunktion eines „optimalen Tests“ zum Niveau α nimmt für jeden Wert θ aus H1 eine höhere oder zumindest nicht geringere Güte an als jeder andere Test zum Niveau α. Ein wesentlicher Inhalt der statistischen Testtheorie

604 | 11 Statistisches Testen

ist es, Aussagen darüber zu treffen, unter welchen Umständen und auf welche Weise sich solche „gleichmäßig besten“ Tests konstruieren lassen (vgl. etwa Lehmann und Romano [2008]).

11.2.3 p-Werte • Hintergrund und Definition • Bei der Durchführung eines statistischen Tests wird der Wert einer Teststatistik berechnet, der anschließend mit dem zu einem bestimmten Testniveau korrespondierenden kritischen Wert (bei zweiseitigen Tests mit zwei kritischen Werten) verglichen wird. Je nach Ergebnis wird die Nullhypothese dann verworfen oder nicht. Für die Testentscheidung ist dabei völlig unerheblich, wie weit der kritische Wert dabei unter- oder überschritten bzw. nicht unter- oder überschritten wird, d.h. „wie deutlich“ die Nullhypothese verworfen oder nicht verworfen wird. Gleichwohl stellt die „Deutlichkeit“ einer Testentscheidung eine interessante ex-postInformation dar. Sie führt zum Konzept der sog. p-Werte. Definition 11.2.6: p-Wert Der p-Wert ist das ex post ermittelte Testniveau, zu dem H0 für die vorliegenden Daten gerade noch verworfen werden könnte. Bei stetigen Testverteilungen müsste es eigentlich „gerade noch bzw. gerade nicht mehr“ heißen (vgl. hierzu Beispiel 11.2.4). Der p-Wert ist eine Größe, die im Nachhinein berechnet wird. Insofern handelt es sich um eine deskriptive (empirische) Größe für vorliegende Daten. • p-Werte als Ausgabewerte statistischer Software • Statistische Softwareprogramme geben für implementierte Tests am Ende häufig p-Werte aus. Eine formale Testentscheidung wird dabei nicht getroffen. Möchte man dann einen konfirmatorischen Test sachgerecht durchführen, so vergleicht man den p-Wert mit dem a priori festgelegten Testniveau α. Ist der p-Wert kleiner oder gleich α, so wird H0 verworfen, ansonsten nicht. • Beispiel 11.2.3: p-Wert bei diskreter Testverteilung • Betrachten wir nochmals die Situation aus Beispiel 11.1.1 (Raten vs. Wissen) mit dem Testproblem H0 : π = 0.5

vs.

H1 : π > 0.5.

Die Teststatistik S30 ist die Summe der richtig bearbeiteten Aufgaben, welche unter der Nullhypothese B(30, 0.5)-verteilt ist. Folgende Tabelle gibt auszugsweise die Verteilungsfunktion dieser Testverteilung wider.

11.2 Wichtige Aspekte beim Testen | 605

Tab. 11.2.4: Verteilungsfunktion der B(30, 0.5)-Verteilung – auszugsweise s P(S30 ≤ s)

14 0.428

15 0.572

16 0.708

17 0.819

18 0.900

19 0.951

20 0.979

Bei einem Signifikanzniveau von 4.9% lautet der kritische Wert 19, da unter H0 gerade P(S30 > 19) ≈ 0.049 gilt. Beantwortet nun ein Student lediglich 19 Fragen korrekt, so wird H0 nicht verworfen. Der Wert 19 selbst ergibt damit einen p-Wert von P(S30 ≥ 19) = P(S30 > 18) = 1 − P(S30 ≤ 18) ≈ 0.100. Um mit dem Wert 19 gerade noch verwerfen zu können, müsste der kritische Wert 18 lauten, was dann einem Testniveau von 10.0% entspräche. Bei 15 korrekten Antworten lautet der p-Wert P(S30 ≥ 15) = P(S30 > 14) = 1 − P(S30 ≤ 14) ≈ 0.572. Hier könnte man erst bei einem Testniveau von 57.2% verwerfen. Betrachtet man ungeachtet der Sinnhaftigkeit für das vorliegende Problem den einseitigen unteren Binomialtest zum Testproblem H0 : π = 0.5 vs. H1 : π < 0.5, errechnet sich der p-Wert für 19 korrekte Antworten als P(S30 < 20) = P(S30 ≤ 19) ≈ 0.951. Denn um mit dem Wert 19 gerade noch verwerfen zu können, müsste der kritische Wert gleich 20 sein. Analog erhält man für 15 korrekte Antworten als p-Wert P(S30 < 16) = P(S30 ≤ 15) ≈ 0.571. Dieser würde mit dem p-Wert des oberen Tests übereinstimmen. Die Bestimmung von p-Werten für die zweiseitige Testvariante soll an dieser Stelle nicht besprochen werden. Sie ist davon abhängig, in welcher Weise unterer und oberer kritischer Wert bestimmt werden, was nicht eindeutig geregelt ist. Man beachte hierzu die Ausführungen zum exakten Binomialtest in Abschnitt 11.3.4. S 30

P (S 30 = s )

Z 18

0.15

φ (x ) 0.4

0.10

90.0%

0.3

10.0%

6.7%

0.2

0.05

6.7%

0.1 0.00

0.0 0

5

10

15

20

19

25

30

s

−3

−2

−1

0

−1.5

Abb. 11.2.5: Ermittlung von p-Werten in den Beispielen 11.2.3 und 11.2.4

1

2

1.5

3

z

606 | 11 Statistisches Testen

• Beispiel 11.2.4: p-Wert bei stetiger Testverteilung • Gegeben sei ein zweiseitiger Gauß-Test (Abschnitt 11.3.1) für ein Testproblem H0 : μ = μ0

vs.

H 1 : μ ≠ μ 0 ,

der anhand der standardisierten Teststatistik Z=

X − μ0 √ σ2 /n

durchgeführt wird. Die kritischen Werte zum Niveau 5% lauten dann z0.025 ≈ −1.96

und

z975 ≈ 1.96.

Ergibt sich aus vorliegenden Daten nun z = 1.5, so wird H0 nicht verworfen. Welches Testniveau müsste man nun wählen müssen, um gerade noch die Nullhypothese zu verwerfen? Um mit dem Wert 1.5 verwerfen zu können, müsste der obere kritische Wert „minimal kleiner“ als 1.5 sein. Über diesen Umstand sieht man jedoch hinweg. Stattdessen setzt man den Wert der Teststatistik gleich dem kritischen Wert. So wird der Wert 1.5 wird von einer N(0, 1)-verteilten Zufallsgröße mit etwa 6.7% Wahrscheinlichkeit überschritten (Tab. A.1). Bei einem einseitigen oberen Gauß-Test wäre der p-Wert entsprechend 0.067, bei einem einseitigen unteren Gauß-Test hingegen 1 − 0.067 = 0.933. Beim zweiseitigen Gauß-Test ergibt sich der p-Wert als das Zweifache der Überschreitungswahrscheinlichkeit von 1.5 (Abb. 11.2.5, rechts), also 2 ⋅ 0.067 = 0.134. Berechnung von p-Werten Sei t die Realisierung der Teststatistik eines Tests und die Zufallsvariable T entsprechend der Testverteilung des Tests verteilt. Für die in diesem Lehrbuch besprochenen Tests gelten die folgenden Berechnungsformeln: Ist der Test ein a) unterer einseitiger Test, der für kleine Werte der Teststatistik ablehnt, dann berechnet sich der p-Wert als P(T ≤ t). b) oberer einseitiger Test, der für große Werte der Teststatistik ablehnt, dann berechnet sich der p-Wert als P(T ≥ t). c) zweiseitiger Test, der für betragsmäßig große Werte der Teststatistik ablehnt, und die Testverteilung symmetrisch um 0, dann berechnet sich der p-Wert als P(|T| ≥ |t|).

• Sachgerechte Verwendung von p-Werten • Bei konfirmatorischen Tests (Abschnitt 11.1.2) werden die zu überprüfenden Hypothesen und Testverfahren bereits vor Erhebung der Daten festgelegt. Dazu gehört insbesondere auch das Testniveau. Bei biometrischen Tests etwa, mit denen die Wirksamkeit bestimmter Medikamente statistisch nachgewiesen werden soll, muss eine nachträgliche Anpassung des Test-

11.2 Wichtige Aspekte beim Testen | 607

niveaus zur Erzielung signifikanter Resultate ausgeschlossen werden. Hier sind Signifikanzniveaus teils gesetzlich vorgegeben. In einem derartigen Kontext ist ein p-Wert immer nur eine rein deskriptive Statistik, die niemals eine nachträgliche Anpassung des Testverfahrens nach sich ziehen sollte – zumindest nicht unter Verwendung der gleichen Daten.

11.2.4 Signifikanz vs. Relevanz • Deutung von Signifikanz • Ausgangspunkt eines statistischen Tests ist stets die Feststellung, dass eine bestimmte Statistik zufälligen Schwankungen ausgesetzt ist und deshalb eine eindeutige, zweifelsfreie Interpretation eines bestimmten Sachverhalts nicht möglich ist. Hierdurch implizierte Fragen lauten dann typischerweise: „Ist das tatsächlich oder nur zufällig größer als ... ?“, „Ist das tatsächlich oder nur zufällig kleiner als ... ?“, „Ist das tatsächlich oder nur zufällig verschieden?“ usw. Ein Test schafft einen formalen Rahmen, innerhalb dessen man unter Verwendung von Wahrscheinlichkeitsargumenten plausible Entscheidungen fällen kann. Gelangt man dann zu einer Verwerfung der Nullhypothese, so nimmt man einen Befund als „tatsächlich vorliegend“, „nicht mehr nur zufällig“ oder „statistisch nachgewiesen“ an (vgl. hierzu Abschnitt 11.2.1). Fachsprachlich bezeichnet man den Befund dann als signifikant. So heißt es dann etwa: „Der Wert ist signifikant größer als ...“, „Der Wert ist signifikant kleiner als ...“, „Die beiden Werte sind signifikant verschieden“ usw. Im Grunde geht es darum, empirische Aussagen wahrscheinlichkeitstheoretisch zu untermauern. Das Testniveau ist ein Gradmesser für die hierbei verwendete Strenge. Es legt fest, „wie unwahrscheinlich“ eine Nullhypothese erscheinen muss, damit man sie verwerfen kann. • Übliche Signifikanzniveaus • Die Festlegung des Testniveaus ist zunächst einmal willkürlich. Als verbreiteter Standard gilt jedoch, dass man oberhalb eines Testniveaus von 5% normalerweise nicht mehr von signifikanten Befunden spricht. Im Rahmen konfirmatorischer Tests werden zum Ausschluss schwerwiegender Fehlschlüsse meist deutlich strengere Testniveaus wie etwa 1%, 0.1% oder gar noch kleinere zugrunde gelegt. • Güte und Signifikanz für großes n • Wie bereits in Abschnitt 11.2.2 festgehalten wurde, steigt im Allgemeinen die Güte eines Tests mit wachsendem n für jeden Wert aus H1 an. Dies hat eine besondere Bewandtnis, wenn n „ausgesprochen groß“ ist.

608 | 11 Statistisches Testen

Man beachte hierzu nochmals Beispiel 11.2.1 (Produktion von Metallstiften). Das linke Schaubild von Abbildung 11.2.6 entspricht Abbildung 11.2.2 – allerdings jetzt für n = 200. Die unter dem Nullhypothesenwert μ = 40 gültige Testverteilung ist nun wahrscheinlichkeitsmäßig von den beiden Alternativverteilungen unter μ = 39.5 bzw. μ = 40.5 fast komplett separiert. Auch für Alternativwerte, die näher an der 40 liegen wie etwa 39.6 oder 39.7, wäre dies aufgrund des geringen Schwankungsverhaltens des Stichprobenmittels noch der Fall. Das rechte Schaubild zeigt die zum Testproblem H0 : μ = 40

vs.

H1 : μ ≠ 40

gehörenden Gütefunktionen des zweiseitigen Tests zum Niveau 5% für verschiedene Werte von n. Wie man sieht, konvergiert die Güte an jeder Stelle der Alternative gegen 1, sofern n nur hinreichend groß gewählt wird. Sofern ein Alternativwert also zutrifft, steigt die Wahrscheinlichkeit, dies zu entdecken und somit ein signifikantes Resultat zu erhalten.

n = 200

f (x )

g (μ)

μ0

6

1.0

5

0.8

4

0.6

3

0.4

2

n =5 n = 20

0.2 α = 0.05 0.0

1 0 38

39

40

41

42

x

38

39

n = 200 n = 1000 40

μ0

41

42

μ

Abb. 11.2.6: Güte und Signifikanz für wachsendes n

• Signifikanz ≠ Relevanz • Jede noch so kleine Abweichung von der Nullhypothese kann zu einer signifikanten Abweichung werden, sofern die Stichprobe nur groß genug gewählt wird. Zumindest ist dann die Wahrscheinlichkeit einer Verwerfung von H0 sehr groß. In dem im vorhergehenden Punkt verwendeten Beispiel etwa beträgt die Güte an der Stelle 40.1 für n = 1000 bereits 88.5%. Somit wird eine Abweichung von nur 0.1 mm vom Sollwert bereits mit einer Wahrscheinlichkeit von fast 90% entdeckt und als signifikant eingestuft. Es sollte damit klar werden, dass das Adjektiv „signifikant“ eine völlig andere Bedeutung hat als „groß“, „bedeutsam“ oder „relevant“. Eine Abweichung von 0.1 mm kann als völlig irrelevant (bedeutungslos) eingestuft werden, falls beispielsweise überhaupt nur mit einer Genauigkeit von 1 mm produziert werden muss. Insofern ist der Signifikanzbegriff etwas unglücklich gewählt, da „signifikant“ aus dem Lateinischen wörtlich mit „wichtig“ oder „bedeutsam“ übersetzt werden kann. Signifikant heißt in der Statistik jedoch nur „nicht zufällig“. Die Frage,

11.3 Ausgewählte Testverfahren | 609

ob etwas auch aus praktischer Sichtweise „relevant“ ist und beispielsweise wichtige inhaltliche Konsequenzen nach sich zieht, ist stets separat zu klären. Prinzipiell kann es sein, dass selbst ein als „hochsignifikant“ eingestufter Befund inhaltlich völlig unbedeutend ist und jeglicher Relevanz entbehrt. Signifikanz ist nicht gleich Relevanz! Ein signifikanter Befund ist lediglich ein als nicht zufällig erachteter. Die Gleichsetzung von Signifikanz und Relevanz stellt eine der schwerwiegendsten Fehldeutungen in der Statistik dar. Weitergehende Ausführungen zu diesem Signifikanz-Relevanz-Problem finden sich etwa bei Quatember [2005].

11.3 Ausgewählte Testverfahren

Tests über Erwartungswerte und Erwartungswertdifferenzen werden meist als Gauß-Tests, approximative Gauß-Tests oder t-Tests durchgeführt und basieren entsprechend auf einer Normalverteilung bzw. t-Verteilung als Testverteilung. Eine weitere wichtige Klasse von Tests sind die χ 2 -Tests, die auf der χ 2 -Verteilung basieren. Hierzu zählen der χ 2 -Anpassungstest und der χ 2 -Unabhängigkeitstest. Mit ersterem Test kann die hypothetische Verteilung einer kategorialen (oder kategorisierten) Variablen überprüft werden. Mit letzterer wird die Unabhängigkeit zweier kategorialer (oder kategorisierter) Variablen überprüft. Darüber hinaus gibt es noch viele weitere Tests, die sich, wie etwa die Tests über Anteilswerte, teils als Spezialfälle der vorhergehenden ergeben.

11.3.1 Tests über Erwartungswerte • Modellrahmen und Überblick • Ausgehend von unabhängig und identisch verteilten Stichprobenvariablen X1 , . . . , X n mit Erwartungswert μ und Varianz σ2 können unter verschiedenen Ausgangssituationen Tests bezüglich μ konstruiert werden. Die in den folgenden Punkten vorgestellten Tests berücksichtigten Situationen, in denen X1 , . . . , X n (i) normalverteilt sind mit bekannter Varianz, (ii) normalverteilt sind mit unbekannter Varianz, (iii) einer beliebigen Ausgangsverteilung genügen. • Tests über μ bei Normalverteilung und bekannter Varianz • In der Praxis ist die Varianz in der zugrunde gelegten Grundgesamtheit in den meisten Fällen unbekannt. Lediglich in besonderen Fällen, wie etwa in Beispiel 11.2.1, könnte die Annahme einer bekannten Varianz adäquat sein. Ein geeigneter Test bezüglich μ ist in diesem Fall der Gauß-Test, der sowohl in einer nichtstandardisierten als auch in einer standardisier-

610 | 11 Statistisches Testen

ten Variante durchgeführt werden kann. Im ersteren Fall wird als Testverteilung die Verteilung des Stichprobenmittels für einen Nullhypothesenwert μ0 verwendet, d.h. konkret X ∼ N(μ0 , σ2 /n)

für μ = μ0 .

In letzterem Fall verwendet man das standardisierte Stichprobenmittel als Teststatistik und erhält als Testverteilung die Standardnormalverteilung. Die beiden Testvarianten sind äquivalent, was sich in gleicher Weise zeigen lässt wie für den approximativen Binomialtest in Abschnitt 11.1.1. Später wird in Satz 11.3.1 nur die standardisierte Variante zusammengefasst. • Beispiel 11.3.1: Gauß-Tests über μ • Als Beispielanwendung beachte man Beispiel 11.2.1. • Tests über μ bei Normalverteilung und unbekannter Varianz • Sofern die Varianz unbekannt ist, wie es bei den meisten Anwendungen der Fall sein dürfte, wird diese durch die korrigierte Stichprobenvarianz geschätzt. Wie bereits in Abschnitt 10.2.2 ausgeführt, genügt die Statistik T=

X−μ ∼ t(n − 1) √ S2 /n

dann einer t-Verteilung mit n − 1 Freiheitsgraden. Damit lässt sich T auch als sinnvolle Teststatistik verwenden, die für einen Nullhypothesenwert μ0 entsprechender Testverteilung genügt. Dies führt zu einem sog. t-Test. Da sich die t(n)-Verteilung für wachsendes n der Standardnormalverteilung annähert, können ab etwa n = 30 Freiheitsgraden anstelle von t-Quantilen auch Quantile der Standardnormalverteilung verwendet werden. Von praktischer Relevanz (etwa für Übungen und Klausuren) ist dies deshalb, da die t-Verteilung häufig nur bis n = 30 Freiheitsgraden vertafelt vorliegt (vgl. Tab. A.2). • Beispiel 11.3.2: t-Test über μ • Gegeben seien folgende 10 Realisationen einer Stichprobe aus einer Normalverteilung: 7.8, 10.1, 9.0, 8.0, 11.6, 10.7, 8.1, 8.6, 9.4, 11.9. Hierbei gilt: x = 9.52

und

s2 = 2.24.

Testen wir nun beispielsweise H0 : μ ≥ 10

vs.

H1 : μ < 10

zum Niveau 5%, erhalten wir als Wert der Teststatistik 9.52 − 10 ≈ −1.01. t= √2.24/10

11.3 Ausgewählte Testverfahren | 611

Der kritische Wert ergibt sich aus dem 0.05-Quantil der t(9)-Verteilung (Tab. A.2): t9,0.05 = −t9,0.95 ≈ −1.83. Wegen t ≈ −1.01 > −1.83 wird H0 nicht verworfen. Das arithmetische Mittel ist bei einem Niveau von 5% folglich nicht signifikant kleiner als 10. Der korrespondierende p-Wert beträgt 16.9%. Dieser Wert lässt sich beispielsweise mit statistischer Software wie R exakt berechnen. Alternativ lässt sich der p-Wert auch mithilfe der Quantilstabelle A.2 abschätzen. Da der Wert +1.01 zwischen dem 0.8- und dem 0.9-Quantil liegt, muss der Wert −1.01 aufgrund der Symmetrie der Verteilung zwischen dem 0.1- und dem 0.2-Quantil liegen. Damit liegt der p-Wert irgendwo zwischen 10% und 20%. Der Wert der Teststatistik bleibt gleich, falls wir alternativ H0 : μ = 10

vs.

H1 : μ ≠ 10

testen. Die kritischen Werte zum Niveau 5% lauten dann t9,0.025 ≈ −2.26

und

t9,0.975 ≈ 2.26.

Die Nullhypothese kann hierbei (erst recht) nicht verworfen werden. Der korrespondierende exakte p-Wert beträgt dann das Zweifache des einseitigen Tests von zuvor, also 33.9%. Man beachte, dass die obigen Daten bereits in Beispiel 10.2.1 (Gepäckabfertigungszeiten) bei der Konstruktion eines Konfidenzintervalls für μ verwendet wurden. Das 0.95-Konfidenzintervall ergab sich dabei als [x − t9,0.975 √ s2 /n, x + t9,0.975 √ s2 /n] ≈ [8.45, 10.59]. Dabei ist der Wert 10 im Intervall enthalten, was mit dem bestehenden Zusammenhang zwischen Intervallschätzung und zweiseitigem Testen konform ist (Abschnitt 11.1.3). • Tests über μ bei beliebiger Ausgangsverteilung • Sowohl beim Gauß-Test als auch beim t-Test geht man von unabhängigen, normalverteilten Stichprobenvariablen aus. Unter dieser Annahme ist die Teststatistik unter dem maßgeblichen Nullhypothesenwert dann exakt normalverteilt bzw. exakt t-verteilt. In vielen Anwendungen erscheint die Normalverteilungsannahme jedoch nicht realistisch. Abhilfe verschafft hier der zentrale Grenzwertsatz (ZGWS). Sind X1 , . . . , X n u.i.v. mit Erwartungswert μ und Varianz 0 < σ2 < ∞, so gilt gemäß ZGWS (7.4.32) für großes n sowohl Z=

X−μ a ∼ N(0, 1) √ σ2 /n

als auch

T=

X−μ a ∼ N(0, 1). √ S2 /n

Zum Nachvollziehen insbesondere des letzteren Resultats beachte man die Ausführungen in Abschnitt 10.2.2 (Schätzung von μ bei beliebiger Ausgangsverteilung). Unter Verwendung dieses Sachverhalts können Tests bezüglich μ anhand der gleichen Teststatistik wie bei einem Gauß-Test bzw. t-Test durchgeführt werden. Allerdings sind die-

612 | 11 Statistisches Testen

se nur approximativ zu verstehen. Dies bedeutet, dass ein vorgegebenes Testniveau α aufgrund der Verteilungsapproximation nicht exakt eingehalten wird. Je größer n ist, desto genauer sollte diese Approximation jedoch sein. Einen entsprechenden Test bezeichnen wir dann als approximativen Gauß-Test bei bekannter bzw. unbekannter Varianz. Einen Spezialfall stellen die approximativen Binomialtests dar, bei denen die Stichprobenvariablen Bernoulli-verteilt sind. Die in Betracht gezogenen Erwartungswerte entsprechen dabei theoretischen Anteilswerten aus dichotomen Grundgesamtheiten. Einige Beispiele solcher Tests wurden bereits in Abschnitt 11.1.1 angegeben. Eine Zusammenfassung findet sich in Abschnitt 11.3.4. • Zusammenfassung • Fassen wir die verschiedenen Tests dieses Abschnitts zusammen. Satz 11.3.1: Tests über Erwartungswerte Seien X1 , . . . , X n unabhängig und identisch verteilt mit Erwartungswert μ und Varianz 0 < σ2 < ∞. Gegeben seien folgende Testprobleme über μ: a) H0 : μ ≥ μ0 vs. H1 : μ < μ0 , b) H0 : μ ≤ μ0 vs. H1 : μ > μ0 , c) H0 : μ = μ0 vs. H1 : μ ≠ μ0 . Dann basieren die Entscheidungsregeln eines Tests zum Niveau α, falls (i) X1 , . . . , X n normalverteilt sind mit bekannter Varianz, auf dem Resultat Z=

X − μ0 ∼ N(0, 1) √ σ2 /n

für μ = μ0

und lauten: Verwerfe H0 in a) , falls z < −z1−α , b) , falls z > z1−α , c) , falls |z| > z1−α/2 , d.h. z < −z1−α/2 oder z > z1−α/2 . (ii) X1 , . . . , X n normalverteilt sind mit unbekannter Varianz, auf dem Resultat T=

X − μ0 ∼ t(n − 1) √ S2 /n

für μ = μ0

und lauten: Verwerfe H0 in a) , falls t < −t n−1,1−α , b) , falls t > t n−1,1−α , c) , falls |t| > t n−1,1−α/2 , d.h. t < −t n−1,1−α/2 oder t > t n−1,1−α/2 . (iii) n groß und die Varianz bekannt ist, auf dem Resultat a

Z ∼ N(0, 1)

für μ = μ0

11.3 Ausgewählte Testverfahren | 613

und sind identisch zu denen in (i), (iv) n groß und die Varianz unbekannt ist, auf dem Resultat a

T ∼ N(0, 1)

für μ = μ0

und sind identisch zu denen in (i), wobei mit z durch t zu ersetzen ist. Die Tests in (i) werden als Gauß-Tests und die Tests in (ii) als t-Tests bezeichnet. In den Fällen (iii) und (iv) handelt es sich um approximative Gauß-Tests, die man für n ≥ 30 anwenden kann. Anstelle der korrigierten Stichprobenvarianz kann in Fall (iv) auch die nichtkorrigierte verwendet werden. • Allgemeine Merkregel via Standardfehler • In Analogie zur Konstruktion von Konfidenzintervallen für μ (Abschnitt 10.2.2) lässt sich die Bildung der Teststatistiken bei bekannter oder unbekannter Varianz auf die Formel ̂ − μ0 ̂ − μ0 μ μ bzw. ̂ μ̂ σ μ̂ σ reduzieren. Verbal ausgedrückt impliziert dies dann als allgemeine Merkregel: (Schätzwert − Hypothetischer Wert) / (geschätzter) Standardfehler.

11.3.2 Tests über Erwartungswertdifferenzen • Modellrahmen und Überblick • Unter den gleichen Rahmenbedingungen wie in Abschnitt 10.2.3 (Konfidenzintervalle für Erwartungswertdifferenzen) werden im Folgenden Testverfahren für Erwartungswertdifferenzen vorgestellt. Dabei werden Situationen berücksichtigt, in denen die Stichprobenvariablen (i) (ii) (iii) (iv)

normalverteilt sind mit bekannten Varianzen, normalverteilt sind mit unbekannten Varianzen, beliebigen Ausgangsverteilungen genügen, abhängig sind in Form verbundener Werte.

• Tests über μ1 − μ0 bei Normalverteilung und bekannten Varianzen • Tests über Erwartungswertdifferenzen basieren stets auf einer Differenz zweier Stichprobenmittel. Die hierbei geltenden Verteilungsresultate wurden bereits in Abschnitt 10.2.3 begründet. Demnach gilt für die Verteilung der Mittelwertdifferenz Y 1 − Y 0 ∼ N(μ1 − μ0 ,

σ20 σ21 + ) n0 n1

614 | 11 Statistisches Testen

oder alternativ in der standardisierten Form ZD =

Y 1 − Y 0 − (μ1 − μ0 ) √ σ20 /n0 + σ21 /n1

∼ N(0, 1).

In der nichtstandardisierten Variante wird die Mittelwertdifferenz direkt als Teststatistik verwendet, wobei die kritischen Werten dann aus der für einen bestimmten Nullhypothesenwert δ0 = μ1 − μ0 geltenden Verteilung hergeleitet werden. In der standardisierten Variante bildet Z D die Teststatistik mit der Standardnormalverteilung als Testverteilung. Die Entscheidungsregeln führen in beiden Varianten zu identischen Entscheidungen. Später wird in Satz 11.3.2 nur die standardisierte Variante zusammengefasst. Die Tests bezeichnen wir hier als Gauß-Tests über Erwartungswertdifferenzen. • Tests über μ1 − μ0 bei Normalverteilung und unbekannten Varianzen • Die Durchführung der Gauß-Tests setzt die Bekanntheit der Varianzen voraus, was in den meisten Anwendungsfällen unrealistisch ist. Eine naheliegende Idee ist es, die unbekannten Varianzen durch die korrespondierenden Stichprobenvarianzen 1 n0 S̃ 20 = ∑ (Y0i − Y 0 )2 n0 i=1

und

1 n1 S̃ 21 = ∑ (Y1i − Y 1 )2 n1 i=1

zu schätzen und als Teststatistik ̂ D = Y 1 − Y 0 − (μ1 − μ0 ) T √ S̃ 20 /n0 + S̃ 21 /n1 ̂ D , wie bereits in Abschnitt 10.2.3 ausgeführt, keiner zu verwenden. Allerdings genügt T einfach zu spezifizierenden Verteilung. Lediglich für großes n0 und n1 schafft hier der ZGWS wieder Abhilfe (siehe späterer Punkt). Eine einfache Lösung gibt es nur, falls man die Zusatzannahme einer homoskedastischen Varianz σ20 = σ21 treffen kann. Für diesen Fall lässt sich dann das Verteilungsresultat ̃ D = Y 1 − Y 0 − (μ1 − μ0 ) ∼ t(n0 + n1 − 2) mit T √ S2p /n0 + S2p /n1 S2p =

1 (n0 S̃ 20 + n1 S̃ 21 ) n0 + n1 − 2

ausnutzen. Die auf dem „gepoolten“ Schätzer für die einheitliche Varianz basierende Teststatistik genügt dann einer t-Verteilung. Die entsprechenden Tests bezeichnen wir hier als t-Tests über Erwartungswertdifferenzen.

11.3 Ausgewählte Testverfahren | 615

• Beispiele • Ein Anwendungsbeispiel für einen Gauß-Test bzw. einen t-Test einer Erwartungswertdifferenz wurde bereits in Beispiel 11.1.4 (Pflanzenexperiment) geliefert. In diesem Beispiel ging es um die Überprüfung eines kausalen Effekts (Düngung), der über eine theoretische Differenz μ1 − μ0 modelliert wurde. • Tests über μ1 − μ0 bei beliebiger Ausgangsverteilung • Ohne Normalverteilungsannahme sind die Teststatistiken Z D und T D unter bestimmten Bedingungen zumindest asymptotisch standardnormalverteilt. Die verteilungstheoretischen Grundlagen hierzu wurden bereits in Abschnitt 10.2.3 (Schätzung von μ1 − μ0 bei beliebigen Ausgangsverteilungen) besprochen. Dies bildet zugleich die Basis der approximativen Gauß-Tests über Erwartungswertdifferenzen bei bekannten oder unbekannten Varianzen. Die approximativen Binomialtests über Anteilswertdifferenzen stellen dabei Spezialfälle dar. Ein Beispiel und eine Zusammenfassung findet sich in Abschnitt 11.3.4. • Tests über μ1 − μ0 bei Abhängigkeit in Form verbundener Werte • Das Problem sog. verbundener Werte wurde bereits in Abschnitt 10.2.3 besprochen. Hierbei geht es darum, dass im Grunde eine zweidimensionale Stichprobe (Y01 , Y11 ), (Y02 , Y12 ), . . . , (Y0n , Y1n ) vorliegt und somit die jeweils mit gleichen Merkmalsträgern verbundenen Variablen nicht mehr als unabhängig angenommen werden können. Wie auch die Konfidenzintervalle werden deshalb auch die Tests über die Betrachtung der unabhängigen Differenzen Y11 − Y01 , Y12 − Y02 , . . . , Y1n − Y0n konstruiert, die eine eindimensionale Stichprobe bilden. Je nach Situation kann dann entweder ein Gauß-Test, ein t-Test oder ein approximativer Gauß-Test zur Anwendung kommen. Betrachten wir nochmals die Situation aus Beispiel 10.2.4 (Pflanzenexperiment Nr. 2). Das durchschnittliche Wachstum der drei Pflanzen betrug d = y1 − y0 = 30 bei einer Standardabweichung von s D = 2. Testen wir nun gemäß den Rahmenbedingungen von Fall (ii) in Satz 11.3.1 beispielsweise H0 : μ ≤ 20

vs.

H1 : μ > 20,

so erhalten wir als Wert der t-Teststatistik t=

d − μ0 30 − 20 = ≈ 8.66. √ s2 /n √22 /3

616 | 11 Statistisches Testen Der kritische Wert zum Niveau 5% lautet dabei t2,0.95 ≈ 2.92. Damit kann H0 klar verworfen werden. Das durchschnittliche Wachstum betrug bei einem Niveau von 5% somit signifikant mehr als 20 cm. • Zusammenfassung • Fassen wir die verschiedenen Tests dieses Abschnitts zusammen. In Bezug auf verbundene Werte sei auf die Ausführungen des vorherigen Punktes verwiesen. Satz 11.3.2: Tests über Erwartungswertdifferenzen Gegeben seien n = n0 + n1 unabhängige Stichprobenvariablen Y01 , Y02 , . . . , Y0n0

und

Y11 , Y12 , . . . , Y1n1 ,

die innerhalb der beiden Gruppen jeweils identisch verteilt sind mit E(Y0i ) = μ0 , Var(Y0i ) = σ20

mit 0 < σ20 < ∞ für i = 1, ..., n0 ,

E(Y1i ) = μ1 , Var(Y1i ) = σ21

mit 0 < σ21 < ∞ für i = 1, ..., n1 .

Gegeben seien folgende Testprobleme über μ1 − μ0 : a) H0 : μ1 − μ0 ≥ δ0 vs. H1 : μ1 − μ0 < δ0 , b) H0 : μ1 − μ0 ≤ δ0 vs. H1 : μ1 − μ0 > δ0 , c) H0 : μ1 − μ0 = δ0 vs. H1 : μ1 − μ0 ≠ δ0 . Dann basieren die Entscheidungsregeln eines Tests zum Niveau α, falls (i) alle Variablen normalverteilt sind mit bekannten Varianzen, auf dem Resultat ZD =

Y 1 − Y 0 − δ0 √ σ20 /n0 + σ21 /n1

∼ N(0, 1)

für μ1 − μ0 = δ0

und lauten: Verwerfe H0 in a) , falls z D < −z1−α , b) , falls z D > z1−α , c) , falls |z D | > z1−α/2 , d.h. z D < −z1−α/2 oder z D > z1−α/2 . (ii) alle Variablen normalverteilt sind mit unbekannter, homoskedastischer Varianz (σ20 = σ21 ), auf dem Resultat ̃D = T mit S2p =

Y 1 − Y 0 − δ0 √ S2p /n0 + S2p /n1

∼ t(n0 + n1 − 2)

für μ1 − μ0 = δ0 ,

1 1 (n0 S̃ 20 + n1 S̃ 21 ) = ((n0 − 1)S20 + (n1 − 1)S21 ), n0 + n1 − 2 n0 + n1 − 2

und lauten: Verwerfe H0 in a) , falls ̃t D < −t n0 +n1 −2,1−α , b) , falls ̃t D > t n0 +n1 −2,1−α ,

11.3 Ausgewählte Testverfahren | 617

c) , falls |̃t D | > t n0 +n1 −2,1−α/2 . (iii) n0 und n1 groß sind, Annahme (B) von Definition 8.2.1 und die Bedingung n→∞

n1 /n 󳨀󳨀󳨀󳨀󳨀→ π ∈ (0, 1) gelten und die Varianzen bekannt sind, auf dem Resultat a

Z D ∼ N(0, 1)

für μ1 − μ0 = δ0

und sind identisch, wie die in (i). (iv) die Varianzen unbekannt und sonst alle Annahmen von (iii) erfüllt sind, auf dem Resultat ̂D = T

Y 1 − Y 0 − δ0 √ S̃ 20 /n0 + S̃ 21 /n1

a

∼ N(0, 1)

für μ1 − μ0 = δ0

und lauten wie in (i), wobei z D durch ̂t D zu ersetzen ist. Die Tests in (i) werden hier als Gauß-Tests über Erwartungswertdifferenzen, die Tests in (ii) als t-Tests über Erwartungswertdifferenzen bezeichnet. In den Fällen (iii) und (iv) handelt es sich um approximative Gauß-Tests über Erwartungswertdifferenzen, die für n0 , n1 ≥ 30 anwendbar sind. Hierzu beachte man, dass Annahme (B) erfüllt ist, sofern die Trägermengen der Verteilungen der beiden Gruppen beschränkt sind. Außerdem können in Fall (iv) sowohl nichtkorrigierte als auch korrigierte Stichprobenvarianzen verwendet werden. • Bemerkung zu anderen Fällen • Man beachte, dass in Satz 11.3.2 die Fälle „bekannte homoskedastische Varianz“ und „unbekannte homoskedastische Varianz“ für ̃D großes n0 und n1 nicht aufgeführt sind. Letzterer Fall würde auf der Teststatistik T basieren, ersterer Fall auf Z D , wobei für beide Varianzen die homoskedastische Varianz σ2 eingesetzt würde. In beiden Fällen würde man dann die N(0, 1)-Verteilung als approximative Testverteilung verwenden. • Bemerkung zum Zweistichproben-Gedanken • Häufig werden die in Satz 11.3.2 zusammengefassten Tests auch als Zweistichproben-Tests bezeichnet. Gemäß den Ausführungen in Kapitel 9 ziehen wir es vor, im Rahmen statistischer Modellierungen hingegen nur von einer einzigen Stichprobe auszugehen. Dabei kommt eine Gruppierung über heterogen verteilte Stichprobenvariablen innerhalb einer solchen Stichprobe zustande. Dieser interpretatorische Ansatz bringt den Vorteil mit sich, dass man die Fälle, in denen sich die jeweiligen Gruppenumfänge n0 und n1 zufällig ergeben, mit dem gleichen Stichprobenkonzept behandeln kann. Man beachte hierzu den entsprechenden Punkt in Abschnitt 11.3.5. • Äquivalente Darstellungen im Regressionsmodell • Erwartungswertvergleiche lassen sich teils äquivalent als statistische Probleme im Rahmen des Regressionsmo-

618 | 11 Statistisches Testen

dells formulieren und behandeln. Ausführungen und Beispiele hierzu finden sich in Abschnitt 12.1.4 (Punkt „Spezialfall: Binärer Regressor“).

11.3.3 Nichtparametrische χ 2 -Tests Allgemeiner Überblick Ausgangspunkt der von Pearson [1900a] eingeführten χ2 -Tests ist entweder eine einoder zweidimensionale Stichprobe mit einer bzw. zwei kategorialen (ggf. auch kategorisierten) Variablen. Das Datenmaterial basiert entsprechend auf einer ein- oder zweidimensionalen Häufigkeitstabelle (Kontingenztabelle). In ersterem Fall geht es darum zu testen, ob eine kategoriale Variable einer bestimmten hypothetischen Verteilung genügt oder nicht. Dies führt zum χ2 -Anpassungstest („passt eine bestimmte Verteilung oder nicht?“) In letzterem Fall geht es darum zu testen, ob zwei Variablen stochastisch unabhängig voneinander sind oder nicht. Dies führt zum χ2 Unabhängigkeitstest. Beide Tests sind nichtparametrische, approximative Tests und basieren auf einer χ2 -Verteilung als approximative Testverteilung.

χ 2 -Anpassungstest • Verteilungstheoretische Grundlagen • Sei X diskret verteilt mit Trägermenge T X = {1, . . . , k},

wobei k ≥ 2,

und die zugehörigen Eintrittswahrscheinlichkeiten P(X = i) = π i

für i = 1, . . . , k,

sind. Die Wahrscheinlichkeit π i entspricht also gerade der Wahrscheinlichkeit, dass X die Realisation i annimmt. Seien weiter X1 , . . . , X n unabhängig und identisch wie X verteilt. Dazu definiere man N i als absolute Häufigkeit des Auftretens der Ausprägung i in der Stichprobe, d.h. {1, falls X j = i, wobei I{i} (X j ) = { 0, sonst. j=1 { Dann lässt sich (mit größerem Aufwand) zeigen, dass für großes n gilt: n

N i = ∑ I{i} (X j ),

k

(N i − nπ i )2 a 2 ∼ χ (k − 1). nπ i i=1

χ2A = ∑

(11.3.1)

Man beachte hierzu, dass die absoluten Häufigkeiten N i jeweils B(n, π i )-verteilt sind – mit entsprechenden Erwartungswerten nπ i . Insofern lässt sich nπ i als erwartete absolute Häufigkeit der i-ten Ausprägung interpretieren, während N i die tatsächlich beobachtete Häufigkeit ist.

11.3 Ausgewählte Testverfahren | 619

Dieses Resultat kann für den vielseitig einsetzbaren χ2 -Anpassungstest verwendet werden. In welcher Weise dies geschehen kann, sollen nachfolgende Beispiele ausführen. • Approximationsregel • Entscheidend für die Anwendbarkeit der Verteilungsapproximation (11.3.1) ist die Größe der erwarteten Werte für die Häufigkeiten. Büning und Trenkler [1994, Abschnitt 4.2.2] diskutieren hierzu teils sich widersprechende Vorschläge und stellen fest, dass sich „die meisten Autoren von Lehrbüchern auf 5 oder 10 geeinigt haben“. Wenngleich ein wenig willkürlich, empfehlen wir in diesem Buch die etwas großzügigere Bedingung: nπ i ≥ 5

für i = 1, . . . , k.

(11.3.2)

• Beispiel 11.3.3 Unterschied von Umfragewerten und Wahlergebnissen • Betrachten wir nochmals die Situation aus Beispiel 10.2.6 (Politbarometer und Wahlergebnis der Bundestagswahl 2013). Basierend auf den Zahlen von Tabelle 10.2.1 könnte man sich nun fragen, ob sich das letzte Umfrageergebnis vom eigentlichen Endergebnis signifikant unterscheidet. Wie bereits festgestellt, sind die prozentualen Stimmenanteile aller Parteien in den jeweils aus den Umfragewerten konstruierten 95%Konfidenzintervallen enthalten. Auf Basis zweiseitiger approximativer Binomialtests ergeben sich für die einzelnen Parteien deshalb auch keine signifikanten Unterschiede zwischen Umfragewert und Wahlergebnis (vgl. hierzu Beispiel 10.2.6). Doch wie können die Unterschiede von Umfrage und Wahl insgesamt eingeordnet werden? Da die separate Ausführung eines zweiseitigen Tests für jede Partei der Problematik des multiplen Testens unterliegt, erscheint für eine Gesamtbewertung die Ausführung eines einzelnen Tests geeigneter. Hierfür eignet sich nun ein Anpassungstest. Zur Modellierung nummerieren wir zunächst alle Parteien, einschließlich „Sonstige“, mit den Zahlen 1 bis 7 durch und definieren f i als relativen Stimmenanteil von Partei i in der Umfrage, n i als absolute Stimmenanzahl von Partei i in der Umfrage und π i als relativen Stimmenanteil von Partei i bei der Wahl. Tabelle 11.3.1 fasst demgemäß Umfrage- und Wahlergebnisse zusammen. Mit n = 1369 gilt hier n i = n ⋅ f i für i = 1, . . . , 7, wobei jeweils noch auf ganze Zahlen zu runden ist. Die Werte in der letzten Zeile der Tabelle können als theoretisch zu erwartende absolute Häufigkeiten interpretiert werden, falls die Wahlpräferenzen zum Zeitpunkt der Umfrage genau gleich gewesen wären wie am eigentlichen Wahltag. Dann hätten beispielsweise 41.5% der 1369 Befragten Partei 1 (CDU/CSU) und 25.7% Partei 2 (SPD) wählen müssen, was (ungerundet) 568.1 bzw. 351.8 Stimmen entsprochen hätte. Je stärker nun die tatsächlich beobachteten Häufigkeiten (die n i ’s) von den theoretisch erwarteten Häufigkeiten (den nπ i ’s) abweichen, desto eher spricht dies für signifikante Unterschiede.

620 | 11 Statistisches Testen

Tab. 11.3.1: Beobachtete vs. erwartete Häufigkeiten in Beispiel 11.3.3 Ausprägung i fi ni = n ⋅ fi πi nπ i

1 0.400 548 0.415 568.1

2 0.270 370 0.257 351.8

3 0.055 75 0.048 65.7

4 0.085 116 0.086 117.7

5 0.09 123 0.084 115.0

6 0.040 55 0.047 64.3

7 0.060 82 0.063 86.2

Das Testproblem lässt sich formal über eine diskrete Zufallsvariable X formulieren, welche die Parteipräferenz eines zufällig ausgewählten Wählers angibt. Dabei testen wir konkret H0 : P(X = i) = π i ,

für i = 1, . . . , 7 vs.

H1 : P(X = i) ≠ π i

für mindestens ein i.

Aufgrund von Resultat (11.3.1) liegt es nahe, die Größe χ2A als Teststatistik zu verwenden, da in diese die Abweichungen der beobachteten Häufigkeiten von den unter H0 theoretisch erwarteten Häufigkeiten (N i −nπ i ) eingehen. Genauer gesagt wird die Summe aller quadrierten Abweichungen gebildet, wobei jeder einzelne Summand jeweils noch durch die erwartete Häufigkeit dividiert wird. Dies lässt sich dahingehend interpretieren, dass eine bestimmte Abweichung umso höher gewichtet wird, desto kleiner die erwartete Häufigkeit ist. Ein absoluter Unterschied geht bei einer kleinen zu erwartenden Häufigkeit folglich stärker in die Teststatistik ein als bei einer großen zu erwartenden Häufigkeit. Die Abweichungen werden so in gewisser Weise standardisiert. Die Teststatistik nimmt den Wert 0 an, falls beobachtete und erwartete Häufigkeiten exakt übereinstimmen. Sie nimmt hingegen umso größere Werte an, desto größer die Werte im Sinne dieser Standardisierung voneinander abweichen. Große Werte der Teststatistik, und nur solche, sprechen somit für H1 . Damit wird der Test „einseitig nach oben hin“ durchgeführt. Im vorliegenden Fall genügt χ2A unter H0 einer asymptotischen χ2 (6)-Verteilung (Abb. 11.3.4, links). Dazu beachte man, dass die Approximationsbedingung (11.3.2) auf jeden Fall erfüllt ist, da alle erwarteten Häufigkeiten nπ i größer gleich 5 sind. Damit kann im Sinne der Quantile dieser Verteilung objektiv beurteilt werden, was als „große Abweichung“ einzuordnen ist und was nicht. Führt man den Anpassungstest nun zum Niveau 5% durch, wird als kritischer Wert das 0.95-Quantil der χ2 (6)-Verteilung verwendet. Gemäß Tabelle A.3 ist dies χ26,0.95 ≈ 12.592. Als Wert der Teststatistik ergibt sich gemäß Tabelle 11.3.1 k

(n i − nπ i )2 nπ i i=1

χ2A = ∑ ≈

(82 − 86.2)2 (548 − 568.1)2 (370 − 351.8)2 + + ⋅⋅⋅ + ≈ 5.10. 568.1 351.8 86.2

11.3 Ausgewählte Testverfahren | 621

Damit wird H0 nicht verworfen, da der Wert der Teststatistik den kritischen Wert nicht übertrifft. Bei einem Niveau von 5% weicht das Umfrageergebnis also nicht signifikant vom Wahlergebnis ab. Gemäß Tabelle A.3 ist der p-Wert größer als 0.5 (er beträgt ca. 0.53). Angenommen, wir hätten im Rahmen der Umfrage anstelle von n = 1369 Personen die dreifache Anzahl, sprich 3 ⋅ n = 9507 Personen, befragt und dabei genau die gleichen Stimmenanteile für jede Partei erhalten. Dies bedeutet, dass die Stimmenanzahl für jede Partei entsprechend auch drei Mal so groß gewesen wäre. Dann ergäbe sich als Wert der Teststatistik auch der dreifache Wert, da n

(3n i − 3nπ i )2 = 3χ2A ≈ 15.3. 3nπ i i=1 ∑

Da der kritische Wert unverändert bleibt, ergäbe sich gemäß Tabelle A.3 nun ein pWert zwischen 0.01 und 0.025. Die „gleichen“ Unterschiede wären somit auf einmal signifikant. Dieser zwischen Stichprobengröße und Signifikanz bestehende Zusammenhang ist in Einklang mit den in Abschnitt 11.2.4 bereits getroffenen Feststellungen. • Beispiel 11.3.4: Überprüfung einer hypothetischen Normalverteilung • Betrachten wir nochmals die Situation aus Beispiel 11.2.1 (Länge von Metallstiften). Angenommen, eine Stichprobe um Umfang n = 50 ergibt (der Größe nach sortiert) folgende gemessenen Längen: 37.4, 38.1, 38.2, 38.3, 38.4, 38.5, 38.5, 38.5, 38.6, 38.6, 38.7, 38.8, 38.8, 39.0, 39.1, 39.2, 39.4, 39.4, 39.5, 39.5, 39.5, 39.6, 39.6, 39.8, 39.8, 39.8, 39.8, 39.9, 39.9, 40.0, 40.4, 40.5, 40.5, 40.6, 40.8, 40.8, 41.0, 41.0, 41.2, 41.2, 41.3, 41.4, 41.8, 41.9, 41.9, 42.0, 42.4, 42.6, 43.7, 44.0. Für das arithmetische Mittel und die empirische Standardabweichung erhalten wir hier x = 40.06 und

s ≈ 1.47.

Testen wir nun etwa H0 : μ ≥ 40

vs.

H1 : μ < 40,

erhalten wir in der standardisierten Gauß-Test-Variante unter der Annahme σ = 1 x − 40 40.06 − 40 z= = ≈ 0.42 √ σ2 /n √ σ2 /50 als Wert der Teststatistik. Gemäß Tabelle A.1 entspricht dies beim unteren einseitigen Test einem p-Wert von etwa 0.66. Zu üblichen Testniveaus würde man somit H0 auf jeden Fall nicht verwerfen. Die Metallstifte sind also nicht signifikant kürzer als 40 mm.

622 | 11 Statistisches Testen

Bei diesem Gauß-Test wird unterstellt, dass die Maschine mit einer Genauigkeit von σ = 1 mm arbeitet und die Längen der einzelnen Stifte bei normmäßiger Produktion einer N(40, 1)-Verteilung genügen. Vergleicht man nun allerdings die empirische Verteilung der Stichprobenwerte mit dieser theoretisch postulierten Verteilung, erscheint diese Annahme nicht ganz realistisch (vgl. Abb. 11.3.1). So ist die Streuung in der Stichprobe mehr als doppelt so groß wie die angenommene. Außerdem deutet die empirische Verteilung auf eine mäßig rechtsschiefe Verteilung hin, was im Widerspruch zu einer Normalverteilung stünde. Es liegt deshalb nahe, die im Rahmen der Qualitätskontrolle getroffene Verteilungsannahme statistisch zu überprüfen. Auch hierfür lässt sich ein χ2 -Anpassungstest verwenden. ~ f (x ) / f n (x )

2 ~ f (x ) / f n (x ) Klassierung gemäß χ −Test

Standard−Histogramm

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 36

38

40

42

44

x

36

38

40

42

44

x

Abb. 11.3.1: Empirische vs. hypothetische Verteilung in Beispiel 11.3.4

Da der Anpassungstest auf das Prüfen von diskreten Verteilungen ausgelegt ist, muss zunächst ein geeigneter Modellrahmen geschaffen werden, in dem sich das Verteilungsproblem der stetig verteilten Längen bearbeiten lässt. Dies lässt sich über Bildung einzelner Größenklassen, sprich mittels Kategorisierung, erzielen. Sei Y die Länge eines Metallstifts. Wählt man nun beispielsweise die Größenklassen [36, 39], (39, 40], (40, 41] und (41, 44], so erhält man unter der Annahme Y ∼ N(40, 1) folgende Einfallswahrscheinlichkeiten (vgl. Abb. 11.3.1, rechts): π1 = P(Y ∈ [36, 39]) ≈ 0.16,

π2 = P(Y ∈ (39, 40]) ≈ 0.34,

π3 = P(Y ∈ (40, 41]) ≈ 0.34,

π4 = P(Y ∈ (41, 44]) ≈ 0.16,

die sich (gerundet) zu 1 addieren. Man beachte, dass man aufgrund der unendlichen Trägermenge der Normalverteilung für die erste Klasse eigentlich (−∞, 39] und für die vierte Klasse (41, ∞) wählen müsste, damit die Summe aller Wahrscheinlichkeiten tatsächlich exakt 1 ergäbe. Die geringe Wahrscheinlichkeitsmasse außerhalb von [36, 44] kann jedoch vernachlässigt werden. Die Kategorisierung erhalten wir, indem wir nun eine diskrete Zufallsvariable X definieren, welche den Wert 1 annimmt, falls die Länge in die 1. Größenklasse fällt, den Wert 2, falls die Länge in die 2. Größenklasse

11.3 Ausgewählte Testverfahren | 623

fällt usw. Formal definieren wir also 1, { { { { { {2, X={ { 3, { { { { {4,

für Y ∈ [36, 39], für Y ∈ (39, 40], für Y ∈ (40, 41], für Y ∈ (41, 44].

Das Testproblem lässt sich nun alternativ formulieren als H0 : P(X = i) = π i , i = 1, . . . , 4 vs. H1 : P(X = i) ≠ π i für mindestens ein i. Eine Stichprobe wird dann über unabhängige wie Y verteilte Zufallsvariablen Y1 , . . . , Y n modelliert, welche ihrerseits unabhängige wie X verteilte Zufallsvariablen X1 , . . . , X n implizieren. Als Teststatistik kann wiederum die Größe χ2A verwendet werden. Dabei ist N i die absolute Häufigkeit der Längen, die in die i-te Größenklasse fallen. Gemäß (11.3.1) ist χ2A unter H0 asymptotisch χ2 (3)-verteilt (Abb. 11.3.4, Mitte). Anhand der Werte nπ i in Tabelle 11.3.2 sehen wir, dass bei dieser Klassenbildung die Approximationsbedingung (11.3.2) erfüllt ist, da alle erwarteten Häufigkeiten größer oder gleich 5 sind. Tab. 11.3.2: Beobachtete vs. erwartete Häufigkeiten in Beispiel 11.3.4 (gerundet) Ausprägung i fi ni = n ⋅ fi πi nπ i

1 0.280 14 0.16 8

2 0.320 16 0.34 17

3 0.160 8 0.34 17

4 0.240 12 0.16 8

Als Wert der Teststatistik ergibt sich 4

(n i − nπ i )2 nπ i i=1

χ2A = ∑

(14 − 8)2 (16 − 17)2 (8 − 17)2 (12 − 8)2 + + + ≈ 11.32. 8 17 17 8 Führen wir den Test zum Niveau α = 0.05 durch, verwenden wir als kritischen Wert ≈

c = χ23,0.95 ≈ 7.81. Damit wird H0 zum Niveau 5% klar verworfen. Gemäß Tabelle A.3 ist der p-Wert knapp über 1%. Die empirische Verteilung für die einzelnen Größenklassen weicht somit signifikant von der hypothetischen diskreten Verteilung von X ab. Dies wiederum bedeutet, dass die empirische Verteilung der Daten signifikant von einer N(40, 1)Verteilung abweicht.

624 | 11 Statistisches Testen

• Zusammenfassung • Fassen wir den Test zusammen. Satz 11.3.3: χ2 -Anpassungstest Seien X1 , . . . , X n u.i.v. wie X verteilt, wobei X diskret verteilt sei mit Trägermenge T X = {1, . . . , k} und k ≥ 2. Gegeben sei folgendes Testproblem: H0 : P(X = i) = π i

für jedes i ∈ T X vs.

H1 : P(X = i) ≠ π i

für mindestens ein i ∈ T X .

Dann basiert die Entscheidungsregel eines Tests zum Niveau α auf dem Resultat k

(N i − nπ i )2 a 2 ∼ χ (k − 1) nπ i i=1

χ2A = ∑

unter H0 ,

wobei N i die absolute Häufigkeit der Ausprägung i ist, und lautet: Verwerfe H0 , falls χ2A > χ2k−1,1−α , und sonst nicht. Der Test ist anwendbar, falls nπ i ≥ 5 für i = 1, . . . , k. Ferner kann X auch eine kategorisierte (diskretisierte) Zufallsvariable sein. • Die Frage der Klassenwahl bei Kategorisierung • Im Gegensatz zu Beispiel 11.3.3 musste in Beispiel 11.3.4 eine stetige Zufallsvariable durch Klassenbildung zunächst kategorisiert (diskretisiert) werden, um den χ2 -Anpassungstest anwenden zu können. Die hierbei vorgenommene Klasseneinteilung unterliegt in diesem Fall und auch allgemein einer gewissen Willkür. Gemäß Büning und Trenkler [1994] gibt es zwar zahlreiche Untersuchungen zu diesem Thema, aber letztlich keine allgemein gültigen Regeln, wie nun Anzahl und Breiten von Klassen festgelegt werden sollen. Klar ist allerdings, dass zumindest die Approximationsbedingung erfüllt sein sollte (die freilich wiederum nicht einheitlich geregelt ist). Möglicherweise erscheint es „natürlicher“, gleich breite Klassen anzustreben oder die Klassengrenzen so zu wählen, dass die theoretischen Einfallswahrscheinlichkeiten (die π i ’s) identisch sind. Insbesondere im Kontext konfirmatorischer Tests stellt es methodisch ein „schweres Vergehen“ dar, wenn an der Klasseneinteilung solange herumgespielt wird, bis sich ein (gewünschtes) signifikantes oder nicht signifikantes Ergebnis einstellt. Denn es sollte klar sein, dass eine empirische Verteilung immer in irgendeiner Weise von einer hypothetischen Verteilung abweicht und mit dieser so gut wie nie exakt übereinstimmt. Insofern stellt es dann bei genügend großer Stichprobe keine Schwierigkeit dar, eine signifikante Abweichung festzustellen. Man muss nur an der richtigen Stelle suchen bzw. den Test auf die auffälligen Abweichungen hin ausrichten. Um die Problematik der Klassenwahl zu verdeutlichen, betrachten wir eine fiktive Beispielsituation wie sie in Abbildung 11.3.2 dargestellt ist. Das linke Schaubild zeigt eine Situation, in der für die empirische Verteilung der Daten 6 Klassen der Breite 1 gewählt

11.3 Ausgewählte Testverfahren | 625

~ f (x ) / f n (x )

~ f (x ) / f n (x )

Klassenwahl Variante A

0.5

Klassenwahl Variante B

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 36

38

40

42

44

x

36

38

40

42

44

x

Abb. 11.3.2: Einfluss der Klassenwahl auf die Testentscheidung – fiktives Beispiel

wurden (Variante A). Das rechte Schaubild zeigt für die gleichen Daten die empirische Verteilung bei einer alternativen Klassierung mit nur 3 Klassen der Breite 2 (Variante B). Wir nehmen an, dass in beiden Varianten die Approximationsbedingung zur Durchführung eines entsprechenden χ2 -Tests erfüllt ist. Wie man sieht, werden bei Variante A die Unterschiede von empirischer und hypothetischer Verteilung deutlich sichtbar während sie bei Variante B nahezu kaschiert werden. So kann es durchaus passieren, dass bei Variante A die Nullhypothese verworfen wird und bei Variante B nicht. • Abzug von Freiheitsgraden bei Parameterschätzungen • Sofern zur Spezifizierung einer konkreten hypothetischen Verteilung zunächst bestimmte Verteilungsparameter geschätzt werden (müssen), sind die verteilungstheoretischen Grundlagen für den χ2 -Anpassungstests anzupassen. Betrachten wir dazu nochmals die Situation aus Beispiel 11.3.4. Die hypothetische Normalverteilung, die statistisch überprüft wird, ist hier eindeutig, da Erwartungswert und Varianz der Verteilung inhaltlich über den Sollwert und die Genauigkeitsangabe der Maschine vorgegeben werden. Möchte man nun jedoch prüfen, ob die Verteilung der Metallstifte überhaupt (irgendwie) normalverteilt ist, stellt sich die Frage, welche Werte für μ und σ2 gewählt werden sollen. Hier könnte man auf die Idee kommen, anhand der vorliegenden Daten die betreffenden Parameter zunächst zu schätzen, um anschließend anhand der gleichen Daten auf die entsprechende Normalverteilung zu testen. Verwendet man Stichprobenmittel und Stichprobenvarianz als Schätzer so ergäbe sich mit ̂ = x = 40.06 μ

und

̂ 2 = s2 ≈ 1.472 σ

eine N(40.06, 1.472 )-Verteilung als hypothetische Verteilung. Wie man in Abbildung 11.3.3 gut erkennen kann, erscheinen die Abweichungen zwischen empirischer und hypothetischer Verteilung nicht mehr so stark aus wie in Abbildung 11.3.1. Dies liegt hier in erster Linie daran, dass die Streuung der Verteilung nun viel besser zu den Daten passt. Basierend auf den neuen Einfallswahrscheinlich-

626 | 11 Statistisches Testen

~ f (x ) / f n (x )

2 ~ f (x ) / f n (x ) Klassierung gemäß χ −Test

Standard−Histogramm

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 36

38

40

42

44

x

36

38

40

42

44

x

Abb. 11.3.3: Empirische vs. hypothetische Verteilung nach Parameterschätzung Tab. 11.3.3: Beobachtete vs. erwartete Häufigkeiten nach Parameterschätzung (gerundet) Ausprägung i fi ni = n ⋅ fi πi nπ i

1 0.28 14 0.23 11.5

2 0.32 16 0.25 12.5

3 0.16 8 0.26 13

4 0.24 12 0.26 13

keiten (Tab. 11.3.3) ergibt sich nun mit 4

(n i − nπ i )2 (14 − 11.5)2 (16 − 12.5)2 ≈ + nπ i 11.5 12.5 i=1

χ2A = ∑

(8 − 13)2 (12 − 13)2 + ≈ 3.52 13 13 ein deutlich kleinerer Wert der Teststatistik. Der zuvor verwendete kritische Wert zum Niveau 5% von 7.81 wird bei weitem nicht mehr übersprungen. Jedoch gibt es ein Problem. Wie bereits eingangs erwähnt, sind die verteilungstheoretischen Grundlagen bei Schätzung von Parametern nicht mehr die gleichen. Im Detail sehen diese um einiges komplizierter aus. Eine Regel sieht vor, dass die Anzahl der Freiheitsgrade der Testverteilung um die Anzahl der geschätzten Parameter reduziert werden muss. Dies hat zur Folge, dass die kritischen Werte kleiner werden. Man beachte, dass mit der Schätzung der Parameter in gewisser Weise eine (optimale) Anpassung der hypothetischen Verteilung an die Daten erfolgt und somit eine Verwerfung von H0 erschwert wird. Kleinere kritische Werte erscheinen vor diesem Hintergrund insofern plausibel, da sie dieser Anpassung entgegenwirken und eine Verwerfung wieder erleichtern. Da wir im vorliegenden Fall zwei Parameter geschätzt haben, müssten wir den neuen kritischen Wert einer χ2 -Verteilung mit 3 − 2 = 1 Freiheitsgraden, sprich einer χ2 (1)-Verteilung, entnehmen (Abb. 11.3.4). Gemäß Tabelle A.3 erhalten wir dann +

c = χ21,0.95 ≈ 3.84.

11.3 Ausgewählte Testverfahren | 627

Dieser Wert ist deutlich kleiner, aber immer noch größer als der Wert der Teststatistik. Zum Niveau 5% wird eine Normalverteilung also weiterhin nicht verworfen. Allerdings gibt es zu dieser Vorgehensweise noch einen Einwand (siehe nächster Punkt). χ(6)

f χ2(x ) 0.15 0.10

95%

0

5%

5

10

15

0.25

0.5

0.20

0.4

0.15

0.3 0.2 95%

0.05 0.00

χ(1)

f χ2(x )

0.10

0.05 0.00

χ(3)

f χ2(x )

0

x

2

5%

4

6

8

10

95%

0.1 0.0

0

1

5%

2

x

3

4

5

x

Abb. 11.3.4: Testverteilungen von χ 2 -Tests

• Abzug von Freiheitsgraden setzt bestimmte Schätzmethoden voraus • Die Regel, die Anzahl der Freiheitsgrade um die Anzahl geschätzter Parameter zu reduzieren, ist eigentlich nur gültig, falls die Parameter mit speziellen Schätzmethoden bestimmt werden. So können etwa zur Schätzung von Erwartungswert und Varianz nicht automatisch Stichprobenmittel und Stichprobenvarianz verwendet werden. Diese speziellen Schätzmethoden (wie etwa die sog. χ2 -Minimum-Methode) sind jedoch deutlich aufwendiger und komplizierter, sodass über diesen Umstand in der Praxis meist hinweggesehen wird (vgl. Büning und Trenkler [1994, Abschnitt 4.2.2]).

χ 2 -Unabhängigkeitstest • Verteilungstheoretische Grundlagen • Sei (X, Y) zweidimensional diskret verteilt mit Trägermenge T XY = {1, . . . , k} × {1, ..., l},

wobei k, l ≥ 2,

und korrespondierenden Eintrittswahrscheinlichkeiten P(X = i, Y = j) = π ij

für i = 1, . . . , k und j = 1, . . . , l.

Die Wahrscheinlichkeit π ij entspricht also gerade der Wahrscheinlichkeit, dass (X, Y) die Realisation (i, j) annimmt. Entsprechend lassen sich die Randwahrscheinlichkeiten P(X = i) = π i∙

für i = 1, . . . , k und

P(Y = j) = π∙j

für j = 1, . . . , l

definieren. Seien weiter (X1 , Y1 ), . . . , (X n , Y n ) unabhängig und identisch wie (X, Y) verteilt. Dazu definiere man N ij als absolute Häufigkeit der Ausprägung (i, j) in der

628 | 11 Statistisches Testen

Stichprobe, d.h. n

n

N ij = ∑ ∑ I{i} (X r )I{j} (Y s ),

wobei

r=1 s=1

{1, falls X r = i, {1, falls Y s = j, I{i} (X r ) = { I{j} (Y s ) = { 0, sonst, 0, sonst. { { Weiter seien die absoluten Randhäufigkeiten der Ausprägungen i bzw. j: l

k

N i∙ = ∑ N ij

für i = 1, . . . , k bzw.

N∙j = ∑ N ij

j=1

für j = 1, . . . , l.

i=1

Dann lässt sich (mit größerem Aufwand) zeigen, dass für großes n gilt: k

l

χ2 = ∑ ∑ i=1 j=1

N i∙ N∙j 2 n ) a ∼ N i∙ N∙j n

(N ij −

χ2 ((k − 1)(l − 1)),

(11.3.3)

falls X und Y stochastisch unabhängig sind. Man beachte hierbei, dass im Falle der Unabhängigkeit das Multiplikationskriterium P(X = i, Y = j) = P(X = i)P(Y = j)

für alle i und j

erfüllt ist, d.h. π ij = π i∙ π∙j . Sofern man nun die relativen Häufigkeiten der einzelnen Ausprägungen von X und Y als Schätzer der theoretischen Wahrscheinlichkeiten π i∙ bzw. π∙j auffasst, d.h. ̂ i∙ = N i∙ /n π

bzw.

̂ ∙j = N∙j /n, π

lassen sich die Terme N i∙ N∙j ̂ i∙ ⋅ π ̂ ∙j , =n⋅π n als geschätzte erwartete Häufigkeiten auffassen. Denn theoretisch würde man die Ausprägung (i, j) bei Unabhängigkeit genau n ⋅ π ij = n ⋅ π i∙ ⋅ π∙j Mal erwarten. • Verbindung zum Chi-Quadrat- und Kontingenzkoeffizienten • In gewisser Weise wurden obige Sachverhalte im deskriptiven Teil dieses Lehrbuches schon einmal besprochen. So wurde die empirische Version der Statistik χ2 in Abschnitt 5.1.2 als Chi-Quadrat-Koeffizient bezeichnet und als nichtnormiertes Zusammenhangsmaß für Kontingenztabellen verwendet. Darauf baute dann der Kontingenzkoeffizient als normiertes Zusammenhangsmaß auf. Fasst man im Rahmen einer statistischen Modellierung die Beobachtungen als Realisierungen von Zufallsvektoren (X i , Y i ) auf, kann man jetzt feststellen, dass diese Kontingenzmessung zum statistischen Testpro-

11.3 Ausgewählte Testverfahren | 629

blem der Überprüfung der Unabhängigkeit X und Y führt. Der Chi-Quadrat-Koeffizient selbst wird dabei als Teststatistik verwendet. Der korrespondierende Test heißt χ2 Unabhängigkeitstest. Wie der Anpassungstest ist auch dieser Test als oberer einseitiger Test durchzuführen. Ein Wert von 0 bedeutet, dass das Multiplikationskriterium für Unabhängigkeit perfekt erfüllt ist. Große Werte der Teststatistik sprechen hingegen gegen Unabhängigkeit. Die interpretatorischen Überlegungen wurden bereits in Abschnitt 5.1.2 durchgeführt. • Approximationsregel • Ähnlich wie schon beim χ2 -Anpassungstest gibt es auch hier wieder unterschiedliche Auffassungen darüber, unter welchen Bedingungen die Verteilungsapproximation (11.3.3) noch zulässig ist (vgl. Büning und Trenkler [1994, Abschnitt 8.2]). Wir schließen uns hier der Empfehlung von Bamberg et al. [2012] an, gemäß der alle erwarteten Häufigkeiten größer oder gleich 5 sein sollten, d.h. n i∙ n∙j ≥ 5 für alle i, j. (11.3.4) n Damit stimmt die Approximationsbedingung mit derjenigen des Anpassungstests überein, wobei jetzt allerdings die erwarteten Häufigkeiten lediglich geschätzt sind. Speziell für den Fall von 2 × 2-Tabellen existieren jedoch gesonderte Empfehlungen, da sich hier die Approximationsbedingung (11.3.4) häufig als recht ungenau erweist. So wurde von Yates [1934] zur Verbesserung der Verteilungsapproximation eine Stetigkeitskorrektur vorgeschlagen, die teils auch von statistischen SoftwareProgrammen (wie etwa R) automatisch verwendet wird. Für n ≤ 40 wird teils auch empfohlen den exakten Test nach Fisher (kurz: Fisher-Test) zu verwenden (vgl. Büning und Trenkler [1994, S. 228]. • Beispiel 11.3.5: Geschlecht und Raucherstatus • Wir betrachten nochmals die Situation aus Beispiel 5.1.1 mit der Fortsetzung in Beispiel 5.1.2. Auf Basis der (2 × 3)Kontingenztabelle 5.1.9 ergaben sich Chi-Quadrat-Koeffizient bzw. korrigierter Kontingenzkoeffizient als χ2 = 1.875

bzw.

C K ≈ 0.1919.

Nun gilt es zu klären, ob die festgestellte Abhängigkeit als solche tatsächlich vorliegt (signifikant ist) oder möglicherweise nur zufällig ist. Wie sieht ein geeignetes statistisches Modell für den vorliegenden Fall dann aus? Sei X das Geschlecht und Y der Raucherstatus einer zufällig ausgewählten Person aus der interessierenden Grundgesamtheit. Konkret definieren wir {1, X={ 2, {

falls Frau,

1, { { { Y = {2, { { {3,

falls Raucher,

falls Mann,

und

falls Gelegenheitsraucher, falls Nichtraucher.

630 | 11 Statistisches Testen Hier gilt also k = 2 und l = 3. Die Stichprobe vom Umfang n = 100 wird durch unabhängige, wie (X, Y) verteilte Zufallsvektoren (X1 , Y1 ), . . . , (X n , Y n ) modelliert. Auf Basis des Multiplikationskriteriums lässt sich das Testproblem nun formulieren als H0 : P(X = i, Y = j) = P(X = i)P(Y = j)

für alle i = 1, 2 und j = 1, 2, 3 vs.

H1 : P(X = i, Y = j) ≠ P(X = i)P(Y = j)

für mindestens ein Paar (i, j).

Die Teststatistik (11.3.3) genügt unter H0 (bei Unabhängigkeit) approximativ einer χ2 (2)-Verteilung. Da nur große Werte von χ2 für die Alternative sprechen, wählen wir als kritischen Wert ein „oberes Quantil“ aus der Testverteilung. Bei einem Testniveau von 5% etwa erhält man dann (Tabelle A.3) c = χ22,0.95 ≈ 5.99. Da der Wert der Teststatistik mit χ2 = 1.875 diesen kritischen Wert nicht übersteigt, wird H0 bei einem Niveau von 5% nicht verworfen. Die gemessene Abhängigkeit zwischen Geschlecht und Raucherstatus ist bei einem Niveau von 5% folglich nicht signifikant. • Beispiel 11.3.6: Weißer und schwarzer Würfel • Weiter betrachten wir ebenfalls nochmals das Würfelexperiment aus Abschnitt 5.3.3 in Verbindung mit der (2 × 6)Tabelle 5.3.5. Zur Durchführung eines Unabhängigkeitstest wird diese zu Tabelle 11.3.4 erweitert. Tab. 11.3.4: Tatsächliche und zu erwartende Häufigkeiten mit jeweiligen Abweichungen Zahl 1

2

Weiß

9 (9) 0

6 (11) -5

14 (12) 2

10 (8) 2

Schwarz

9 (9) 0 18

16 (11) 5 22

10 (12) −2 24

6 (8) −2 16

Würfel

n∙j

3

4

5

6

n i∙

8 (7.5) 0.5

13 (12.5) 0.5

60

7 (7.5) −0.5 15

12 (12.5) −0.5 25

60 120

Die statistische Modellierung erfolgt analog zum vorhergehenden Beispiel, wobei X mit k = 2 die Würfelfarbe angibt (1=weiß, 2=schwarz) und Y mit l = 6 die geworfene Zahl. Mit (k − 1) × (l − 1) = 5 genügt die Teststatistik unter H0 approximativ einer χ2 (5)-Verteilung. Bei einem Testniveau von 5% lautet der kritische Wert dann (Tab. A.3) c = χ25,0.95 ≈ 11.07. Der Wert der Teststatistik ergibt sich als k

l

χ2 = ∑ ∑ i=1 j=1

n i∙ n∙j 2 n ) n i∙ n∙j n

(n ij −

=

(−0.5)2 02 (−5)2 22 + + + ⋅⋅⋅ + ≈ 6.32. 9 11 12 12.5

11.3 Ausgewählte Testverfahren | 631

Damit wird H0 bei einem Niveau von 5% nicht verworfen, was normalerweise natürlich auch richtig sein sollte. Die gemessene Abhängigkeit zwischen Würfelfarbe und geworfener Zahl ist bei einem Niveau von 5% nicht signifikant. Somit erübrigt sich auch eine inhaltliche Deutung der empirisch feststellbaren Abhängigkeit im Sinne des korrigierten Kontingenzkoeffizienten von immerhin C K = 0.32. Streng genommen trifft hier der gewählte Modellrahmen nicht ganz auf die Situation zu. So ergeben sich die Häufigkeiten n1∙ und n2∙ nicht etwa zufällig, sondern entsprechen den Vorgaben eines geplanten Experiments. Weißer und schwarzer Würfel werden jeweils 60 Mal gewürfelt. Deshalb betrachtet man eine Stichprobe heterogen verteilter Zufallsvariablen, die sich entsprechend den Farben Weiß und Schwarz (x = 1 und x = 2) gemäß Y1,1 , Y1,2 , . . . , Y1,60

und

Y2,1 , Y2,2 , . . . , Y2,60

gruppieren lassen und innerhalb ihrer Gruppen jeweils identisch verteilt sind. Alternativ zum obigen Modellansatz testet man dann, ob die den beiden Gruppen zugrunde liegenden diskreten Ausgangsverteilungen für die Würfelergebnisse übereinstimmen (homogen sind) oder nicht. Dies führt dann zum sog. χ2 -Homogenitätstest, der rein rechnerisch jedoch völlig identisch wie der Unabhängigkeitstest durchgeführt wird. Auf formalistische Ausführungen hierzu verzichten wir (vgl. etwa Fahrmeir et al. [2010, Abschnitt 11.2.2]). Natürlich besteht trotz dieser anderen Sichtweise ein enger Zusammenhang zum Konzept der stochastischen Unabhängigkeit von Zufallsvariablen. Die Situation ist vergleichbar mit derjenigen bei den approximativen Gauß-Tests für Erwartungswertdifferenzen, bei denen die Umfänge n0 und n1 sowohl nichtstochastisch als auch stochastisch modellierbar sind. • Beispiel 11.3.7: Placebo vs. Medikament • Im Rahmen einer klinischen Studie wird die Wirkung eines Medikaments im Vergleich zu einem Placebo untersucht. Stellen wir uns vor, das Ergebnis sei in der linken Hälfte von Tabelle 11.3.5 zusammengefasst. Von 85 erkrankten Probanden, denen ein Placebo verabreicht wurde, waren nach einer bestimmten Zeit 45 Personen wieder gesund. Demgegenüber waren von 110 erkrankten Probanden, die das (echte) Medikament erhielten, im selben Zeitraum 62 Personen wieder gesund. Unterscheidet sich nun die Wirkung von Medikament und Placebo signifikant? Wie in Abschnitt 5.1.2 ausgeführt, vereinfacht sich die Berechnungsformel für den Chi-Quadrat-Koeffizienten bei (2 × 2)-Tabellen. Das Gleiche gilt dann auch für die Teststatistik, also für die stochastische Version davon. Diese lautet χ2 =

n(N11 N22 − N12 N21 )2 N∙1 N∙2 N1∙ N2∙

und ist unter der Nullhypothese der Unabhängigkeit χ2 (1)-verteilt. Im vorliegenden Fall erhält man konkret χ2links =

200(40 ⋅ 62 − 45 ⋅ 48)2 ≈ 0.2326. 88 ⋅ 107 ⋅ 85 ⋅ 110

632 | 11 Statistisches Testen

Bei einem Testniveau von 5% ergeben sich mit dem kritischen Wert (Tab. A.3) c = χ21,0.95 ≈ 3.84 somit keine signifikante Unterschiede. Die Merkmale „verabreichtes Mittel“ und „Gesundung“ scheinen unabhängig zu sein. Man beachte, dass in dieser Testausführung auf die Stetigkeitskorrektur nach Yates verzichtet wurde (vgl. hierzu Punkt „Approximationsregel“ von zuvor), da die Besetzungshäufigkeiten ausreichend hoch sind. Tab. 11.3.5: Gleichstarker Zusammenhang bei unterschiedlicher Signifikanz Placebo Medikament

krank 40 48

gesund 45 62

Placebo Medikament

krank 4000 4800

gesund 4500 6200

Im Vergleich dazu betrachte man nun die rechte Hälfte von Tabelle 11.3.5. Sie ergibt sich aus der linken Hälfte, indem alle Besetzungshäufigkeiten mit 100 multipliziert werden. Relativ betrachtet ist die gemeinsame Verteilung der beiden Variablen also identisch. Gemäß den in Abschnitt 5.1.2 besprochenen Transformationseigenschaften erhält man als Chi-Quadrat-Koeffizienten bzw. als Teststatistik dann den 100fachen Wert, d.h. χ2rechts ≈ 22.68. Wenngleich der korrigierte Kontingenzkoeffizient links und rechts mit C K = 0.05 gleich ist, erhält man im rechten Fall nun auf einmal ein „hoch signifikantes“ Ergebnis. Dies liegt daran, dass Güte und Testentscheidung bei einem Test maßgeblich vom Stichprobenumfang abhängen. Wie in Abschnitt 11.2.4 besprochen, kann jeder noch so kleine Unterschied signifikant sein, sofern der Stichprobenumfang nur genügend groß ist. So unterscheiden sich die Gesundungsanteile von Medikament und Placebo hier nur um ca. 3 Prozentpunkte. Sie beträgt für das echte Medikament 56.4% und für das Placebo 52.9%. Das echte Medikament erscheint zwar wirksamer, aber eben nicht viel. Signifikanz ist deutlich von Relevanz zu unterscheiden. Analog wie im vorhergehenden Beispiel können die Umfänge der beiden Probandengruppen auch nichtstochastisch modelliert werden, insbesondere falls diese geplant waren. Dies führt dann zum χ2 -Homogenitätstest, der, wie bereits gesagt, rechnerisch völlig identisch durchgeführt wird. Dieser Test ist äquivalent zu einem speziellen approximativen Binomialtest für eine Anteilswertdifferenz bei nichtstochastischen Gruppenumfängen. Der χ2 -Unabhängigkeitstest ist hingegen äquivalent zu demselben Test bei stochastischen Umfängen. Man beachte hierzu Satz 11.3.7 in Verbindung mit Beispiel 11.3.8. • Zusammenfassung • Fassen wir den χ2 -Unabhängigkeitstest zusammen. In Bezug auf den eng verwandten χ2 -Homogenitätstest sei auf die Erläuterungen in den vorhergehenden Beispielen 11.3.6 und 11.3.7 verwiesen.

11.3 Ausgewählte Testverfahren | 633

Satz 11.3.4: χ2 -Unabhängigkeitstest Seien (X1 , Y1 ), . . . , (X n , Y n ) u.i.v. wie (X, Y), wobei (X, Y) diskret verteilt ist mit Trägermenge T XY = {1, . . . , k} × {1, . . . , l}, wobei k, l ≥ 2. Gegeben sei folgendes Testproblem: H0 : P(X = i, Y = j) = P(X = i)P(Y = j)

für alle (i, j) ∈ T XY vs.

H1 : P(X = i, Y = j) ≠ P(X = i)P(Y = j)

für mindestens ein (i, j) ∈ T XY .

Dann basiert die Entscheidungsregel eines Tests zum Niveau α auf dem Resultat k

l

χ2 = ∑ ∑ i=1 j=1

N i∙ N∙j 2 n ) a ∼ N i∙ N∙j n

(N ij −

χ2 ((k − 1)(l − 1))

unter H0 .

Dabei lehnt sich die Notation an diejenige für Kontingenztabellen an. Die Entscheidungsregel lautet dann: Verwerfe H0 , falls χ2 > χ2(k−1)(l−1),1−α und sonst nicht. Der Test ist anwendbar, falls n i∙ n∙j ≥ 5 für alle (i, j) ∈ T XY . n Ferner können X und Y auch kategorisierte (diskretisierte) Zufallsvariablen sein.

11.3.4 Weitere Tests Tests über Anteilswerte • Exakter Binomialtest • Sei X1 , . . . , X n eine Stichprobe unabhängiger B(1, π)verteilter Stichprobenvariablen. Beispiele für die Durchführung von Tests in Bezug auf den theoretischen Anteilswert π wurden bereits in Abschnitt 11.1.1 ausführlich besprochen. Basiert ein Test auf der Summe n

Sn = ∑ Xi i=1

als Teststatistik und einer Binomialverteilung als Testverteilung, so bezeichnet man den Test als exakten Binomialtest (vgl. hierzu die Beispiele 11.1.1 bis 11.1.3). Die diskrete Testverteilung bringt es mit sich, dass im Gegensatz zu stetigen Testverteilungen nicht zu jedem vorgegegebenen Testniveau α ein Test so durchgeführt werden kann, dass α ausgeschöpft wird. Betrachten wir hierzu nochmals kurz Beispiel 11.1.1 in Verbindung mit Abbildung 11.1.1. Soll hier etwa ein exakter Binomialtest genau zum Niveau α = 5% durchgeführt werden, so ist dies (mit herkömmlichen Mitteln) nicht möglich. Wählt man wie im Beispiel c = 19 als kritischen Wert, so liegt das Testni-

634 | 11 Statistisches Testen

veau mit 4.9% leicht darunter, wählt man hingegen 18 als kritischen Wert, so ist man mit 10.0% schon deutlich darüber. Eine mögliche Konvention könnte deshalb darin bestehen, dass bei Vorgabe eines bestimmten Niveaus, der kritische Wert stets so gewählt wird, dass das Testniveau entweder exakt eingehalten wird (was nur selten der Fall sein dürfte) oder nächstmöglich unterboten wird. Bei einem Testniveau von 5% würde man sich dann also für c = 19 entscheiden. Bei einem zweiseitigen exakten Binomialtest, wie etwa in Beispiel 11.1.3, wäre die Regelung freilich wieder komplizierter, da hier ein unterer und ein oberer kritischer Wert zu wählen wären. Wir verzichten an dieser Stelle auf eine detaillierte Besprechung bzw. konventionelle Regelung. • Approximativer Binomialtest • Binomialtests lassen sich in großen Stichproben auch als approximative Gauß-Tests sowohl in einer nichtstandardisierten als auch in einer standardisierten Variante durchführen. Grundlage hierfür bilden die Verteilungsresultate (11.1.8) und (11.1.9) bzw. (11.1.10). Dies wurde anhand der Einführungsbeispiele in Abschnitt 11.1.1 bereits ausführlich dargestellt. Im Folgenden sei nur die standardisierte Variante auf Basis von Resultat (11.1.10), d.h. des Stichprobenmittels, zusammengefasst. Satz 11.3.5: Approximativer Binomialtest Seien X1 , . . . , X n unabhängig B(1, π)-verteilt mit 0 < π < 1. Gegeben seien folgende Testprobleme: a) H0 : π ≥ π0 vs. H1 : π < π0 , b) H0 : π ≤ π0 vs. H1 : π > π0 , c) H0 : π = π0 vs. H1 : π ≠ π0 , Dann basieren die Entscheidungsregeln eines Tests zum Niveau α, falls n groß ist, auf dem Resultat ̂ − π0 π a ∼ N(0, 1) für π = π0 Z= √ π0 (1 − π0 )/n und lauten: Verwerfe H0 in a) , falls z < −z1−α , b) , falls z > z1−α , c) , falls |z| > z1−α/2 , d.h. z < −z1−α/2 oder z > z1−α/2 . ̂ der Anteil von Einsen in der Stichprobe. Der Test wird als approximativer Dabei ist π Binomialtest bezeichnet und ist für n ≥ 30 anwendbar. Man beachte, dass die Varianz der Grundgesamtheit nicht durch die Stichprobenvarianz geschätzt werden muss. Vielmehr ergibt sich diese aus dem hypothetischen Anteilswert π0 als σ2 = π0 (1 − π0 ). Dennoch wäre es nicht ganz richtig oder zumindest

11.3 Ausgewählte Testverfahren | 635

missverständlich, von einer „bekannten Varianz“ zu sprechen. Denn der Wert π0 ist lediglich ein hypothetisch angenommener Wert, der zur Testdurchführung benötigt wird und im Allgemeinen nicht mit dem wahren Anteilswert übereinstimmt. Insofern trifft hier Fall (iii) von Satz 11.3.1 nur in einer speziellen Konstellation zu. • Binomialtests als Tests über den Median • Speziell für π0 = 0.5 kann der Binomialtest (exakt oder approximativ) auch als Test über den theoretischen Median q0.5 einer stetigen Verteilung verwendet werden. Ausgangspunkt ist dann eine Stichprobe (u.i.v.) stetig verteilter Zufallsvariablen. Nimmt man nun hypothetisch den Wert m0 als theoretischen Median der zugrunde liegenden Verteilung an, d.h. q0.5 = m0 , so impliziert dies P(X i > m0 ) = 0.5

für i = 1, . . . , n,

da der Median gerade mit 50%iger Wahrscheinlichkeit überschritten wird. Anstelle von „>“ kann aufgrund der Stetigkeit der Verteilung ohne Weiteres auch „≥“ gewählt werden. Dies wiederum impliziert, dass die dichotomisierten Variablen Y1 , . . . , Y n mit Y i = I(m0 ,∞) (X i )

für i = 1, . . . , n

unabhängig B(1, 0.5)-verteilt sind. Ist der Median tatsächlich größer, d.h. q0.5 > m0 , so sind diese hingegen B(1, π)-verteilt mit π > 0.5. Da nun mehr als 50% Wahrscheinlichkeitsmasse oberhalb des Wertes m0 liegt, steigt die Wahrscheinlichkeit einer Überschreitung von m0 . Gilt umgekehrt q0.5 < m0 , so sind diese entsprechend B(1, π)verteilt mit π < 0.5. Somit lässt sich ein Test zum Testproblem H0 : q0.5 ≤ m0

vs.

H1 : q0.5 > m0

vs.

H1 : π > 0.5

als Binomialtest zum Testproblem H0 : π ≤ 0.5

durchführen. Analoges würde für einen unteren einseitigen Test und für einen zweiseitigen Test gelten. Betrachten wir nochmals die Situation aus Beispiel 11.3.4. Wir fassen nun die 50 gemessenen Längen von Metallstiften als Realisation einer Stichprobe aus irgendeiner stetigen, aber unbekannten Verteilung auf. Uns interessiert, ob signifikant mehr als die Hälfte der Schrauben kürzer sind als 40 mm. Dazu betrachten wir das Testproblem H0 : q0.5 ≥ 40

vs.

H1 : q0.5 < 40.

Entsprechend führen wir hierzu einen approximativen Binomialtest (nach unten) über H0 : π ≥ 0.5

vs.

H1 : π < 0.5

durch. Da von den insgesamt 50 Werten nur 20 Werte größer sind als 40, weicht der relative Anteil von 0.4 schon einmal nach unten hin vom Sollanteil 0.5 ab. Als Wert

636 | 11 Statistisches Testen

der Teststatistik erhält man damit 0.4 − 0.5 ≈ −1.4142. z= √0.5(1 − 0.5)/50 Bei einem Testniveau von 5% mit dem kritischen Wert −z0.95 ≈ −1.64 erweist sich diese Abweichung jedoch nicht als signifikant, da z ≈ −1.4142 δ0 , c) H0 : π1 − π0 = δ0 vs. H1 : π1 − π0 ≠ δ0 . Dann basieren die Entscheidungsregeln eines Tests zum Niveau α, falls n0 und n1 groß und die Bedingung n→∞

n1 /n 󳨀󳨀󳨀󳨀󳨀→ π ∈ (0, 1) erfüllt sind, auf dem Resultat ̂D = T

̂1 − π ̂ 0 − δ0 π π0 ) √ π̂ 0 (1−̂ n0

+

̂ 1 (1−̂ π π1 ) n1

a

∼ N(0, 1)

für π1 − π0 = δ0

und lauten: Verwerfe H0 in a) , falls ̂t D < −z1−α , b) , falls ̂t D > z1−α , c) , falls |̂t D | > z1−α/2 , d.h. ̂t D < −z1−α/2 oder ̂t D > z1−α/2 ,

11.3 Ausgewählte Testverfahren | 637

Dabei sind ̂0 = Y0 π

und

̂1 = Y1 π

die Anteile von Einsen in den jeweiligen Gruppen. Der Test wird hier als approximativer Binomialtest über eine Anteilswertdifferenz bezeichnet und ist für n0 , n1 ≥ 30 anwendbar. Man beachte, dass Annahme (B) von Definition 8.2.1 erfüllt ist, da die Trägermengen der beiden Verteilungen mit T0 = T1 = {0, 1} beschränkt sind. Ferner gilt aufgrund von Resultat (10.2.38): 1 n0 ̂ 0 ) = S̃ 20 = ̂ 0 (1 − π π ∑ (Y0i − Y 0 )2 und n0 i=1 1 n1 ̂ 1 (1 − π ̂ 1 ) = S̃ 21 = π ∑ (Y1i − Y 1 )2 . n1 i=1 Die Schätzung der Varianzen basiert also auf den nichtkorrigierten Stichprobenvarianzen. Somit handelt es sich tatsächlich um eine Spezialisierung des vierten Falls von Satz 11.3.2. Wie bereits nach Satz 11.3.2 angemerkt, vermeiden wir es, diesen Test als Zweistichproben-Test zu bezeichnen, sondern präferieren die Betrachtung einer einzigen Stichprobe mit heterogen verteilten Zufallsvariablen. Speziell für δ0 = 0 sind die n Stichprobenvariablen identisch B(1, π)-verteilt mit π = π0 = π1 . Aufgrund der damit verbundenem Homoskedastizität kann die Schätzung des Standardfehlers deshalb effizienter gestaltet werden gemäß: √

̂ (1 − π ̂) ̂ (1 − π ̂) π π + n0 n1

̂= mit π

1 ̂ 0 + n1 π ̂ 1 ). (n0 π n

Satz 11.3.7: Test über eine Anteilswertdifferenz δ0 = 0 Gegeben seien die Voraussetzungen und Testprobleme von Satz 11.3.6. Dann basieren die Entscheidungsregeln für δ0 = 0 auf dem Resultat ̃̃ = T D

̂1 − π ̂0 π π) √ π̂ (1−̂ n0

+

̂ (1−̂ π π) n1

a

∼ N(0, 1)

̂= mit π

1 ̂ 0 + n1 π ̂ 1 ). (n0 π n

Sofern dieser Test zweiseitig durchgeführt wird, ist dieser völlig äquivalent zu einem χ2 -Homogenitätstest. Denn es gilt: ̃̃ 2 = χ2 , wobei χ2 die Teststatistik aus (11.3.3) ist, und (i) T D ̃̃ 2 ∼a χ2 (1), falls T ̃̃ ∼a N(0, 1). (ii) T D D

638 | 11 Statistisches Testen

Quadriert man die Teststatistik über die Anteilsdifferenz, erhält man gerade die Teststatistik eines entsprechenden Homogenitätstests. Außerdem genügt eine quadrierte N(0, 1)-verteilte Zufallsvariable einer χ2 (1)-Verteilung, sodass sich die kritischen Werte der Testverteilungen direkt umrechnen lassen. Der approximative Binomialtest über „H0 : π1 − π0 = 0“ ist äquivalent zu einem entsprechenden χ2 -Homogenitätstest. • Beispiel 11.3.7 fortgesetzt (Placebo vs. Medikament) • Betrachten wir erneut die Situation aus Beispiel 11.3.7 (Placebo vs. Medikament). Die Wirksamkeit der beiden Verabreichungsformen werde nun über deren „Genesungswahrscheinlichkeiten“ definiert und statistisch verglichen. Dies lässt sich entsprechend mittels Tests über theoretische Anteilsdifferenzen modellieren. In Anlehnung an die Notation von Satz 11.3.6 werden die Probanden über Bernoulli-verteilte Stichprobenvariablen Y01 , Y02 , . . . , Y0n0

Y11 , Y12 , . . . , Y1n1 ,

und

modelliert, wobei erstere n0 Variablen für die Ergebnisse der Placebo-Behandlung stehen und letztere n1 Variablen für die der Medikament-Behandlung. Dabei seien π0 und π1 die Wahrscheinlichkeiten, nach Einnahme des Placebos bzw. des Medikaments gesund zu werden („Genesungswahrscheinlichkeiten“). Angenommen, man interessiere sich zunächst dafür, ob sich die beiden Wahrscheinlichkeiten bei einem Niveau von 5% signifikant unterscheiden. Das Testproblem lautet dann H0 : π1 − π0 = 0

vs.

H1 : π1 − π0 ≠ 0.

Sowohl für die Daten der linken Hälfte als auch der rechten Hälfte von Tabelle 11.3.5 erhält man als geschätzte Wahrscheinlichkeiten ̂ 0 = 45/85 ≈ 0.5294 π

bzw.

̂ 1 = 62/110 ≈ 0.5636. π

Gemäß Satz 11.3.7 erhält man daraus dann 1 ̂ = (n0 π ̂ 0 + n1 π ̂ 1 ) = (45 + 62)/195 ≈ 0.5487 π n als geschätzte „globale Genesungswahrscheinlichkeit“ und als Teststatistiken ̃̃ links = T D ̃̃ rechts = T D

̂1 − π ̂0 π π) √ π̂ (1−̂ 85

+

̂ (1−̂ π π) 110

̂1 − π ̂0 π (1−̂ π) √ π̂8500

+

̂ (1−̂ π π) 11000

≈ 0.4762 bzw. ≈ 4.7624

für die kleinere bzw. die größere Stichprobe. Da der Test zweiseitig durchgeführt wird, lautet der kritische Wert z0.975 ≈ 1.96 (Tab. A.1), der betragsmäßig überschritten wer-

11.3 Ausgewählte Testverfahren | 639

den muss. Somit ist die Wirkung nur bei der größeren Stichprobe signifikant nachweisbar. Ein Abgleich mit Beispiel 11.3.7 zeigt, dass die im vorhergehenden Punkt beschriebene Äquivalenz zum χ2 -Homogenitätstest tatsächlich erfüllt ist. So gilt (von Rundungsfehlern abgesehen) zum einen für die Teststatistiken ̃̃ links )2 ≈ 0.2268 ≈ χ2 (T D links

bzw.

̃̃ rechts )2 ≈ 22.68 ≈ χ2 (T D rechts

und zum anderen für die kritischen Werte (z0.975 )2 ≈ 1.962 ≈ 3.84 ≈ χ21,0.95 . • Beispiel 11.3.8: Test auf klinische Relevanz • Die allgemeinere Form des approximativen Binomialtests für Anteilswertdifferenzen mit δ0 ≠ 0 erlaubt Tests, die auch Aussagen über einen Mindestabstand zweier Anteilswerte machen. Gerade im Hinblick auf die Wirksamkeit eines Medikaments mag dies interessant sein. In der Situation des vorhergehenden Beispiels sollte das echte Medikament im Vergleich zum Placebo nicht nur signifikant wirksamer sein, sondern auch „relevant wirksamer“ sein. Man beachte hierzu die Ausführungen zum Signifikanz-Relevanz-Problem in Abschnitt 11.2.4. Das Medikament sollte also um einen als relevant eingestuften Mindestunterschied besser sein als das Placebo. In Absetzung zum Signifikanzbegriff hat sich in der Medizin hierfür der Begriff der klinischen Relevanz etabliert (vgl. hierzu etwa Windeler und Conradt [1999] oder Baulig et al. [2008]). Angenommen, ein Medikament erhalte nur dann eine Zulassung, wenn es eine um mindestens 5 Prozentpunkte höhere Genesungswahrscheinlichkeit aufweist als ein Placebo. In der Situation aus dem vorhergehenden Beispiel würde das Testproblem dann lauten: H0 : π1 − π0 ≤ 0.05

vs.

H1 : π1 − π0 > 0.05.

Da der Zähler der Teststatistik gemäß Satz 11.3.6 (b) mit ̂ 0 − δ0 ≈ 0.5636 − 0.5294 − 0.05 = −0.0158 ̂1 − π π bereits negativ ist, führt dies auf jeden Fall zu einem p-Wert, der größer als 0.5 ist . Es sollte klar sein, dass sich die beiden Wahrscheinlichkeiten zu üblichen Testniveaus nicht signifikant um mehr als 0.05 unterscheiden können, falls die geschätzte Differenz mit 3.42 Prozentpunkten bereits geringer ausfällt. Testet man hingegen H0 : π1 − π0 ≤ 0.02

vs.

H1 : π1 − π0 > 0.02,

so erhält man mit ̂1 − π ̂ 0 − δ0 ≈ 0.5636 − 0.5294 − 0.02 = 0.0142 π gemäß Satz 11.3.6 (b) die Teststatistiken ̂t links = D

0.0142 π0 ) √ π̂ 0 (1−̂ + 85

̂ 1 (1−̂ π π1 ) 110

≈ 0.1975 und

640 | 11 Statistisches Testen

̂t rechts = D

0.0142 (1−̂ π0 ) √ π̂ 08500

+

̂ 1 (1−̂ π π1 ) 11000

≈ 1.9755.

Mit z0.95 ≈ 1.64 als kritischen Wert zum Niveau 5% wird H0 somit bei der größeren, nicht aber bei der kleineren Stichprobe verworfen. Die Genesungswahrscheinlichkeit des echten Medikaments ist im Falle der größeren Stichprobe folglich um mindestens 2 Prozentpunkte signifikant höher als beim Placebo.

Tests auf Unkorreliertheit und Unabhängigkeit • Korrelationstest • Sofern metrisch skalierte Daten vorliegen, kann ein Test auf Korreliertheit auf Basis des Korrelationskoeffizienten nach Pearson durchgeführt werden. Der Test und seine verteilungstheoretischen Grundlagen wurden maßgeblich von Fisher [1915, 1921] eingeführt. In der klassischen Variante wird er als t-Test durchgeführt. Folgender Satz fasst Rahmenbedingungen, Grundlagen und Entscheidungsregeln der einzelnen Testvarianten zusammen. Satz 11.3.8: Korrelationstest Seien (X1 , Y1 ), . . . , (X n , Y n ) unabhängig gemeinsam normalverteilt und ϱ XY die theoretische Korrelation zwischen X i und Y i , d.h. ϱ XY = Corr(X i , Y i )

für i = 1, . . . , n.

Gegeben seien folgende Testprobleme über ϱ XY : a) H0 : ϱ XY ≥ 0 vs. H1 : ϱ XY < 0, b) H0 : ϱ XY ≤ 0 vs. H1 : ϱ XY > 0, c) H0 : ϱ XY = 0 vs. H1 : ϱ XY ≠ 0. Dann basieren die Entscheidungsregeln eines Tests zum Niveau α auf dem Resultat TR =

R XY √1 − R2XY

√n − 2 ∼ t(n − 2)

für ϱ XY = 0

und lauten: Verwerfe H0 in a) , falls t R < −t n−2,1−α , b) , falls t R > t n−2,1−α , c) , falls |t R | > t n−2,1−α/2 , d.h. t R < −t n−2,1−α/2 oder t R > t n−2,1−α/2 , Dabei bezeichnet R XY die Stichprobenkorrelation. Der Test wird hier als t-Test auf Unkorreliertheit oder kurz als Korrelationstest bezeichnet.

11.3 Ausgewählte Testverfahren | 641

Man beachte, dass der Nullhypothesenwert ϱ XY = 0 die Unabhängigkeit von X und Y impliziert, da Unabhängigkeit und Unkorreliertheit bei gemeinsamer Normalverteilung äquivalent sind (Abschnitt 8.3.3). Insofern ist Testvariante c) zugleich ein Test auf Unabhängigkeit. Die Durchführung von Tests für Testprobleme der Form H0 : ϱ XY = ϱ0 mit ϱ0 ≠ 0 beruht auf der sog. z-Transformation nach Fisher zur Erzielung einer approximativen Normalverteilung. Sie wird hier nicht besprochen. Nähere Hinweise hierzu finden sich etwa bei Sachs und Hedderich [2012, Abschnitt 7.7.2]. Der Korrelationstest lässt sich im Rahmen des einfachen linearen Regressionsmodells äquivalent als Test über den theoretischen Steigungskoeffizienten durchführen. Ausführungen hierzu finden sich in Abschnitt 12.1.4. Die Annahme einer gemeinsamen (bivariaten) Normalverteilung stellt für die Praxis eine sehr restriktive Bedingung dar. Eine alternative Möglichkeit, die Unabhängigkeit zweier stetiger Zufallsvariablen zu überprüfen, bestünde darin, beide Variablen X und Y auf Größenklassen zu kategorisieren und dann auf Basis der Stichprobe einen χ2 -Unabhängigkeitstest durchzuführen. Allerdings unterliegt die Klassenbildung einer gewissen Willkür. Der mit der Klassenbildung einhergehende Informationsverlust (Werte innerhalb der Klassen werden quasi als gleich erachtet) könnte außerdem auch zu einem Güteverlust führen, insbesondere falls insgesamt nur wenige Beobachtungen bzw. Klassen vorliegen. Der Korrelationstest kann aber auch unter allgemeineren Annahmen zur Prüfung der Unabhängigkeit verwendet werden (nächster Punkt). • Approximativer Gauß-Test auf Unabhängigkeit • Es kann gezeigt werden, dass die Teststatistik T R auch bei Nichtvorliegen einer gemeinsamen Normalverteilung approximativ normalverteilt ist. Gemäß Witting und Müller-Funk [1995, S. 108] gilt dies etwa, falls X und Y unabhängig sind, die vierten Momente existieren und die Stichprobe genügend groß ist. Hiermit lässt sich zumindest Testvariante c) von Satz 11.3.8 zu einem approximativen Test auf Unabhängigkeit wie folgt umfunktionieren. Satz 11.3.9: Approximativer Gauß-Test auf Unabhängigkeit Seien (X1 , Y1 ), . . . , (X n , Y n ) unabhängig identisch verteilt wie (X, Y), wobei die Momente aller Stichprobenvariablen endlich sind, d.h. Annahme (M) von Definition 8.2.1 erfüllt ist. Gegeben sei folgendes Testproblem: H0 : X und Y sind unabhängig

vs.

H1 : X und Y sind abhängig.

Dann basiert die Entscheidungsregel eines Tests zum Niveau α auf dem Resultat a

T R ∼ N(0, 1)

unter H0

642 | 11 Statistisches Testen

und lautet: Verwerfe H0 , falls |t R | > z1−α/2 , d.h. t R < −z1−α/2 oder t R > z1−α/2 . Der Test wird hier als approximativer Gauß-Test auf Unabhängigkeit bezeichnet und ist für n ≥ 30 anwendbar. Man beachte, dass wir (wie bisher schon immer) von der stärkeren und leichter einprägsamen Annahme (M) Gebrauch machen. An sich wären endliche vierte Momente ausreichend. Zur Formulierung von H0 bzw. H1 wird die theoretische Korrelation nicht verwendet, da aus Unkorreliertheit keine Unabhängigkeit folgt und H1 als Gegenteil von H0 formuliert werden sollte. Ungeachtet dessen würde man im Falle einer Verwerfung von H0 sicherlich davon ausgehen, dass Corr(X, Y) ≠ 0 ist, auch wenn die Alternativhypothese (Abhängigkeit) keine Korreliertheit impliziert. Dennoch liegt dieser Schluss nahe, da die Teststatistik nun einmal maßgeblich auf dem Korrelationskoeffizienten basiert. Eine Verwerfung von H0 unter Corr(X, Y) = 0 erscheint deshalb relativ unwahrscheinlich. • Welche Korrelation genügt zur Signifikanz? • Man könnte sich nun auch fragen, ab welcher Korrelation H0 überhaupt verworfen wird. Bei einem Testniveau von α mit α ∈ (0, 0.5) betrachten wir hierfür beim t-Test die Ungleichung |T R | > t n−2,1−α/2 . Mit entsprechenden Umformungen führt dies zum Kriterium |r XY | > √

t2n−2,1−α/2 n − 2 + t2n−2,1−α/2

.

(11.3.5)

Man beachte, dass für n ≥ 30 anstelle der t-Quantile Normalverteilungsquantile verwendet werden können, sodass (11.3.5) für n ≥ 30 auch für den approximativen GaußTest auf Unabhängigkeit Gültigkeit besitzt. Für n = 10 und α = 0.05 beispielsweise erhalten wir |r XY | > √

t28,0.975 8 + t28,0.975

≈√

2.30602 ≈ 0.63. 8 + 2.30602

Jede Korrelation, die betragsmäßig kleiner ist als 0.63 ist, wäre für n = 10 und α = 0.05 folglich nicht mehr signifikant von 0 verschieden. Abbildung 11.3.5 illustriert den Zusammenhang zwischen Korrelation und Teststatistik für n = 10, 30 und 100. Dazu wurde in das rechte Schaubild das 0.975-Quantil der Standardnormalverteilung eingezeichnet, also die Signifikanzgrenze zum Niveau 5% für großes n. Demnach ist selbst bei einem Stichprobenumfang von n = 100 noch eine Mindestkorrelation von 0.20 zur Erzielung von Signifikanz erforderlich. Es gilt die Faustregel:

11.3 Ausgewählte Testverfahren | 643

tR

tR 100

5

n = 100 n = 30 n = 10

80 60

4 3

40

2

20

1

0

α = 0.05

0 0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

rXY

0.4 rXY

0.6

0.8

Abb. 11.3.5: Zusammenhang von Korrelation und Teststatistik

Jede Korrelation, die betragsmäßig kleiner als 0.20 ist, ist für n ≤ 100 nicht signifikant. • Beispiel 11.3.9: Einige Fallbeispiele für Tests auf Unkorreliertheit und Unabhängigkeit • Betrachten wir zunächst die Situation aus Beispiel 5.2.5 in Verbindung mit dem Streudiagramm von Abbildung 5.2.5. Sofern die Daten als Realisation einer Stichprobe interpretiert werden, erscheint die Annahme einer bivariaten Normalverteilung durchaus realistisch. So ist die Punktwolke mit der elliptischen Gestalt einer solchen Verteilung gut vereinbar. Auf Basis von Tabelle 5.2.2 ergibt sich eine Korrelation von 2.45 ≈ 0.6730. r XY ≈ √5.89 ⋅ 2.25 Testen wir nun etwa zweiseitig H0 : ϱ XY = 0

vs.

H1 : ϱ XY ≠ 0,

so erhalten wir für n = 10 als Wert der Teststatistik 0.6730 ≈ 2.5736. t R ≈ √8 √1 − 0.67302 Bei einem Testniveau von 5% kommen wir mit c = t8,0.975 ≈ 2.31 als kritischen Wert zu einer Verwerfung von H0 . Die Korrelation ist zum Niveau 5% also signifikant von 0 verschieden. Da t8,0.995 ≈ 3.36 ist, ergibt sich ein p-Wert, der größer als 0.01 ist. Als nächstes betrachten wir nochmals die Situation aus Beispiel 5.2.2 mit der korrespondierenden Korrelationsmatrix Größe

Gewicht

Schuhgröße

Schlaf

Größe

1.0000

0.7149

0.8444

0.0209

Gewicht

0.7149

1.0000

0.7189

−0.0058

Schuhgröße

0.8444

0.7189

1.0000

−0.0168

Schlaf

0.0209

−0.0058

−0.0168

1.0000

644 | 11 Statistisches Testen

Da die Korrelationswerte jeweils auf über 200 Beobachtungswerten beruhen, sind alle Werte bis auf die Korrelationen mit der Variable „Schlaf“ signifikant von 0 verschieden. Dies ergibt sich aus vorhergehender Faustregel. Inhaltlich ist dies natürlich äußerst plausibel. Schließlich betrachten wir nochmals das Würfelexperiment gemäß dem linken Schaubild von Abbildung 5.3.20. Zwei Würfel werden hier jeweils 10 Mal geworfen. Die hierbei auftretende Korrelation ist rein zufällig. Gemäß dem Kriterium (11.3.5) wäre diese erst ab etwa 0.63 signifikant. Allerdings muss hier angemerkt werden, dass die Würfelergebnisse diskret verteilt sind und die Normalverteilungsannahme somit nicht zutreffend ist. Auch der approximative Gauß-Test auf Unabhängigkeit gemäß Satz 11.3.9 ist mit n = 10 noch nicht anwendbar. Dennoch gibt die auf der Normalverteilungsannahme basierende Signifikanzgrenze von 0.63 einen ersten groben Anhaltspunkt. Eine Möglichkeit zur Gewinnung einer genaueren Entscheidungsgrenze wäre die Durchführung eines Monte-Carlo-Test (siehe nächster Punkt).

Sonstige Tests und Testmethoden • Vorbemerkung • Die Anzahl und Variationsbreite statistischer Tests im Rahmen mehr oder weniger komplexer statistischer Modelle ist sehr groß. Die bisher vorgestellten Verfahren gehören allesamt zur Gruppe der bekanntesten Standard-Tests. Einen selektiven Einblick in die Vielfalt vieler weiterer Testprobleme und Tests bieten beispielsweise Sachs und Hedderich [2012]. Wir beschränken uns im Folgenden darauf, einige weitere Tests kurz zu skizzieren, die einen relativ engen Bezug zu den bisherig behandelten aufweisen und sich ohne größeren Aufwand im Eigenstudium erschließen lassen. • Binomialtests über Quantile • So wie sich der Binomialtest (exakt oder approximativ) als Test über den Median spezialisieren lässt, kann er auf analoge Weise als Test über jedes andere Quantil verwendet werden. Hierzu ist lediglich die entsprechende Wahrscheinlichkeit π0 anzupassen und die korrespondierende Testverteilung anzugleichen. Bezeichne beispielsweise q0.25 das 0.25-Quantil der stetigen u.i.v. Zufallsvariablen X1 , . . . , X n , d.h. P(X > q0.25 ) = 0.75. Unter ansonsten gleichen Rahmenbedingungen wäre dann das Testproblem H0 : q0.25 ≤ m0

vs.

H1 : q0.25 > m0

vs.

H1 : π > 0.75.

äquivalent zu einem Testproblem H0 : π ≤ 0.75 Mit Y i = I(m0 ,∞) (X i )

für i = 1, . . . , n

ergibt sich dann eine B(n, 0.75)-Verteilung als Testverteilung.

11.3 Ausgewählte Testverfahren | 645

• F-Tests über Varianzen • Nicht nur Erwartungswerte lassen sich statistisch vergleichen, sondern auch theoretische Varianzen. Hierfür verwendet man einen speziellen F-Test, der, wie der Name schon vermuten lässt, auf der F-Verteilung als Testverteilung beruht (vgl. etwa Schira [2012, Abschnitt 15.8]). Dieser Test mag insbesondere auch interessant sein, um in bestimmten Situationen die Annahme der Homoskedastizität zu prüfen. • F-Tests auf Gleichheit von Erwartungswerten und ANOVA • Den in Satz 11.3.2 vorgestellten Tests über Erwartungswertdifferenzen liegt eine Stichprobe zugrunde, die sich in zwei Gruppen von Stichprobenvariablen aufteilen lässt. Dies lässt sich prinzipiell auch auf k Gruppen mit k ≥ 2 verallgemeinern. Speziell wird dann aus einem Test zum Testproblem H0 : μ0 = μ1

vs.

H 1 : μ 0 ≠ μ 1

ein Test über die Gleichheit von k Erwartungswerten, d.h. H0 : μ1 = μ2 = ⋅ ⋅ ⋅ = μ k vs. H1 : μ i ≠ μ j für mindestens ein Paar (i, j), i ≠ j. Diese Tests werden wie im vorhergehenden Punkt ebenfalls als F-Tests durchgeführt, jedoch anders konstruiert. Sie werden auch als ANOVA-F-Tests bezeichnet, da sie auf dem Gebiet der Varianzanalyse (Analysis of Variance) häufig verwendet werden. Die korrespondierenden statistischen Modelle (Varianzanalyse-Modelle oder ANOVAModelle) lassen sich dabei als spezielle Regressionsmodelle darstellen (vgl. Fallbeispiel 4 in Abschnitt 12.2.3). • Tests auf Normalverteilung • Im Rahmen vieler statistischer Modelle wird regelmäßig von einer Normalverteilungsannahme Gebrauch gemacht. Sofern sich diese auf eine beobachtbare Variable bezieht, lässt sich diese auch statistisch prüfen. Prinzipiell lässt sich hierfür der χ2 -Anpassungstest, wie in Beispiel 11.3.4 demonstriert, verwenden. Allerdings unterliegt dieser Test, wie im Punkt „Die Frage der Klassenwahl bei Kategorisierung“ besprochen, aufgrund der vorzunehmenden Klasseneinteilung stets einer gewissen Willkür. In der Praxis wird deshalb meist von anderen Testverfahren wie etwa dem Kolmogoroff-Smirnov-Test, dem Shapiro-Wilk-Test, dem Jarque-Bera-Test oder dem Anderson-Darling-Test Gebrauch gemacht. An Alternativen mangelt es offensichtlich nicht. Zur Bedeutung der Normalverteilungsannahme beachte man jedoch auch den entsprechenden Punkt „Normal- vs. nicht normalverteilt“ in Abschnitt 10.2.5. • Korrelationstests nach Spearman • Gegeben sei die Situation aus Beispiel 5.1.5 (Glaube und Sternzeichen). An sich ist hier aus Abbildung 5.1.8 ein offensichtlicher Zusammenhang bereits gut erkennbar. Ein Test auf Unkorreliertheit oder Unabhängigkeit gemäß Satz 11.3.8 bzw. 11.3.9 erscheint für diesen Fall jedoch nicht angebracht, da

646 | 11 Statistisches Testen

hier ordinale Merkmale in gewisser Weise beliebig metrisiert wurden (vgl. hierzu den Punkt „Zusammenhangsmaße für ordinale Merkmale“ in Abschnitt 5.3.1). Geeignete Zusammenhangsmaße wären hier etwa der korrigierte Kontingenzkoeffizient oder der Korrelationskoeffizient nach Spearman. Für ersteres Maß könnte man einen χ2 Unabhängigkeitstest durchführen. Für letzteres lassen sich unter bestimmten Bedingungen exakte oder approximative Tests durchführen (vgl. Büning und Trenkler [1994, Abschnitt 8.4]). So lässt sich etwa zeigen, dass √n − 1 ⋅ R S ∼a N(0, 1)

(11.3.6)

gilt, wenn die Merkmale unabhängig sind, was auf einen approximativen Gauß-Test auf Unabhängigkeit hinausläuft. Weniger problematisch sieht es hingegen in Beispiel 5.2.8 (Wirtschaftsleistung und Lebenserwartung) aus. Für n = 200 und r XY ≈ 0.54 ergibt sich hier mit tR =

r XY √1 −

r2XY

√n − 2 ≈

0.54 √198 ≈ 9.03 1 − 0.542

ein klar signifikanter Zusammenhang. Man beachte, dass wir hierbei auf Basis des approximativen Gauß-Tests auf Unabhängigkeit gemäß Satz 11.3.9 argumentieren, da in Anbetracht von Abbildung 5.2.12 die Annahme einer bivariaten Normalverteilung unangebracht erscheint. Andererseits erhält man für r S ≈ 0.82 mit √n − 1 ⋅ r S ≈ √199 ⋅ 0.82 ≈ 11.57. gemäß (11.3.6) ein noch „signifikanteres“ Ergebnis. Dies liegt daran, dass die Monotonie des Zusammenhangs deutlich stärker ausgeprägt ist als die Linearität. • Monte-Carlo-Tests • Bei bestimmten Testproblemen gestaltet sich eine analytische Herleitung einer exakten oder asymptotischen Testverteilung als außerordentlich schwierig. In solchen Fällen kann eine solche dann möglicherweise nur mithilfe einer sog. Monte-Carlo-Simulation näherungsweise „geschätzt“ werden. Dies setzt im Allgemeinen jedoch voraus, dass die Ausgangsverteilung der Stichprobenvariablen bekannt ist. Einen auf einer solchen simulierten Testverteilung basierenden Test bezeichnet man entsprechend als Monte-Carlo-Test. Betrachten wir als Beispiel nochmals das Würfelexperiment korrespondierend zum linken Schaubild von Abbildung 5.3.20. Zwei Würfel werden jeweils 10 Mal geworfen und die Korrelation der Ergebnisse gemessen. Wie bereits bei den Fallbeispielen zu den Tests auf Unkorreliertheit und Unabhängigkeit bemerkt, eignet sich hier weder ein Korrelationstest gemäß Satz 11.3.8 noch ein Unabhängigkeitstest gemäß Satz 11.3.9, da die Verteilung der Würfelergebnisse einerseits diskret ist und andererseits n = 10 noch nicht ausreichend groß ist. Die Verteilung von T R unter H0 kann nun aber durch Simulation näherungsweise geschätzt werden. Bei einer Stichprobengröße von n = 10 und N = 1000 simulierten Stichproben entspricht dies im Prinzip der Simulation von Abbildung 5.3.20, wobei die Korrelationswerte jedoch noch gemäß T R trans-

11.3 Ausgewählte Testverfahren | 647

formiert werden. An sich könnte man auch die simulierte Verteilung von R XY direkt zur Konstruktion eines Tests verwenden. Dadurch würde aber der direkte Vergleich mit dem Korrelationstest erschwert. Mögliche Extremfälle der Simulation werden zur Vereinfachung ignoriert, da r XY bzw. T R in diesen Fällen nicht definiert wären. Das wäre z.B. dann der Fall, wenn ein Würfel 10 Mal hintereinander das gleiche Ergebnis liefert. Typischerweise sollte N möglichst groß genug gewählt werden, um eine möglichst genaue Näherung zur „wahren Testverteilung“ zu erhalten. Aus den (empirischen) Quantilen dieser simulierten Testverteilung werden dann die kritischen Werte gewonnen. Beispielsweise erhält man für N= 1 Mio. ̂ 0.025 ≈ −2.33 q

und

̂ 0.975 ≈ 2.33. q

Diese empirischen Schätzwerte liegen erstaunlich nahe an den theoretischen Quantilen der t(8)-Verteilung mit t8,0.025 ≈ −2.30 bzw. t8,0.975 ≈ 2.30. Dies impliziert gemäß Formel (11.3.5), dass man erst ab einer empirischen Korrelation von etwa 0.63 die Unabhängigkeitsannahme verwerfen würde. Zumindest zum Niveau 5% sollten die Entscheidungen bei diesem Monte-Carlo-Test also fast immer wie bei einem gewöhnlichen Korrelationstest ausfallen. • Bayes-Tests • Die im Rahmen dieses Lehrbuches vorgestellte Testtheorie entspricht dem, was man allgemein unter frequentistischer Inferenz oder klassischer Inferenz versteht. Dem gegenüber gibt es auch die sog. Bayes-Inferenz, im Rahmen derer die Parameter statistischer Modelle nicht als feste, sondern als stochastische Größen aufgefasst werden. Dieser Ansatz definiert mit der Bayes-Statistik ein eigenes Gebiet innerhalb der Statistik. Inhalte und Konsequenzen des Bayes-Kalküls wurden bereits in Abschnitt 6.2.3 im Rahmen der Wahrscheinlichkeitsrechnung aufgezeigt. In Abschnitt 10.3.3 wurde dann skizziert wie sich dieses Kalkül auf Schätzprobleme anwenden lässt. In ähnlicher Weise lässt sich dies nun auch auf Testprobleme anwenden. Im Rahmen eines Bayes-Tests können die in Abschnitt 11.2.2 getroffenen Aussagen zur Deutung von Irrtumswahrscheinlichkeiten revidiert werden. So sind dann die Irrtumswahrscheinlichkeiten 1. und 2. Art tatsächlich als (echte) bedingte Wahrscheinlichkeiten zu verstehen. Darüber hinaus kann nun vor allem aber auch eine globale Irrtumswahrscheinlichkeit definiert und angegeben werden. So lässt sich zeigen, dass ein Bayes-Test genau in dieser Hinsicht auch optimal ist. Er minimiert nämlich die globale Irrtumswahrscheinlichkeit, d.h. die Wahrscheinlichkeit einer falschen Entscheidung überhaupt (vgl. hierzu etwa Liese und Miescke [2008]). Trotz dieser in diesem Punkt attraktiven theoretischen Eigenschaft besteht ein wesentlicher Nachteil darin, dass die Durchführung eines Bayes-Tests i.d.R. mit einem deutlich höheren rechentechnischen Aufwand verbunden ist als bei einem klassischen Test. Außerdem stellt sich natürlich auch die Frage, wie man die Verteilung der Modellparameter (die A-priori-Verteilung) festlegen soll. Eine umfassende Darstellung zur Bayes-Inferenz bieten etwa Gelman et al. [2014].

648 | 11 Statistisches Testen

11.3.5 Allgemein zu beachtende Punkte • Adäquatheit von Modellannahmen • Gültige Inferenz setzt sowohl beim Schätzen als auch beim Testen die Adäquatheit des getroffenen Modellrahmens voraus. Sind bestimmte Annahmen verletzt, so führt dies zu mehr oder weniger starken Verfälschungen vorgegebener Sicherheits- oder Irrtumswahrscheinlichkeiten. Einer Schätzung oder einer Testentscheidung wird damit ihre wahrscheinlichkeitstheoretische Fundierung entzogen. Aufgrund der engen Beziehung zwischen Schätzen und Testen lässt sich die Adäquatheit bestimmter Modellannahmen beim Testen anhand der gleichen Punkte prüfen und diskutieren wie in Abschnitt 10.2.5. So gilt auch weiterhin, dass Repräsentativität die allererste Grundvoraussetzung für die Sinnhaftigkeit jeglicher Inferenz darstellt. Weiter sind Verletzungen der Unabhängigkeitsannahme, wie sie beispielsweise bei Zeitreihendaten auftreten, deutlich schwerwiegender als Abweichungen von einer Normalverteilungsannahme. Allerdings spielt auch die Stärke der Abhängigkeit eine Rolle. „Schwache Abhängigkeit“ führt im Allgemeinen nur zu leichten Verfälschungen. Grundsätzlich beachte man: Modellannahmen sind in der Praxis niemals perfekt erfüllt. • Stochastische Gruppenumfänge • Die statistischen Tests über Erwartungswertdifferenzen und Anteilswertdifferenzen (Sätze 11.3.2 und 11.3.6) werden rechnerisch in gleicher Weise durchgeführt, falls sich die jeweiligen Gruppenumfänge zufällig ergeben. Die Beschreibung des Modellrahmens muss dazu nur leicht angepasst werden. Ausführungen hierfür finden sich bereits in Abschnitt 10.2.5 im Kontext der Differenzenschätzung. Diese können auf das Testen übertragen werden. Darüber hinaus lassen sich diese Schätz- und Testprobleme auch äquivalent im Rahmen des linearen Regressionsmodells darstellen. Darauf werden wir später nochmals in Abschnitt 12.1.4 zu sprechen kommen (Punkt „Spezialfall: Binärer Regressor“). • Abhängigkeit und Kausalität • Es gilt weiterhin der Grundsatz: Korrelation impliziert keine Kausalität. Dies gilt auch für jede signifikante Korrelation. Man beachte dazu nur das Würfelexperiment mit den zwei Würfeln, die unabhängig voneinander jeweils 10 Mal geworfen werden. Der Zufall kann dafür sorgen, dass die Ergebnisse stark oder zumindest signifikant korrelieren. Andererseits müssen im Mehrvariablenkontext immer auch Scheinabhängigkeiten und systematische Verzerrungen in Erwägung gezogen werden. In letzterem Fall geht es dann darum, weitere Einflussgrößen „herauszurechnen“ bzw. modellmäßig mit zu berücksichtigen. Ein wichtiges Instrument ist in diesem Kontext das lineare Regressionsmodell, das Inhalt des nachfolgenden Kapitels sein wird.

12 Das lineare Regressionsmodell Idee und Konzept der einfachen linearen Regression wurden bereits im deskriptiven Teil dieses Lehrbuchs vorgestellt (Abschnitt 5.2.3). Was nun folgt, ist die Übersetzung des Regressionsproblems in ein statistisches Modell. In gewisser Weise stellt Kapitel 12 ein einziges großes Anwendungsbeispiel der in den Kapiteln 10 und 11 ausführlich behandelten Schlussweisen dar. Der Begriff „regression“ wurde erstmals von Galton [1885a, 1885b, 1886] im Zusammenhang anthropologischer Studien (Größen von Eltern und Kindern) verwendet. Dem ging der Begriff „reversion“ im Zusammenhang botanischer Studien voraus. Eine Formel zur Berechnung des Steigungskoeffizienten einer KQ-Geraden findet sich bereits bei Pearson [1896, S.268], allerdings nur unter der Rahmenbedingung einer bivariaten Normalverteilung. Die Leistung von Yule [1897a, 1897b] bestand darin, die Regression zu einer linearen Approximationstechnik im Kontext statistischer Analysen zu verallgemeinern. Heute stellt das lineare Regressionsmodell das wohl am meisten verwendete statistische Modell für Abhängigkeitsanalysen in vielen empirischen Wissenschaften dar. Ausführliche Abhandlungen zur Theorie und den vielfältigen Anwendungs- und Erweiterungsmöglichkeiten des linearen Modells bieten beispielsweise Fahrmeir et al. [2013], Schlittgen [2013] oder Rencher [2012]. In Abschnitt 12.1 wird zunächst das einfache lineare Regressionsmodell behandelt. Dazu werden zu verschiedenen Modellannahmen jeweils gültige Inferenzverfahren begründet. Abschnitt 12.2 bietet dann eine kompakte Einführung in das multiple Regressionsmodell, mit dem man im Gegensatz zum einfachen Modell mehrere erklärende Variablen, die auf eine (kausal) abhängige Variable Einfluss nehmen, berücksichtigen kann.

12.1 Einfaches lineares Regressionsmodell

Im Rahmen des einfachen linearen Regressionsmodells sind die KQ-Schätzer unter bestimmten Modellannahmen konsistent und exakt oder asymptotisch normalverteilt. Nach Schätzung der Varianzen sind zum Zwecke der Inferenz geeignete Statistiken entweder t-verteilt oder asymptotisch normalverteilt.

https://doi.org/10.1515/9783110744194-012

650 | 12 Das lineare Regressionsmodell

12.1.1 Grundmodell und KQ-Methode Statistisches Grundmodell • Hintergrund • Im Folgenden wird das Ergebnis einer Regression vor dem Hintergrund interpretiert, dass dieses zufallsabhängig ist und auf einer zweidimensionalen Stichprobe beruht. Die inhaltliche Konzeption des Stichprobenbegriffs aus Kapitel 9 bleibt dabei erhalten. 140 ^ β0 = − 100.12 120 ^ 100 β 1 = 0.96 kg 80 60 40 150 170

140 120 100 kg 80 60 40

2012

cm

190

140 ^ β0 = − 100.08 120 ^ 100 β 1 = 0.96 kg 80 60 40 210 150 170

190

140 ^ β0 = − 114.65 120 ^ 100 β 1 = 1.04 kg 80 60 40 210 150 170

2014 ^ β0 = − 90.07 ^ β1 = 0.9

150

170

cm

2013

cm

190

210

190

210

2015

cm

Daten: Eigene Erhebungen Abb. 12.1.1: Zusammenhang von Größe und Gewicht von Studenten

Angenommen, man möchte für eine bestimmte Personengruppe den Zusammenhang zwischen Größe und Gewicht mittels linearer Regression ermitteln. Sofern sich die hierbei gewonnenen Erkenntnisse nicht ausschließlich nur auf die erfassten Personen beziehen sollen, sondern diese als eine mehr oder weniger zufällige Auswahl aus einer übergeordneten Gesamtheit aufgefasst werden, liegt ein klassisches statistisches Problem vor. Abbildung 12.1.1 illustriert diesen Gedanken. Sie zeigt den Zusammenhang zwischen Körpergröße (in cm) und Gewicht (in kg) von Studentenkohorten verschiedener Jahrgänge. Man sieht, dass sich die jeweils berechneten Regressionsgeraden mehr oder weniger stark unterscheiden. In den Jahren 2012 und 2013 war der Steigungskoeffizient „zufälligerweise“ nahezu identisch. Die Vorstellung liegt hier deshalb nahe, dass eine für einen bestimmten Jahrgang stattfindende Erhebung einer (hypothetischen) Stichprobe aus einer zugrunde liegenden (hypothetischen) Grundgesamtheit entspricht. Diese Grundgesamtheit lässt sich etwa als langfristige

12.1 Einfaches lineares Regressionsmodell | 651

und für die erhobene Zielgruppe allgemeintypische Verteilung der beiden Variablen definieren. Die Berechnung einer KQ-Geraden wird hierbei als Schätzung aufgefasst und inferenzmethodisch mit dem Apparat der statistischen Schätz- und Testtheorie behandelt. Dazu muss jedoch zunächst ein geeigneter Modellrahmen aufgestellt werden. • Definition • Das statistische Grundmodell einer einfachen linearen Regression ohne konkretisierende Annahmen ist wie folgt definiert: Definition 12.1.1: Einfaches lineares Regressionsmodell Gegeben sei eine Stichprobe aus n beobachtbaren Zufallsvektoren (X1 , Y1 ), . . . , (X n , Y n ) und n nicht beobachtbaren Zufallsvariablen U1 , . . . , U n . Gilt dann (A0) Y i = β0 + β1 X i + U i für i = 1, . . . , n, so bezeichnet man (A0) als einfaches lineares Regressionsmodell. Die Parameter β0 und β1 werden als theoretische Regressionskoeffizienten und die Zufallsvariablen U1 , . . . , U n als stochastische Fehler oder stochastische Residuen bezeichnet. Die Funktion y(x) = β0 + β1 x definiert die theoretische Regressionsgerade, wobei der Definitionsbereich von x fallabhängig einzuschränken ist. • Interpretation • Wie man sieht, übersetzt Definition 12.1.1 den rein deskriptiven Rahmen der Regression aus Abschnitt 5.2.3 lediglich in eine stochastische (theoretische) Version. Die nachfolgenden Schätz- und Testprobleme werden sich allesamt auf die theoretischen Regressionskoeffizienten β0 und β1 (theoretischer Achsenabschnitt und theoretische Steigung) beziehen. Ein entscheidender Punkt wird dann sein, mit welcher Methode diese geschätzt werden und welche weiteren Annahmen dem Modell unterstellt werden. Für Ersteres werden wir uns im Folgenden auf die KQMethode beschränken. Alternative Schätzmethoden wie etwa die in Abschnitt 5.2.3 vorgestellte LAD-Methode werden hier also nicht inferenzmethodisch behandelt werden. In Bezug auf konkretisierende Modellannahmen werden wir analoge Unterscheidungen wie in den Kapiteln 10 und 11 treffen, die mehr oder weniger restriktiv sein können und exakte oder approximative Inferenz ermöglichen.

Herleitung der KQ-Schätzer • Lösung des empirischen Kleinste-Quadrate-Problems • Basierend auf n zweidimensionalen Beobachtungswerten (x1 , y1 ), . . . , (x n , y n ) betrachten wir nochmals

652 | 12 Das lineare Regressionsmodell

das Minimierungsproblem aus Abschnitt 5.2.3 ̂ 0 , β1 ) min Q(β

β0 ,β1

n

̂ 0 , β1 ) = ∑ (y i − β0 − β1 x i )2 . Q(β

mit

i=1

Es handelt sich folglich um ein zweidimensionales Minimierungsproblem. Wir gehen an dieser Stelle davon aus, dass der Leser mit den elementaren Grundlagen der mehrdimensionalen Differentialrechnung vertraut ist. Der allgemeine Lösungsweg sieht hier vor, zunächst die beiden ersten partiellen Ableitungen zu berechnen, diese gleich Null zu setzen und anschließend das daraus resultierende Gleichungssystem nach den Größen β0 und β1 zu lösen. Gegebenenfalls überprüft man dann noch anhand der Hesse-Matrix, ob es sich tatsächlich auch um ein Minimum handelt. Das Berechnen und Nullsetzen der ersten partiellen Ableitungen ergibt zunächst n ̂ 0 , β1 ) ∂ Q(β = −2 ∑ (y i − β0 − β1 x i ) ∂β0 i=1 n

n

= −2 ∑ y i + 2nβ0 + 2β1 ∑ x i = 0 und i=1 n

(i)

i=1

̂ 0 , β1 ) ∂ Q(β = −2 ∑ (y i − β0 − β1 x i )x i ∂β1 i=1 n

n

n

= −2 ∑ x i y i + 2β0 ∑ x i + 2β1 ∑ x2i = 0. i=1

i=1

(ii)

i=1

Die beiden Gleichungen (i) und (ii) werden auch als Normalengleichungen bezeichnet. Das Lösen dieser nach den Parametern liefert n

n

nβ0 = ∑ y i − β1 ∑ x i und i=1 n

n

n

∑ x i y i = β0 ∑ x i + β1 ∑ x2i . i=1

(i)

i=1

i=1

(ii)

i=1

Gleichung (i) ergibt dann β0 = y − β1 x.

(12.1.1)

Einsetzen in (ii) liefert n

n

n

∑ x i y i = (y − β1 x) ∑ x i + β1 ∑ x2i . i=1

i=1

(12.1.2)

i=1

Dividieren beider Seiten der Gleichung durch n und Auflösen nach β1 ergibt schließlich β1 =

1 n n ∑i=1 x i y i − xy 2 1 n 2 n ∑i=1 x i − x

=

̃s XY s XY = 2 . ̃s2X sX

(12.1.3)

12.1 Einfaches lineares Regressionsmodell | 653

Wir setzen an dieser Stelle ̃s2X > 0 voraus. Die KQ-Lösungen, die wir zur besonderen Kennzeichnung mit „Dach“ notieren, ergeben sich aus (12.1.1) und (12.1.3) und lauten somit β̂ 0 = y − β̂ 1 x

̃s XY β̂ 1 = 2 . ̃s X

und

(12.1.4)

̂ tatsächlich minimieren, kann entfallen, Die formale Prüfung, ob diese Lösungen Q da eine Maximierung aus logischen Gründen ausscheidet. Da eine potenzielle Gerade beliebig weit von der „Datenwolke“ verschoben werden kann, kann die Summe der quadrierten Abweichungen nach oben hin nicht beschränkt sein. Ungeachtet dessen erhält man für die auf den zweiten partiellen Ableitungen basierende Hesse-Matrix ̂ 0 , β1 ) ∂2 Q(β ∂β2 H = ( 2̂ 0 ∂ Q(β0 , β1 ) ∂β0 ∂β1

̂ 0 , β1 ) ∂2 Q(β n ∂β1 ∂β0 = 2 ) ( n ̂ 0 , β1 ) ∂2 Q(β ∑ xi i=1 ∂β21

n

∑ xi

i=1 n

∑ x2i

).

i=1

Da deren Determinante mit n

n

2

det(H) = 2[n ∑ x2i − ( ∑ x i ) ] = 2n2 [ i=1

i=1

1 n 2 ∑ x − x2 ] = 2n2 ̃s2X n i=1 i

für ̃s2X > 0 positiv ist, liegt tatsächlich ein Minimum vor. • Der Fall einer nicht eindeutigen Lösung • Im Falle von ̃s2X = 0 weisen die x-Werte keinerlei Variation auf und sind folglich identisch. Für irgendein x gilt also für i = 1, . . . , n.

x = xi

Man beachte hierzu Abbildung 5.2.17. Aus Gleichung (12.1.2) erhalten wir dann n

n

n

x ∑ y i = (y − β1 x) ∑ x + β1 ∑ x2 , i=1

i=1

(12.1.5)

i=1

was sich weiter zu n

n

x ∑ y i = x ∑ y i − β1 nx2 + β1 nx2 i=1

i=1

vereinfacht. Offensichtlich ist diese Gleichung für jedes β1 erfüllt. Mit (12.1.1) impliziert dies dann die nicht eindeutige Lösung β̂ 1 beliebig

und

β̂ 0 = y − β̂ 1 x.

Als Hesse-Matrix erhält man H = 2(

n nx

nx ) nx2

mit

det(H) = 2[n2 x2 − n2 x2 ] = 0.

654 | 12 Das lineare Regressionsmodell

Folglich muss es sich entweder um ein Minimum oder einen Sattelpunkt handeln. Da nun für jede Lösung n

n

i=1

i=1

̂ β̂ 0 , β̂ 1 ) = ∑ (y i − β̂ 0 − β̂ 1 x)2 = ∑ (y i − y)2 Q( gilt, muss es sich aufgrund der Minimumeigenschaft des arithmetischen Mittels (Abschnitt 4.9.1) tatsächlich um ein Minimum handeln. Halten wir fest: Falls alle x-Werte gleich sind, ist die KQ-Gerade nicht eindeutig festgelegt. Im Zusammenhang des multiplen Regressionsmodells wird das Problem einer nicht eindeutigen Lösung unter dem Begriff der Multikollinearität behandelt. • Übersetzung in eine Schätzmethode • Werden vorliegende Beobachtungen (x1 , y1 ), . . . , (x n , y n ) als Realisation einer Stichprobe (X1 , Y1 ), . . . , (X n , Y n ) aufgefasst, wobei ein einfaches lineares Regressionsmodell unterstellt wird, lässt sich die KQ-Methode als Schätzmethode für die Parameter β0 und β1 auffassen. Im üblichen Stile werden die theoretischen Kennwerte dann mit griechischen Buchstaben notiert. Die KQ-Schätzer für β0 und β1 lauten entsprechend S̃ XY β̂ 0 = Y − β̂ 1 X und β̂ 1 = 2 mit S̃ 2X > 0. S̃ X Es wird lediglich Großschreibweise gewechselt. Entsprechend ergeben sich die stochastischen gefitteten Werte und stochastischen KQ-Residuen als ̂ Y i = β̂ 0 + β̂ 1 X i

bzw.

̂i = Y i − ̂ U Y i für i = 1, . . . , n.

Eigenschaften der empirischen KQ-Regression • Übersicht • Im Zusammenhang einer einfachen linearen KQ-Regression gelten einige spezielle Eigenschaften und rechnerische Besonderheiten. Im Folgenden gehen wir davon aus, dass ̃s2X > 0 ist. Satz 12.1.1: Eigenschaften der empirischen KQ-Regression 1. Die KQ-Gerade geht durch den Schwerpunkt (x, y). 2. Die Summe der gefitteten Werte ist gleich der Summe der y-Werte. 3. Die Summe der KQ-Residuen ist gleich 0. 4. KQ-Residuen und x-Werte sind unkorreliert. 5. Gefittete Werte und KQ-Residuen sind unkorreliert. 6. Es gilt die Streuungszerlegungsformel der KQ-Regression.

12.1 Einfaches lineares Regressionsmodell | 655

Nachfolgend werden diese 6 Eigenschaften nachgewiesen und erläutert. Man beachte, dass die ersten drei Eigenschaften bereits in Abschnitt 5.2.3 vorgestellt und erläutert wurden. • Die KQ-Gerade geht durch den Schwerpunkt • Gegeben die KQ-Gerade ̂y(x) = β̂ 0 + β̂ 1 x, ergibt sich durch ein Einsetzen der Formel für β̂ 0 ̂y(x) = (y − β̂ 1 x) + β̂ 1 x = y. Somit verläuft die KQ-Gerade stets durch den Schwerpunkt (x, y). • Die Summe der gefitteten Werte ist gleich der Summe der y-Werte • Bezeichne ̂y das arithmetische Mittel der gefitteten Werte, d.h. ̂y =

1 n ∑ ̂y i . n i=1

Dann gilt: 1 n 1 n 1 n ∑ ̂y i = ∑ (β̂ 0 + β̂ 1 x i ) = β̂ 0 + β̂ 1 ∑ x i = β̂ 0 + β̂ 1 x = y. n i=1 n i=1 n i=1 Die letzte Gleichung folgt gerade aus der zuvor nachgewiesenen Eigenschaft Nr. 1. Der Mittelwert der gefitteten Werte ist also gleich dem Mittelwert der y-Werte: ̂y = y.

(12.1.6)

Multiplizieren wir beide Seiten von (12.1.6) mit n, erhalten wir die Gleichheit der Summen. ̂ das arithmetische Mittel • Die Summe der KQ-Residuen ist gleich 0 • Bezeichne u der KQ-Residuen, d.h. ̂= u

1 n ̂i . ∑u n i=1

Dann gilt: 1 n 1 n 1 n 1 n ̂ i = ∑ (y i − ̂y i ) = ∑ y i − ∑ ̂y i = 0. ∑u n i=1 n i=1 n i=1 n i=1 Die letzte Gleichung folgt dabei mit der zuvor nachgewiesenen Gleichung (12.1.6). Der Mittelwert der KQ-Residuen ist gleich 0: ̂ = 0. u

(12.1.7)

Multiplizieren wir beide Seiten von (12.1.7) mit n, erhalten wir das nachzuweisende Resultat.

656 | 12 Das lineare Regressionsmodell

• KQ-Residuen und x-Werte sind unkorreliert • Die Kovarianz zwischen KQResiduen und x-Werten ergibt sich mit der Verschiebungsformel für die Kovarianz als ̃s X Û =

1 n 1 n 1 n ̂) = ∑ xi u ̂i − x ⋅ u ̂ = ∑ xi u ̂i . ̂i − u ∑ (x i − x)(u n i=1 n i=1 n i=1

Die letzte Gleichung folgt dabei mit der zuvor nachgewiesenen Eigenschaft (12.1.7). Somit bleibt nur zu zeigen, dass der verbleibende Term gleich 0 ist. Hier gilt zunächst einmal: 1 n 1 n 1 n 1 n ̂ i = ∑ x i (y i − ̂y i ) = ∑ x i y i − ∑ x i ̂y i . ∑ xi u n i=1 n i=1 n i=1 n i=1 Mit dem Einsetzen des KQ-Koeffizienten (12.1.4) erhält man dann weiter 1 n 1 n 1 n ∑ x i ̂y i = ∑ x i (β̂ 0 + β̂ 1 x i ) = (y − β̂ 1 x)x + β̂ 1 ∑ x2i n i=1 n i=1 n i=1 1 n 1 n = xy + β̂ 1 ( ∑ x2i − x2 ) = ∑ x i y i , n i=1 n i=1 durch Anwendung der Formel für β̂ 1 ̃s XY β̂ 1 = 2 = ̃s X

1 n n ∑i=1 x i y i − xy . 2 1 n 2 n ∑i=1 x i − x

Die Kovarianz zwischen KQ-Residuen und x-Werten ist damit stets 0: ̃s X Û =

1 n 1 n 1 n ̂ i = ∑ x i y i − ∑ x i ̂y i ∑ xi u n i=1 n i=1 n i=1 =

1 n 1 n ∑ x i y i − ∑ x i y i = 0. n i=1 n i=1

(12.1.8)

Damit sind die KQ-Residuen und x-Werte (empirisch) unkorreliert. Abbildung 12.1.2 illustriert die Intuition hinter dieser Eigenschaft. Im linken Schaubild ist ein Streudiagramm mit 10 Beobachtungswerten zu sehen. Dazu eingezeichnet wurde in Schwarz die KQ-Gerade. Im rechten Schaubild wurden die korrespondierenden KQ-Residuen gegen die x-Werte, also die Wertepaare ̂i) (x i , u

für i = 1, . . . , 10,

als schwarze Punkte abgetragen. Analoges wurde für eine nach einer anderen Methode konstruierten Gerade gemacht, die grau eingezeichnet ist. Hierfür wurden die korrespondierenden Residuen in Form grauer Kreise eingezeichnet. In diesem Fall sind Residuen und x-Werte deutlich positiv korreliert. Eigenschaft 4 erscheint insofern intuitiv, dass eine allzu starke Korrelation mit einer guten Anpassung in der Regel nicht vereinbar sein sollte.

12.1 Einfaches lineares Regressionsmodell | 657

u^i 3

yi 8

2

6

1

4

0

2

−1

0

−2 0

2

4

6

8

10

12

0

2

4

6

8

xi

10

12

xi

Abb. 12.1.2: Illustration zu Eigenschaft 4

• Gefittete Werte und KQ-Residuen sind unkorreliert • Die Kovarianz zwischen gefitteten Werten und KQ-Residuen ist gegeben durch 1 n 1 n ̂ i − ̂y ⋅ u ̂ = ∑ ̂y i u ̂i , ∑ ̂y i u n i=1 n i=1 wobei die letzte Gleichung mit Eigenschaft (12.1.7) folgt. Weiter ergibt sich 1 n 1 n 1 n 1 n ̂ i = β̂ 0 ∑ u ̂ i = ∑ (β̂ 0 + β̂ 1 x i )u ̂ i + β̂ 1 ∑ x i u ̂ i = 0, ∑ ̂y i u n i=1 n i=1 n i=1 n i=1

(12.1.9)

wobei sich letzte Gleichung aus (12.1.7) und (12.1.8) ergibt. Da die gefitteten Werte lediglich linear transformierte x-Werte sind, ist die Intuition hinter dieser Eigenschaft praktisch gleich wie bei der vorhergehenden. • Es gilt die Streuungszerlegungsformel • Die Streuungszerlegungsformel der KQ-Regression lautet n

n

n

i=1

i=1

i=1

∑ (y i − y)2 = ∑ (̂y i − y)2 + ∑ (y i − ̂y i )2 .

(12.1.10)

Sie wird im Folgenden hergeleitet und interpretiert. Zunächst einmal gilt: ̂i y i = ̂y i + (y i − ̂y i ) = ̂y i + u

für i = 1, . . . , n.

Subtrahieren des Mittelwerts der y-Werte und Quadrieren ergibt ̂ i ]2 = (̂y i − y)2 + u ̂ 2i + 2(̂y i − y)u ̂i . (y i − y)2 = [(̂y i − y) + u Aufsummieren über alle Beobachtungswerte ergibt n

n

n

n

i=1

i=1

i=1

i=1

̂ 2i + 2 ∑ (̂y i − y)u ̂i . ∑ (y i − y)2 = ∑ (̂y i − y)2 + ∑ u

(12.1.11)

Da mit den Eigenschaften (12.1.7) und (12.1.9) für den letzten Term auf der rechten Seite n

n

n

i=1

i=1

i=1

̂i − y ∑ u ̂i = 0 − 0 = 0 ̂ i = ∑ ̂y i u ∑ (̂y i − y)u

658 | 12 Das lineare Regressionsmodell

folgt, erhält man aus (12.1.11) schließlich die Streuungszerlegungsformel (12.1.10). Die Streuungszerlegungsformel der KQ-Regression kann als Verallgemeinerung der Streuungszerlegungsformel für gruppierte Daten (Abschnitt 4.5.1) verstanden werden. Betrachten wir hierzu nochmals Gleichung (12.1.10). Dividieren wir beide Seiten durch n, so können wir unter Verwendung der Eigenschaften (12.1.6) und (12.1.7) auch 1 n 1 n 1 n ̂ )2 ̂i − u ∑ (y i − y)2 = ∑ (̂y i − ̂y)2 + ∑ (u n i=1 n i=1 n i=1

(12.1.12)

schreiben. Bezeichnen wir nun die Varianz der gefitteten Werte bzw. die Varianz der Residuen mit ̃s2̂ Y

bzw. ̃s2Û ,

erhalten wir aus (12.1.12) ̃s2Y = ̃s2̂ + ̃s2̂ . Y U

(12.1.13)

Die Varianz der y-Werte setzt sich folglich aus der Varianz der gefitteten Werte und der Varianz der Residuen zusammen. Die Varianz der gefitteten Werte wird auch als erklärte Streuung und die Varianz der Residuen als Residualstreuung bezeichnet. Sie bilden die Pendants zur externen und internen Streuung bei der Streuungszerlegungsformel für gruppierte Daten. Die Residualstreuung ist gleich Null, falls alle Beobachtungswerte auf einer Geraden liegen. Dann gilt nämlich ̂ i = y i − ̂y i = 0 u

für i = 1, . . . , n.

Dies impliziert ̃s2̂ = 0 und folglich ̃s2Y = ̃s2̂ . U Y Die Gesamtstreuung ergibt sich in diesem Fall zu 100% aus der erklärten Streuung. Die Gesamtstreuung ergibt sich hingegen zu 100% aus der Residualstreuung, falls xund y-Werte unkorreliert sind. Denn dann ist auch der Steigungskoeffizient der KQGeraden gleich 0: ̃s XY 0 β̂ 1 = 2 = 2 = 0. ̃s X ̃s X Dies wiederum impliziert für den Achsenabschnitt β̂ 0 = y − β̂ 1 x = y. Die KQ-Gerade verläuft dann horizontal auf Höhe des arithmetischen Mittels der yWerte. Wenn also bezüglich des linearen Zusammenhangs zwischen x- und y-Werten keine Richtung ausgemacht werden kann, wird jeder beliebige x-Wert mit dem Mittelwert der y-Werte prognostiziert. Damit stimmen alle gefitteten Werte mit diesem über-

12.1 Einfaches lineares Regressionsmodell | 659

ein, d.h. es gilt: ̂y i = y

für i = 1, . . . , n.

Dies impliziert ̃s2̂ = 0 und folglich ̃s2Y = ̃s2̂ . Y U

Bestimmtheitsmaß und Standardfehler der Regression • Bestimmtheitsmaß der KQ-Regression • Die Streuungszerlegungsformel kann direkt zur Konstruktion des Bestimmtheitsmaßes der KQ-Regression verwendet werden. Dieses misst den Anteil der erklärten Streuung an der Gesamtstreuung und kann somit auch als Gütemaß für die Regression aufgefasst werden. Für die folgenden Betrachtungen gehen wir davon aus, dass sowohl die x- als auch die y-Werte nicht alle identisch sind, d.h. ̃s2X > 0 und ̃s2Y > 0. Bestimmtheitsmaß der KQ-Regression Gegeben seien metrisch skalierte Beobachtungswerte (x1 , y1 ), . . . , (x n , y n ) mit ̃s2X > 0 und ̃s2Y > 0. Im Zusammenhang der KQ-Regression gilt dann: n

n

n

i=1

i=1

i=1

∑ (y i − y)2 = ∑ (̂y i − y)2 + ∑ (y i − ̂y i )2

(12.1.14)

oder äquivalent ̃s2Y = ̃s2̂ + ̃s2̂ . Y U

(12.1.15)

Dabei wird ̃s2Y als Gesamtstreuung, ̃s2̂ als erklärte Streuung und ̃s2̂ als ResiY U dualstreuung bezeichnet. Die Terme in (12.1.14) heißen Gesamtquadratsumme, erklärte Quadratsumme und Residuenquadratsumme. Darauf basierend ist das Bestimmtheitsmaß definiert als ∑n (̂y i − y)2 ∑ni=1 (y i − ̂y i )2 = 1 − (12.1.16) R2 = i=1 ∑ni=1 (y i − y)2 ∑ni=1 (y i − y)2 bzw. R2 =

̃s2̂

Y ̃s2Y

=1−

̃s2̂ U

̃s2Y

.

Dabei gilt: (i) R2 ∈ [0, 1] und ̃s2 (ii) R2 = r2XY = β̂ 21 ̃s2X , Y

wobei r XY die empirische Korrelation ist.

(12.1.17)

660 | 12 Das lineare Regressionsmodell

Eigenschaft (i) folgt sofort aus der Definition und (12.1.14). Das Bestimmtheitsmaß lässt sich direkt anhand der Definition oder über die Korrelation berechnen. Mit ̂y =

1 n 1 n ∑ ̂y i = ∑ (β̂ 0 + β̂ 1 x i ) = β̂ 0 + β̂ 1 x n i=1 n i=1

gilt nämlich n

n

i=1

i=1

n

∑ (̂y i − y)2 = ∑ (̂y i − ̂y)2 = ∑ (β̂ 0 + β̂ 1 x i − β̂ 0 − β̂ 1 x)2 i=1

̃s2 n = β̂ 21 ∑ (x i − x)2 = XY ∑ (x i − x)2 . 4 ̃ s i=1 X i=1 n

Damit erhalten wir R2 =

∑ni=1 (̂y i − y)2 ̃s2XY ∑ni=1 (x i − x)2 ̃s2XY ̃s2X = 4 n = 4 2 = r2XY . ∑ni=1 (y i − y)2 ̃s X ∑i=1 (y i − y)2 ̃s X ̃s Y

Aus diesem Zusammenhang motiviert sich auch die Bezeichnung R2 für das Bestimmtheitsmaß. • Beispiel 12.1.1 • Wir setzen das Rechenbeispiel 5.2.9 zur KQ-Regression fort. In diesem Fall ist es bequem, die Beziehung ̃s2 R2 = β̂ 21 2X ̃s Y auszunutzen, da der Steigungsparameter mit ̂ 1 = 0.3 β̂ 1 = b bereits berechnet wurde und sich auch die restlichen Bestandteile Tabelle 5.2.4 recht einfach entnehmen lassen. Mit x=3

und

y = 1.8

gilt zunächst ̃s2X ̃s2Y

=

∑ni=1 x i − nx2 ∑ni=1 y i − ny2

=

55 − 5 ⋅ 32 10 = . 19 − 5 ⋅ 1.82 2.8

Daraus folgt dann ̃s2 10 ≈ 0.3214. R2 = β̂ 21 2X = 0.32 ⋅ 2.8 ̃s Y Alternativ gelangt man mit ̃s2̂ = U ̃s2Y =

1 n 1 n 2 1 ̂ )2 = ∑ u ̂ = 1.9 = 0.38 und ̂i − u ∑ (u n i=1 n i=1 i 5

1 n 1 n 1 ∑ (y i − y)2 = ∑ y2i − y2 = 19 − 1.8 = 0.56 n i=1 n i=1 5

12.1 Einfaches lineares Regressionsmodell | 661

exakt zum gleichen Ergebnis: R2 = 1 −

̃s2̂ U ̃s2Y

=1−

0.38 ≈ 0.3214. 0.56

Die KQ-Gerade erklärt somit etwa 32% der Streuung der y-Werte. • Standardfehler der Regression • Der Standardfehler der Regression, kurz SER (für Standard Error of Regression) ist definiert als SER = √

1 n 2 n ̂ =√ ⋅ ̃s2 . ∑u n − 2 i=1 i n − 2 Û

(12.1.18)

Würde man die Residuenquadratsumme durch n statt durch n − 2 dividieren, entspräche dies gerade der Wurzel aus der Residualstreuung. Damit entspricht der SER ungefähr der (empirischen) Standardabweichung der KQ-Residuen. Folgt man der Interpretation der Standardabweichung anhand empirischer Schwankungsintervalle (Abschnitt 4.4.4), würde man etwa 95% aller Beobachtungen nicht mehr als zwei Stan̂ = 0 implidardabweichungen vom arithmetischen Mittel entfernt erwarten. Wegen u ziert dies, dass etwa 95% aller Beobachtungen innerhalb eines Schlauches der Breite 4 ⋅ SER um die KQ-Gerade herum liegen sollten (Abb. 12.1.3). Zwischen Bestimmtheitsmaß und SER besteht gemäß (12.1.17) und (12.1.18) folgender Zusammenhang: n 2 ̃s (1 − R2 ). (12.1.19) SER2 = n−2 Y Demnach ist der SER umso kleiner, je kleiner die Gesamtstreuung und je größer das Bestimmtheitsmaß ist. Dies erscheint insofern logisch, da ein hoher Erklärungsgehalt des Modells die Residualstreuung reduzieren sollte. Gesamtstreuung und Standardfehler lassen sich in gewisser Weise wie unbedingte und bedingte Streuungskennwerte interpretieren. 2012 140 120 y

100

2

R = 0.55 s~Y = 12.50 y ± 2 × s~

y^(x ) ± 2 × S E R

Y

80 60

S E R = 8.38

40 150

160

170

Abb. 12.1.3: Standardfehler der Regression

180

190

200

210

x

662 | 12 Das lineare Regressionsmodell

• Beispiel 12.1.2 • Korrespondierend zu Abbildung 12.1.1 zeigt Abbildung 12.1.3 nochmals den Zusammenhang von Größe und Gewichte für die Kohorte 2012. So erklärte hier die Körpergröße 55% der Gesamtstreuung der Gewichte bei einem Standardfehler von 8.38 kg. Die (nichtkorrigierte) Standardabweichung der Gewichte betrug dabei 12.50 kg. Ohne Kenntnis der Körpergröße sollten demnach dann 95% aller Gewichte nicht mehr als zwei Standardabweichungen vom mittleren Gewicht entfernt liegen. Im vorliegenden Fall führt dies bei einem Durchschnittsgewicht von 72.01 kg auf das Intervall [47.1 kg, 97.1 kg]. Sofern man den geschätzten linearen Zusammenhang als wahr unterstellt, kann man das Gewicht mit einer Sicherheit von etwa 95% immerhin schon auf 2 × 8.38kg = 16.76 kg Genauigkeit prognostizieren. Mit ̂y(180) = β̂ 0 + β̂ 1 ⋅ 180 = −100.12 + 0.96 ⋅ 180 = 72.68 sollte dann beispielsweise eine 180 cm große Person zwischen 55.92 und 89.44 kg wiegen. Tatsächlich liegen 96.7% aller Gewichte (233 von 241) innerhalb der durch den SER implizierten „95%-Schranken“. Es sei deutlich darauf hingewiesen, dass es sich beim Intervall [55.92, 89.44] um kein Prognoseintervall im konventionellen Sinne handelt, da bei diesem Kalkül die mit der Schätzung der Geraden verbundene Unsicherheit außer Acht gelassen wurde. Auf die Widergabe von Formeln zur Konstruktion valider Prognoseintervalle verzichten wir in diesem Lehrbuch und verweisen auf Fahrmeir et. al [2013] oder Rencher [2012, Abschnitt 8.6.5].

12.1.2 Modellannahmen und theoretische KQ-Regression Ensembles von Modellannahmen • Modell KN: Nichtstochastischer Regressor • Im klassischen linearen Regressionsmodell werden die Werte der erklärenden Variable gewöhnlich als nichtstochastisch angenommen. Vor allem im Kontext wiederholbarer Experimente, in denen die Einflussgrößen typischerweise kontrolliert werden, erscheint dies meist adäquat. Man beachte hierzu etwa Fallbeispiel 1 in Abschnitt 12.1.4. Definition 12.1.2: Klassisches Modell mit nichtstochastischem Regressor Wir sprechen von einem klassischen linearen Regressionsmodell mit nichtstochastischem Regressor, falls folgende Annahmen gelten:

12.1 Einfaches lineares Regressionsmodell | 663

(A0*) Y i = β0 + β1 x i + U i für i = 1, . . . , n und (A1*) die Fehler U1 , . . . , U n sind unabhängig N(0, σ2U )-verteilt. Dabei sind x1 , . . . , x n nichtstochastisch und ̃s2X > 0.

stochastisch

y

Y 1 ~ N (β0 + β1x 1, σ2U) β0 + β1 × x

E (Y 3) E (Y 2) E (Y 1) x1

x2

...

xn

x

nichstochastisch

Abb. 12.1.4: Klassisches Modell mit nichtstochastischem Regressor

Annahme (A0*) stellt insofern einen Spezialfall von (A0) in Definition 12.1.1 dar, dass x1 , . . . , x n als Trägerpunkte einpunktverteilter Zufallsvariablen X1 , . . . , X n aufgefasst werden könnten, d.h. P(X i = x i ) = 1

für i = 1, . . . , n.

Die x i -Werte dürfen dabei nicht alle gleich sein. Dies würde sonst im Rahmen der KQSchätzung zu nicht eindeutigen Schätzungen führen (Abschnitt 12.1.1). Daraus ergibt sich, dass sich die Stichprobe (x1 , Y1 ), . . . , (x n , Y n ) aus heterogen verteilten Zufallsvektoren zusammensetzt. Annahme (A1*) impliziert E(U i ) = 0

und

Var(U i ) = σ2U

für i = 1, . . . , n.

Die Fehler streuen in dem Sinne „gleichmäßig“ um die theoretische Regressionsgerade, dass ihr Erwartungswert 0 ist und somit auch gilt: E(Y i ) = E(β0 + β1 x i + U i ) = β0 + β1 x i

für i = 1, . . . , n.

(12.1.20)

Die zu erwartenden Werte der abhängigen Variablen liegen auf der KQ-Geraden. Sie ist somit als „Durchschnittsgerade“ interpretierbar. Außerdem streuen die Fehler an jeder Stelle x i mit gleicher Varianz. Diese Eigenschaft wird im Rahmen des Regressionsmodells als Homoskedastizität bezeichnet. Es gilt dann weiter: Var(Y i ) = Var(β0 + β1 x i + U i ) = σ2U

für i = 1, . . . , n.

(12.1.21)

664 | 12 Das lineare Regressionsmodell

Da U i normalverteilt ist, ist auch Y i normalverteilt. Mit den Ergebnissen aus (12.1.20) und (12.1.21) folgt Y i ∼ N(β0 + β1 x i , σ2U )

für i = 1, . . . , n.

(12.1.22)

Damit sind Y1 , . . . , Y n für β1 ≠ 0 auf jeden Fall heterogen verteilt. Abbildung 12.1.4 illustriert den Modellrahmen. Zur Vereinfachung wird x1 < x2 < ⋅ ⋅ ⋅ < x n angenommen. • Modell KS: Stochastischer Regressor • Sofern die erklärende Variable stochastisch modelliert wird, wie es etwa im Falle zweidimensionaler Stichproben außerhalb von Experimenten häufig adäquat erscheint, werden die vorhergehenden Annahmen gemäß folgender Definition erweitert bzw. modifiziert. Definition 12.1.3: Klassisches Modell mit stochastischem Regressor Wir sprechen von einem klassischen linearen Regressionsmodell mit stochastischem Regressor, falls folgende Annahmen gelten: (A0)

Y i = β0 + β1 X i + U i für i = 1, . . . , n,

(A1**) U i |X i = x i ∼ N(0, σ2U ) für i = 1, . . . , n, (A2)

(X1 , Y1 ), . . . , (X n , Y n ) sind u.i.v. und

(A3)

alle Zufallsvariablen genügen Annahme (M) aus Definition 8.2.1 und besitzen positive Varianzen.

Die Kleinschreibweise für die erklärende Variable wird gegen die Großschreibweise ausgetauscht. Aus den unbedingten Verteilungen der Fehler des Modells mit nichtstochastischem Regressor werden bedingte Verteilungen. Allerdings sind wegen (A2) und U i = Y i − β0 − β1 X i die Fehler als transformierte Größen der Vektoren (X i , Y i ) ebenfalls unabhängig und identisch verteilt. Da die bedingte Verteilung der Fehler nicht von X i abhängt, sind U1 , . . . , U n jeweils N(0, σ2U )-verteilt und von X1 , . . . , X n unabhängig. Folglich wird Annahme (A1*) aus Definition 12.1.2 durch (A1**) impliziert. Mit E(U i |X i = x i ) = E(U i ) = 0

für i = 1, . . . , n

folgt mit den üblichen Rechenregeln für bedingte Erwartungswerte E(Y i |X i = x i ) = E(β0 + β1 X i + U i |X i = x i ) = β0 + β1 x i + E(U i |X i = x i ),

(12.1.23)

12.1 Einfaches lineares Regressionsmodell | 665

also mit (12.1.23) E(Y i |X i = x i ) = β0 + β1 x i .

(12.1.24)

Weiterhin gilt: Var(U i |X i = x i ) = Var(U i ) = σ2U .

(12.1.25)

Daraus ergibt sich dann für die bedingte Verteilung der abhängigen Variablen Y i |X i = x i ∼ N(β0 + β1 x i , σ2U )

für i = 1, . . . , n.

(12.1.26)

Anstelle der unbedingten Verteilungsaussage heterogen verteilter Stichprobenvariablen, (12.1.22), erhalten wir hier eine bedingte Verteilungsaussage identisch verteilter Stichprobenvariablen. Man beachte, dass nicht nur die unbedingte, sondern auch die bedingte Varianz des Fehlers konstant ist. Man spricht hier deshalb auch von bedingter Homoskedastizität. In Bezug auf die Verteilung der X i werden, von (A3) abgesehen, keine konkreteren Annahmen getroffen. Somit kann der Regressor durchaus auch einer schiefen oder diskreten Verteilung genügen. (A3) ist eine technische Annahme, welche später für die Formulierung von Verteilungsaussagen der KQ-Schätzer benötigt wird. Abbildung 12.1.5 illustriert den betreffenden Modellrahmen. Zur Vereinfachung wird wieder x1 < x2 < ⋅ ⋅ ⋅ < x n angenommen. Da die Regressoren stochastisch sind, können ihre Realisationen größenmäßig natürlich auch eine andere Reihenfolge einnehmen. Tatsächlich erscheinen die Unterschiede zum klassischen Modell (Abb. 12.1.4) eher notationeller als inhaltlicher Natur. Abb. 12.1.5: Klassisches Modell mit stochastischem Regressor

stochastisch

y

Y 1 | X 1 = x 1 ~ N (β0 + β1x 1, σ2U) β0 + β 1 × x

E (Y n | X n = x n ) E (Y 2 | X 2 = x 2) E (Y 1 | X 1 = x 1) X 1 = x1 X 2 = x2

...

X n = xn

x

stochastisch

• Beispiel 12.1.3 Bivariate Normalverteilung • Ausgehend von einem klassischen Modell mit stochastischem Regressor könnten Regressor und abhängige Variable bivariat normalverteilt sein. Man beachte hierzu Abbildung 12.1.3 mit der gemeinsamen Verteilung von Körpergröße und Gewicht, wo diese Annahme zumindest näherungsweise adäquat sein mag. Unter Beibehaltung der Annahmen (A0), (A1*) und (A3) ließe sich Annahme (A2) dann konkretisieren zu:

666 | 12 Das lineare Regressionsmodell

(A2*) (X1 , Y1 ), . . . , (X n , Y n ) sind u.i.v. wie (X, Y) mit X μX σ2 ( ) ∼ N2 (( ), ( X Y μY σ XY

σ XY )). σ2Y

Man beachte, dass (A3) in Bezug auf X und Y bereits durch die Normalverteilungsannahme abgedeckt ist. Gemäß Beispiel 8.3.4 gilt dann: Y i |X i = x i ∼ N(μ Y +

σ2XY σ XY 2 (x − μ ), σ − ) i X Y σ2X σ2X

wobei in Anbetracht von (12.1.26) gilt: σ XY β0 = μ Y − 2 μ X und σX σ2U = σ2Y −

σ2XY σ2X

β1 =

für i = 1, . . . , n,

σ XY σ2X

(12.1.27)

sowie

(12.1.28)

.

(12.1.29)

Tatsächlich lässt sich zeigen, dass (12.1.28) und (12.1.29) bereits unter (A2) und sogar noch unter allgemeineren Annahmen gelten (Satz 12.1.2). In Bezug auf (12.1.28) bedeutet dies, dass theoretische Regressionsgerade und theoretische KQ-Gerade übereinstimmen. μX = μY = 0, σ2X = σ2Y = 1, σX Y = 0.7 y 3



β0 = 0, β1 = 0.7,

σ2U

μX = μY = 0, σ2X = 3, σ2Y = 1, σX Y = − 0.9

= 0.51

y 3

β0 = 0, β1 = − 0.3, σ2U = 0.73

2 stochastisch

stochastisch

2



1 0 −1 −2

1 0 −1 −2

−3

−3 −3 −2 −1

0

1

stochastisch

2

3

−3 −2 −1 x

0

1

stochastisch

2

3 x

Abb. 12.1.6: Klassisches Modell bei bivariater Normalverteilung

Abbildung 12.1.6 illustriert die Situation mit Randverteilungen und bedingten Verteilungen. Die Konturplots korrespondieren dabei teils mit Abbildung 8.3.1. Man beachte, dass entgegen der Intuition nicht nur die unbedingte, sondern auch die bedingte Varianz des Fehlers konstant ist. Dem Schaubild nach entsteht der Eindruck, dass die bedingte Varianz für große und kleine x-Werte kleiner wird. Dies erweist sich jedoch als Trugschluss. Hauptgrund hierfür ist, dass die Trägermenge der Normalverteilung

12.1 Einfaches lineares Regressionsmodell | 667

einerseits unbeschränkt ist und andererseits große und kleine Werte weniger wahrscheinlich sind. Dadurch treten extreme x-Werte seltener auf und es kommt daher dort auch seltener zu großen Abweichungen von der Regressionsgeraden. Es mag überraschen, dass die theoretische KQ-Gerade nicht durch die erste Hauptachse der Ellipsen verläuft. Dies liegt an der Lage des bedingten Erwartungswerts von Y unter X, der außerhalb des theoretischen Schwerpunkts (μ X , μ Y ) nicht auf der ersten Hauptachse liegt, falls X und Y abhängig sind. • Modell BH: Bedingt heteroskedastischer Fehler • Die Annahmen des klassischen Modells lassen sich modifizieren und verallgemeinern. Insbesondere erweisen sich die Annahme einer Normalverteilung und die eines bedingt homoskedastischen Fehlers in der Praxis häufig als inadäquat. Weniger restriktiv ist in dieser Hinsicht das folgende Annahmeensemble. Definition 12.1.4: Modell mit bedingt heteroskedastischem Fehler Wir sprechen von einem linearen Regressionsmodell mit bedingt heteroskedastischem Fehler, falls gilt: (A0) Y i = β0 + β1 X i + U i für i = 1, . . . , n, (A1) E(U i |X i = x i ) = 0 für i = 1, . . . , n, (A2) (X1 , Y1 ), . . . , (X n , Y n ) sind u.i.v. und (A3) alle Zufallsvariablen genügen Annahme (M) aus Definition 8.2.1 und besitzen positive Varianzen.

stochastisch

y

Var( Y 1 | X 1 = x 1) Var( Y n | X n = x n ) Var( Y 2 | X 2 = x 2) β0 + β 1 × x

E (Y n | X n = x n ) E (Y 2 | X 2 = x 2) E (Y 1 | X 1 = x 1) X 1 = x1

X 2 = x2

...

X n = xn

x

stochastisch Abb. 12.1.7: Modell mit bedingt heteroskedastischem Fehler

Annahme (A1) legt in Bezug auf die bedingte Verteilung der Fehler lediglich den Erwartungswert auf 0 fest. Da keine Aussage über die bedingte Varianz getroffen wird, muss diese nicht zwangsläufig konstant (homoskedastisch) sein. Sofern die beding-

668 | 12 Das lineare Regressionsmodell

te Varianz variiert, spricht man von bedingter Heteroskedastizität bzw. einem bedingt heteroskedastischem Fehler. Abbildung 12.1.7 illustriert die Situation, wobei zur Vereinfachung der formalen Darstellung die Realisationen des Regressors wieder der Größe nach geordnet sind. Die Fehler streuen hier nun bedingt auf verschiedenen x-Werten unterschiedlich stark und möglicherweise nach unterschiedlichen Verteilungen um die theoretische Regressionsgerade. Da Annahme (A1) weder einen bedingt homoskedatischen Fehler noch eine bedingte Normalverteilung ausschließt, stellt (A1) eine Verallgemeinerung von (A1*) bzw. (A1**) dar. Die Eigenschaften (12.1.23) und (12.1.24) bleiben dabei erhalten, da sie weder Normalverteilung noch bedingte Homoskedastizität voraussetzen. Insbesondere gilt also weiterhin E(U i ) = 0

für i = 1, . . . , n.

Im Allgemeinen sind X i und U i jedoch nicht mehr unabhängig wie im klassischen Modell. Sie sind jedoch unkorreliert, d.h. es gilt: Cov(X i , U i ) = 0

für i = 1, . . . , n.

(12.1.30)

Durch iterierte Erwartungswertbildung (Satz 7.2.7) und Annahme (A1) erhält man dies aus Cov(X i , U i ) = E(X i U i ) = E[E(X i U i |X i )] = E[X i E(U i |X i )] = 0. Eigenschaft (12.1.30), stellt bei der Überprüfung zur Adäquatheit von (A1) eine besonders wichtige Implikation dar. Außerdem sind X i und U j für i ≠ j aufgrund der Unabhängigkeit der Zufallsvektoren (X1 , Y1 ), . . . , (X n , Y n ) weiterhin unabhängig. Aus diesem Grund sind auch die Fehler U1 , . . . , U n als transformierte Größen der (X i , Y i ) unabhängig und identisch verteilt. Die unbedingte Varianz der Fehler ist folglich homoskedastisch. Dabei gilt gemäß Satz 7.2.7 (ii) und (A1): Var(U i ) = E[Var(U i |X i )] + Var[E(U i |X i )] = E[Var(U i |X i )].

(12.1.31)

Die (unbedingte) Fehlervarianz entspricht der „durchschnittlichen bedingten Varianz“. Wie im klassischen Modell mit stochastischem Regressor gelten unter den Annahmen (A0)–(A3) auch weiterhin die Eigenschaften (12.1.28) und (12.1.29), sodass theoretische Regressionsgerade und theoretische KQ-Gerade stets übereinstimmen (Satz 12.1.2). • Modell UHV: Heterogen verteilte Stichprobenvariablen • In vielen Fällen erscheint das in Annahme (A2) unterstellte u.i.v.-Ziehungsschema inadäquat. Wie bereits bemerkt, lässt sich beispielsweise ein klassisches Modell mit nichtstochastischem Regressor als Modell mit unabhängigen heterogen verteilten Zufallsvektoren (x1 , Y1 ), . . . , (x n , Y n ) auffassen. Wir verzichten an dieser Stelle auf die exakte Widergabe eines für die Inferenz gültigen Annahmeensembles. Der formale Aufwand erscheint uns hier zu groß. Interessierte Leser seien hier auf White [1980] verwiesen. Unter Beibehaltung der An-

12.1 Einfaches lineares Regressionsmodell | 669

nahmen (A0) und (A1) wird (A2) zu „(X1 , Y1 ), . . . , (X n , Y n ) sind u.h.v.“ verallgemeinert. Annahme (A3) ist durch eine deutlich komplexere Annahme zu ersetzen, welche die Endlichkeit bzw. gleichmäßige Beschränktheit bestimmter Momente gewährleistet. Wie beim ZGWS für u.h.v.-Zufallsvariablen könnte man hierbei etwa von Annahme (B) gemäß Definition 8.2.1 Gebrauch machen. Weiter müssen bestimmte Konvergenzkriterien theoretischer Statistiken erfüllt sein. Da nun beispielsweise U1 , . . . , U n im Allgemeinen heterogen verteilt sind mit Var(U i ) = σ2i

für i = 1, . . . , n,

(unbedingte Heteroskedastizität), müsste man beispielsweise 1 n 2 n→∞ 2 ∑ σ 󳨀󳨀󳨀󳨀󳨀→ σ U > 0 n i=1 i voraussetzen. Ähnliches müsste für X1 , . . . , X n und bestimmte gemischte Terme gelten. Die Eigenschaften (12.1.23), (12.1.24), (12.1.30) und (12.1.31) bleiben indes erhalten, da sie nur von (A0) und (A1) abhängen. Die theoretischen Kennwerte in (12.1.28) und (12.1.29) sind hingegen durch asymptotische Grenzwerte zu ersetzen. • Zusammenfassung • Tabelle 12.1.1 fasst die spezifischen Eigenschaften aller zuvor vorgestellten Modellvarianten zusammen. • Alternativ auch (X i , U i ) statt (X i , Y i ) • In manchen Lehrbüchern wird die auf das Ziehungsschema der Stichprobe bezogene Annahme, hier die Annahme (A2), für die Zufallsvektoren (X1 , U1 ), . . . , (X n , U n ) anstelle für (X1 , Y1 ), . . . , (X n , Y n ) formuliert. Aufgrund der exakten linearen Beziehung zwischen den drei Variablen Y i , X i und U i gemäß Annahme (A0) ist dies völlig äquivalent. Sind beispielsweise (X1 , Y1 ), . . . , (X n , Y n ) unabhängig und identisch verteilt, so auch (X1 , U1 ), . . . , (X n , U n ) und umgekehrt (vgl. Satz 8.3.1). • Sonstige Verallgemeinerungen • Es bestehen zahlreiche weitere Möglichkeiten von Verallgemeinerungen und Modifikationen. Zudem sind auch „Mischfälle“ denkbar. So könnte man etwa innerhalb des klassischen Modells lediglich auf die Normalverteilungsannahme verzichten oder umgekehrt innerhalb des Modells mit bedingter Heteroskedastizität zusätzlich von der Normalverteilungsannahme Gebrauch machen. Weitere Annahmeensembles, die etwa „schwache Abhängigkeiten“ oder bestimmte Formen von Heterogenität oder beides gleichzeitig erlauben, finden sich beispielsweise bei White [2001].

670 | 12 Das lineare Regressionsmodell

Tab. 12.1.1: Modellimmanente Eigenschaften der verschiedenen Annahmeensembles Eigenschaft

KN

KS

BH

UHV

(1) Y i = β0 + β1 X i + U i









(2) (X1 , Y1 ), . . . , (X n , Y n ) sind unabhängig









(3) (X1 , Y1 ), . . . , (X n , Y n ) sind identisch verteilt









(4) U1 , . . . , U n sind unabhängig









(5) U1 , . . . , U n sind identisch verteilt









(6) U1 , . . . , U n sind N(0, σ 2U )-verteilt









(7) U i und X i sind unabhängig









(8) Cov(X i , U i ) = E(X i U i ) = 0









(9) E(U i ) = E(U i |X i = x i ) = 0









(10) E(Y i |X i = x i ) = β0 + β1 x i









(11) Var(U i ) = E[Var(U i |X i )]









(12) Var(U i ) =

















































σ 2U

(unbedingte Homoskedastizität) (13) Var(U i |X i = x i ) = σ 2U (bedingte Homoskedastizität) (14) U i |X i = x i ∼ N(0, σ 2U ) (15) Y i |X i = x i ∼ N(β0 +

β1 x i , σ 2U )

(16) β0 = μ Y − β1 μ X , β1 = (17)

σ 2U

=

σ 2Y



σ XY /σ 2X

σ 2XY /σ 2X

Theoretische KQ-Regression • Überblick • Nach der Definition der theoretischen KQ-Regression und der Beschreibung ihrer Eigenschaften wird gezeigt, dass die zu schätzende theoretische Regressionsgerade als theoretische KQ-Gerade interpretierbar ist. Diese Tatsache erweist sich später etwa beim Nachweis von Konsistenzeigenschaften und anderen theoretischen Betrachtungen als nützlich. • Definition und Eigenschaften • In Analogie zum empirischen Kleinste-QuadrateProblem ̂ 0 , β1 ) min Q(β

β0 ,β1

n

̂ 0 , β1 ) = ∑ (y i − β0 − β1 x i )2 mit Q(β i=1

12.1 Einfaches lineares Regressionsmodell | 671

lässt sich auch ein theoretisches Kleinste-Quadrate-Problem formulieren. Hierzu betrachtet man die Zufallsvariablen X und Y und das Minimierungsproblem ̂ 0 , β1 ) min Q(β

β0 ,β1

̂ 0 , β1 ) = E[(Y − β0 − β1 X)2 ]. mit Q(β

Ziel ist es dabei, die erwartete quadratische Abweichung zwischen β0 + β1 X und Y, auch MSE (Mean Squared Error) genannt, zu minimieren. Man könnte dieses Bestreben als theoretische KQ-Regression von Y auf X bezeichnen, wobei es darum geht, die Koeffizienten der besten linearen Prädiktion von Y durch X zu ermitteln. Mit der theoretischen Verschiebungsformel, herkömmlichen Rechenregeln für Erwartungswerte, Varianzen und Kovarianzen und konventioneller Symbolik erhalten wir zunächst E[(Y − β0 − β1 X)2 ] = Var(Y − β0 − β1 X) + [E(Y − β0 − β1 X)]2 = σ2Y − 2β1 σ XY + β21 σ2X + (μ Y − β0 − β1 μ X )2 .

(12.1.32)

Berechnen und Nullsetzen der ersten partiellen Ableitungen ergibt dann ̂ 0 , β1 ) ∂ Q(β = −2(μ Y − β0 − β1 μ X ) = 0 ∂β0

und

̂ 0 , β1 ) ∂ Q(β = −2σ XY + 2β1 σ2X − 2μ X (μ Y − β0 − β1 μ X ) = 0. ∂β1

(i) (ii)

Die Lösungen des Gleichungssystem bezeichnen wir mit β̂ 0 bzw. β̂ 1 . Gleichung (i) resultiert in β̂ 0 = μ Y − β̂ 1 μ X .

(12.1.33)

Anschließendes Einsetzen in (ii) liefert β̂ 1 = σ XY /σ2X .

(12.1.34)

> 0 voraus. Die Formeln (12.1.33) und (12.1.34) geben die theoreHierbei setzen wir tischen KQ-Koeffizienten wider, wie sie bereits in Definition 7.2.6 ohne formale Begründung definiert wurden. Sie sind völlig analog zu den Lösungen des empirischen KQProblems. Wir verwenden hier zur Notation ein Dachsymbol und einen Querbalken, um eine Verwechslung mit den KQ-Schätzern zu vermeiden. Die korrespondierende Gerade σ2X

̂y(x) = β̂ 0 + β̂ 1 x bezeichnen wir, wie bereits gehabt, als theoretische KQ-Gerade. Alternativ bezeichnen wir die Zufallsvariable ̂ Y = ̂y(X) = β̂ 0 + β̂ 1 X

(12.1.35)

672 | 12 Das lineare Regressionsmodell ̂ als besten linearen MSE-Prädiktor von Y auf der Basis von X. Das Minimum von Q (den minimalen MSE) erhalten wir durch Einsetzen der Lösungen in (12.1.32). Wegen E(Y − ̂ Y) = E(Y − β̂ 0 − β̂ 1 X) = μ Y − β̂ 0 − β̂ 1 μ X = 0

(12.1.36)

erhalten wir 2 E[(Y − β̂ 0 − β̂ 1 X) ] = Var(Y − β̂ 0 − β̂ 1 X) = Var(Y − β̂ 1 X) 2 σ2 . = σ2Y − 2β̂ 1 σ XY + β̂ 1 σ2X = σ2Y − XY σ2X

Formen wir den letzten Ausdruck noch zu σ2Y −

σ2XY σ2X

= σ2Y (1 −

σ2XY σ2X σ2Y

) = σ2Y (1 − ϱ2XY )

um, erhalten wir mit 2 Y) = σ2Y (1 − ϱ2XY ) E[(Y − β̂ 0 − β̂ 1 X) ] = Var(Y − ̂

(12.1.37)

das theoretische Pendant zu Formel (12.1.19) bzw. (12.1.17). Man könnte diesen Kennwert als theoretische Fehlervarianz der KQ-Regression oder alternativ als theoretische Varianz des Prognosefehlers des besten linearen Prädiktors bezeichnen. Diese Varianz misst die Unsicherheit, mit der sich auf Basis von X der Wert von Y linear prognostizieren lässt. Theoretische KQ-Regression Gegeben seien zwei Zufallsvariablen X und Y mit σ2Y < ∞

und 0 < σ2X < ∞.

Dann sind die theoretischen KQ-Koeffizienten einer theoretischen KQ-Regression von Y auf X die Lösungen für das Problem ̂ 0 , β1 ) min Q(β

β0 ,β1

̂ 0 , β1 ) = E[(Y − β0 − β1 X)2 ]. mit Q(β

Dabei gilt β̂ 1 = σ XY /σ2X

und

β̂ 0 = μ Y − β̂ 1 μ X , wobei

̂y(x) = β̂ 0 + β̂ 1 x als theoretische KQ-Gerade bezeichnet wird. Der beste lineare MSE-Prädiktor von Y auf Basis von X ist gegeben durch ̂ Y = ̂y(X) = β̂ 0 + β̂ 1 X.

12.1 Einfaches lineares Regressionsmodell | 673

Dabei gilt: Y) = 0 E(Y − ̂

und

Y) = σ2Y (1 − ϱ2XY ). Var(Y − ̂

(12.1.38) (12.1.39)

Es sei bemerkt, dass die für den empirischen Fall der KQ-Regression geltenden 6 Eigenschaften gemäß Satz 12.1.1 auch für die theoretische KQ-Regression in analoger Weise zutreffen. So ist Eigenschaft (12.1.38) nichts anderes als die theoretische Entsprechung dessen, dass der Mittelwert bzw. die Summe der KQ-Residuen stets 0 ist. Weiterhin gelten die Eigenschaften ̂y(μ X ) = μ Y ,

(12.1.40)

Y) = E(Y) = μ Y , E(̂

(12.1.41)

Y , X) = 0, Cov(Y − ̂ Y, ̂ Y) = 0 Cov(Y − ̂

(12.1.42) und

(12.1.43)

Y) + Var(Y − ̂ Y). Var(Y) = Var(̂

(12.1.44)

Letzteres Resultat könnte man auch als Streuungszerlegungsformel der theoretischen KQ-Regression bezeichnen. Insofern ist es angemessen, die Größe R2 =

Var(̂ Var(Y − ̂ Y) Y) =1− Var(Y) Var(Y)

(12.1.45)

als theoretisches Bestimmtheitsmaß zu bezeichnen. Auf die einfach zu führenden Nachweise der einzelnen Eigenschaften sei verzichtet. Den Begriff der theoretischen KQ-Gerade werden wir im nachfolgenden Punkt anwenden. Er spielt zusammen mit dem Konzept der besten linearen Prädiktion bei der Definition der partiellen Korrelation in Abschnitt 12.2.1 eine wichtige Rolle. • Zusammenhang zur Modellgeraden in den Modellen KS und BH • Es lässt sich zeigen, dass die in den Modellen KS und BH enthaltene theoretische Regressionsgerade als theoretische KQ-Gerade interpretierbar ist. Dabei stimmt die theoretische Varianz des Modellfehlers mit der theoretischen Fehlervarianz der betreffenden theoretischen Regression überein. Diese Resultate ergeben sich implizit aus den Modellananahmen und wurden bereits in Tabelle 12.1.1 in Form der Eigenschaften (16) und (17) aufgeführt. Satz 12.1.2: Theoretische Regressionsgerade = KQ-Gerade Die in den Modellen KS und BH (Definitionen 12.1.3 und 12.1.4) enthaltene theoretische Regressionsgerade ist die KQ-Gerade einer theoretischen Regression von Y auf

674 | 12 Das lineare Regressionsmodell

X. Dabei gilt: β0 = μ Y − β1 μ X ,

β1 = σ XY /σ2X

und

σ2U = σ2Y (1 − ϱ2XY ),

wobei μ Y = E(Y i ),

μ X = E(X i ),

σ XY = Cov(X i , Y i ),

σ2X = Var(X i ),

ϱ XY = Corr(X i , Y i )

und

σ2Y = Var(Y i ), Var(U i ) = σ2U

für i = 1, . . . , n sind. Man beachte, dass nach Annahme (A2) in beiden Modellen (X1 , Y1 ), . . . , (X n , Y n ) unabhängig und identisch verteilt sind. Folglich resultiert die Regressionsgerade aus einer theoretischen KQ-Regression einer Zufallsvariable Y auf eine andere Zufallsvariable X, wobei Y1 , . . . , Y n identisch wie Y und X1 , . . . , X n identisch wie X verteilt sind. Man beachte außerdem, dass in beiden Modellen die Eigenschaften E(U i ) = 0

und

Cov(X i , U i ) = 0 für i = 1, . . . , n

erfüllt sind (vgl. Tab. 12.1.1). Deshalb folgt μ Y = E(Y i ) = E(β0 + β1 X i + U i ) = β0 + β1 μ X , was zum theoretischen Achsenabschnitt β0 = μ Y − β1 μ X führt. Andererseits folgt σ XY = Cov(X i , Y i ) = Cov(X i , β0 + β1 X i + U i ) = β1 Cov(X i , X i ) + Cov(X i , U i ) = β1 σ2X , was zum theoretischen Steigungskoeffizienten β1 = σ XY /σ2X führt. Daraus ergibt sich dann σ2U = Var(U i ) = Var(Y i − β0 − β1 X i ) = σ2Y (1 − ϱ2XY ). Die letzte Gleichung folgt dabei direkt aus dem bereits hergeleiteten Resultat (12.1.39) im Kontext der theoretischen KQ-Regression. • Zusammenhang zur Modellgeraden in den Modellen KN und UHV • In den Modellen KN und UHV entfällt die u.i.v.-Annahme (A2). Stattdessen genügen (X1 , Y1 ), . . . , (X n , Y n ) einem u.h.v.-Schema. Aus diesem Grund sind theoretische Quantitäten wie μ X , μ Y oder σ XY erst einmal nicht definiert. Somit kommt man dann auch nicht direkt zur Deutung der Modellgeraden als theoretische KQ-Gerade. Unter bestimmten Zusatzannahmen lässt sich dies jedoch bewerkstelligen. So kann man etwa von den beiden Konvergenzannahmen

12.1 Einfaches lineares Regressionsmodell | 675

E( E(

1 n 1 n n→∞ ∑ X i ) = ∑ E(X i ) 󳨀󳨀󳨀󳨀󳨀→ c1 n i=1 n i=1

und

1 n 1 n 2 n→∞ ∑ X i ) = ∑ E(X 2i ) 󳨀󳨀󳨀󳨀󳨀→ c2 n i=1 n i=1

(K1) (K2)

Gebrauch machen. Man beachte, dass (K1) und (K2) in Modell KN wegen X i = x i zu 1 n 1 n n→∞ ∑ E(X i ) = ∑ x i 󳨀󳨀󳨀󳨀󳨀→ c1 n i=1 n i=1

und

1 n 1 n n→∞ ∑ E(X 2i ) = ∑ x2i 󳨀󳨀󳨀󳨀󳨀→ c2 . n i=1 n i=1

(K1*) (K2*)

führen. Die Erwartungswerte der ersten beiden Stichprobenmomente sollen für wachsendes n also gegen feste Werte konvergieren. Anders ausgedrückt sollen die durchschnittlichen ersten beiden Momente gegen feste Werte konvergieren. Dies impliziert dann beispielsweise E(Y) = E(

1 n ∑ (β0 + β1 X i + U i )) n i=1 n→∞

= β0 + β1 E(X) + E(U) = β0 + β1 E(X) 󳨀󳨀󳨀󳨀󳨀→ β0 + β1 c1 . Dabei können wir sinnvollerweise auch μ X := c1

und

μ Y := β0 − β1 μ X

setzen. Asymptotisch ergibt sich somit die Eigenschaft β0 = μ Y − β1 μ X . Es sei jedoch ausdrücklich darauf verwiesen, dass im Allgemeinen E(X i ) ≠ μ X

und

E(Y i ) ≠ μ Y

gilt, da die Stichprobenvariablen heterogen verteilt sind und individuelle Erwartungswerte besitzen. Ähnlich lässt sich im Falle der Stichprobenkovarianz argumentieren, für welche ein Resultat der Form n→∞

E(S̃ XY ) 󳨀󳨀󳨀󳨀󳨀→ β1 σ2X =: σ XY

mit σ2X = c2 − c21

hergeleitet werden kann. Entsprechend würde dann gelten: β1 = σ XY /σ2X . Für die Eigenschaft σ2U = σ2U (1 − ϱ2XY )

676 | 12 Das lineare Regressionsmodell

wären zumindest im UHV-Modell noch weitere Zusatzannahmen zu treffen, was wir hier jedoch nicht weiter ausführen möchten. Insgesamt kann festgehalten werden, dass sich mit entsprechenden Konvergenzannahmen die theoretische Regressionsgerade in den Modellen KN und UHV ebenfalls als theoretische KQ-Gerade interpretieren lässt. Dabei ist sie als asymptotische Gerade oder „durchschnittliche Gerade für großes n“ zu verstehen.

12.1.3 Verteilungstheoretische Grundlagen Verteilungen der KQ-Schätzer • Alternative Darstellungen der KQ-Schätzer • Die Formeln zur Berechnung der KQ-Schätzer wurden in Abschnitt 12.1.1 hergeleitet und lauten β̂ 0 = Y − β̂ 1 X S̃ XY β̂ 1 = 2 S̃

und

(12.1.46)

mit S̃ 2X > 0.

(12.1.47)

X

Man beachte, dass diese unabhängig von der Unterstellung irgendeines Modells als Lösungen der KQ-Methode gelten. Zur Herleitung der Verteilungen der beiden Schätzer im Rahmen des Regressionsmodells erweisen sich alternative Darstellungen als hilfreich. Wir verwenden dabei folgendes Hilfsresultat. Satz 12.1.3: Alternative Darstellungen der KQ-Schätzer Im einfachen linearen Regressionsmodell gilt, wenn S̃ 2X > 0: β̂ 0 = β0 − X(β̂ 1 − β1 ) + U β̂ 1 = β1 + V

und

(12.1.48)

n

mit V =

1 1 ∑ (X i − X)U i . S̃ 2 n i=1

(12.1.49)

X

Es ist nachzuweisen, dass sich die allgemeinen Formeln (12.1.46) und (12.1.47) bei Unterstellung eines Regressionsmodells gemäß Definition 12.1.1 zu (12.1.48) und (12.1.49) umformen lassen. Praktisch nutzbar zur Berechnung der KQ-Schätzer sind diese Darstellungen freilich nicht, da die theoretischen Koeffizienten β0 und β1 ja unbekannt sind. Ausschlaggebend ist zunächst einmal Annahme (A0). Hieraus ergibt sich für das Stichprobenmittel der abhängigen Variablen Y=

1 n ∑ (β0 + β1 X i + U i ) = β0 + β1 X + U, n i=1

12.1 Einfaches lineares Regressionsmodell | 677

was mit (12.1.46) unmittelbar zu (12.1.48) führt. Außerdem folgt damit auch 1 n S̃ XY = ∑ (X i − X)(Y i − Y) n i=1 =

1 n ∑ (X i − X)(β0 + β1 X i + U i − β0 − β1 X − U) n i=1

= β1

1 n 1 n ∑ (X i − X)2 + ∑ (X i − X)(U i − U) n i=1 n i=1

1 n 1 n = β1 S̃ 2X + ∑ (X i − X)U i + U ∑ (X i − X) n i=1 n i=1 = β1 S̃ 2X +

1 n ∑ (X i − X)U i , n i=1

wobei letzte Gleichung wegen 1 n ∑ (X i − X) = 0 n i=1

(12.1.50)

gilt. Setzt man die letzte Darstellung der Stichprobenkovarianz nun in die gewöhnliche Formel für den KQ-Schätzer ein, erhält man das postulierte Resultat (12.1.49). • Verteilung der KQ-Schätzer im Modell KN • Wir betrachten zunächst das klassische Regressionsmodell mit nichtstochastischem Regressor gemäß Definition 12.1.2. Insbesondere können wir hier zur Betonung der Nichtstochastik wegen X1 = x1 , . . . , X n = x n auch die Kleinschreibweise wählen. Man beachte, dass die Fehler in diesem Modell unabhängig und normalverteilt sind gemäß U i ∼ N(0, σ2U )

für i = 1, . . . , n.

Der Term V lässt sich nun als gewichtete Summe (Linearkombination) der Fehler darstellen. Dabei gilt: n

β̂ 1 − β1 = V = ∑ c i U i

mit

ci =

i=1

xi − x . ñs2X

Mit c i U i ∼ N(0, c2i σ2U )

für i = 1, . . . , n,

erhält man daraus durch Anwendung von Rechenregel (7.4.21) n

β̂ 1 − β1 ∼ N(0, ∑ c2i σ2U ). i=1

(12.1.51)

678 | 12 Das lineare Regressionsmodell

Man beachte, dass die Fehler unabhängig und normalverteilt sind. Der Varianzausdruck lässt sich dabei noch umformen mittels n

̃s2 1 (x i − x)2 = X4 = 2 . 4 2̃ ̃s X ̃ n s n n s i=1 X X n

∑ c2i = ∑ i=1

(12.1.52)

Daraus resultiert schließlich die Verteilung des KQ-Schätzers für die Steigung mit σ2 β̂ 1 − β1 ∼ N(0, U2 ) ñs X

bzw.

σ2 β̂ 1 ∼ N(β1 , U2 ). ñs X

(12.1.53)

Dies impliziert zugleich E(β̂ 1 ) = β1

und

Var(β̂ 1 ) =

σ2U ñs2X

.

Der KQ-Schätzer des Steigungskoeffizienten ist folglich erwartungstreu. Seine Varianz nimmt bei gleicher Variation des Regressors, ausgedrückt durch ̃s2X , mit zunehmendem Stichprobenumfang ab und mit zunehmender Fehlervarianz zu. Man beachte hierzu zunächst Abbildung 12.1.4 für die theoretische Sichtweise. Abbildung 12.1.8 zeigt dann beispielhaft zwei verschiedene Situationen für den empirischen Fall. Einer genauen Schätzung der Steigung ist abträglich, falls die Fehlervarianz im Verhältnis zur Varianz der x-Werte verhältnismäßig groß ist. Hierzu ist zu beachten, dass sich im Rahmen experimenteller Designs die Regressorwerte häufig steuern lassen. Dabei ist es demgemäß also nur ratsam die Unterschiede möglichst groß zu setzen. Es sollte ohnehin einsichtig sein, dass sich kausale Effekte nur schwer schätzen lassen, falls die kontrollierten Einflüsse nur geringfügig variiert werden. Analog lässt sich auch der Ausdruck β̂ 0 − β0 = −x(β̂ 1 − β1 ) + U = −xV + U als gewichtete Summe der Fehler U1 , . . . , U n darstellen. Dabei gilt nun: n

−xV + U = ∑ k i U i

mit k i = −xc i +

i=1

1 . n

(12.1.54)

Daraus erhält man n

β̂ 0 − β0 ∼ N(0, ∑ k2i σ2U ). i=1

Man beachte, dass aufgrund von (12.1.50) n

∑ ci = 0

(12.1.55)

i=1

gilt. Zusammen mit (12.1.52) lässt sich der Varianzausdruck deshalb umformen mittels n

n

i=1

i=1

∑ k2i = ∑ (x2 c2i − 2xc i

n 1 2x n 1 1 + 2 ) = x2 ∑ c2i − ∑ ci + n n n n i=1 i=1

12.1 Einfaches lineares Regressionsmodell | 679

= x2

̃s2X x2 + ̃s2X 1 1 1 n − 0 + = = 2 ∑ x2i . 2 2 2 ñs X ñs X ñs X ñs X n i=1

Die letzte Gleichung folgt dabei aus der Verschiebungsformel für die empirische Varianz bzw. aus 1 n 2 ∑ x = x2 + ̃s2X . n i=1 i

(12.1.56)

Insgesamt erhalten wir also β̂ 0 − β0 ∼ N(0,

1 n

∑ni=1 x2i σ2U ñs2X

)

bzw.

β̂ 0 ∼ N(β0 ,

1 n

∑ni=1 x2i σ2U ñs2X

).

(12.1.57)

Dies impliziert E(β̂ 0 ) = β0

und

Var(β̂ 0 ) =

1 n

∑ni=1 x2i σ2U ñs2X

,

wobei offensichtlich Var(β̂ 0 ) =

1 n 2 ∑ x Var(β̂ 1 ) n i=1 i

(12.1.58)

gilt. Der KQ-Schätzer des Achsenabschnitts ist ebenfalls erwartungstreu. Seine Varianz hängt zunächst einmal in gleicher Weise wie beim Steigungskoeffizienten von der Varianz der Fehlervariable σ2U , der Variation des Regressors ̃s2X und dem Stichprobenumfang n ab. Je unsicherer die Schätzung für die Steigung ist, desto unsicherer ist auch die Schätzung des Achsenabschnitts. Allerdings muss hierbei noch das zweite (empirische) Stichprobenmoment mit berücksichtigt werden. Wegen (12.1.56) wirkt sich bei gleicher Streuung ein höheres durchschnittliches Niveau der x-Daten x unvorteilhaft auf die Schätzsicherheit aus. Dies erscheint insofern intuitiv, da der Schwerpunkt dann „weiter von der y-Achse entfernt“ liegt. Denn bei gleich starker Drehung der KQ-Geraden am Schwerpunkt, d.h. bei gleich starker Veränderung der Steigung, ändert sich der Achsenabschnitt umso stärker, je weiter der Schwerpunkt von der yAchse entfernt liegt. Abbildung 12.1.9 illustriert die Situation. • Verteilung der KQ-Schätzer im Modell KS • Gegeben sei nun das klassische Modell mit stochastischem Regressor gemäß Definition 12.1.3. Auch hier sind die Fehler zunächst einmal unabhängig N(0, σ2U )-verteilt. Allerdings sind X1 , . . . , X n jetzt stochastisch, weshalb in (12.1.49) die Großschreibweise für Zufallsvariablen beibehalten bzw. verwendet werden muss. Konkret gilt: n

β̂ 1 − β1 = V = ∑ C i U i i=1

mit C i =

Xi − X . n S̃ 2

(12.1.59)

X

Das Problem besteht nun darin, dass Rechenregel (7.4.21) nicht mehr verwendet werden kann, da die Gewichte C i stochastisch sind. Zudem genügen die Summanden C i U i im Allgemeinen auch keiner Normalverteilung mehr. In Bezug auf die späteren Inferenzverfahren stellt sich jedoch heraus, dass durchgängig bereits die Betrachtung der

680 | 12 Das lineare Regressionsmodell

yi 8

−2

yi 8

Günstig

6

6

4

4

2

2

0

2

4

6

8

10

12

Weniger günstig

−2

0

2

4

6

8

10

xi

12

xi

Abb. 12.1.8: Schätzung des Steigungskoeffizienten

yi 8

−4

−2

yi 8

Günstig

6

6

4

4

2

2

0

x

2

4

6

8

10

−4

Weniger günstig

−2

0

2

xi

4

x

6

8

10

xi

Abb. 12.1.9: Schätzung des Achsenabschnitts

bedingten Verteilungen genügt. Dabei wird auf alle X i -Variablen bedingt. Somit erhält man dann C i U i |X1 = x1 , . . . , X n = x n ∼ N(0,

(x i − x)2 σ2U n2 ̃s2X

)

für ̃s2X > 0.

Zur Abkürzung können wir hier auch die Großschreibweise C i U i |X1 , . . . , X n ∼ N(0,

(X i − X)2 σ2U ) n2 S̃ 2

für S̃ 2X > 0

X

verwenden. An sich ist die Grundidee plausibel. Gegeben das zufällige Ergebnis der x-Werte, agiert man nun quasi so, als ob diese nichtstochastisch wären. Daraus folgt, dass im Weiteren dann sämtliche Verteilungsresultate denen aus Modell KN entsprechen, nur dass sie nun bedingt zu verstehen sind. Im Endeffekt erhält man dann die beiden Resultate σ2 β̂ 1 |X1 , . . . , X n ∼ N(β1 , U2 ) n S̃

und

(12.1.60)

X

β̂ 0 |X1 , . . . , X n ∼ N(β0 ,

1 n

∑ni=1 X 2i σ2U ). n S̃ 2 X

(12.1.61)

12.1 Einfaches lineares Regressionsmodell | 681

Im Grunde hat sich dann lediglich die Notation verändert. Da die bedingten Erwartungswerte der KQ-Schätzer jeweils nicht von den x-Werten abhängen, stimmen diese mit den (unbedingten) Erwartungswerten überein, vorausgesetzt die (unbedingten) Erwartungswerte von β̂ 0 und β̂ 1 sind endlich. Dies ergibt sich mit der Regel für iterierte Erwartungswertbildung (Satz 7.2.7). Es gilt also E(β̂ 1 ) = E[E(β̂ 1 |X1 , . . . , X n )] = E(β1 ) = β1

bzw.

E(β̂ 0 ) = E[E(β̂ 0 |X1 , . . . , X n )] = E(β0 ) = β0 . Beide KQ-Schätzer wären somit erwartungstreu. Die Regressorwerte X1 , . . . , X n sind gemäß Annahme (A2) unabhängig und identisch verteilt. Wir bezeichnen μ X = E(X i )

und

σ2X = Var(X i ).

Da die Stichprobenstatistiken 1 n 2 ∑X n i=1 i

und

1 n 2 S̃ 2X = ∑ X 2i − X n i=1

maßgeblich von diesen beiden theoretischen Kennwerten abhängen, werden die Kriterien, die zu kleinen Varianzen der KQ-Schätzer führen, nun auch über diese formuliert. Günstig für die Schätzung der Steigung wäre demnach eine im Vergleich zur Fehlervarianz σ2U große theoretische Varianz des Regressors σ2X . Zur Schätzung des Achsenabschnitts ist hingegen zusätzlich ein Erwartungswert der Regressorvariablen nahe 0 vorteilhaft. • Verteilung des KQ-Schätzers für β1 im Modell BH • Im Modell mit bedingt heteroskedastischem Fehler gemäß Definition 12.1.4 ist keine exakte Verteilung der KQSchätzer bestimmbar, da an die Fehlerverteilung keine Verteilungsannahme gestellt wird. So kann hier nur nachgewiesen werden, dass die KQ-Schätzer asymptotisch bzw. für große Stichproben approximativ normalverteilt sind. Hierzu wird hauptsächlich vom ZGWS und GGZ (Abschnitt 7.4.2) Gebrauch gemacht. Wir beginnen hier mit der Feststellung, dass die Terme (X1 − μ X )U1 , . . . , (X n − μ X )U n unabhängig und identisch verteilt sind. Dies resultiert daraus, dass sich diese gemäß g(x, y) = (x − μ X )(y − β0 − β1 x) als Funktion der u.i.v.-Vektoren (X1 , Y1 ), . . . , (X n , Y n ) ergeben, d.h. es gilt: (X i − μ X )U i = g(X i , Y i )

für i = 1, . . . , n.

Weiter gilt für den Erwartungswert: E[(X i − μ X )U i ] = 0

für i = 1, . . . , n.

(12.1.62)

682 | 12 Das lineare Regressionsmodell

Zum Nachweis verwenden wir die Regel für iterierte Erwartungswertbildung (Satz 7.2.7) und nutzen Annahme (A1). Hieraus erhält man E[(X i − μ X )U i ] = E[E((X i − μ X )U i |X i )] = E[(X i − μ X )E(U i |X i )] = E[(X i − μ X ) ⋅ 0] = 0. Für die Varianzen der Terme (X i − μ X )U i gibt es keinen einfachen explizite Ausdruck. Sie können jedoch alternativ darstellt werden. So gilt: Var[(X i − μ X )U i ] = E[(X i − μ X )2 Var(U i |X i )].

(12.1.63)

Dies lässt sich wiederum mit iterierter Erwartungswertbildung nachweisen und mithilfe der Tatsache, dass die Varianz dem zweiten Moment entspricht, sofern der Erwartungswert gleich 0 ist. So erhält man dann Var[(X i − μ X )U i ] = E[(X i − μ X )2 U i2 ] = E[E((X i − μ X )2 U i2 |X i )] = E[(X i − μ X )2 E(U i2 |X i )] = E[(X i − μ X )2 ⋅ Var(U i |X i )] Man beachte, dass die Varianzen nach den Modellannahmen tatsächlich auch existieren, d.h. endlich sind. Somit können wir insgesamt festhalten: (X1 − μ X )U1 , . . . , (X n − μ X )U n sind u.i.v. mit Erwartungswert 0. Hiermit greift jedoch der ZGWS für u.i.v.-Zufallsvariablen (Satz 7.4.3). Gemäß (7.4.34) gilt dann für das stochastische Mittel dieser Terme: Yn =

1 n

∑ni=1 (X i − μ X )U i √ Var((X in−μ X )U i )

a

∼ N(0, 1).

(12.1.64)

Damit erhalten wir fast schon eine Verteilungsaussage für den Zählerausdruck des Terms V in der Darstellung (12.1.49). Tatsächlich können wir den Erwartungswert μ X durch das Stichprobenmittel X ersetzen, ohne dass sich die Verteilungsaussage ändert. Hierzu stellen wir fest: 1 n 1 n ∑ (X i − X)U i = ∑ (X i − μ X + μ X − X)U i n i=1 n i=1 =

1 n 1 n ∑ (X i − μ X )U i + ∑ (μ X − X)U i n i=1 n i=1

=

1 n ∑ (X i − μ X )U i + (μ X − X)U. n i=1

Diese Art von Zerlegung können wir nun ausnutzen. Setzen wir Zn =

1 n

∑ni=1 (X i − X)U i

√ Var((X in−μ X )U i )

und

An =

(μ X − X)U √ Var((X in−μ X )U i )

,

12.1 Einfaches lineares Regressionsmodell | 683

impliziert dies für Z n die Zerlegung Zn = Yn + An

(12.1.65)

Man beachte, dass für Y n das asymptotische Verteilungsresultat (12.1.64) gilt. Sofern nun p

A n 󳨀󳨀→ 0

(12.1.66)

gilt, folgt mit Slutky’s Theorem (Satz 8.2.5) unmittelbar das gewünschte Resultat a

Z n ∼ N(0, 1).

(12.1.67)

Um die Gültigkeit von (12.1.66) nachzuweisen, schreiben wir A n zunächst gemäß An =

(μ X − X)σ U U ⋅ √Var((X i − μ X )U i ) √ σ2 /n U

um. Setzen wir nun Bn =

(μ X − X)σ U √Var((X i − μ X )U i )

und

Wn =

U−0 √ σ2U /n

,

erhalten wir die Beziehung An = Bn Wn .

(12.1.68)

Da U1 , . . . , U n u.i.v. mit Erwartungswert 0 und Varianz σ2U sind, gilt a

W n ∼ N(0, 1).

(12.1.69)

Andererseits sind auch X1 , . . . , X n u.i.v. mit Erwartungswert μ X und endlicher Varianz σ2X . Deshalb folgt mit dem GGZ p

X 󳨀󳨀→ μ X

bzw.

p

X − μ X 󳨀󳨀→ 0

und mit dem Stetigkeitssatz (Satz 8.2.3) schließlich p

B n 󳨀󳨀→ 0.

(12.1.70)

Mit Slutsky’s Theorem folgt aus (12.1.68), (12.1.69) und (12.1.70) schließlich (12.1.66). Damit ist die Gültigkeit von (12.1.67) nachgewiesen. Alternativ können wir hierfür auch 1 n a ∑ (X i − X)U i ∼ N(0, Var((X i − μ X )U i )) √n i=1

(12.1.71)

schreiben. Weiter gilt unter Verwendung von (12.1.49) die Darstellung √n(β̂ 1 − β1 ) =

1 1 n ∑ (X i − X)U i . S̃ 2X √n i=1

(12.1.72)

Mit Satz 10.1.4 gilt hierbei: p S̃ 2X 󳨀󳨀→ σ2X .

(12.1.73)

684 | 12 Das lineare Regressionsmodell

Man beachte hierzu Beispiel 8.3.6 mit Resultat (8.3.29). Aus (12.1.71), (12.1.72) und (12.1.73) erhält man dann mit Slutsky’s Theorem (Satz 8.2.5) schließlich die Verteilungsaussage für den Schätzer des Steigungskoeffizienten. Demnach gilt Var((X i − μ X )U i ) a √n(β̂ 1 − β1 ) ∼ N(0, ). (σ2X )2

(12.1.74)

Alternativ können wir gemäß der von uns genutzten Notation auch β̂ 1 − β1

approx

β̂ 1

approx

∼ ∼

Var((X i − μ X )U i ) ) bzw. n(σ2X )2 Var((X i − μ X )U i ) N(β1 , ) n(σ2X )2 N(0,

(12.1.75) (12.1.76)

schreiben. Der KQ-Schätzer für den Steigungskoeffizienten ist für großes n approximativ normalverteilt. Falls der Erwartungswert von β̂ 1 endlich ist, dann ist β̂ 1 erwartungstreu. Unter Verwendung von (12.1.49) ergibt sich dies mithilfe iterierter Erwartungswertbildung durch E(β̂ 1 ) = β1 + E[

1 1 n ∑ (X i − X)U i ] S̃ 2 n i=1 X

= β1 + E[E(

󵄨󵄨 1 1 n ∑ (X i − X)U i 󵄨󵄨󵄨X1 , . . . , X n )] 2 󵄨 S̃ n i=1 X

1 1 n = β1 + E[ 2 ∑ (X i − X)E(U i |X1 , . . . , X n )] = β1 . S̃ n i=1 X

Man beachte dabei, dass E(U i |X1 , . . . , X n ) = E(U i |X i ) = 0 aufgrund von Annahme (A1) und der Unabhängigkeit von U i und X j für i ≠ j gilt. Die Varianz in (12.1.75) ist hingegen asymptotisch zu verstehen. Unter Verwendung der alternativen Darstellung (12.1.63) kann man Var(√n(β̂ 1 − β1 )) ≈

1 E[(X i − μ X )2 Var(U i |X i )]. (σ2X )2

(12.1.77)

schreiben, sofern die Varianz von β̂ 1 endlich ist. Mit der Verschiebungsformel für die theoretische Kovarianz (7.2.2) lässt sich der Zähler von (12.1.77) in E[(X i − μ X )2 Var(U i |X i )] = Cov((X i − μ X )2 , Var(U i |X i )) + σ2X E[Var(U i |X i )] = Cov((X i − μ X )2 , Var(U i |X i )) + σ2X σ2U umschreiben. Dabei folgt letzte Gleichung mit Regel (ii) von Satz 7.2.7 und Annahme (A1): E[Var(U i |X i )] = Var(U i ) + Var[E(U i |X i )] = Var(U i ) + Var(0) = Var(U i ).

12.1 Einfaches lineares Regressionsmodell | 685

Die unbedingte Varianz der Fehlervariablen U i ist folglich als durchschnittliche bedingte Varianz interpretierbar. Bei gegebenen Varianzen von Regressor und Fehler wird nun der Zähler von (12.1.77) umso größer, desto stärker die quadratische Abweichung des Regressorwerts vom Schwerpunkt mit der bedingten Fehlervarianz positiv korreliert ist. Sie wird indes kleiner bei negativer Korrelation. Abbildung 12.1.10 illustriert die Situation anhand stark stilisierter Beispiele. Man beachte, dass in beiden Fällen sowohl die (empirische) Varianz der x-Werte als auch die Varianz KQ-Residuen gleich sind. Dies gilt es nun entsprechend auf die theoretische Ebene zu übertragen. yi 8

−2

yi 8

Günstig

6

6

4

4

2

2

0

2

4

6

8

10

12

−2

Weniger günstig

0

2

4

xi

x

6

x

8

10

12

xi

Abb. 12.1.10: Schätzung des Steigungskoeffizienten im Modell BH

An (12.1.77) erkennt man, dass sich die Varianz des Schätzers β̂ 1 bei Unterstellung eines bedingt homoskedastischen Fehlers mit Var(U i |X i ) = σ2U

für i = 1, . . . , n

spezialisiert zu: σ2U nσ2X

.

(12.1.78)

Formel (12.1.78) weist einen engen Bezug zur Varianz im klassischen Modell auf. Man beachte hierzu die Verteilungsaussagen (12.1.53) und (12.1.60). • Verteilung des KQ-Schätzers für β0 im Modell BH • Die Herleitung der Verteilung des KQ-Schätzers für den Achsenabschnitt gestaltet sich nochmals aufwendiger. Wir geben an dieser Stelle lediglich die letztlich gültigen Resultate an (siehe Stock und Watson [2012, Kapitel 4]). Demnach gilt: E(H i2 U i2 ) a √n(β̂ 0 − β0 ) ∼ N(0, ), (E(H i2 ))2

wobei H i = 1 −

μX Xi . E(X 2i )

(12.1.79)

Alternativ können wir dafür auch β̂ 0 − β0

approx



N(0,

E(H i2 U i2 ) n(E(H i2 ))2

) bzw.

(12.1.80)

686 | 12 Das lineare Regressionsmodell

β̂ 0

approx



N(β0 ,

E(H i2 U i2 ) n(E(H i2 ))2

)

(12.1.81)

schreiben. Auch Schätzer β̂ 0 ist erwartungstreu, wenn der Erwartungswert endlich ist. Auf den Versuch, die asymptotischen Varianz aus (12.1.79) zu deuten, wird an dieser Stelle verzichtet. Bei Unterstellung eines bedingt homoskedastischen Fehlers spezialisiert sich diese jedoch zu E(X 2i )σ2U σ2X

,

(12.1.82)

was wiederum einen engen Bezug zur Varianz im klassischen Modell aufweist. Man beachte hierzu die Verteilungsaussagen (12.1.57) und (12.1.61). Damit wäre (12.1.82) quasi wie im klassischen Modell zu deuten. • Verteilung der KQ-Schätzer im Modell UHV • Im Modell UHV sind theoretische Kennwerte wie etwa μX ,

σ2X ,

σ2U

oder

Var((X i − μ X )U i )

nicht ohne Weiteres definiert. Sie müssen durch zusätzliche Konvergenzannahmen wie etwa (K1) und (K2) aus dem vorhergehenden Abschnitt erst begründet werden. Auf Basis solcher Zusatzannahmen lassen sich dann Grenzwertsatz- und GGZ-Varianten für u.h.v.-Schemata nutzen, um die Verteilung der KQ-Schätzer zu bestimmen. Man beachte hierzu etwa die Varianten gemäß Satz 8.2.1 und 8.2.2. Im Endeffekt erhält man dann ebenfalls asymptotisch normalverteilte KQ-Schätzer. Die konkreten Varianzformeln weisen dabei große Ähnlichkeit zu denen in (12.1.74)–(12.1.76) und (12.1.79)– (12.1.81) auf, sind jedoch im Sinne einer Durchschnittsbetrachtung zu verstehen. Üblicherweise werden solche Formeln aufgrund der deutlich kompakteren Schreibweise matrixalgebraisch hergeleitet und dargestellt. Ausführlich wird dies etwa von White [1980] behandelt.

Konsistenz und Effizienz der KQ-Schätzer • Konsistenz der KQ-Schätzer • Da in den Modellen KS und BH β0 = μ Y − β1 μ X

und

β1 = σ XY /σ2X

gelten, sind die KQ-Schätzer auf jeden Fall konsistent. Dies folgt aus der Tatsache, dass in diesen Modellen (X1 , Y1 ), . . . , (X n , Y n ) jeweils unabhängig und identisch verteilt sind. Damit greift mit Annahme (A3) das GGZ für k-te Momente und es gilt: p

X 󳨀󳨀→ μ X ,

p

Y 󳨀󳨀→ μ Y ,

p S̃ XY 󳨀󳨀→ σ XY

und

p S̃ 2X 󳨀󳨀→ σ2X .

12.1 Einfaches lineares Regressionsmodell | 687

Dies impliziert wiederum, dass die KQ-Schätzer als stetige Funktionen dieser Stichprobenstatistiken konsistent sein müssen (Satz 8.3.3), d.h. es gilt: S̃ XY p β̂ 1 = 2 󳨀󳨀→ β1 S̃ X

und

p β̂ 0 = Y − β̂ 1 X 󳨀󳨀→ μ Y − β1 μ X .

Mit entsprechenden zusätzlichen Konvergenzannahmen wie etwa (K1) und (K2) ließen sich in den Modellen KN und UHV diese Konsistenzeigenschaften ebenfalls begründen. • Effizienz der KQ-Schätzer und Gauß-Markov-Theorem • Es lässt sich zeigen, dass die KQ-Schätzer im Modell KN innerhalb der Klasse der erwartungstreuen Schätzer am effizientesten sind, d.h. sie weisen die kleinsten Varianzen von allen erwartungstreuen Schätzern auf. Wird lediglich die Normalverteilungsannahme fallen gelassen, bleiben sie immerhin noch innerhalb der Klasse linearen und erwartungstreuen Schätzer die besten. Hierzu sei bemerkt, dass im Rahmen des Regressionsmodells ein Schätzer als linear bezeichnet wird, sofern er sich als gewichtete Summe der Y1 , . . . , Y n darstellen lässt. Man kann sich leicht davon überzeugen, dass das für β̂ 0 und β̂ 1 der Fall ist. Im Rahmen des Modells KS sind diese Optimalitätseigenschaften entsprechend bedingt auf X1 , . . . , X n zu verstehen. Die KQ-Schätzer sind dann also die besten Schätzer innerhalb der Klasse der bedingt erwartungstreuen Schätzer bzw. die besten Schätzer innerhalb der Klasse der linearen und bedingt erwartungstreuen Schätzer. Ohne Normalverteilungsannahme sind diese Eigenschaften als Aussagen des sog. Gauß-Markov-Theorems bekannt. Detaillierte Ausführungen zum Modell KN finden sich etwa bei Rencher [2012] und zum Modell KS bei Stock und Watson [2012]. Shaffer [1991] befasst sich allgemein mit der Gültigkeit des Theorems bei stochastischen Regressoren. Typischerweise wird das Theorem nämlich meist nur für den nichtstochastischen Fall formuliert. In den Modellen BH und UHV sind die KQ-Schätzer zwar konsistent bzw. lassen sich mithilfe bestimmter Konvergenzannahmen konsistent machen, sie sind jedoch im Allgemeinen nicht am besten. Dies liegt daran, dass die Form der bedingten bzw. unbedingten Heteroskedastizität für die Schätzung nicht ausgenutzt wird. Allerdings gestaltet sich die in diesem Fall bessere Schätzmethode, die sog. Generalisierte Kleinste-Quadrate-Methode, als deutlich aufwendiger. Sie verbleibt Thema weiterführender Lehrbücher.

Schätzung der Varianzen der KQ-Schätzer • Hintergrund • Zur Konstruktion von Konfidenzintervallen und Tests ist es im Allgemeinen notwendig, die Varianzen der KQ-Schätzer zu schätzen. Betrachten wir zur Vergegenwärtigung dieses Aspekts noch einmal die Situation, den Erwartungswert einer Verteilung zu schätzen. Sind X1 , . . . , X n etwa unabhängig N(μ, σ2 )-verteilt, so gilt

688 | 12 Das lineare Regressionsmodell

für das Stichprobenmittel als Schätzer für μ: ̂ = X ∼ N(μ, μ

σ2 ) n

Z=

bzw.

̂−μ μ ∼ N(0, 1). √ σ2 /n

Dieses Resultat kann, wie ausführlich in Kapitel 10 besprochen, auf Basis der Standardnormalverteilung bereits zur Konstruktion eines Konfidenzintervalls für μ oder zur Durchführung eines Tests über μ verwendet werden, sofern die Varianz der Grundgesamtheit σ2 bekannt ist. Dann ist nämlich auch die Varianz des Schätzers bekannt und es gilt: σ2μ̂ = Var(X) = σ2 /n. Ist σ2 hingegen unbekannt, so wird diese durch die (korrigierte) Stichprobenvarianz geschätzt. Dann ergibt sich als Schätzung für die Varianz des Schätzers ̂ 2μ̂ = S2 /n, σ wobei die Wurzel davon als Standardfehler bezeichnet wird. Die für die Inferenz maßgebliche Verteilung ist dann eine t-Verteilung, da T=

̂−μ μ ∼ t(n − 2) ̂ 2μ̂ σ

gilt. Ohne Normalverteilungsannahme genügt T für großes n approximativ einer Standardnormalverteilung, so das zumindest noch approximativ Inferenz möglich ist. Im Folgenden betrachten wir analoge Ausdrücke für die theoretischen Koeffizienten β0 und β1 im Rahmen des Regressionsmodells unter verschiedenen Annahmen. Maßgeblich sind dabei nun die Verteilungen der mit den geschätzten Varianzen standardisierten KQ-Schätzer β̂ 0 − β0 β̂ 1 − β1 bzw. T β0 = . T β0 = ̂ β̂ ̂ β̂ σ σ 0

1

Hierzu müssen Schätzer für die Varianzen der Schätzer bestimmt werden. • Schätzung der Varianzen im klassischen Fall • In den klassischen Modellen KN und KS können die Varianzen der KQ-Schätzer aus den Formeln (12.1.53) und (12.1.57) bzw. (12.1.60) und (12.1.61) ersehen werden. In Modell KN lauten diese σ2̂ = β1

σ2U ñs2X

und

σ2̂ =

und

σ2̂

1 n

∑ni=1 x2i σ2U

β0

ñs2X

und in Modell KS σ2̂

β1 |X1 ,...,X n

=

σ2U n S̃ 2

X

β0 |X1 ,...,X n

=

1 n

∑ni=1 X 2i σ2U . n S̃ 2 X

Da die x-Werte bekannt sind bzw. beobachtet werden, muss lediglich die Fehlervarianz geschätzt werden. Hierzu verwendet man als Schätzer üblicherweise den quadrierten

12.1 Einfaches lineares Regressionsmodell | 689

Standardfehler der Regression, sprich ̂ 2U = SER2 = σ

1 n ̂2 ∑U . n − 2 i=1 i

(12.1.83)

Dieser entspricht im Grunde der Stichprobenvarianz der KQ-Residuen. Es lässt sich zeigen, dass durch die Verwendung des Divisors (n − 2) anstelle von n der Schätzer erwartungstreu wird (vgl. etwa Rencher [2012]). Mit (12.1.19) gilt außerdem ̂ 2U = σ

S̃ 2 n ̃2 S Y (1 − R2 ) ≈ S̃ 2Y − XY n−2 S̃ 2X

(12.1.84)

für großes n. Mit der modellimmanenten Eigenschaft σ2U = σ2Y − σ2XY /σ2X folgt damit unmittelbar, dass der Schätzer in Modell KS konsistent ist. Mit entsprechenden Konvergenzannahmen würde dies auch in Modell KN gelten. Insgesamt erhalten wir also die Formeln ̂2 σ ̃ 2̂ ̃ 2̂ = σ = U2 und (12.1.85) σ β1 β1 |X1 ,...,X n n S̃ X

̃ 2̂ ̃ 2̂ = σ σ

β0 |X1 ,...,X n

β0

=

1 n

̂ 2U ∑ni=1 X 2i σ , n S̃ 2

(12.1.86)

X

wobei in Modell KN wegen X1 = x1 , . . . , X n = x n auch die Kleinschreibweise verwendet werden kann. • Schätzung der Varianzen im Modell BH • Im Modell BH können die Varianzen der KQ-Schätzer aus den Formeln (12.1.75) und (12.1.80) ersehen werden. Demnach gilt: σ2̂ ≈ β0

E(H i2 U i2 ) n(E(H i2 ))2

mit H i = 1 −

μX Xi Var((X i − μ X )U i ) und σ2̂ ≈ . β1 E(X 2i ) n(σ2X )2

Hier lauten die Formeln für die Varianzschätzer entsprechend ̂ 2̂ = σ β0

̂ 2̂ = σ β1

̂2 U ̂2 ∑ni=1 H i i ̂ 2 )2 n( 1 ∑n H 1 n

n

1 n

i=1

̂i = 1 − mit H

i

1 n

XX i und ∑ni=1 X 2i

̂2 ∑ni=1 (X i − X)2 U i 2 2 ̃ n(S )

(12.1.87) (12.1.88)

X

Die Korrespondenz der theoretischen Varianzformeln zu den stochastischen Größen der Schätzer ist offensichtlich. Man beachte hierbei wegen (12.1.62) die Gleichheit Var((X i − μ X )U i ) = E[(X i − μ X )2 U i2 ]. Insgesamt werden somit die theoretischen Momente konsequent durch die korrespondierenden Stichprobenmomente geschätzt. Die nicht beobachtbaren Fehler werden indes durch die KQ-Residuen ersetzt. Wie man sich denken kann, würde ein Konsistenznachweis die wiederholte Anwendung des GGZ für k-te Momente in Verbindung

690 | 12 Das lineare Regressionsmodell

mit dem Stetigkeitssatz erfordern. In Anbetracht der Plausibilität der Schätzer verzichten wir auf einen länglichen Nachweis. In Anlehnung an das Modell werden diese von Eicker [1967] und White [1980] eingeführten Schätzer als heteroskedastizitäts-konsistente Varianzschätzer oder heteroskedastizitäts-robuste Varianzschätzer bezeichnet. Ersteres hebt hervor, dass die Schätzer konsistent sind, falls ein bedingt heteroskedastischer Fehler vorliegt. Letzteres hebt hervor, dass die Schätzer konsistent sind, falls ein bedingt homoskedastischer Fehler vorliegt und dies bei Abweichung davon, also bei bedingter Heteroskedastizität, auch bleiben; insofern sind sie robust. Hierzu beachte man, dass im Modell BH ein bedingt heteroskedastischer Fehler lediglich gestattet, aber nicht zwingend vorausgesetzt wird. Die Nichtannahme von bedingter Homoskedastizität schließt eine solche also nicht aus. Insofern müssen die Varianzschätzer in beiden Fällen konsistent sein. Es sei jedoch bemerkt, dass die Schätzer weniger effizient sind, sofern tatsächlich bedingte Homoskedasitizität vorliegt. Sofern man sich sicher ist, dass eine solche gegeben ist, sollte man sog. nur-homoskedastizitäts-konsistente Varianzschätzer (vgl. Stock und Watson [2012]) verwenden. Diese stimmen formelmäßig mit (12.1.85) und (12.1.86) aus dem klassischen Modell überein und weisen tendenziell geringere Varianzen auf. Sie ermöglichen auf diese Weise eine akkuratere Inferenz, in der im Allgemeinen Konfidenzintervalle kürzer sind und Tests eine höhere Güte aufweisen. • Schätzung der Varianzen im Modell UHV • Ähnlich wie schon bei der Schätzung der Regressionskoeffizienten ergibt sich im Modell UHV das Problem, dass theoretische Kennwerte wie etwa μX ,

Var((X i − μ X )U i ),

E(X 2i )

oder

E(H i2 U i2 )

nicht ohne Weiteres definiert sind. Es bedarf zusätzlicher Konvergenzannahmen, im Rahmen derer sich solche theoretischen Größen als Grenzausdrücke von Durchschnittsbetrachtungen ergeben. Tatsächlich lässt sich dann zeigen, dass die theoretischen Varianzformeln zwar komplizierter werden, die Varianzschätzer (12.1.87) und (12.1.88) jedoch weiterhin verwendet werden können. Dies liegt einfach daran, dass ein langfristiger Mittelwert weiterhin durch den Mittelwert geschätzt werden kann. Tatsächlich wies White [1980] die Konsistenz seiner Schätzer unter dem u.h.v.-Schema nach.

Verteilungen der Inferenzstatistiken • Hintergrund • Nun werden die Resultate für die Verteilung der KQ-Schätzer und diejenigen zur Schätzung der korrespondierenden Varianzen miteinander kombiniert, um die Verteilungen maßgeblicher Inferenzstatistiken zu bestimmen. Mit diesen las-

12.1 Einfaches lineares Regressionsmodell | 691

sen sich dann Konfidenzintervalle und Tests innerhalb der jeweiligen Modelle konstruieren. • Verteilungen im klassischen Modell • Mit einigem Aufwand lässt sich zeigen, dass sowohl in Modell KN als auch in Modell KS gilt: ̂ ̃ β = β j − β j ∼ t(n − 2) T j ̃ β̂ σ

für j = 0, 1 und für n ≥ 3.

(12.1.89)

j

Der mit der geschätzten Varianz standardisierte KQ-Schätzer ist also t-verteilt mit n −2 Freiheitsgraden. Man beachte, dass man im Modell KS eine unbedingte Verteilungsaussage erhält, die nicht mehr von X1 , . . . , X n abhängt. • Verteilungen in den Modellen BH und UHV • Im Modell BH und im Modell UHV mit entsprechenden zusätzlichen Konvergenzannahmen erhält man das Resultat ̂ ̂ β = β j − β j ∼a N(0, 1) T j ̂ β̂ σ

für j = 0, 1.

(12.1.90)

j

Analog zum Nachweis der Gültigkeit von (10.2.11) in Abschnitt 10.2.2 folgt dies durch Anwendung von (8.2.8) in Slutsky’s Theorem (Satz 8.2.5). Da im vorliegenden Fall a √n(β̂ j − β j ) ∼ N(0, nσ2̂ ) βj

und

p

̂ 2̂ 󳨀󳨀→ nσ2̂ nσ βj

βj

gilt, folgt unmittelbar (12.1.90).

12.1.4 Schätzen und Testen Konfidenzintervalle und Tests • Herleitung von Konfidenzintervallen • Auf Basis der Verteilungsresultate (12.1.89) und (12.1.90) können nun Konfidenzintervalle für β0 und β1 konstruiert werden. Ausgehend von (12.1.89) gilt dann für j = 0, 1: ̃ β ≤ t n−2,1−α/2 ) 1 − α = P(−t n−2,1−α/2 ≤ T j ̃ β̂ ≤ β j ≤ β̂ j + t n−2,1−α/2 ⋅ σ ̃ β̂ ), = P(β̂ j − t n−2,1−α/2 ⋅ σ j j wobei t n−2,1−α/2 das (1 − α/2)-Quantil der t(n − 2)-Verteilung bezeichnet. Aus (12.1.90) folgt entsprechend für großes n: ̂ β ≤ z1−α/2 ) 1 − α ≈ P(−z1−α/2 ≤ T j ̂ β̂ ≤ β j ≤ β̂ j + z1−α/2 ⋅ σ ̂ β̂ ), = P(β̂ j − z1−α/2 ⋅ σ j j wobei z1−α/2 das (1 − α/2)-Quantil der Standardnormalverteilung bezeichnet.

692 | 12 Das lineare Regressionsmodell

• Konstruktion von Tests • Die Statistiken (12.1.89) und (12.1.90) bilden zugleich sinnvolle Teststatistiken für ein- und zweiseitige Testprobleme. Die Verteilungsaussagen liefern dabei die Testverteilungen für den Nullhypothesenwert β j = β j,0 . • Zusammenfassung • Um eine kompakte Übersicht zu erhalten, fassen wir an dieser Stelle die zu verwendenden Formeln für die Varianzschätzer mit den Formeln zur Intervallschätzung und zum Testen in einem Satz zusammen. Satz 12.1.4: Konfidenzintervalle und Tests im Regressionsmodell Gegeben sei ein einfaches lineares Regressionsmodell gemäß Definition 12.1.1. Dann gilt: 1. ein (1 − α)-Konfidenzintervall für β j mit j = 0 oder 1 ist (i) in den Modellen KN und KS für n ≥ 3 gegeben durch ̃ β̂ , β̂ j + t n−2,1−α/2 ⋅ σ ̃ β̂ ], [β̂ j − t n−2,1−α/2 ⋅ σ j j (ii) im Modell BH für großes n gegeben durch ̂ β̂ , β̂ j + z1−α/2 ⋅ σ ̂ β̂ ], [β̂ j − z1−α/2 ⋅ σ j j wobei gilt: ̃ 2̂ = σ β1

̂ 2̂ = σ β1

̂ 2U σ , n S̃ 2

̃ 2̂ = σ β0

X

1 n

1 n

̂2 ∑ni=1 (X i − X)2 U i , n(S̃ 2 )2 X

̂ 2̂ σ

β0

̂ 2U ∑ni=1 X 2i σ , n S̃ 2 X

̂2 U ̂2 ∑ni=1 H i i = ̂ 2 )2 n( 1 ∑n H 1 n

n

i=1

i

mit S̃ 2X > 0, ̂ 2U = σ

1 n ̂2 ∑U n − 2 i=1 i

und

̂i = 1 − H

1 n

XX i . ∑ni=1 X 2i

2. die Entscheidungsregeln eines Tests zum Niveau α für das Testproblem a) H0 : β j ≥ β j,0 vs. H1 : β j < β j,0 , b) H0 : β j ≤ β j,0 vs. H1 : β j > β j,0 , c) H0 : β j = β j,0 vs. H1 : β j ≠ β j,0 , (i) basieren in den Modellen KN und KS auf ̂ ̃ β = β j − β j,0 ∼ t(n − 2) T j ̃ β̂ σ j

und lauten: Verwerfe H0 in a) , falls ̃t β j < −t n−2,1−α , b) , falls ̃t β j > t n−2,1−α , c) , falls |̃t β j | > t n−2,1−α/2 ,

für β j = β j,0 und j = 0, 1.

12.1 Einfaches lineares Regressionsmodell | 693

(ii) basieren im Modell BH auf ̂ ̂ β = β j − β j,0 ∼a N(0, 1) T j ̂ β̂ σ j

für β j = β j,0 und j = 0, 1.

und lauten für großes n: Verwerfe H0 in a) , falls ̂t β j < −z1−α , b) , falls ̂t β j > z1−α , c) , falls |̂t β j | > z1−α/2 , 3. mit entsprechenden zusätzlichen Konvergenzannahmen sind die Konfidenzintervalle und Tests für Modell BH auch für Modell UHV gültig. Im Falle von Modell BH handelt es sich in (ii) um approximative Konfidenzintervalle bzw. approximative Tests für n ≥ 60. Die Wahl von Divisoren wie n, (n − 1) oder (n − 2) in den Formeln der Varianzschätzer ist für die asymptotischen Aussagen nicht erheblich. Die Empfehlung für die Stichprobengröße für die approximativen Ergebnisse fällt hier mehr oder weniger willkürlich aus. Jedoch ist „n ≥ 60“ im Einklang mit der Approximationsregel für Tests über Erwartungswertdifferenzen, die sich äquivalent im Rahmen einer Regression mit binärem Regressor durchführen lassen (siehe nächster Unterabschnitt). Stock und Watson [2012] verwenden hingegen die Approximationsregel n ≥ 100. Man beachte, dass sich die Inferenzstatistiken lediglich in Bezug auf ihre Varianzschätzer unterscheiden. Die Schätzung der Regressionskoeffizienten erfolgt stets über die KQ-Schätzer und ist unabhängig von den Modellannahmen immer gleich. • Äquivalenz der Tests auf β1 =0 und ϱ XY =0 • Die Teststatistik bezüglich β1 in den Modellen KN und KS für β1,0 = 0 ist mit derjenigen des Korrelationstests (Satz 11.3.8) identisch, d.h. es gilt: ̃ β = TR T 1

für

β1,0 = 0.

Dies ergibt sich durch schlichtes Einsetzen der Resultate S̃ XY β̂ 1 = 2 , S̃ X

̃ 2β = σ 1

̂ 2U σ n S̃ 2

und

̂ 2U = σ

X

n ̃2 S (1 − R2 ) n−2 Y

und Umformen über ̂ ̃ n S̃ 2X (n − 2) ̃ β = β1 = S XY √ T 1 ̃ β̂ σ S̃ 2X n S̃ 2Y (1 − R2 ) 1 =

S̃ XY (n − 2) R XY √ √ n − 2 = TR . = ̃S X S̃ Y (1 − R2 ) √ 1 − R2XY

(12.1.91)

694 | 12 Das lineare Regressionsmodell Implizit muss hier neben S̃ 2X > 0 allerdings auch S̃ 2Y > 0 vorausgesetzt werden. Somit fallen die Testentscheidungen für die Testprobleme a), b) und c) gemäß den Sätzen 11.3.8 und 12.2.2 identisch aus. Gleichzeitig wird ersichtlich, dass zum Durchführen des Korrelationstests eine bivariate Normalverteilung nicht zwingend notwendig ist. Alternativ genügt, dass zwischen den beiden Variablen eine lineare Abhängigkeit im Sinne eines einfachen Regressionsmodells besteht.

Spezialfall: Binärer Regressor • Hintergrund • Ein Merkmal bezeichnet man als dichotom, wenn es nur zwei Werte annehmen kann. Es heißt binär, wenn es nur die Werte 0 oder 1 annehmen kann. Ein Spezialfall eines einfachen linearen Regressionsmodells liegt vor, falls der Regressor binär ist. Solche Regressoren werden häufig auch als Dummy-Variablen bezeichnet. Eine abhängige metrische Variable Y wird dann meist auf ein metrisch kodiertes dichotomes Merkmal, wie beispielsweise Geschlecht (0 = männlich, 1 = weiblich), Rauchverhalten (Nichtraucher = 0, Raucher = 1) oder eine Behandlungsstufe bei einem Experiment (0 = ohne Düngung, 1 = mit Düngung), regressiert. Grundsätzlich können damit auch nominal skalierte Merkmale als Regressoren verwendet werden. Es stellt sich dabei heraus, dass die Inferenz bezüglich β1 in diesem Modell äquivalent zur Inferenz über Erwartungswertdifferenzen (Abschnitte 10.2.3 und 11.2.3) ist. Diese Erkenntnis ist insofern interessant und nützlich, da auf diese Weise manche Formeln und Interpretationen der vorhergehenden Abschnitte durch die Betrachtung dieses Spezialfalls verständlicher werden können. Ansonsten wird man kaum geneigt sein, ein entsprechendes statistisches Problem tatsächlich über eine einfache lineare Regression zu modellieren, sondern die Modellierung über Erwartungswertdifferenzen präferieren. • Interpretation der Regressionskoeffizienten • Ausgehend vom Modell Y i = β0 + β1 X i + U i

für i = 1, . . . , n

mit binärem X i erhalten wir in allen Modellen mit Annahme (A1), (A1*) oder (A1**) E(Y i |X i = 0) = β0

E(Y i |X i = 1) = β0 + β1 .

und

Definieren wir μ0 = E(Y i |X i = 0) und

μ1 = E(Y i |X i = 1),

erhalten wir die Beziehungen μ0 = β0

und

β1 = μ1 − μ0 .

Folglich ist der Achsenabschnitt als der für X i = 0 geltende Erwartungswert und der Steigungskoeffizient als Erwartungswertdifferenz interpretierbar.

12.1 Einfaches lineares Regressionsmodell | 695

Satz 12.1.5: KQ-Schätzer bei binärem Regressor Gegeben sei eine Stichprobe (X1 , Y1 ), . . . , (X n , Y n ) mit binärem X i und S̃ 2X > 0. Dann gilt: β̂ 0 = Y 0

und

β̂ 1 = Y 1 − Y 0 .

Dabei bezeichnet Y 0 das (bedingte) Stichprobenmittel aller Y i mit X i = 0 und Y 1 das (bedingte) Stichprobenmittel aller Y i mit X i = 1. In Anbetracht des vorhergehenden Punktes erscheinen die Formeln sehr naheliegend. Die bedingten Erwartungswerte werden mit den korrespondierenden (bedingten) Stichprobenmitteln geschätzt. Auf den relativ umständlichen Nachweis verzichten wir. Die Formeln ergeben sich im Rahmen geeigneter Umformungen aus den gewöhnlichen Formeln, d.h. β̂ 0 = Y − β̂ 1 X = ⋅ ⋅ ⋅ = Y 0

und

S̃ XY β̂ 1 = 2 = ⋅ ⋅ ⋅ = Y 1 − Y 0 . S̃ X

Die Schwierigkeit besteht darin, die entsprechenden Stichprobenmittel als Funktionen der Stichprobenvariablen (X1 , Y1 ), . . . , (X n , Y n ) darzustellen. • Varianzschätzer bei binärem Regressor • Da die KQ-Schätzer sich aus bedingten Stichprobenmitteln ergeben, lehnen sich die korrespondierenden Varianzen an die Formeln für die Varianzen von Stichprobenmitteln an. Es gilt: Satz 12.1.6: Varianzschätzer bei binärem Regressor Gegeben sei eine Stichprobe (X1 , Y1 ), . . . , (X n , Y n ) mit binärem X i und S̃ 2X > 0. Dann gilt: ̃ 2̂ = (i) σ β0

̂ 2̂ = (ii) σ β0

S2p N0

̃ 2̂ = und σ

S2p

+

S2p

, wobei N1 1 S2p = (N0 S̃ 20 + N1 S̃ 21 ) N0 + N1 − 2

β1

N0

für n ≥ 3,

S̃ 20 S̃ 2 S̃ 2 ̂ 2̂ = 0 + 1 für n ≥ 2. und σ β1 N0 N0 N1

Dabei bezeichnet S̃ 20 die (nichtkorrigierte) Stichprobenvarianz aller Y i mit X i = 0 und S̃ 21 die entsprechende Stichprobenvarianz für X i = 1. Die stochastischen Stichprobenumfänge N0 und N1 geben die betreffende Anzahl von Nullen bzw. Einsen an.

696 | 12 Das lineare Regressionsmodell

Da die KQ-Schätzer durch ein Stichprobenmittel bzw. eine Differenz zweier Stichprobenmittel gegeben sind, erscheint es klar, dass deren Varianzen über die korrespondierenden Stichprobenvarianzen geschätzt werden, die mit den jeweiligen Gruppenumfängen dividiert werden. Auf den länglichen und umständlich zu führenden Beweis wird wiederum verzichtet. • Äquivalenz der Inferenz bezüglich β1 und μ1 − μ0 • Da in den Modellen KN und KS das Konfidenzintervall für β1 gegeben ist durch ̃ β̂ , β̂ 1 + t n−2,1−α/2 ⋅ σ ̃ β̂ ], [β̂ 1 − t n−2,1−α/2 ⋅ σ 1 1 ist dieses aufgrund der vorhergehenden Resultate mit demjenigen für μ1 − μ0 von Fall (ii) in Satz 10.2.2 identisch. Die korrespondierende Teststatistik für Tests über β1 ist mit derjenigen für μ1 − μ0 von Fall (ii) in Satz 11.3.2 identisch, d.h. es gilt: ̃β = T ̃D T 1

für β1,0 = μ1 − μ0 = δ0 .

(12.1.92)

Weiter lautet das approximative Konfidenzintervall für β1 in Modell BH ̂ β̂ , β̂ 1 + z1−α/2 ⋅ σ ̂ β̂ ], [β̂ 1 − z1−α/2 ⋅ σ 1 1 Dieses ist mit demjenigen für μ1 − μ0 von Fall (iv) in Satz 10.2.2 identisch ist. Die korrespondierende Teststatistik für Tests über β1 ist mit derjenigen für μ1 − μ0 von Fall (iv) in Satz 11.3.2 identisch, d.h. es gilt: ̂D ̂β = T T 1

für β1,0 = μ1 − μ0 = δ0 .

(12.1.93)

Äquivalenz der Inferenz bezüglich β1 und μ1 − μ0 Konfidenzintervalle und Teststatistiken sind (i) in den Modellen KN und KS zu denen über Erwartungswertdifferenzen bei Normalverteilung und homoskedastischer Varianz identisch, (ii) in Modell BH zu denen über Erwartungswertdifferenzen ohne Verteilungsannahme und unbekannter heteroskedastischer Varianz identisch.

• Tests über μ1 − μ0 auch bei stochastischen Gruppenumfängen • Da in den Modellen KS und BH der Regressor stochastisch modelliert wird, folgt, dass die Konfidenzintervalle und Teststatistiken für Erwartungswertdifferenzen auch bei stochastischen Gruppenumfängen N0 und N1 verwendet werden können. In den Sätzen 10.2.2 und 11.3.2 wurden diese ja als vorgegebene, nichtstochastische Größen n0 und n1 modelliert. Es muss lediglich S̃ 2X > 0 vorausgesetzt werden, damit nicht alle x-Werte zufälligerweise gleich sind.

12.1 Einfaches lineares Regressionsmodell | 697

Adäquatheit bestimmter Modellannahmen • Hintergrund • Wie bereits in den Abschnitten 10.2.5 (Schätzen) und 11.3.5 (Testen) ausführlich besprochen, setzt gültige Inferenz die Adäquatheit von getroffenen Modellannahmen voraus. Verletzungen führen dabei in der Regel zu mehr oder weniger starken Verfälschungen vorgegebener Sicherheits- oder Irrtumswahrscheinlichkeiten. Gleichwohl sollte immer wieder bedacht werden, dass Modellannahmen in der Praxis niemals perfekt erfüllt sein können. Geringfügige Abweichungen können toleriert werden und führen aus theoretischer Sicht auch meist nur zu geringfügigen Verfälschungen. Im Folgenden werden wir einzelne Punkte in Bezug auf die verschiedenen Ensembles von Annahmen, die wir für ein einfaches lineares Regressionsmodell aufgestellt haben, näher beleuchten. y

y

1

2 x

y

x y

3

4 x

x

Abb. 12.1.11: Potenzielle Auswahlbereiche und Stichprobenverzerrungen

• Noch vor den eigentlichen Annahmen: Repräsentativität • Auch im Regressionsmodell stellt Repräsentativität, wie sie in Abschnitt 9.2 definiert wurde, eine Grundvoraussetzung vor allen formal fassbaren Annahmen dar. Dabei bezieht sich Repräsentativität nun auf die beiden Merkmale einer zweidimensionalen Stichprobe (X1 , Y1 ), . . . , (X n , Y n ). Der potenzielle Auswahlbereich muss die Grundgesamtheit jetzt in zweidimensionalem Sinne abdecken. Stellen wir uns vor, ein Immobilienexperte möchte den Zusammenhang zwischen Wohnfläche und Nettomiete in einer Stadt untersuchen. Dazu nimmt er sich

698 | 12 Das lineare Regressionsmodell

kurzerhand die Wochenendausgabe der ansässigen Lokalzeitung zur Hand und notiert alle Angebote des Wohnungsmarktes bezüglich Wohnfläche und Miete. Eine auf solche Weise gewonnene Stichprobe könnten wir dann als Quasi-Stichprobe erachten (Abschnitt 9.2). Abbildung 12.1.11 illustriert verschiedene (stark stilisierte) Situationen, in denen der potenzielle Auswahlbereich (gestrichelt) die Grundgesamtheit (Dichtekonturen) nicht vollständig abdeckt. Infolgedessen führt dies zu einer mehr oder weniger stark ausgeprägten Stichprobenverzerrung. Im Einzelnen könnte man sich dazu folgende Szenarien vorstellen: Situation 1: In der Lokalzeitung werden keine überdurchschnittlich teuren Wohnungen (bezogen auf die Wohnfläche) angeboten. Die geschätzte Gerade (grau) hätte tendenziell dann einen zu kleinen Achsenabschnitt und würde demnach zu tief liegen. Die Schätzung des Steigungskoeffizienten könnte möglicherweise dennoch unverfälscht ausfallen. Situation 2: Es werden weder besonders teure Wohnungen noch besonders günstige Wohnungen in der Zeitung angeboten. Damit könnte die geschätzte Gerade immer noch recht sehr präzise sein, da die Beobachtungen dann mehr zum Durchschnitt hin tendieren. Situation 3: Mit zunehmender Wohnfläche werden zunehmend nur günstige Wohnungen angeboten. In diesem Fall hätte die geschätzte Gerade tendenziell eine zu kleine Steigung und einen zu großen Achsenabschnitt. Situation 4: Mit zunehmender Wohnfläche werden zunehmend nur teure Wohnungen angeboten. In diesem Fall hätte die geschätzte Gerade tendenziell eine zu große Steigung und einen zu kleinen Achsenabschnitt. • Linearitätsannahme • Die Frage, ob zwei Merkmale linear im Sinne von Annahme (A0) abhängen oder nicht, sollte primär anhand von Fachkenntnissen erfolgen. Ein einfaches Streudiagramm liefert hierzu bereits erste Anhaltspunkte. Jedoch kann der Eindruck aus einem Streudiagramm durchaus auch in die Irre führen. So kann ein Zusammenhang (nichtzufällig) nichtlinear aussehen, obwohl er es ist und umgekehrt. Es ist beispielsweise denkbar, dass der Zusammenhang zwischen einer Einflussgröße X und der abhängigen Größe Y tatsächlich linear ist, gleichzeitig X aber mit einer zweiten Einflussgröße Z korreliert ist, welche Y nichtlinear beeinflusst. Infolgedessen könnte das Streudiagramm für X und Y eine nichtlineare Struktur aufweisen. Eine solche Konstellation steht in enger Verbindung mit der in Abschnitt 5.3.3 thematisierten Problematik systematischer Verzerrungen von Abhängigkeiten im Mehrvariablenkontext. In einem solchen Fall müsste man die Störung durch Z bemerken und entsprechend beseitigen oder in einem erweiterten Modell mit berücksichtigen. Möglicherweise könnte man das Problem durch Schätzung eines multiplen Regressionsmodells (Abschnitt 12.2) beheben, in dem Z je nach Art der Nichtlinearität zu Z 2 oder ln(Z) transfomiert wird und dann als weiterer Regressor mit berücksichtigt wird. Manchmal bleibt aber tatsächlich nur die Wahl einer anderen Art von Regressionsmodell, mit dem sich nichtlineare Abhängigkeiten modellieren lassen. Ein wichti-

12.1 Einfaches lineares Regressionsmodell | 699

ger Spezialfall liegt beispielsweise vor, falls die abhängige Variable Y binär ist. Hier erweist sich ein lineares Regressionsmodell als völlig inoperabel, da mit den üblichen Ensembles von Modellannahmen erhebliche Vereinbarkeitsprobleme entstehen. So kann beispielsweise die Normalverteilungsannahme für die Fehler nicht einmal theoretisch erfüllt sein. Gewöhnlich greift man dann zu alternativen Modellen wie etwa den Logit- und Probitmodellen (Abschnitt 5.3.1). Eine Übersicht alternativer Regressionsmodelle bieten etwa Fahrmeir et al. [2013] oder Schlittgen [2013]. Eine Sammlung statistischer Tests zur Überprüfung der Linearitätsannahme findet sich bei Krämer und Sonnberger [1986]. • Stochastischer oder nichtstochastischer Regressor • Die Frage, ob ein Regressor stochastisch oder nichtstochastisch modelliert wird, ist primär von theoretischer Relevanz. Wie beim klassischen Modell ergeben sich für die Inferenzverfahren an sich keine rechnerischen Unterschiede. Konfidenzintervalle und Tests sind identisch. Jedoch sollte klar sein, dass gültige Inferenz theoretisch nur richtig begründet werden kann, wenn die Annahmen auch zutreffend sind. So impliziert ein nichtstochastischer Regressor beispielsweise eine Stichprobe aus heterogen verteilten Zufallsvariablen. Ohne Normalverteilungsannahme wäre es hier ohne Weiteres unzulässig mithilfe eines ZGWS für ein u.i.v.-Schema eine asymptotische Normalverteilung der KQ-Schätzer zu begründen. Die Argumentationskette muss insgesamt in sich stimmig sein. Zwingend erforderlich ist es, die Annahme eines nichtstochastischen Regressors fallenzulassen, falls dieser mit (zufälligen) Messfehlern behaftet ist (siehe nächster Punkt). • Messfehlerprobleme • In bestimmten Fällen können die Werte des Regressors nicht genau erfasst, gemessen oder beobachtet werden. Man denke etwa an Befragungen zur persönlichen Einkommenssituationen von Privatpersonen, bei denen stets mit gewissen Abweichungen zwischen tatsächlichen und angegebenen Werten zu rechnen ist. Wie sich (theoretisch) zeigen lässt, führt dieser Umstand nachweislich zu asymptotisch verzerrten (systematisch verzerrten) Schätzungen (vgl. Verbeek [2008, Abschnitt 5.2.2]). Einen ersten kompakten Überblick zu diesem Fehler-in-VariablenProblem oder Messfehlerproblem bietet etwa der Artikel von Stefanski [2000]. Die Besprechung konkreter Lösungsansätze ist dann Gegenstand fortgeschrittener Lehrbücher wie etwa Fuller [2006] oder Buonaccorsi [2010]. • Unabhängigkeitsannahme • Zur Prüfung, ob die Unabhängigkeitsannahme adäquat erscheint oder nicht, beachte man die Ausführungen aus Abschnitt 10.2.5. Insbesondere ist zu beachten, dass diese Annahme bei Zeitreihendaten in aller Regel verletzt ist. Dies bedeutet jedoch nicht automatisch, dass im Kontext von Zeitreihen keine Regressionsmodelle mehr geschätzt werden können. Viele Verteilungsresultate bleiben auch bei „schwacher Abhängigkeit“ erhalten. Die Begründung solcher Resultate ebenso wie die Ableitung gültiger Inferenzverfahren sind jedoch Gegenstand weiterführender Lehrbücher (etwa auf dem Gebiet der multiplen Zeitreihenanalyse oder Ökonometrie).

700 | 12 Das lineare Regressionsmodell • E(U i |X i )=0 und OVB-Problem • Die in allen vorgestellten Modellvarianten geltende Annahme E(U i |X i ) = 0 impliziert, dass die Abhängigkeit zwischen Y und X im Mittel durch eine theoretische Regressionsgerade (KQ-Gerade) beschrieben werden kann. Alle Resteinflüsse auf die abhängige Variable sollen dann „gleichmäßig um die Gerade herum streuen“. Für gegebenes X lässt sich also nicht prognostizieren, ob der Resteinfluss insgesamt positiv oder negativ sein wird. In allen Modellvarianten impliziert diese Annahme die Eigenschaft Cov(X i , U i ) = E(X i U i ) = 0,

(12.1.94)

die sich folgendermaßen deuten bzw. anhand folgender Leitfrage prüfen lässt: Leitfrage für das OVB-Problem Gibt es neben dem Regressor X, also der beobachteten Einflussgröße, eine weitere maßgebliche Einflussgröße auf Y, die mit X korreliert ist? Sofern diese Leitfrage bejaht werden kann, ist Eigenschaft (12.1.94) verletzt und somit auch die Annahme E(U i |X i ) = 0. Es lässt sich zeigen, dass die KQ-Schätzer dann asymptotisch verzerrt, d.h. nicht mehr konsistent, sind. Dieses Problem ist auch als sog. OVB-Problem (Omitted-Variable-Bias-Problem) bekannt und steht in sehr engem Zusammenhang zu den in Abschnitt 5.3.3 durchgeführten Überlegungen zu den systematischen Verzerrungen bei empirischen Abhängigkeiten. Im Rahmen der späteren Fallbeispiele wird die OVB-Problematik anhand konkreter Beispielszenarien besprochen. Die theoretische Fundierung der durch OVB erzeugten Inkonsistenz wird in Abschnitt 12.2 (Satz 12.2.3) nachgeliefert. Man beachte, dass im Falle von Modell KN mit nichtstochastischem heterogen verteiltem Regressor (12.1.94) automatisch erfüllt ist, da ein nichtstochastisches x i mit einer stochastischen Größe U i per se nicht korreliert sein kann. Dies bedeutet jedoch nicht, dass die Leitfrage für Modell KN völlig irrelevant wäre. Sie muss formal lediglich etwas anders gestellt werden und bezieht sich dann auf die Adäquatheit der durch (12.1.94) implizierten Eigenschaft E(U i ) = 0, die auch in Modell KN gelten soll. Man beachte hierzu das spätere Fallbeispiel 1. Das multiple lineare Regressionsmodell stellt einen möglichen Lösungsansatz für das OVB-Problem dar, sofern Y von X und der OVB verursachenden (störenden) Einflussgröße linear abhängt. Das multiple Modell wird später in Abschnitt 12.2 eingeführt. • E(U i |X i )=0, Messfehlerproblem und simultane Kausalität • Eigenschaft (12.1.94) ist jedoch auch im Falle anderer „prominenter Probleme“ verletzt, die asymptotisch verzerrte (inkonsistente) Schätzungen verursachen. Hierzu zählen insbesondere das Messfehlerproblem und das Problem simultaner Kausalität. Ersteres wurde zuvor schon kurz besprochen. Letzteres wurde bereits in Abschnitt 5.3.3

12.1 Einfaches lineares Regressionsmodell | 701

mit Beispielen ausgeführt. Simultane Kausalität ist insbesondere in den Wirtschaftswissenschaften ein äußerst relevantes Problem, da makroökonomische Größen fast durchgängig simultane Abhängigkeiten aufweisen. In einem solchen Kontext kommen in der Regel weit fortgeschrittene statistische (ökonometrische) Methoden zum Einsatz, die teils dem Gebiet der multiplen Zeitreihenanalyse zugeordnet werden. • Cov(X i , U i )=0 lässt sich nicht anhand der KQ-Residuen prüfen • Die Fehler U i ̂i gleichgesetzt werden. Die Fehler sind nicht bedürfen nicht mit den KQ-Residuen U obachtbar, die KQ-Residuen dagegen schon. Weiter ist eine implizierte Eigenschaft der KQ-Regression, dass die KQ-Residuen mit den x-Werten nicht korreliert sind (Satz 12.1.1 bzw. Resultat (12.1.42)). Aus diesem Grund lässt sich Cov(X i , U i ) = 0 bzw. E(U i |X i ) = 0 niemals anhand der Korrelation zwischen KQ-Residuen und x-Werten überprüfen. Abbildung 12.1.12 illustriert diesen Sachverhalt. Das linke Schaubild zeigt die wahre, theoretische KQ-Gerade für X und Y, wobei die Fehler mit dem Regressor positiv korreliert sind. Hierzu könnte man sich ein Szenario wie etwa im späteren Fallbeispiel 1 vorstellen. Das rechte Schaubild zeigt dann die geschätzte KQ-Gerade (grau). Diese richtet sich an den beobachteten Daten derart aus, dass die KQ-Residuen (die in keiner Weise mit den Fehlern übereinstimmen!) mit dem Regressor unkorreliert sind. Die Überprüfung von Cov(X i , U i ) = 0 muss sich deshalb auf „Überlegungen im Kopf“ in Bezug auf die zuvor aufgestellte Leitfrage des OVB-Problems stützen. Cov (X i, U i ) > 0

yi 4

^ Cov (X i, U i ) = 0

yi 4

y4 3

y4 3 u4

2

geschätzt

u^4

2

wahr

1

^ ^ β0 + β1x

wahr

1

β0 + β1x −1

0

1

2

3

4

x4

5

6

−1

0

xi

1

2

3

4

x4

5

6

xi

Abb. 12.1.12: Verzerrung durch Korrelation von Regressor und Fehler

• Homoskedastischer oder heteroskedastischer Fehler • Ähnlich wie bei der Prüfung der Linearitätsannahme sollte sich auch die Prüfung, ob nun ein Fehler eher homoskedastisch oder heteroskedastisch ist, primär auf inhaltliche Fachkenntnisse stützen. Ein Streudiagramm liefert hierfür erste Anhaltspunkte, kann aber durchaus auch einen täuschenden Eindruck vermitteln. Abbildung 12.1.13 illustriert zwei (stark stilisierte) Situationen mit jeweils 200 Beobachtungen, die beide zunächst für einen heteroskedastischen Fehler zu sprechen scheinen. Tatsächlich wurde im linken Schaubild

702 | 12 Das lineare Regressionsmodell

yi 8

−2

Scheinbar heteroskedastisch

yi 8

6

6

4

4

2

2

0

2

4

6

8

10

12

−2

xi

Heteroskedastisch

0

2

4

6

8

10

12

xi

Abb. 12.1.13: Scheinbare und tatsächliche Heteroskedastizität

jedoch ein Modell mit perfekt homoskedastischem Fehler simuliert. Die Täuschung ist auf die Verteilung der Regressorwerte zurückzuführen. Im linken Fall sind diese extrem linksschief verteilt mit jeweils 2, 6, 12, 30 und 150 Beobachtungen auf den Trägerpunkten 2, 4, 6, 8 und10. Im rechten Fall sind diese dagegen auf diesen Trägerpunkten diskret gleichverteilt. Im linken Fall werden besonders große und besonders kleine Realisationen für größere x-Werte immer wahrscheinlicher. Denn je mehr Beobachtungen aus einer Verteilung gezogen werden, desto größer ist die Wahrscheinlichkeit, dass Minimum und Maximum bestimmte Grenzen überschreiten. Dadurch entsteht der Eindruck, dass die bedingte Varianz von links nach rechts zunimmt, obwohl sie konstant ist. Dieser Sachverhalt wurde bereits in Beispiel 12.1.3 auf theoretischer Ebene beschrieben. Möglicherweise mag man die Entscheidung über die Art des Fehlers lieber einem statistischen Test wie etwa dem populären White-Test (White [1980]) überlassen. Eine Übersicht zu solchen Heteroskedastizitäts-Tests bieten beispielsweise Krämer und Sonnberger [1986] oder Verbeek [2008]. Wie bereits ausgeführt, könnte man im Falle von Heteroskedastizität auch zur theoretisch effizienteren verallgemeinerten KQ-Methode bei der Schätzung der Regressionskoeffizienten greifen. Allerdings ist deren Umsetzung mit einigen Hindernissen und Umständen verbunden, sodass man sich häufig weiterhin mit der gewöhnlichen KQ-Schätzung begnügt, die ja auch unter Heteroskedastizität konsistent bleibt. Bei der Varianzschätzung führt die fälschliche Verwendung der nurhomoskedastizitäts-konsistenten Varianzschätzer zu inkonsistenten Schätzungen und damit zu verfälschter Inferenz. Die unnötige Annahme von Heteroskedastizität ist hingegen nur mit einem Effizienzverlust bei der Schätzung verbunden. Dies bedeutet, dass die heteroskedastizitäts-robusten Varianzschätzer unter Homoskedastizität tendenziell größere Varianzen besitzen, was zu längeren Sicherheitsintervallen und einer verringerten Güte bei Tests führen kann. Insgesamt ist man gut beraten, im Falle von Unsicherheit lieber gleich von Heteroskedastizität auszugehen.

12.1 Einfaches lineares Regressionsmodell | 703

• Normalverteilungsannahme • Die Normalverteilungsannahme für die Fehler erscheint häufig nur im Kontext experimenteller Designs mit stetig verteilter abhängiger Variable realistisch, da hier die Resteinflüsse hochgradig kontrolliert werden. Die fälschliche Unterstellung dieser Annahme führt zur Verwendung nicht adäquater Quantile bei der Konstruktion von Konfidenzintervallen oder bei der Ermittlung kritischer Werte von Tests. Vorgegebene Intervalle sind dann entweder zu kurz oder zu lang. Sie sind jedoch stets weiterhin richtig zentriert, da die Erwartungstreue der KQSchätzer von dieser Annahme nicht abhängt. Weiterhin sind die KQ-Schätzer (evtl. mit entsprechenden Konvergenzannahmen) auch ohne Normalverteilungsannahme konsistent. Außerdem werden mit wachsendem n Abweichungen von der Normalverteilung aufgrund des ZGWS immer unwichtiger. Selbst in kleineren Stichproben führen Abweichungen zu kaum messbaren Unterschieden, sofern die maßgeblichen Verteilungen unimodal und einigermaßen symmetrisch sind. Insbesondere im Rahmen experimenteller Designs und bei größeren Stichproben kann mit dieser Annahme deshalb relativ großzügig umgegangen werden. Formale Tests zur Überprüfung der Normalverteilungsannahme werden im Rahmen der Regression üblicherweise auf die KQ-Residuen angewendet. Eine Übersicht hierzu bieten etwa Thadewald und Büning [2007]. • Identisch oder heterogen verteilt • In Modell KN liegt automatisch eine Stichprobe heterogen verteilter Stichprobenvariablen vor. Zur Prüfung, ob die Annahme identisch verteilter Stichprobenvariablen in den Modellen KS und BH realistisch erscheint, beachte man die beispielshaften Überlegungen in Abschnitt 10.2.5 sowie das spätere Fallbeispiel 2. • Technische Annahmen • Annahmen wie (A3) oder (K1) und (K2) sind „rein technische Annahmen“ mathematischer Natur, welche unter anderem sicher stellen, dass bestimmte Formeln und Ausdrücke überhaupt erst definiert sind. Sie sind zumeist nicht von praktischer Relevanz. Man denke hier nur etwa an die Endlichkeit bestimmter Momente. Das Bestreben des Theoretikers ist es, solche Annahmen auf ein minimales Niveau zu reduzieren, sodass bestimmte Aussagen unter größtmöglicher Allgemeinheit gültig sind. Dies hat dann häufig Annahmen zur Folge, deren Zweck und Sinnhaftigkeit sich ohne tiefergehende Auseinandersetzung mit den mathematischen Grundlagen bestimmter Resultate kaum noch erschließen lassen. • Fazit und Empfehlung • Einschließlich der Repräsentativität der Stichprobe stellen alle mit der Annahme E(U i |X i ) = 0 oder E(U i ) = 0 in Verbindung stehenden Aspekte die wichtigsten Prüfsteine dar, da sie bei Verletzung zu ernsthaften Verfälschungen (inkonsistenten Schätzungen) führen. In Bezug auf die anderen Annahmen stellt es möglicherweise eine bessere Strategie dar, zugunsten weniger Annahmen einen gewissen Effizienzverlust in Kauf zu nehmen, anstatt mit zu vielen Annahmen die Gültigkeit der gesamten Inferenz zu riskieren.

704 | 12 Das lineare Regressionsmodell

In dieser Hinsicht stellt Modell BH in Verbindung mit den heteroskedastizitätskonsistenten Varianzschätzern für viele Fälle in der Praxis, in denen ein u.i.v.Ziehungsschema adäquat erscheint, eine geeignete Wahl dar. Modell BH ist sowohl unter Homoskedastizität als auch Heteroskedastizität verwendbar und enthält Modell KS als Spezialfall. Die vorgestellten Inferenzverfahren wären mit Hinzunahme einiger zusätzlicher Konvergenzannahmen sogar noch in Modell UHV gültig, also bei heterogen verteilten Stichprobenvariablen. Dies wiederum würde Modell KN als Spezialfall enthalten. Mit anderen Worten sind die für Modell BH geltenden Inferenzverfahren auch für alle anderen Modelle verwendbar. Es muss einzig eine hinreichend große Stichprobe (n ≥ 60) vorliegen. Die für Modell BH vorgestellten Konfidenzintervalle und Tests sind auch in Modell KS und unter Hinzunahme zusätzlicher Konvergenzannahmen in den Modellen KN und UHV verwendbar, sofern n ≥ 60.

Fallbeispiel 1: Bewässerung und Wachstum • Hintergrund • Das folgende Fallbeispiel ist fiktiv und soll nur als ausführliche Veranschaulichung dienen, wie ein klassisches Modell diskutiert und angewendet werden kann. Angenommen, ein Botaniker untersucht den Zusammenhang zwischen Bewässerungsmenge (in Liter) und Wuchshöhe (in Meter) einer bestimmten Pflanze. Dazu züchtet er 5 Exemplare der Pflanze in einem Labor unter identischen Bedingungen an. Lediglich die wöchentliche Bewässerungsmenge wählt er dabei unterschiedlich und variiert diese zwischen 1 und 5 Liter. Wir nehmen an, dass er auf diesem Niveau Berechtigung zur Annahme eines linearen Zusammenhangs hat. Sein Modellansatz lautet dann Y i = β0 + β1 x i + U i

für i = 1, . . . , 5,

wobei Y i die nach 4 Wochen gemessene Wuchshöhe und x i die festgesetzte wöchentliche Bewässerungsmenge für die i-te Pflanze ist. In die Fehler U i fließen dann alle restlichen Einflüsse, wie etwa Bodenbeschaffenheit, Temperatur, Licht oder individuelle Merkmale der einzelnen Pflanzen, ein. Abbildung 12.1.14 illustriert das Experiment. • Modell KN: Diskussion der Modellannahmen • Es soll das klassische Modell KN gemäß Definition 12.1.2 unterstellt und geschätzt werden. Wie stünde es dann hier um die Adäquatheit der Modellannahmen? Hierzu einige beispielhafte Überlegungen. Die Linearitätsannahme (A0) selbst obliegt der fachlichen Beurteilung und Erfahrung des Botanikers. Es sollte klar sein, dass der Zusammenhang lediglich approximativ linear sein kann. Außerdem sollte dieser nur in einem eingeschränkten Be-

12.1 Einfaches lineares Regressionsmodell | 705

reich der Bewässerungsmenge gültig sein (ab einer bestimmten Menge ersäuft man schließlich die Pflanze). In Annahme (A1*) stecken gleich mehrere Teilannahmen. So sollen einerseits die Erwartungswerte der Fehler 0 und andererseits ihre Varianzen gleich sein. Außerdem sollen die Fehler unabhängig sein und einer Normalverteilung genügen. Im Folgenden diskutieren wir diese Einzelaspekte separat. Wir beginnen mit der ersten und wichtigsten Teilannahme E(U i ) = 0 für i = 1, . . . , n, deren Verletzung zu völlig verzerrten Ergebnissen führen kann. Angenommen, der Laborraum verfügt an der rechten Seite über ein Fenster, durch das zumindest tagsüber Sonnenlicht einfällt. Die fünf auf einem Tisch aufgereihten Pflanzenexemplare werden nun von links nach rechts mit aufsteigender Bewässerungsmenge behandelt (Abb. 12.1.14). Wäre es bei der vorliegenden Konstellation nun beispielsweise so, dass die weiter rechts platzierten Pflanzen mehr Tageslicht abbekommen als die weiter links stehenden, könnte dies die Schätzung verzerren. Angenommen mehr Tageslicht hätte einen positiven Effekt auf das Wachstum. Dann wären die Behandlungsmengen mit den Realisationen der einzelnen Fehler (in dem ja das Licht enthalten ist) tendenziell positiv korreliert. Der geschätzte Steigungskoeffizient, d.h. der gemessene Effekt der Bewässerung auf das Wachstum, wäre dann tendenziell zu groß. Man könnte also erwarten, dass β̂ 1 > β1 ist. Die Situation wäre vergleichbar mit derjenigen in Abbildung 12.1.12. Intuitiv erscheint es einleuchtend, dass sich der Effekt der Bewässerungsmenge nicht richtig schätzen lässt, wenn gleichzeitig ein anderer Einfluss variiert. Wäre das Fenster unter gleichen Annahmen links platziert, wären die Realisationen der Fehler mit den Bewässerungsmengen tendenziell negativ korreliert. Mit analoger Argumentation würde dann der Steigungskoeffizient unterschätzt werden, d.h. β̂ 1 < β1 gelten. Dabei spielt es keine Rolle, ob die Bewässerung nun eine positiven oder einen negativen Effekt auf das Wachstum ausübt, β1 also positiv oder negativ ist. Formal ist in Modell KN durch diesen Umstand die Eigenschaft Cov(X i , U i ) = 0 an sich nicht verletzt, da aufgrund des nichtstochastischen Regressors durchgängig Cov(x i , U i ) = 0

für i = 1, . . . , 5

gilt (ein nichtstochastisches x i ist per se mit einem stochastischen U i nicht korreliert). Deshalb sprechen wir hier formal von den realisierten Größen x i und u i und nicht von etwaigen Zufallsvariablen X i und U i . Für nichtstochastische x i wäre dann allerdings die Annahme E(U i ) = 0

für i = 1, . . . , 5

706 | 12 Das lineare Regressionsmodell

verletzt. Denn es erschiene dann nicht mehr adäquat, den durchschnittlichen Resteinfluss für jede Pflanze als identisch und gleich 0 zu erachten. Hierzu sei bemerkt, dass eine durch das Fenster verursachte Verzerrung durch randomisiertes Platzieren der Pflanzen ein Stück weit hätte verhindert werden können (vgl. hierzu die Anmerkungen in Abschnitt 5.3.3 im Punkt „Randomisierung“). Sofern nun vom Fenster jedoch kein störender Einfluss ausgeht, ist E(U i ) = 0 für i = 1, . . . , 5 erfüllt, sofern sich alle Resteinflüsse auf dem gewünschten (geplanten) Niveau befinden. Wäre beispielsweise eine konstante Raumtemperatur von 20°C vorgesehen, die tatsächliche Temperatur aber im Durchschnitt zu hoch, so könnte dies je nach Effektrichtung alle Pflanzen ein Stück weit schneller oder langsamer wachsen lassen. Im Grunde würde dann E(U i ) > 0 oder E(U i ) < 0 für i = 1, . . . , 5 gelten. Die geschätzte KQ-Gerade wäre also tendenziell zu hoch oder zu tief, d.h. der Achsenabschnitt zu groß oder zu klein. Dabei könnte der Steigungskoeffizient noch relativ unverfälscht geschätzt werden, sofern sich die zu hohe Temperatur bei jeder Pflanze gleich stark auswirken würde. Allerdings wäre auch eine gewisse Wechselwirkung zwischen Bewässerung und Temperatur denkbar. So könnte etwa eine höhere Temperatur bei höherer Bewässerung einen stärkeren Effekt ausüben als bei geringerer Bewässerung. In diesem Fall hätte dann die falsch eingestellte Raumtemperatur auch eine mehr oder weniger stark verzerrte Schätzung des Steigungskoeffizienten zur Folge. Alternativ könnte man eine falsch eingestellte Temperatur jedoch auch dahingehend deuten, dass die Versuchsdaten (die Stichprobe) nicht mehr repräsentativ sind. 3 Laborraum

Lichteinfall 2

2

yi : 1

xi :

1

1

2

3

Fenster

4

5

Abb. 12.1.14: Laborexperiment: Bewässerung und Wuchshöhe

Die Annahme eines homoskedastischen Fehlers erscheint allenfalls approximativ erfüllt. Es könnte durchaus sein, dass bei gleicher Bewässerungsmenge die Wuchshöhen bei höherer Menge Wasser stärker schwanken, sofern die Menge einen positiven Effekt auf das Wachstum hat. Die Unabhängigkeitsannahme könnte beispielsweise verletzt sein, sofern die Pflanzen zu dicht nebeneinander platziert würden und sich gegenseitig beeinflussen.

12.1 Einfaches lineares Regressionsmodell | 707

Insgesamt erscheint diese Annahme im Rahmen eines kontrollierten Experiments jedoch gut erfüllbar. Die Normalverteilungsannahme als „natürliche Verteilung“ erscheint durchaus realistisch, sofern die Resteinflüsse für die einzelnen Pflanzen identisch sind. Es sei abschließend bemerkt, dass es hier aufgrund der geringen Anzahl von Beobachtungen eigentlich keine Alternative zu Modell KN gibt, solange man die Anzahl von Beobachtungen (Versuchspflanzen) nicht beträchtlich erhöht. Ab etwa n ≥ 60 könnte man dann auch auf Modell BH zugreifen, um etwaige Verletzungen von Annahmen zu umgehen. • Berechnung • Angenommen, die beobachteten Daten (x i , y i ) für i = 1, . . . , 5 lauten: (1, 1), (2, 2), (3, 1), (4, 3) und (5, 2). Die KQ-Schätzer für Achsenabschnitt und Steigung ergeben sich gemäß den Rechnungen in Beispiel 5.2.9 als β̂ 0 = 0.9

und

β̂ 1 = 0.3.

Man beachte hierzu auch Abbildung 5.2.18. Den Standardfehler der Regression erhält man aus den KQ-Residuen aus Tabelle 5.2.4: SER = √

1 n 2 1 ̂ i = √ (0.22 + 0.52 + 0.82 + 0.92 + 0.42 ) ≈ 0.7958. ∑u n − 2 i=1 3

Daraus ergibt sich für die Schätzung der Fehlervarianz ̂ 2U = SER2 ≈ 0.6333. σ Das Bestimmtheitsmaß erhalten wir aus den Rechnungen in Beispiel 12.1.1 (Beispiel 5.2.9 fortgesetzt) als R2 = 0.3214. Weiter ergibt sich aus Tabelle 5.2.4: x= ̃s2X =

15 = 3, 5

1 n 2 55 = 11 ∑x = 5 i=1 i 5

und

1 n 2 ∑ x − x2 = 11 − 32 = 2. n i=1 i

Daraus resultiert für die nur-homoskedastizitäts-konsistenten Varianzschätzer 1 n ̂2 ∑ x2 σ 11 ⋅ 0.6333 ̃ 2̂ = n i=1 2 i U = σ ≈ 0.6966 und β0 5⋅2 ñs X ̃ 2̂ = σ β1

̂ 2U σ ñs2X

=

0.6333 ≈ 0.0633. 5⋅2

708 | 12 Das lineare Regressionsmodell

Die korrespondierenden Standardfehler der KQ-Schätzer lauten dann folglich ̃ β̂ 0 ) = √ σ ̃ 2̂ ≈ 0.8346 SE( β0

und

̃ β̂ 1 ) = √ σ ̃ 2̂ ≈ 0.2516. SE( β1

Dabei steht SE für die Standardfehler (standard error). • Ergebnisse und Interpretation • Für die Schätzung des Modells KN erhält man gemäß den vorhergehenden Berechnungen insgesamt: ̂ = Wuchshöhe

0.9 (0.83)

+ 0.3 ⋅ Wassermenge,

R2 ≈ 0.32,

SER ≈ 0.8.

(0.25)

Mit dem 0.975-Quantil der t(3)-Verteilung t3,0.975 ≈ 3.18 ergeben sich die 95%Konfidenzintervalle als [ 0.9 − 3.18 ⋅ 0.83, 0.9 + 3.18 ⋅ 0.83 ] ≈ [−1.74, 3.54]

für β0 bzw.

[ 0.3 − 3.18 ⋅ 0.25, 0.3 + 3.18 ⋅ 0.25 ] ≈ [−0.50, 1.10]

für β1 .

Da in beiden Konfidenzintervallen jeweils die 0 enthalten ist, folgt sofort, dass beide Regressionskoeffizienten bei einem Niveau von 5% nicht signifikant von 0 verschieden sind. Insbesonderen kann mit diesem Ergebnis also nicht statistisch bestätigt werden, dass von der Wassermenge eine signifikante Wirkung auf die Wuchshöhe ausgeht. Führen wir einen einseitigen Test für das Testproblem H0 : β1 ≤ 0

vs.

H1 : β1 > 0

durch, d.h. testen wir gezielt, ob von der Bewässerung ein positiver Effekt ausgeht, verringert sich der kritische Wert auf t3,0.95 ≈ 2.35. Mit der Teststatistik ̂ ̃ β = β1 − 0 ≈ 0.3 = 1.2 T 1 ̃ β̂ 0.25 σ 1 ergibt sich jedoch weiterhin kein signifikantes Ergebnis. Der p-Wert liegt dabei laut Tabelle A.2 zwischen 0.1 und 0.2. Die Standardabweichung der Wuchshöhen beträgt s Y = 0.7. Der SER liegt (aufgrund des kleineren Divisors von 3) mit 0.8 sogar noch darüber. Die Residualstreuung ist also noch verhältnismäßig groß. Der Erklärungsgehalt des Modells beträgt 32%. Mit Blick auf Abbildung 12.1.14 erscheint das nichtsignifikante Ergebnis nicht sonderlich überraschend. Die Wirkungsverhältnisse erscheinen auch optisch noch nicht eindeutig genug. Der Hauptgrund für die Nichtsignifikanz ist die viel zu kleine Stichprobe. Würde man jede der obigen Beobachtungen mengenmäßig verdreifachen, ergäben sich zum Niveau 5% bereits signifikante Koeffizienten. Dabei blieben s Y und R2 völlig unverändert während der SER lediglich auf den Wert 0.66 absinken würde. Aus R2 und SER allein lässt sich keine Signifikanzaussage ableiten. Diese Größen sind jeweils immer vor dem Hintergrund der Stichprobengröße zu interpretieren. In

12.1 Einfaches lineares Regressionsmodell | 709

diesem Zusammenhang beachte man insbesondere Resultat (12.1.91) mit r XY √ ̃β = T n − 2, wobei R2 = r2XY . 1 √1 − r2XY Der gleiche Korrelationswert bzw. der gleiche Wert für das Bestimmtheitsmaß, führt mit steigendem Stichprobenumfang also zu einer „zunehmend signifikanten“ Teststatistik.

Fallbeispiel 2: Klassengröße und Lernerfolg • Hintergrund • Der California-Testscore-Datensatz ist im R-Paket Ecdat mit der Bezeichnung Caschool enthalten und wird auch als wichtiges empirisches Anwendungsbeispiel für Modell BH im Lehrbuch von Stock und Watson [2012] verwendet. Er enthält Daten von Schülern der 5. Klasse aus einer standardisierten Prüfung an allen Schulen in Kalifornien, die in den Jahren 1998 und 1999 durchgeführt wurde. Dabei wurden für alle 420 Schuldistrikte die Durchschnittswerte aller Schulen eines Distrikts gebildet. Erhoben wurden Variablen hinsichtlich der Einzelergebnisse in der Prüfung, spezifische Merkmale der Schulen sowie sozio-demographische Merkmale der Schüler. Unter anderem enthält der Datensatz die folgenden Variablen: Merkmal

Variable

Erläuterung

Testergebnis

testscr

Erreichte Punktezahl im Test

Klassengröße

str

Anzahl von Schülern pro Lehrer

Englisch-Lerner-Anteil

elpct

Prozentualer Anteil von Schülern mit Sprachproblemen

Begünstigten-Anteil

mealpct

Prozentualer Anteil von Schülern, die vergünstigtes Mensaessen beziehen

Die Testergebnisse spiegeln in gewisser Weise den Lernerfolg der Schüler wider. Die Klassengröße sagt etwas über das Betreuungsverhältnis an den Schulen aus. Den Englisch-Lerner-Anteil würde man in Deutschland möglicherweise als „Anteil von Schülern mit Migrationshintergrund“ interpretieren. Beim Begünstigten-Anteil handelt es sich um Schüler, die aufgrund geringer Einkommensverhältnisse ihrer Eltern ein Recht auf begünstigtes Mensaessen haben. Indirekt wird damit also der Anteil „sozial benachteiligter“ Schüler gemessen. Abbildung 12.1.5 zeigt die Verteilungen der einzelnen Variablen in Form von Histogrammen mit absoluten Häufigkeiten. Abbildung 12.1.16 legt in einer Streudiagramm-Matrix die paarweisen Abhängigkeiten offen. Wie wir sehen sind die einzelnen Variablen mehr oder weniger stark untereinander korreliert. Die korrespondierende Korrelationsmatrix lautet

710 | 12 Das lineare Regressionsmodell

testscr

str

elpct

mealpct

testscr

1.0000

-0.2264

-0.6441

-0.8688

str

-0.2264

1.0000

0.1876

0.1352

elpct

-0.6441

0.1876

1.0000

0.6531

mealpct

-0.8688

0.1352

0.6531

1.0000

Angenommen, man möchte nun untersuchen, ob es sich lohnt mehr Lehrer einzustellen, um den Lernerfolg der Schüler zu verbessern. In diesem Zusammenhang interessiert die Frage, ob die Klassengröße an sich überhaupt einen Einfluss hat oder nicht. Der grundsätzliche Modellansatz laute dabei zunächst einmal Y i = β0 + β1 X i + U i

für i = 1, . . . , 420,

wobei Y i das (durchschnittliche) Testergebnis und X i die (durchschnittliche) Klassengröße im i-ten Distrikt ist. • Modell BH: Diskussion der Modellannahmen • Es soll Modell BH gemäß Definition 12.1.4 unterstellt und geschätzt werden. Wie steht es hier um die Adäquatheit der einzelnen Modellannahmen? Die Linearitätsannahme (A0) scheint bei Betrachtung des Streudiagramms zwischen Testergebnis und Klassengröße in Ordnung zu gehen. Es ist auf jeden Fall kein augenfälliges nichtlineares Muster erkennbar. Im Hinblick auf Annahme (A1) stellen wir die Leitfrage für das OVB-Problem: Gibt es neben dem Regressor X, also der beobachteten Einflussgröße, eine weitere maßgebliche Einflussgröße auf Y, die mit X korreliert ist? Wir sehen, dass die Klassengröße sowohl mit dem Englisch-Lerner-Anteil als auch mit dem Begünstigten-Anteil positiv korreliert ist. Die Korrelation liegt zwar jeweils unter 0.2 ist jedoch aufgrund der relativ großen Stichprobe von n = 420 hoch signifikant. Gleichzeitig sind diese beiden Variablen mit −0.64 und −0.87 relativ stark mit dem Testergebnis korreliert. Gerade auch vor dem Hintergrund der in Deutschland immer wieder kritisierten Situation, dass die schulischen Erfolge von Schülern sehr stark vom sozialen Hintergrund des Elternhauses bestimmt werden, erscheint es hier auch ohne Expertenwissen naheliegend, auf eine kausale Abhängigkeit zu schließen. In diesem Fall wäre die OVB-Leitfrage also deutlich zu bejahen und Annahme (A1) verletzt. Blenden wir zur näheren Betrachtung einmal den Begünstigten-Anteil aus und betrachten nur das Verhältnis zwischen Testergebnis, Klassengröße und Englisch-Lerner-Anteil. Die Klassengröße ist positiv mit dem Englisch-Lerner-Anteil korreliert. Diesem wiederum unterstellen wir (naheliegenderweise) einen negativen Effekt auf das Testergebnis. In einem einfachen linearen Regressionsmodell mit der Klassengröße als Regressor, wäre dieser mit dem Fehler folglich negativ korreliert. Dies liegt daran, dass der Resteinfluss mit wachsender Klassengröße zunehmend negativ wird. Infolgedessen würde man den Steigungskoeffizienten, sprich den Effekt der Klassengröße, tendenziell unterschätzen. Tendenziell

12.1 Einfaches lineares Regressionsmodell | 711

würde also gelten: β̂ 1 < β1 . Wäre der Effekt der Klassengröße an sich negativ, so wäre der geschätzte Effekt tendenziell stärker (negativer). Wäre der Effekt der Klassengröße hingegen positiv (wovon wohl eher nicht auszugehen ist), wäre der geschätzte Effekt tendenziell schwächer. Dies folgt ganz der Logik der in Abschnitt 5.3.3 skizzierten Mechanik systematisch verzerrter Abhängigkeiten. Eine etwas formalere Begründung findet sich später in Abschnitt 12.2.2 (Satz 12.2.3). Insgesamt erscheint es hier also nicht plausibel, den Effekt der Klassengröße richtig schätzen zu können, solange gewisse soziodemographische Merkmale nicht berücksichtigt werden. Testergebis

Englisch−Lerner−Anteil 200

100

60 40 20 0

150 100

50

50

0 600

640

680

Punkte

0 14

18

22

26

Anzahl von Schülern

Begünstigten−Anteil 100

abs. Häufigkeit

80

250 abs. Häufigkeit

abs. Häufigkeit

abs. Häufigkeit

Klassengröße 150

100

80 60 40 20 0

0

20 40 60 80 %

0 20

60

100

%

Abb. 12.1.15: Empirische Verteilung einzelner Variablen

Im Hinblick auf Annahme (A2) ist zu bedenken, dass es sich bei den Daten um keine reale Stichprobe (Abschnitt 9.2) handelt. Vielmehr wurde eine Totalerhebung für alle Schulen in Kalifornien durchgeführt. Die Daten können jedoch als Realisation einer hypothetischen Stichprobe aufgefasst werden. Schließlich ergeben sich die Werte der einzelnen Variablen zufällig (sind nicht mit Sicherheit vorhersagbar) und stellen insofern eine Stichprobe aus einem übergeordneten Potential an Möglichkeiten (hypothetische Grundgesamtheit) dar. Man könnte die vorliegende Situation in etwa mit der in Abbildung 12.1.1 (Größen und Gewichte verschiedener Studentenkohorten) vergleichen. In dieser Vorstellung generiert das kalifornische Schulsystem gleichsam wie ein Zufallsgenerator jedes Jahr nach dem gleichen stochastischen Modell neue Ergebnisse. Die Prüfung der in (A2) enthaltenen Unabhängigkeitsannahme erfordert näheres Expertenwissen. Wäre es etwa so, dass im größeren Stil distriktübergreifende Kooperationen einzelner Schulen bestehen, so könnten bestimmte Variablen miteinander korrelieren. Völlige Unabhängigkeit mag sicherlich ausgeschlossen werden. Die in (A2) enthaltene Annahme identisch verteilter Variablen, erscheint jedoch unrealistisch. Dies würde etwa bedeuten, dass a priori die Testergebnisse für alle Distrikte in gleicher Weise nicht vorhersagbar sind. Realistischer erscheint jedoch, dass jeder Schuldistrikt ein eigenes relativ konstantes Niveau in Bezug auf die einzelnen Variablen aufweist. So wird ein Schuldistrikt, der im letzten Jahr einen überdurchschnittlich

712 | 12 Das lineare Regressionsmodell

660

700

0

20

40

60

80

80

620

80

0

40

Begünst.−Anteil

14 18 22 26

0

40

E.−Lerner−Anteil

680

Klassengröße

620

Testergebnis 14

18

22

26

0

20 40 60 80

Abb. 12.1.16: Paarweise empirische Abhängigkeit der Variablen

hohen Englisch-Lerner-Anteil besaß, einen solchen auch im aktuellen Jahr und im nächsten Jahr haben. Ähnliches sollte auch für andere Variablen gelten. Somit wäre ein u.h.v.-Schema deutlich adäquater. Hier kommt uns jetzt zugute, dass die Inferenz unter Modell BH und unter Modell UHV identisch ist. Die für Modell UHV zusätzlich erforderlichen Konvergenzannahmen wären rein technischer Natur und besäßen im vorliegenden Beispiel keine praktische Relevanz. Dies wäre allenfalls der Fall, wenn beispielsweise in aufeinanderfolgenden Jahren die Stichprobe ständig erhöht würde. In diesem Fall müsste dies dann so erfolgen, dass die Mischungsverhältnisse der heterogenen Bestandteile gewahrt bleiben. So sollte etwa der Anteil von Distrikten mit hohem Englisch-Lerner-Anteil in der Stichprobe nicht ständig schwanken, sondern stabil bleiben. Bei nicht stabilen oder sich stabilisierenden Gegebenheiten ginge schließlich auch die Interpretierbarkeit einzelner Parameter verloren. Über die Gültigkeit von Annahme (A3) braucht man sich im vorliegenden Fall keine Sorgen zu machen. Die Endlichkeit bestimmter Momente ist im empirischen Fall naturgegeben. Varianzen von 0 sollten für die in Betracht gezogenen Variablen ohnehin unrealistisch sein. • Berechnung • Sofern man sich entgegen obiger Feststellungen bezüglich Annahme (A1) dennoch zur Schätzung des einfachen linearen Regressionsmodells entschließt, können die KQ-Schätzer auf die gleiche Weise wie in Beispiel 5.2.9 berechnet werden. Bei 420 Beobachtungen wird man dies natürlich nicht mehr händisch bewerk-

12.1 Einfaches lineares Regressionsmodell | 713

stelligen, sondern rechnergestützt mithilfe einer geeigneten Software. Das Gleiche gilt für alle anderen Statistiken, insbesondere für die relativ umständlich zu berechnenden Standardfehler. Speziell im Zusammenhang der Software R sei hier auf das Zusatzpaket sandwich verwiesen, mit dem sich die heteroskedastizitäts-konsistenten Standardfehler berechnen lassen. Wir sehen keinen Sinn darin, hier längliche vonHand-Berechnungen exemplarisch durchzuexerzieren, auch wenn derartige „Übungen“ das Formelverständnis steigern können. Für die Schätzung von Modell BH ergeben sich folgende Ergebnisse: β̂ 0 ≈ 698.93,

β̂ 1 ≈ −2.28,

̂ 2̂ ≈ 106.91, σ

̂ 2̂ ≈ 0.27. σ

β0

SER ≈ 18.58,

R2 ≈ 0.05,

β1

Die korrespondierenden Standardfehler der KQ-Schätzer lauten dann folglich ̂ β̂ 0 ) = √ σ ̂ 2̂ ≈ 10.34 und SE( β0

̂ β̂ 1 ) = √ σ ̂ 2̂ ≈ 0.52 SE( β1

• Ergebnisse und Interpretation • Die einzelnen Ergebnisse lassen sich insgesamt wieder in folgender Standardform zusammenfassen: Test ê rgebnis =

693.93 (10.34)

−2.28 ⋅ Klassengröße,

R2 ≈ 0.05,

SER ≈ 18.58

(0.52)

Mit dem 0.975-Quantil der Standardnormalverteilung z0.975 ≈ 1.96 ergeben sich die 95%-Konfidenzintervalle als [698.93 − 1.96 ⋅ 10.36, 698.93 + 1.96 ⋅ 10.36] ≈ [678.62, 719.24] [−2.28 − 1.96 ⋅ 0.52, −2.28 + 1.96 ⋅ 0.52] ≈ [−3.30, −1.26]

für β0 bzw.

für β1 .

Da beide Konfidenzintervalle jeweils die 0 ausschließen, sind beide Regressionskoeffizienten bei einem Niveau von 5% signifikant von 0 verschieden. Führen wir einen einseitigen Test für das Testproblem H0 : β1 ≥ −2 vs.

H1 : β1 < −2

durch, d.h. testen wir, ob der Steigungskoeffizient signifikant kleiner als −2 ist, erhalten wir als Wert der Teststatistik ̂ ̂t β1 =−2 = β1 − (−2) ≈ −0.28 ≈ −0.54. ̂ β̂ 0.52 σ 1 Testen wir H0 : β1 ≥ −1 vs.

H1 : β1 < −1

714 | 12 Das lineare Regressionsmodell

ergibt sich ̂ ̂t β1 =−1 = β1 − (−1) ≈ −1.28 ≈ −2.46. ̂ β̂ 0.52 σ 1 Der für beide Fälle zum Niveau 5% gültige kritische Wert z0.05 ≈ −1.64 wird folglich nur in letzterem Fall unterschritten, d.h. ̂t β1 =−2 > −1.64

und ̂t β1 =−1 < −1.64.

Demnach ist die Steigung signifikant kleiner als −1 aber nicht signifikant kleiner als −2. Der korrespondierende p-Wert beträgt dabei laut Tabelle A.1 etwa 0.007. Wohlgemerkt ist die −1 auch nicht im 0.95-Konfidenzintervall für −1 enthalten, die −2 jedoch schon. Allerdings ist bei dieser Feststellung zu beachten, dass das Intervall eigentlich nur direkt mit den Ergebnissen der zweiseitigen Tests korrespondiert. Die Standardabweichung der Testergebnisse beträgt s Y ≈ 19.05. Der SER liegt mit 18.58 nicht wesentlich darunter. Dies bedeutet, dass sich unter Kenntnis der Klassengröße das Testergebnis (innerhalb eines Distrikts) nicht wesentlich besser prognostizieren lässt als ohne deren Kenntnis. Angesichts des sehr niedrigen Werts von nur 5% für das Bestimmtheitsmaß mag dies nicht sonderlich überraschen. Es ist hier gewisse Vorsicht und Differenziertheit bei der Formulierung von Aussagen geboten. Die Klassengröße mag zwar nicht viel in Bezug auf die Streuung der Testergebnisse erklären, ihr Erklärungsbeitrag ist dennoch signifikant, d.h. statistisch „nicht zufällig“. Die Klassengröße hat nachweislich einen Einfluss, zumindest sofern man Modell BH als gültig akzeptiert. Demnach bewirkt eine um 1 Schüler größere Klasse ein um durchschnittlich 2.28 Punkte schlechteres Testergebnis. Oder anders ausgedrückt, würden die Testergebnisse bei einer um 5 Schüler größeren Klasse bereits um mehr als 10 Punkte sinken. In Bezug auf das Konfidenzintervall für β1 ist die betragsmäßige Effektstärke nach unten hin durch den Wert 1.26 abgesichert. Eine um 5 Schüler größere Klasse sollte „mit hoher Wahrscheinlichkeit“ also um mindestens 5 ⋅ 1.26 = 6.3 Punkte schlechter abschneiden. Aufgrund der vorhergehenden Diskussion zu einem möglichen OVB-Problem in Bezug auf den Englisch-Lerner-Anteil oder den Begünstigten-Anteil, könnte man nun den Zusammenhang zwischen Klassengröße und Testergebnis in homogeneren Untergruppen schätzen. Dieser Lösungsansatz wurde bereits in Abschnitt 5.3.3 vorgestellt und stellt ein probates Mittel gegen systematische verzerrte Abhängigkeiten dar, sofern genügend Beobachtungen zur Untergliederung in Teilgruppen vorliegen. Abbildung 12.1.16 zeigt im linken Schaubild zunächst das Ergebnis der obigen Schätzung für alle 420 Beobachtungen. Im rechten Schaubild wurden die Beobachtungen in zwei homogenere Untergruppen in Bezug auf den Begünstigten-Anteil eingeteilt, die mit unterschiedlichen Farben versehen sind. Den Englisch-Lerner-Anteil blenden wir zur Vereinfachung im Folgenden aus. Die obere Untergruppe (schwarz) besteht aus Distrikten, bei denen der Begünstigten-Anteil jeweils unter 40% liegt. In der unteren Gruppe (grau) liegt dieser Anteil entsprechend bei mindestens 40%. Für beide

12.1 Einfaches lineares Regressionsmodell | 715

Unbedingter Zusammenhang

720 700 680 660 640 620 600

Testergebnis

Testergebnis

Gruppen wurde nun jeweils separat Modell BH geschätzt. Wir sehen, dass sich die beiden Geraden auf völlig unterschiedlichem Niveau befinden. Bei einer durchschnittlichen Klassengröße von etwa 20 Schülern beträgt der Abstand der beiden Geraden fast 30 Punkte. Man beachte, dass für einen solchen Unterschied eine Klasse um etwa 13 Schüler vergrößert bzw. verkleinert werden müsste, was in den meisten Fällen praktisch unmöglich sein dürfte. Insofern sehen wir, dass der soziale Hintergrund wesentlich mehr Erklärungsgehalt für die Variation der Testergebnisse enthält als die Klassengröße. Dies ist natürlich auch schon deutlich in den Streudiagrammen von Abbildung 12.1.16 zu erkennen. Zwischen dem Begünstigten-Anteil und dem Testergebnis ist ein sehr stark ausgeprägtes lineares Muster erkennbar. Der Effekt der Klassengröße wird in den beiden homogenisierten Untergruppen verschieden eingeschätzt. So beträgt der Steigungskoeffizient in der oberen Gruppe −2.46 und in der unteren Gruppe −1.27. In beiden Fällen ist der Koeffizient zum Niveau 5% signifikant von 0 verschieden. Die beiden unterschiedlichen Steigungen könnten darauf hindeuten, dass sich im Falle geringerer „sozialer Hintergrundprobleme“ eine Verkleinerung der Klasse stärker auswirkt als bei größeren „sozialen Hintergrundproblemen“. In diesem Fall würde eine sog. Wechselwirkung zwischen der Klassengröße und den beiden soziodemographischen Merkmalen als Einflussgrößen für den Lernerfolg bestehen.

10

15

20

25

30

Bedingter Zusammenhang

720 700 680 660 640 620 600 10

Klassengröße

15

20

25

30

Klassengröße

Abb. 12.1.17: Zusammenhang von Klassengröße und Testergebnis

Dieses Fallbeispiel findet im nächsten Abschnitt eine Fortsetzung. Dabei werden wir mit der multiplen Regression einen alternativen und sehr gängigen Lösungsansatz für das OVB-Problem erhalten.

716 | 12 Das lineare Regressionsmodell

12.2 Einführung in das multiple lineare Regressionsmodell

Mithilfe der partiellen Regression lassen sich störende Effekte dritter Einflussvariablen linear herausrechnen. Äquivalent dazu kann auch eine multiple Regression berechnet werden. Im Rahmen des multiplen linearen Regressionsmodells können dann theoretisch fundierte Regeln über Stärke und Richtung systematischer Verzerrungen getroffen werden. Dabei lassen sich totale Effekte in direkte und indirekte Effekte zerlegen. Nicht zuletzt steht im multiplen Modell der gesamte Methodenapparat der induktiven Statistik zur Verfügung.

12.2.1 Partielle lineare KQ-Regression Empirische partielle Regression • Hintergrund • Bereits in Abschnitt 5.3.3 wurde aufgezeigt, wie im Mehrvariablenkontext empirische Abhängigkeiten zwischen verschiedenen Variablen, die in einem kausalen Zusammenhang zueinander stehen, systematisch verzerrt werden können. Im Rahmen des Regressionsmodells hat dieses Problem eine besondere Relevanz in Bezug auf die Annahme E(U i |X i ) = 0

bzw.

E(U i ) = 0,

das als OVB-Problem bekannt ist und zu verzerrten (inkonsistenten) Schätzungen der KQ-Geraden führt. Dies wurde anhand zweier Fallbeispiele am Ende des vorhergehenden Abschnitts detailliert ausgeführt. Eine einfache und verständliche Möglichkeit das OVB-Problem in den Griff zu bekommen, besteht darin, den Zusammenhang in homogeneren Untergruppen unter weitgehender Konstanz der störenden Variablen zu untersuchen. Hierzu beachten man etwa Beispiel 5.3.4 oder Fallbeispiel 2 aus dem vorhergehenden Abschnitt. Dieser Lösungsansatz erweist sich bei geringer Beobachtungsanzahl jedoch häufig als wenig praktikabel. Die geringere Anzahl von Beobachtungen in den Einzelgruppen führt zudem zu größerer Unsicherheit beim Schätzen und geht mit einem Güteverlust beim Testen einher. Durch die separierte Untersuchung in einzelnen Untergruppen der Daten wird eine Studie außerdem sehr schnell aufgebläht und unübersichtlich. Ziel dieses Abschnitts wird es sein, das multiple lineare Regressionsmodell als weiteren Lösungsansatz für das OVB-Problem zu motivieren. Dabei werden wir uns diesem Modell über die Methode der partiellen Regression nähern. Der Vorteil dieser Methode besteht darin, dass auf aufwendige Teilanalysen in Untergruppen der Daten verzichtet werden kann. Stattdessen wird die störende OVB-verursachende Variable unter Beibehaltung aller Beobachtungen „linear herausgerechnet“. Wie das genau funktioniert, soll anhand des nachfolgenden Beispiels demonstriert werden. Danach wird sich zeigen, dass diese Technik äquivalent und schneller auch über eine multiple Regression ausgeführt werden kann.

12.2 Einführung in das multiple lineare Regressionsmodell | 717

• Beispiel 12.2.1: Empirische partielle Regression • Eine Sprachschule bietet Vorbereitungskurse für einen Sprachtest an. Tabelle 12.2.1 gibt Aufschluss über 8 Schüler, die ein halbes Jahr an den Kursen teilgenommen haben. Darin enthalten sind die wöchentliche Anzahl der Unterrichtsstunden (S), das Abschneiden im Eingangstest der Sprachschule (ET) und das letztliche Abschneiden im Sprachtest (ST) nach Absolvierung des Sprachkurses. Angenommen, das Ziel einer internen Studie sei es herauszufinden, ob und wie stark sich zusätzliche Nachhilfestunden in der Punktezahl des Sprachtests bemerkbar machen. Tab. 12.2.1: Nachhilfeunterricht an einer Sprachschule Schüler

Stundenzahl

1 2 3 4 5 6 7 8

4 4 3 3 2 2 1 1

60

70

Punkteanzahl im Eingangstest 190 280 300 410 420 490 510 630

80

Punkteanzahl im Sprachtest 52 66 58 77 70 91 81 95

90

200

300

400

500

600 600 500

Eingangstest

400 300 200

4.0 3.5 3.0 2.5 2.0 1.5 1.0

Stundenzahl

90 80

Sprachtest

70 60 1.0 1.5 2.0 2.5 3.0 3.5 4.0

Abb. 12.2.1: Nachhilfeunterricht an einer Sprachschule

718 | 12 Das lineare Regressionsmodell

Abbildung 12.2.1 zeigt die wechselseitigen Abhängigkeiten der einzelnen Variablen. Die korrespondierende Korrelationsmatrix dazu lautet ST

S

ET

ST

1.0000

-0.7887

0.9444

S

-0.7887

1.0000

-0.9273

ET

0.9444

-0.9273

1.0000

Anhand der empirischen Korrelationen kann man folgende Feststellungen machen: 1. Je besser ein Schüler im Eingangstest abschneidet, desto weniger Nachhilfe nimmt er. 2. Je besser ein Schüler im Eingangstest ist, desto besser ist er im Sprachtest. 3. Je mehr Nachhilfestunden ein Schüler nimmt, desto schlechter ist er im Sprachtest. Der erste Sachverhalt erscheint insofern plausibel, dass Schüler, die bereits gute Vorkenntnisse mitbringen, weniger Nachhilfe nötig haben, um auf ein bestimmtes gefordertes Mindestniveau zu gelangen. Auch der zweite Sachverhalt mag einleuchten. Schüler, die zu Beginn bereits besser waren als andere, sind dies auch am Ende. Der dritte Sachverhalt sollte für die Sprachschule allerdings alarmierend sein. Bei Unterstellung von Modell KN erhält man dazu: ̂ Sprach kentnisse = 98.75 − 10.0 ⋅ Stundenzahl, (8.71)

R2 ≈ 0.62,

SER ≈ 10.06.

(3.18)

Demnach geht jede Stunde mehr an Nachhilfe im Durchschnitt mit 10 Punkten weniger im Sprachtest einher, wobei dieser Effekt signifikant ist. Der p-Wert des zweiseitigen Tests liegt bei 0.02. Ist der Nachhilfeunterricht also kontraproduktiv? Tatsächlich können wir hier eine systematische Verzerrung durch ein OVBProblem vermuten. In der Variablen ET sind individuelle Merkmale der Schüler wie etwa Vorkenntnisse oder Begabung enthalten, die jenseits des Nachhilfeunterrichts, das Abschneiden im Sprachtest zu erklären vermögen. Je besser die Ausgangsbedingungen für einen Schüler sind, d.h. je höher seine Punktezahl im Eingangstest ist, desto besser schneidet er am Ende im Sprachtest ab. Gleichzeitig ist ET mit der Stundenzahl jedoch negativ korreliert. Damit kann die OVB-Leitfrage „Gibt es neben dem Regressor X, also der beobachteten Einflussgröße, eine weitere maßgebliche Einflussgröße auf Y, die mit X korreliert ist?“ bejaht werden. Werfen wir nun einen genaueren Blick auf Tabelle 12.2.1. Vergleichen wir jeweils immer nur Schüler mit ähnlichem Eingangsniveau, d.h. bilden wir homogene Untergruppen, erkennen wir schnell, dass sich eine höhere Stundenzahl positiv auswirkt.

12.2 Einführung in das multiple lineare Regressionsmodell | 719

Wir können hier drei kleine Gruppen bzw. Paare bilden: Die Schüler 2 und 3, die Schüler 4 und 5 und die Schüler 6 und 7. Innerhalb dieser Gruppen (Paare) schneiden jeweils immer diejenigen Schüler besser ab, welche die höhere Stundenzahl an Nachhilfe genommen haben. Mit anderen Worten: Bedingen wir auf dem Eingangsniveau, ist ein positiver Effekt des Nachhilfeunterrichts von 8, 7 bzw. 10 Punkten Unterschied feststellbar. Das Eingangsniveau erklärt hier zum Großteil das Abschneiden im Sprachtest. Ein Schüler der also eingangs relativ gut ist, ist es hinterher auch noch. Ein Schüler, der relativ schlecht im Eingangstest abschneidet, nimmt zwar mehr Nachhilfestunden, diese haben jedoch keinen so großen Effekt, dass er damit einen anfänglich besseren Schüler am Ende übertreffen könnte. Jeder Schüler verbessert sich durch die Nachhilfe sozusagen nur innerhalb seines eigenen Leistungsniveaus. Durch die Nichtberücksichtigung von ET wird der empirische Zusammenhang zwischen S und ST systematisch verzerrt. Mit den Merkregeln aus Abschnitt 5.3.3 erhält man aus einem positiven direkten Effekt von ET auf ST und einer negativen Korrelation zwischen S und ET zunächst einmal einen negativen indirekten Effekt von S über ET auf ST. Zusammen mit einem positiven direkten Effekt von S auf ST spiegelt damit der Totaleffekt von S auf ST den direkten Effekt nicht mehr korrekt wider, sondern ist verzerrt im Sinne einer Kompensation, d.h. β̂ 1 < β1 . Im vorliegenden Fall führt dies sogar zum Extremfall einer Vorzeichenverkehrung (Überkompensation). Eine zur Bildung homogener Untergruppen alternative Methode zum Umgang mit systematischen Verzerrungen besteht darin, den Einfluss der (störenden) Einflussgröße (hier ET) linear herauszurechnen. Dies sei im Folgenden anhand des vorliegenden Beispiels ausgeführt.

Abb. 12.2.2: Lineares Herausrechnen von ET aus ST und S

Abbildung 12.2.2 zeigt den Zusammenhang zwischen ET und ST und zwischen ET und S. In beiden Streudiagrammen wurden die Beobachtungswerte zur Identifikation der einzelnen Schüler durchnummeriert. Für beide Zusammenhänge wurde dann jeweils

720 | 12 Das lineare Regressionsmodell

^ 15 ST − ST 10

6 2

5

4

1

0

7

−5

5

8

3

−10 −1.0

−0.5

0.0

0.5

1.0 ^ S−S

Abb. 12.2.3: Partieller Regressionsplot von S und ST unter ET

eine KQ-Gerade berechnet. Unter linearem Herausrechnen verstehen wir jeweils die Extraktion der KQ-Residuen. Denn diese reflektieren jeweils, inwieweit ein Schüler bezogen auf sein Eingangsniveau über dem Durchschnitt oder unter dem Durchschnitt liegt. So bedeutet ein positives Residuum im rechten Schaubild, dass ein Schüler bezogen auf sein Eingangsniveau überdurchschnittlich viele Nachhilfestunden genommen hat. Ein negatives Residuum bedeutet, dass ein Schüler bezogen auf sein Eingangsniveau unterdurchschnittlich viel Nachhilfe genommen hat. Die Durchschnittsbetrachtung ist dabei immer auf die berechnete KQ-Gerade bezogen. Damit können die KQ-Residuen als von ET bereinigte Werte interpretiert werden, wobei der Einfluss von ET sozusagen linear herausgerechnet wurde. Völlig Analog verhält es sich im linken Schaubild. Ein positives Residuum bedeutet hier, dass ein Schüler bezogen auf sein Eingangsniveau überdurchschnittlich im Sprachtest abgeschnitten hat. Ein negatives Residuum entspricht dagegen einem unterdurchschnittlichen Ergebnis. Im nächsten Schritt wird nun der Zusammenhang zwischen den um ET bereinigten Werten des Sprachtests, also den KQ-Residuen des linken Schaubilds, und den um ET bereinigten Werten der Stundenzahl, also den KQ-Residuen des rechten Schaubilds, untersucht. Abbildung 12.2.3 stellt den Zusammenhang der beiden Residuenwerte dar. Man bezeichnet eine solche Darstellung auch als partiellen Regressionsplot (vgl. Neter et. al [2005]). Wie man sieht, ist nun ein deutlich positiver Zusammenhang erkennbar. Dies bedeutet, dass Schüler, welche bezogen auf ihr Eingangsniveau überdurchschnittlich viel Nachhilfe nehmen (Schüler 2, 4 und 6), tendenziell auch überdurchschnittlich gut (bezogen auf ihr Eingangsniveau) im Sprachtest abschneiden. Analoge Aussagen gelten umgekehrt für Schüler, welche bezogen auf ihr Eingangsniveau unterdurchschnittlich viel Nachhilfe genommen haben (Schüler 3, 5, und 7). Den im partiellen Regressionsplot feststellbaren Zusammenhang zwischen S und ST könnte man nun, wenn man es ohne Weiteres für sinnvoll und zulässig hält, als den korrekt gemessenen erachten. Die Korrelation der Residuen wird als partielle Korrelation zwischen S und ST unter ET bezeichnet und beträgt hier gerundet 0.70. Die Steigung der berechneten KQ-Gerade beträgt 7.88. Dies bedeutet, dass bei gleichem Eingangsniveau jede zusätzliche Nachhilfestunde das Ergebnis im Sprachtest

12.2 Einführung in das multiple lineare Regressionsmodell | 721

um durchschnittlich 7.88 Punkte steigert. Dieser Effekt wird als partieller Effekt von S auf ST unter ET bezeichnet. Man beachte, dass hier unter „gleichem Eingangsniveau“ eine Durchschnittsbetrachtung im Sinne der vorgenommenen linearen Approximation zu verstehen ist. Der Vorteil der partiellen Regression gegenüber der Untersuchung in homogeneren Untergruppen ist offensichtlich. Es werden alle Beobachtungen in einem Zuge verwendet. Eine aufwendige separierte Untersuchung in verschiedenen Untergruppen entfällt. Anstelle verschiedener bedingter Korrelationen und Effekte erhält man mit der partiellen Korrelation und dem partiellen Effekt jeweils immer nur einen einzigen Wert, den es zu interpretieren gilt. Allerdings ist die Vorgehensweise dafür weniger differenziert als die Untersuchung in Untergruppen. Mögliche Interaktionseffekte wie etwa in Fallbeispiel 2 des vorhergehenden Abschnitts können dabei durchaus übersehen werden. Die partielle Regression macht (nur) Sinn, wenn die Variablen (informal formuliert) untereinander weitgehend linear abhängig sind. Man beachte hierzu die späteren Ausführungen im Rahmen des multiplen linearen Regressionsmodells. • Zusammenfassung und Formelapparat • Im Folgenden sei die empirische partielle Regression zusammengefasst. Auf den Nachweis der Berechnungsformeln verzichten wir und verweisen in diesem Zusammenhang auf die rechnerischen Ausführungen zur theoretischen partiellen Regression und andere Lehrbücher wie etwa Rencher [2012, Abschnitt 10.7]. Empirische partielle Regression im 3-Variablenfall Gegeben seien dreidimensionale Beobachtungswerte (x1 , z1 , y1 ), . . . , (x n , z n , y n ) zu den Merkmalen X, Z und Y. Außerdem sei die (empirische) Kovarianzmatrix der Beobachtungen von X und Z invertierbar. Man führe nun folgende einfache lineare Regressionen und Berechnungen durch: 1. KQ-Regression von Y auf Z und Extraktion der KQ-Residuen. 2. KQ-Regression von X auf Z und Extraktion der KQ-Residuen. 3. KQ-Regression der Residuen aus Schritt 1 auf die Residuen aus Schritt 2. Dann wird die im 3. Schritt durchgeführte Regression als partielle Regression von Y auf X unter Z bezeichnet. Der korrespondierende Steigungskoeffizient wird als partieller Regressionskoeffizient bezeichnet und mit b Y∼X∙Z notiert. Die Korrelation der Residuen aus Schritt 1 und Schritt 2 heißt partielle Korrelation zwischen X und Y unter Z und wird mit r XY∙Z

722 | 12 Das lineare Regressionsmodell

notiert. Unter Verwendung der üblichen Notation gilt dann: b Y∼X∙Z = r XY∙Z =

̃s XY ̃s2Z − ̃s YZ ̃s XZ ̃s2X ̃s2Z (1 − r2XZ ) r XY − r YZ r XZ

und

(12.2.1)

,

(12.2.2)

√(1 − r2YZ )(1 − r2XZ )

wenn die entsprechenden Ausdrücke definiert sind. Mit der Invertierbarkeit der Kovarianzmatrix und ̃s2Y > 0 soll die Definiertheit obiger Formeln sichergestellt werden. Null-Varianzen, d.h. empirische Varianzen, die gleich Null sind, und perfekte lineare Abhängigkeit von x- und z-Werten, auch Multikollinearität genannt, werden damit ausgeschlossen. • Empirische Verzerrung • Zur weiteren Motivation einer partiellen Regression erscheint die Frage interessant, in welcher Weise sich die Ergebnisse der linearen Regression von Y auf X und der partiellen Regression von Y auf X unter Z unterscheiden. In diesem Zusammenhang lässt sich zeigen, dass gilt: b Y∼X = b Y∼X∙Z + b Y∼Z∙X

̃s XZ , ̃s2X

wobei

b Y∼X =

̃s XY ̃s2X

(12.2.3)

den Steigungskoeffizienten der (normalen) Regression von Y auf X bezeichnet. Demnach fällt also der Steigungskoeffizient der Regression von Y auf X größer aus als der partielle, falls der partielle Effekt von Z auf Y unter X und die (empirische) Kovarianz zwischen X und Z das gleiche Vorzeichen besitzen. Er fällt dagegen kleiner bei umgekehrtem Vorzeichen aus. Weiter sind die beiden Koeffizienten gleich, falls X und Z (empirisch) unkorreliert sind oder falls der partielle Effekt von Z auf Y unter X gleich 0 ist. Der Term ̃s XZ (12.2.4) b Y∼Z∙X 2 ̃s X bestimmt dabei die Stärke der Abweichung, die wir als empirische Verzerrung bezeichnen. • Erweiterung auf höherdimensionale Fälle • Möchte man den störenden Effekt von zwei oder mehr Merkmalen Z1 , . . . , Z m mit m ≥ 2 herausrechnen, so benötigt man die Technik der multiplen lineare Regression (Abschnitt 12.2.2). Dabei werden Y und X jeweils auf alle störenden Einflüsse Z1 , . . . , Z m regressiert. Die drei Grundschritte bleiben ansonsten erhalten. Der Formelapparat wird entsprechend komplexer. Üblicherweise verwendet man hierfür dann eher kompakte, matrixalgebraische Ausdrücke.

12.2 Einführung in das multiple lineare Regressionsmodell | 723

Theoretische partielle Regression • Zusammenfassung und Formelapparat • Die partielle Regression lässt sich auch auf rein theoretischer Ebene in der Welt der Zufallsvariablen konzipieren. Eine solche Betrachtung erweist sich im Zusammenhang statistischer Modellierungen als nützlich. Theoretische partielle Regression im 3-Variablenfall Gegeben sei ein dreidimensionaler Zufallsvektor (X, Z, Y). Die (theoretische) Kovarianzmatrix von (X, Z)T sei invertierbar. Man führe nun folgende theoretische Regressionen und Berechnungen durch: 1. Regression von Y auf Z und Extraktion des Prognosefehlers Y − ̂ Y. ̂ 2. Regression von X auf Z und Extraktion des Prognosefehlers X − X. 3. Regression des Fehlers aus Schritt 1 auf den Fehler aus Schritt 2. Dann wird die im 3. Schritt durchgeführte Regression als theoretische partielle Regression von Y auf X unter Z bezeichnet. Der korrespondierende Steigungskoeffizient wird als theoretischer partieller Regressionskoeffizient bezeichnet und mit β Y∼X∙Z notiert. Die Korrelation der beiden Fehler aus Schritt 1 und Schritt 2 heißt theoretische partielle Korrelation zwischen X und Y unter Z und wird mit ϱ XY∙Z notiert. Unter Verwendung der üblichen Notation gilt dann: β Y∼X∙Z = ϱ XY∙Z =

σ XY σ2Z − σ YZ σ XZ σ2X σ2Z (1 − ϱ2XZ ) ϱ XY − ϱ YZ ϱ XZ

und

(12.2.5)

,

(12.2.6)

√(1 − ϱ2YZ )(1 − ϱ2XZ )

wenn die entsprechenden Ausdrücke definiert sind. Mit der Invertierbarkeit der Kovarianzmatrix und σ2Y > 0 soll analog wie im empirischen Fall die Definiertheit der Formeln sichergestellt werden. Die partielle Korrelation entspricht demnach also der Korrelation der Prognosefehler der besten linearen MSE-Prädiktoren von Y auf Basis von Z und X auf Basis von Z. Gemäß den Ausführungen in Abschnitt 12.1.2 zur theoretischen KQRegression lauten die besten linearen Prädiktoren zunächst einmal σ YZ ̂ ̂ = μ X + σ XZ (Z − μ Z ). Y = μ Y + 2 (Z − μ Z ) bzw. X σZ σ2Z

724 | 12 Das lineare Regressionsmodell

Als Prognosefehler erhält man daraus σ YZ Y−̂ Y = Y − μ Y − 2 (Z − μ Z ) bzw. σZ σ ̂ = X − μ X − XZ (Z − μ Z ). X−X σ2Z Mit den üblichen Rechenregeln für Erwartungswerte ergibt sich für die Kovarianz der Prognosefehler ̂ Y , X − X) Cov(Y − ̂ σ YZ σ XZ (Z − μ Z )] ⋅ [(X − μ X ) − 2 (Z − μ Z )]} σ2Z σZ σ XZ = E[(Y − μ Y )(X − μ X )] − 2 E[(Y − μ Y )(Z − μ Z )] σZ σ YZ σ XZ σ YZ − 2 E[(Z − μ Z )(X − μ X )] + 2 2 E[(Z − μ Z )2 ] σZ σZ σZ σ XZ σ YZ σ YZ σ XZ = σ XY − 2 σ YZ − 2 σ XZ + σZ σZ σ2Z σ YZ = σ XY − 2 σ XZ . σZ

= E{[(Y − μ Y ) −

Dabei nutzen wir in der ersten Gleichung die Tatsache aus, dass die Erwartungswerte der Prognosefehler gemäß (12.1.38) gleich 0 sind. Der Rest folgt aus der Definition der theoretischen Kovarianz bzw. der Varianz. Da die Varianzen der Prognosefehler gemäß (12.1.39) Y) = σ2Y (1 − ϱ2YZ ) Var(Y − ̂

und

̂ = σ2 (1 − ϱ2 ) Var(X − X) X XZ

lauten, ergibt sich für die Korrelation nach einigen Umformungen das angegebene Resultat (12.2.6): ̂ Cov(Y − ̂ Y , X − X)

̂ = Y , X − X) Corr(Y − ̂

√ Var(Y − ̂ ̂ Y)Var(X − X) ϱ XY − ϱ YZ ϱ XZ = . √(1 − ϱ2YZ )(1 − ϱ2XZ )

̂ erhält man nach Einsetzen obiger Resultate in die Regressiert man Y − ̂ Y auf X − X, Formel für die theoretische Steigung ̂ Y , X − X) Cov(Y − ̂ ̂ Var(X − X)

=

σ XY σ2Z − σ YZ σ XZ σ2X σ2Z (1 − ϱ2XZ )

.

Man beachte, dass sich die empirischen Versionen dieser Formeln, (12.2.1) und (12.2.2), im Prinzip analog nachweisen lassen. Hierbei müssen die Zufallsvariablen und theoretischen Kennwerte lediglich durch Beobachtungswerte und empirische Kennwerte

12.2 Einführung in das multiple lineare Regressionsmodell | 725

ersetzt werden. Der empirische Kalkül vollzieht sich dann völlig analog wie der theoretische. • Bedingte und partielle Korrelation • Im Allgemeinen unterscheidet sich die partielle Korrelation zwischen X und Y unter Z von der bedingten Korrelation unter Z = z. Während erstere lediglich einen einzigen Wert liefert, hängt letztere vom konkret gesetzten Wert z ab und fällt damit im Allgemeinen dann unterschiedlich aus. Sind X, Z und Y jedoch gemeinsam multivariat normalverteilt, stimmen partielle und bedingte Korrelation überein. Insbesondere ist letztere dann konstant. Man beachte hierzu Beispiel 8.3.5 mit Formel (8.3.21). • Erweiterung auf höherdimensionale Fälle • Die Erweiterung auf höherdimensionale Fälle, bei denen man Y und X jeweils auf Basis von m Variablen Z1 , . . . , Z m (m ≥ 2) prognostiziert, vollzieht sich analog wie im empirischen Fall. Die theoretische KQ-Regression aus Abschnitt 12.1.2 muss entsprechend auf den multiplen Fall erweitert werden (Abschnitt 12.2.2). • Theoretische Verzerrung • Analog zum empirischen Fall lässt sich zeigen, dass gilt: σ XZ σ XY β Y∼X = β Y∼X∙Z + β Y∼Z∙X 2 , wobei β Y∼X = 2 (12.2.7) σX σX den theoretischen Steigungskoeffizienten der (normalen) theoretischen Regression von Y auf X bezeichnet. Der Term σ XZ (12.2.8) β Y∼Z∙X 2 σX misst dabei die Stärke der Abweichung der Regressionskoeffizienten aus „normaler“ und partieller Regression. Diese Abweichung bezeichnen wir als theoretische Verzerrung.

Verbindung von Empirie und Theorie • Grundlagen • Mit den Definitionen und Resultaten der empirischen und theoretischen Korrelation können wir nun beide Seiten auf der Ebene der statistischen Modellierung zusammenführen. Hierbei fassen wir gegebene dreidimensionale Beobachtungswerte (x1 , z1 , y1 ), . . . , (x n , z n , y n ) als Realisationen einer Stichprobe (X1 , Z1 , Y1 ), . . . , (X n , Z n , Y n ) aus einer wie auch immer gearteten Grundgesamtheit auf. Angenommen, (X1 , Z1 , Y1 ), . . . , (X n , Z n , Y n ) seien unabhängig und identisch verteilt wie ein Zufallsvektor (X, Z, Y), wobei Annahme (M) aus Definition 8.2.1 erfüllt sei. Dann konvergieren alle Stichprobenmomente stochastisch gegen die betreffenden

726 | 12 Das lineare Regressionsmodell

theoretischen Momente (Satz 8.2.4). Infolgedessen konvergieren auch sämtliche Stichprobenvarianzen und Stichprobenkovarianzen gegen die korrespondierenden theoretischen Kennwerte. Dies ergibt sich unmittelbar aus dem multivariaten Stetigkeitssatz (Satz 8.3.3). Man beachte hierzu Beispiel 8.3.6. • Konsistente Schätzungen bei der partiellen Regression • Bilden wir aus den empirischen Kennwerten der partiellen Regression die stochastischen Varianten, so können wir diese als konsistente Schätzer der theoretischen Kennwerte auffassen. Wir können deshalb sinnvollerweise S̃ XY S̃ 2 − S̃ YZ S̃ XZ R XY − R YZ R XZ und ϱ̂ XY∙Z = β̂ Y∼X∙Z = 2 2Z S̃ X S̃ Z (1 − R2XZ ) √(1 − R2YZ )(1 − R2XZ ) definieren. Dann gilt: p β̂ Y∼X∙Z 󳨀󳨀→ β Y∼X∙Z

bzw.

p

ϱ̂ XY∙Z 󳨀󳨀→ ϱ XY∙Z .

(12.2.9) (12.2.10)

Der stochastische partielle Regressionskoeffizient β̂ Y∼X∙Z (partieller Stichprobenregressionskoeffizient) konvergiert stochastisch gegen den theoretischen partiellen Regressionskoeffizient. Analog liefert die stochastische partielle Korrelation ϱ̂ XY∙Z (partielle Stichprobenkorrelation) eine konsistente Schätzung für ihr theoretisches Gegenstück. • Asymptotische Verzerrung • Definieren wir weiter S̃ XY β̂ Y∼X = 2 S̃ X

und

β Y∼X =

σ XY , σ2X

erhalten wir aufgrund der Resultate (12.2.3) und (12.2.7): p σ XZ β̂ Y∼X 󳨀󳨀→ β Y∼X = β Y∼X∙Z + β Y∼Z∙X 2 . σX

(12.2.11)

Fasst man nun β Y∼X∙Z als den wahren (kausalen) Effekt von X auf Y auf, so ist der Steigungskoeffizient der „normalen“ Regression von Y auf X kein konsistenter Schätzer, da er im Allgemeinen gegen einen anderen Wert konvergiert. Der Term σ XZ (12.2.12) β Y∼Z∙X 2 σX misst dabei die Stärke der Abweichung, die als asymptotische Verzerrung bezeichnet wird. Überlegungen, die sich nun anhand von (12.2.12) durchführen lassen, in welcher Weise es hier zu Verfälschungen kommen kann, stehen in sehr engem Zusammenhang zu den in Abschnitt 5.3.3 formulierten Merkregeln, die im Zusammenhang systematischer Verzerrungen bei empirischen Abhängigkeiten diskutiert wurden. Eine

12.2 Einführung in das multiple lineare Regressionsmodell | 727

weitergehende Fundierung erhalten diese Regeln dann aus dem Zusammenhang von partieller und multipler Regression (Satz 12.2.3). • Erweiterung auf höherdimensionale Fälle • Es versteht sich von selbst, dass sich all diese Überlegungen auch auf den höherdimensionalen Fall übertragen lassen, wobei es zu einer Erweiterung bzw. Verkomplizierung der Formelausdrücke kommt.

12.2.2 Multiple lineare KQ-Regression Empirische multiple Regression • Motivation und Überblick • Die Erweiterung der einfachen linearen KQRegression zur multiplen Regression ist immer dann adäquat, wenn eine Variable von mehr als nur einer Einflussgröße maßgeblich (kausal) abhängt und diese Abhängigkeit linearer Natur ist. Wie sich später herausstellt, lassen sich die direkten (kausalen) Effekte der einzelnen Variablen dann unter bestimmten Modellannahmen konsistent schätzen. Der höhere Erklärungsgehalt eines multiplen Modells steigert zudem die Prognosegüte, sofern die Anzahl von Beobachtungen und die Anzahl von Modellvariablen (Modellparameter) in „vernünftigem“ Verhältnis zueinander stehen. Nicht zuletzt wird sich herausstellen, dass sich durch OVB verursachte systematische Verzerrungen beseitigen lassen, sofern die störenden (OVB verursachenden) Einflussvariablen ins multiple Modell mit aufgenommen werden. Hierbei ergibt sich eine direkte Äquivalenz zur partiellen Regression. • Definition • Die empirische multiple Regression lässt sich wie folgt zusammenfassen. Definition 12.2.1: Empirische multiple Regression Angenommen, es liegen (p + 1)-dimensionale metrische Beobachtungswerte (p ≥ 1) (x11 , x12 , . . . , x1p , y1 ), (x21 , x22 , . . . , x2p , y2 ), . . . , (x n1 , x n2 , . . . , x np , y n ) korrespondierend zu den Merkmalen X1 , X2 , . . . , X p und Y vor. Dabei sei die zu den X-Merkmalen korrespondierende (empirische) Kovarianzmatrix invertierbar. Dann bezeichnen wir die Lösungen zum Minimierungsproblem min

b0 ,b1 ,...,b p

̂ 0 , b1 , . . . , b p ) Q(b n

mit

̂ 0 , b1 , . . . , b p ) := ∑ (y i − b0 − b1 x i1 − b2 x i2 − ⋅ ⋅ ⋅ − b p x ip )2 Q(b i=1

728 | 12 Das lineare Regressionsmodell

als KQ-Regressionskoeffizienten und notieren diese mit ̂1, . . . , b ̂p. ̂0, b b Die Berechnungsmethode heißt multiple lineare KQ-Regression von Y auf X1 , . . . , X p . Im Falle p = 1 spricht man von einer einfachen linearen KQRegression. Die Funktion ̂0 + b ̂ 1 x1 + b ̂ 2 x2 + ⋅ ⋅ ⋅ + b ̂ p xp ̂y(x1 , x2 , . . . , x p ) = b definiert im Falle p ≥ 2 eine KQ-Regressionsebene, im Falle p = 1 eine KQ-Gerade. Die Werte ̂0 + b ̂ 1 x i1 + b ̂ 2 x i2 + ⋅ ⋅ ⋅ + b ̂ p x ip ̂y i = ̂y(x i1 , x2i , . . . , x ip ) = b

für i = 1, . . . , n

heißen gefittete Werte und sind als durch die Regressionsebene prognostizierte oder linear approximierte Werte interpretierbar. Die Abweichungen ̂ i = y i − ̂y i u

für i = 1, . . . , n

entsprechen den Prognose- bzw. Approximationsfehlern und werden als KQResiduen bezeichnet. Die Bezeichnung „KQ-Methode“ erscheint insofern gerechtfertigt, da nach wie vor quadratische Abweichungen minimiert werden. Abbildung 12.2.4 illustriert die multiple KQ-Regression für den Fall p = 2 für die Daten der Fallbeispiele 1 und 2 aus Abschnitt 12.1.4. Im linken Schaubild wurde korrespondierend zu Fallbeispiel 1 die Variable ST auf die Variablen S und ET regressiert. Im rechten Schaubild wurde korrespondierend zu Fallbeispiel 2 die Variable „Testergebnis“ auf die Variablen „Klassengröße“ und „Englisch-Lerner-Anteil“ regressiert. Die jeweils über den Regressionsebenen liegenden Beobachtungen wurden mit ausgefüllten Punkten dargestellt, die darunter liegenden Beobachtungen mit nicht ausgefüllten. Die Invertierbarkeit der Kovarianzmatrix gewährleistet die eindeutige Lösbarkeit des Minimierungsproblems. Für p = 1 (einfache lineare KQ-Regression) lauten die Lösungsformeln für die KQ-Regressionskoeffizienten ̂1x ̂0 = y − b b

und

̂ 1 = ̃s XY , b ̃s2X

sofern wir X = X1 setzen. Für größer werdendes p werden die Lösungsformeln zur Berechnung der Regressionskoeffizienten zunehmend komplexer. Mit Ausnahme der Regressionskonstanten ̂ 1 x1 − b ̂ 2 x2 − ⋅ ⋅ ⋅ − b ̂ p xp , ̂0 = y − b b sind diese im Allgemeinen dann nur noch in matrixalgebraischer Form kompakt darstellbar.

12.2 Einführung in das multiple lineare Regressionsmodell | 729

100 700 90

is Testergebn

680

80

660

620

60

2 S

3

200

4

100 80 60

Kl15 as 20 se ng röß 25 e

An te il

1

600 10

ET

50 0

600 500 400 300

40

E. −

ST

640

70

20 30 0

5

Abb. 12.2.4: KQ-Regressionsebenen im 3-Variablen-Fall

• Eigenschaften der empirischen multiplen KQ-Regression • Es gelten weiterhin alle Eigenschaften aus Satz 12.1.1, wobei Eigenschaft Nr. 1 zu ̂y(x1 , x2 , . . . , x p ) = y verallgemeinert wird. Eigenschaft Nr. 4 ist in dem Sinne erfüllt, dass die KQ-Residuen jeweils mit allen X-Merkmalen empirisch unkorreliert sind, d.h. es gilt: r UX ̂ 1 = 0,

r UX ̂ 2 = 0, . . . ,

r UX ̂ p = 0.

• Bestimmtheitsmaß und Standardfehler der Regression • Es gilt weiterhin die Streuungszerlegungsformel der Regression im Sinne von (12.1.14) und (12.1.15). Darauf basierend ist das Bestimmtheitsmaß für die multiple Regression definiert als R2 =

̃s2̂

Y ̃s2Y

=1−

̃s2̂ U

̃s2Y

.

(12.2.13)

Den Standardfehler der multiplen Regression (SER) definiert man üblicherweise als SER = √

n 1 ̂2 . ∑u n − p − 1 i=1 i

(12.2.14)

Man beachte, dass wir für p = 1 gerade (12.1.18) erhalten. Die Deutung der beiden Kennwerte bleibt dabei praktisch unverändert. • Zusammenhang zur empirischen partiellen Regression • Für die KQRegressionskoeffizienten der X-Merkmale besteht ein fundamentaler Zusammenhang zur empirischen partiellen Regression. Es gilt: ̂ j = b Y∼X ∙X b j −j

für j = 1, . . . , p.

(12.2.15)

730 | 12 Das lineare Regressionsmodell

Dabei bezeichnet b Y∼X j ∙X−j den partiellen Regressionskoeffizienten einer partiellen Regression von Y auf X j unter X1 , . . . , X p ohne X j . Speziell für p = 2 erhalten wir also beispielsweise ̂ 1 = b Y∼X ∙X b 1 2

und

̂ 2 = b Y∼X ∙X . b 2 1

Mit Formel (12.2.1) und Z = X2 ergibt dies konkret ̂ 1 = b Y∼X ∙X = b 1 2 ̂ 2 = b Y∼X ∙X = b 2 1

̃s X1 Y ̃s2X − ̃s YX2 ̃s X1 X2 2

bzw.

̃s2X ̃s2X (1 − r2X X ) 1 2 1 2 ̃s X2 Y ̃s2X − ̃s YX1 ̃s X1 X2 1 ̃s2X ̃s2X (1 − r2X X ) 1 2 1 2

.

(12.2.16) (12.2.17)

Die KQ-Regressionskoeffizienten einer multiplen Regression stimmen mit den Koeffizienten einer entsprechenden partiellen Regression überein. Dies bedeutet, dass man sich zur Berechnung eines partiellen Regressionskoeffizienten den im vorhergehenden Abschnitt beschriebenen 3-stufigen Berechnungsansatz ersparen kann. Mit einer multiplen Regression, die sich mit jeder gängigen statistischen Software berechnen lässt, erhält man diesen gleich in einem Schritt. Zusätzlich erhält man auch die zu allen anderen X-Merkmalen korrespondierenden partiellen Koeffizienten. Auch in Bezug auf die Deutung der KQ-Regressionskoeffizienten ist diese Äquivalenz überaus nützlich. Die Koeffizienten des multiplen Modells messen demnach die partiellen Effekte der X-Merkmale auf Y. Insbesondere vor dem Hintergrund systematischer Verzerrungen, die bei der Analyse von (kausalen) Abhängigkeiten auftreten können, erscheint die multiple Regression als Lösungsansatz nun interessant. So kann unter bestimmten Annahmen mit Aufnahme der störenden (die Verzerrung verursachenden) Merkmale in ein multiples Modell, die Verzerrung beseitigt werden. • Beispiel 12.2.1 fortgesetzt • Betrachten wir nochmals die Situation aus Beispiel 12.2.1. Führen wir hier nun eine multiple Regression von ST auf S und ET durch erhalten wir ̂ = −11.28 + 7.88 ⋅ S + 0.16 ⋅ ET, ST

R2 ≈ 0.95,

SER ≈ 4.17.

Der Koeffizient bezüglich S stimmt mit demjenigen aus der vorhergehenden partiellen Regression überein. Simultan erhalten wir auch den partiellen Koeffizienten bezüglich ET. Demnach führen also beispielsweise 10 Punkte mehr im Eingangstest (ET) bei gleicher Nachhilfestundenzahl (S) zu durchschnittlich 1.6 Punkten mehr im Sprachtest (ST). Man beachte, dass das Bestimmtheitsmaß von 0.62 auf 0.95 angestiegen ist. Gleichzeitig ging der Standardfehler der Regression von 10.06 auf 4.17 zurück. Dies

12.2 Einführung in das multiple lineare Regressionsmodell | 731

deutet darauf hin, dass sich unter gleichzeitiger Kenntnis von S und ET das Testergebnis bereits sehr gut vorhersagen lässt, zumindest im Falle der vorliegenden Daten. Was jetzt noch fehlt, ist eine Deutung dieser Kennwerte im Zuge inferenzstatistischer Methoden. Dazu bedarf es eines konkreten statistischen Modells, im Rahmen dessen das Zustandekommen der Daten beschrieben wird.

Theoretische multiple Regression • Definition • In völliger Entsprechung zur empirischen multiplen Regression kann ein theoretisches Pendant definiert werden. Definition 12.2.2: Theoretische multiple Regression Gegeben seien (p + 1) Zufallsvariablen X1 , X2 , . . . , X p und Y mit p ≥ 1, welche Annahme (M) aus Definition 8.2.1 genügen. Außerdem sei die (theoretische) Kovarianzmatrix von (X1 , . . . , X p )T invertierbar. Dann bezeichnen wir die Lösungen zum Minimierungsproblem min

β0 ,β1 ,...,β p

̂ 0 , β1 , . . . , β p ) Q(β

mit

̂ 0 , β1 , . . . , β p ) := E[(Y i − β0 − β1 X1 − β2 X2 − ⋅ ⋅ ⋅ − β p X p )2 ] Q(β als theoretische KQ-Regressionskoeffizienten und notieren diese mit β̂ 0 , β̂ 1 , . . . , β̂ p . Die Funktion ̂y(x1 , x2 , . . . , x p ) = β̂ 0 + β̂ 1 x1 + ⋅ ⋅ ⋅ + β̂ p x p definiert im Falle p ≥ 2 eine theoretische KQ-Regressionsebene, im Falle p = 1 eine theoretische KQ-Gerade. Die stochastische Statistik ̂ Y = β̂ 0 + β̂ 1 X1 + ⋅ ⋅ ⋅ + β̂ p X p heißt bester linearer MSE Prädiktor von Y auf Basis von X1 , . . . , X p . Die Invertierbarkeit der Kovarianzmatrix gewährleistet wiederum die eindeutige Lösbarkeit des Minimierungsproblems. Für p = 1 erhält man die bekannten Formeln der einfachen linearen KQ-Regression. Wie im empirischen Fall werden die Lösungsformeln für wachsendes p zunehmend komplex. Mit Ausnahme der Regressionskonstanten β̂ 0 = E(Y) − β̂ 1 E(X1 ) − β̂ 2 E(X2 ) − ⋅ ⋅ ⋅ − β̂ p E(X p ), sind diese dann nur noch in matrixalgebraischer Form kompakt darstellbar.

(12.2.18)

732 | 12 Das lineare Regressionsmodell

• Eigenschaften der theoretischen multiplen KQ-Regression • Es gelten weiterhin alle Eigenschaften (12.1.38) bis (12.1.44) mit etwaiger Modifikation für den multiplen Fall wie etwa Y , X1 ) = ⋅ ⋅ ⋅ = Cov(Y − ̂ Y , X p ) = 0. Cov(Y − ̂ Insbesondere gilt die theoretische Streuungszerlegungsformel der Regression Var(Y) = Var(̂ Y) + Var(Y − ̂ Y).

(12.2.19)

• Theoretisches Bestimmtheitsmaß und theoretischer Standardfehler der Regression • Basierend auf (12.2.19) ist das theoretische Bestimmtheitsmaß definiert als R2 =

Y) Y) Var(̂ Var(Y − ̂ =1− . Var(Y) Var(Y)

(12.2.20)

Den theoretischen Standardfehler der Regression könnte man über Standardabweichung des Prognosefehlers Y − ̂ Y definieren, also √ Var(Y − ̂ Y) = √ Var(Y)(1 − R2 ).

(12.2.21)

• Zusammenhang zur theoretischen partiellen Regression • Für die theoretischen KQ-Regressionskoeffizienten der X-Variablen kann man zeigen, dass β̂ j = β Y∼X j ∙X−j

für

j = 1, . . . , p

(12.2.22)

gilt. Dabei bezeichnet β Y∼X j ∙X−j den partiellen Regressionskoeffizienten einer theoretischen partiellen Regression von Y auf X j unter X1 , . . . , X p ohne X j . Speziell für p = 2 erhalten wir β̂ 1 = β Y∼X1 ∙X2

und

β̂ 2 = β Y∼X2 ∙X1 .

Mit Formel (12.2.5) und Z = X2 bzw. Z = X1 ergibt dies konkret β̂ 1 = β Y∼X1 ∙X2 = β̂ 2 = β Y∼X2 ∙X1 =

σ X1 Y σ2X2 − σ YX2 σ X1 X2 σ2X1 σ2X2 (1 − ϱ2X1 X2 ) σ X2 Y σ2X1 − σ YX1 σ X1 X2 σ2X1 σ2X2 (1 − ϱ2X1 X2 )

bzw.

(12.2.23)

.

(12.2.24)

Die KQ-Regressionskoeffizienten einer theoretischen multiplen Regression stimmen mit den Koeffizienten einer entsprechenden theoretischen partiellen Regression überein.

12.2 Einführung in das multiple lineare Regressionsmodell | 733

Verbindung von Empirie und Theorie Da nun die KQ-Regressionskoeffizienten der empirischen und der theoretischen multiplen Regression mit den Koeffizienten der empirischen bzw. theoretischen partiellen Regressionen übereinstimmen, können die im vorhergehenden Abschnitt hergeleiteten Konsistenzeigenschaften direkt übertragen werden. Demnach können im Zusammenhang von Stichproben die aus der multiplen Regression gewonnenen empirischen Regressionskoeffizienten als Schätzer der korrespondierenden theoretischen Größen aufgefasst werden. Unter bestimmten Annahmen wie etwa unter einem u.i.v.-Schema lassen sich hierbei entsprechende Konsistenzeigenschaften begründen.

Statistische Modelle und Inferenz • Hintergrund • Die vorhergehenden Ausführungen zur partiellen und multiplen Regression helfen ein Stück weit, die Mechanik empirischer und theoretischer Abhängigkeiten besser zu verstehen. Insbesondere wurde klar, wie im Mehrvariablenkontext paarweise Abhängigkeiten durch störende Variablen verzerrt werden können und wie sich dies möglicherweise verhindern lässt. Trotz dieser Erkenntnisse bleibt jedoch ein grundsätzliches Problem erst einmal bestehen: Wie lässt sich beurteilen, welche Korrelationen und welche Koeffizienten nun die richtigen sind? Genügt nun eine einfache Regression von Y auf X oder muss es eine multiple Regression von Y auf X und Z sein? Erscheint es grundsätzlich adäquat einen Effekt mit linearer KQ-Regression zu schätzen oder sollte man mit einer anderen Methode ansetzen? Wie lässt sich hier schlüssig argumentieren? Die bisherigen Ausführungen waren in dem Sinne „modellfrei“, dass ein zwischen den Variablen bestehender Wirkungszusammenhang nicht näher beschrieben (modelliert) wurde. Es wurde lediglich unterstellt, dass zwischen den Variablen empirische bzw. stochastische Abhängigkeiten bestehen, die sich in Form messbarer Korrelationen äußern. Die Frage, ob diese Abhängigkeiten nun kausal sind oder nicht oder ob diese möglicherweise nur zufällig sind oder nicht, wurde nicht näher diskutiert. Mit dem multiplen linearen Regressionsmodell werden wir im Folgenden nun ein statistisches Modell im engeren Sinne einführen. Darin wird der Wirkungszusammenhang zwischen einer abhängigen Variablen und einer oder mehreren Einflussvariablen modellmäßig beschrieben. Dies führt in der Folge dann zu einer schlüssigen, d.h. modelltheoretisch fundierten, Argumentation, wie sich unter bestimmten Annahmen kausale Effekte schätzen lassen. Gleichzeitig kann hierbei auch das Instrumentarium der induktiven Statistik genutzt werden, sodass zwischen Zufall und System unterschieden werden kann. Aufbau und Inhalt der nachfolgenden Punkte ergeben sich dabei völlig analog zu den Ausführungen zum einfachen Regressionsmodell in Abschnitt 12.1. Stellenweise eher skizzenhafte und verkürzte Darstellungen mögen deshalb genügen.

734 | 12 Das lineare Regressionsmodell

• Statistisches Grundmodell • Das statistische Grundmodell ist wie folgt definiert. Definition 12.2.3: Multiples lineares Regressionsmodell Gegeben sei eine Stichprobe aus n beobachtbaren Zufallsvektoren (X11 , X12 , . . . , X1p , Y1 ), . . . , (X n1 , X n2 , . . . , X np , Y n ) mit p ≥ 1 und n nicht beobachtbaren Zufallsvariablen U1 , . . . , U n . Gilt dann (A0M) Y i = β0 + β1 X i1 + ⋅ ⋅ ⋅ + β p X ip + U i für i = 1, . . . , n, so bezeichnet man (A0M) als multiples lineares Regressionsmodell. Die Parameter β0 , β1 , . . . , β p werden als theoretische Regressionskoeffizienten und die Variablen U1 , . . . , U n als stochastische Fehler oder stochastische Residuen bezeichnet. Die Funktion y(x) = β0 + β1 x1 + ⋅ ⋅ ⋅ + β p x p definiert die theoretische Regressionsebene, wobei der Definitionsbereich von x1 , . . . , x p fallabhängig einzuschränken ist. • Interpretation • Allgemein wird mit Y i die i-te Beobachtung einer abhängigen (kausal beeinflussten) Variablen erklärt, während X ij die i-te Beobachtung der j-ten Einflussvariablen modelliert. Wie im empirischen Fall können die Variablen auch als Regressand bzw. als Regressoren bezeichnet werden. Den Regressoren X i1 , . . . , X ip wird unterstellt, dass sie jeweils einen mehr oder weniger direkten kausalen Effekt auf Y i ausüben (vgl. Abschnitt 5.3.3). Im Fehler U i stecken dann alle weiteren (kausalen) nicht beobachtbaren oder zumindest nicht beobachteten Einflüsse auf Y i . Man beachte, dass die Abhängigkeit insofern „linear“ ist, dass die abhängige Variable mit der j-ten Einflussvariablen linear wächst oder fällt, falls alle anderen Einflussvariablen einschließlich des Fehlers U konstant bleiben. Eine Veränderung der j-ten Einflussvariablen um ∆ x Einheiten führt dann stets zu einer Veränderung der abhängigen Variablen um β j ⋅ ∆ x Einheiten. Sofern man überhaupt gewillt ist, den problematischen Begriff des kausalen Effekts zu verwenden, könnte man die Regressionskoeffizienten auch als direkte kausale Effekte der jeweiligen Einflussvariablen interpretieren. Dies macht allerdings auch nur dann Sinn, falls von diesen auch „relativ direkte“ kausale Effekte ausgehen. Ansonsten wäre die etwas neutralere Bezeichnung mit „direkten Effekten“ angebrachter. • Ensembles von Modellannahmen • Die für das einfache Regressionsmodell aufgestellten Ensembles von Annahmen für die Modelle KN, KS, BH und UHV lassen sich ohne größeren Umstände auf das multiple Modell erweitern. Wir beschränken uns auf die Widergabe der multiplen Version von Modell BH.

12.2 Einführung in das multiple lineare Regressionsmodell | 735

Definition 12.2.4: Modell BH als multiples Regressionsmodell Wir sprechen von einem multiplen linearen Regressionsmodell mit bedingt heteroskedastischem Fehler, falls gilt: (A0M) Y i = β0 + β1 X i1 + ⋅ ⋅ ⋅ + β p X ip + U i für i = 1, . . . , n, (A1M) E(U i |X i1 = x i1 , . . . , X ip = x ip ) = 0 für i = 1, . . . , n, (A2M) (X11 , X12 , . . . , X1p , Y1 ), . . . , (X n1 , X n2 , . . . , X np , Y n ) sind u.i.v., (A3M) alle Zufallsvariablen genügen Annahme (M) aus Definition 8.2.1 und besitzen positive Varianzen und (A4M) die Kovarianzmatrix von (X i1 , X i2 , . . . , X ip )T ist invertierbar.

Neu hinzugekommen ist im Grunde nur die letzte Annahme (A4M), die sicherstellt, dass die Regressoren untereinander nicht perfekt linear abhängig sind. Dies würde zur Nichteindeutigkeit des KQ-Berechnungskalküls führen. Infolgedessen wären die üblichen Inferenzverfahren dann nicht mehr anwendbar. In Modell KN wird diese Annahme entsprechend über die empirische Kovarianzmatrix der Regressorwerte formuliert. In Modell UHV mit heterogen verteilten Zufallsvektoren kann man unter Einschluss bestimmter Konvergenzannahmen die Invertierbarkeit einer „langfristig durchschnittlichen Kovarianzmatrix“ voraussetzen. Weiterhin sollte klar sein, dass auch im multiplen Fall Modell KS ein Spezialfall von Modell BH und Modell KN ein Spezialfall von Modell UHV ist. • Keine Multikollinearität • Perfekte lineare Abhängigkeit der Regressoren wird in der Regressionstheorie auch als Multikollinearität bezeichnet. • Modellimmanente Eigenschaften • Die für das einfache Regressionsmodell ableitbaren modellimmanenten Eigenschaften gemäß Tabelle 12.1.1 können ohne größere Umstände auf das multiple Modell übertragen werden. Insbesondere gilt dann beispielsweise in allen Modellvarianten die Eigenschaft Cov(X ij , U i ) = E(X ij U i ) = 0

(12.2.25)

für i = 1, . . . , n und j = 1, . . . , p. Der Fehler ist also jeweils mit allen Regressoren unkorreliert. Auch die Eigenschaften (16) und (17) von Tabelle 12.1.1 lassen sich verallgemeinern. Man beachte hierzu den nächsten Punkt. • Theoretische Regressionsebene = theoretische KQ-Regressionsebene • Betrachten wir für einen Moment die Modelle BH und KS mit p = 2 Regressoren X1 und X2 , d.h. Y = β0 + β1 X1 + β2 X2 + U.

736 | 12 Das lineare Regressionsmodell

Auf eine Indizierung mit i können wir im Rahmen eines u.i.v.-Schemas ohne Beschränkung der Allgemeinheit verzichten. Berechnen wir Cov(X1 , Y) und Cov(X2 , Y), so erhalten wir mit den Rechenregeln für die Kovarianz und Eigenschaft (12.2.25): Cov(X1 , β0 + β1 X1 + β2 X2 + U) = β1 Var(X1 ) + β2 Cov(X1 , X2 )

bzw.

Cov(X2 , β0 + β1 X1 + β2 X2 + U) = β1 Cov(X1 , X2 ) + β2 Var(X2 ). Mit der üblichen Symbolik erhalten wir daraus das in β1 und β2 lineare Gleichungssystem (i) σ X1 Y = β1 σ2X1 + β2 σ X1 X2 , (ii) σ X2 Y = β1 σ X1 X2 + β2 σ2X2 . Als Lösungen ergeben sich daraus β1 = β2 =

σ X1 Y σ2X2 − σ YX2 σ X1 X2

und

(12.2.26)

.

(12.2.27)

σ2X1 σ2X2 (1 − ϱ2X1 X2 ) σ X2 Y σ2X1 − σ YX1 σ X1 X2 σ2X1 σ2X2 (1 − ϱ2X1 X2 )

Die Resultate (12.2.26) und (12.2.27) stellen die für p = 2 erweiterte Eigenschaft (16) aus Tabelle 12.1.1 in Bezug auf β1 und β2 dar. Wie sich einfach zeigen lässt, gilt dann für die Regressionskonstante: β 0 = μ Y − β 1 μ X1 − β 2 μ X2 .

(12.2.28)

Ein Abgleich der Resultate (12.2.26) bis (12.2.28) mit (12.2.18), (12.2.23) und (12.2.24) legt vollständige Übereinstimmung offen. Dies lässt sich entsprechend für p > 2 verallgemeinern. Insgesamt lässt sich feststellen, dass die in den Modellen BH und KS enthaltene theoretische Regressionsebene der theoretischen KQ-Regressionsebene einer theoretischen multiplen Regression von Y auf X1 , . . . , X p entspricht. Mit U = Y − β0 − β1 X1 − ⋅ ⋅ ⋅ − β p X p erhalten wir zusammen mit (12.2.20) schließlich noch Var(U) = Var(Y − β0 − β1 X1 − ⋅ ⋅ ⋅ − β p X p ) = Var(Y − β̂ 0 − β̂ 1 X1 − ⋅ ⋅ ⋅ − β̂ p X p ) Y) = Var(Y)(1 − R2 ). = Var(Y − ̂ Fassen wir die Erkenntnisse zusammen: Satz 12.2.1: Theoretische Regressionsebene = KQ-Regressionsebene Die in den multiplen Modellen KS und BH enthaltene theoretische Regressionsebene ist die KQ-Regressionsebene einer theoretischen Regression von Y auf X1 , . . . , X p .

12.2 Einführung in das multiple lineare Regressionsmodell | 737

Dabei gilt: β 0 = μ Y − β 1 μ X1 − ⋅ ⋅ ⋅ − β p μ X p , β j = β Y∼X j ∙X−j σ2U

=

σ2Y (1

für j = 1, . . . , p

(12.2.29) und

(12.2.30)

2

− R ).

(12.2.31)

Da in den Modellen KN und UHV die Stichprobenvariablen heterogen verteilt sind, sind die in (12.2.29)–(12.2.31) verwendeten theoretischen Kennwerte ohne Weiteres nicht definiert. Somit kann ein entsprechendes Resultat für diese Modelle zunächst nicht formuliert werden. Wie im einfachen Regressionsmodell lässt sich dies jedoch mit Hinzunahme bestimmter Konvergenzannahmen bewerkstelligen. Die Koeffizienten β1 , . . . , β p lassen sich als Koeffizienten einer partiellen Regression interpretieren (was natürlich auch Sinn macht). Damit lässt sich im Rahmen eines multiplen Regressionsmodells auch schlüssig argumentieren, wann ein partieller Koeffizient zur Schätzung eines direkten kausalen Effekts korrekt ist und wann nicht. Man beachte hierzu den späteren Punkt zur OVB-Problematik. • Schätzen und Testen • Zur Schätzung der Koeffizienten β0 , β1 , . . . , β p können die aus der empirischen multiplen Regression gewonnenen Formeln direkt in stochastische Varianten transferiert und dann als KQ-Schätzer interpretiert werden. In den Modellen BH und KS ergeben sich daraus aufgrund des u.i.v.-Schemas unmittelbar konsistente Schätzungen. Für p = 2 etwa gilt: p β̂ 0 = Y − β̂ 1 X 1 − β̂ 2 X 2 󳨀󳨀→ β0 ,

β̂ 1 = β̂ 2 =

S̃ X1 Y S̃ 2X2 − S̃ YX2 S̃ X1 X2 S̃ 2X1 S̃ 2X2 (1 − R2X1 X2 ) S̃ X2 Y S̃ 2X1 − S̃ YX1 S̃ X1 X2 S̃ 2X1 S̃ 2X2 (1 − R2X1 X2 )

(12.2.32)

󳨀󳨀→

σ X1 Y σ2X2 − σ YX2 σ X1 X2 σ2X1 σ2X2 (1 − ϱ2X1 X2 )

p

σ X2 Y σ2X1 − σ YX1 σ X1 X2

p

󳨀󳨀→

σ2X1 σ2X2 (1 − ϱ2X1 X2 )

= β1 ,

(12.2.33)

= β2 .

(12.2.34)

Unter den Modellen KN und UHV wären hierfür wieder zusätzliche Konvergenzannahmen vorzunehmen. Die Inferenzmethoden lassen sich dann in völlig analoger Weise entwickeln wie beim einfachen Regressionsmodell. Die Vorgehensweise lässt sich dabei in drei Schritte aufteilen: 1. Herleitung der Verteilung der KQ-Schätzer, 2. Schätzung der Varianzen (Standardfehler) der KQ-Schätzer, 3. Herleitung der Verteilung der maßgeblichen Inferenzstatistiken.

738 | 12 Das lineare Regressionsmodell

Satz 12.2.2: Inferenz im multiplen Regressionsmodell Gegeben sei ein multiples lineares Regressionsmodell gemäß Definition 12.2.3. Dann gilt für j = 0, 1, . . . , p und n ≥ p + 2: 1. ein (1 − α)-Konfidenzintervall für β j ist (i) in den Modellen KN und KS gegeben durch ̃ β̂ , β̂ j + t n−p−1,1−α/2 σ ̃ β̂ ], [β̂ j − t n−p−1,1−α/2 σ j j (ii) in Modell BH für großes n gegeben durch ̂ β̂ , β̂ j + z1−α/2 σ ̂ β̂ ], [β̂ j − z1−α/2 σ j j ̃ 2̂ bzw. σ ̂ 2̂ nur-homoskedasizitäts-konsistente Varianzschätzer wobei σ βj

βj

bzw. heteroskedastizitäts-robuste Varianzschätzer bezeichnen, 2. die Entscheidungsregeln der üblichen Tests basieren (i) in den Modellen KN und KS auf ̂ ̃ β = β j − β j,0 ∼ t(n − p − 1) T j ̃ β̂ σ

für β j = β j,0 ,

j

(ii) in Modell BH für großes n auf ̂ ̂ β = β j − β j,0 ∼a N(0, 1) T j ̂ β̂ σ j

für β j = β j,0 ,

3. mit entsprechenden zusätzlichen Konvergenzannahmen sind die Konfidenzintervalle und Tests für Modell BH auch für Modell UHV gültig.

Die konkreten Schätzformeln sind im Allgemeinen nur noch in matrixalgebraischer Form kompakt darstellbar. In der Praxis wird man die Berechnungen dann ohnehin rechnergestützt mithilfe einer geeigneten Software wie etwa R durchführen. In Bezug auf die Verteilungen ergeben sich keine wesentlichen Änderungen. Die Anzahl der Freiheitsgrade bei der Verteilung verringert sich jedoch mit jedem zusätzlichen Regressor. • Adäquatheit von Modellannahmen und OVB • Zur Prüfung der Adäquatheit der Modellannahmen in den verschiedenen Modellvarianten beachte man die Ausführungen und Fallbeispiele in Abschnitt 12.1.4. Wie auch im einfachen Modell stellt E(U i |X i1 = x i1 , . . . , X ip = x ip ) = 0 in gewisser Weise „die wichtigste“ Annahme dar und lässt sich anhand folgender Leitfrage prüfen:

12.2 Einführung in das multiple lineare Regressionsmodell | 739

Leitfrage für das OVB-Problem Gibt es neben den Regressoren X1 , . . . , X p noch eine weitere maßgebliche Einflussgröße auf Y, die mit mindestens einem Regressor korreliert ist? Kann die Frage bejaht werden, so ist Annahme (A1M) verletzt, was dann im Allgemeinen zu einer asymptotischen Verzerrung der Schätzung führt. Diese wird (auf Englisch) auch als Omitted Variable Bias, kurz OVB, bezeichnet, da sie durch Nichtberücksichtigung von Einflussvariablen verursacht wird. • OVB im 3-Variablen-Fall • Im Falle von einer abhängigen Variablen und zwei Einflussvariablen lässt sich die Mechanik des OVB-Problem relativ gut nachvollziehen. Angenommen, es liege Modell KS oder BH mit der Grundgleichung Y = β0 + β X ⋅ X + β Z ⋅ Z + V

(12.2.35)

vor. Auf die Indizierung mit i können wir aufgrund des u.i.v.-Schemas wieder verzichten. Außerdem verwenden wir eine besser identifizierbare Notation. Bei Erfüllung der Modellannahmen würde man dann etwa den Koeffizienten β X als den wahren direkten (kausalen) Effekt von X auf Y interpretieren. Analoges würde für β Z gelten. Gemäß den vorhergehenden Ausführungen und Notationen können wir das Modell dann auch schreiben als Y = β0 + β Y∼X∙Z X + β Y∼Z∙X Z + V mit β Y∼X∙Z = β X und β Y∼Z∙X = β Z . Sofern man nun statt (12.2.35) das einfache Modell Y = β0 + β X ⋅ X + U

mit

U = βZ ⋅ Z + V

(12.2.36)

schätzt und somit Z nicht berücksichtigt, folgt Cov(X, U) = Cov(X, β Z Z + V) = β Z Cov(X, Z).

(12.2.37)

Hierzu beachte man, dass X mit V wegen der Gültigkeit von (12.2.35) modellimmanent unkorreliert ist. Hieran erkannt man, dass die Annahme E(U|X) = 0 in (12.2.36) verletzt ist, sofern die OVB-Leitfrage im Sinne von β Z ≠ 0 und Cov(X, Z) ≠ 0 bejaht werden kann. Als Schätzer für β X wird in (12.2.36) dann fälschlicherweise der Schätzer S̃ XY β̂ Y∼X = 2 S̃ X

verwendet. Für diesen gilt dann aber gemäß (12.2.11): p σ XZ σ XZ β̂ Y∼X 󳨀󳨀→ β Y∼X∙Z + β Y∼Z∙X 2 = β X + β Z 2 . σX σX

(12.2.38)

Damit wird der wahre Wert β X asymptotisch verzerrt geschätzt, falls wie zuvor β Z ≠ 0 und

σ XZ ≠ 0.

740 | 12 Das lineare Regressionsmodell Somit erhält die OVB-Leitfrage für den Fall p = 2 eine theoretische Fundierung. Satz 12.2.3: OVB im 3-Variablen-Fall Angenommen, Modell KS oder BH mit der Grundgleichung Y = β0 + β X ⋅ X + β Z ⋅ Z + V sei in einer bestimmten Situation adäquat. Schätzt man Y = β0 + β X ⋅ X + U mit den gewöhnlichen KQ-Schätzern, so beträgt der OVB für β X σ XZ OVB X = β Z 2 , wobei β Z σ XZ = Cov(X, U). σX

(12.2.39)

• Direkte und indirekte Effekte und Merkregeln • Der OVB lässt sich umschreiben in σ XZ OVB X = β Z β Z∼X , wobei β Z∼X = 2 σX den Steigungskoeffizienten einer theoretischen Regression von Z auf X bezeichnet. Mit dieser Betrachtung lässt sich zwischen direkten und indirekten (kausalen) Effekten unterscheiden. Angenommen, X und Z üben jeweils einen direkten (kausalen) Effekt auf Y aus. Diese Effekte werden mit den Koeffizienten β X und β Z modelliert. Außerdem bestehe zwischen X auf Z eine (kausale) Abhängigkeit, die über β Z∼X modelliert wird (Abb. 12.2.5). Ändert man nun X um ∆x Einheiten, so ändert sich Z um β Z∼X ∆x Einheiten. Diese allein durch X bewirkte Änderung in Z führt wiederum zu einer Änderung in Y um β Z β Z∼X ∆x Einheiten. Es erscheint nun naheliegend den OVB von X als indirekten (kausalen) Effekt von X über Z auf Y zu interpretieren. Aufgrund von (12.2.7) gilt: β Y∼X = β X + β Z β Z∼X .

(12.2.40)

Bezeichnen wir den im fehlspezifizierten Modell geschätzten Effekt β Y∼X als (kausalen) Gesamteffekt oder totalen (kausalen) Effekt von X auf Y, so erhalten wir im Endeffekt die einfache Formel (vgl. hierzu etwa Urban und Mayerl [2011, Abschnitt 5.3]). Gesamteffekt = Direkter Effekt + Indirekter Effekt.

12.2 Einführung in das multiple lineare Regressionsmodell | 741

Dabei stellt sich heraus, dass die in Abschnitt 5.3.3 aufgestellten Merkregeln zu systematischen Verzerrungen empirischer Abhängigkeiten eine vollständige theoretische Fundierung erhalten. Wie bei der gewöhnlichen Korrelation gilt auch im Falle der partiellen Korrelation: Korrelation impliziert keine Kausalität! Insofern bedarf es stets einer kritischen Prüfung, ob ein bestimmter Effekt im Zusammenhang der Regression mit dem Zusatz „kausal“ versehen werden soll oder nicht. Y βX = βY ~X Z

βZ = βY ~Z X



X



βZ ~X

Z

Abb. 12.2.5: Direkte und indirekte Effekte

• Streuungszerlegung und General-F-Test • Im Rahmen des multiplen Regressionsmodells lassen sich auch Hypothesen, in denen mehrere Koeffizienten involviert sind, testen. Maßgeblich ist die sehr flexibel anwendbare Klasse der sog. F-Tests, die auf der F-Verteilung als Testverteilung beruhen. Wir möchten in diesem Zusammenhang lediglich kurz auf den F-Test für das spezielle Testproblem H0 : β1 = ⋅ ⋅ ⋅ = β p = 0

vs.

H1 : β j ≠ 0 für mindestens ein j ∈ {1, ..., p}

eingehen. Den zu diesem Testproblem korrespondierenden Test könnte man als General-F-Test (im Englischen wird er häufig Overall-F-Test genannt) bezeichnen, da er in gewisser Weise die Gültigkeit des gesamten Modells in Frage stellt. Als Teststatistik wird hierfür F=

R2 n−p−1 ⋅ p 1 − R2

(12.2.41)

verwendet, wobei R2 das Bestimmtheitsmaß ist. Vom Vorfaktor abgesehen, in den die Anzahl von Beobachtungen und die Anzahl der Regressoren eingehen, wird der erklärte Streuungsanteil ins Verhältnis zum nicht erklärten Streuungsanteil gesetzt. Mit (12.1.17) lässt sich (12.2.41) auch umschreiben in F=

̃2 n − p − 1 S Ŷ ⋅ 2. p S̃ ̂

(12.2.42)

U

In dieser Betrachtung wird die erklärte Streuung (systematische Streuung) durch die Residualstreuung (zufällige Streuung) dividiert. Es lässt sich zeigen, dass F in den Modellen KN und KS unter H0 einer F(p, n − p − 1)-Verteilung genügt (vgl. etwa Rencher [2012, Kap. 8]). Hierbei handelt es sich um eine stetige Verteilung mit positiver Trägermenge, auf die wir jetzt nicht näher eingehen möchten. Es erscheint jedenfalls

742 | 12 Das lineare Regressionsmodell

sinnvoll, H0 nur für große Werte von F zu verwerfen, da ein hohes Bestimmtheitsmaß zu einem hohen F-Wert führt und in inhaltlichem Widerspruch zu H0 steht. Speziell für p = 1 erhält man R2 . (12.2.43) 1 − R2 Dies ist gemäß (12.1.91) aber gerade die quadrierte Teststatistik des t-Tests zu H0 : β1 = 0, d.h. F = (n − 2) ⋅

̃ β )2 . F = (T 1

(12.2.44)

Tatsächlich lässt sich der zweiseitige t-Test für H0 : β1 = 0 äquivalent auch als F-Test durchführen. Da für eine t(n − 2)-verteilte Zufallsvariable X das Verteilungsresultat X 2 ∼ F(1, n − 2)

(12.2.45)

gilt, sind die Testentscheidungen beider Tests stets identisch. In den Modellen BH und UHV lässt sich der Test in der beschriebenen Form für großes n zumindest approximativ durchführen

12.2.3 Fallbeispiele Fallbeispiel 2 fortgesetzt: Determinanten des Lernerfolgs Im Hinblick auf die in Abschnitt 12.1.4 bereits geführte Diskussion um mögliche Verzerrungen bei der Schätzung des Effekts der Klassengröße, kann nun alternativ ein multiples Regressionsmodell geschätzt werden. Tabelle 12.2.2 fasst die Schätzergebnisse für 4 verschiedene Ansätze im Rahmen von Modell BH zusammen. Die erste Spalte gibt das Ergebnis der einfachen Regression wider. Tab. 12.2.2: Geschätzte Varianten für Modell BH Modell Regressor Konstante Klassengröße

1 698.93 (10.34) −2.28 (0.52)

E.-Anteil

2 686.03 (8.70) −1.10 (0.43) −0.65 (0.03)

B.-Anteil R2 SER

0.0512 18.58

0.4264 14.46

3 702.91 (5.50) −1.12 (0.27)

−0.60 (0.02) 0.7668 9.22

4 700.15 (5.54) −1.00 (0.27) −0.12 (0.03) −0.55 (0.02) 0.7745 9.08

12.2 Einführung in das multiple lineare Regressionsmodell | 743

Testergebnis

Klassengröße

E.−Lerner−Anteil 700

700

680

680

680

660

660

660

640

640

640

620

620

620

14 16 18 20 22 24 26

0

20

Totaler Effekt

Testergebnis

Begünstigten−Anteil

700

40

60

80

0

Totaler Effekt

30

40

20

20

20

10

10

0

0

0

−10

−10

−20

−20

−20

0

2

4

Partieller Effekt

6

60

80 100

−40

−30 −4 −2

40

Totaler Effekt

30

−30

20

−20

0

20

Partieller Effekt

40

−40

0

20

40

Partieller Effekt

Abb. 12.2.6: Totale und direkte Effekte der Einflussvariablen

Ausgehend von Modell 1 steigt der Erklärungsgehalt im Sinne des Bestimmtheitsmaßes mit Aufnahme des Englisch-Lerner-Anteils oder des Begünstigten-Anteils (Modelle 2 und 3) sprunghaft an. Absehbar ist dies bereits an den deutlich höheren Korrelationen dieser Variablen mit dem Testergebnis. Der direkte Effekt der Klassengröße wird um die Hälfte schwächer eingestuft als im einfachen Modell. Die Richtung der Änderung ist dabei konkordant mit den aus (12.2.39) ableitbaren Merkregeln für systematische Verzerrungen. Da die Klassengröße jeweils positiv mit den beiden Anteilen korreliert ist und diese wiederum negativ mit dem Testergebnis korrelieren, führt dies zu einer negativen Verzerrung im einfachen Modell. Nimmt man sowohl den Englisch-Lerner- als auch den Begünstigten Anteil ins Modell auf, steigt der Erklärungsgehalt nur noch geringfügig an (< 0.01). Auch der Koeffizient für die Klassengröße verändert sich nur wenig. Jedoch werden die Effekte des Englisch-Lerner-Anteils und des Begünstigten-Anteils jeweils schwächer eingeschätzt. Insbesondere der Effekt des Englisch-Lerner-Anteils wird mit −0.12 deutlich schwächer eingestuft als in Modell 2 mit −0.65. Im Grunde lässt sich dies als OVBProblematik im 4-Variablen-Fall deuten. Wenngleich wir hierfür über keine theoretisch fundierten Merkregeln verfügen, erscheint das Ergebnis naheliegend. Da beide soziodemographischen Variablen einen negativen Effekt auf das Testergebnis ausüben und positiv miteinander korreliert sind, werden ihre direkten Effekte in Modell 4 jeweils schwächer ausgewiesen als bei den einfachen Regressionen. In gewisser Weise wird zwischen Sprachproblemen und sozialen Hintergrundproblemen stärker diffe-

744 | 12 Das lineare Regressionsmodell

renziert. Da beide Variablen gleich skaliert sind (in Prozentpunkten gemessen), lassen sich die Schätzungen beider Koeffizienten auch direkt vergleichen. Demnach ist der Effekt des Begünstigten-Anteils mit −0.55 deutlich stärker als der Effekt des EnglischLerner-Anteils mit −0.12. Zudem sehen wir, dass der Erklärungsgehalt von Modell 3 zu Modell 4 praktisch nicht mehr ansteigt. In Modell 4 wird der Effekt der Klassengröße nur noch mit −1 eingeschätzt. Das 95%-Konfidenzintervall für den korrespondierenden Koeffizienten lautet [−1 − 1.96 ⋅ 0.27, −1 + 1.96 ⋅ 0.27] ≈ [−1.53, −0.47]. Dies bedeutet, dass jeder Schüler mehr in einer Klasse bei Konstanz aller anderen Variablen im Durchschnitt zu einer Verschlechterung des Testergebnisses um 1 Punkt führt. Geht man beispielsweise von einer Klassengröße von 20 Schülern aus, so würde dies einer Vergrößerung der Klasse um 5% entsprechen. Dies bedeutet jedoch, dass 1 Schüler mehr aus sozial benachteiligtem Milieu (im Sinne des Begünstigten-Anteils) zu einer Verschlechterung um −5 ⋅ 0.55 = −2.75 führt. Ein Schüler mehr mit Sprachproblemen würde hingegen zu einer Verschlechterung von nur −0.6 beitragen. Abbildung 12.2.6 stellt die Schätzung der totalen Effekte der einzelnen Variablen den Schätzungen der direkten Effekte in Modell 4 gegenüber. So zeigt die obere Reihe die jeweiligen einfachen Regressionen des Testergebnisses auf die Einflussvariablen. Die untere Reihe zeigt die partiellen Regressionsplots korrespondierend zu Modell 4. An diesen lässt sich die Korrelation der einzelnen Einflussvariablen mit dem Testergebnis unter „linearer Herausrechnung“ der jeweils anderen beiden Einflussvariablen ablesen. Die korrespondierenden Steigungskoeffizienten entsprechen dabei denen in Modell 4. Es sei bemerkt, dass alle Koeffizienten-Schätzungen in allen Modellen zum Niveau 5% signifikant von 0 verschieden sind. In Modell 4 ergibt sich als Teststatistik des General-F-Tests gemäß (12.2.41) F=

416 0.7745 R2 n−p−1 ≈ ⋅ ⋅ ≈ 476.3. p 3 0.2255 1 − R2

Der kritische Wert, der gegeben ist durch das 0.95-Quantil einer F(3, 416)-Verteilung und 2.63 beträgt, wird bei weitem überschritten. Der Erklärungsgehalt des Modells steht statistisch also völlig außer Frage. Gleiches gilt auch für die anderen Modelle. Die Residualplots von Abbildung 12.2.7 illustrieren die Zunahme des Bestimmtheitsmaßes für die Modelle 1, 2 und 4. Dabei werden die KQ-Residuen jeweils gegen die gefitteten Werte abgetragen. Wie man sieht, nimmt die erklärte Streuung im Vergleich zur Residualstreuung stetig zu. Kommen wir nun noch einmal auf die zu Beginn dieses Fallbeispiels (Abschnitt 12.1.4) gestellte Ausgangsfrage zurück, ob es sich lohnen würde mehr Lehrer einzustellen, um den Lernerfolg der Schüler zu verbessern. In Anbetracht der Ergebnisse erscheint es nun so, dass das Betreuungsverhältnis zwar einen signifikanten Einfluss auf den Lernerfolg hat, dieser Einfluss aber im Vergleich zu anderen Faktoren wenig relevant

12.2 Einführung in das multiple lineare Regressionsmodell | 745

R = 0.05

20 0

−20

40

Modell 4

2

R = 0.43

KQ−Residuen

40

Modell 2 KQ−Residuen

KQ−Residuen

Modell 1 2

20 0

−20

−40 640

660

680

20 0

−40

620

Gefittete Werte

R = 0.77

−20

−40

620

40

2

640

660

680

Gefittete Werte

620

640

660

680

Gefittete Werte

Abb. 12.2.7: Residualplots der Modelle 1, 2 und 4

ist. Man beachte hierzu die bereits in Abschnitt 11.2.4 geführte Diskussion über den Unterschied von Signifikanz und Relevanz. Demnach besitzen die soziodemographischen Einflussvariablen hier einen weitaus höheren Erklärungsanteil für die Variation der Testergebnisse. Insbesondere besitzt der Begünstigten-Anteil einen ausgesprochen hohen Erklärungsgehalt. Anstelle nun also etwa undifferenziert nur mehr Lehrer einzustellen, könnte es beispielsweise sinnvoller sein, Schüler aus benachteiligten sozialen Schichten oder Schüler mit Sprachproblemen stärker individuell zu fördern, etwa durch zusätzlichen Sprachunterricht oder individuelle Nachhilfe.

Fallbeispiel 3: Gewicht und Geschlecht Betrachten wir nochmals die Situation von Fall 2 in Beispiel 5.3.4. Wir diskutieren im Folgenden lediglich den Unterschied zwischen direktem und indirektem Effekt. Führt man eine einfache Regression von Gewicht (in kg) auf Geschlecht (0 = männlich, 1 = weiblich) durch, erhält man unter den Annahmen von Modell KS: ̂ Ge wicht = 75.68 − 16.88 ⋅ Geschlecht, (0.78)

R2 ≈ 0.39,

SER ≈ 9.45.

(1.50)

Somit wird der totale Effekt des Geschlechts auf das Gewicht geschätzt mit β̂ Gewicht∼Geschlecht ≈ −16.88. Dies bedeutet, dass Frauen im Durchschnitt 16.88 kg weniger wiegen als Männer. Führt man eine einfache Regression von Größe auf Geschlecht durch, erhält man ̂ = 183.17 − 14.74 ⋅ Geschlecht, Gr öße (0.51)

(0.99)

R2 ≈ 0.53,

SER ≈ 6.20.

746 | 12 Das lineare Regressionsmodell

Der totale Effekt von Geschlecht auf Größe beträgt damit β̂ Größe∼Geschlecht ≈ −14.74. Frauen sind im Durchschnitt also 14.74 cm kleiner sind als Männer. Führt man eine multiple Regression von Gewicht auf Geschlecht und Größe (in cm) durch, erhält man ̂ Ge wicht = −60.36 − 5.93 ⋅ Geschlecht +0.74 ⋅ Größe, R2 ≈ 0.53, SER ≈ 8.23. (0.78)

(1.50)

(0.09)

Als partieller bzw. direkter Effekt von Geschlecht auf Gewicht ergibt sich dann nur noch ein Wert von β̂ Gewicht∼Geschlecht∙Größe ≈ −5.93. Bei gleicher Körpergröße sind Frauen also im Durchschnitt 5.93 kg leichter als Männer. Als direkter Effekt der Größe auf das Gewicht ergibt sich ein Wert von β̂ Gewicht∼Größe∙Geschlecht ≈ 0.74. Bei gleichem Geschlecht trägt also jeder Zentimeter mehr im Durchschnitt zu 0.74 kg mehr Gewicht bei. Mit diesen drei Regressionen können wir jetzt den totalen Effekt von Geschlecht auf Gewicht gemäß (12.2.40) zerlegen in β̂ Gewicht∼Geschlecht = β̂ Gewicht∼Geschlecht∙Größe + β̂ Gewicht∼Größe∙Geschlecht ⋅ β̂ Größe∼Geschlecht . Etwaige Abweichungen sind dabei auf Rundungseffekte zurückzuführen. Der indirekte Effekt von Geschlecht auf Gewicht über Größe beträgt damit β̂ Gewicht∼Größe∙Geschlecht ⋅ β̂ Größe∼Geschlecht ≈ 0.74 ⋅ (−14.74) ≈ −10.91. Betrachtet man also das Körpergewicht in Bezug auf Geschlecht, so werden Männer im Durchschnitt um 16.88 kg schwerer als Frauen. Dieser Unterschied beruht auf einem direkten geschlechtsspezifischen Effekt von 5.93 kg und einem deutlich stärkeren über die Körpergröße transferierten indirekten Effekt von 10.91 kg (Männer sind größer und darüber dann schwerer). Der direkte Effekt von Geschlecht auf Gewicht könnte beispielsweise auf unterschiedliche anatomische und physische Merkmale von Männern und Frauen zurückzuführen sein.

Fallbeispiel 4: Binäre Regressoren und ANOVA-Modelle • Einfache Regression mit binärem Regressor • Betrachten wir nochmals die Situation aus Beispiel 11.1.4 (Pflanzenexperiment). Im Rahmen der statistischen Model-

12.2 Einführung in das multiple lineare Regressionsmodell | 747

lierung gehen wir hier von n = n0 + n1 unabhängigen Stichprobenvariablen Y01 , Y02 , . . . , Y0n0

mit Y0i ∼ N(μ0 , σ2 ) für i = 1, . . . , n0 und

Y11 , Y12 , . . . , Y1n1

mit Y1i ∼ N(μ1 , σ2 ) für i = 1, . . . , n1

aus. Auf Basis von Satz 11.3.2 (ii) verwenden wir dann für das Testproblem H0 : μ0 = μ1

H 1 : μ 0 ≠ μ 1

vs.

die Teststatistik ̃D = T

Y1 − Y0 √ S2p /n0

+

H0

S2p /n1

∼ t(n0 + n1 − 2).

Äquivalent dazu können wir auch ein einfaches Regressionsmodell mit binärem Regressor X (0 für „ohne Düngung“, 1 für „mit Düngung“) und der Modellgleichung Y i = β0 + β1 X i + U i

für i = 1, . . . , n

unter den Annahmen von Modell KN betrachten. Im vorliegenden Fall mit n0 = n1 = 3 würden die Werte des (nichtstochastischen) binären Regressors X demnach lauten x1 = 0, x2 = 0, x3 = 0, x4 = 1, x5 = 1 und x6 = 1. Die Modellgleichungen der einzelnen Beobachtungen lauten dann Y i = β0 + U i

für i = 1, 2, 3 und

Y i = β0 + β1 + U i

für i = 4, 5, 6.

Als Testproblem wählt man nun H0 : β1 = 0 vs.

H1 : β1 ≠ 0.

Gemäß den Sätzen 12.1.5 und 12.1.6 lautet die Teststatistik ̂ ̃ β = β1 H∼0 t(n0 + n1 − 2), T 1 ̃ β̂ σ 1

̃ D übereinstimmt. Im vorliegenden Fall mit den Beobachtundie gemäß (12.1.92) mit T gen (x i , y i ) : (0, 14), (0, 25), (0, 36), (1, 64), (1, 46), (1, 55) erhält man dann ̃t D = ̃t β1 ≈ 3.656. Als zweiseitiger kritischer Wert wird das 0.975-Quantil der t(4)-Verteilung verwendet: t4,0.975 ≈ 2.78.

748 | 12 Das lineare Regressionsmodell

Gemäß (12.2.43)–(12.2.45) lassen sich die beiden Tests auch äquivalent als General-FTest durchführen mit ̃ β )2 = ( T ̃ D )2 F = (T 1 als Teststatistik. Dabei gilt: F = (n − 2) ⋅

R2 ∼ F(1, n − 2), 1 − R2

wobei R2 das Bestimmtheitsmaß ist. Im vorliegenden Fall ergäbe sich f ≈ 3.6562 ≈ 13.37. Als kritischer Wert wird dann das 0.95-Quantil der F(1, 4)-Verteilung verwendet: F1,4,0.95 ≈ 7.71. Dabei gilt (Abweichungen sind auf Rundungen zurückzuführen): F1,4,0.95 ≈ (t4,0.975 )2 . Die Nullhypothese wird in jedem Fall klar verworfen, sodass bei einem Niveau von 5% von einer signifikanten Wirkung der Düngung auszugehen ist. • Einfache ANOVA-Modelle • All diese Sachverhalte lassen sich nun auch auf Vergleiche von mehr als 2 Gruppen verallgemeinern. Regressionstechnisch führt dies dann zur Klasse der sog. einfachen ANOVA-Modelle (Analysis of Variance). Im Folgenden sei dies nur kurz skizziert. Ausgehend von n = n0 + n1 + ⋅ ⋅ ⋅ + n p unabhängigen Stichprobenvariablen Y01 , Y02 , . . . , Y0n0

mit Y0i ∼ N(μ0 , σ2 ) für i = 1, . . . , n0 ,

Y11 , Y12 , . . . , Y1n1

mit Y1i ∼ N(μ1 , σ2 ) für i = 1, . . . , n1 ,

.. . Y p1 , Y p2 , . . . , Y pn1

.. . mit Y pi ∼ N(μ p , σ2 ) für i = 1, . . . , n p ,

betrachtet man dann das Testproblem H0 : μ0 = μ1 = ⋅ ⋅ ⋅ = μ p

vs.

H1 : μ i ≠ μ j für mindestens in Paar (i, j) mit i ≠ j, oder äquivalent, H0 : μ1 − μ0 = 0, μ2 − μ0 = 0, . . . , μ p − μ0 = 0 H 1 : μ j − μ 0 ≠ 0

vs.

für mindestens ein j ∈ {1, . . . , p}.

12.2 Einführung in das multiple lineare Regressionsmodell | 749

Es lässt sich zeigen, dass hierfür die Teststatistik p

n−p−1 F= ⋅ p



j=0

nj n (Y j p



j=0

− Y)2

nj ̃2 n Sj

p

mit Y = ∑ j=1

nj Yj n

(12.2.46)

verwendet werden kann, wobei Y j und S̃ 2j die Stichprobenmittel bzw. Stichprobenvarianzen der insgesamt p + 1 Gruppen bezeichnen. Im Wesentlichen wird in F die externe Streuung durch die interne Streuung der Gruppen dividiert (vgl. Abschnitt 4.5.1). Dabei gilt: H0

F ∼ F(p, n − p − 1).

(12.2.47)

Es leuchtet ein, dass der Test einseitig nach oben hin durchgeführt wird, da nur eine im Vergleich zur internen Streuung verhältnismäßig große externe Streuung für eine Unterschiedlichkeit der Gruppen spricht. Äquivalent dazu kann nun auch ein multiples Regressionsmodell mit p binären Regressoren X1 , . . . , X p und der Modellgleichung Y i = β0 + β1 X1i + ⋅ ⋅ ⋅ + β p X pi + U i

für i = 1, . . . , n

unter den Annahmen von Modell KN betrachtet werden. Dazu wählt man das Testproblem H0 : β1 = β2 = ⋅ ⋅ ⋅ = β p = 0 vs. H1 : β j ≠ 0 für mindestens ein j ∈ {1, . . . , p}. Man beachte, dass sich hier in Erweiterung des einfachen Modells die modelltheoretischen Beziehungen β0 = μ0 , β1 = μ1 − μ0 , β2 = μ2 − μ0 , . . . , β p = μ p − μ0

mit

μ0 = E(Y i |X1i = 0, X2i = 0, . . . , X pi = 0), μ1 = E(Y i |X1i = 1, X2i = 0, . . . , X pi = 0), μ2 = E(Y i |X1i = 0, X2i = 1, . . . , X pi = 0), .. .

.. .

.. .

μ p = E(Y i |X1i = 0, X2i = 0, . . . , X pi = 1) ergeben. Es lässt sich zeigen, dass für dieses Testproblem die General-F-Teststatistik (12.2.41) verwendet werden kann, die mit (12.2.46) übereinstimmt. Es gilt also p

F=

n

j 2 n − p − 1 ∑j=0 n (Y j − Y) n−p−1 R2 = , ⋅ ⋅ n p j 2 p p 1 − R2 ∑j=0 n S̃ j

wobei R2 das Bestimmtheitsmaß der multiplen Regression ist.

(12.2.48)

750 | 12 Das lineare Regressionsmodell Betrachten wir als Beispiel nochmals die Situation aus Beispiel 4.5.1 mit p +1 = 3 Gruppen. Die beobachteten Werte der (nichtstochastischen) binären Regressoren X1 und X2 und die Werte der abhängigen Variable Y sind in Tabelle 12.2.3 aufgeführt. Tab. 12.2.3: Beobachtungen mit binären Regressoren i 1 2 3 4 5 6 7 8 9 10 11 12

yi 1.0 1.3 0.7 1.7 2.1 1.9 2.3 1.3 1.2 1.8 1.4 1.6

x1i 0 0 0 1 1 1 1 0 0 0 0 0

x2i 0 0 0 0 0 0 0 1 1 1 1 1

Die Modellgleichungen lauten dann Y i = β0 + U i

für i = 1, 2, 3,

Y i = β0 + β1 + U i

für i = 4, . . . , 7 und

Y i = β0 + β2 + U i

für i = 8, . . . , 12.

Mit entsprechender Angleichung der Notation gilt in diesem Fall: p

∑ j=0

p nj nj (y j − y)2 = 0.145875, ∑ ̃s2j = 0.051 und ̃s2Y = 0.196875. n n j=0

Darüber erhalten wir dann gemäß (12.2.48) als Wert der Teststatistik f =

9 0.145875 ⋅ ≈ 12.87. 2 0.051

Aufgrund der Gültigkeit von p

R2 =

∑j=0

nj n (y j ̃s2Y

− y)2

=

0.145875 ≈ 0.741 0.196875

erhalten wir diesen Wert alternativ auch über 0.741 9 ≈ 12.87. f = ⋅ 2 1 − 0.741 Als kritischer Wert wird gemäß (12.2.47) das 0.95-Quantil der F(2, 9)-Verteilung verwendet, F2,9,0.95 ≈ 4.26.

12.2 Einführung in das multiple lineare Regressionsmodell | 751

Die Nullhypothese wird klar verworfen. Die Gruppenmittelwerte sind zum Niveau 5% somit signifikant verschieden. Mit dieser inferenztheoretischen Auslegung der empirischen Streuungszerlegungsformel aus Teil 1 schließt sich abermals ein Kreis zwischen Empirie und Theorie.

Anhang: Tabellen Tab. A.1: Wertetabelle der Standardnormalverteilung

Tabelliert sind die Werte der Verteilungsfunktion der Normalverteilung, Φ(z). Ablesebeispiel: Φ(1.23) = Φ(1.2 + 0.03) ≈ 0.8907. z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9

0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000

0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000

0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

https://doi.org/10.1515/9783110744194-013

0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000

Anhang: Tabellen | 753

Tab. A.2: Quantilstabelle der t-Verteilung

Tabelliert sind die Quantile der t-Verteilung für n Freiheitsgrade. Für n > 30 gilt: t n,α ≈ z α , wobei z α das α-Quantil der Standardnormalverteilung ist. Ablesebeispiel: t20,0.99 ≈ 2.528. n

0.6

0.8

0.9

0.95

0.975

0.99

0.995

0.999

0.9995

1

0.3249 1.3764 3.0777 6.3138 12.706 31.821 63.657 318.309 636.619

2

0.2887 1.0607 1.8856 2.9200 4.3027 6.9646 9.9248 22.3271 31.5991

3

0.2767 0.9785 1.6377 2.3534 3.1824 4.5407 5.8409 10.2145 12.9240

4

0.2707 0.9410 1.5332 2.1318 2.7764 3.7469 4.6041

7.1732

8.6103

5

0.2672 0.9195 1.4759 2.0150 2.5706 3.3649 4.0321

5.8934

6.8688

6

0.2648 0.9057 1.4398 1.9432 2.4469 3.1427 3.7074

5.2076

5.9588

7

0.2632 0.8960 1.4149 1.8946 2.3646 2.9980 3.4995

4.7853

5.4079

8

0.2619 0.8889 1.3968 1.8595 2.3060 2.8965 3.3554

4.5008

5.0413

9

0.2610 0.8834 1.3830 1.8331 2.2622 2.8214 3.2498

4.2968

4.7809

10

0.2602 0.8791 1.3722 1.8125 2.2281 2.7638 3.1693

4.1437

4.5869

11

0.2596 0.8755 1.3634 1.7959 2.2010 2.7181 3.1058

4.0247

4.4370

12

0.2590 0.8726 1.3562 1.7823 2.1788 2.6810 3.0545

3.9296

4.3178

13

0.2586 0.8702 1.3502 1.7709 2.1604 2.6503 3.0123

3.8520

4.2208

14

0.2582 0.8681 1.3450 1.7613 2.1448 2.6245 2.9768

3.7874

4.1405

15

0.2579 0.8662 1.3406 1.7531 2.1314 2.6025 2.9467

3.7328

4.0728

16

0.2576 0.8647 1.3368 1.7459 2.1199 2.5835 2.9208

3.6862

4.0150

17

0.2573 0.8633 1.3334 1.7396 2.1098 2.5669 2.8982

3.6458

3.9651

18

0.2571 0.8620 1.3304 1.7341 2.1009 2.5524 2.8784

3.6105

3.9216

19

0.2569 0.8610 1.3277 1.7291 2.0930 2.5395 2.8609

3.5794

3.8834

20

0.2567 0.8600 1.3253 1.7247 2.0860 2.5280 2.8453

3.5518

3.8495

21

0.2566 0.8591 1.3232 1.7207 2.0796 2.5176 2.8314

3.5272

3.8193

22

0.2564 0.8583 1.3212 1.7171 2.0739 2.5083 2.8188

3.5050

3.7921

23

0.2563 0.8575 1.3195 1.7139 2.0687 2.4999 2.8073

3.4850

3.7676

24

0.2562 0.8569 1.3178 1.7109 2.0639 2.4922 2.7969

3.4668

3.7454

25

0.2561 0.8562 1.3163 1.7081 2.0595 2.4851 2.7874

3.4502

3.7251

26

0.2560 0.8557 1.3150 1.7056 2.0555 2.4786 2.7787

3.4350

3.7066

27

0.2559 0.8551 1.3137 1.7033 2.0518 2.4727 2.7707

3.4210

3.6896

28

0.2558 0.8546 1.3125 1.7011 2.0484 2.4671 2.7633

3.4082

3.6739

29

0.2557 0.8542 1.3114 1.6991 2.0452 2.4620 2.7564

3.3962

3.6594

30

0.2556 0.8538 1.3104 1.6973 2.0423 2.4573 2.7500

3.3852

3.6460

754 |

Anhang: Tabellen

Tab. A.3: Quantilstabelle der χ 2 -Verteilung

Tabelliert sind die Quantile der χ2 -Verteilung für n Freiheitsgrade. Ablesebeispiel: χ210,0.95 = 18.307. n

0.01

0.025

0.05

0.1

0.5

0.9

0.95

0.975

0.99

1

0.000

0.001

0.004

0.016

0.455

2.705

3.841

5.024

6.635

2

0.020

0.051

0.103

0.211

1.386

4.605

5.992

7.378

9.210

3

0.115

0.216

0.352

0.584

2.366

6.251

7.815

9.348

11.345

4

0.297

0.484

0.711

1.064

3.357

7.779

9.488

11.143 13.277

11.070 12.832 15.086

5

0.554

0.831

1.145

1.610

4.351

9.236

6

0.872

1.237

1.635

2.204

5.348

10.645 12.592 14.449 16.812

7

1.239

1.690

2.167

2.833

6.346

12.017 14.067 16.013 18.475

8

1.647

2.180

2.733

3.490

7.344

13.362 15.507 17.535 20.090

9

2.088

2.700

3.325

4.168

8.343

14.684 16.919 19.023 21.666

10

2.558

3.247

3.940

4.865

9.342

15.987 18.307 20.483 23.209

11

3.054

3.816

4.575

5.578

10.341 17.275 19.675 21.920 24.725

12

3.571

4.404

5.226

6.304

11.340 18.549 21.026 23.337 26.217

13

4.107

5.009

5.892

7.042

12.340 19.812 22.362 24.736 27.688

14

4.660

5.629

6.571

7.790

13.339 21.064 23.685 26.119 29.141

15

5.229

6.262

7.261

8.547

14.339 22.307 24.996 27.488 30.578

16

5.812

6.908

7.962

9.312

15.338 23.542 26.296 28.845 32.000

17

6.408

7.564

8.672

10.085 16.338 24.769 27.587 30.191 33.409

18

7.015

8.231

9.390

10.865 17.338 25.989 28.869 31.526 34.805

19

7.633

8.906

10.117 11.651 18.338 27.204 30.143 32.852 36.191

20

8.260

9.591

10.851 12.443 19.337 28.412 31.410 34.170 37.566

21

8.897

10.283 11.591 13.240 20.337 29.615 32.671 35.479 38.932

22

9.543

10.982 12.338 14.041 21.337 30.813 33.924 36.781 40.289

23

10.196 11.689 13.091 14.848 22.337 32.007 35.172 38.076 41.638

24

10.856 12.401 13.848 15.659 23.337 33.196 36.415 39.364 42.980

25

11.524 13.120 14.611 16.473 24.337 34.382 37.653 40.647 44.314

26

12.198 13.844 15.379 17.292 25.337 35.563 38.885 41.923 45.642

27

12.879 14.573 16.151 18.114 26.336 36.741 40.113 43.194 46.963

28

13.565 15.308 16.928 18.939 27.336 37.916 41.337 44.461 48.278

29

14.257 16.047 17.708 19.768 28.336 39.087 42.557 45.722 49.588

30

14.954 16.791 18.493 20.599 29.336 40.256 43.773 46.979 50.892

Stichwortverzeichnis 3D-Punktwolken, 194

Ausreißer, 46, 62, 143 Auswahlsatz, 486

A-posteriori-Verteilung, 567

Axiome von Kolmogoroff, 225, 227, 242

A-priori-Verteilung, 566 a.h.v., 488

Balkendiagramm, 37, 138

a.i.v., 488

Bayes-Formel, 267, 269

Abbildung, 243

Bayes-Kalkül, 566

abhängige Variable, 166

Bayes-Statistik, 20, 270

Abhängigkeit

Bayes-Tests, 647

– bedingte, 214, 217

Bestimmtheitsmaß, 189, 190

– empirische, 29, 122, 138, 201

– theoretisches, 673, 732

– stochastische, 260

Bijektion, 239

abzählbar unendlich, 239

bimodal, 55

Achsenabschnitt, 166

binär, 694

Achsenabschnittsregression, 173, 179

Bindungen, 162, 163, 187

Adäquationsproblem, 2

Binomialkoeffizient, 382

Additionskalkül, 248, 250, 275

Binomialverteilung, 388

Additionssatz, 246

Biplots, 194

additiv, 215

Boxplot, 44

Alternativhypothese, 582 Angelpunkte, siehe Hinges Annahmebereich, 582 ANOVA, 748 Anpassungsgüte, 189 Anrainer

CA-Biplot, 199 Causal Inference, 202 Chi-Quadrat-Distanz, 200 Chi-Quadrat-Koeffizient, 128, 131 Chi-Quadrat-Unabhängigkeitstest, 131, 136 Correspondence Analysis, 199

– oberer, 45 – unterer, 46

Data Mining, 16, 17, 20

aquivariant, 135

Daten, 1

arithmetisches Mittel, 59, 114

– fehlende, 15

– bedingtes, 155

– gruppierte, 68

Assoziationsplot, 127, 139, 199

– zufallsabhängige, 3

asymptotisch verzerrt, 700

Datenscreening, 144

Ausgleichsgerade, 171

Definitionsbereich, 243

Ausprägungsmöglichkeiten, 32

deskriptiv, 11

https://doi.org/10.1515/9783110744194-014

756 |

Stichwortverzeichnis

deskriptive statistische Methoden, 5

Ereignis, 240

Dezile, 73, 188

Ereignisraum, 227, 250

dichotom, 694

Ergebnisraum, 243

Dichotomisierung, 186

– überabzählbarer, 240

Dichte, 278

– diskreter, 240, 241

– bedingte, 299

Erhebungsstudien, 204

Dichtefunktion

erklärte Streuung, 658

– gemeinsame, 298

erwartungstreu, 504

– zweidimensionale, 298

Erwartungswert

Dichteschätzung, 43

– bedingter, 356

Differenzmenge, 235

– unbedingter, 356

disjunkt, 235, 240

Erwartungswertoperator, 331

– paarweise, 242

EVF, 49, siehe empirische Verteilungsfunktion

diskretisieren, 186

Experiment, 203

Dummy-Variablen, 694

Experimentalstudien, 204

durchschnittliches Spaltenprofil, 199

explorative Datenanalyse, 16

durchschnittliches Zeilenprofil, 199

externe Streuung, 85

Durchschnittsrang, 162

EDA, siehe auch explorative Datenanalyse, 16

Faktoren, 213 Fakultät, 380 Fehler, 166

Effekt Fehler 1. Art, 590 – direkter, 215 Fehler 2. Art, 590 – direkter kausaler, 740 Fehlerwahrscheinlichkeit – negativer direkter, 209 – negativer indirekter, 210 – partieller, 215, 721 – positiver direkter, 209

– 1. Art, 593 – 2. Art, 594 frequentistisch, 230 Funktion, 243

– positiver indirekter, 210 – totaler, 211, 215

Güte, 597

Einfallsklasse, 63

Gütefunktion, 597

Einflussvariable, 166, 188, 203

Gauß-Klammer, 45, 71

Einheitsprofile, 200

Gauß-Markov-Eigenschaft, 173

Element, 232

Gauß-Markov-Theorem, 173, 687

Elementarereignis, 240

Gauß-Test, 613

Empirie, 10, 157

– approximativer, 613

empirisch, 10

Gedächtnislosigkeit, 399

Stichwortverzeichnis | 757

gefittete Werte, 171, 728

– relative, 33, 36

gemeinsam stetig verteilt, 297

Hauptkomponente, 197

gemischt skaliert, 458, 473

Hauptkomponentenanalyse, 195

Geodäsie, 180

Hauptkoordinaten, 197

geometrisches Mittel, 75

heatmap, 369

geordnetes Paar, 237

Herausrechnen

Gesamteffekt

– lineares, 720

– kausaler, 740

Hesse-Matrix, 652

Gesamtstreuung, 5, 6, 85

Heteroskedastizität, 554

GGZ, 422

– bedingte, 668

Gini-Koeffizient, 100

– unbedingte, 669

– normierter, 101

Hexagonal Binning, 145

gleichverteilt

Hexagonalplot, 145

– diskret, 295

Hinge

Gleichverteilung

– oberer, 44

– zweidimensionale stetige, 302

– unterer, 44

Goodman and Kruskal’s Gamma, 188

Histogramm, 40

Grenzwertsatz von de Moivre, 432

Homoskedastizität, 554, 663

Grundgesamtheit, 10, 26, 55, 483

– bedingte, 665

– hypothetische, 487 – reale, 483

identisch verteilt, 289

Grundmenge, 235

Imageplot, 369

Gruppenanteile, 69

Indexmenge, 32

Gruppengewichte, 69

Indexvariable, 32 Indikatorfunktion, 282

Häufigkeit

Induktion, 10, 483

– absolute, 33, 118, 137

induktiv, 10

– bedingte, 120, 121

induktive Statistik, 223, 475

– relative, 33, 118

induktive statistische Methoden, 5

Häufigkeitsdichte, 42

Integrationskalkül, 250

Häufigkeitsdichtefunktion, 50

Interaktion, 217

Häufigkeitsfunktion, 48

interne Streuung, 85

Häufigkeitsverteilung

Interquartilsabstand, 44, 88

– absolute, 33, 36

Intervall

– gemeinsame absolute, 118

– geschlossenes, 234

– gemeinsame relative, 119

– halboffenes, 234

758 |

Stichwortverzeichnis

– offenes, 234

Kleinste-Quadrate-Gerade, 168, 171

Intervallereignis, 278

Kleinste-Quadrate-Koeffizienten, 171

invariant, 135

Kleinste-Quadrate-Methode, 104, 142, 168

Invarianz, 104

Kombinatorik, 229, 380

irrational, 239

Kompensation, 211

Irrtumswahrscheinlichkeit, 5, 8, 9, 222

Komplementärmenge, 235

– 1. Art, 593

Konfidenzintervall, 9, 11, 223, 526

– 2. Art, 594

Konfidenzniveau, 526 konsistent

Kalkül

– MSE-, 512

– datengestütztes, 11

– schwach, 512

– stochastisches, 11

Kontingenz, 129

kardinal skaliert, 27

Kontingenzkoeffizient, 116, 132, 157, 188

kartesisches Koordinatensystem, 238

– korrigierter, 131, 133, 187, 220

kartesisches Produkt, 237

– nach Pearson, siehe Kontingenzkoeffizient

kategorisieren, 186

Kontingenztabelle, 117, 292

kausal, 142

Konturplot, 169

– direkt, 184

Konvergenz

– indirekt, 184

– nach Verteilung, 456

kausale Effekte, 5, 6, 165, 188, 191, 204

– nach Wahrscheinlichkeit, 423, 454

– direkte, 205

– stochastische, 423, 454

– dynamische, 207

Konvergenzgeschwindigkeit, 429

– indirekte, 206

Konzentration, 98

Kausalität, 123, 202, 227

Korrelation

– Granger-, 207

– empirische, 158

Kendall’s Tau, 188

– empirische partielle, 721

Kennwerte

– partielle, 471

– empirische, 494

– theoretische, 158

– theoretische, 494

Korrelationsanalyse, 16, 157

Klassenbreite, 41

Korrelationskoeffizient, 133, 150, 219

Klassengrenzen, 35

– empirischer, 151

Klassenhäufigkeit

– nach Bravais-Pearson, 158, 187

– absolute, 36

– nach Pearson, 142, 145, 161

– relative, 36

– nach Spearman, 162, 187, 188

Klassenmitte, 60

– theoretischer, 366

Klassenmittelwert, 60

Korrelationsmatrix, 160

Stichwortverzeichnis | 759

Korrespondenzanalyse, 199

lineare Regression, 142

– -Biplot, 193, 199

– einfache, 214

Kovarianz, 142, 145

– multiple, 214

– empirische, 147

lineares Modell, 17

– theoretische, 365

– generalisiertes, 191

Kovarianzmatrix, 159, 462

– verallgemeinertes, 191

KQ-Gerade, 168, 171

lineares Regressionsmodell

– theoretische, 671

– einfaches, 188, 651

KQ-Methode, 651

linksschief, 56

KQ-Regression

Log-Transformationen, 163

– theoretische, 671

Logit-Modell, 190, 216, siehe Logit-Regression

KQ-Regressionsebene, 728

– geordnetes, 216

KQ-Regressionskoeffizienten

Lorenzkurve, 99

– theoretische, 371 KQ-Residuen, 171, 728

Mächtigkeit, 238

KQ-Schätzer, 654

Maßtheorie, 251

Kreisdiagramm, 37

MAD, 81, 114

Kreuzmenge, 237

Massenpunkt, 275

kritischer Bereich, 582

Maximum, 63

kritischer Wert, 582

Median, 45, 58, 62, 62, 114

Kuchendiagramm, 37

– theoretischer, 353 median absolute deviation, 81

L1 -Norm, 175 L1 -Regression, 175

Median der absoluten Abweichungen vom Median, 81

L2 -Norm, 169

Mediatorvariable, 206, 211

L2 -Regression, 169

Menge, 232

LAD-Gerade, 168, 175

Mengenfunktion, 243

LAD-Methode, 651

Mengenoperation, 234

Lageregeln, 58

Merkmal, 31

Laplace-Modell, 229, 248

– diskretes, 26

leere Menge, 233

– stetiges, 26

Likelihood-Funktion, 561

Merkmalssumme, 59, 99

linear, 215

Merkmalsträger, 26

linear herausgerechnet, 215

Merkmalsvektor, 117

lineare Abhängigkeit, 161

Messbarkeitsproblem, 250, 280

lineare Programmierung, 176

Messfehlerproblem, 700

760 |

Stichwortverzeichnis

Methode der kleinsten Quadrate, 215

nominal skaliert, 27

metrisch kodiert, 210, 211

normalverteilt

metrisch kodierte Ausprägungen, 27

– gemeinsam, 468

metrisch skaliert, 27

– multivariat, 468

Metrisierung, 187

Normalverteilung, 402

Minimum, 63

– bivariate, 133, 157, 470

Minimumeigenschaft des arithmetischen

– multivariate, 157, 468

Mittels, 173 Minimumeigenschaft des Medians, 179

Nullhypothese, 582 – einfache/zusammengesetzte, 588

Mittelwert – stochastischer, 413 mittlere absolute Abweichung vom arithmetischen Mittel, 78 mittlere absolute Abweichung vom Median, 78, 106

Ökonometrie, 207 Omitted Variable Bias, 739 ordinal skaliert, 27 orthogonales Versuchsdesign, 213 OVB, 215, 739 OVB-Problem, 700

mittlere absolute Abweichungen, 114 mittlere quadratische Kontingenz, 131, 132

p-Wert, 604

Modalwert, 58, 65

paarweise (stochastisch) unabhängig, 265

Modus, 55, 65

Parameter, 158, 384

Moment

Parameterraum, 384

– k-tes, 377

parametrische Verteilungsfamilie, 384

momenterzeugende Funktion, 378

Parametrisierung, 18

Mosaikplots, 139, 141, 185

Partition, 268

MSE, 510

PCA, 195

MSE-Prädiktor

PCA-Biplot, 196, 200

– bester linearer, 672

Pearson-Residuen, 139

Multikollinearität, 170, 722, 735

Permutation, 381

multimodal, 55

Pfadwahrscheinlichkeit, 257

Multiplikationskriterium, 125

Poisson-Verteilung, 393

– stochastisches, 261

Prädiktionen, 167

Multiplikationsregel, 255, 344

Prüfgröße, 582

multivariate Statistik, 159, 195, 200

Primärstatistiken, 15 Principal Component Analysis, 195

n-Tupel, 238

Probit-Modell, 190

nicht skaleninvariant, 149

Problem simultaner Kausalität, 700

Niveau-α-Test, 596

Produktmenge, 237

Stichwortverzeichnis | 761

Prognosegüte, 189

– empirische partielle, 721

Prognoseintervall, 662

– geordnete Logit-, 190

Prognoseintervalle, 18

– Linear-Log-, 182, 183

Prognosen, 18, 165, 167

– Log-Linear-, 183

Projektion, 195

– Log-Log-, 183 – logistische, 190, 215

Quantil, 44, 69, 353 Quantilsabstand, 88, 95, 114 Quantilskoeffizient der Schiefe, 95 Quantilsregression, 178 Quartil, 188 – oberes, 44

– Logit-, 181 – multinomiale Logit-, 190 – multiple, 170 – multiple lineare, 180, 218, 728 Regressionsanalyse, 16, 157

– unteres, 44

Regressionsgleichung, 166

Quartilskoeffizienten der Schiefe, 96

Regressionskoeffizient, 215

Quasi-Experiment, 490

– partieller, 721, 730

Quasi-Experimente, 204

– theoretischer, 651

Quasi-Stichprobe, 698

Regressionsmodell, 188

quasistetig, 27

– lineares, 17

Quintile, 73, 186, 188

– multiples lineares, 210, 212 Regressionsplot

Randhäufigkeit – absolute, 118

– partieller, 720 Regressionstheorie, 159

– relative, 118 Regressor, 166, 734 randomisiert, 213 relativen Randhäufigkeiten, 119 Randverteilung, 116, 292, 298, 310 – absolute, 118 Rang, 162 Rangkorrelationskoeffizient, 162 Rangzahl, 162 rationale Zahlen, 239

relativen Randverteilungen, 119 relevant, 134 repräsentativ, 122 Repräsentativität, 697 Residualstreuung, 658

Realisation, 273

Residuen, 166

– einer Stichprobe, 482

– stochastische, 651

Realisationsmöglichkeiten, 275, 278

Restvariable, 205, 219

rechtsschief, 56

Ringdiagramme, 37

Regressand, 166, 734

robust, 62, 80

Regression

Robustheit, 114, 168, 180

– einfache lineare, 165

Rohdaten, 31

762 |

Stichwortverzeichnis

Säulendiagramm, 37, 43

Spinogramm, 184, 190

– gestapeltes, 137

st.u., 260

– gruppiertes, 137

Störvariable, 205, 219

– segmentiertes, 29, 122, 138, 198

Stamm-Blatt-Diagramm, 38

Satz von Bayes, 269

Standardabweichung, 82

Satz von Bernoulli, 425

– theoretische, 347

Satz von Glivenko-Cantelli, 427

Standardfehler, 534, 688

Schätzen, 221

Standardfehler der Regression, 661, 689

Schätzproblem, 497

Standardisierung, 93

Schätzung, 223

statistical methods, 4

Schachteldiagramm, 44

statistics, 4

Scheinabhängigkeit, 144, 203, 211, 219

Statistik, 1–3

Scheinkorrelation, 211

– computergestützte, 20

schief, 56

– deskriptive, 11

Schiefe, 95

– induktive, 11

Schnittmenge, 234

– mathematische, 20

Schwankungsintervalle, 83

– multivariate, 17

Schwerelinien, 146

– nichtparametrische, 20

Schwerpunkt, 146, 171, 655

– schließende, 11

Sekundärstatistiken, 15

statistische Inferenz, 483

SER, 661

statistische Modellierung, 5, 205

sicheres Ereignis, 240

statistisches Modell, 8, 10, 18, 188, 212, 219,

Sicherheitsintervall, 9, 223

223

Sicherheitswahrscheinlichkeit, 5, 8, 9, 222, 526

statistisches Problem, 5, 7, 11, 131, 136, 173, 204

Sigma-Algebra, 251

Steigungskoeffizienten, 166

Signifikanz, 223

Stem-and-Leaf-Plot, 38

Signifikanzniveau, 582

Stetigkeitskorrektur, 437

simultaner Kausalität, 207

Stichprobe, 5, 10, 482

Singulärwertzerlegung, 195

– hypothetische, 8, 487

skalenäquivariant, 111, 150, 374

– reale, 8, 14, 483

skaleninvariant, 111, 153, 163

– repräsentative, 491

Skalierung, 27

Stichprobentheorie, 14

Spaltenprofile, 199

Stichprobenumfang, 31

Spaltenverteilungen, 122, 123, 198, 199

Stichprobenvariablen, 482

Spannweite, 77, 114

Stichprobenvarianz

Spineplot, 141, 185

– korrigierte, 507

Stichwortverzeichnis | 763

Stichprobenverzerrung, 491, 698

Testverteilung, 582

stochastisch, 5

theoretische Regressionsgerade, 651

stochastisch unabhängig, 458

Theorie stochastischer Prozesse, 207

stochastische Abhängigkeit, 30

Totalerhebung, 483

stochastische Konvergenz, 222

Totalvarianz, 197

stochastischer Zusammenhang, 30

Trägermenge, 298

Streudiagramm, 29, 142

Trägerpunkt, 275

Streudiagramm-Matrix, 144

Transformationseigenschaften, 104

Streuungszerlegung, 5, 6, 17 Streuungszerlegungsformel – bei gruppierten Daten, 85 – der KQ-Regression, 657 – der Regression, 189

u.h.v., 488 u.i.v., 488 überkompensieren, 211 überabzählbar, 240 Umskalierung, 109, 153

Structural Causal Models, 202 unabhängig symmetrisch, 56 – stochastisch, 305, 311 systematisch, 5, 6 Unabhängigkeit systematische Verzerrungen, 180, 183, 191 – bedingte, 461 – empirische, 123, 124 t-Test, 613 – paarweise, 264 Teilmenge, 233 – stochastische, 125, 260, 265 Test – vollständige, 265 – approximativer Binomial über eine Ungleichung Anteilswertdifferenz, 637 – Cauchy-Schwarz, 153 – approximativer Binomial-, 634 unimodal, 55 – ein-/zweiseitiger, 588 – Fisher-, 629 – Heteroskedastizitäts-, 702 – konfirmatorischer, 584 – Korrelations-, 640 – statistischer, 584 – White-, 702 Testniveau, 582

unkorreliert – empirisch, 155 Unkorreliertheit, 367 unmögliches Ereignis, 240 Untersuchungseinheiten, 26 unverfälscht, 211 unverzerrt, 211 Urliste, 31

Testproblem – ein-/zweiseitiges, 588

Variable, 31

Teststatistik, 131, 582

– erklärende, 166

Testtheorie, 223

– unabhängige, 166

764 |

Stichwortverzeichnis

Varianz, 81, 104, 114, 129

– hypergeometrische, 438

– bedingte, 155, 356

– mehrdimensionale, 28

– theoretische, 347

– Mixtur-, 446

– unbedingte, 356

– multivariate, 28

Varianz-Kovarianzmatrix, 159

– Negative Binomial-, 440

Varianzanalyse, 17, 189

– Poisson-, 390

Varianzanalysemodelle, 213

– stetige Gleich-, 303, 394

Variationskoeffizient, 90, 112, 129

– stochastische, 30

Venn-Diagramm, 236

– t-, 442

Vereinigungsmenge, 234

– theoretische, 30

vermittelnde Variablen, 206

– univariate, 28

Verschiebung, 109

Verteilung-

verschiebungsäquivariant, 110

– Einpunkt-, 457

Verschiebungsformel, 348, 366

Verteilungsfunktion

– allgemeine empirische, 82

– empirische, 49

– für die empirische Kovarianz, 148

– theoretische, 283

– für die empirische Varianz, 82

verzerrt, 211

verschiebungsinvariant, 90, 111, 149, 153, 163,

Verzerrung, 208

374

– asymptotische, 726

Verstärkung, 211

– empirische, 722

Versuchsplanung, 14, 17, 213

– theoretische, 725

Verteilung, 274

Volatilität, 46

– bedingte, 116, 120, 138, 198, 293, 299, 310 – bedingte empirische, 121

Wachstumsfaktoren, 74

– Bernoulli-, 383

Wachstumsraten, 74

– Binomial-, 386

Wahrscheinlichkeit, 242

– Cauchy-, 379, 443

– bedingte, 252

– Chi-Quadrat-, 441

– klassische, 229

– Dreiecks-, 329

– objektive, 230

– eindimensionale, 28

– statistische, 229

– Einpunkt-, 383

– subjektive, 230

– empirische, 28

Wahrscheinlichkeitsbaum, 257

– Exponential-, 397

Wahrscheinlichkeitsdichtefunktion, 278

– Gamma-, 440

Wahrscheinlichkeitsfunktion, 275

– gemeinsame, 28, 116, 298

– bedingte, 293

– geometrische, 439

– gemeinsame, 291

Stichwortverzeichnis | 765

– zweidimensionale, 292

ZGWS , 427

Wahrscheinlichkeitsmaß, 242, 243

Zielvariable, 166, 188, 203

– diskretes, 289

zufällig, 5, 6, 228

– stetiges, 289

Zufall, 227

Wahrscheinlichkeitsrechnung, 3–5

Zufallsereignissen, 125

Wahrscheinlichkeitstheorie, 157, 221

zufallsabhängige Daten, 5

Wahrscheinlichkeitsverteilung, 225, 274

Zufallsereignisse, 240

Wertebereich, 243

Zufallsvariable, 125, 225, 272 – mehrdimensionale, 290

z-standardisiert, 151, 196

Zufallsvektor, 290, 457

z-Standardisierung, 93

Zufallsvorgang, 5, 227, 228

Zaun

Zusammenhang, 29

– oberer, 45

– empirischer, 29, 122, 201

– unterer, 46

– negativer, 143, 147

Zeilenprofile, 199

– perfekter monotoner, 161

Zeilenverteilungen, 122, 123, 199

– perfekter negativer linearer, 155

Zeitreihenanalyse, 167, 207

– perfekter positiver linearer, 155

Zentralwert, 62, siehe Median

– positiver, 143, 147

Zerlegung, 268

– strenger monotoner, 161

Literatur [1] Agresti, A. (2010): Analysis of Ordinal Categorical Data. 2. Auflage. Hoboken, NJ: John Wiley & Sons. [2] Agresti, A. (2013): Categorical Data Analysis. 3. Auflage. Hoboken, NJ: WileyInterscience. [3] Baulig, C., Al-Nawas, B. und Krummenauer, F. (2008): p-Werte - statistische Signifikanz ist keine klinische Relevanz. Zeitschrift für zahnärztliche Implantologie, 2/2008, 126-128. [4] Billingsley, P. (2012): Probability and Measure. Anniversary edition. Hoboken, NJ: Wiley. [5] Bamberg, G., Baur, F. und Krapp, M. (2012): Statistik. 17. Auflage. München: Oldenbourg. [6] Bienaymé, I.J. (1853): Considerations à l’appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés. C.R. Acad. Sci. Paris, 37, 309-324. [7] Bingham, N.H. (2000): Studies in the History of Probability and Statistics XLVI. Measure into Probability: From Lebesgue to Kolmogorov. Biometrika, 87, 145-156. [8] Boscovich, R.J. und Maire C. (1755): De Litteraria Expeditione per Pontificiam ditionem ad dimetiendas duas Meridiani gradus. Rom: Palladis. [9] Boscovich, R.J. (1770): Voyage astronomique et geographique, dans l’état de l’église. Paris: N. M. Tilliard. [10] Büning, H. und Trenkler, G. (1994): Nichtparametrische statistische Methoden. 2. Auflage. Berlin: Walter de Gruyter. [11] Buonaccorsi, J.P. (2010): Measurment Error: Models, Methdods, and Applications. New York: Chapman & Hall. [12] Bravais, A. (1844): Analyse Mathématique. Sur Les Probabilités des Erreurs de Situation d’un Point. Extrait du Tome IX des Mémoires présentés par divers savants à L’Académie Royale des Sciences. Paris: Imprimerie Royale.. [13] Ceriani, L. und Verme, P. (2012): The Origin of the Gini Index: Extracts from Variabilità e Mutabilità (1912) by Corrado Gini. Journal of Economic Inequality, 10, 421-443. [14] Carr, D.B., Littlefield, R. J. Nicholson W. L. und Littlefield J. S. (1987): Scatterplot Matrix Techniques for Large N. Journal of the American Statistical Association, 82, 424-436. [15] Chen, C.-h., Härdle, W. und Unwin, A. (Hrsg.) (2008): Handbook of Data Visualization. Berlin; Heidelberg: Springer. [16] Cohen, A. (1980): On the Graphical Display of the Significant Components in a Two-way Contingency Table. Communications in Statistics-Theory and Methods, A9, 1025-1041.

https://doi.org/10.1515/9783110744194-015

768 | Literatur

[17] Cox, D.R. und Wermuth, N. (2004): Causality: A Statistical View. International Statistical Review, 72, 285-305. [18] David, H.A. (1995): First Occurrence of Common Terms in Mathematical Statistics. The American Statistician, 49 (2), 121-133. [19] David, H.A. und Nagaraja, H. N. (2003): Order Statistics. 3.te Auflage. New York: Wiley. [20] Davidson, J. (2002): Stochastic Limit Theory: An Introduction for Econometricians. Oxford: Oxford University Press. [21] De Moivre, A. (1738): The Doctrine of Chances. 2. Auflage. Die 3. Auflage (1756) wurde von Chelsea, New York, 1967, nachgedruckt.. [22] Denis, D. (2001): The Origins of Correlation and Regression: Francis Galton or Auguste Bravais and the Error Theorists?. History and Philosophy of Psychology Bulletin, 13, 36-44. [23] Der Bundeswahlleiter (2016): Internetquelle : https://www.bundeswahlleiter.de. Bundestagswahl 2013 (Zugriff am 26.07.2016).. [24] Edgeworth, F. (1888): On a new Method of Reducing Observations Relating to Several Quantities. Philosophical Magazine, 25, 184-191. [25] Eicker, F. (1967): Limit Theorems for Regression with Unequal and Dependent Errors. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press. [26] Emmerling, D. (2012): Geburten, Sterbefälle, Eheschließungen. Wirtschaft und Statistik, 744-759. Wiesbaden: Statistisches Bundesamt. [27] Europäische Zentralbank (2014a): Internetquelle: http://sdw.ecb.europa.eu. Statistical Data Warehouse, Statistics Bulletin, Section 4.8 (Zugriff am 30.04.2014). [28] Europäische Zentralbank (2014b): Internetquelle: http://sdw.ecb.europa.eu. Statistical Data Warehouse, Economic Concepts, Exchange Rates (Zugriff am 31.05.2014). [29] Fahrmeir, L., Künstler, R., Pigeot, I. und Tutz, G. (2010): Statistik: Der Weg zur Datenanalyse. 7. Auflage. Berlin; Heidelberg: Springer. [30] Fahrmeir, L., Kneib, T., Lang, S. und Marx, B. (2013): Regression: Models, Methods and Applications. Berlin; Heidelberg: Springer. [31] Fechner, G.T. (1878): Ausgangswerth der kleinsten Abweichungssumme, dessen Bestimmung, Verwendung und Verallgemeinerung. Abhandlungen der mathematisch-physischen Classe der königlich sächsischen Gesellschaft der Wissenschaften, Band 11, 1-76. [32] Fisher, R.A. (1915): Frequency Distribution of the Values of the Correlation Coefficient in Samples from an indefinitely Large Population. Biometrika, 10, 507-521. [33] Fisher, R.A. (1918): The Correlation between Relatives on the Supposition of Mendelian Inheritance. Trans. Roy. Soc. Edinb., 52, 399-433.

Literatur

| 769

[34] Fisher, R.A. (1921): On the „Probable Error“ of a Coefficient of Correlation deduced from a Small Sample. Metron, 1, 3-32. [35] Fisher, R.A. (1922): On the Mathematical Foundations of Theoretical Statistics. Phil. Trans. R. Soc. Lond. A, 222, 309-368. [36] Fisher, R.A. (1925a): Statistical Methods for Research Workers. Edinburgh: Oliver and Boyd. [37] Fisher, R.A. (1925b): Theory of Statistical Estimation. Mathematical Proceedings of the Cambridge Philosophical Society, 22, 700-725. [38] Fisher, R.A. (1935): The Design of Experiments. Edingburgh: Oliver and Boyd. [39] Forschungsgruppe Wahlen (2016): Internetquelle: http://www.forschungsgruppe.de. Umfragen, Politbaromenter, Archiv (Zugriff am 26.07.2016). [40] Friendly, M. (1992): Graphical methods for Categorical Data. SAS User Group International Conference Proceedings, 17, 190-200. [41] Friendly, M. (1994): Mosaic Displays for Multi-way Contingency Tables. Journal of the American Statistical Association, 89, 190-200. [42] Fuller, W.A. (2006): Measurement Error Models. New York: Wiley. [43] Gabriel, K. R. (1971): The Biplot Graphic Display of Matrices with Application to Principal Component Analysis. Biometrika, 58, 453-467. [44] Galton, F. (1882): Report of the Anthropometric Committee. Report of the 51st Meeting of the British Association for the Advancement of Science, 245-260. [45] Galton, F. (1885a): Some Results of the Anthropometric Laboratory. Journal of the Anthropological Institute of Great Britain and Ireland, 14, 275-287. [46] Galton, F. (1885b): Section H; Anthropology; Opening Address. Nature, 32, 507510. [47] Galton, F. (1886): Regression towards Mediocrity in Hereditary Stature. Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263. [48] Galton, F. (1888): Co-relations and their Measurement, chiefly from Anthopometric Data. Proceedings of the Royal Society of London, 45, 135-145. [49] Gauss, C.F. (1809): Theoria motus corporum coelestium in sectionibus conicis solem ambientium. Hamburg: Perthes et Besser. [50] Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A. und Rubin, D.B. (2014): Bayesian Data Analysis. Boca Raton, FL: Chapman & Hall/CRC. [51] Gini, C. (1912): Variabilità e mutabilità. Contributo allo studio delle distribuzioni e delle relazioni statistiche. Bologna: Tipografia di Paolo Cuppini. [52] Gosset, W. S. (1908): The Probable Error of a Mean. Veröffentlicht unter dem Pseudonym Student. Biometrika, 6, 1-25. [53] Gower, J., Lubbe, S. und Le Roux, N. (2011): Understanding Biplots. Hoboken, N. J.: Wiley. [54] Greenacre, M. (2007): Correspondence Analysis in Practice. 2. Auflage. Boca Raton, FL: Chapman & Hall/CRC. [55] Greenacre, M. (2010): Biplots in Practice. Fundación BBVA (FBBVA).

770 | Literatur

[56] Greenacre, M. (2012): Biplots: The Joy of Singular Value Decomposition. WIREs Comput Stat 2012, 4:399-406. doi: 10.1002/wics.1200. [57] Grohmann, H. (1985): Vom theoretischen Konstrukt zum statistischen Begriff: das Adäquationsproblem. Allgemeines Statistisches Archiv, 69, 1-15. [58] Grohmann, H., Krämer, W. und Steger, A. (2011): Statistik in Deutschland: 100 Jahre Deutsche Statistische Gesellschaft. Berlin; Heidelberg: Springer. [59] Hafner, R. (1989): Wahrscheinlichkeitsrechnung und Statistik. Wien: Springer. [60] Hald, A. (1990): A History of Probability and Statistics and their Applications before 1750. New York: Wiley. [61] Hald, A. (1998): A History of Mathematical Statistics from 1750 to 1930. New York; Weinheim: Wiley. [62] Hald, A. (2007): A History of Parametric Statistical Inference from Bernoulliy to Fisher, 1713 to 1935. New York: Springer. [63] Hartigan, J.A. und Kleiner, B. (1981): Mosaics for Contingency Tables. Computer Science and Statistics: Proceedings of the 13th Symposium on the Interface, 268273. New York: Springer. [64] Hartigan, J.A. und Kleiner, B. (1984): A Mosaic of Television Ratings. The American Statistician, 38, 32-35. [65] Hartung, J., Elpelt, B. und Klösener, K.-H. (2009): Statistik: Lehr- und Handbuch der angewandten Statistik. 15. Auflage. München: Oldenbourg. [66] Hartung, J. und Heine, B. (2004): Statistik-Übungen: Induktive Statistik. 4. Auflage. München: Oldenbourg. [67] Heiler, S. und Michels, P. (1994): Deskriptive und explorative Datenanalyse. München: Oldenbourg. [68] Johnson, R.A. und Wichern, D.W. (2014): Applied Multivariate Statistical Analysis. Pearson. [69] Kälble, K. (1997): Die Entwicklung der Kausalität im Kulturvergleich: Untersuchung zur historischen Entwicklungslogik der Kognition. Opladen: Westdeutscher Verlag. [70] Kendall, M.G. (1940): Note on the Distribution of Quantiles for Large Samples. Supplement to the Journal of the Royal Statistical Society, 7, 83-85. [71] Khintchine, A.Y. (1929): Sur la loi des grands nombres. C.R. Acad. Sci., Paris, 188, 477-479. [72] Knight, K. (2000): Mathematical Statistics. Boca Raton, FL: Chapman & Hall/CRC. [73] Koenker, R. (2005): Quantile Regression. Cambridge: Cambridge University Press. [74] Kolmogoroff, A.N. (1933): Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin: Springer. [75] Krämer, W. und Sonnberger, H. (1986): The Linear Regression Model under Test. Heidelberg, Wien: Physica-Verlag. [76] Krämer, W. (2006): Grundkurs Statistik. Neue Zürcher Zeitung, Folio 01/2006.

Literatur

| 771

[77] Kruskal, W.H. und Mosteller, F. (1979a): Representative Sampling, I: Nonscientific Literature. International Statistical Review, 47, 13-24. [78] Kruskal, W.H. und Mosteller, F. (1979b): Representative Sampling, II: Scientific Literature, Excluding Statistics. International Statistical Review, 47, 111-127. [79] Kruskal, W.H. und Mosteller, F. (1979c): Representative Sampling, III: The Current Statistical Literature. International Statistical Review, 47, 245-265. [80] Kruskal, W.H. und Mosteller, F. (1980): Representative Sampling, IV: The History of the Concepts in Statistics, 1895-1939. International Statistical Review, 48, 169195. [81] Laplace, P.S. (1812): Théorie Analytique des Probabilités. Paris: Courcier. [82] Laplace, P.S. (1818): Deuxième Supplément a la Théorie Analytique des Probabilités. Paris: Courcier. [83] Laplace, P.S. (1799-1805): Traité de mécanique céleste. Paris: Duprat (vols. 1-3) and Courcier (vol. 4). [84] Le Cam, L. (1986): The Central Limit Theorem around 1935. Statistical Science, Vol. 1, No. 1, 78-96. [85] Lehmann, E.L. und Casella, G. (1998): Theory of Point Estimation. 2. Auflage. New York: Springer. [86] Lehmann, E.L. und Romano, J.P. (2008): Testing Statistical Hypotheses. 3. Auflage. New York: Springer. [87] Legendre, A.M. (1805): Nouvelles méthodes pour la détermination des orbites des comètes. Paris: Courcier. [88] Liese, F. und Miescke, K.-J. (2008): Statistical Decision Theory. New York: Springer. [89] Little, R.J.A. und Rubin, D.B. (2002): Statistical Analysis with Missing Data. Hoboken, NJ: John Wiley & Sons. [90] Lorenz, M.O. (1905): Methods of Measuring the Concentration of Wealth. Publications of the American Statistical Association, 9 (70), 209-219. [91] Markov, A.A. (1913): Ischislenie Veroiatnostei [The Calculus of Probabilities]. 3. Auflage. St. Petersburg: Tipografia Imperatorskoi Akademii Nauk. [92] McGill, R., Tukey, J.W. und Larsen, W.A. (1978): Variations of Boxplots. The American Statistician 32, 12-16. [93] Meyer, D., Zeileis, A. und Hornik, K. (2006): The Strucplot Framework: Visualizing Multi- way Contingency Tables with vcd. Journal of Statistical Software, 17(3), 1-48. [94] Mood, A.M., Graybill, F.A. und Boes, D.C. (1974): Introduction to the Theory of Statistics. 3. Auflage. New York u. a.: McGraw-Hill. [95] Nelder, J.A. und Wedderburn, R.W.M. (1972): Generalized Linear Models. Journal of the Royal Statistical Society (Series A), 135, 370-384. [96] Neter, J., Kutner, M.H., Nachtsheim, C.J. und Wassermann, W. (1996): Applied Linear Statistical Models. 4. Auflage. Boston u.a.: McGraw-Hill. [97] Neyman, J. and Pearson E.S. (1928): On the Use and Interpretation of Certain

772 | Literatur

[98] [99] [100] [101] [102]

[103] [104]

[105] [106]

[107] [108] [109] [110] [111]

[112] [113] [114] [115]

Test Criteria for Purposes of Statistical Significance (Part I and II). Biometrika, 20 (1/2), 175-294. Neyman, J. and Pearson E.S. (1933): On the Problem of the Most Efficient Tests on Statistical Hypotheses. Phil. Trans. R. Soc. Lond. A, 231, 289-337. Pawlik, K. (1959): Der maximale Kontingenzkoeffizient im Falle nichtquadratischer Kontingenztabellen. Metrika, 2, 150-166. Pearl, J. (2009): Causal Inference in Statistics: An Overview. Statistics Surveys, 3, 96-146. Pearson, K. (1894): Contributions to the Mathematical Theory of Evolution. Phil. Trans. R. Soc. Lond. A, 185, 71-110. Pearson, K. (1895): Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material. Phil. Trans. R. Soc. Lond. A, 186, 343414. Pearson, K. (1896): Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity, and Panmixia. Phil. Trans. R. Soc. Lond. A, 187, 253-318. Pearson, K. (1900a): On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling. Philosophical Magazine, Series 5, 50, 157-175. Pearson, K. (1900b): The Grammar of Science. 2. Auflage. London: Adam and Charles Black. Pearson, K. (1904): Drapers’ Company Research Memoirs. Mathematical Contributions to the theory of Evolution. XIII.On the Theory of Contingency and its Relation to Association and Normal Correlation. London: Dulau and Co Pearson, K. (1920): Notes on the History of Correlation. Biometrika, 13, 25-45. Pillai, K.C.S. (1950): On the Distributions of Midrange and Semi-Range in Samples from a Normal Population. The Annals of Mathematical Statistics, 21, 100-105. Quatember, A. (2005): Das Signifikanz-Relevanz-Problem beim statistischen Testen von Hypothesen. ZUMA-Nachrichten, 57, 128-150. Rencher, A.C. (2012): Linear Models in Statistics. 3. Auflage. New York: Wiley. Poisson, S.D. (1837): Recherches sur la probabilité des jugemens en matière criminelle at en matière civile, précédes des règles générales du calcul des probabilités. Paris: Bachelier. Rodgers, J.L. und Nicewander, W.A. (1988): Thirteen Ways to look at the Correlation Coefficient. The American Statistician, 42, 59-66. Rohatgi, V.K., und Saleh, A.K.Md. (2000): An Introduction to Probability and Statistics. 2. Auflage. Wiley. Sachs, L. und Hedderich, J. (2012): Angewandte Statistik: Methodensammlung mit R. 14. Auflage. Berlin; Heidelberg: Springer. Sachverständigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung (2013): Jahresgutachten 2013/2014.

Literatur

| 773

[116] Schira, J. (2012): Statistische Methoden in der VWL und BWL. 4. Auflage. München: Pearson. [117] Schlittgen, R. (2013): Regressionsanalysen mit R. München: Oldenbourg. [118] Schumacher, M. und Schulgen, G. (2008): Methodik klinischer Studien. 3. Auflage. Berlin: Springer. [119] Seneta, E. (1992): On the history of the strong law of large numbers and Boole’ s inequality. Historia Math., 19, 24-39. [120] Seneta, E. (2013): A Tricentenary history of the Law of Large Numbers. Bernoulli, 19(4), 1088-1121. [121] Shaffer, J.P. (1991): The Gauß-Markov Theorem and Random Regressors. The American Statistician, 45, 269-274. [122] Spearman, C. (1904): The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15, 72-101. [123] Statistische Ämter des Bundes und der Länder (2014): Internetquelle: https://www.regionalstatistik.de. Regionaldatenbank (Zugriff am 30.04.14). [124] Statistisches Bundesamt (2013a): Statistisches Jahrbuch 2013. Artikelnummer: 1010110137004. [125] Statistisches Bundesamt (2013b): Bildungsstand der Bevölkerung. Artikelnummer: 5210002137004. [126] Statistisches Bundesamt (2014a): Wirtschaftsrechnungen - LEBEN IN EUROPA (EU-SILC). Einkommen und Lebensbedingungen in Deutschland und der Europäischen Union. Fachserie 15, Reihe 3. Artikelnummer: 2150300127004. [127] Statistisches Bundesamt (2014b): Internetquelle: https://www.destatis.de. Zahlen & Fakten. Volkswirtschaftliche Gesamtrechnungen, Inlandsprodukt (Zugriff am 31.05.14). [128] Statistisches Bundesamt (2014c): Rechtspflege, Strafverfolgung. I.2 Lange Reihen über verurteilte Deutsche und Ausländer nach Art der Straftat, Altersklassen und Geschlecht. Deutschland seit 2007. Stand vom 17.03.2014. Artikelnummer: 5243105127004. [129] Statistisches Bundesamt (2014d): Preise, Verbraucherpreisindizes. Lange Reihen ab 1948. Artikelnummer: 5611103141064. [130] Stefanski, L.A. (2000): Measurement Error Models. Journal of American Statistical Association, 95, 1353-1358. [131] Stigler, S.M. (1973): Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency. Biometrika, 60, 439-445. [132] Stigler, S.M. (1981): Gauss and the Invention of Least Squares. The Annals of Statistics, 9, 465-474. [133] Stigler, S.M. (1986): The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge MA: Harvard University Press. [134] Stigler, S.M. (1999): Statistics on the Table: The History of Statistical Concepts and Methods. Cambridge MA: Harvard University Press.

774 | Literatur

[135] Stock, J.H. und Watson, M.M. (2012): Introduction to Econometrics. 3. Auflage. Boston: Pearson. [136] Student (1908): The Probable Error of a Mean. Eigentlich William Gosset. Biometrika, 6, 1-25. [137] Thadewald, T. und Büning, H. (2007): Jarque-Bera Test and its Competitors for Testing Normality: A Power Comparison. Journal of Applied Statistics, 34, 87-105. [138] Tukey, J.W. (1977): Exploratory Data Analysis. Reading MA: Addison-Wesley. [139] Tutz, G. (2012): Regression for Categorical Data. Cambridge: Cambridge University Press. [140] United Nations Statistics Division (2014): Internetquelle: http://unstats.un.org/unsd/databases.htm (Zugriff am 30.04.2014). [141] Urban, D. und Mayerl, J. (2011): Regressionsanalyse: Theorie, Technik und Anwendung. 4. Auflage. Wiesbaden: VS Verlag.. [142] Verbeek, M. (2008): A Guide to Modern Econometrics. 3. Auflage. Hoboken, NJ: Wiley. [143] Wermuth, N. und Streit, R. (2007): Einführung in statistische Analysen. Berlin; Heidelberg: Springer. [144] White, H. (1980): A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, 45, 817-838. [145] White, H. (2001): Asymptotic Theory for Econometricians. San Diego u. a.: Academic Press. [146] Windeler, J. und Conradt, C. (1999): Wie können „Signifikanz“ und „Relevanz“ verbunden werden?. Medizinische Klinik, 94, 652-655. [147] Witting, H. und Müller-Funk, U. (1995): Mathematische Statistik II. Stuttgart: Teubner. [148] Yates, F. (1934): Contingency Tables involving Small Numbers and the χ2 -Test. Journal of the Royal Statistical Society B, 1, 217-235. [149] Yule, G.U. (1897a): On the Significance of Bravais’ Formulae for Regression, etc., in the case of Skew Correlation. Proceedings of the Royal Society of London, 60, 477-489. [150] Yule, G.U. (1897b): On the Theory of Correlation. Journal of the Royal Statistical Society, 60, 812-854. [151] Yule, G.U. (1911): An Introduction to the Theory of Statistics. London: Charles Griffin and Company.