Das vorliegende Buch beschäftigt sich mit statistischer Datenanalyse in der Experimentalphysik: Fehlerrechnung, Gauß-Ver
701 139 3MB
German Pages XIII, 306 [315] Year 2019
Table of contents :
Front Matter ....Pages i-xiii
Wahrscheinlichkeit (Roland Waldi)....Pages 1-13
Zufallsvariable und Verteilungen (Roland Waldi)....Pages 15-69
Messung und Stichprobe (Roland Waldi)....Pages 71-98
Statistische Inferenz (Roland Waldi)....Pages 99-223
Tests (Roland Waldi)....Pages 225-244
Monte-Carlo-Rechnung (Roland Waldi)....Pages 245-272
Anhang A: Spezielle Funktionen (Roland Waldi)....Pages 273-277
Anhang B: Kombinatorik (Roland Waldi)....Pages 278-278
Anhang C: Weitere nützliche Formeln (Roland Waldi)....Pages 279-279
Lösungen der Aufgaben (Roland Waldi)....Pages 280-293
Back Matter ....Pages 294-306
Roland Waldi
Statistische Datenanalyse Grundlagen und Methoden für Physiker 2. Auflage
Statistische Datenanalyse
Roland Waldi
Statistische Datenanalyse Grundlagen und Methoden für Physiker 2. Auflage
Roland Waldi Institut für Physik Universität Rostock Rostock, Deutschland
ISBN 978-3-662-60644-5 ISBN 978-3-662-60645-2 (eBook) https://doi.org/10.1007/978-3-662-60645-2 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2015, 2019 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Lisa Edelhäuser Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Vorwort
Dieses Buch entstand aus einer Statistikvorlesung f¨ ur Physiker, die ich in Heidelberg, Dresden und Rostock gehalten habe. Das Ziel des vorliegenden Buches ist, •
das Grundwissen bereitzustellen, das zum Verst¨ andnis statistischer Aussagen notwendig ist, wie sie als Resultate physikalischer Messungen gemacht werden, und
•
Rezepte zur statistischen Datenanalyse zu liefern.
Ersteres beinhaltet auch ein kritisches Hinterfragen von Begriffen wie Signifikanz und Konfidenz, die allzuoft zum Beweis eines Resultats u ¨berstrapaziert werden. In diesem Sinne wird im ersten Kapitel der Begriff der Wahrscheinlichkeit, um den sich die gesamte Statistik dreht, ausf¨ uhrlich diskutiert. Im weiteren Verlauf verzichtet das Buch aber auf lange Texte. Vielmehr soll es in allen Fragen der Wahrscheinlichkeitsrechnung und Statistik in der Physik knappe, schnell zu erfassende Antworten geben. Das Buch soll nicht zuletzt ein Werkzeugk¨astchen sein, das eine Sammlung aller wichtigen statistischen Analyseverfahren im Alltag des Experimentalphysikers enth¨alt.
Alle wichtigen Gleichungen sind wie dieser Text eingerahmt, sodass beim Wiederholen oder Nachschlagen die wesentlichen Beziehungen sofort gefunden werden k¨onnen. Die Auswahl des Stoffes orientiert sich an den Bed¨ urfnissen des Experimentalphysikers. Viele S¨atze und Methoden werden durch Beispiele illustriert. Ein großer Teil dieser Beispiele stammt aus der Teilchenphysik und ist aus der Praxis der Datenanalyse beim ARGUS-Experiment entnommen. Dies sollte jedoch nicht den Eindruck erwecken, dass die vorgestellten Methoden nicht auch in anderen Bereichen der Experimentalphysik verwendet w¨ urden. Die Kapitel sind nach Themenkreisen geordnet. Diese Reihenfolge ist jedoch f¨ ur eine Vorlesung nicht unbedingt geschickt, da alle Themen miteinander zusammenh¨angen. Beispielsweise sind f¨ ur das Verst¨andnis statistischer Analy¨ semethoden begleitende Ubungen hilfreich, die praxisnah an Rechnern durchgef¨ uhrt werden k¨ onnen. Wenn die ersten Kapitel der Monte-Carlo-Rechnung recht fr¨ uh in der Vorlesung behandelt werden, k¨ onnen mit dem Hilfsmittel der Computersimulation Eigenschaften veranschaulicht und Verfahren an MonteCarlo-Daten erprobt werden. Andererseits k¨ onnen einzelne Abschnitte, z. B. 4.5.6 und 4.6.1, in einer Einf¨ uhrungsvorlesung weggelassen werden. Das Buch enth¨ alt auch einige Aufgaben. L¨osungen findet man im Anhang, L¨osungswege sind aber nur bei Aufgabenstellungen angegeben, die einen
vi wichtigen Lerninhalt vermitteln sollen. Weitere Aufgaben kann man leicht aus jenen Beispielen formulieren, welche nicht in der Vorlesung vorgerechnet werden. Zu vielen Aufgaben gibt es einen Computer-Teil, der die praktische Durchf¨ uhrung von Datenanalyseaufgaben u ¨ben soll. Dieser kann mit fast jedem leistungsf¨ ahigen Programm zur statistischen Datenanalyse durchgef¨ uhrt werden. Empfehlenswert ist das Programmpaket ROOT, das kostenlos unter http://root.cern.ch verf¨ ugbar ist. Es gibt Binaries f¨ ur Linux, OSX und Windows. Mein Dank gilt vielen Kollegen sowie H¨orern der Vorlesung. Insbesondere haben R. N. Cahn, O. Gr¨ unberg, T. Hartmann, F. Le Diberder, F. Porter, M. Schmelling, K. R. Schubert, J. Tamminga und S. Weseler durch Anregungen und Diskussionen konstruktiv zum Inhalt beigetragen. Meinen Dank verdienen auch die Mitarbeiter des Springer-Verlags, die die Umsetzung als Buch begleitet und das Manuskript lektoriert haben.
Nomenklatur Neben den u ¨blichen Symbolen der Mathematik werden folgende mathematische Zeichen verwendet: ∧ ∨ ¬ # x G(x) [f (x)]
= und = oder = nicht = Anzahl = gr¨oßte ganze Zahl ≤ x 2 = √12π e−x /2 Gaußsche Standardnormalverteilung = i f (xi ) bei Messreihen
Die letzte Abk¨ urzung f¨ ur Summen in Messreihen erlaubt eine besonders kompakte Schreibweise von Fit-Formeln. Erwartungswerte sind i. Allg. durch spitze Klammern (wie x) bezeichnet. Sch¨ atzwerte werden durch ein Dach“ markiert (wie x ˆ), Mittelwerte gele” gentlich durch einen Querstrich (wie x ¯) und wahre Werte, sofern sie nicht durch eigene Buchstaben bezeichnet werden, durch die Tilde (wie x ˜). Die Standardabweichung σ(x) oder Varianz σ 2 (x) einer Verteilung der Zufallsvariablen x wird durch die vergr¨ oßerte Schreibweise σ(x) oder σ2 (x) vom Parameter σ der Gauß-Verteilung unterschieden, wo dies notwendig ist. Matrizen sind in fetten Großbuchstaben (wie A) gesetzt. A† bezeichnet die transponierte Matrix. In diesem Buch wird nicht zwischen echten linearen Abbildungen y = A · x und affinen Abbildungen y = A · x + a unterschieden, der Begriff linear umfasst beide.
vii Zahlenwerte sind (wie in der englischsprachigen Literatur) mit Dezimalpunkt statt -komma notiert. Hyperlinks sind blau hervorgehoben.
Inhalt
1. 1.1 1.2 1.2.1 1.3 1.4 1.4.1
Wahrscheinlichkeit . . . . . . . . . . . . . . Die Axiome . . . . . . . . . . . . . . . . . . Physikalische Wahrscheinlichkeit . . . . . . . . Wahrscheinlichkeit und H¨aufigkeit . . . . . . . Subjektive Wahrscheinlichkeit – Wahrscheinlichkeit tionsmaß . . . . . . . . . . . . . . . . . . . Bedingte Wahrscheinlichkeit . . . . . . . . . . Das Theorem von Bayes . . . . . . . . . . .
. . . . . . 1 . . . . . . 1 . . . . . . 3 . . . . . . 7 als Informa. . . . . . 8 . . . . . . 9 . . . . . 11
2. 2.1 2.2 2.2.1 2.2.2 2.2.3 2.3 2.3.1 2.4 2.4.1 2.4.2 2.4.3 2.5 2.6 2.6.1 2.6.2 2.7 2.8 2.8.1 2.9 2.9.1 2.9.2 2.9.3 2.9.4 2.9.5 2.9.5.1 2.9.5.2 2.9.6 2.9.7 2.9.7.1 2.9.8 2.10
Zufallsvariable und Verteilungen . . . . . . . . . . Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . . Funktionen von Zufallsvariablen . . . . . . . . . . . . . Verteilung der Verteilungsfunktion . . . . . . . . . . Funktionen von Zufallsvariablen in mehreren Dimensionen Die Faltung zweier Verteilungen . . . . . . . . . . . . Erwartungswerte . . . . . . . . . . . . . . . . . . . . Erwartungswert der Verteilungsfunktion . . . . . . . . Momente . . . . . . . . . . . . . . . . . . . . . . . Varianz . . . . . . . . . . . . . . . . . . . . . . . Tschebyschewsche Ungleichung . . . . . . . . . . . . Absolute, faktorielle und normierte Momente . . . . . . Momente mehrdimensionaler Verteilungen . . . . . . . . Kovarianz . . . . . . . . . . . . . . . . . . . . . . . Kovarianzmatrix . . . . . . . . . . . . . . . . . . . Transformation von Mittelwerten und Kovarianzmatrix . Maxima und Minima von Zufallsvariablen . . . . . . . . Charakteristische Funktion . . . . . . . . . . . . . . . Wahrscheinlichkeitserzeugende Funktion . . . . . . . . Spezielle Verteilungen . . . . . . . . . . . . . . . . . Gleichverteilung . . . . . . . . . . . . . . . . . . . Lineare Verteilung . . . . . . . . . . . . . . . . . . Potenzfunktionen . . . . . . . . . . . . . . . . . . Exponentialverteilung . . . . . . . . . . . . . . . . Gauß-Verteilung . . . . . . . . . . . . . . . . . . . Die charakteristische Funktion der Gauß-Verteilung . . Additivit¨ at: Faltung zweier Gauß-Verteilungen . . . . Chiquadrat-Verteilung . . . . . . . . . . . . . . . . Die n-dimensionale Gauß-Verteilung . . . . . . . . . . Zweidimensionale Gauß-Verteilung . . . . . . . . . Die Log-Normalverteilung . . . . . . . . . . . . . . Der zentrale Grenzwertsatz . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15 16 22 23 24 28 29 31 32 33 34 34 36 36 38 40 42 44 46 47 48 50 50 51 53 57 58 59 62 64 66 68
3. 3.1 3.1.1
Messung und Stichprobe . . . . . . . . . . . . . . . Fehlerrechnung . . . . . . . . . . . . . . . . . . . . . Fehlerfortpflanzung . . . . . . . . . . . . . . . . . .
71 72 74
x 3.1.1.1 Viele Messwerte . . . . . . . . . . . . . . . . . 3.1.2 Systematische Fehler . . . . . . . . . . . . . . . . 3.1.2.1 Sch¨atzen systematischer Fehler . . . . . . . . . . 3.1.2.2 Externe systematische Fehler . . . . . . . . . . . 3.2 Z¨ ahlen von Ereignissen . . . . . . . . . . . . . . . . 3.2.1 Binomialverteilung . . . . . . . . . . . . . . . . . 3.2.2 Mehrere Ereignisse: Multinomialverteilung . . . . . . 3.2.3 Poisson-Verteilung als Grenzfall der Binomialverteilung 3.2.3.1 Eigenschaften der Poisson-Verteilung . . . . . . . 3.2.3.2 Additivit¨ at: Faltung zweier Poisson-Verteilungen . . 3.2.3.3 Zweidimensionale korrelierte Poisson-Daten . . . . 3.2.4 Hypergeometrische Verteilung . . . . . . . . . . . . 3.2.5 Negative Binomialverteilung . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
78 79 81 82 83 84 87 89 91 94 94 95 97
4. 4.1 4.1.1 4.1.2 4.1.2.1 4.1.2.2 4.1.2.3 4.1.3 4.1.3.1 4.1.4 4.1.4.1 4.1.5 4.1.5.1 4.1.5.2 4.1.6 4.1.6.1 4.1.7 4.1.8 4.1.9 4.1.9.1 4.2 4.3 4.3.1 4.4 4.4.1 4.5 4.5.1 4.5.2 4.5.3 4.5.4 4.5.4.1 4.5.5 4.5.6 4.6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99 100 101 104 105 106 108 109 110 111 114 117 118 120 121 122 123 126 129 132 133 135 137 138 141 144 145 148 148 151 152 154 156 158
Statistische Inferenz . . . . . . . . . . . . . . . Stichprobenfunktionen . . . . . . . . . . . . . . . Punkt- und Intervallsch¨ atzung . . . . . . . . . . Messreihen . . . . . . . . . . . . . . . . . . . Erwartungstreue Sch¨ atzwerte . . . . . . . . . . Mittelwert bei Untergrundsubtraktion . . . . . . Effizienz von Mittelwerten . . . . . . . . . . . Messreihen von Wertepaaren . . . . . . . . . . . Die Regressionsgerade . . . . . . . . . . . . . Histogramme: Sch¨atzung aus Multinomialverteilungen Dichten . . . . . . . . . . . . . . . . . . . . Sch¨atzung aus Poisson-Verteilungen . . . . . . . . Gewichtete Daten . . . . . . . . . . . . . . . Signal und Untergrund . . . . . . . . . . . . . Sch¨atzung aus Binomialverteilungen . . . . . . . . Gewichtete Daten . . . . . . . . . . . . . . . Die empirische Verteilungsfunktion . . . . . . . . Sch¨atzung aus Gauß-Verteilungen . . . . . . . . . Die Studentsche t-Verteilung . . . . . . . . . . . Eigenschaften der Breit-Wigner-Verteilung . . . . Ersch¨ opfende Sch¨atzfunktion . . . . . . . . . . . . Likelihood . . . . . . . . . . . . . . . . . . . . . Likelihood und a posteriori -Wahrscheinlichkeit . . . Maximum-Likelihood-Sch¨ atzung . . . . . . . . . . . Score und Informationsfunktion . . . . . . . . . . Wirksamste Sch¨ atzfunktion . . . . . . . . . . . . . Ungleichung von Rao und Cram´er . . . . . . . . . Addition von Information . . . . . . . . . . . . . Suffizienz und Effizienz . . . . . . . . . . . . . . Fehler eines Maximum-Likelihood-Sch¨atzwerts . . . Likelihood-Ratio . . . . . . . . . . . . . . . . Bias beim Maximum-Likelihood-Fit . . . . . . . . Optimale Variablen und Asymmetrieparameter . . . Varianzreduktion . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi 4.6.1 Stratified Sampling . . . . . . . . . . . . . . . . . . . 158 4.7 Minimum-Chiquadrat-Sch¨atzung . . . . . . . . . . . . . 160 4.7.1 Anwendung: Daten mit unterschiedlichen Fehlern . . . . . 161 4.7.1.1 Stark korrelierte Fehler . . . . . . . . . . . . . . . . 163 4.7.2 Mittelbare Messung: Fit bei linearem Zusammenhang . . . 164 4.7.3 Allgemeine Verteilungen und das Gauß-Markow-Theorem . 167 4.7.4 Kurven-Fit . . . . . . . . . . . . . . . . . . . . . . 168 4.7.4.1 Fit einer Geraden . . . . . . . . . . . . . . . . . . 168 4.7.4.2 Geraden-Fit und Regressionsgerade . . . . . . . . . . 170 4.7.4.3 Geraden-Fit bei unbekannten Fehlern . . . . . . . . . 170 4.7.4.4 Fit einer Funktion y = cm φm (x) . . . . . . . . . . 170 4.7.5 Beurteilung von Fehlerbalken . . . . . . . . . . . . . . 173 4.7.6 Fit bei nichtlinearem Zusammenhang . . . . . . . . . . 173 4.7.7 Ausgleichsrechnung mit linearen Constraints . . . . . . . 174 4.7.7.1 Unscharfe Constraints . . . . . . . . . . . . . . . . 178 4.7.7.2 Mittelbare Messung mit Constraints . . . . . . . . . . 179 4.7.8 Ausgleichsrechnung mit allgemeinen Constraints . . . . . 180 4.8 Fit von Verteilungen . . . . . . . . . . . . . . . . . . . 183 4.8.1 Multinomial- und Poisson-Fit an Histogramme . . . . . . 183 4.8.2 Minimum-Chiquadrat-Fit . . . . . . . . . . . . . . . . 186 4.8.3 Der Poisson-Fit als iterativer Minimum-Chiquadrat-Fit . . 187 4.8.4 Darstellung einer Fit-Funktion . . . . . . . . . . . . . 188 4.8.5 Mehrdimensionale Verteilungen . . . . . . . . . . . . . 189 4.8.6 Einzelwert-Fit . . . . . . . . . . . . . . . . . . . . . 190 4.8.7 Pseudo-Likelihood-Methoden . . . . . . . . . . . . . . 199 4.8.8 Sch¨atzen von Signalverteilungen . . . . . . . . . . . . . 200 4.9 Intervallsch¨atzung . . . . . . . . . . . . . . . . . . . . 203 4.9.1 Die klassische Methode: Wahrscheinlichkeitsinferenz . . . 204 4.9.1.1 Konfidenz-Obergrenzen . . . . . . . . . . . . . . . . 207 4.9.1.2 Konfidenzintervalle nach Feldman und Cousins . . . . . 209 4.9.1.3 Zweiseitig begrenzte Poisson-Konfidenzintervalle . . . . 211 4.9.1.4 Konfidenzintervalle f¨ ur Wahrscheinlichkeiten . . . . . . 213 4.9.2 Die Bayessche Methode: Likelihood-Inferenz . . . . . . . 214 4.9.2.1 Konfidenzintervalle f¨ ur Wahrscheinlichkeiten . . . . . . 220 4.9.3 Die Likelihood-Quotienten-Methode . . . . . . . . . . . 221 4.9.4 Grenzen und Stichprobenumfang . . . . . . . . . . . . 223 5. 5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.2 5.2.1 5.2.2 5.2.3 5.2.4
Tests . . . . . . . . . . . . . . . . . . . . . . . . Signifikanztest . . . . . . . . . . . . . . . . . . . . Einfache Hypothesen . . . . . . . . . . . . . . . . Intervallsch¨atzung als Test . . . . . . . . . . . . . Signal und Untergrund . . . . . . . . . . . . . . . Zwei-Hypothesen-Tests . . . . . . . . . . . . . . . G¨ ute einer Anpassung . . . . . . . . . . . . . . . . Chiquadrat-Test . . . . . . . . . . . . . . . . . . Kombination mehrerer Chiquadrat-Tests . . . . . . . Likelihood-Ratio-Test . . . . . . . . . . . . . . . Empirischer Anpassungstest mithilfe der Log-Likelihood
. . . . . . . . . . .
. . . . . . . . . . .
225 225 230 232 233 236 237 237 239 240 240
xii 5.2.5 5.2.6 5.2.6.1 6. 6.1 6.2 6.2.1 6.2.2 6.2.2.1 6.2.2.2 6.2.2.3 6.2.2.4 6.2.3 6.2.3.1 6.2.4 6.2.5 6.3 6.3.1 6.3.2 6.3.3 6.3.4 6.3.4.1 6.3.5 6.3.6 6.3.6.1 6.3.6.2 6.3.6.3 6.4 6.5 6.5.1 6.5.2 6.6
Der Studentsche t-Test . . . . . . . . . . . . . . . . . 241 Kolmogorow-Smirnow-Test . . . . . . . . . . . . . . . 242 Vergleich zweier Stichproben . . . . . . . . . . . . . 243 Monte-Carlo-Rechnung . . . . . . . . . . . Quasi-Zufallszahlen . . . . . . . . . . . . . . Uniforme Pseudozufallsgeneratoren . . . . . . . Coveyou-Generator . . . . . . . . . . . . . . Multiplikativ kongruentielle Generatoren . . . . Gemischt kongruentielle Generatoren . . . . Mehrfach kongruentielle Generatoren . . . . Marsaglia-Effekt . . . . . . . . . . . . . . Der Spektraltest . . . . . . . . . . . . . . Fibonacci-Generatoren . . . . . . . . . . . . Add-and-Carry-Generatoren . . . . . . . . Invers kongruentielle Generatoren . . . . . . . Explizite invers kongruentielle Generatoren . . . Generation beliebiger Verteilungen . . . . . . . Analytisches Verfahren . . . . . . . . . . . . Diskretisierung . . . . . . . . . . . . . . . Generation diskreter Verteilungen . . . . . . . Hit or Miss . . . . . . . . . . . . . . . . . Hit or Miss in mehreren Dimensionen . . . . Importance Sampling . . . . . . . . . . . . . Beispiele: Generation wichtiger Verteilungen . . Gaußverteilte Zufallszahlen . . . . . . . . . Gamma- und chiquadratverteilte Zufallszahlen Generation isotroper Einheitsvektoren . . . . Monte-Carlo-Simulation . . . . . . . . . . . . Monte-Carlo-Integration . . . . . . . . . . . . Hit or Miss . . . . . . . . . . . . . . . . . Funktionsmittelung . . . . . . . . . . . . . Gewichtete Daten . . . . . . . . . . . . . . .
Anhang A: Spezielle Funktionen . . . . A.1 Gammafunktion und Fakult¨at . . . . A.2 Betafunktion und Binomialkoeffizienten A.3 Unvollst¨andige Exponentialreihe . . . A.4 Integrale der Chiquadrat-Verteilung . A.5 Gaußsches Fehlerintegral . . . . . . A.6 Die Diracsche δ-Funktion . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
245 245 245 247 248 251 252 252 254 255 256 257 258 258 258 258 259 260 261 262 263 263 264 265 266 267 269 269 270
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
273 273 273 274 274 276 277
Anhang B: Kombinatorik . . . . . . . . . . . . . . . . . . . 278 B.1 Permutationen . . . . . . . . . . . . . . . . . . . . . . 278 B.2 Kombinationen . . . . . . . . . . . . . . . . . . . . . 278 Anhang C: Weitere n¨ utzliche Formeln . . . . . . . . . . . . 279 C.1 Matrizenrechnung . . . . . . . . . . . . . . . . . . . . 279 C.2 Endliche und unendliche Summen . . . . . . . . . . . . . 279 L¨ osungen der Aufgaben . . . . . . . . . . . . . . . . . . . . 280
xiii Erg¨ anzende und weiterf¨ uhrende Literatur
. . . . . . . . . . 294
Fachw¨ orterverzeichnis . . . . . . . . . . . . . . . . . . . . . 295 Englisch–Deutsch . . . . . . . . . . . . . . . . . . . . . . . . 295 Deutsch–Englisch . . . . . . . . . . . . . . . . . . . . . . . . 297 Stichwortverzeichnis
. . . . . . . . . . . . . . . . . . . . . 300
1.
Wahrscheinlichkeit
Der Begriff Wahrscheinlichkeit ist uns allen aus dem Alltag vertraut. Tats¨achlich ist der mathematische Zweig der Wahrscheinlichkeitstheorie oder Stochastik 1 aus dieser Erfahrung gewachsen, und war mit dem Teilgebiet Statistik 2 eine anwendungsorientierte Theorie. Erst im 20. Jahrhundert wurde eine axiomatische Wahrscheinlichkeitstheorie als Teilgebiet der reinen Mathematik entwickelt. Zum Verst¨andnis statistischer Aussagen ist es jedoch sinnvoll, den Wahrscheinlichkeitsbegriff etwas genauer zu hinterfragen. Beginnen wir mit der reinen Mathematik.
1.1
Die Axiome
Wahrscheinlichkeit im mathematischen Sinne ist – wie alle mathematischen Objekte – ein abstrakter Begriff mit wohldefinierten Eigenschaften, die als Axiome gegeben sind. Obwohl die Wahrscheinlichkeitsrechnung nicht gerade ein junger Zweig der Mathematik ist, wurde u ¨ber ihre Axiomatisierung erstaunlich sp¨ at nachgedacht. Die heute verwendeten Axiome wurden um 1930 von Kolmogorow (Андрей Николаевич Колмогоров) aufgestellt3 . Die Wahrscheinlichkeitstheorie, die aus diesen Axiomen abgeleitet wird, kann auf alle Objekte angewandt werden, die diese Eigenschaften aufweisen. Das macht sie zu einem n¨ utzlichen Werkzeug in den Naturwissenschaften, in denen mit der physikalischen Wahrscheinlichkeit gearbeitet wird. Die Axiome definieren eine Ereignismenge E := {. . . Ai . . .} von sich gegenseitig ausschließenden Ereignissen Ai und eine Wahrscheinlichkeit P als eine Eigenschaft eines jeden Mitglieds dieser Menge. P ist eine Abbildung (Funktion) von E auf die reellen Zahlen R. Eine Wahrscheinlichkeit P ist ein nichtnegatives, normiertes, vollst¨andig additives Maß auf dem Borelschen Mengenk¨orper Z von Teilmengen der Menge E. Im Einzelnen bedeutet dies: Axiom 1: P (A) ≥ 0 ∀A ∈ E P (A) = 1 Axiom 2:
(1.1) (1.2)
A∈E
Axiom 3: P (Ai ∨ Aj ) = P (Ai ) + P (Aj ) 1 2 3
∀Ai , Aj ∈ E
Von griech. στ oχαστ˘ικ´ oς = scharfsinnig, geschickt im Erraten. Von griech. στ α ˘τ ´ oς , lat. status = [hin]gestellt, Zustand. Andrei Nikolajewitsch Kolmogorow, Ergeb. Math. 2, 3 (1933).
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 R. Waldi, Statistische Datenanalyse, https://doi.org/10.1007/978-3-662-60645-2_1
(1.3)
2
1. Wahrscheinlichkeit
Axiom (1) und (2) legen den Wertebereich der Wahrscheinlichkeit von 0 bis 1 fest und definieren die Funktion Wahrscheinlichkeit von A zusammen mit der Menge aller A. Ein trivialer Satz folgt unmittelbar aus diesen beiden Axiomen: P (A) ≤ 1 ∀A ∈ E (1.4) Axiom (3) kann man als Definition der oder -Beziehung zwischen Ereignissen aus E betrachten. Wenn man die Elemente der Menge E als tats¨achliche Ereignisse auffasst, bedeutet ∨ in Axiom (3) ein oder zwischen exklusiven Ereignissen Ai und Aj , d. h., je zwei Ereignisse schließen sich gegenseitig aus. Eine alternative Schreibweise, die die Verkn¨ upfung oder durch Mengen ausdr¨ uckt, ist (1.5) P (Ai ∨ Aj ) = P ({Ai , Aj }) Durch Axiom (3) wird also auch jeder Menge von Ereignissen eine Wahrscheinlichkeit zugeordnet. Ereignisse im allgemeineren Sinne sind demnach alle Untermengen B ⊆ E (der Borelsche Mengenk¨ orper). Die einelementigen Mengen {Ai } sind dabei die elementaren Ereignisse Ai . F¨ ur eine beliebige Menge gilt P (A1 ∨ A2 ∨ · · · ∨ An ) = P ({A1 , A2 , . . . , An }) =
n
P (Ai )
(1.6)
i=1
Die Anwendung auf Mengen wird konsistent erg¨anzt durch die Definition P (∅) = 0
(1.7)
In dieser Schreibweise wird Axiom (2) einfach P (E) = 1. Die Menge E heißt auch sicheres Ereignis. Es gibt keine Einschr¨ ankungen bez¨ uglich der M¨ achtigkeit der Menge E. F¨ ur alle abz¨ ahlbaren endlichen oder unendlichen Mengen l¨asst sich die Wahrscheinlichkeit sinnvoll definieren. F¨ ur u ¨berabz¨ ahlbar unendliche Mengen, etwa die reellen Zahlen R, kann man nur im trivialen Fall, wenn f¨ ur fast alle x ∈ R P (x) = 0 ist, mit Wahrscheinlichkeiten f¨ ur alle Elemente arbeiten. Man kann jedoch im Sinne von Axiom (3) f¨ ur alle Untermengen mit von 0 verschiedenem Maß, bei R etwa f¨ ur alle Intervalle, Wahrscheinlichkeiten sinnvoll und konsistent festlegen. Dies f¨ uhrt unmittelbar auf den Begriff der Wahrscheinlichkeitsdichte f (x) f¨ ur alle x ∈ R, mit der Definition b P (a ≤ x ≤ b) = a f (x) dx. Alles, was die Axiome erf¨ ullt, ist eine Wahrscheinlichkeit im mathematischen Sinn. Die Axiome definieren nicht die Wahrscheinlichkeit. Weder E noch P sind durch die Axiome eindeutig festgelegt. Die Wahrscheinlichkeitsrechnung gibt sogar Regeln vor, nach denen man neue E und/oder P aus gegebenen konstruieren kann. Eine Menge E = E ∪ {B} \ {Ai , Aj }
1.2. Physikalische Wahrscheinlichkeit
3
erf¨ ullt mit der gleichen Funktion P (A) ebenfalls die Axiome, wenn B das kombinierte Ereignis Ai oder Aj bedeutet, und P (B) = P (Ai ) + P (Aj ) ist. Andererseits kann man auch die Menge E = E \ {Ai } mit einer neuen Funktion P (A) =
P (A) 1 − P (Ai )
nehmen, die dann auch die Axiome erf¨ ullt. Schließlich kann man jede Menge E beliebig durch Ereignisse mit P = 0 erweitern. Auch die Zahlenwerte k¨ onnen wir willk¨ urlich ver¨ andern, wenn Axiome (1) und (2) erf¨ ullt bleiben, z. B. P (A1 ) = P (A1 ) + ε, P (A2 ) = P (A2 ) − ε etc. Diese Beispiele zeigen, dass sich die Wahrscheinlichkeitsrechnung auf eine unbegrenzte Zahl von Systemen E, P anwenden l¨asst. Inwieweit sich sinnvolle physikalische Anwendungen ergeben, ist eine Frage an die Physik.
1.2
Physikalische Wahrscheinlichkeit
Bereits im vorigen Abschnitt haben wir begonnen, die abstrakte mathematische Wahrscheinlichkeit auf die aus dem Alltag vertraute physikalische Wahrscheinlichkeit abzubilden. Die Ereignismenge E ist in der Physik eine Menge von m¨oglichen Resultaten einer wiederholbaren Messung. Eine physikalische Messung ist eine Beobachtung, die Aussagen u ¨ber ein System mithilfe einer oder mehrerer Zahlen produziert. Diese Zahlen enthalten neben der objektiven Information u ¨ber das System immer auch zuf¨ allige Anteile. Daher ist die Aussage, das Messergebnis, eine Wahrscheinlichkeitsaussage! Wesentlich zur Beurteilung der zuf¨ alligen Komponente von Messergebnissen ist die Wiederholbarkeit der Messung. Jede Beobachtung ist eine Messung, man kann Ereignisse deshalb durchaus im Sinne des allt¨aglichen Sprachgebrauchs auffassen. Sinnvollerweise sollten es aber wiederholbare Ereignisse sein, also nicht der Lottogewinn von Frau Sechskreuzler im Juni 1960, sondern eher der Sechser im Lotto irgendeines Spielers. Beobachtet man in einer Messreihe von N Messungen das Resultat A mit der absoluten H¨aufigkeit n(A), so erf¨ ullt die relative H¨ aufigkeit h(A) =
n(A) N
(1.8)
die drei Axiome der Wahrscheinlichkeitsrechnung: Sie liegt zwischen 0 und 1, die Summe der n(A) aller m¨oglichen Resultate A ∈ E ist N , und ein Zusammenfassen mehrerer Resultate durch oder bedeutet Addition ihrer
4
1. Wahrscheinlichkeit
H¨aufigkeiten. Da es sich bei einer Messreihe jedoch um einen einmaligen Vorgang handelt, und die n¨achste Messreihe unterschiedlich ausfallen wird, ist diese Anwendung in der Physik i. Allg. nicht von Nutzen. Sie stellt dagegen eine Anwendung in anderen Forschungszweigen dar, die nicht auf allgemeine Prinzipien, sondern auf die Eigenschaften einer großen, endlichen Gesamtheit abzielen. Die Physik fordert Wahrscheinlichkeiten als exakte und konstante Eigenschaften physikalischer Systeme. Wenn man die Zahl der Messungen N erh¨oht, konvergiert die relative H¨aufigkeit gegen eine Konstante. Dies ist die physikalische Wahrscheinlichkeit P phys (A) = lim
N →∞
n(A) N
(1.9)
Dabei ist die Konvergenz der H¨aufigkeit gegen den Grenzwert Wahrscheinlichkeit weder physikalisch noch mathematisch beweisbar. Physikalisch w¨aren unendlich viele Messungen notwendig, was nicht realisierbar ist. Mathematisch kann man kein N0 (ε) angeben, sodass die relative H¨aufigkeit h(A) = n(A)/N nach N > N0 Beobachtungen um weniger als ε von der Wahrscheinlichkeit P (A) abweicht, d. h. die mathematische Konvergenzbedingung ∀ε>0
∃ N0 (ε)
∀ N > N0
P (A) − n(A) < ε N
ist nicht beweisbar. Es gibt keine Konvergenz im Sinne von Analysis oder Maßtheorie. Es gibt dagegen den Begriff der stochastischen Konvergenz in der Mathematik. Er beschreibt jedoch nur die Wahrscheinlichkeit, mit der eine relative H¨aufigkeit h(A) nach N Beobachtungen um weniger als ε von der Wahrscheinlichkeit P (A) abweicht, also ∀ ε > 0, δ > 0
∃ N0 (ε, δ)
∀ N > N0
n(A) 1−δ P P (A) − N
Wollte man daraus eine physikalische Konvergenz ableiten, w¨ urde man einen Zirkelschluss durchf¨ uhren, da man den Begriff Wahrscheinlichkeit durch sich selbst, eben die Konvergenz-Wahrscheinlichkeit, beschreibt. Daher muss die physikalische Konvergenz als empirische Tatsache akzeptiert werden, die allerdings f¨ ur den praktischen Einsatz der Wahrscheinlichkeitsrechnung in der Physik unerl¨asslich ist. Wahrscheinlichkeit als Betragsquadrat einer Wellenfunktion ist ein Kernelement der Quantenmechanik. Der Philosoph Karl Popper hat daraus Wahr-
1.2. Physikalische Wahrscheinlichkeit
5
scheinlichkeit als objektive, wenn auch unbeobachtbare Eigenschaft eines Objektes gefordert, die er propensity 4 nennt. In der Quantenmechanik sind solche Eigenschaften durch die Wellenfunktion eines Objektes beschrieben, aus der man f¨ ur viele Messungen nicht das Resultat, sondern nur Wahrscheinlichkeiten f¨ ur alternative Resultate berechnen kann. Den Auswahlmechanismus eines Resultats in einer Einzelmessung nennen wir Zufall . Tats¨achlich lehrt uns die Chaosforschung, dass kleinste Variationen der Messbedingungen, wie sie sich zwangsl¨aufig aus dem Zufall innerhalb der quantenmechanischen Unsch¨ arfe ergeben, makroskopische Auswirkungen auf das Messergebnis haben. Das macht plausibel, dass zuf¨alliges Verhalten, das wir mit Wahrscheinlichkeit beschreiben k¨ onnen, seinen Ursprung in der Unbestimmtheit der Quantenmechanik hat. Beispiel 1.1. Das Paradebeispiel f¨ ur Wahrscheinlichkeit ist der Wurf eines Spielw¨ urfels. Aus Symmetriegr¨ unden erwartet man von einem idealen W¨ urfel, dass die Wahrscheinlichkeit f¨ ur jede Endlage, also f¨ ur jede Augenzahl gleich ist. Die Ereignismenge ist die Menge aller m¨ oglichen Endlagen bzw. Augenzahlen, E = {1, 2, 3, 4, 5, 6}. Da es 6 gleichwahrscheinliche Ereignisse gibt, ist f¨ ur jedes aufigkeit jeder Augenzahl bei vielen P = 16 . Die Erfahrung zeigt, dass die relative H¨ W¨ urfen tats¨ achlich 16 ist. Beispiel 1.2. Gerade an diesem einfachen Beispiel l¨ asst sich auch leicht demonstrieren, wie die physikalische Konvergenz der H¨ aufigkeit in unsere Alltagserfahrung eingeht. Bei jeweils 50 W¨ urfen sind unter 650 , also mehr als 8 · 1038 Sequenzen, auch die folgenden m¨ oglich: a) 66666666666666666666666666666666666666666666666666 b) 11516253115215442166235252334655221461512365523246 c) 12345612345612345612345612345612345612345612345612 Alle haben die gleiche, geringe Wahrscheinlichkeit von etwa 1.2 · 10−39 . Dennoch w¨ urde fast jeder die zweite f¨ ur m¨ oglich, die erste aber f¨ ur unm¨ oglich (oder den W¨ urfel f¨ ur gezinkt) halten! Die dritte Reihe (c) erf¨ ullt ganz offensichtlich die Forderung konvergenter H¨ aufigkeiten. Dennoch entspricht sie nicht unseren Vorstellungen von zuf¨ allig, die aus der Erfahrung stammen.
In der Stochastik wird die Konvergenz hinter dem Begriff des LaplaceMechanismus, eines zuf¨ alligen Auswahlmechanismus, versteckt. Dabei wird die stochastische Konvergenz durch den Begriff zuf¨ allig impliziert. Wie Zufall physikalisch funktioniert, wissen wir nicht. Interessanterweise l¨ asst sich ein Laplace-Mechanismus recht gut durch deterministische, also keineswegs zuf¨allige, Pseudozufallszahlen simulieren. Beispiel 1.3. Das Standardbeispiel der Stochastiker ist die Ziehung aus einer Urne, etwa eine Urne mit w weißen und s schwarzen Kugeln. Die Elementarereignisse 4
Engl. propensity = Neigung, Vorliebe.
6
1. Wahrscheinlichkeit
einer Ziehung sind E = {W, S}, weiß oder schwarz. Der Zufallsmechanismus ist das Sch¨ utteln der Urne vor dem Ziehen. Die stochastische Wahrscheinlichkeit ist definiert durch die Pr¨ amisse, dass jede Kugel gleich wahrscheinlich ist, also w P sto (W ) = w+s Nach N Wiederholungen (die gezogene Kugel wird immer zur¨ uckgelegt, und erneut gesch¨ uttelt) sind die absoluten H¨ aufigkeiten gezogener Kugeln nW + nS = N , die relativen H¨ aufigkeiten hN (W ) = nW /N und hN (S) = nS /N = 1 − hN (W ), und die physikalische Wahrscheinlichkeit ist P phys (W ) = lim hN (W ) N →∞
Wenn – wie die Erfahrung zeigt – P phys = P sto ist, ist das Sch¨ utteln und Ziehen ein Laplace-Mechanismus, also ein Zufallsprozess. Dabei kann man auch den Faktor Mensch eliminieren, etwa bei der Lotto-Maschine, die allw¨ ochentlich 6 aus 49 Kugeln zieht.
Im letzten Beispiel kann die Wahrscheinlichkeit exakt berechnet werden. Diese Berechnung fußt auf zwei Pr¨amissen: erstens der Existenz einer objektiven Wahrscheinlichkeit und zweitens der Symmetrie, d. h. der beliebigen Austauschbarkeit der Kugeln (die sich f¨ ur den blinden“ Zieher alle exakt gleich ” anf¨ uhlen). Beispiel 1.4. In der Teilchenphysik ist das Verzweigungsverh¨ altnis, d. h. der Anteil eines Endzustands an den Zerf¨ allen einer Teilchensorte, eine Wahrscheinlichkeit, die als objektive Teilchen-Eigenschaft angenommen wird. Eine Messung kann immer nur eine relative H¨ aufigkeit ergeben. Solche H¨ aufigkeiten f¨ ur das π + -Meson sind P (π + → μ+ ν) = (99.98770 ± 0.00004) % P (π + → e+ ν) = (0.01230 ± 0.00004) % P (π + → e+ νπ 0 ) = (1.03 ± 0.03) · 10−8 Diese Zerfallswahrscheinlichkeiten kann man auch theoretisch (approximativ) berechnen, als Verh¨ altnisse von Betragsquadraten von Amplituden. Der Zufallsmechanismus, der den Zerfall eines individuellen Pions regelt, ist offensichtlich ein Laplace-Mechanismus. Beispiel 1.5. Ein Gegenstand, etwa das Urmeter in Paris, hat eine objektive L¨ ange. Bei extrem hohen Genauigkeiten kann man auch diese Aussage in Frage stellen, wenn man etwa die thermische Bewegung der Atome oder gar die Unsch¨ arfe der Wellenfunktion eines Elektrons an der Oberfl¨ ache betrachtet. Aber auch jenseits dieser Gr¨ oßenordnungen wird eine Reihe aufeinanderfolgender Messungen zu unterschiedlichen, zuf¨ alligen Resultaten f¨ uhren, und damit zu einer Unsicherheit u ¨ ber den Wert der objektiven L¨ ange. Wir k¨ onnen diese zuf¨ alligen Komponenten reduzieren, indem wir etwa u ¨ber viele Einzelmessungen mitteln. Damit sind wir schon mitten in der Anwendung statistischer Methoden.
1.2. Physikalische Wahrscheinlichkeit 1.2.1
7
Wahrscheinlichkeit und H¨ aufigkeit
Relative H¨aufigkeit als Anwendung der Wahrscheinlichkeitsrechnung findet man immer dann, wenn die Menge zu untersuchender Objekte endlich, aber zu groß f¨ ur eine vollst¨ andige Erfassung ist. Das Beispiel 1.3 der H¨aufigkeit weißer Kugeln hW = w/(w + s) in einer Urne ist ein einfacher Fall. Die tats¨ achliche H¨aufigkeit hW ist die Wahrscheinlichkeit P phys (W ). K¨onnte man die Urne ausleeren und nachz¨ ahlen, w¨are diese Wahrscheinlichkeit jedoch v¨ollig uninteressant. Die Notwendigkeit, sie durch H¨ aufigkeiten in zuf¨alligen Stichproben zu bestimmen, macht die Sache erst wieder interessant. Die Anwendbarkeit statistischer Methoden erfordert die Zuf¨ alligkeit der Auswahl der Untermenge von Individuen, von denen man auf die Gesamtheit schließen will. Offenbar ist der Zufall ein in den Axiomen nicht erfasstes Kennzeichen jeder nichttrivialen Anwendung der Wahrscheinlichkeitstheorie. Sozial- und Biowissenschaften untersuchen beispielsweise Eigenschaften einer endlichen Menge von Menschen oder Tieren mit statistischen Methoden an im Vergleich zur Gesamtheit kleinen Untermengen. Dabei ist Wahrscheinlichkeit die relative H¨aufigkeit in der Gesamtmenge, auch Grundgesamtheit oder Ensemble. Die statistische Mechanik, also die statistische Beschreibung der Thermodynamik, enth¨ alt viele physikalische Anwendungen dieses Wahrscheinlichkeitsbegriffs. Die H¨aufigkeitsinterpretation findet man in der Mathematik etwa bei von Mises5 . Diese Wahrscheinlichkeit h¨angt aber explizit von der Grundgesamtheit ab, und a¨ndert sich mit ihr. Beim Ermitteln tats¨ achlicher (relativer) H¨aufigkeiten aus Untermengen ist die Konvergenz nach endlicher Zeit gew¨ahrleistet, n¨ amlich dann, wenn alle Individuen erfasst sind, aber die Geschwindigkeit der Konvergenz h¨angt wiederum vom Mechanismus Zufall ab. Beispiel 1.6. Ein typisches Beispiel ist die Demoskopie, die etwa das Verhalten der W¨ ahler bei einer bestimmten Wahl vorherzusagen versucht. Dies ist einer der wenigen F¨ alle, bei denen die exakte Wahrscheinlichkeit, d. h. die H¨ aufigkeit der Stimmen f¨ ur eine Partei u ¨ber der Menge aller W¨ ahler, nach dem Wahltag bekannt ist, womit die Qualit¨ at der statistischen Methoden zu ihrer Vorhersage ermittelt werden kann. Eine wesentliche Voraussetzung des Erfolgs der Vorhersage ist der repr¨ asentative Querschnitt bei der Auswahl der Untermenge. Hier kann also u ¨ ber den Zufall hinaus gezielt gesteuert werden. Die Beurteilung solcher Vorhersagen erfordert daher mehr als nur Statistik-Kenntnisse. Beispiel 1.7. Ein a ¨hnliches Beispiel ist die statistische Erfassung der Physikstudenten an der Universit¨ at. Diese Grundgesamtheit ¨ andert sich jedes Semester. Damit ¨ andern sich auch die H¨ aufigkeiten, etwa von Rauchern und Nichtrauchern, M¨ annern und Frauen, Bergsteigern, Klavierspielern etc. 5
Richard von Mises, Probability, Statistics and Truth, Dover Publ. 1957.
8
1. Wahrscheinlichkeit
Eine zuf¨ allige Auswahl w¨ aren etwa alle Studenten, deren Matrikelnummer auf 0 endet. Die Besucher dieser Vorlesung sind dagegen keine repr¨ asentative Auswahl aller Studenten.
Dieses Feld – so interessant es sein mag – soll hier nicht weiter vertieft werden. Wenn wir jedoch Aussagen u ¨ber eine Wahrscheinlichkeit machen, m¨ ussen wir uns immer fragen, was wir damit meinen, welche Voraussetzungen u ¨ber die Axiome hinaus wir (stillschweigend) unterstellen und inwieweit diese Voraussetzungen erf¨ ullt sind.
1.3
Subjektive Wahrscheinlichkeit – Wahrscheinlichkeit als Informationsmaß
Wahrscheinlichkeit ist auch ein Mittel, das Maß an Information u ¨ber Ereignisse zu beschreiben. Dieser allt¨agliche Gebrauch lehnt sich an das physikalische Wahrscheinlichkeitskonzept an: F¨ ur eine große Zahl von Vorhersagen sollte die H¨aufigkeit richtiger Aussagen gegen die Wahrscheinlichkeit konvergieren. Da es sich aber i. Allg. um individuelle Aussagen handelt, die sich nicht in einer Serie wiederholen lassen, ist die quantitative Definition dieser Konvergenz noch problematischer als bei der physikalischen Wahrscheinlichkeit. Beispiel 1.8. Auf einer Internetseite finden wir: Die Wahrscheinlichkeit, dass es morgen regnet, liegt bei 40 %. Auf einer anderen steht f¨ ur denselben Tag 30 %. Die objektiven Wetterdaten der Vergangenheit und Gegenwart sind die gleichen. Unterschiedlich sind jedoch die subjektiven Erfahrungen der Meteorologen, die in diese Vorhersage einfließen.
Typisch f¨ ur subjektive Wahrscheinlichkeit ist wie in diesem Beispiel, dass man eine Aussage u ¨ber ein einzelnes Ereignis in der Zukunft macht. Die subjektive Wahrscheinlichkeit quantifiziert das, was man u ¨ ber ein unbekanntes Ereignis (¡zB, dass es morgen regnet) weiß. Sie spielt daher auch eine große Rolle in der Interpretation von Messergebnissen, der statistischen Inferenz , mit der sich der Hauptteil dieses Buches befasst. So stellt sie einen Weg dar, Konfidenzintervalle festzulegen. Die ¨ Ubersetzung Vertrauensbereiche deutet auf diesen Charakter hin – Vertrauen ist eine subjektive Angelegenheit. Zur Unterscheidung vom Begriff Wahrscheinlichkeit (P f¨ ur engl. probability) f¨ ur die physikalische Wahrscheinlichkeit kann man C f¨ ur Chance, in Anlehnung an den Titel der Abhandlung von Bayes (s. u., Theorem von Bayes), f¨ ur die subjektive Wahrscheinlichkeit verwenden. Der Begriff Likelihood h¨angt eng damit zusammen, eine Likelihood im urspr¨ unglichen Sinn erf¨ ullt jedoch das 2. Axiom (Normierungsaxiom) nicht. Eine subjektive Wahrscheinlichkeit ist aber nichts anderes als eine normierte Likelihood. Deshalb wurde der Begriff Likelihood auch mit Mutmaßlichkeit u ¨bersetzt.
1.4. Bedingte Wahrscheinlichkeit
9
Beispiel 1.9. Ein Beispiel f¨ ur die subjektive Wahrscheinlichkeit ist die Aussage f¨ ur den n¨ achsten Wurf eines Spielw¨ urfels. Die Anwendung des Begriffs Wahrscheinlichkeit auf einen einzelnen Wurf kann nicht im Sinne einer relativen H¨ aufigkeit verstanden werden. Diese ist n¨ amlich f¨ ur irgendein Ergebnis, etwa die Augenzahl 6, entweder 1 oder 0. Die Wahrscheinlichkeit von 16 bedeutet zwar, dass in vielen Versuchen die H¨ aufigkeit 0 f¨ unfmal so oft auftritt wie die H¨ aufigkeit 1, sodass es legitim erscheint, die subjektive Wahrscheinlichkeit f¨ ur eine 6 bei einem Versuch nach diesem H¨ aufigkeitsmaß zu bewerten, tats¨ achlich beinhaltet dies jedoch nur eine Einsch¨ atzung eines in Wirklichkeit eindeutigen Resultats, das wir (noch) nicht kennen. Dabei spielt es auch keine Rolle, ob der W¨ urfel bereits gefallen ist, wir aber die Augenzahl noch nicht abgelesen haben, oder ob die Prognose zeitlich vor dem Wurf gegeben wird. In beiden F¨ allen beinhaltet unsere Prognose P = 16 eine Information u ¨ber das System W¨ urfel/n¨ achster Wurf, die erst nach der Kenntnis des Ausgangs revidiert werden kann zu P = 1 oder P = 0. Beispiel 1.10. Kommt neue Information hinzu, a ¨ndert sich diese Wahrscheinlichkeit. Teilt uns etwa jemand mit, dass die geworfene Augenzahl gerade ist, ist die Wahrscheinlichkeit f¨ ur eine 6 nicht mehr 16 , sondern 13 . Nachdem wir schließlich wissen, dass es eine 4 war, ist die Wahrscheinlichkeit f¨ ur eine 6 P = 0.
Nicht immer ist die subjektive Wahrscheinlichkeit so objektiv bestimmbar wie im letzten Beispiel. Wie wir sp¨ ater noch sehen werden, gibt es h¨aufig verschiedene Konzepte zu ihrer Berechnung, die alle gleich richtig“ sind, ” und die doch zu verschiedenen Ergebnissen f¨ uhren. Die subjektive Wahrscheinlichkeit l¨asst sich am besten objektivieren, wenn man sie als Grundlage f¨ ur eine Wette nimmt. Die Wahrscheinlichkeit eines Ereignisses A ist das Verlustrisiko, wenn man gegen sein Eintreten wettet.
1.4
Bedingte Wahrscheinlichkeit
Nach der Definition (1.6) einer Wahrscheinlichkeit f¨ ur eine Ereignismenge f¨ uhrt man das allgemeine (nicht exklusive) oder ein als P (A ∨ B) = P (A ∪ B)
(1.10)
wobei A und B Ereignismengen bezeichnen. Wir wollen im Folgenden nicht mehr zwischen Ereignissen (als Elemente) und Ereignismengen unterscheiden und nur noch von Ereignissen sprechen. Weitere aussagenlogische Verkn¨ upfungen von Ereignissen sind P (A ∧ B) = P (A ∩ B) P (¬A) = P (E \ A)
(1.11) (1.12)
1. Wahrscheinlichkeit
10
Das folgende Mengenbild veranschaulicht alle logischen Kombinationen von zwei Ereignissen A und B. Die Menge E entspricht allen vier Feldern (a), (b), (c) und (d). Ereignis A sind die Elementarereignisse in den Feldern (a) und (b), die die Menge A darstellen. Analog sind Ereignis B die Elementarereignisse in den Feldern (b) und (d), die die Menge B darstellen. Elementarereignisse in Feld (b) geh¨ oren beiden Mengen an und entsprechen damit dem Ereignis A und B. (a) A A A A A A AAAAAA
(b) ABAB ABABAB
(c)
(d) BB BB BB BB
B B B B B
B B B B B
P (A) P (B) P (¬A) P (¬B) P (A ∧ B) P (A ∨ B) P (B|A) P (A|B)
= (a + b)/(a + b + c + d) = (b + d)/(a + b + c + d) = (c + d)/(a + b + c + d) = (a + c)/(a + b + c + d) = (b)/(a + b + c + d) = (a + b + d)/(a + b + c + d) = (b)/(a + b) = (b)/(b + d)
Es gelten folgende einfach zu beweisenden Beziehungen: P (¬A) = 1 − P (A) P (A ∨ B) = P (A) + P (B) − P (A ∧ B) P (A ∧ B) = P (A) + P (B) − P (A ∨ B) P (A ∧ B) + P (A ∨ B) = P (A) + P (B)
(1.13) (1.14) (1.14 ) (1.14 )
Die Wahrscheinlichkeit von B in der Untermenge A ⊆ E, d. h. die Wahrscheinlichkeit f¨ ur B, wenn A bereits eingetroffen ist, ist die bedingte Wahrscheinlichkeit P (B|A) :=
P (A ∧ B) P (A)
(1.15)
Damit kann man die Unabh¨angigkeit zweier Ereignisse definieren. A und B sind unabh¨ angig, falls
⇐⇒
P (B|A) = P (B)
(1.16)
P (A ∧ B) = P (A) · P (B)
(1.17)
Ereignis B ist korreliert mit A, wenn P (B|A) > P (B), und antikorreliert mit A bzw. korreliert mit ¬A, wenn P (B|A) < P (B). Der Begriff Korrela-
1.4. Bedingte Wahrscheinlichkeit
11
tion wird jedoch i. Allg. auf Zufallsvariablen angewandt und ist dann nicht komplement¨ar zur Unabh¨angigkeit, wie wir noch sehen werden.
1.4.1
Das Theorem von Bayes
Aus (1.15) folgt wegen P (A ∧ B) = P (A|B) · P (B) = P (B|A) · P (A) unmittelbar das6 Theorem von Bayes: P (A|B) = P (B|A) ·
P (A) P (B)
(1.18)
Beispiel 1.11. Die Ereignismenge ist beim Standardbeispiel der Wahrscheinlichkeitsrechnung, dem Spielw¨ urfel, die Menge der m¨ oglichen Augenzahlen E = {1, 2, 3, 4, 5, 6}. Mit den Untermengen G = {2, 4, 6} (gerade Zahlen), U = E \ G = {1, 3, 5} (ungerade Zahlen), L = {1, 2, 3} ( low“, die drei kleinsten) und ” H = E \ L = {4, 5, 6} ( high“, die drei gr¨ oßten) wollen wir die S¨ atze des letzten ” Kapitels illustrieren.
P (L) = P (G) =
G
U
L
2
1, 3
P (L ∨ G) =
H
4, 6
5
P (L ∧ G) = P (L|G) = P (G|L) =
1 2 1 2 5 6 1 1 1 5 = P (L) + P (G) − P (L ∨ G) = + − 6 2 2 6 P (L ∧ G) 1/6 1 = = 3 P (G) 1/2 P (G) 1 1 1/2 = P (L|G) = · 3 P (L) 3 1/2
Das Bayessche Theorem wird h¨aufig angewandt auf Wahrscheinlichkeiten, die als Chance, also als Informationsmaß verwendet werden. Dabei wird mithilfe der bedingten Wahrscheinlichkeit P (x|p), die f¨ ur das Resultat x eine Wahrscheinlichkeit darstellt, auf das Resultat p geschlossen. Die Wahrscheinlichkeit (engl. probability) P (x|p) wird in Bezug auf p als Likelihood l(p|x) bezeichnet. Das Bayessche Theorem stellt dann eine Vorschrift dar, wie aus der 6
Thomas Bayes, An Essay Towards Solving a Problem in the Doctrine of Chances, publiziert in Philosophical Transactions 53, 370–418 (1763), Reprint in Biometrika 45, 296 (1958).
12
1. Wahrscheinlichkeit
subjektiven Wahrscheinlichkeit P (p) vor der Messung eine neue subjektive Wahrscheinlichkeit P (p|x) nach der Messung von x wird. P (p|x) =
l(p|x) · P (p) P (x)
Beispiel 1.12. Beispiel 1.10 ist eine solche Anwendung: P (6|gerade) = P (gerade|6) ·
P (6) P (gerade)
mit P (gerade|6) = 1 (6 ist immer gerade), P (6) = P (6|gerade) = 13 .
1 6,
P (gerade) =
1 2
und damit
Beispiel 1.13. Ein Beispiel aus der Teilchenphysik ist die Teilchenidentifikation, etwa durch Impuls-, Flugzeit- und Schauerenergiemessung. In der e+ e− Vernichtung bei 10 GeV ist die Zusammensetzung der geladenen Teilchensorten von der betrachteten Reaktion abh¨ angig. So sind etwa in Multihadronereignissen 5 % aller geladenen Teilchen Elektronen, in Taupaar-Zerf¨ allen dagegen 14 %. Ist nun die Nachweiswahrscheinlichkeit f¨ ur Elektronen P (+|e) = 90 % und die Fehlidentifikationswahrscheinlichkeit von Hadronen P (+|¬e) = 1 %, so ist bei positiver Identifikation +“ die Wahrscheinlichkeit f¨ ur ein Elektron e“ in einem Multiha” ” dronereignis P (e) 0.05 = 0.90 · ≈ 0.83 P (+) 0.0545 mit P (+) = P (+|e)P (e) + P (+|¬e)P (¬e) = 0.90 · 0.05 + 0.01 · 0.95 = 0.0545 P (e|+) = P (+|e) ·
d. h., in 83 % aller F¨ alle ist das als Elektron identifizierte Teilchen tats¨ achlich ein Elektron. In Taupaar-Zerf¨ allen ist dagegen P (+) = P (+|e)P (e) + P (+|¬e)P (¬e) = 0.90 · 0.14 + 0.01 · 0.86 ≈ 0.135 P (e) 0.14 = 0.90 · ≈ 0.93 P (e|+) = P (+|e) · P (+) 0.135 d. h., die Wahrscheinlichkeit, ein echtes Elektron gefunden zu haben, ist mit 93 % deutlich h¨ oher.
Aufgaben 1.1. Bei einem Gewinnspiel ist der Hauptgewinn hinter einer von drei T¨ uren A, B oder C versteckt. Die anderen beiden T¨ uren sind Nieten. Nachdem der Kandidat eine T¨ ur ausgew¨ ahlt hat, ¨offnet der Showmaster eine der beiden anderen T¨ uren, hinter der nichts ist. Dadurch erh¨alt der Kandidat Information u ¨ber diese beiden T¨ uren, nicht jedoch u ¨ber die von ihm zun¨achst gew¨ahlte.
1.4. Bedingte Wahrscheinlichkeit
13
Kann er seine Chance verbessern, wenn er die M¨oglichkeit hat, ein zweites Mal zu w¨ahlen? 1.2. Ein Test T auf eine seltene Krankheit K spricht bei infizierten Personen mit 99.5 % Wahrscheinlichkeit an, bei nicht infizierten mit 0.01 %. Dies sind bedingte Wahrscheinlichkeiten P (T+|K+) = 0.995, P (T+|K−) = 0.0001,
P (T−|K+) = 0.005, P (T−|K−) = 0.9999,
wobei T+ und T− positives bzw. negatives Testergebnis bezeichnen und K+ bzw. K− das Vorhandensein oder Fehlen von Krankheitserregern. Wenn die relative H¨aufigkeit der Krankheit K in der Bev¨olkerung 10−6 betr¨agt, wie groß ist die Wahrscheinlichkeit, bei positiven Testergebnis tats¨ achlich infiziert zu sein?
2.
Zufallsvariable und Verteilungen
Zufallsvariable sind numerische Resultate von Messungen (Beobachtungen), die durch zuf¨allige Ereignisse bestimmt werden und deren H¨ aufigkeit gegen eine feste Wahrscheinlichkeit konvergiert. Sie werden im Folgenden mit griechischen Buchstaben bezeichnet. Beispiel 2.1. Die Augenzahl eines W¨ urfels ist eine diskrete Zufallsvariable. Sie kann die Werte {1, 2, 3, 4, 5, 6} annehmen. F¨ ur jeden Wert ist P = 16 . Eine etwas kompliziertere Variable ist das Produkt x aus den Augenzahlen von zwei W¨ urfen. Die folgende Tabelle gibt die Wahrscheinlichkeiten. x
Augenzahlen
P
x
Augenzahlen
P
1
1·1
1 36 2 36 2 36 3 36 2 36 4 36 2 36 1 36 2 36
12
2 · 6, 3 · 4, 4 · 3, 6 · 2
15
3 · 5, 5 · 3
16
4·4
18
3 · 6, 6 · 3
20
4 · 5, 5 · 4
24
4 · 6, 6 · 4
25
5·5
30
5 · 6, 6 · 5
36
6·6
4 36 2 36 1 36 2 36 2 36 2 36 1 36 2 36 1 36
2
1 · 2, 2 · 1
3
1 · 3, 3 · 1
4
1 · 4, 2 · 2, 4 · 1
5
1 · 5, 5 · 1
6
1 · 6, 2 · 3, 3 · 2, 6 · 1
8
2 · 4, 4 · 2
9
3·3
10
2 · 5, 5 · 2
Der Wertebereich ist also {1, 2, 3, 4, 5, 6, 8, 9, 10, 12, 15, 16, 18, 20, 24, 25, 30, 36}. F¨ ur alle anderen Zahlen ist P = 0. Abbildung 2.1 zeigt die Wahrscheinlichkeiten f¨ ur x = 1 . . . 36.
Die Werte, die eine Zufallsvariable annehmen kann, sind die Elementarereignisse in E. Die Wahrscheinlichkeit als Funktion der Zufallsvariablen stellt man gern als Histogramm dar, wie in Abbildung 2.1 gezeigt. Beispiel 2.2. Eine diskrete Zufallsvariable mit unendlichem Wertebereich ist die Anzahl W¨ urfe bis zur ersten Sechs beim Spielw¨ urfel. Die Wahrscheinlichkeit f¨ ur n ∈ {1, 2, 3, . . .} ist pn = P (6) · P (¬6)n−1 = 16 ( 56 )n−1 . Beispiel 2.3. Eine kontinuierliche (reelle) Zufallsvariable ist z. B. das Resultat einer L¨ angenmessung mit einem Maßband. W¨ ahrend sich fast alle Messenden u ¨ ber die ganzen mm einig sind, ist das Resultat der Interpolation unterschiedlich. Ableseungenauigkeiten ergeben sich etwa durch das Peilen vom Objekt zur Skala des Maßbands. Eine Wiederholung der Messung kann daher zu einem stets neuen Resultat f¨ uhren. Die Wahrscheinlichkeit f¨ ur einen Messwert x k¨ onnte daher proportional zur Kurve in Abbildung 2.2a sein. Wenn wir alle reellen Zahlen zulassen (nicht nur ganzzahlige Vielfache von 0.1 mm), gibt es aber in jedem noch so kleinen © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 R. Waldi, Statistische Datenanalyse, https://doi.org/10.1007/978-3-662-60645-2_2
16
2. Zufallsvariable und Verteilungen
P(x)
P(x)
0.10
0.10
0.05
0.05
10
Abb. 2.1
20
30
10 20 30 x x Zwei u ¨bliche Darstellungen der Wahrscheinlichkeitsverteilung vom Produkt aus zwei Augenzahlen beim W¨ urfeln.
Intervall unendlich viele m¨ ogliche Werte. Die Wahrscheinlichkeit f¨ ur jeden einzelnen Wert ist daher unendlich klein. Man umgeht dieses Problem, indem man eine Wahrscheinlichkeitsdichte einf¨ uhrt.
2.1
Wahrscheinlichkeitsdichten
Ist E eine u ¨berabz¨ ahlbare Menge, etwa die Menge der reellen Zahlen, so ist die Summe in Axiom 2 nicht mehr definiert. Man kann jedoch analog der Wahrscheinlichkeit eine Dichte definieren, die sinngem¨ aß auch die Axiome erf¨ ullt. Die statistische Verteilung einer kontinuierlichen Zufallsvariablen ξ wird beschrieben durch die Dichte f (x) =
dP (x ≤ ξ < x + dx) dx
(2.1)
und die zugeh¨orige Verteilungsfunktion x F (x) =
f (t) dt = P (ξ ≤ x)
(2.2)
−∞
Das Komplement der Verteilungsfunktion ist ∞ Q(x) = x
f (t) dt = P (ξ > x) = 1 − F (x)
(2.3)
2.1. Wahrscheinlichkeitsdichten
a)
1.0 f(x) 0.5
.... .. ... .. .. ... .... . . .. ... .. .. ... .... . . .. .. .. .. ... ..... . ... .. ... .. ... ... ... .. .. ... .. ... .. ... . ... ... .. ... .. ... .. ... . ... ... .. ... . ........ . . . . ................ .....................................................
1998
1996 Abb. 2.2
2000
2002 x [mm]
17
b) 1.0 F(x) 0.5
........... ..................... ...... 90. % .... . . .. ... .. .. ... . .. .. ... .. 50 % .. .. . 40 % .. .. .. 30 % ... .. 20 % .. .. . 10 % .. .... x90 % ..... . . . . . . . . . . . ................................
1999
2000
2001 x [mm]
Dichte (a) und Verteilungsfunktion (b) f¨ ur die Zufallsvariable L¨ ange x, gemessen mit einem Maßband. Die Quantile x10 % , x20 % , . . . , x90 % sind in (b) eingezeichnet.
Jedes Integral I f (x) dx u ¨ber einem Intervall I = [a, b] ist eine Wahrscheinlichkeit P (I) = F (b) − F (a). Damit folgt aus Axiom 1: f (x) ≥ 0 ∀x ∈ E Axiom 2: f (x) dx = F (∞) = 1
(2.4) (2.5)
E
Axiom 3: P (I ∪ J) = P (I) + P (J)
∀I, J ⊆ E, I ∩ J = ∅
(2.6)
oder allgemeiner P (I ∪ J) = P (I) + P (J) − P (I ∩ J)
(2.7)
Aus der Umkehrfunktion der Verteilungsfunktion erh¨alt man die Quantile ur den der Verteilung: Das Quantil xk % ist der Punkt, f¨ P (x ≤ xk % ) = F (xk % ) = k %
(2.8)
Das Quantil x50 % nennt man den Median der Verteilung. Andere Schreibweisen f¨ ur Quantile sind z. B. x20 % = x0.2 = x1/5 . Die statistische Verteilung einer diskreten Zufallsvariablen κ ∈ N wird beschrieben durch Wahrscheinlichkeiten pk = P (k) = P (κ = k)
(2.9)
und man kann man auch dazu eine zugeh¨ orige Verteilungsfunktion F (x) =
x
pi = P (κ ≤ x)
i=1
definieren. Dabei steht x f¨ ur die n¨ achste ganze Zahl ≤ x.
(2.10)
18
2. Zufallsvariable und Verteilungen
Um einen gemeinsamen Formalismus f¨ ur diskrete und kontinuierliche Zufallsvariablen zu haben, kann man auch die Verteilungsfunktion diskreter Zufallsvariablen differenzieren und erh¨alt als Dichte f (x) = δ(x − k)pk (2.11) einen Ausdruck mit der Diracschen Deltafunktion. Ersetzt man die Deltafunktion durch den Ausdruck δxk , der bei x = k den Wert 1 und sonst 0 hat, erh¨alt man die Wahrscheinlichkeitsfunktion (engl. probability mass function) fP (x) = δxk pk (2.12) mit fP (x) dx = 0. Sowohl f¨ ur kontinuierliche als auch f¨ ur diskrete Zufallsvariablen hat die Verteilungsfunktion folgende allgemeine Eigenschaften: F (−∞) = 0 F (∞) = 1 F (x) ≥ F (y) ⇐⇒ x ≥ y
(2.5)
d. h., jede Verteilungsfunktion w¨achst monoton von 0 nach 1. F¨ ur H¨aufigkeiten gibt es analog die Summenh¨ aufigkeit oder kumulative H¨ aufigkeit #(κ ≤ x) (2.13) h(t) = H(x) = N t≤x
die stochastisch gegen die Verteilungsfunktion konvergiert. Sie wird analog f¨ ur eine Messreihe kontinuierlicher Zufallszahlen (ξi )i=1...N definiert: H(x) = #(ξi ≤ x)/N . Die Verteilung f¨ ur zwei kontinuierliche Zufallsvariablen ξ, η wird beschrieben durch die Dichte f (x, y) =
d2 P (x ≤ ξ < x + dx ∧ y ≤ η < y + dy) dx dy
(2.14)
und die zugeh¨orige Verteilungsfunktion x y F (x, y) =
f (s, t) ds dt = P (ξ ≤ x, η ≤ y)
(2.15)
−∞ −∞
Die Projektion der zweidimensionalen Verteilung auf eine Dimension ist die Randverteilung f1 (x) = f2 (y) =
f (x, y) dy
(2.16a)
f (x, y) dx
(2.16b)
2.1. Wahrscheinlichkeitsdichten
19
Die Randverteilung beschreibt die Verteilung einer Zufallsvariablen gemittelt u ¨ber die andere. Sie ist die Verteilung einer Zufallsvariablen, wenn man nur diese (und keine anderen) ber¨ ucksichtigt. Die Verteilung von x f¨ ur einen festen Wert η = y0 wird beschrieben durch die bedingte Wahrscheinlichkeitsdichte f (x|y0 ) :=
f (x, y0 ) f (x, y0 ) = f2 (y0 ) f (x, y0 ) dx
(2.17)
Entsprechend definiert man f (y|x0 ) =
f (x0 , y) f1 (x0 )
(2.18)
Die Division durch die Konstante f2 (y0 ) bzw. f1 (x0 ) kann als neue Normierung betrachtet werden, die daf¨ ur sorgt, dass auch ∞
∞ f (x|y0 ) dx =
−∞
f (y|x0 ) dy = 1 −∞
ist. Zwei Zufallsvariablen ξ, η heißen unabh¨ angig, wenn die Verteilung von ξ, also ihre Dichte f (x), nicht vom Wert f¨ ur η abh¨ angt. Dann ist f (x|y) f¨ ur alle y gleich der Randverteilung. unabh¨ angige Zufallsvariablen f (x|y) = f1 (x)
(2.19)
Gleichwertig mit dieser Definition folgen aus (2.17) f (x, y) = f (x|y) · f2 (y) durch Einsetzen von (2.19) folgende Bedingungen f¨ ur unabh¨ angige Zufallsvariablen ⇐⇒ ⇐⇒
f (x, y) = f1 (x) · f2 (y) F (x, y) = F1 (x) · F2 (y)
(2.20) (2.21)
D. h., die zweidimensionale Verteilung faktorisiert, die Dichte l¨ asst sich als Produkt zweier eindimensionaler Verteilungen schreiben. Dies gilt auch f¨ ur Integrale u ¨ber rechteckigen Bereichen b d
b f (x, y) dx dy =
a c
d f1 (x) dx
a
f2 (y) dy c
2. Zufallsvariable und Verteilungen
20
und somit insbesondere f¨ ur die Verteilungsfunktionen F , F1 und F2 . Da dies Wahrscheinlichkeiten sind, folgt die Faktorisierung aus der f¨ ur Wahrscheinlichkeiten unabh¨ angiger Ereignisse (1.17): P (ξ < x ∧ η < y) = P (ξ < x) · P (η < y). Die Faktorisierung der Dichte ergibt sich dann durch (partielles) Differenzieren nach x und y. Beispiel 2.4. Die Verteilung
f (x, y) =
2 2 π (x
+ y2 )
x2 + y 2 < 1 sonst
0
ist symmetrisch bez¨ uglich Vertauschen von x und y, und hat eine Kreissymmetrie in der Ebene (alle H¨ ohenlinien sind Kreise, und der Rand des Wertebereichs ist der Einheitskreis). Sie hat die Randverteilung √
f1 (x) =
1−x 2
√ − 1−x2
4 2 2 1 − x2 (2x2 + 1) (x + y 2 ) dy = π 3π
(abgebildet in Abbildung 2.3b) und die bedingte Wahrscheinlichkeitsdichte
f (x|y) =
2 x2 +y 3 √ 2 (2y 2 +1) 1−y 2
x2 < 1 − y 2
0
sonst
an der Stelle y (f¨ unf Beispiele in Abbildung 2.3a). Offensichtlich sind x und y nicht unabh¨ angig.
f(x|y) 1.0
0.5
... . .. .. ... a)......... .. ... .. ... ... ... ...... . . ... . ... .. ... .. ... .. .. ... .... ... .. ........ ..... .. ... . ... ...... ... .. .. .. ... .. .... ... ...... ... .... .. ...... .... ...... .... . . . . . . . . . . ..... ...... ... .. .... ..... ........ ..... ... ... ....... ........................ ...... .. . . . . ........ ... ... ..... .......... ..... ... ...... ......... ..... .... .......... . . . ...... ... ...... . . ..... .. .... ...... .... ........ ......................... .............. ...... ... . . . . ...... ..... . ...... ..... .... ...... ....... ........ ........... .......... ....... ........... ....... ......... .. . ........... ......... ................................. ..............
−1.0 Abb. 2.3
−0.5
b) f1 (x)
0.5
...... ........ ..... ............ ........ ...... ...... .. ... ...... . . . . ...... . ... ... . ....... ...... ... ...... ........ .. ... ................... ... ... .. .. ... .. ... .. ... . ... ... .. ... .. ... .. ... . ... ... .. ... .. ... .. . .
1.0 0.0 0.5 1.0 −1.0 −0.5 x x Bedingte Wahrscheinlichkeitsdichten f (x|0), f (x|0.2), f (x|0.4), ur die Zuf (x|0.6) und f (x|0.8) (a) und Randverteilung f1 (x) (b) f¨ fallsvariable aus Beispiel 2.4. 0.0
0.5
Den Zusammenhang zwischen den beiden bedingten Wahrscheinlichkeitsdichten liefert analog zu Wahrscheinlichkeiten diskreter Zufallsvariablen ein
2.1. Wahrscheinlichkeitsdichten
21
Bayessches Theorem. Aus Gleichung (2.17) folgt wegen f (x, y) = f (x|y) · f2 (y) = f (y|x) · f1 (x) das Bayessche Theorem f¨ ur Wahrscheinlichkeitsdichten: f (y|x) = f (x|y) ·
f2 (y) f1 (x)
(2.22)
Da f1 (x) = f (x, y) dy = f (x|y) · f2 (y) dy ist, kann man dieses Theorem auch umschreiben zu f (x|y) · f2 (y) (2.23) f (y|x) = f (x|y)f2 (y) dy und sieht, dass der Nenner die korrekte Normierung der Dichte f (y|x) sicherstellt. Die Verallgemeinerung auf (abz¨ahlbar) viele Zufallsvariablen, die wir als nuhrt auf eine Dichte f und die Tupel ξ = (ξ1 , ξ2 , . . . , ξn ) schreiben k¨onnen, f¨ Verteilungsfunktion xn x1 ··· f (t1 , . . . , tn ) dt1 · · · dtn (2.24) F (x1 , . . . , xn ) = −∞
−∞
mit den Randverteilungen ∞ ∞ ··· f (t1 , . . . , ti−1 , xi , ti+1 , . . . , tn ) dt1 · · · dti−1 dti+1 · · · dtn fi (xi ) = −∞
−∞
n−1
(2.25) Mehrdimensionale Randverteilungen, etwa ∞ fij (xi , xj ) = −∞
∞
···
f (t1 . . . ti−1 , xi , ti+1 . . . tj−1 , xj , tj+1 . . . tn )· −∞
n−2
· dt1 · · · dti−1 dti+1 · · · dtj−1 dtj+1 · · · dtn
erm¨ oglichen die Definition paarweiser Unabh¨ angigkeit nach (2.19). Sind alle Variablen unabh¨angig, faktorisiert die Dichte: n f (x) = fi (xi ) (2.26) i=1
Im allgemeinen Fall gibt es auch m-dimensionale bedingte Wahrscheinlichkeitsdichten (m < n), etwa mit m = 2 f (xi , xj |x1 , . . . , xi−1 , xi+1 , . . . , xj−1 , xj+1 , . . . , xn ) f (x1 , . . . , xn ) = f1,...,i−1,i+1,...,j−1,j+1,...,n (x1 , . . . , xi−1 , xi+1 , . . . , xj−1 , xj+1 , . . . , xn )
22
2.2
2. Zufallsvariable und Verteilungen
Funktionen von Zufallsvariablen
Ist die Verteilung einer Zufallsvariablen ξ bekannt, kann man daraus die Verteilung einer abgeleiteten Variablen η = φ(ξ) berechnen. Betrachten wir zun¨achst den einfachen Fall, dass y = φ(x) streng monoton steigend ist. Dann erh¨ alt man die Dichte g(y) aus der Gleichheit zweier (differenzieller) Wahrscheinlichkeiten: dP = g(y) dy = f (x) dx f (x) f (x) g(y) = dy = φ (x) dx =
(2.27)
f (φ−1 (y)) φ (φ−1 (y))
Die Verteilungsfunktion ist G(y) = P (η < y) = P (ξ < x) = F (x) = F (φ−1 (y))
(2.28)
Im allgemeinen Fall y = φ(x) mit mehreren L¨osungen x1 , x2 , . . . der Gleichung y = φ(xi ) (wie in Abbildung 2.4) ist dP = g(y) dy = f (xi ) · | dxi | φ(xi )=y
Damit wird die Dichte der transformierten Zufallsvariablen
g(y) =
φ(xi )=y
f (xi ) |φ (xi )|
(2.29)
Beispiel 2.5. Zufallsgeneratoren, die in der Monte Carlo-Rechnung eingesetzt werden, erzeugen Zufallszahlen ζ, die zwischen 0 und 1 gleichverteilt sind, mit der Dichte 1 0≤z 0)
Computeraufgabe: Stellen Sie die Verteilungen von ζ, u, v, x, y in Histogrammen dar, und zeichnen Sie die jeweilige Dichtefunktionen ein.
2.2.1
Verteilung der Verteilungsfunktion
Aus einer kontinuierlichen Zufallsvariablen ξ kann man eine neue durch die Vorschrift η = F (ξ) erzeugen, indem man den Funktionswert der Verteilungsfunktion nimmt. Der Wertebereich dieser Funktion ist das Intervall [0, 1]. Die Zufallsvariable η ist in diesem Intervall immer gleichverteilt, d. h., f¨ ur die Ver-
2. Zufallsvariable und Verteilungen
24
teilungsfunktion y = F (x) ist nach (2.28) G(y) = F (F −1 (y)) ≡ y
(0 ≤ y ≤ 1)
(2.31)
und damit
1 0≤y n soll an der Transformation y1 = x, y2 = x2 illustriert werden. Es ist g(y1 , y2 ) = δ(y2 − y12 )f (y1 ) Die Randverteilungen sind
g1 (y1 ) = f (y1 ) und
g2 (y2 ) =
(2.35)
δ(y2 − y12 ) dy2 = f (y1 )
δ(y2 − y12 )f (y1 ) dy1 =
f (√y 0
2 )+f (−
√ 2 y2
√
y2 )
y2 ≥ 0 y2 < 0
Wir haben also mithilfe der Deltafunktion die Dichte g(y2 ) der transformierten Zufallsvariablen y2 = x2 erhalten. Ist x gleichverteilt zwischen 0 und 1, erhalten √ wir g(y) = 1/2 y wie in Beispiel 2.5.
Die F¨alle (1) und (2) kann man zusammenfassen. Voraussetzung ist, dass φ eine Umkehrfunktion hat, wenn man x1 . . . xm geeignet w¨ahlt und die y um xm+1 . . . xn erg¨anzt zu y = (y1 , . . . , ym , xm+1 , . . . , xn ): (x1 , . . . , xn ) = φ−1 (y1 , . . . , ym , xm+1 , . . . , xn ) Man erh¨ alt dann den Sonderfall m = n mit der Erg¨ anzung ym+1 = xm+1 , . . . , yn = xn und der Jacobi-Matrix von φ−1 ⎛
∂x1 ∂y1 ∂x2 ∂y1
⎜ ⎜ ⎜ . ⎜ . ⎜ . J =⎜ m ⎜ ∂x ⎜ ∂y1 ⎜ 0 ⎜ . ⎝ . . 0
··· ··· .. . ··· ··· .. . ···
···
∂x1 ∂xm+1 ∂x2 ∂xm+1
∂xm ∂ym
∂xm ∂xm+1
0 .. .
1 .. .
··· .. . ··· ··· .. .
0
0
···
1
··· ··· .. . ···
.. . ∂xm
.. .
.. .
∂x1 ∂xn ∂x2 ∂xn
⎞
∂x1 ∂ym ∂x2 ∂ym
.. .
∂xm ∂xn
0 .. .
⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠
Sie hat die Jacobi-Determinante ∂x1 ∂y1 ∂x ∂(x1 , . . . , xm ) ∂y12 = J = ∂(y1 , . . . , ym ) ... ∂xm ∂y1
∂x1 ∂ym ∂x2 ∂ym
(2.36)
∂ym
Die Dichte g(y) = · · · J · f (x1 (y), . . . , xm (y), xm+1 , . . . , xn ) dxm+1 · · · dxn (2.37)
2.2. Funktionen von Zufallsvariablen
27
ist die Randverteilung der n-dimensionalen Dichte f (x1 (y), . . . , xm (y), xm+1 , . . . , xn ). Die Jacobi-Determinante von φ ∂y1 ∂x ∂y21 ∂(y1 , . . . , ym ) ∂x1 = J φ = ∂(x1 , . . . , xm ) ... ∂ym ∂x1
··· ··· .. . ···
.. . ∂ym
∂y1 ∂xm ∂y2 ∂xm
∂xm
kann dabei nat¨ urlich ebenso verwendet werden, da eine Jacobi-Determinante den Abbildungsmaßstab wiedergibt, und J φ = 1/J φ−1 gilt. Die Dichte ist dann g(y) =
···
1 · f (x1 (y), . . . , xm (y), xm+1 , . . . , xn ) dxm+1 · · · dxn J φ (2.38)
Aufgaben 2.2. Produkt zweier gleichverteilter Zufallszahlen: Es seinen ζ1 , ζ2 zwischen 0 und 1 gleichverteilte, unabh¨angige Zufallszahlen mit f (z1 , z2 ) =
1 0 ≤ z1 < 1, 0 ≤ z2 < 1 0 sonst
Wie ist die Variable ζ = ζ1 · ζ2 verteilt? 2.3. Isotrope dreidimensionale Gauß-Verteilung: symmetrisch um Mittelwert (0, 0, 0), σ1 = σ2 = σ3 = σ, f (x) = G(x1 |0, σ) · G(x2 |0, σ) · G(x3 |0, σ) 3 2 2 2 2 2 2 1 e−x1 /2σ e−x2 /2σ e−x3 /2σ := √ 2π σ 2 2 1 = e−x /2σ 3 3 (2π) σ
(2.39)
Wie ist der Betrag x = |x| verteilt? Wie √ ist der Betrag der normierten dreidimensionalen Gauß-Verteilung y = x/ 2σ verteilt?
28 2.2.3
2. Zufallsvariable und Verteilungen Die Faltung zweier Verteilungen
Ein wichtiger Sonderfall ist die Summe zweier Zufallsvariablen y = x1 + x2 mit der Dichte f (x1 , x2 ). Wir k¨ onnen den Formalismus des letzten Abschnitts verwenden und y erg¨anzen zu y = (y, x2 ). Die Umkehrfunktion ist dann x1 = y − x 2 x 2 = x2 Dies ergibt die Jacobi-Matrix J=
∂x1 ∂y ∂x2 ∂y
=1 =0
∂x1 ∂x2 = −1 ∂x2 ∂x2 = 1
mit J = 1. Damit wird die Dichte als Randverteilung zu g(y, x2 ) = f (y − x2 , x2 ) g(y) =
f (y − x, x) dx =
f (x, y − x) dx
(2.40)
Da f eine zweidimensionale Dichte ist, k¨ onnen x1 und x2 auch abh¨angige Variablen sein. In der Physik hat man h¨aufig den Fall, dass eine Messung einer Variablen x durch St¨ orgr¨ oßen ε verf¨ alscht wird, die von x unabh¨ angig sind. Man misst dann y = x + ε. Dies ist ein Spezialfall mit f (x, ε) = f1 (x) · f2 (ε). Die Verteilung
g(y) =
f1 (x)f2 (y − x) dx
ist die Faltung g = f1 f2 der Verteilungen f1 und f2 . angige Die Faltung diskreter Verteilungen ist anschaulicher: Sind k1 , k2 unabh¨ Zufallszahlen und ist k = k1 ± k2 , so ist seine Wahrscheinlichkeit P (k) =
P1 (k1 ) · P2 (k2 )
(2.41)
k1 ±k2 =k
ur Abbildung 2.5 zeigt die beitragenden Punkte in der k1 , k2 -Ebene zu P (5) f¨ k = k1 + k 2 .
2.3. Erwartungswerte
2.3
· k2 5•
·
·
·
·
·
·
·
·
·
·
·
·
4·
•
·
·
·
·
·
3·
·
•
·
·
·
·
2·
·
·
•
·
·
·
1·
·
·
·
•
·
·
·
· 1
· 2
· 3
· 4
• 5
·
29
Abb. 2.5 Faltung zweier diskreter Wahrscheinlichkeitsfunktionen: Die Summe aller Wahrscheinlichkeiten der Punkte auf der Geraden k1 + k2 = 5 ist die Wahrscheinlichkeit P (5) f¨ ur k = k1 + k2 = 5. Bei einem ganzzahligen, nichtnegativen Wertebereich f¨ ur die diskreten Zufallsvariablen k1 , k2 tragen genau sechs Punkte bei: P (5) = P1 (0)P2 (5) + P1 (1)P2 (4) + · · · + P1 (5)P2 (0).
k1
Erwartungswerte
F¨ ur kontinuierliche Zufallsvariablen ξ mit der Dichte f bzw. diskrete Zufallszahlen κ mit Wahrscheinlichkeiten pk definiert man den Mittelwert oder Erwartungswert der Verteilung von ξ bzw. κ ξ = x · f (x) dx κ =
k · pk
(2.42) (2.43)
k
Er ist der Schwerpunkt der Grundgesamtheit aller ξ bzw. κ. Bei symmetrischen Dichtefunktionen ist ξ das Symmetriezentrum, und im folgenden Beispiel liegt κ wirklich in der Mitte aller Werte. Beispiel 2.8. Der Erwartungswert beim idealen Spielw¨ urfel ist 1 n = (1 + 2 + 3 + 4 + 5 + 6) = 3.5 6 und ist kein Wert, den man beim W¨ urfeln erwartet, sondern ein asymptotisches arithmetisches Mittel aller erhaltenen Werte. Daher ist Mittelwert einer Verteilung eine weniger irref¨ uhrende Bezeichnung als Erwartungswert. Man sollte ihn jedoch streng vom Mittelwert einer Stichprobe unterscheiden.
Der Erwartungswert einer Funktion φ(x) φ(x)f = φ(x) · f (x) dx
(2.44)
folgt aus dieser Definition mit f (x) dx = g(φ) dφ. Auch f¨ ur diskrete Zufallsvariablen hat man φ(k) · pk (2.45) φ(k) = k
I. Allg. ist φ(x) = φ(x).
30
2. Zufallsvariable und Verteilungen
Ein Erwartungswert φ(x)f ist ein Mittelwert einer Zufallsvariablen φ(x), wenn x mit der Dichte f verteilt ist. Die gleiche Funktion einer Zufallsvariablen, die nach g verteilt ist, hat einen Mittelwert φ(x)g , der i. Allg. verschieden von φ(x)f ist. Da x eine Konstante ist, ist x = x. Beispiel 2.9. Die Anzahl der erforderlichen W¨ urfe bis zur ersten Sechs in Beispiel 2.2 hatte Wahrscheinlichkeiten pn = 16 ( 56 )n−1 . Das arithmetische Mittel dieser Wahrscheinlichkeiten ist p ¯ = lim
1 6
n
5 k−1 k=1 ( 6 )
n
n→∞
=0
Der Erwartungswert von p, also das Verteilungsmittel, ist7 dagegen p =
∞ 1 25 k−1 1 ( ) = 36 36 11 k=1
Dies ist ein Beispiel f¨ ur den Erwartungswert einer Funktion: p(k). Das mittlere n ist n =
∞ 1 5 k−1 k( ) =6 6 6 k=1
Die Mitte“ einer Verteilung kann man auch anders definieren: ” F (x50 % ) =
1 2
(2.46)
ur Verteilungen, die um ihren x50 % nennt man Median der Verteilung. F¨ Mittelwert symmetrisch sind, ist x50 % = x, i. Allg. ist das jedoch nicht der Fall. Integrale und Summen sind linear, also gilt auch f¨ ur Erwartungswerte Linearit¨at: ax + by = ax + by
(2.47)
F¨ ur kontinuierliche Zufallsvariablen bedeutet dies ax + by = (ax + by)f (x, y) dx dy = a xf1 (x) dx + b yf2 (y) dy Die lineare Funktion φ(x) = ax + b ist eine der wenigen Ausnahmen, wo φ(x) = φ(x). 7
Bei der Berechnung sind die Formeln in Anhang C.2 hilfreich.
2.3. Erwartungswerte
31
F¨ ur unabh¨angige Zufallsvariable ist der Erwartungswert des Produkts x · y = x · y · f (x, y) dx dy = x · f1 (x) dx y · f2 (y) dy = x · y (2.48) bzw. bei diskreten Zufallsvariablen i · j = i · j · pij = i · pi · j · qj = i · j
(2.49)
Der umgekehrte Schluss von xy = xy auf Unabh¨angigkeit ist jedoch nicht zul¨ assig.
2.3.1
Erwartungswert der Verteilungsfunktion
Der Erwartungswert der Verteilungsfunktion ist f¨ ur kontinuierliche Zufallsvariable F (x) = F (x) · f (x) dx (2.50) ∞ − f (x) · F (x) dx = F 2 (x) −∞
=⇒
F (x) = 0.5
Dies ist der Mittelwert der Gleichverteilung zwischen 0 und 1 und folgt somit auch aus (2.32). Dagegen ist f¨ ur diskrete Zufallsvariable F (k) = F (k) · pk =
k k
(2.51)
pi pk
i=1
= 0.5 ·
i
pi p k +
p2k
k
= 0.5 · (1 + pk ) F (k) − 0.5 · P (k) = 0.5 Hierbei wurde die Definition (2.10) F (x) = P (κ ≤ x) verwendet. Eine ge¨ ringf¨ ugige Anderung der Definition in F (x) = P (κ < x) f¨ uhrt auf F (k) =
k−1 k
pi pk = 0.5 · (1 − pk )
i=1
Dieses Problem haben auch Dichten“ mit Deltafunktionen. ”
(2.52)
2. Zufallsvariable und Verteilungen
32
2.4
Momente
Eine wichtige Klasse von Erwartungswerten sind Momente. Allgemein ist das k-te Moment bez¨ uglich a (a)
mk = (x − a)k
(2.53)
Spezielle Momente sind Momente bez¨ uglich 0 mk = xk
(2.54)
zu denen der Erwartungswert x = m1 selbst geh¨ort, und zentrale Momente μk = (x − x)k
(2.55)
also Momente bez¨ uglich x ¯ = x. Die Momente μ0 = 1 μ1 = 0 sind trivial. Andere zentrale Momente werden in den folgenden Abschnitten n¨ aher vorgestellt. F¨ ur die linear transformierte Variable ax + b gilt μk (ax + b) = (ax + b − ax − b)k = ak (x − x)k = ak μk (x)
(2.56)
¯ = m1 und Die Momente m1 · · · m∞ oder alternativ der Mittelwert x die zentralen Momente der Ordnungen 2 bis ∞ definieren eine Verteilung vollst¨andig. Dichtefunktionen, die bez¨ uglich des Mittelwerts gerade sind, d. h. f (¯ x − t) = f (¯ x + t), haben verschwindende ungerade Momente μ2n+1 = 0. Dies sieht 0 ∞ man sofort, wenn man μ2n+1 = t2n+1 f (¯ x +t) dt in zwei Integrale −∞ + 0 zerlegt. Sie gehen durch Vertauschung t ↔ −t ineinander u ¨ber. Die beiden Integrale sind betragsgleich, unterscheiden sich aber wegen der ungeraden Potenz in t im Vorzeichen. Ungerade Dichtefunktionen gibt es nicht, da f (x) > 0 u ¨berall gilt.
2.4. Momente 2.4.1
33
Varianz
Das erste zentrale Moment, das u ¨ber die Verteilung f etwas aussagt, ist die Varianz
μ2 = σ2 (x) = (x − x)2 = x2 − x2
(2.57)
σ(x) = Standardabweichung, Streuung, Dispersion oder RMS (root mean square) ist die Wurzel aus der Varianz. Sie hat damit dieselbe physikalische Dimen¨ sion wie die Zufallsvariable x. Die Aquivalenz beider Definitionen in (2.57) 2 = folgt unmittelbar aus der Linearit¨ a t von Erwartungswerten: (x − x) 2 2 2 2 x − 2xx + x = x − x . Die Varianz ist die mittlere quadratische Abweichung vom Mittelwert. Die Standardabweichung ist daher ein Maß f¨ ur die Breite einer Verteilung. Dies sieht man etwa an der Beziehung (2.56) f¨ ur die Varianz:
σ2 (ax + b) = a2 σ2 (x)
(2.58)
Insbesondere ist σ(ax) = aσ(x), die Standardabweichung vergr¨oßert sich also um denselben Faktor wie die Zufallsvariable. Man nennt die Standardabweichung auch einen Skalenparameter der Verteilung. Damit kann man aus jeder Zufallsvariablen x die standardisierte Variable χ=
x − x σ
(2.59)
errechnen, die Mittelwert 0 und Standardabweichung 1 hat. Insbesondere ist auch m2 = χ2 = μ2 = σ2 (χ) = 1. Mithilfe der Varianz σ 2 = x2 − x2 l¨asst sich irgendein quadratisches Moment, also der Erwartungswert (a)
m2 = (x − a)2 = x2 − 2ax + a2 ausdr¨ ucken als (x − a)2 = σ 2 + (x − a)2
(2.60)
Das bedeutet, dass die Varianz das kleinste quadratische Moment ist. F¨ ur alle a = x kommt ein positiver Summand (x − a)2 hinzu. Dem Physiker f¨allt dabei die Analogie zum Steinerschen Satz f¨ ur das Tr¨ agheitsmoment auf, das 2. Moment einer Massenverteilung.
2. Zufallsvariable und Verteilungen
34 2.4.2
Tschebyschewsche Ungleichung
Eine schwache Aussage, die Ungleichung von Tschebyschew8 , l¨asst sich f¨ ur jede beliebige Verteilung mithilfe der Standardabweichung machen: P (|x − x| > aσ)
a2 σ 2 ∞
>
t · f (x) dx =
∞
t · g(t) dt
0
t · g(t) dt a2 σ 2 · g(t) dt
a2 σ 2
= a2 σ 2 · P t > a2 σ 2 = a2 σ 2 · P (|x − x| > aσ) Dass dies eine schwache Bedingung ist, sieht man am Beispiel der h¨aufigen Gauß-Verteilung: F¨ ur mehr als 5σ erh¨alt man nach Tschebyschew P < 1/25, tats¨ achlich ist P < 10−6 .
2.4.3
Absolute, faktorielle und normierte Momente
Bez¨ uglich eines beliebigen Punktes a definiert man neben dem k-ten Moment (a) mk = (x − a)k auch das k-te absolute Moment (a)
Mk
= |x − a|k
(2.62)
F¨ ur gerade k sind beide gleich, absolute Momente sind also nur f¨ ur ungerade k von Interesse. Insbesondere ist das erste absolute Moment bez¨ uglich des Mittelwerts ( x) = |x − x| (2.63) M1 wichtig: Es gibt den mittleren Betrag an, um den die Zufallsvariable vom Mittelwert abweicht. Wegen
σ2 (|x − x|) = |x − x|2 − |x − x|2 = σ2 − |x − x|2 ≥ 0 (2.64) 8
Пафнутий Львович Чебышев in P. L. Tschebyschew, J. de Math´ematiques Pures et Appliqu´ees 2, 177 (1867). Oft findet man auch die phonetische Umschriftung Tschebyscheff oder die internationale Chebyshev.
2.4. Momente ( x)
ist stets σ ≥ M1
35
.
F¨ ur diskrete ganzzahlige Zufallsvariable ν sind oft die faktoriellen Momente ! ν! (2.65) m(k) = ν(ν − 1)(ν − 2) · · · (ν − k + 1) = (ν − k)! einfacher zu berechnen als mk oder μk . Nachdem die Skala einer Verteilung durch die Standardabweichung σ definiert ist, kann man h¨ ohere Momente als dimensionslose Zahlen angeben, nachdem man sie auf σ als Einheit normiert hat. Einige dieser h¨oheren Momente mit eigenen Namen sind: Schiefe (Skewness): W¨olbung (Kurtosis): Exzess (H¨ aufungsgrad):
g = μ3 /σ 3 k = μ4 /σ 4 e =k−3
(2.66) (2.67) (2.68)
Die Schiefe ist 0 f¨ ur Verteilungsdichten, die um den Mittelwert symmetrisch sind. Eine Verteilung mit ausladendem Schwanz nach rechts hat positive Schiefe. Das vierte normierte Moment ist die W¨ olbung, auch Kyrtosis9 oder engl. Kurtosis genannt. Man gibt aber meistens den Exzess10 an, der um den Wert 3 f¨ ur die Gauß-Verteilung vermindert ist. Der Exzess ist die W¨olbung relativ zur Gauß-Verteilung. Breitschultrige“ Verteilungen haben negativen ” Exzess, solche, die schlanker bzw. spitzer sind als die Gauß-Verteilung, haben positiven Exzess. Er ist auch ein Maß daf¨ ur, wie genau man die Varianz einer Verteilung aus einer Stichprobe ermitteln kann: F¨ ur Verteilungen mit negativem Exzess ist die Genauigkeit gr¨oßer, bei positivem Exzess geringer als bei der Gauß-Verteilung.
Aufgaben 2.4. Berechnen Sie f¨ ur die Dichte f (x) des Betrags aus der dreidimensionalen Gauß-Verteilung aus Aufgabe 2.3 die Momente mk und die Varianz σ 2 . 2.5. Berechnen Sie die Momente mk und die Varianz σ 2 der Verteilungen aus Aufgabe 2.1. 2.6. Eine Datenmenge wird als Summe zweier Dichten beschrieben: f (x) = αf1 (x|μ1 , σ1 ) + (1 − α)f2 (x|μ2 , σ2 ) Mittelwert und Varianz jeder einzelnen Verteilung sind μi und σi2 . Berechnen Sie den Erwartungswert und die Varianz dieser Verteilung.
9 10
Von griech. κυρτ ´ oς = krumm, gew¨ olbt. In der englischsprachigen Literatur auch gelegentlich curtosis oder kurtosis (!) genannt; Verwechslungen sind also unvermeidbar.
36
2.5
2. Zufallsvariable und Verteilungen
Momente mehrdimensionaler Verteilungen
Momente einer n-dimensionalen Verteilung von Zufallsvariablen x = (x1 , . . . , uglich 0 xn ) bez¨ " n # ki mk1 ...kn = xi (2.69) i=1
¯n ) Zentrale Momente sind Momente bez¨ uglich x = (¯ x1 , . . . , x # " n μk1 ...kn = (xi − x ¯ i ) ki
(2.70)
i=1
Triviale Momente sind μ000...00 = 1 (0. Ordnung) μ100...00 = 0 (1. Ordnung) μ010...00 = 0 .. . μ000...01 = 0 Weitere Beispiele sind etwa μ020...00 = σ2 (x2 ) etc. Interessant werden aber erst Momente mit mehr als einem von 0 verschiedenen Index. Der einfachste Fall, mit zwei Einsen, wird im folgenden Abschnitt vorgestellt.
2.6
Kovarianz
Eine besondere Rolle spielt das Moment 2. Ordnung μ11 einer zweidimensionalen Verteilung, die Kovarianz C(x, y) = μ11 = (x − x)(y − y) = xy − xy
(2.71)
Der Wertebereich der Kovarianz ist eingeschr¨ ankt: |C(x, y)| ≤ σ(x) σ(y)
(2.72)
Man zeigt dies durch die Dreiecksungleichung ! (x − x)2 (y − y)2 = χ2x + χ2y = 2 + σ(x)2 σ(y)2 ! (x − x)(y − y) ≥ 2|χx χy | = 2 σ(x) σ(y) |C(x, y)| =2 σ(x) σ(y)
2.6. Kovarianz
37
die man leicht durch Ausmultiplizieren von (χx ± χy )2 ≥ 0 erh¨ alt. Wir nennen zwei Zufallsvariable unkorreliert ⇐⇒ C(x, y) = 0
(2.73)
Insbesondere gilt f¨ ur unabh¨ angige Zufallsvariable nach (2.48) C(x, y) = xy − xy = 0 D. h., unabh¨ angige Zufallsvariable sind immer auch unkorreliert. Die Varianz ist nicht linear, es gilt vielmehr die Beziehung σ 2 (ax + by + c) = a2 x2 + b2 y 2 + 2abxy − a2 x2 − b2 y2 − 2abxy = a2 σ 2 (x) + b2 σ 2 (y) + 2ab · C(x, y)
(2.74)
Varianzen zweier Zufallszahlen addieren sich nur zu σ 2 (x + y) = σ 2 (x) + σ 2 (y), falls die Kovarianz 0 ist, insbesondere bei unabh¨angigen Zufallszahlen. Positive Kovarianz bedeutet eine zus¨ atzliche Vergr¨ oßerung, negative eine Verkleinerung der Varianz der Summe. Beispiel 2.10. Die Verteilung aus Beispiel 2.4 hat die Mittelwerte x = y = 0, und die Momente 2. Ordnung 1 3 1 σ 2 (y) = 3 C(x, y) = 0 σ 2 (x) =
x und y sind also unkorreliert, aber wie in Beispiel 2.4 gezeigt, nicht unabh¨ angig! Zur Berechnung der σ 2 :
1 4 −1
3π
x2
1 − x2 (2x2 + 1) dx =
$ 5 %1 8 arcsin x x x3 x 1 − x2 + + − 3π 3 6 4 4 0
Das Beispiel zeigt, dass zwei unkorrelierte Zufallsvariablen nicht unabh¨angig sein m¨ ussen: unabh¨ angig
=⇒ ⇐= /
unkorreliert
(2.75)
Zwei linear abh¨angige Zufallsvariablen x, y mit y = ax + b sind vollst¨ andig korreliert. Ihre Dichte ist f (x, y) = f (x)δ(y − ax − b)
38
2. Zufallsvariable und Verteilungen
und die Momente sind x ¯ = x = xf (x) δ(y − ax − b) dy dx = xf (x) dx y = a¯ x+b σ 2 (x) = (x − x ¯)2 f (x) dx σ 2 (y) = a2 σ 2 (x) C(x, y) = (x − x ¯)f (x) (y − a¯ x − b) δ(y − ax − b) dy dx = a(x − x ¯)2 f (x) dx = aσ 2 (x)
Offenbar nimmt |C(x, y)| den maximal erlaubten Wert σ 2 (x) · a2 σ 2 (x) = ur die Korrelation ist daher der |a|σ 2 (x) an. Ein gutes Maß f¨ Korrelationskoeffizient ρ=
C(x, y) σ(x)σ(y)
(2.76)
der Werte zwischen −1 und 1 annimmt. Nach der Definition ist f¨ ur unkorrelierte Zufallsvariablen ρ = 0. In unserem Beispiel ist ρ=
aσ 2 (x) = ±1 |a|σ 2 (x)
gleich 1 f¨ ur positives a und −1 f¨ ur negatives a. Die Variablen sind im ersten Fall vollst¨andig positiv korreliert, im zweiten Fall vollst¨andig negativ korreliert oder antikorreliert. Wertepaare von Zufallsvariablen kann man als Scatterplot darstellen. Linien gleicher Dichte sind dann u ¨berwiegend ansteigend bei positiver Korrelation (z. B. K¨orpergr¨ oße und Gewicht von Menschen), u ¨ berwiegend abfallend bei Antikorrelation (z. B. Breite und Str¨ omungsgeschwindigkeit von Fl¨ ussen) und parallel zu den Achsen liegende Formen bei unkorrelierten Daten (z. B. K¨orpergr¨ oße und Jahreseinkommen von Menschen oder Breite und Tr¨ ubungsgrad von Fl¨ ussen). Abbildung 2.6 zeigt solche Beispiele.
2.6.1
Kovarianzmatrix
Bei n Zufallsvariablen sind Kovarianzen immer paarweise definiert, und k¨onnen in einer Matrix zusammengefasst werden. Die Kovarianzmatrix Cij = C(xi , xj ) = xi xj − xi xj ist symmetrisch. Ihre Diagonalelemente sind Varianzen. Cii = σ 2 (xi ),
Cij = Cji
(2.77)
2.6. Kovarianz
y
b) ··· ·· ·· ··· · ·· ···· ·· · ················· ···· ·· · · · · ····· ··· ·············· · ·· ·· ··········· ·· ··············· ··· · ···· ·········· ······ ··· · ····· ·· · · · ·· · ·· · ·· x
a) · · · ··· ·· · ·· · · ·· ···· ··· ·· ·· ·········· · · · · ···· ·· ···· ··· ························· · · · · ·· · ·· ····· ··························· · · ·· ···· ···· · · · ·· · ······ ·· · · · · ·· · x
39
··· · ·· · c) · · ··· ·· · ·· ·· ·· · ··· ·· · ·· ·· · · ·· · · ····· ·· · · · · · ·· · ······· · · ····· · ····· · ··· · · ·· ·· · ··· ·· ···· ··············· · ·· ·· ··· ·· · · · · · · · · · · ·· ·· · ····· · ·· ··· ·· · · · ··· · ··· ··· ···· ·· · · · · · · · ··· · x
Drei Verteilungsdichten von Wertepaaren (x, y) mit (a) positiver Korrelation ρ = 0.85, (b) Antikorrelation ρ = −0.90 und (c) unkorrelierte Paare.
Abb. 2.6
Sie enth¨ alt alle Momente zweiter Ordnung, die aus den beschriebenen Zufallsvariablen gebildet werden k¨onnen. ⎛
μ20000...00 ⎜ μ11000...00 C=⎜ .. ⎝ .
μ11000...00 μ02000...00
μ10100...00 μ01100...00
··· ··· .. .
μ10000...01
μ01000...01
μ00100...01
···
⎞ μ10000...01 μ01000...01 ⎟ ⎟ .. ⎠ . μ00000...02
(2.78)
Aus (2.74) folgt f¨ ur eine Linearkombination aus beliebig vielen Zufallsvariablen ai xi = ai Cij aj (2.79) σ2 i
i
j
Daraus sieht man sofort, dass die Kovarianzmatrix positiv definit ist, d. h. aCa > 0 f¨ ur alle a, die keine Nullvektoren sind. Dass die linke Seite der Gleichung nicht negativ werden kann, hat seine mathematische Ursache in der Ungleichung (2.72). Da es sich um eine Varianz handelt, ist dies aber ohnehin klar. Den Kehrwert der Kovarianzmatrix nennt man Gewichtsmatrix : G = C −1
(2.80)
Eine Untermatrix der Kovarianzmatrix beschreibt das Verhalten der verbleibenden Variablen, wenn die anderen weiterhin frei variieren k¨ onnen, also die Verteilung der Randverteilung dieser Variablen. Eine Untermatrix der Gewichtsmatrix beschreibt das Verhalten, wenn die gestrichenen Variablen konstant auf ihrem Mittelwert gehalten werden, also die bedingte Verteilung dieser Variablen.
40
2. Zufallsvariable und Verteilungen
2.6.2
Transformation von Mittelwerten und Kovarianzmatrix
F¨ ur die lineare Transformation y = Ax + b mit den Zufallsvariablen x = (x1 , . . . , xn ), y = (y1 , . . . , ym ) und den Konstanten b = (b1 , . . . , bm ) und der Transformationsmatrix ⎛
A11 .. ⎝ A= . Am1
⎞ A1n .. ⎠ .
... .. . ...
Amn
ist der transformierte Erwartungswert y = Ax + b
(2.81)
und die Kovarianzmatrix
C(y) = A C(x) A†
(2.82)
wie man in Indexschreibweise leicht nachrechnet: Cij (y) = (yi − yi )(yj − yj ) = (Aik (xk − xk )(Ajl (xl − xl ) =
k
l
k
l
Aik Ckl (x) Ajl
Eine wichtige Eigenschaft einer reellen, symmetrischen, positiv definiten Matrix C ist es, dass eine orthogonale11 Matrix R existiert, die C in Diagonalform ⎞ ⎛ 2 0 ··· 0 σ1 ⎜ 0 σ 2 · · · 0 ⎟ 2 ⎟ ⎜ (2.83) C = RCR† = ⎜ . .. .. ⎟ .. ⎝ .. . . . ⎠ 0
0
···
σn
2
transformiert. Da eine Spiegelung (z. B. R → −R bei ungerader Dimension) das Resultat der Transformation nicht a¨ndert, gibt es sogar ein R mit R = 1. Dies ist eine Rotation im n-dimensionalen Raum. 11
Eine orthogonale Matrix ist reell und unit¨ ar und erf¨ ullt R−1 = R† und R = ±1. Sie beschreibt eine Rotation und/oder Spiegelung im n-dimensionalen Raum.
2.6. Kovarianz
41
Das bedeutet, man kann zu jedem Satz von Variablen x = (x1 , . . . , xn ) durch Rotation einen neuen Satz x = Rx von Variablen x1 , . . . , xn erhalten, die alle unkorreliert sind. Eine triviale Konsequenz ist, dass der rotationsinvariante Erwartungswert n (xi − xi )2 = n (2.84) xGx − xGx = (x − x)G(x − x) = σi 2 i=1
ist. F¨ ur eine nichtlineare Transformation y = φ(x) gibt es keine allgemeine Formel. Falls φ(x) ≈ φ(x), kann man jedoch lokal eine Taylor-Entwicklung durchf¨ uhren: (2.85) y = φ(x) + J (x) · (x − x) + O(x − x)2 1 ...ym ) . Dann ist in 1. Ordnung mit der Jacobi-Matrix J (x) = ∂(y ∂(x1 ...xn ) x= x
C(y) ≈ J C(x) J †
(2.86)
Insbesondere kann man die Kovarianz zweier abgeleiteter Gr¨ oßen y1 und y2 berechnen als n n n ∂y1 ∂y2 ∂y1 ∂y2 2 ∂y1 ∂y2 C(xi , xj ) σ (xi ) + + C(y1 , y2 ) = ∂xi ∂xi ∂xi ∂xj ∂xj ∂xi i=1 i=1 j=i+1 (2.87) F¨ ur unkorrelierte xi verschwindet der zweite Term mit der Doppelsumme. Beispiel 2.11. Ein einfaches (und exaktes) Beispiel ist y1 = x 1 + x 2 y2 = x 1 − x 2 σ 2 (y1 ) = σ12 + σ22 + 2C12 σ 2 (y2 ) = σ12 + σ22 − 2C12 C(y1 , y2 ) = σ12 − σ22
Im Gegensatz zu diesem Beispiel einer linearen Transformation ist i. Allg. die Approximation durch eine Taylorreihe auf einen lokalen Bereich begrenzt. Die Anwendung von (2.86) bleibt dann beschr¨ankt auf Verteilungen, deren Dichte mit dem Abstand zum Mittelwert sehr schnell abnimmt.
42
2. Zufallsvariable und Verteilungen
Aufgaben 2.7. Berechnen Sie die Kovarianz der Verteilung f (x, y) =
2 2 4 (1 + x2 y 2 )e−(x +y ) . 5π
Zeigen Sie, dass x, y zwar unkorreliert, aber nicht unabh¨ angig sind! Berechnen Sie die Randverteilung f (x). Computeraufgabe: Stellen Sie die bedingte Dichte f (x|y) f¨ ur verschiedene y grafisch dar (die Normierung ist hier unwichtig!). Vergleichen Sie mit der Randverteilung f (x). uhrt zwei zwischen 0 und 1 gleich2.8. Die Box-Muller-Transformation 12 f¨ verteilte Zufallsvariablen ζ1 , ζ2 mit f (ζ1 , ζ2 ) = 1,
0 < ζ1 < 1, 0 < ζ2 < 1
u ¨ber in die Zufallsvariablen x, y: x = −2 ln ζ1 · sin 2πζ2 y = −2 ln ζ1 · cos 2πζ2
(2.88)
Berechnen Sie die Wahrscheinlichkeitsdichte g(x, y) f¨ ur die transformierten Variablen und den Korrelationskoeffizienten ρxy . Computeraufgabe: Erzeugen Sie die 1000 Zufallszahlenpaare x, y und stellen Sie sie als 2-dimensionales Histogramm dar.
2.7
Maxima und Minima von Zufallsvariablen
F¨ ur das Maximum η = max(ξ1 , ξ2 ) zweier unabh¨angiger Zufallsvariablen ξ1 und ξ2 mit Verteilungsfunktionen F1 (x) und F2 (x) gilt: G(y) = P (η ≤ y) = P (ξ1 ≤ y ∧ ξ2 ≤ y) = P (ξ1 ≤ y) · P (ξ2 ≤ y) = F1 (y) · F2 (y)
(2.89)
Die Dichte ist also g(y) = f1 (y) · F2 (y) + f2 (y) · F1 (y) Falls f1 = f2 = f wird daraus g(y) = 2f (y) F (y) 12
G. E. P. Box, M. E. Muller, The Annals of Mathematical Statistics 29, 610–611 (1958).
2.7. Maxima und Minima von Zufallsvariablen
43
Ein Sonderfall mit Potenzfunktionen ist f1 (x) ∼ xn1 und f2 (x) ∼ xn2 , dann ist g(y) ∼ y n1 +n2 +1 . F¨ ur N Variablen und η = max ξi gilt G(y) = P (η ≤ y) = P (ξ1 ≤ y ∧ ξ2 ≤ y . . . ∧ ξN ≤ y) =
N
Fk (y) (2.90)
k=1
F¨ ur das Minimum η = min(ξ1 , ξ2 ) zweier unabh¨angiger Zufallsvariablen ξ1 und ξ2 mit Verteilungsfunktionen F1 (x) und F2 (x) gilt G(y) = P (η ≤ y) = 1 − P (ξ1 > y ∧ ξ2 > y) = 1 − P (ξ1 > y) · P (ξ2 > y) = 1 − [1 − F1 (y)] · [1 − F2 (y)] was durch das Ersetzen der Verteilungsfunktion durch ihr Komplement (f¨ ur N Variablen) analog zu (2.90) ist: Q(y) = P (η > y) = P (ξ1 > y ∧ ξ2 > y ∧ . . . ∧ ξN > y) =
N
Qk (y)
k=1
oder G(y) = P (η ≤ y) = 1−P (ξ1 > y ∧ ξ2 > y ∧ . . .∧ ξN > y) = 1−
N
[1−Fk (y)]
k=1
(2.91) Beispiel 2.12. Das Maximum und das Minimum von N gleichverteilten Zufallsvariablen haben nach (2.90) und (2.91) die Dichten −1 , fo (xo ) = N xN o
fu (xu ) = N (1 − xu )N −1
Beide sind aber nicht unabh¨ angig voneinander, denn das Maximum kann nicht kleiner als das Minimum werden. Daher faktorisiert die Dichte f (xo , xu ) nicht. F¨ ur die zweidimensionale Dichte benutzt man zwei Variablen, die in der Umgebung von (0, 0) beide uneingeschr¨ ankt wachsen k¨ onnen. Das sind das Minimum xu und das Komplement zum Maximum yo = 1 − xo . Sie haben im Wertebereich der Variablen, dem Dreieck yo + xu ≤ 1, die zweidimensionale Dichte f (xu , yo ) =
N d2 d2 P (xu ≤ ξi ≤ 1 − yo ) = (1 − yo − xu )N dxu dyo dxu dyo i=1
= N (N − 1)(1 − yo − xu )N −2 und damit f (xu , xo ) = N (N − 1)(xo − xu )N −2 ,
0 ≤ x u ≤ xo ≤ 1
(2.92)
Sie gilt nur innerhalb des Wertebereichs, außerhalb ist sie 0. Der Wertebereich ist das obere Dreieck innerhalb des Quadrats 0 ≤ xu ≤ 1, 0 ≤ xo ≤ 1, das durch die Bedingung xu ≤ xo begrenzt wird. Die Randverteilungen sind die bereits bekannten Dichten f¨ ur Maximum und Minimum.
44
2. Zufallsvariable und Verteilungen
Aufgaben 2.9. Berechnen Sie zur Dichte (2.92) die Erwartungswerte xu , xo , σ 2 (xu ), σ 2 (xo ) und C(xu , xo ). 2.10. Die zweidimensionale Verteilung (2.92) in Beispiel 2.12 hat einen dreieckigen Wertebereich. Ersetzt man xo durch z = (xo − xu )/(1 − xu ), ist der Wertebereich das Rechteck von (0, 0) bis (1, 1). Wie ist die Dichte g(xu , z)?
2.8
Charakteristische Funktion
Die Verallgemeinerung von reellen auf komplexe Zufallsvariablen, z. B. u ¨ber ein reelles Wertepaar (x, y) zu z = x + iy, stellt kein neues Konzept dar. Alle Eigenschaften von Paaren reeller Zufallsvariablen k¨onnen sinngem¨aß auf diesen Fall u ¨bertragen werden. Insbesondere ist der Erwartungswert z = x + iy auch im Komplexen linear. Ein n¨ utzlicher komplexer Erwartungswert einer reellen Zufallsvariablen x wird durch die charakteristische Funktion φx (t) = eitx =
∞
eitx f (x) dx
(2.93)
−∞
gebildet. Sie ist die Fourier-Transformierte der Dichtefunktion. Sie enth¨ alt die gesamte Information der Dichte. Diese kann durch die R¨ ucktransformation ∞ 1 −itx e φ(t) dt (2.94) f (x) = 2π −∞ wiedergewonnen werden. F¨ ur diskrete Verteilungen ist die charakteristische Funktion analog φx (t) = eitx =
eitk pk
(2.95)
k
F¨ ur einen linearen Ausdruck ax + b mit Konstanten a, b und der Zufallsvariablen x erh¨alt man φax+b (t) = eitax eitb = eitb φx (at)
(2.96)
2.8. Charakteristische Funktion F¨ ur jede Dichte ist φx (0) =
45
f (x) dx = 1 oder einfacher φx (0) = e0 = 1.
Ihre erste Ableitung ist ∞ dφ = ixf (x)eitx dx = ixeitx dt −∞ dφ = i xf (x) dx = ix = im1 dt t=0
und damit
Entsprechend zeigt man f¨ ur h¨ohere Ableitungen φ(k) x (t) =
dk φx (t) k itx k xk eitx f (x) dx = (ix) e = i dtk
und damit k φ(k) x (0) = i mk
(2.97)
Insbesondere ist σ 2 (x) = x2 − x2 = −φ (0) + [φ (0)]2 . Wegen (2.97) kann man die charakteristische Funktion als Taylorreihe um 0 schreiben: ∞ mk (it)k (2.98) φx (t) = k! k=0
Unsere fr¨ uhere Behauptung, dass eine Verteilung durch ihre Momente vollst¨andig definiert ist, ist damit bewiesen. Die Dichte ist ∞ ∞ 1 −itx mk f (x) = (it)k dt e 2π −∞ k! k=0
Die charakteristische Funktion einer Faltung unabh¨ angiger Zufallsvariablen x, y φx+y (t) = eit(x+y) = eitx eity = φx (t) · φy (t)
(2.99)
ist ein Produkt beider charakteristischer Funktionen, wie man leicht durch die Separation des Integrals eit(x+y) = eit(x+y) f (x, y) dx dy = eitx f1 (x) dx eity f2 (y) dy sieht. Damit lassen sich Faltungen von Verteilungen (bzw. Funktionen) oft einfach mithilfe ihrer Fourier-Transformierten berechnen. Dies l¨asst sich auf den Fall φs (t) = φxk (t) f¨ ur s = xk (2.100) k
verallgemeinern.
k
46 2.8.1
2. Zufallsvariable und Verteilungen Wahrscheinlichkeitserzeugende Funktion
F¨ ur diskrete nichtnegative ganzzahlige Zufallsvariablen k kann man statt der charakteristischen Funktion die wahrscheinlichkeitserzeugende Funktion oder einfach Erzeugendenfunktion (engl. probability generating function) als mP (z) := z k =
P (k)z k = P (0) + P (1)z + P (2)z 2 . . .
(2.101)
k
definieren, wobei mP (eit ) = φ(t) die charakteristische Funktion ist. Die wahrscheinlichkeitserzeugende Funktion ist eine Potenzreihe, die (mindestens) f¨ ur |z| ≤ 1 konvergiert, und hat ¨ahnliche Eigenschaften wie die charakteristische Funktion. Man sieht sofort, dass mP (0) = P (0)
(2.102)
und mP (1) = 1 ist. Aus ihr erh¨ alt man die Wahrscheinlichkeit P (k) =
1 dk mP (z) k! dz k z=0
(2.103)
und die faktoriellen Momente m(n)
dn mP (z) = k(k − 1) · · · (k − n + 1) = dz n z=1
(2.104)
der Zufallsvariablen k. Damit ist k = mP (1) mit mP (z) = dmP (z)/ dz. F¨ ur die transformierte Variable j = ak + b ist Pj (j)z j = Pk (k)z ak+b = z b Pk (k)z ak = z b mPk (z a ) mPj (z) = j
k
k
(2.105) analog zu (2.96). angiger F¨ ur eine Faltung von Wahrscheinlichkeiten Pk (k) und Pl (l) unabh¨ Zufallsvariablen k und l ist mPk Pl (z) = mPk (z) · mPl (z)
(2.106)
die wahrscheinlichkeitserzeugende Funktion von Pn (n) mit Pn = Pk Pl f¨ ur n = k + l, analog zu (2.99). Eine weitere Anwendung ist die Verteilung zweier verketteter Wahrscheinlichkeiten. Die Zufallszahl j ki (2.107) n= i=1
2.9. Spezielle Verteilungen
47
wird aus einer zuf¨alligen Anzahl j von Summanden gebildet, die die Wahrscheinlichkeit Pj (j) hat. F¨ ur jeden Summanden ist die jeweilige Wahrscheinur festes lichkeit Pk (ki ) durch eine gemeinsame Verteilung Pk gegeben. F¨ j = j0 ist dies eine Faltung von j0 Wahrscheinlichkeiten mit Pn,j0 (n) =
j0 i=1
j0
Pk (ki )
(2.108)
ki =n i=1
analog zu (2.41). F¨ ur jedes n addieren wir die Produkte der Wahrscheinlichkeiten von j Summanden, deren Summe n ergibt. Das sind alle Kombina0 j0 ki = n. Dazu geh¨ort nach (2.106) die wahrscheinlichkeitstionen mit i=1 erzeugende Funktion von Pn,j0 (n) mPn,j0 (z) = z n j0 = [mPk (z)]j0
(2.109)
f¨ ur festes j0 . F¨ ur zuf¨ alliges j erh¨alt man n mPn (z) = z = Pj (j)z n j = Pj (j)[mPk (z)]j = mPj (mPk (z)) j
j
(2.110) als mit Pj (j) gewichtete Summe aller Faltungen, also wieder eine wahrscheinlichkeitserzeugende Funktion von Pj mit dem Argument mPk (z).
2.9
Spezielle Verteilungen
In den folgenden Abschnitten sollen einige wichtige kontinuierliche Verteilungen n¨aher vorgestellt werden. Verteilungen diskreter Zufallszahlen werden weiter unten im Zusammenhang mit Stichproben und Z¨ahlexperimenten behandelt. Die folgenden Verteilungen haben teilweise einen endlichen Wertebereich, einige beschreiben jedoch prinzipiell unbegrenzte Zufallsvariablen. Bei der Anwendung in der Physik sollte man immer im Auge behalten, dass der Wertebereich physikalischer Gr¨oßen stets endlich ist. In Bereichen, die sehr weit vom Mittelwert entfernt sind (und dort kleine Wahrscheinlichkeitsdichte haben), sind solche Verteilungen oft nicht mehr g¨ ultig. Beispiel 2.13. Als Beispiel nehme man die Breit-Wigner-Verteilung der Resonanzenergie: 1 Γ (2.111) f (E) = 2π (E − E0 )2 + (Γ/2)2 Sie ist f¨ ur alle Werte von −∞ bis +∞ definiert, physikalisch sinnvoll sind aber nur positive Werte, die nach oben durch die Energieerhaltung begrenzt sind. In der N¨ ahe der physikalischen Grenzen beschreibt die idealisierte Verteilung die physikalische Verteilung nicht mehr.
48 2.9.1
2. Zufallsvariable und Verteilungen Gleichverteilung
Die einfachste Verteilung ist die Gleichverteilung oder uniforme Verteilung, deren Dichte innerhalb des (zusammenh¨ angenden) Wertebereichs konstant ist. Um zu einer normierbaren Dichte zu kommen, muss die Intervallbreite endlich sein. Bei der Standardgleichverteilung ist es das Intervall von 0 bis 1, wobei der Ein- oder Ausschluss der Intervallgrenzen die Eigenschaften der Verteilung (bis auf die Tatsache selbst) nicht ber¨ uhrt. Die Standardform ist eine Gleichverteilung zwischen 0 und 1. Wertebereich [0, 1[ 1 0≤x sσ) = erfc( √ ) = 2Q(s) 2 Eine einfache grafische Pr¨ ufmethode auf Gauß-Verteilung ist das Auftragen der Summenh¨ aufigkeit in Wahrscheinlichkeitspapier (Abbildung 2.8). Auf diesem Papier ist die Ordinate nicht linear, sondern proportional zum Inversen der Verteilungsfunktion F (x) der Gauß-Verteilung (2.132) geteilt. Damit wird F (x) eine Gerade.
2.9. Spezielle Verteilungen
57
F(x) 99 % 2σ
97 % 95 % 90 % σ
80 % 70 % 60 % 50 % 40 % 30 % 20 % −σ
10 % 5% 3% −2σ
1%
Abb. 2.8
x Die Verteilungsfunktion (Summenh¨ aufigkeit) auf Wahrscheinlichkeitspapier ist f¨ ur gaußverteilte Zufallszahlen eine Gerade.
58
2. Zufallsvariable und Verteilungen
2.9.5.1
Die charakteristische Funktion der Gauß-Verteilung
Die Variable χ sei standardnormalverteilt mit der Dichte 2 1 f (x) = √ e−x /2 2π dann ist die charakteristische Funktion φg (t) = eitχ 1 itx −x2 /2 e e =√ dx 2π 1 − (x−it)2 −t2 /2 2 e e d(x − it) =√ 2π = e−t
2
/2
(2.135)
F¨ ur die allgemeine Gauß-Verteilung 2 2 1 f (y) = √ e−(y−μ) /2σ 2π σ folgt daraus wegen (2.96) und y = σx + μ φg (t) = eitμ e−σ
2.9.5.2
2 2
t /2
(2.136)
Additivit¨ at: Faltung zweier Gauß-Verteilungen
Die Summe z = x + y zweier unabh¨ angiger gaußverteilter Zufallsvariablen x, y mit f (x) = G(x|μx , σx ) und f (y) = G(y|μy , σy ) ist wieder gaußverteilt. Die Werte f¨ ur μz = μx + μy und σz2 = σx2 + σy2 folgen aus (2.47) und (2.74). Dagegen sieht man nicht ohne Rechnung, dass die Faltung wieder eine GaußVerteilung ist. Diese ist jedoch einfach, wenn man die charakteristischen Funktionen betrachtet. Nach (2.136) ist 2 2
φx (t) = eitμx e−σx t φy (t) = eitμy e
/2
−σy2 t2 /2
φz (t) = φx (t) · φy (t) 2
2
= eit(μx +μy ) e−(σx +σy )t
2
/2
Daraus folgt
' 2 2 1 σx2 + σy2 ) = √ e−(z−μz ) /2σz 2π σz mit μz = μx + μy und σz2 = σx2 + σy2 . f (z) = G(z|μx + μy ,
(2.137)
Die Familie der Gauß-Verteilungen ist abgeschlossen bez¨ uglich der Faltung. Man spricht auch von Reproduktivit¨ at der Gauß-Verteilung.
2.9. Spezielle Verteilungen 2.9.6
59
Chiquadrat-Verteilung
Aus einer standardnormalverteilten Zufallszahl χ kann man die neue Variable χ2 berechnen, die nur nichtnegative Werte annimmt. Sie folgt der Chiquadrat-Verteilung mit einem Freiheitsgrad f (χ2 |1) = 2G(χ)
2 dχ 1 = e−χ /2 2 dχ 2πχ2
(2.138)
wobei nach (2.29) die 2 von den beiden L¨osungen ±χ kommt. Der Mittelwert ist χ2 = σ2 (χ) + χ2 = 1 + 0 = 1 Dies muss auch so sein, denn schließlich ist χ2 ja gerade die auf σ 2 normierte quadratische Abweichung vom Mittelwert. Die Momente bzgl. 0 der Chiquadrat-Verteilung mk = χ2k = (2k − 1)!!
(2.139)
sind genau die geraden Momente der Standardnormalverteilung nach (2.127), da (χ)2k = (χ2 )k ist. Damit wird die Varianz σ 2 (χ2 ) = m2 − m21 = 2
(2.140)
Die charakteristische Funktion ist e
itχ2
∞ 1 − 1 −x/2 itx = √ x 2e e dx 2π 0
1 1 1 y − 2 e−y dy = (1 − 2it)− 2 =' 2π( 12 − it) 0 ∞
(2.141)
wobei die Substitution y = ( 12 −it)x durchgef¨ uhrt wurde, um die Integraldarstellung der Gammafunktion zu erhalten. Beispiel 2.15. Es sei x eine gaußverteilte Zufallsvariable mit Mittelwert μ und Standardabweichung σ. Dann ist χ2 =
(x − μ)2 σ2
chiquadratverteilt mit einem Freiheitsgrad. Beweis: χ ist standardnormalverteilt.
Eine Chiquadrat-Verteilung mit n Freiheitsgraden ( d. f. = degrees of freedom) beschreibt die Summe χ2 :=
n i=1
χ2i
(2.142)
60
2. Zufallsvariable und Verteilungen
aus n unabh¨ angigen standardnormalverteilten Variablen (χi )i=1...n . Sie hat die folgenden Eigenschaften: Wertebereich [0, ∞[ Dichte f (χ2 |n) =
1 2n/2 Γ(n/2)
χn−2 e−χ
2
/2
Verteilungsfunktion F (χ2 ) = P (χ2 |n) f¨ ur gerade n: P (χ2 |2ν) = 1 − e−χ
2
/2
E(ν − 1,
(2.143)
χ2 ) 2
(2.144)
f¨ ur ungerade n: numerisch (im Anhang) 2 2 Momente: χ2 = &n, σ (χ ) = 2n 2 12 g=2 , e= n n 2
n
charakteristische Funktion eitχ = (1 − 2it)− 2 Die charakteristische Funktion ist e
itχ2
n−2 1 = n/2 x 2 e−x/2 eitx dx 2 Γ(n/2) 0 ∞
=
∞ n n 1 y 2 −1 e−y dy = (1 − 2it)− 2 1 n/2 n/2 Γ(n/2)2 ( 2 − it) 0
(2.145)
wobei wieder die Substitution y = ( 12 − it)x durchgef¨ uhrt wurde. Damit beweist man die Dichte der Chiquadrat-Verteilung, die aus der charakteristischen Funktion und der Additionsformel (2.99) folgt. Die Familie chiquadratverteilter Zufallsvariablen ist abgeschlossen: Die Summe c = a + b aus zwei unabh¨ angigen Zufallsvariablen a und b, die chiquadratverteilt sind mit k und l Freiheitsgraden, ist wieder chiquadratverteilt mit m = k + l Freiheitsgraden. Dies folgt sofort aus der Definition (2.142) von χ2 . Im Beweis mithilfe der charakteristischen Funktion addieren sich im Produkt k und l. Mittelwert und Varianz ergeben sich nach den Additionsformeln (2.47) und (2.74) aus den Resultaten f¨ ur die Chiquadrat-Verteilung mit einem Freiheitsgrad, da (2.142) eine Summe unabh¨angiger Chiquadrat-Variablen mit einem Freiheitsgrad ist. Das k-te Moment der Chiquadrat-Verteilung ist 2 n 1 (χ2 ) 2 +k−1 e−χ /2 dχ2 n 2 Γ( 2 ) 0 ∞
mk (χ2 ) =
n 2
2.9. Spezielle Verteilungen
f(χ2 |n) 0.40
0.20
61
... ... ... ... ... ... ... .... ... ... ... ... n=1 ... ... ... ... ... ... ...... ...... .... ... ..... ...... ...... ... ... ... .. n=2 ... ... ... ... ......... . ........ . .... .... ... ........... ... ... .... .. .. ...................... . ....... .. .................. .... .......... .................... ... ......... . . .. . .......... ... ..... ...................... ...................... .......................... ..... . .. ................ . . ....... ... ..................... .. .... ....................... ....... ...... ..... ... ......... ...... ..................... ........ . . . . .................. ......... ................... ..... . . .. .... . . . . .................. ..... ... ....... ................. ........ ................................. .............................................. . .......... .. . . . . ........ ..... . . . ....... ............. . . . . . . . .. ... .... ....... ...... ................ ............ .......... ................................................... ....... ... ................... .......... .......... ................. ......... ............ .......... ... .. .... ...... ...... ........ ...... ................................. .................... . . .. . . . .. . .. . . . . . . . . . . .. .. . . . . . . . . . ......... .............. .................. ..................... ................. ................ ........ ...................... ..... .... ..... ........................................... .......... ...... . .. . ......... ... .... .................. ..................................................... ...... . .... . ....... . . . ........ . . . . . . . . . . . .... . ................... . ................... . . . . . . . . ................ ........................................... . ........ . ................ ................................................ ................................ ....... ........ ................. ................................. ............................. ................. ...................... ........................................................ ............................ ....................... ............... .....
0 Abb. 2.9
5
10
χ2
15
Dichten der Chiquadrat-Verteilung f¨ ur n = 1 . . . 7 Freiheitsgrade. Ungerade n sind gepunktet gezeichnet, gerade n durchgezogen. n
2 2 +k Γ( n2 + k) n 2 2 Γ( n2 ) = (n + 2k)(n + 2k − 2)(n + 2k − 4) · · · (n + 2)
=
(2.146)
Das Maximum der Chiquadrat-Dichte erh¨ alt man durch Differenzieren von (2.143) $ % n − 2 n−4 1 n−2 −χ2 /2 df (χ2 |n) 1 e χ = n/2 − χ =0 dχ2 2 2 2 Γ(n/2) f¨ ur n > 2. Es ist an der Stelle χ2 = n − 2. F¨ ur n = 1 und n = 2 ist die ur Ableitung nirgends 0, und das Maximum liegt am Rand bei χ2 = 0. F¨ n = 1 ist der Wert des Maximums ∞. Die Chiquadrat-Verteilung mit n = 2 Freiheitsgraden ist eine Exponentialverteilung mit Mittelwert 2. Beispiel 2.16. Produkt aus gleichverteilten Zufallszahlen: Der Logarithmus einer standardgleichverteilten Zufallsvariablen y = − ln x hat die Verteilungsfunktion F (y) = 1 − x(y) = 1 − e−y
62
2. Zufallsvariable und Verteilungen
und ist damit exponentialverteilt mit f (y) = e−y . Ein Produkt unabh¨ angiger standardgleichverteilter Zufallsvariablen z=
n
xi
i=1
kann auch u ¨ber eine Summe exponentialverteilter Variablen t = − ln z =
n
yi
i=1
dargestellt werden. Da die Exponentialverteilung von 2y aber eine ChiquadratVerteilung mit 2 Freiheitsgraden ist, gen¨ ugt 2t einer Chiquadrat-Verteilung mit 2n Freiheitsgraden, 1 n−1 −t e (2.147) t f (t) = Γ(n) Die Verteilung von z = e−t ist dann f (z) =
1 (− ln z)n−1 Γ(n)
(2.148)
Die Verteilungsfunktion f¨ ur das Produkt ist F (z) = z
n−1 k=0
entsprechend
(− ln z)k = zE(n − 1, − ln z) k!
F (t) = 1 − e−t E(n − 1, t)
Ein Sonderfall f¨ ur zwei gleichverteilte Zufallszahlen wurde bereits in Aufgabe 2.2 direkt gerechnet.
2.9.7
Die n-dimensionale Gauß-Verteilung
Zu jeder n × n Kovarianzmatrix C gibt es eine Gauß-Verteilung 1 −1 f (x1 , . . . , xn ) = e 2 n (2π) C
i,j
(xi −μi )Gij (xj −μj )
(2.149)
mit der Gewichtsmatrix G = C −1 . Alle Randverteilungen und bedingten Verteilungen sind wieder Gauß-Verteilungen. Das Argument der Exponentialfunktion ist − 12 χ2 mit χ2 =
n n i=1 j=1
(xi − μi )Gij (xj − μj )
(2.150)
2.9. Spezielle Verteilungen
63
Dies ist eine chiquadratverteilte Zufallsvariable mit n Freiheitsgraden. Das ist trivial f¨ ur diagonale Kovarianzmatrizen der Form ⎛ σ2 1
⎜ 0 C=⎜ ⎝ .. . 0
0 σ22 .. .
··· ··· .. .
0
···
0 0 .. .
⎞
⎛ 1/σ 2
⎟ ⎜ 0 ⎟ =⇒ G = ⎜ . ⎠ ⎝ . . σn2 0
f¨ ur die χ2 =
1
⎞
0 1/σ22 .. .
··· ··· .. .
0 0 .. .
0
···
1/σn2
⎟ ⎟ ⎠
n (xk − μk )2 k=1
σk2
ist, also eine Summe standardnormalverteilter unabh¨ angiger Zufallsvariablen. Die Unabh¨angigkeit folgt aus dem Faktorisieren: f (x1 , . . . , xn ) =
n
1 (2π)n σ
1 σ2
· · · σn
1
e− 2 (xk −μk )
2
2 /σk
(2.151)
k=1
F¨ ur gaußverteilte Zufallsvariablen gilt offensichtlich auch der Umkehrschluss: Unkorrelierte Zufallsvariablen sind auch unabh¨ angig. Da nach (2.83) jede Verteilung durch eine Transformation (Rotation) in ¨bergef¨ uhrt werden kann, hat einen Satz unkorrelierter Variablen x = Rx u die zugeh¨orige Kovarianzmatrix C = RCR† Diagonalgestalt, und wegen R−1 = R† ist G = (RCR† )−1 = RGR† Wenn wir den Koordinatenursprung in μ legen und dann mit R transformieren, erhalten wir x = R(x − μ) und χ2 = (x − μ)G(x − μ) = (R† x )R† G RR† x = x G x =
n (x )2 k
k=1
σk2
und die Dichte (2.149) geht wegen R = 1 in die Dichte (2.151) f¨ ur x u ¨ber. 2 Damit ist klar, dass auch χ in (2.150) eine chiquadratverteilte Zufallsvariable mit n Freiheitsgraden ist.
64
2. Zufallsvariable und Verteilungen
2.9.7.1
Zweidimensionale Gauß-Verteilung
1 σy2 σx σy ρ −ρσx σy σx2 und G = F¨ ur n = 2 ist C = σy2 σx2 σx σy ρ D −ρσx σy mit D = σx2 σy2 (1 − ρ2 ). Dabei ist ρ = C(x, y)/σx σy der Korrelationskoeffizient. Die Dichte ist damit
f (x, y) =
2πσx σy
1
1 − ρ2
· e−Z
(2.152)
mit dem Exponenten Z= =
(x − μx )2 σy2 − 2ρσx σy (x − μx )(y − μy ) + (y − μy )2 σx2 2 σx2 σy2 (1 − ρ2 ) ρ(x − μx )(y − μy ) (y − μy )2 (x − μx )2 − + 2 2 2 2 2σx (1 − ρ ) σx σy (1 − ρ ) 2σy (1 − ρ2 )
Die Randverteilungen sind Gauß-Verteilungen mit Mittelwerten μx , μy und Standardabweichungen σx , σy . Die bedingte Wahrscheinlichkeit % $ 2 y − 2yμy − 2y(x0 − μx )ρσy /σx f (y|x0 ) = N · exp − 2 σy2 (1 − ρ2 )
(2.153)
wobei alle konstanten Faktoren in der Normierung N absorbiert wurden, ist ρσ wieder eine Gauß-Verteilung mit Mittelwert yx0 = μy + (x0 − μx ) σxy . Die angig von x0 und i. Allg. Standardabweichung σ(y|x0 ) = σy 1 − ρ2 ist unabh¨ kleiner als die Standardabweichung σy der Randverteilung. Kurven konstanter Dichte erh¨alt man, wenn man das Argument der Exponentialfunktion konstant setzt. Solche Gleichungen sind Ellipsengleichungen, die Kurven konstanter Dichte sind Ellipsen. Insbesondere ist die Kovarianzellipse (Abbildung 2.10), die Kurve mit χ2 = 1, d. h. f = e−1/2 fmax . Sie ist gegeben durch die Ellipsengleichung (x − μx )2 σy2 − 2ρσx σy (x − μx )(y − μy ) + (y − μy )2 σx2 =1 σx2 σy2 (1 − ρ2 ) (x − μx )2 σy2 − 2ρσx σy (x − μx )(y − μy ) + (y − μy )2 σx2 = σx2 σy2 (1 − ρ2 ) (2.154) Der Mittelpunkt der Ellipse ist (μx , μy ). Die Halbachsen sind f¨ ur ρ = 0 die x- und y-Achse, ansonsten sind sie gedreht nach (2.83). In Abbildung 2.10 ist sie f¨ ur μx = μy = 0 dargestellt. Dann ist die Ellipsengleichung (2.155) x2 σy2 − 2ρσx σy xy + y 2 σx2 = σx2 σy2 (1 − ρ2 )
2.9. Spezielle Verteilungen
65
(0, σy )
..................................................... ............... ....... ........... ...... . . . . . . . . ..... ..• 2) ........ (0, σy .... . 1 − ρ . . . . . . .. . ... . . . . . . . . ... . . . . .. . . . ... . . . . . . . ... . . . . . . .. (σ , ρσ ) . . . . . . . x y . . • . . . . . .. .. . . . . . . . . . . . . . .. .. ..... ... ..... .. ... . . . . . .. .. .... .. (0, 0) ... ... . ... . . .. ... .. ... (σx , 0) .. ..... . . . .... . .. . .... .. ..... .. ..... . . . ... . . ...... .. ..... .... ...... . . ... . . . ... ... ...... ... ...... ... ...... . . . . . . .... ... ..... ........ ...... ......... ........ .......... . . . . . . . . . . . ............ ....................................................
Abb. 2.10
Kovarianzellipse um Mittelwert (0, 0).
Den allgemeinen Fall erh¨alt man durch eine Parallelverschiebung um (μx , μy ). F¨ ur x = 0 ist y = ±σy 1 − ρ2 F¨ ur y = 0 ist x = ±σx 1 − ρ2 Ableiten von (2.155) ergibt das totale Differenzial 2σy [σy x − ρσx y] dx + 2σx [σx y − ρσy x] dy = 0 Das einh¨ ullende achsenparallele Rechteck um die Ellipse findet man aus den Extremalbedingungen dx = 0 und dy = 0. F¨ ur dy = 0 ist σy x = ρσx y und somit ρ2 y 2 σx2 − 2ρ2 σx2 y 2 + y 2 σx2 = σx2 σy2 (1 − ρ2 ) y 2 = σy2 y = ±σy und f¨ ur dx = 0 ist x = ±σx . Die Ellipse ist begrenzt durch x = ±σx und y = ±σy . F¨ ur x = ±σx ist [ρσy ∓ y]2 = 0, also y = ±ρσy Die Mittelwerte der bedingten Verteilung in y (2.153) liegen alle auf der Geraden durch (0, 0) und (σx , ρσy ). F¨ ur y = ±σy ist [ρσx ∓ x]2 = 0, also x = ±ρσx Sind x und y unkorreliert, ist also ρ = 0, so ist das Maximum der Ellipse bei x = 0, und die Ellipsenachsen sind parallel zur x- und y-Achse.
66
2. Zufallsvariable und Verteilungen
Wenn wir die Variablen transformieren, indem wir um den Mittelwert drehen, also x = R(x − μ) mit einer Drehmatrix R so w¨ahlen, dass x und y unkorreliert sind, drehen wir also die Kovarianzellipse mit ihren Achsen parallel zur x- und y-Achse. Die Ellipsenachsen sind die Richtungen der Eigenvektoren, die L¨osung der Eigenwertgleichung X X C =s Y Y sind. Die transformierten Variablen X, Y sind unkorreliert (und unabh¨angig).
Aufgaben 2.14. Welche zweidimensionale Verteilung hat folgende Eigenschaften: 1) f (x, y) = g(x) · g(y) (x, y sind unabh¨angig und haben dieselbe Dichte g) und 2) Kreissymmetrie: f (r, φ) = rg(r cos φ) g(r sin φ) ≡ f (r) ist unabh¨angig von φ (mit den ebenen Polarkoordinaten r2 = x2 + y 2 , x = r cos φ, y = r sin φ) 2.15. Computeraufgabe: Erzeugen Sie korrelierte Paare gaußverteilter Zufallszahlen nach (2.152).
2.9.8
Die Log-Normalverteilung
Asymmetrische Verteilungen nichtnegativer Parameter lassen sich oft durch Logarithmieren in Gauß-Verteilungen transformieren. Mit y = ln x/x0 ist dann y2 1 f (y) = G(y|0, σ) = √ (2.156) e− 2σ2 2πσ und Wertebereich ]0, ∞[ ln2 x/x0 1 e− 2σ2 Dichte f (x) = √ x 2πσ
2
Momente: x = x0 eσ /2 , 2 e3σ g = σ2 (e − 1)3/2
(2.157)
2
2
σ2 (x) = x20 eσ (eσ − 1)
2.9. Spezielle Verteilungen
67
Das Maximum der Dichte f (y) ist bei y = 0 bzw. x = x0 . Das Maximum 2 der Dichte f (x) ist bei xm = x0 e−σ . Damit schreibt man 2
2
) ln x/xm e−σ /2 e−σ /2 (2σ2 −ln x/xm 2σ 2 √ = f (x) = √ e x 2πσ xm 2πσ
x xm
− ln x/x2 m 2σ
(2.158)
Den Mittelwert erh¨ alt man mit x =
∞ 0
ln2 x/x0 1 x √ e− 2σ2 dx x 2πσ
= x0 eσ
2
/2
∞ −∞
√
(y−σ 2 )2 1 e− 2σ2 dy 2πσ
σ 2 /2
= x0 e 2 = xm e3σ /2 Analog findet man f¨ ur das n-te Moment xn = xn0 en
2
σ 2 /2
und damit f¨ ur die Varianz 2
2
σ 2 (x) = x20 eσ (eσ − 1) und die Standardabweichung σ = xm e
3σ 2 /2
$ % 3 2 2 2 σ 2 /2 4 σ σ e − 1 = x0 e e − 1 ≈ x0 σ 1 + σ + O(σ ) 4
Die Halbwertsbreite ist $ % √ √ 1 2 4 FWHM = 2xm sinh(σ ln 4) ≈ 2 ln 4 x0 σ 1 + ln(2) · σ + O(σ ) 3 Nach dem zentralen Grenzwertsatz (s. n¨ achster Abschnitt) ist die LogNormalverteilung die Grenzverteilung f¨ ur ein Produkt aus vielen Zufallsvariablen, da es als Summe von Logarithmen dargestellt werden kann und diese Summe gaußverteilt ist.
68
2.10
2. Zufallsvariable und Verteilungen
Der zentrale Grenzwertsatz
ξ1 , ξ2 . . . ξN seien beliebig verteilte unabh¨angige Zufallsvariablen mit 2 . . μN und beschr¨ankter Varianz σ12 , σ22 . . . σ Mittelwerten μ1 , μ2 . N < 2 = ξk gaußverteilt mit Erwartungswert μ = μk σmax . Dann ist X und Varianz σ 2 = σk2 f¨ ur große N (→ ∞). (2.159)
Mittelwert und Varianz folgen bereits aus (2.47) und (2.74). Es bleibt nur zu zeigen, dass die Verteilung von X eine Gauß-Verteilung ist. Zum Beweis f¨ uhren wir neue Zufallsvariablen ξ k − μk √ N √ ein mit ζk = 0 und σ(ζk ) = ζk2 = σk / N . 1 Das l-te Moment ml ist proportional zu l/2 . N Dann ist X −μ = ζk Y = √ N ζk :=
(2.160)
2 mit Y = 0 und wegen (2.74) σ ¯ 2 := σ2 (Y ) = σk /N . Die charakteristischen Funktionen sind gegeben durch die Taylorreihe (2.98) φk (t) = eitζk t2 2 it3 3 ζk − ζ + . . . 2 3! k 1 t2 σk2 =1− +O 2N N 3/2 1 t2 σk2 +O ln φk (t) = − 2N N 3/2 = 1 + itζk −
(2.161) (2.162)
Dabei wurde die Taylor-Entwicklung des Logarithmus um 1 verwendet: ln(1+ x) = x + O(x2 ). Nach (2.99) wird dann ln φY (t) =
N k=1
ln φk (t)
1 t2 2 =− σk + N · O 2N N 3/2 2 1 t 2 ¯ +O √ =− σ 2 N
2.10. Der zentrale Grenzwertsatz
69
2 2 mit der mittleren Varianz σ ¯2 = σi /N = σ 2 /N < σmax . Sie w¨achst also nicht mit N , auch nicht mit irgendeiner Potenz von N . Das ist wichtig, da wir Terme nach Potenzen von 1/N sortieren. F¨ ur N → ∞ wird ln φY (t) → −
t2 2 σ ¯ 2
φY (t) → e−t
2
σ ¯ 2 /2
Diese charakteristische Funktion geh¨ort aber zur Gauß-Verteilung (Gl. 2.136) f (Y ) = √ oder f¨ ur X =
2 2 1 e−Y /2¯σ 2π σ ¯
√ N ·Y +μ f (X) = √
2 2 1 e−(X−μ) /2σ 2π σ
Die Approximation durch eine Gauß-Verteilung konvergiert dabei absolut, nicht relativ. Die Approximation ist daher dort besonders gut, wo die GaußVerteilung große Dichten hat, also in der N¨ahe des Mittelwerts. Wenn der Wertebereich der Zufallsvariablen endlich ist, kann nie der unendliche Wertebereich der Gauß-Verteilung erreicht werden. Es wird dann immer reelle Zahlen geben, f¨ ur die die exakte Dichte 0 ist und damit um 100 % kleiner als die der Gauß-Verteilung. Dies passiert aber in Bereichen weit weg vom Mittelwert, in denen die Gaußsche Dichte absolut bereits sehr klein ist (s. Tabelle 2.1). Der zentrale Grenzwertsatz gilt entsprechend f¨ ur das arithmetische Mittel aus N → ∞ Zufallsvariablen M := X/N mit Erwartungswert M = μ/N und Varianz σ2 (M ) = σ 2 /N 2 .
Aufgabe 2.16. Wie kann man nach dem zentralen Grenzwertsatz aus einer Summe gleichverteilter Zufallszahlen ζ1 . . . ζn eine Standardnormalverteilung (Mittelwert 0, Standardabweichung 1) erzeugen? ¨ Computeraufgabe: Uberpr¨ ufen Sie die G¨ ute der Gauß-Approximation (numerisch und grafisch – durch ein Programm) f¨ ur diese Summe aus gleichverteilten Zufallszahlen.
3.
Messung und Stichprobe
Die bisherigen Kapitel geh¨oren zum Bereich der Wahrscheinlichkeitsrechnung. Die Statistik befasst sich mit dem Verhalten von zuf¨ alligen Stichproben aus einer Grundgesamtheit, deren relative H¨aufigkeiten die Axiome der Wahrscheinlichkeitsrechnung erf¨ ullen. Die Grundgesamtheit ist die Menge aller m¨ oglichen Beobachtungen von Ereignissen – in der Physik Messungen genannt – aus einer Ereignismenge E.
Eine Stichprobe vom Umfang N ist eine Untermenge mit N Elementen aus der Grundgesamtheit aller m¨oglichen Beobachtungen einer Zufallsvariablen. Im engeren Sinne ist die Stichprobe die Menge der N Zufallszahlen, die sich aus den Beobachtungen ergeben haben. In der Physik spricht man meist nicht von einer Stichprobe, sondern von einer Datenmenge, einer Messreihe oder einem Sample.
n(x) 10
5 Abb. 3.1 H¨ aufigkeitsverteilung der Resultate aus 50 W¨ urfen mit dem Spielw¨ urfel, Reihe (b) aus Beispiel 1.2. 1
2
3
4
x
5
6
Beispiel 3.1. Eine Grundgesamtheit ist z. B. die (unbegrenzte) Menge aller W¨ urfe mit einem bestimmten W¨ urfel. Eine Stichprobe vom Umfang N sind N W¨ urfe, im engeren Sinne die N Resultate. Reihe (b) aus Beispiel 1.2 ist eine Stichprobe vom Umfang 50. Die relativen H¨ aufigkeiten der Stichprobe sind im Histogramm in Abbildung 3.1 dargestellt.
In der Statistik versucht man, aus solchen Verteilungen von Stichproben auf die Verteilungen der Grundgesamtheiten zu schließen. Der Mathematiker Abraham Wald hat die Statistik bezeichnet als eine Zusammenfassung von ” Methoden, die uns erlauben, vern¨ unftige optimale Entscheidungen im Falle © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 R. Waldi, Statistische Datenanalyse, https://doi.org/10.1007/978-3-662-60645-2_3
72
3. Messung und Stichprobe
von Ungewissheit zu treffen“. Die beschreibende Statistik, d. h. die Klassifizierung, Darstellung und Zusammenfassung von Beobachtungen an Stichproben, ist von der schließenden Statistik nicht zu trennen, denn sie liefert die Informationen, die man zum Schließen ben¨otigt. Statistik und Wahrscheinlichkeitsrechnung sind ebenfalls untrennbar. So werden wir die Verteilungen, die sich aus Stichproben ergeben, mit den Mitteln der Wahrscheinlichkeitsrechnung untersuchen.
3.1
Fehlerrechnung
Bevor wir uns mit umfangreichen Stichproben befassen, wollen wir zun¨achst eine Stichprobe vom Umfang 1, die einzelne Messung einer physikalischen Gr¨ oße, betrachten. Die Ereignismenge sind die reellen Zahlen, mit denen man physikalische Observablen beschreibt, jeweils multipliziert mit einer Maßeinheit. Die Grundgesamtheit ist die unendliche Menge der beliebig oft auf dieselbe Weise wiederholbaren Messung derselben Gr¨oße. Dies ist eine Idealisierung, da es ein zu messendes Objekt nicht unendlich lange oder unendlich oft gibt und jede Messung eine endliche Zeit ben¨ otigt. Wesentlich ist daran nur die Wiederholbarkeit. Man setzt auch voraus, dass es eine wahre, von der Messung selbst unabh¨angige, reelle Gr¨oße gibt. Messungen sind mit statistischen und systematischen Fehlern behaftet. Die statistischen Fehler entstehen durch zuf¨ allige Einfl¨ usse auf den Messvorgang. Sie sind dadurch charakterisiert, dass sie von Messung zu Messung unterschiedliche, unabh¨ angige Zufallszahlen darstellen. Der Messwert x unterscheidet sich um diese Zufallszahl ε vom wahren Wert x ˜, ein Einzelergebnis ist x=x ˜+ε W¨ahrend x ˜ ein unbekannter, fester Wert ist, sind ε und damit auch x Zufallszahlen. Da man ε nicht kennt, kann man das Ergebnis einer Messung nur durch die symbolische Schreibweise x ˜ = x ± δx angeben, wobei δx der absolute Fehler, ein Maß f¨ ur die Breite der Verteilung der ε ist. Dabei versucht man x so zu ermitteln, dass ε = 0 ist. Gelingt dies nicht, hat x auch eine systematische Abweichung oder einen Bias. Diese ist von Messvorgang zu Messvorgang gleich, aber unbekannt (sonst w¨ urde man x ja um die Abweichung korrigieren). Systematische Fehler sind schwerer abzusch¨ atzen als statistische Fehler, da man sie durch eine Wiederholung der Messung nicht kontrollieren kann.
3.1. Fehlerrechnung
73
Beispiel 3.2. Unser altes Beispiel 2.3 ist ein typisches Beispiel f¨ ur Messfehler: das Resultat einer L¨ angenmessung mit einem Maßband. Ein systematischer Fehler entsteht durch ein falsch geeichtes Maßband. Statistische Fehler entstehen etwa dadurch, dass die Interpolation zwischen den Millimeterstrichen auf dem Augenmaß des Messenden basiert. Ableseungenauigkeiten ergeben sich auch durch das Peilen vom Objekt zur Skala des Maßbands (Parallaxe). Die Anbringung der Skalenstriche bei der Herstellung des Maßbands kann kleine Ungenauigkeiten aufweisen. Außerdem ¨ andert sich die L¨ ange des Maßbands mit der Temperatur, das Maßband kann durch straffes Anlegen gedehnt werden, oder es kann sich wellen, wenn es zu locker angelegt wird. Alle diese Fehler haben Verteilungen um 0 mit endlichem Wertebe εi ist noch immer begrenzt, wird aber – wie uns der reich. Ihre Summe δx = zentrale Grenzwertsatz lehrt – einer Gauß-Verteilung ¨ ahnlich sehen.
Im Folgenden wollen wir uns zun¨ achst nur mit statistischen Fehlern befassen. Wir werden sp¨ ater diskutieren, wie man statistische Fehler durch Messreihen absch¨atzt und reduziert. Hier gehen wir zun¨ achst davon aus, dass wir die Verteilung der ε kennen. Als Maß f¨ ur die Breite verwenden wir in der Physik die Standardabweichung dieser Verteilung. Sie ist die Wurzel aus dem mittleren Fehlerquadrat und stets gr¨oßer als der mittlere Fehler |ε|, wie man aus Gleichung (2.64) sieht. Dies ist eine Konvention. Es gibt andere Fehlermaße, etwa die Halbwertsbreite FWHM. In den Ingenieurswissenschaften gibt man auch h¨aufig den Maximalfehler an, z. B. als Toleranz von Parametern einer Apparatur (Abmessungen, Anzeigeungenauigkeit etc.). Zur Unterscheidung von statistischen Fehlern werden Toleranzen oder Maximalfehler h¨aufig in Klammern in Einheiten der letzten Ziffern des Resultats angegeben, z. B. 3.14159(1)
f¨ ur
3.14159 ± 0.00001max
Eine Angabe einer maximalen Abweichung ist jedoch nur m¨oglich, wenn der Wertebereich von ε endlich ist. Obwohl dies praktisch immer der Fall ist, sind die tats¨achlichen Grenzen eines Messfehlers in den seltensten F¨ allen bekannt. Oft kann man die Verteilung dagegen durch eine (im Prinzip unbegrenzte) Gauß-Verteilung approximieren. Schuld daran ist der zentrale Grenzwertsatz und die Tatsache, dass Messfehler i. Allg. die Summe vieler verschiedener unabh¨ angiger Einfl¨ usse sind. Diese Idee liegt auch dem Fehlermodell zugrunde, das Laplace 1783 entwickelte. Sein Modell vieler kleiner St¨orungen f¨ uhrt auf eine Binomialverteilung, die sehr schnell gegen die Gauß-Verteilung konvergiert. F¨ ur gaußverteilte Fehler ist die Standardabweichung σ genauso gut wie irgendein Vielfaches. Wir k¨onnen in jedem Fall berechnen, wie wahrscheinlich die Abweichung gr¨oßer ist als unser angegebener Fehler. F¨ ur ±σ ist das immerhin noch bei fast jeder dritten Messung der Fall, wie man in Tabelle 2.1
74
3. Messung und Stichprobe
ablesen kann. Mit ±2σ liegen wir schon in 95 % aller F¨ alle richtig, und mit ±3σ sind wir nur mit jeder 300. Messung daneben. Diese Aussagen sind jedoch an die Gauß-Verteilung gekoppelt. F¨ ur andere Verteilungen sehen die Wahrscheinlichkeiten anders aus. Ist ε √ etwa gleichverteilt, so ist der Maximalfehler 3 σ. Innerhalb einer Standardabweichung liegen rund 58 %, innerhalb ±2σ aber bereits 100 % aller Messresultate. Eine alternative Weise, ein Messergebnis anzugeben, ist x ˜ = x(1 ± r) = x (1 ± 100r %) wobei r = δx x der relative Fehler ist. Oft verwendet man die Schreibweise x ± 100r %, solange durch das %“ Verwechslungen vermieden werden, d. h., ” solange x keine dimensionslose Zahl ist, die man selbst in % angibt.
3.1.1
Fehlerfortpflanzung
F¨ ur Funktionen φ(x), die aus der fehlerbehafteten Messgr¨oße x±δx berechnet werden, gilt ∂φ δφ = δx + O(δx2 ) (3.1) ∂x x ˜
Man kann die lineare N¨aherung verwenden, falls |φ(x±δx)−φ(x)∓ ∂φ ∂x ·δx| δφ, d. h. f in einer Umgebung der Gr¨ oßenordnung δx um x hinreichend linear ist. Die Ableitungen sind dabei am Entwicklungspunkt der Taylorreihe zu nehmen. Dies ist eigentlich der wahre Wert x ˜. Da man ihn nicht kennt, nimmt man aber den Messwert x. Der Fehler, den man dadurch macht, ist von der Ordnung δx2 , d. h., diese Vorgehensweise ist im Rahmen der verwendeten N¨aherung korrekt. Den wahren Fehler eines Funktionswerts, der aus dem Fehler des Arguments resultiert, erh¨ alt man durch Einsetzen der um δx verschobenen Argumente in die Funktion φ(x). Beispiel 3.3. Die einfache Funktion φ(x) =
2 x2
ist in Abbildung 3.2 dargestellt. Zu einem Messwert-Intervall x = 1.0 ± 0.2 geh¨ ort das Funktionswert-Intervall [φ(1.2), φ(0.8)] = [1.389, 3.125]. Der Zentralwert φ(1.0) = 2.00 liegt nicht in der Mitte des Intervalls. Man erh¨ alt asymmetri, und asymmetrische Fehlerbalken wie beim linken Punkt in sche Fehler, 2.0 ± 1.1 0.6
3.1. Fehlerrechnung
φ 5.0 4.0 3.0 2.0 1.0
... ... ... ... ... ... ... ... ... ... .. ... ... ... ... .. ... .. ... .. • ... .. ... .. ... ... ..... .... ..... ..... ....... ....... • • ..... ...... ....... ... .... ... ...... ... ......... ................... ... ................. ... ..
0.0
0.5
1.0
1.5
2.0
x
2.5
75
Abb. 3.2 Fehlerfortpflanzung exakt und linear: x = 1.0 ± 0.2 wird umgerechnet in φ = 2/x2 . Eine Fehlerfortpflanzung durch Einsetzen ergibt φ = 2.0 ± 1.1 0.6 . Die lineare N¨ aherung ergibt φ = 2.0 ± 0.8.
3.0
Abbildung 3.2, der dieses Resultat grafisch repr¨ asentiert. Die lineare N¨ aherung ist hier schon recht ungenau: 4 δφ(x) ≈ 3 δx x f¨ uhrt bei x = 1 auf δφ = 4δx = 0.8. Der zu 2.0 ± 0.8 geh¨ orige Punkt mit symmetrischen Fehlerbalken ist rechts im Bild dargestellt.
F¨ ur eine Funktion φ(x, y), die aus fehlerbehafteten Messgr¨oßen x ± δx und y ± δy berechnet wird, ist die Taylorreihe ∂φ ∂φ εx + εy + O(ε2x , ε2y , εx εy ) (3.2) φ(x, y) = φ(˜ x, y˜) + ∂x x˜ ∂y y˜ Vernachl¨assigt man die Terme 2. Ordnung O(ε2x , ε2y , εx εy ), so hat man einen linearen Ausdruck f¨ ur φ(x, y). Da die Fehler εx und εy Zufallsvariable mit Standardabweichung δx und δy sind, die im allgemeinen Fall noch korreliert sein k¨onnen, gilt f¨ ur die Standardabweichung δφ des Fehlers εφ = φ(x, y) − φ(˜ x, y˜) wegen (2.87) ( δφ(x, y) ≈
∂φ ∂x
2
δx2 +
∂φ ∂y
2 δy 2 + 2
∂φ ∂φ C(x, y) ∂x ∂y
(3.3)
∂φ falls |φ(x±δx, y)−φ(x, y)∓ ∂φ ∂x ·δx| δφ und |φ(x, y±δy)−φ(x, y)∓ ∂y ·δy| δφ, d. h. φ in δx, δy in guter N¨aherung linear ist. Die Ableitungen sind am gemessenen Wertepaar x, y zu nehmen. Man vernachl¨assigt Terme der Ordnung δx2 , δy 2 und δx δy. F¨ ur unkorrelierte Messwerte ist C(x, y) = 0, und man kann die einfachere Beziehung 2 2 ∂φ ∂φ δφ2 ≈ δx2 + δy 2 ∂x ∂y
verwenden.
76
3. Messung und Stichprobe
Beispiel angiger Messwerte z = x + y. Hier ist 3.4. Summe zweier unabh¨ δz = δx2 + δy 2 exakt. Dasselbe gilt f¨ ur eine Differenz. Der allgemeine Fall einer beliebigen Linearkombination z = ax ± by f¨ uhrt auf δz =
a2 δx2 + b2 δy 2
(3.4)
Eine beliebige Linearkombination z = ax ± by f¨ uhrt auf die exakte Beziehung δz =
a2 δx2 + b2 δy 2 + 2abC(x, y) = a2 δx2 + b2 δy 2 + 2abρ δx δy (3.5)
Beispiel 3.5. Produkt zweier unabh¨ angiger Messwerte z = x · y. Hier gilt die N¨ aherung δz 2 ≈ y 2 δx2 + x2 δy 2 δx2 δy 2 δz 2 ≈ + z2 x2 y2
(3.6)
d. h., die relativen Fehler addieren sich quadratisch. Die exakte Beschreibung der Abweichung ist z = (x + εx )(y + εy ) = xy + xεy + yεx + εx εy Solange εx x und εy y, kann der letzte Term vernachl¨ assigt werden, und die Fehlerformel ist eine ausgezeichnete N¨ aherung f¨ ur die Standardabweichung des Fehlers δz. Beispiel 3.6. Quotient zweier unabh¨ angiger Messwerte z = x/y. Hier gilt die N¨ aherung δz 2 ≈
1 2 x2 2 δx + 4 δy y2 y
δx2 δy 2 δz 2 ≈ 2 + 2 2 z x y
(3.7)
d. h., auch hier addieren sich die relativen Fehler quadratisch. Allerdings verzerrt die Funktion 1/y die Verteilung der y erheblich, man sollte diese N¨ aherung daher nur f¨ ur δy |y| verwenden.
F¨ ur korrelierte Messwerte findet man f¨ ur das Produkt z = x · y:
δz 2 δx2 δy 2 C(x, y) ≈ 2 + 2 +2 2 z x y xy
(3.8)
Allerdings ist der Erwartungswert des Produkts z = xy+C(x, y) i. Allg. verschieden vom Produkt der Erwartungswerte der Einzelmessungen. Wenn
3.1. Fehlerrechnung
77
wir die Messungen also so angestellt haben, dass wir im Mittel die wahren Werte x ˜ und y˜ erhalten, ist z im Mittel nicht mehr der wahre Wert z˜ = x ˜y˜, sondern hat einen Bias von der Gr¨oße der Kovarianz. Entsprechend ist f¨ ur den Quotienten z = x/y: δz 2 δx2 δy 2 C(x, y) ≈ + −2 2 2 2 z x y xy
(3.9)
Wenn der Verdacht besteht, dass eine Funktion φ(x) innerhalb der Fehlergrenzen nicht hinreichend linear (aber innerhalb des Intervalls monoton) ist, berechnet man statt ∂φ δφ = δx ∂x besser die beiden i. Allg. asymmetrischen Fehler +δφ+ = −δφ− =
max t∈{x−δx,x+δx}
min t∈{x−δx,x+δx}
φ(t) − φ(x)
(3.10)
φ(t) − φ(x)
Dazu muss man neben φ(x) lediglich noch die beiden Werte φ(x − δx) und φ(x + δx) berechnen. Allerdings sollte man sich dabei auch bewusst machen, dass die Verteilung der Fehler selbst verzerrt wird. Es gilt zwar f¨ ur φ ± δφ+ ur x ± δx, den wahren Wert δφ− noch dieselbe Wahrscheinlichkeit wie f¨ 2δφ+ nicht mehr dieselbe Wahrscheinlichkeit wie einzuschließen, aber f¨ ur φ ± 2δφ − f¨ ur x ± 2δx. In diesem Fall macht es also einen Unterschied, ob man eine Standardabweichung oder einen Fehler mit gr¨oßerer Sicherheit verwendet.
Wenn die Funktion φ im Intervall [x − δx, x + δx] nicht einmal monoton ist, kann eine exakte Transformation eines Fehlerintervalls nur durch aufwendiges Bestimmen von +δφ+ = −δφ− =
max t∈[x−δx,x+δx]
min t∈[x−δx,x+δx]
φ(t) − φ(x)
(3.11)
φ(t) − φ(x)
ermittelt werden, man muss das gesamte Intervall [x − δx, x + δx] nach Minimum und Maximum scannen. Notwendig ist diese Vorgehensweise bei einer Maximalfehlerabsch¨atzung. Hier ist f¨ ur Funktionen φ(x, y), die aus fehlerbehafteten Messgr¨oßen x ± δx und y ± δy berechnet werden, +δφ+ = −δφ− =
max ξ∈[x−δx,x+δx],η∈[y−δy,y+δy]
min ξ∈[x−δx,x+δx],η∈[y−δy,y+δy]
φ(ξ, η) − φ(x, y) φ(ξ, η) − φ(x, y)
(3.12)
78
3. Messung und Stichprobe
F¨ ur die Linearkombination z = ax + by erh¨alt man den maximalen Fehler nach (3.5), wenn maximale Korrelation vorliegt, also ρ = sign(ab) · 1, mit dem Vorzeichen des Produkts ab. Dann ist aber δz = a2 δx2 + b2 δy 2 + 2|ab|δx δy = |a|δx + |b|δy (3.13) F¨ ur monotone und mit hinreichender Genauigkeit lineare Funktionen kann dies durch ∂φ ∂φ δφ+ ≈ δφ− ≈ δφ = δx + δy (3.14) ∂x ∂y approximiert werden. Die Bedeutung Maximalfehler wird dabei allerdings aufgeweicht, sodass das Verfahren mehr als zweifelhaft bleibt und daher vermieden werden sollte, zumal bei monotonen Funktionen die beiden Maximalfehler von f nach (3.12) durch einfaches Berechnen von φ(x ± δx, y ± δy) gefunden werden. Es ist ±δφ± = φ(x ± Sx δx, y ± Sy δy) − φ(x, y)
(3.15)
wobei sich die Vorzeichen Sx , Sy aus der Monotonie ergeben: Ist sie steigend, ist S = +1, ist sie fallend, ist S = −1.
3.1.1.1
Viele Messwerte
F¨ ur eine Transformation yk = fk (x1 , . . . , xn ),
k = 1...m
sind die yk i. Allg. korreliert. Man sollte daher stets nicht nur die Varianzen, sondern die ganze Kovarianzmatrix angeben. Sie errechnet sich aus der Kovarianzmatrix der xi nach (2.85), das man in Indexschreibweise als Ckl (y) ≈
∂yk ∂yl Cij (x) ∂xi ∂xj i,j
(3.16)
schreiben kann. Auch dies ist eine lineare N¨aherung. Beispiel 3.7. In einer zylindrischen Driftkammer, die geladene Teilchen in einem achsenparallelen Magnetfeld nachweist, misst man i. Allg. die unkorrelierten Daten Transversalimpuls pT ± δpT Azimut der Anfangsrichtung φ ± δφ Polarwinkel der Anfangsrichtung cot θ = c ± δc Daraus erh¨ alt man den Impulsvektor px = pT cos φ py = pT sin φ pz = pT cot θ = pT · c
3.1. Fehlerrechnung
79
Die Vektorkomponenten sind nicht mehr unkorreliert. Ihre Kovarianzmatrix ist
C=
⎛
cos φ sin φ c
−pT sin φ pT cos φ 0
0 0 pT
δp2T 0 0
cos2 φ δp2T + p2T sin2 φ δφ2 = ⎝ sin φ cos φ( δp2T − p2T δφ2 ) c cos φ δp2T
0 δφ2 0
0 0 δc2
cos φ −pT sin φ 0
sin φ cos φ( δp2T − p2T δφ2 ) sin2 φ δp2T + p2T cos2 φ δφ2 c sin φ δp2T
sin φ pT cos φ 0
c 0 pT
⎞
c cos φ δp2T ⎠ c sin φ δp2T c2 δp2T + p2T δc2
Aufgabe 3.1. Eine kompliziertere Anwendung der linearen Fehlerfortpflanzung ist der Fehler auf eine invertierte Matrix. Gegeben seien die Matrix: A = (Aij ) mit Fehlern: α = (αij ) = (δAij ) Wir nehmen an, die Matrixelemente Aij seien untereinander unkorreliert. Gesucht wird β = (βij ) = (δA−1 ij ).
3.1.2
Systematische Fehler
W¨ahrend man statistische Fehler aufgrund ihrer zuf¨alligen Natur durch mehrfaches Wiederholen der Messung verringern und u ¨berpr¨ ufen kann, sind systematische Fehler dadurch gekennzeichnet, dass sie gleich bleiben und nicht mit statistischen Methoden erkennbar sind. Man sollte einen gesch¨atzten systematischen Fehler daher separat vom statistischen Fehler angeben. Eingeb¨ urgert hat sich die Form x=x ˆ ± δxstat ± δxsys Systematische Fehler sind feste, unbekannte Zahlen. Sie haben daher keine physikalische Wahrscheinlichkeit, sondern lassen sich durch eine subjektive Wahrscheinlichkeit statistisch beschreiben. Eine konsistente Beschreibung zusammen mit statistischen Fehlern erfordert auch hier die Sch¨atzung der Standardabweichung dieser Verteilung. Systematische Fehler entstehen durch •
Unzul¨ anglichkeiten der Messger¨ ate oder
•
Unzul¨ anglichkeiten der Analysemethoden.
Eine Absch¨ atzung ist stets schwierig und erfordert eine sorgf¨ altige und kritische Beurteilung der verwendeten Messapparatur. Bei der Datenanalyse sollte man besonders auf den G¨ ultigkeitsbereich der verwendeten N¨aherungen achten.
80
3. Messung und Stichprobe
Der Ablauf eines realen Experiments wird immer durch ein idealisiertes Modell beschrieben. Die Auswirkungen einzelner Parameter dieses Modells lassen sich auch bei komplizierten Experimenten in einer Monte-CarloSimulation – im Prinzip beliebig genau – untersuchen. Daher h¨angt es allein von der G¨ ute und Vollst¨andigkeit des Modells ab, wieweit man die systematischen Fehler in den Griff bekommt. Dabei sollte man sich h¨ uten, einen Sicherheitsfaktor“ f¨ ur nicht erkannte Feh” lerquellen aufzuschlagen, da man sich dadurch mit hoher Wahrscheinlichkeit sein Ergebnis schlechter macht, als es ist. Hat man aber alle m¨oglichen Quellen systematischer Fehler erkannt und diejenigen, die nicht zu eliminieren waren, als Standardabweichung abgesch¨atzt, so kann man sie wie statistische Fehler auf das Endresultat fortpflanzen. Sind es hinreichend viele, gilt auch der zentrale Grenzwertsatz, und der kombinierte systematische Fehler entspringt einer gaußverteilten Grundgesamtheit. H¨ aufig kann man systematische Fehler von Messger¨aten (Stoppuhr, Schieblehre, Digitalvoltmeter) in Proportionalfehler und Digitalisierungsfehler der Form (3.17) δx = δfP · x + δxD aufspalten. Dabei entsteht der Digitalisierungsfehler durch die Quantelung beim Ablesen der Messgr¨ oße: Der Zeiger der Stoppuhr springt in Schritten von 0.1 s oder 0.2 s vorw¨ arts, der Nonius der Schieblehre gestattet ein Ablesen in Schritten von 0.1 mm, oder ein Digitalvoltmeter zeigt je nach Messbereich z. B. 0.1 V als kleinste Einheit an. In allen F¨allen gibt es eine Quantelung, eine kleinste Einheit, in deren Vielfachen die Messgr¨ oße abgelesen wird. Als Maximalfehler kann man ±1 dieser Einheit ansetzen, manchmal auch die H¨alfte, wenn man sicher ist, dass stets eine Zuordnung zur n¨achstgelegenen Einheit erfolgt. Der Digitalisierungsfehler wird jedoch zum zuf¨ alligen Fehler, wenn man ihn zu anderen unabh¨ angigen Fehlereinfl¨ ussen addiert oder wenn er in einer Messreihe mit unterschiedlichen Werten auftritt. Ist er kleiner oder h¨ochstens vergleichbar groß wie andere statistische Fehler der Messreihe, was man leicht daran erkennt, dass im Laufe der Reihe mehr als zwei unterschiedliche Werte auftreten, so ist er vollst¨andig in der empirischen Standardabweichung der Reihe enthalten. Wenn er gr¨oßer ist, insbesondere wenn immer wieder derselbe Wert registriert wird, muss er jedoch als unabh¨angiger Fehlerbeitrag ber¨ ucksichtigt werden. Eine realistische Absch¨atzung des Standardfehlers, der einem Digitalisierungsfehler entspricht, ergibt sich aus der Annahme einer Gleichverteilung der tats¨achlichen Abweichung im maximal erlaubten Intervall der Breite √ 1 Einheit. Die zugeh¨ orige Standardabweichung ist die volle Intervallbreite/ 12 bzw. δD =
δxD,max √ 3
(3.18)
3.1. Fehlerrechnung
81
Der Proportionalfehler enth¨alt die Eichgenauigkeit und Abweichungen der Linearit¨at zwischen angezeigtem und wahrem Wert. Er wird u ¨blicherweise durch die Garantiefehlergrenzen eines Messger¨ ats charakterisiert und ist dann ebenfalls ein Maximalfehler. Einen realistischen Standardfehler zu diesem Maximalfehler zu finden ist unm¨oglich, da die Verteilung der tats¨achlichen Abweichungen unbekannt ist. Wegen der Garantie“ ist sie i. Allg. deutlich ” schmaler als die halbe Breite des garantierten Genauigkeitsintervalls, sodass man δP ≈ 0.5δfP x als zweckm¨aßigen Wert ansetzen kann. Bereits an diesem einfachen Beispiel zeigt sich die Problematik der statistischen Behandlung systematischer Fehler. Dies unterstreicht einmal mehr die Notwendigkeit, sie getrennt von statistischen Fehlern anzugeben. Eine durchaus sinnvolle Kombination ist auch die Angabe von statistischen Fehlern als Standardfehler (d. h. eine gesch¨atzte Standardabweichung der Fehlerverteilung) und von systematischen Fehlern als Maximalfehler. In diesem Fall darf man aber nie beide zu einem Gesamtfehler kombinieren!
3.1.2.1
Sch¨ atzen systematischer Fehler
Die Bestimmung systematischer Fehler ist f¨ ur jede Messung neu zu erfinden. Eine beliebte Methode ist, die Messreihe in Untermengen zu unterteilen. Zeitabh¨ angige systematische Verschiebungen kann man erkennen, wenn man die Daten in zwei zeitlich getrennte Subsamples unterteilt und die beiden Ergebnisse vergleicht. Andere sinnvolle Unterteilungen ergeben sich aus der Messung: Verschiedene Messger¨ate oder Analysemethoden sollten stets separat analysiert werden, bevor man sie zu einem Gesamtergebnis kombiniert. Bei all diesen Methoden, bei denen man zwei unabh¨angige Datenmengen vergleicht, sollte man jedoch nur einen Beitrag zum systematischen Fehler bestimmen, wenn •
die Differenz der Teilresultate statistisch signifikant ist und
•
Anlass zur Vermutung eines systematischen Effekts besteht.
Das zweite Kriterium ist wichtig, denn wenn man nur hinreichend viele Unterteilungen in Teilmengen vergleicht, findet man immer eine statistisch signifikante Differenz.
82
3. Messung und Stichprobe
3.1.2.2
Externe systematische Fehler
Externe systematische Fehler entstehen erst dadurch, dass man ein Resultat interpretiert, indem man daraus eine abgeleitete Gr¨oße, ein sekund¨ ares Resultat der Messung berechnet. Ben¨otigt man dazu Daten anderer Experimente oder theoretische Modelle und Parameter, beeinflussen die Fehler auf ¨ diese externen Gr¨oßen das Endergebnis. Andern sich diese externen Parameter, so ¨andert sich auch das Endergebnis f¨ ur ein und dieselbe Messung. Daher sollte man stets den folgenden Grundsatz befolgen: Man sollte ein Endergebnis so angeben, dass es f¨ ur ge¨anderte externe Parameter jederzeit neu berechnet werden kann. Aus demselben Grund sollte man die Fehler durch externe Parameter stets separat angeben, gegebenenfalls als dritten Fehlerbeitrag x=x ˆ ± δxstat ± δxsys ± δxext Beispiel 3.8. Ein Beispiel aus der Teilchenphysik ist die Messung des Verzweigungsverh¨ altnisses B(B 0 → D− π + ) aus der Zerfallskette B 0 → D− π + → 0 − + (KS π )π . Das unmittelbare Ergebnis dieser Messung15 ist B(B 0 → D− π + ) · B(D− → KS0 π − ) = (42.7 ± 2.1 ± 2.2) · 10−6 Mit einem externen Resultat B(D− → KS0 π − ) = (1.47 ± 0.06) % wird daraus B(B 0 → D− π + ) = (2.90 ± 0.14 ± 0.15 ± 0.12) · 10−3
Ein solcher externer Parameter kann auch die Auswahl zwischen zwei oder mehr diskreten Modellen sein, die zur Interpretation der Messung in Form eines sekund¨ aren Resultats herangezogen werden. In diesem Fall ist die Stichprobenstreuung der diskreten Resultate ein plausibler Wert f¨ ur den durch die Modellunsicherheit hervorgerufenen systematischen Fehler, aber auch um nichts mehr als eben nur plausibel. Eine quantitativ richtige Sch¨ atzung eines solchen Fehlers existiert nicht.
15
BABAR collaboration, Phys. Rev. D70, 091103 (2004).
3.2. Z¨ ahlen von Ereignissen
3.2
83
Z¨ ahlen von Ereignissen
Die einfachste Form der Messung ist das Z¨ahlen. Deshalb werden wir uns zun¨achst mit dem Z¨ ahlen von Ereignissen befassen. Ein Ereignis A habe die Wahrscheinlichkeit p. F¨ ur eine Messung, d. h. 1 Beobachtung des m¨oglichen Eintretens, kann n = #(A) Werte aus der Menge {0, 1} annehmen, und der Erwartungswert f¨ ur n ist n1 = p · 1 + (1 − p) · 0 = p
(3.19)
Ebenso einfach ist die Varianz: σ 2 (n) = n2 − n2 = p · 12 + (1 − p) · 02 − p2 = p(1 − p)
(3.20)
Von hier l¨ asst sich leicht auf den interessanteren Fall schließen. Wir machen jetzt N unabh¨ angige Beobachtungen. Dies ist eine Stichprobe vom Umfang N . Unsere neue Zufallsvariable n ist dabei die Summe aus N unabh¨ angigen Zufallsvariablen ni zu je einer Messung (N = 1). Dann ist der Erwartungswert f¨ ur die absolute H¨aufigkeit n = #(A): μ := nN =
N
ni 1 = N · n1 = N p
(3.21)
i=1
und genauso ist die Varianz: σ 2 (n) =
N
σ 2 (ni )1 = N p(1 − p)
(3.22)
i=1
Daraus erh¨ alt man n2 = σ 2 (n) + n2 = N p − N p2 + N 2 p2 Die relative H¨aufigkeit h = n/N
(3.23)
h = p
(3.24)
ist im Mittel
wie wir es erwarten. Sie hat die Varianz σ 2 (h) = p(1 − p)/N
(3.25)
84
3. Messung und Stichprobe
Weiter gilt h2 = p2 + σ 2 (h) = p2 + p(1 − p)/N und h(1 − h) = p(1 − p)(1 − 1/N ). Beispiel 3.9. Wie h¨ aufig kommt beim W¨ urfeln die 6? Beim ersten W¨ urfeln ist are Wahrscheinlichkeit (keine 6) ist die Wahrscheinlichkeit p = 16 , die komplement¨ q = 1 − p = 56 . Bei zwei W¨ urfen gibt es folgende Kombinationen: E1 , E 2 n n =
6, ¬6
6, 6 p2 =
P
1 36
pq =
2 1 3
=
12 36
1 36
= 2p
¬6, 6
5 36
pq =
1
·2
1
·1
5 36
¬6, ¬6 q2 =
5 36
5 36
25 36
0
·1
0
Bei drei W¨ urfen sind es: E1 , E 2 , E 3 P n =
1 216
1 216
·3
p = 1 2
=
108 216
E1 , E 2 , E 3
¬6, ¬6, 6
P
2
n =
q p= 1 2
=
6, 6, ¬6
6, 6, 6 3
108 216
25 216
25 216
2
p q= 5 216
6, ¬6, 6
5 216
pqp =
·2
5 216
¬6, 6, ¬6 qpq =
·1
25 216
5 216
·2
6, ¬6, ¬6 2
25 216
pq =
·1
25 216
25 216
·1
¬6, 6, 6 qp2 = 5 216
5 216
·2
¬6, ¬6, ¬6 q3 =
125 216
0
Nach N W¨ urfen ist die H¨ aufigkeit im Mittel n = pN = N/6. Die H¨ aufigkeit von k Sechsen ist eine Frage der Kombinatorik: Jede Kombination mit k Sechsen und N − k anderen Resultaten hat dieselbe Wahrscheinlichkeit f¨ ur n = k ist die Summe dieser Einzelwahrpk q N −k . Die Gesamtwahrscheinlichkeit m¨ o gliche Kombinationen gibt, ist scheinlichkeiten. Da es N k
P (n = k) =
3.2.1
N k N −k p q = k
N k
5N −k 6N
Binomialverteilung
Nun kennen wir bereits Mittelwert und Standardabweichung einer absoluten H¨ aufigkeit n f¨ ur ein zuf¨alliges Ereignis mit Wahrscheinlichkeit p nach N ¨ Beobachtungen. Die Verteilung erh¨alt man mit einer Uberlegung wie im letzten Beispiel. Die Wahrscheinlichkeit f¨ ur das Auftreten der H¨aufigkeit n ist die Wahrscheinlichkeit jeder Kombination mit H¨ aufigkeit n, also pn (1 − p)N −n , multipliziert mit der Anzahl Kombinationen von n Elementen aus N Elementen.
3.2. Z¨ ahlen von Ereignissen
85
Dies ist die Binomialverteilung N n p (1 − p)N −n P (n|p, N ) = n
(3.26)
Wertebereich W = {0, 1, 2, . . . , N } Verteilungsfunktion f¨ ur n ∈ W: F (n) =
n N k=0
k
pk (1 − p)N −k
(3.27)
Momente: n = pN , σ 2 (n) = p(1 − p)N 1 − 2p 1 − 6p(1 − p) g= , e= σ σ2 N charakteristische Funktion eitn = 1 − p + peit
(3.28)
wahrscheinlichkeitserzeugende Funktion m(z) = (1 − p + pz)
N
(3.29)
Die Binomialverteilung zu N = 1 bezeichnet man auch als BernoulliVerteilung. Eine zweite Herleitung nutzt (1.17) f¨ ur unabh¨angige Ereignisse, die als Produkt der Einzelwahrscheinlichkeiten geschrieben werden k¨ onnen. Die Wahrscheinlichkeit f¨ ur ein Ereignis bei einer Beobachtung ist P (A) = p. Dann ist P (¬A) = q = 1 − p und die Wahrscheinlichkeit P (A ∨ ¬A) = p + q = 1. Aufeinanderfolgende Beobachtungen sind unabh¨angig voneinander. Deshalb ist nach N Beobachtungen
P (A ∨ ¬A)N = 1 = (p + q)N =
N N n=0
n
pn q N −n
(3.30)
unter Anwendung der binomischen Formel. Wenn man nun jeden Summanden getrennt betrachtet, so beschreibt er gerade alle Kombinationen mit n Ereignissen A und N − n Ereignissen ¬A. Deshalb ist P (n|N, p) genau der n-te Summand, was (3.26) entspricht. Die allgemeine Verteilungsfunktion F (x) erh¨alt man aus F (n) durch die Vorschrift n = x unter Verwendung der erweiterten Definition der Binomialkoeffizienten f¨ ur n > N und n < 0. Erwartungswert und Varianz ergeben sich aus (3.21) und (3.22). Man kann sie auch direkt aus der Verteilung gewinnen. Mithilfe der binomischen Formel
86
3. Messung und Stichprobe
erh¨alt man den Erwartungswert n =
N
n
n=0
= Np
N! pn (1 − p)N −n n! (N − n)!
N
(N − 1)! pn−1 (1 − p)(N −1)−(n−1) (n − 1)! ((N − 1) − (n − 1))! n=1
= Np Mit demselben Trick kann man die faktoriellen Momente berechnen: ! N n! N! n! = pn (1 − p)N −n (n − m)! (n − m)! n! (N − n)! n=0 N N! m (N −m)! p = pn−m (1−p)(N −m)−(n−m) (n−m)! ((N −m)−(n−m))! (N − m)! n=m
=
N N ! N! pm pn (1 − p)N −n − n )! (N − m)! n ! (N n =0
N! pm = (N − m)!
(3.31)
mit der Substitution n = n − m und N = N − m. Daraus erh¨alt man dann alle Momente, insbesondere die Varianz σ 2 = n(n − 1) + n − n2 = p2 N (N − 1) + pN − p2 N 2 = p(1 − p)N . Die charakteristische Funktion ergibt sich ebenfalls mithilfe der binomischen Formel N N N (eit p)n (1 − p)N −n = 1 + p(eit − 1) eitn = n n=0 Beispiel 3.10. Das Fehlermodell, das Laplace 1783 entwickelte, basiert auf der Annahme, dass ein Messfehler die Summe vieler kleiner zuf¨ alliger Ereignisse ist. Jedes bewirkt eine Abweichung um +ε oder −ε mit gleicher Wahrscheinlichkeit 21 . Nach N solchen Einfl¨ ussen ist die Anzahl n+ der +ε binomialverteilt,
P (n+ ) =
N ( 1 )n+ ( 12 )n− = n+ 2
N n+
1 2N
genau wie n− = N − n+ . Damit ist die Abweichung εN = (n+ − n− )ε eine diskrete Verteilung mit P (εN ) =
1 2N
N n
mit
n=
εN N + 2ε 2
(3.32)
3.2. Z¨ ahlen von Ereignissen .............................. ..
Ihr Maximum ist bei n = N/2, also εN = 0. Dies ist auch der Mittelwert, n = N/2, also εN = 0. Die Varianz√von n ist σ 2 (n) = 1 4 N , damit ist σ(εN ) = N ε.
................................
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·•· · · · ·
Nach dem zentralen Grenzwertsatz ist εN gaußverteilt mit Mittelwert 0 und σ = √ N ε, f¨ ur N → ∞. Eine sch¨ one Veranschaulichung bietet das Galton-Brett16 : Fallende Kugeln werden an aufeinanderfolgenden Reihen von N¨ ageln im Brett zuf¨ allig nach rechts oder links abgeaufigkeitslenkt (p ≈ 12 ). Die entstehende H¨ verteilung ist gerade die Binomialverteilung (3.32).
3.2.2
•·
87
• • • • • • • • • •
• • • • • • • • • • • • •
• • • • • • • • • • • • • •
• • • • • • • • • • • • •
• • • • • • • • • •
Mehrere Ereignisse: Multinomialverteilung
Statt zwei alternative Ereignisse A und ¬A mit Wahrscheinlichkeit p und (1 − p) betrachten wir jetzt k Ereignisse (Ai )i=1...k mit Wahrscheinlichkeiten k pi , die eine Ereignismenge bilden, d. h. pi = 1. i=1
Machen wir nun N unabh¨ angige Beobachtungen, tritt das Ereignis Ai ni mal auf, mit k ni = N (3.33) i=1
Der Erwartungswert f¨ ur die absolute H¨aufigkeit ni = #(Ai ) ist ni N = N · ni 1 = N pi
(3.34)
Entsprechend erh¨ alt man wieder die Varianz: σ 2 (ni ) = N pi (1 − pi ) = ni (1 − pi )
(3.35)
und die relative H¨aufigkeit: hi = ni /N, 16
hi = pi
Nach seinem Erfinder Sir Francis Galton, 1822–1911.
(3.36)
88
3. Messung und Stichprobe
Die Wahrscheinlichkeitsverteilung f¨ ur ein k-Tupel n = (nq |q = 1 . . . k) ergibt sich wieder durch Kombinatorik k n pq q P (n|p1 , . . . , pk−1 ; N ) = N ! n ! q=1 q
(3.37)
k−1 k−1 mit pk = 1 − i=1 pi und nk = N − i=1 ni . Die ni sind wegen (3.33) abh¨ angig. Die Multinomialverteilung faktorisiert nur scheinbar. Der letzte k−1 Faktor enth¨alt mit nk = N − i=1 ni alle ni . Der Raum der Zufallstupel ist also nur (k − 1)-dimensional. Daher schreibt man die Multinomialverteilung weniger einfach, aber daf¨ ur auch weniger missverst¨ andlich P (n1 , . . . , nk−1 |p1 , . . . , pk−1 ; N ) ) * N − k−1 nq k−1 k−1 q=1 pnq q N! 1 − p = q k−1 n ! N − q=1 nq ! q=1 q=1 q nk = N −
k−1
(3.38)
nq
q=1
Die Randverteilung f¨ ur ein einzelnes ni (i ∈ {1 . . . k}) ist die Binomialverteilung N! P (ni ) = pni (1 − pi )N −ni ni ! (N − ni )! i Die zweidimensionale Randverteilung f¨ ur ni , nj (i, j ∈ {1 . . . k}, i = j) ist wie alle Randverteilungen wieder eine Multinomialverteilung P (ni , nj ) =
N! n pni p j (1 − pi − pj )N −ni −nj ni ! nj ! (N − ni − nj )! i j
(3.39)
Sie ist in der Form (3.38) f¨ ur 2 Zufallsvariablen geschrieben. Der Wertebereich alt man sind alle Paare (ni , nj ) mit ni + nj ≤ N . Aus ihr erh¨ ni nj =
−ni N N ni =0 nj =0
N !ni nj n pni p j (1 − pi − pj )N −ni −nj ni ! nj ! (N − ni − nj )! i j
= N (N − 1)pi pj
−ni N −1 N
n −1 n −1
(N −2)! pi i pj j (1−pi −pj )(N −2)−(ni −1)−(nj −1) (ni −1)! (nj −1)! ((N −2)−(ni −1)−(nj −1))!
ni =1 nj =1
−ni n n N N N ! pi i pj j (1 − pi − pj )N −ni −nj = N (N − 1)pi pj ni ! nj ! (N − ni − nj )!
ni =0 nj =0
= N (N − 1)pi pj
(3.40)
3.2. Z¨ ahlen von Ereignissen
89
mit N = N − 2, ni = ni − 1 und nj = nj − 1. Die Terme mit ni = 0, nj = 0 und damit auch wegen ni + nj ≤ N mit ni = N verschwinden. Damit wird die Kovarianz Cij = C(ni , nj ) = −N pi pj = −ni pj & p i pj Korrelationskoeffizient: ρ = − (1 − pi )(1 − pj )
(i = j)
(3.41)
Kovarianzmatrix Cij = N (δij pi − pi pj ) Beispiel 3.11. Der Spielw¨ urfel liefert nach N W¨ urfen die 1 mit H¨ aufigkeit n1 , die 2 mit H¨ aufigkeit n2 etc. Die Verteilung der ni ist eine Multinomialverteilung P (n1 , n2 , n3 , n4 , n5 , n6 ) =
N! 1 n 1 ! n2 ! n3 ! n4 ! n5 ! n6 ! 6 N
Zwei Resultate, etwa die 1 und die 6, sind antikorreliert, ihr Korrelationskoeffizient ist ρ = − 15 . Das bedeutet, wenn in einer Stichprobe zu viele Einsen sind, so ¨ erwarten wir im Mittel um 15 dieses Uberschusses weniger Sechsen. W¨ ahrend die Wahrscheinlichkeit f¨ ur jede einzelne Sequenz von 50 W¨ urfel-Resultaur die reduzierte Information ten die Wahrscheinlichkeit 6150 ≈ 1.2 · 10−39 ist, gilt f¨ der sechs H¨ aufigkeiten, die im Histogramm in Abbildung 3.1 dargestellt sind, die Multinomialverteilung. F¨ ur unser Resultat ist P (10, 11, 6, 5, 11, 7) =
1 50! ≈ 1.5 · 10−5 10! 11! 6! 5! 11! 7! 650
Die Wahrscheinlichkeit, ein Histogramm wie in Abbildung 3.1 zu erhalten, ist etwa oßer als das der spezifischen Sequenz (b) aus 1.5 · 10−5 und damit wesentlich gr¨ Beispiel 1.2. Das Histogramm, das der Reihe (a) aus Beispiel 1.2 entspricht, hat dagegen die Wahrscheinlichkeit P (0, 0, 0, 0, 0, 50) =
1 50! ≈ 1.2 · 10−39 0! 0! 0! 0! 0! 50! 650
und ist damit um einen Faktor 1.2 · 1034 unwahrscheinlicher.
3.2.3
Poisson-Verteilung als Grenzfall der Binomialverteilung
Die Binomialverteilung hat zwei Parameter: p und N . Wir k¨onnen sie auch durch zwei andere Parameter ausdr¨ ucken, etwa den Mittelwert μ := n = pN μ und p oder μ und N . Dann ist etwa die Varianz σ 2 = μ(1 − p) oder μ(1 − N ). Die Binomialverteilung schreibt sich mit μ und N als Parametern P (n) =
μn (N − μ)N −n N! n! (N − n)! NN
(3.42)
90
3. Messung und Stichprobe
Wie verh¨alt sich die Binomialverteilung, wenn bei festem μ die Wahrscheinlichkeit p → 0 und damit N gegen ∞ strebt? Beispiel 3.12. Diese Frage ist keineswegs abwegig. Haben wir etwa 0.1 mg 235 U, dann sind das N = NA · 0.1 mg/235 g = 6.022 · 1023 /235 · 104 ≈ 2.56 · 1017 radioaktive Urankerne. Die Halbwertszeit ist T1/2 = τ ln 2 = 7.1 · 108 a, die Zerfallswahrscheinlichkeit ist also p = 1/τ ≈ 3.1 · 10−17 / s. Die mittlere Zahl der Zerf¨ alle in einer Sekunde ist damit μ = N p = 7.9. Die tats¨ achliche Anzahl, die jede Sekunde beobachtet wird, ist binomialverteilt ur eine Berechnung recht mit P (n|3.1 · 10−17 , 2.56 · 1017 ). Diese Parameter sind f¨ unhandlich. So ist etwa 2.56 · 1017 (2.56 · 1017 − 1) · · · (2.56 · 1017 − 7) 8!
P (8|3.1 · 10−17 , 2.56 · 1017 ) =
· (3.1 · 10−17 )8 (1 − 3.1 · 10−17 )2.56·10
17
−8
Versuchen Sie, das auf einem Taschenrechner oder Computer zu berechnen! F¨ ur den 17 otigt man mindestens 18-stellige Genauigkeit Term (1 − 3.1 · 10−17 )2.56·10 −8 ben¨ 1 1 (dezimal). Die Taylorreihe (1 − p)N = 1 − N p + 2! N (N − 1)p2 − 3! N (N − 1)(N − 3 2)p + . . . hilft nicht so recht weiter, da pN = 7.9 ist und die Summanden der Reihe nicht kleiner werden: Die Potenzen von p werden durch die Faktoren N (N − 1) . . . 1 ¨ kompensiert. Die Reihe hat aber Ahnlichkeit mit e−pN = 1 − N p + 2! N 2 p2 − 3 3 N −pN 2 2 1 1 1 = − 2! N p − 3! (3N −2N )p3 + 3! N p +. . .. Die Unterschiede sind (1−p) −e 2 onnen daher die Approximation . . . und damit von der Ordnung N p 1. Wir k¨ P (8|3.1·10−17 , 2.56·1017 ) =
−17 17 (2.56 · 1017 )8 (3.1·10−17 )8 e−3.1·10 ·2.56·10 = 0.140 8!
benutzen, die problemlos berechnet werden kann und auf etwa 16 Stellen genau ist.
Die Binomialverteilung geht f¨ ur p2 1/N (oder a¨quivalent n2 N ) und 2 n N u ¨ber in eine Poisson-Verteilung. Mit der Form (3.42) erh¨ alt man: n N μ (N − μ)N −n P (n) = n NN
μ N N (N − 1)(N − 2) · · · (N − n + 1) μn 1 − N = μ n n! Nn 1 − N n 1(1 − N1 )(1 − N2 ) · · · (1 − n−1 μ N N )μ 1− = μ n (1 − N ) n! N n −μ ) * μ e 1 + O p2 N = n! μn e−μ ≈ n!
Die N¨aherungen sind
1−
μ N ≈ e−μ N
(3.43)
(3.44)
3.2. Z¨ ahlen von Ereignissen die f¨ ur p2 1/N gilt17 und 1(1 −
− N2 ) · · · (1 − μ n (1 − N )
1 N )(1
n−1 N )
μ ≈1+n − N ≈1
n−1 k=1
k
N
91
$
2μ − (n − 1) =1+n 2N
%
2 die f¨ ur nμ aherungen N 1 bzw. n N gilt. Da n ≈ μ = pN , sind beide N¨ korrekt bis auf Terme der Ordnung O(p2 N ).
Der Grenzfall p2 N 1 oder pμ 1 erlaubt auch die Berechnung der Erwartungswerte aus der Binomialverteilung: n = μ (gilt immer) und σ 2 = μ(1 − p) = μ − μp → μ.
3.2.3.1
Eigenschaften der Poisson-Verteilung
Die Wahrscheinlichkeit f¨ ur n = #(A) f¨ ur kleine Ereignis-Wahrscheinlichkeit p2 1/N , n2 N h¨angt nur noch von einem Parameter μ = pN ab und ist eine Poisson-Verteilung P (n|μ) =
e−μ μn n!
(3.45)
Wertebereich W = N0 = {0, 1, 2, . . .} Verteilungsfunktion f¨ ur n ∈ N0 : F (n) = e−μ E(n, μ) Momente: n = μ, 1 g=√ , μ
(3.46)
σ 2 (n) = μ 1 e= μ
charakteristische Funktion eitn = e−μ
(eit μ)n
= eμ(e
n! wahrscheinlichkeitserzeugende Funktion m(z) = eμ(z−1)
Dabei ist E(n, x) =
−1)
(3.47) (3.48)
n xk k=0
17
it
k!
Taylorreihe von φ(p) = (1 − p)N epN = 1 − p2 N/2 + . . . mit φ (p) = −pN epN (1 − p)N −1 , φ (0) = 0 und φ (p) = −N (1 − p2 N )epN (1 − p)N −2 , φ (0) = −N ; 2 eine weitere Herleitung ist (1 − p)N = eN ln(1−p) = e−N p+O(N p ) .
3. Messung und Stichprobe
92
μ = 0.5, N = 5
P(n)
μ = 0.5, N = 10
P(n)
0.5
0.5
0 Abb. 3.3
5
n
10
0
5
n
10
Binomialverteilung f¨ ur μ = 0.5 und N = 5 (p = 0.1) bzw. N = 10 (p = 0.05).
μ = 0.5
P(n)
μ = 3.0
P(n) 0.5
0.5
0 Abb. 3.4
5
n
10
0
5
n
10
Poisson-Verteilung f¨ ur μ = 0.5 und μ = 3.0.
die unvollst¨ andige Exponentialreihe, die nach n Termen abgebrochene TaylorEntwicklung der Exponentialfunktion um 0 (s. Anhang A). Der relative Fehler“ oder besser die relative Sch¨arfe der Poisson-Verteilung ” √ μ σ(n) 1 = =√ n μ μ wird mit steigendem Mittelwert kleiner. Bei der Berechnung der Momente helfen wieder die faktoriellen Momente m(k) = n(n − 1) · · · (n − k + 1) = μk e−μ
∞ μn−k = μk (n − k)!
(3.49)
n=k
Das k-te faktorielle Moment erh¨alt nur Beitr¨age von n ≥ k, da kleinere n immer einen Faktor 0 im Produkt n(n − 1) · · · (n − k + 1) haben.
3.2. Z¨ ahlen von Ereignissen
93
Daraus kann man dann die Momente berechnen: n2 = n(n − 1) + n = μ(μ + 1), n3 = μ(μ2 + 3μ + 1), n4 = μ(μ3 + 6μ2 + 7μ + 1), (n − μ)3 = μ und (n − μ)4 = μ(3μ + 1). Alternativ kann man die Momente −μ
mk = n = e k
∞ n=0
n
kμ
n
n!
=e
−μ
∞ $ n=0
∂ μ ∂μ
%k
%k $ μn ∂ −μ =e eμ μ n! ∂μ
auch durch sukzessives Ableiten und Multiplizieren mit μ berechnen: n = e−μ μeμ = μ n2 = e−μ μ(μ + 1)eμ = μ2 + μ n3 = e−μ μ[(μ2 + μ) + (2μ + 1)]eμ = μ3 + 3μ2 + μ n4 = e−μ μ[(μ3 + 3μ2 + μ) + (3μ2 + 6μ + 1)]eμ = μ4 + 6μ3 + 7μ2 + μ und so weiter. Beispiel 3.13. Ein klassisches Beispiel f¨ ur die Poisson-Verteilung ist der radioaktive Zerfall, wobei h¨ aufig das Experiment von Rutherford und Geiger18 zum Nachweis der statistischen Natur des α-Zerfalls zitiert wird. Unser Beispiel 3.12 f¨ uhrt auf eine Poisson-Verteilung mit μ = 7.9. Die gesuchte Wahrscheinlichkeit f¨ ur n = 8 ist dann einfach zu berechnen: P (8|3.1 · 10−17 , 2.56 · 1017 ) = P (8|7.9) =
e−7.9 7.98 = 0.140 8!
Beispiel 3.14. Ein ebenfalls h¨ aufig zitiertes Beispiel aus dem Buch von Bortkieahrlich durch Huftritt get¨ oteten preußischen Kavalleriesolwicz19 ist die Zahl der j¨ daten. In 10 Kavallerieregimentern in 20 Jahren ergab sich folgende Bilanz: Tabelle 3.1 Anzahl n durch Huftritt get¨ oteter Kavalleriesoldaten pro Jahr und Regiment ( n = 0.61). n
18 19
0
1
2
3
4
abs. H¨ aufigkeit rel. H¨ aufigkeit
109 0.545
65 0.325
22 0.110
3 0.015
1 0.005
Poisson, μ = 0.61
0.543
0.331
0.101
0.021
0.003
E. Rutherford, H. Geiger, The probability variations in the distribution of α particles, with a note by H. Bateman, Phil. Magazine, Ser. 6 20, 698–707 (1910). Ladislaus von Bortkewitsch, Das Gesetz der kleinen Zahlen, Teubner, Leipzig 1898.
94
3. Messung und Stichprobe
Beispiel 3.15. Poissonverteilte Rate: Eine Z¨ ahlrate in einem Zeitintervall Δt sei poissonverteilt mit Mittelwert n = λ · Δt (z. B. ein radioaktives Pr¨ aparat aus N Kernen mit mittlerer Lebensdauer τ Δt, mit λ = N/τ ). Die Ereignisverteilung ist gleichverteilt in der Zeit mit der Dichte λ. Dann ist die Verteilungsfunktion f¨ ur das Intervall t zwischen zwei aufeinanderfolgenden Ereignissen die Wahrscheinlichkeit, eine Zeitdifferenz ≤ t zu messen, also nicht n = 0 Ereignisse in der Zeit Δt = t zu z¨ ahlen F (t) = P (Δt ≤ t) = 1 − P (0|λt) = 1 − e−λt Daraus erh¨ alt man als Dichte eine Exponentialverteilung f (t) = λe−λt
(3.50)
mit Mittelwert t = τ /N .
3.2.3.2
Additivit¨ at: Faltung zweier Poisson-Verteilungen
Wahrscheinlichkeit f¨ ur n = a + b (f¨ ur zwei unabh¨ angige Ereignisse mit Erwartungswerten α und β und H¨aufigkeiten a und b aus verschiedenen Messreihen): P (n) =
n
P (a|α) · P (n − a|β)
a=0
= e−(α+β) =
n αa β n−a e−(α+β) = (α + β)n a! (n − a)! n! a=0
e−μ μn n!
(3.51)
mit μ = α + β. Die Familie aller Poisson-Verteilungen hat also wie die der Gauß-Verteilungen die Eigenschaft, bez¨ uglich der Faltung abgeschlossen zu sein. Die Faltung zweier Poisson-Verteilungen gibt stets wieder eine PoissonVerteilung.
3.2.3.3
Zweidimensionale korrelierte Poisson-Daten
Sind i, j, k unabh¨ angig und poissonverteilt mit Mittelwerten α, β, γ, so kann man daraus korrelierte Paare von Zahlen n := i + k m := j + k
3.2. Z¨ ahlen von Ereignissen
95
erzeugen, die poissonverteilt sind mit Mittelwerten ν =α+γ μ=β+γ und der Kovarianz C(n, m) = nm − nm = C(i, j) + C(i, k) + C(j, k) + σ 2 (k) = σ 2 (k) = γ
(3.52)
Ihre Verteilung ist die Summe aller Produkte P (i)P (j)P (k), f¨ ur die (i, j, k) dasselbe Paar n, m ergibt, also P (n, m) = min(n,m)
e
γ−μ−ν
(μ − γ) (ν − γ) m
n
k=0
γ (ν − γ)(μ − γ)
k
1 k! (n − k)! (m − k)! (3.53)
Dies ist eine zweidimensionale Poisson-Verteilung zu den Mittelwerten μ und ν und der Kovarianz γ. F¨ ur γ = 0 bleibt nur der Summand mit k = 0, und man erh¨alt wie erwartet ein Produkt zweier Poisson-Verteilungen.
3.2.4
Hypergeometrische Verteilung
Binomial- und Poisson-Verteilung sind die h¨ aufigsten in der Praxis ben¨otigten Verteilungen. Seltener ben¨ otigt man die hypergeometrische Verteilung, die jedoch in vielen Anwendungen außerhalb der Physik eine große Rolle spielt. In Kapitel 1.2.1 hatten wir festgestellt, dass die relative H¨aufigkeit von Eigenschaften in einer endlichen Menge alle Axiome der Wahrscheinlichkeitsrechnung erf¨ ullt und somit auch eine Realisierung des Begriffs Wahrscheinlichkeit darstellt. Die hypergeometrische Verteilung beschreibt Stichproben aus solchen endlichen Grundgesamtheiten. F¨ ur den Physiker ist das z. B. eine Menge von Bauteilen, deren Qualit¨at er durch eine Stichprobe u ¨berpr¨ ufen will. Ein allgemeines Modell ist die Urne des Stochastikers. In einer Urne seien N Kugeln, davon seien M weiß. Die Wahrscheinlichkeit, dass eine zuf¨ allig gew¨ahlte Stichprobe vom Umfang n (d. h. n gezogene Kugeln) genau k weiße N −M von Kombinationen Kugeln enth¨ alt, ist gegeben durch die Anzahl M k n−k von k weißen und n − k anderen Kugeln aus M weißen und N − M anderen. Die Wahrscheinlichkeit f¨ ur k ist das Verh¨altnis dieser Anzahl zur Anzahl aller Kombinationen mit n von N Kugeln.
96
3. Messung und Stichprobe
Dies f¨ uhrt auf die hypergeometrische Verteilung M N −M H(k|n, N, M ) =
k
Nn−k
(3.54)
n
Wertebereich W = {max(N − M − n, 0), . . . , min(n, M )} nM = np, N N −n nM (N − M )(N − n) = np(1 − p) σ 2 (k) = 2 N (N −( 1) N −1
Momente: k =
g=
(1 − 2p)(N − 2n) (N − 2)
N −1 (N − n)n p(1 − p)
mit p := M/N . Durch Ausschreiben der Wahrscheinlichkeit findet man H(k|n, N, M ) =
M ! (N − M )! (N − n)! n! = H(k|M, N, n) k! (M − k)! (n − k)! (N − M − n + k)! N ! (3.55)
F¨ ur N → ∞, M/N = p geht sie u ¨ber in die Binomialverteilung P (k|p, n), was man durch Umstellen der Terme leicht sehen kann: H(k|n, N, pN ) →
n! (pN )k [(1 − p)N ]n−k Nn k! (n − k)!
(3.56)
Die Verallgemeinerung ist eine Urne mit N Kugeln, davon seien Mi von der Art (z. B. Farbe) i ∈ {1 . . . l}. Die Wahrscheinlichkeit, dass eine zuf¨ allig gew¨ahlte Stichprobe vom Umfang n (d. h. n gezogene Kugeln) genau k i Ku+ i von Komgeln von der Art i enth¨ alt, ist gegeben durch die Anzahl i M ki binationen von ki Kugeln aus Mi i–Kugeln. Die Wahrscheinlichkeit f¨ ur das l-Tupel k ist das Verh¨altnis dieser Anzahl zur Anzahl aller Kombinationen mit n von N Kugeln. Dies f¨ uhrt auf die l-dimensionale hypergeometrische Verteilung +l H(k|n, N, M1 . . . Ml ) = mit N =
Mi
Mi i=1 ki N n
(3.57)
3.2. Z¨ ahlen von Ereignissen 3.2.5
97
Negative Binomialverteilung
Eine weitere Verteilung ergibt sich aus folgender Frage: Wir haben eine gew¨ unschte H¨aufigkeit n = #(A) und die Wahrscheinlichkeit p = P (A) vorgegeben. Was ist die Wahrscheinlichkeit f¨ ur N , die Anzahl der Versuche, bis n Ereignisse eingetreten sind? Diese Wahrscheinlichkeit ist wie bei der Binomialverteilung pn (1 − p)N −n multipliziert mit der Anzahl Kombinationsm¨ oglichkeiten, bei denen das N te Ereignis A war (sonst h¨atten weniger als N Versuche schon n ergeben, im Widerspruch zu unserer Voraussetzung) und die restlichen n − 1 beliebig auf die vorangegangenen N − 1 Beobachtungen verteilt waren. Dies f¨ uhrt auf die negative Binomialverteilung N −1 n p (1 − p)N −n n−1
P (N |n, p) =
(3.58)
Wertebereich W = {n, n + 1, n + 2, . . . ∞} n n(1 − p) , σ 2 (N ) = p p2 (2 − p) g= n(1 − p)
Momente: N =
Wenn wir statt N die Zahl k = N − n mit Wertebereich k ∈ N0 verwenden, ist −n n n+k−1 n p (p − 1)k p (1 − p)k = (3.59) P (k|n, p) = k n−1 woraus der Name negative Binomialverteilung klar wird. Zur Herleitung der Momente ist folgende Beziehung von Nutzen N (N + 1) =
∞
(N + 1)N
N =n
=
(N − 1)! pn (1 − p)N −n (N − n)! (n − 1)!
∞ (N − 1)! n(n + 1) pn (1 − p)N −n 2 )! (n − 1)! p (N − n N =n
n(n + 1) = p2 mit N = N + 2 und n = n + 2, die leicht verallgemeinert werden kann: N (N + 1) · · · (N + k) =
n(n + 1) · · · (n + k) pk+1
98
3. Messung und Stichprobe
Die negative Binomialverteilung findet man z. B. dann, wenn eine Kette von Prozessen eine konstante Abbruchwahrscheinlichkeit p hat. Die L¨ ange einer solchen Prozesskette ist negativ binomialverteilt nach P (N |1, p). Dieses Problem ist analog zu Beispiel 2.2, wo wir die Verteilung P (N |1, 16 ) gefunden hatten.
4.
Statistische Inferenz
Statistische Inferenz – das Schließen von gemessenen Zufallsgr¨oßen x auf feste Parameter p – ist die Anwendung der Statistik schlechthin. Eine Messung ist eine Stichprobe mit endlichem Umfang aus einer Grundgesamtheit, deren Eigenschaften man ermitteln will. Die allgemeine Problematik der statistischen Inferenz liegt in folgenden Tatsachen begr¨ undet: •
Alle Werte der in Frage kommenden Messgr¨ oßen haben vor der Messung eine Wahrscheinlichkeit P < 1. Es stehen i. Allg. mehrere, evtl. unendlich viele Werte zur Auswahl. Die (physikalische) Wahrscheinlichkeit ist der Grenzwert einer H¨aufigkeit f¨ ur unendlich viele Messungen. Gleichzeitig ist sie ein Informationsmaß f¨ ur das noch unbekannte Resultat der einzelnen Messung. Nach der Messung ist jedoch die Wahrscheinlichkeit f¨ ur einen bestimmten – den gemessenen – Wert 1, f¨ ur alle anderen 0.
•
Die Parameter , die die Verteilung der Messwerte bestimmen, haben vor und nach der Messung denselben, festen Wert. Die physikalische Wahrscheinlichkeit f¨ ur diesen Wert ist also stets und unver¨anderlich 1, f¨ ur alle anderen ebenso unver¨ anderlich 0. Es macht keinen Sinn, von der physikalischen Wahrscheinlichkeit f¨ ur einen Parameter-Wert oder ein ParameterIntervall zu sprechen.
•
Eine Messung enth¨alt i. Allg. Information u ¨ber die Werte von Parametern. Diese Information kann mithilfe der Wahrscheinlichkeit f¨ ur den gefundenen Messwert vor der Messung quantifiziert werden, da sie von den Parametern abh¨ angt. Diese Quantifizierung kann u. a. durch eine subjektive Wahrscheinlichkeit erfolgen.
Daraus ergibt sich, dass Verfahren der statistischen Inferenz nicht, wie h¨aufig vereinfachend behauptet wird, Wahrscheinlichkeitsaussagen u ¨ber unbekannte Parameter machen, sondern vielmehr aus Wahrscheinlichkeitsaussagen u ¨ber Zufallsgr¨oßen (Messwerte) Information u ¨ber diese Parameter ableiten. Diese Information kann aber als subjektive Wahrscheinlichkeit f¨ ur verschiedene Parameter quantifiziert werden. Dabei k¨ onnen sowohl Messwerte als auch Parameter diskret oder kontinuierlich sein. Das ergibt vier Kombinationen (s. Tabelle 4.1). Zum Typ III oder IV k¨onnte man auch den statistischen Test z¨ahlen, wobei p = ja/nein zwei diskrete Werte umfasst. Man unterscheidet •
Punktsch¨ atzung = Sch¨atzung (oder Fit) des Wertes der wahren Parameter (ˆ p ≈ p˜)
•
Intervallsch¨atzung = Sch¨ atzung eines Gebiets, das den wahren Parameter enth¨ alt (p˜ ∈ [ˆ pmin , pˆmax ]).
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 R. Waldi, Statistische Datenanalyse, https://doi.org/10.1007/978-3-662-60645-2_4
100
4. Statistische Inferenz
Tabelle 4.1 Beispiele f¨ ur die vier F¨ alle mit diskreten oder kontinuierlichen Messwerten x und Parametern p.
p kontinuierlich
p diskret
x kontinuierlich
x diskret
(I)
(II)
L¨angenmessung: p = wahre L¨ ange, x = gemessene L¨ange
Vierbl¨ attriges Kleeblatt: p = Wahrscheinlichkeit, x = beobachtete Anzahl
Magnetspektrometer: p = Impuls, x = Spurkr¨ ummung (III)
Radioaktiver Zerfall: p = Zerfallswahrscheinlichkeit, x = Z¨ahlrate (IV)
Teilchenidentifikation: p = Teilchenart, x = Flugzeit (und Impuls)
Multiplizit¨at: p = Anzahl von Teilchen (Reaktionsprodukten), x = Anzahl von nachgewiesenen Teilchenspuren Stochastiker-Urne: p = Anzahl von weißen Kugeln, x = Anzahl gezogener weißer Kugeln
Parameter kann dabei ein Satz von Parametern sein, etwa ein n-Tupel p = (p1 , . . . , pn ). In der Physik sprechen wir i. Allg. nicht von Sch¨ atzungen, sondern vom Bestimmen eines Parameters aus einer Messung oder Messreihe. Man sollte dabei aber den Zufallscharakter einer statistischen Bestimmung nicht aus den Augen verlieren.
4.1
Stichprobenfunktionen
Eine Stichprobe vom Umfang N oder Messreihe (xi )i=1...N stamme aus einer Grundgesamtheit, die verteilt ist nach f (x|p). Dabei ist p ein ParameterSatz, der die Verteilung vollst¨andig charakterisiert. Eine Stichprobenfunktion, auch Sch¨ atzfunktion oder einfach Sch¨ atzer (engl. statistic) genannt, ist jede Funktion ψ(x1 , . . . , xN ). Kennt man die Verteilung f (x|p), so kann man die Verteilung f (ψ|p) der Stichprobenfunktion berechnen.
4.1. Stichprobenfunktionen
101
Insbesondere sind die in den letzten Abschnitten vorgestellten absoluten und relativen H¨ aufigkeiten Stichprobenfunktionen. Beispiel 4.1. Beispiele f¨ ur Stichprobenfunktionen einer reellwertigen Messreihe (xi )i=1...N sind:
•
das arithmetische Mittel ψ1 (x) = x ¯=
•
der Wert ψ2 (x) =
•
das Mittel aus gr¨ oßtem und kleinstem Wert ψ3 (x) = 12 (min xi + max xi )
•
das Mittel aus erstem und letztem Wert ψ4 (x) = 12 (x1 + xN )
•
das geometrische Mittel ψ5 (x) = 1 log xi ) log ψ5 = N
•
das quadratische Mittel (RMS) ψ6 (x) =
1 N −1
1 N
xi
xi (f¨ ur N ≥ 2)
+
N
' '
Mittel der Abweichungen ψ7 (x) = •
das harmonische Mittel ψ8 (x) =
•
der erste Messwert ψ9 (x) = x1
xi (auch logarithmisches Mittel, da
1 N
1 N
x2i oder das quadratische
(xi − x ¯ )2
1 −1 xi
•
die Konstante ψ10 (x) = 42
•
H¨ aufigkeiten wie ψ11 (x) = #(xi > 1.3) oder ψ12 (x) = #(xi > x ¯)
und viele andere. Einige, z. B. ψ10 , sind wenig oder gar nicht geeignet, etwas u ¨ber die Parameter der Grundgesamtheit zu lernen. Andere, wie offensichtlich ψ9 und ur N > 2), verschenken wertvolle Information. ψ4 (f¨
4.1.1
Punkt- und Intervallsch¨ atzung
Interessant sind solche Stichprobenfunktionen, die uns Aussagen u ¨ber unbekannte Parameter der Verteilung liefern. Ist p ein fester, aber unbekannter Parameter der Verteilung, so nennen wir eine Stichprobenfunktion pˆ = ψ(x1 , . . . , xN ) konsistente Sch¨ atzfunktion f¨ ur p ⇐⇒
lim pˆ = p
N →∞
(4.1)
Die Konvergenz ist stochastisch, d. h., f¨ ur jedes kleine Intervall p ± ε konvergiert die Wahrscheinlichkeit P (ˆ p ∈ [p − ε, p + ε]) → 1
(4.2)
¨ ¨ Aquivalent dazu ist die Forderung, dass die Uberdeckungswahrscheinlichkeit P (p ∈ [ˆ p − ε, pˆ + ε]) → 1 konvergiert. Beide Wahrscheinlichkeiten sind i. Allg. nicht gleich.
(4.3)
102
4. Statistische Inferenz
Wir nennen pˆ eine Punktsch¨ atzung, da sie einen Wert oder allgemeiner ein nTupel, also einen Punkt in einem n-dimensionalen Parameter-Raum liefert. ¨ Die Suche nach Intervallen mit vorgegebener Uberdeckungswahrscheinlichkeit nennt man Intervallsch¨ atzung. Die Zufallsgr¨ oße ist stets die Stichprobenfunktion pˆ, nicht der wahre Parameter p. Im ersten Fall (4.2) ist das Intervall um p, also fest, und pˆ liegt zuf¨allig innerhalb oder außerhalb seiner Grenzen. Im zweiten Fall (4.3) ist die Lage des Intervalls selbst eine Zufallsgr¨oße, und es h¨ angt von der Messung ab, ob es den wahren Wert p u ¨berdeckt. Diese beiden alternativen Interpretationen eines Messfehlers werden in Abbildung 4.1 gegen¨ ubergestellt.
•
• •
•
•
•
•
• •
•
•
•
−2σ −σ ˜x +σ +2σ −2σ −σ ˜x +σ +2σ Abb. 4.1 Zufallsintervalle um Messwerte x ± σ und zuf¨ allige Messwerte x im Vergleich mit x ˜ ± σ. Der fette Wert ist der Mittelwert der 6 Messungen. Die rechte Darstellung der Fehlerbereiche ist normalerweise nicht m¨ oglich, da sie den wahren Wert als bekannt voraussetzt.
F¨ ur jede stetige Funktion φ gilt lim pˆ = p ⇐⇒
N →∞
lim φ(ˆ p) = φ(p)
N →∞
(4.4)
insbesondere lim pˆ = p ⇐⇒
N →∞
lim pˆ − p = 0 ⇐⇒
N →∞
lim (ˆ p − p)2 = 0
N →∞
Eine a¨quivalente Bedingung f¨ ur einen konsistenten Sch¨atzer ist daher pˆ = ψ(x1 , . . . , xN ) konsistente Sch¨ atzfunktion f¨ ur p ⇐⇒
p − p)2 = 0 lim (ˆ
N →∞
(4.5)
Eine große Klasse von Sch¨atzfunktionen baut auf dem Erwartungswert auf.
4.1. Stichprobenfunktionen
103
Es ist pˆ = ψ(x1 , . . . , xN ) erwartungstreue Sch¨ atzfunktion f¨ ur p ⇐⇒ ˆ p = p
(4.6)
Alternativ bezeichnet man sie auch als unverzerrte Sch¨ atzfunktion. Oft ist diese Bedingung jedoch nur n¨aherungsweise erf¨ ullt. Wir nennen pˆ = ψ(x1 , . . . , xN ) asymptotisch erwartungstreue Sch¨ atzfunktion f¨ ur p ⇐⇒
p = p lim ˆ
(4.7)
N →∞
Nach der Tschebyschewschen Ungleichung (2.61) ist P (|ˆ p − ˆ p| < ε) > 1 −
σ2 ε2
Ist pˆ asymptotisch erwartungstreu, bedeutet dies P (|ˆ p − p| < ε) > 1 −
σ2 ε2
Ist daher pˆ asymptotisch erwartungstreu und geht die Varianz σ 2 (ˆ p) gegen 0, so geht auch |ˆ p −p| gegen 0, und pˆ ist ein konsistenter Sch¨atzer von p. Eine hinreichende Bedingung f¨ ur Konsistenz ist also, dass der Erwartungswert εp und die Varianz σ 2 (εp ) der Zufallsgr¨oße εp := pˆ − p (z. B. eines Messfehlers) mit wachsendem N gegen 0 streben. Umgekehrt ist f¨ ur einen konsistenten Sch¨atzer pˆ − p → 0 =⇒ ˆ p − p → 0, also ist er asymptotisch erwartungstreu. Die Qualit¨ at einer Sch¨atzfunktion kann man durch das Verhalten der Varianz messen. Der effizientere Sch¨atzer hat die kleinere Varianz, die Effizienz ist ε(ψ) ∼ 1/σ 2 (ψ). Man definiert die relative asymptotische Wirksamkeit oder relative asymptotische Effizienz σ 2 (ˆ p1 ) N →∞ σ 2 (ˆ p2 )
ε2/1 = lim
(4.8)
104
4. Statistische Inferenz
4.1.2
Messreihen
Den statistischen Fehler einer Messung einer (unbekannten) Gr¨oße x ˜ kann man durch h¨ aufiges Wiederholen der Messung untersuchen. Dadurch verbessert man das Resultat und erh¨alt gleichzeitig eine Absch¨atzung des Fehlers. Jeder Messwert xi = x ˜ + εi variiert zuf¨allig. Falls der Erwartungswert des Messfehlers ε = 0 ist, ist x ˜ = x, d. h., der wahre Wert ist der Erwartungswert der Grundgesamtheit. Das Problem, das man dazu betrachten muss, sind Stichproben aus einer kontinuierlich verteilten Grundgesamtheit mit fester, unbekannter Dichte f (x). Wir machen an dieser Stelle noch keine Annahme u ¨ber die Verteilung der Fehler, sie m¨ ussen also keineswegs gaußverteilt sein. Allerdings sollte die Verteilung eine endliche Varianz haben. Wir nehmen aber an, dass sich die Verteilung selbst mit der Zeit nicht ¨andert. Messungen, die unter verschiedenen Bedingungen durchgef¨ uhrt wurden oder die eine Gr¨oße mit unterschiedlichen Methoden und Apparaten messen, werden dadurch nicht beschrieben. N Im Folgenden werden wir die Abk¨ urzung [x] f¨ ur endliche Summen i=1 xi verwenden. Summen kann man umsortieren, daher ist [x + y] = [x] + [y] oder [(x − a)2 ] = [x2 ] − 2a[x] + N a2 , falls a eine Konstante ist. Wegen der Linearit¨at von Erwartungswerten ist [φ(x)] = [φ(x)]. Eine Stichprobe bzw. eine Messreihe: (xi )i=1...N aus N unkorrelierten Einzelbeobachtungen hat folgende Erwartungswerte: [x] =
,
- x = N · x xi =
2 , 2 - 2 x = N · x2 [x ] = xi =
[x]2 =
2 ! xi
= N · x2 + N (N − 1) · x2
σ2 ([x]) = σ2 (
xi ) = N · σ2 (x)
(4.9) (4.10)
(4.11) (4.12)
Diese Beziehungen ergeben sich aus der Linearit¨at von Erwartungswerten. Gleichung (4.12) kann auch direkt aus der Additionsformel f¨ ur Varianzen (2.74) f¨ ur unabh¨ angige Zufallszahlen geschlossen werden.
4.1. Stichprobenfunktionen 4.1.2.1
105
Erwartungstreue Sch¨ atzwerte
H¨ aufig ist der Parameter einer Verteilung, den es zu sch¨ atzen gilt, der Erwartungswert x ˜ = x Dann ist das (arithmetische) Stichprobenmittel x ˆ=x ¯=
N [x] 1 xi = N i=1 N
(4.13)
wegen (4.9) ein erwartungstreuer Sch¨ atzwert f¨ ur x ˜: ˆ x = x ˜ = x. ˜. Ihre Verteilung bestimmt die Varianz Die wahren Fehler sind εi = xi − x der Stichprobe, die auch die Varianz der Grundgesamtheit (unendliche Fortsetzung der Messreihe) ist
σ
2
2 2 εi [ε ] = (x) = N N
Wegen (4.12) ist die Varianz des Mittelwerts
σ2 (ˆ x) =
σ2 ([x]) N2
=
σ2 (x) N
(4.14)
Sie geht mit wachsendem N gegen 0, d. h., der Mittelwert ist eine konsistente Sch¨atzung von x ˜. Mithilfe der Residuen ri = xi − x ˆ erh¨alt man die Stichprobenvarianz s
2
=
x + Nx ˆ2 [x2 ] − 2[x]ˆ ri2 = N N [x2 ] − [x]2 /N [x2 ] − 2[x]2 /N + [x]2 /N = = N N
(4.15)
Sie ist die Varianz bez¨ uglich der Stichprobe selbst, also einer endlichen Menge, als Grundgesamtheit. Der Erwartungswert dieser Grundgesamtheit ist xi . x ¯= pi xi = N1 Entsprechend ist die Wurzel s (sample RMS = root mean square) die Streu2 ung oder Standardabweichung der Stichprobe. Den Erwartungswert von s findet man mit (4.10) und (4.11) s = x2 − 2
N −1 2 x2 + (N − 1) · x2 = (x − x2 ) N N
(4.16)
106
4. Statistische Inferenz
oder, ausgehend von der Varianz σ 2 (x) = x2 − x2 der Grundgesamtheit aller x, N −1 2 s = σ 2 (x) N atzer f¨ ur σ 2 . Dagegen s ist nur ein asymptotisch erwartungstreuer Sch¨ sch¨atzt man die 2
Varianz erwartungstreu
ri2 = s = N −1
2
ˆ2 x2i − N x [x2 ] − [x]2 /N = N −1 N −1
(4.17)
Die Varianz der gesch¨atzten Varianz ist
σ2 (s2 ) = s4 − σ 4 =
μ4 −
N −3 4 N −1 σ
N
$ =σ
4
e 2 + N N −1
% (4.18)
ur alle Vertei(Hier ist σ als Operator von σ als Zahl zu unterscheiden!) F¨ 2 2 ur lungen mit endlichem Exzess sind daher s und s konsistente Sch¨atzer f¨ σ2 (x). Gleichung (4.17) definiert einen erwartungstreuen Sch¨ atzer f¨ ur die Varianz, s2 = σ2 (x). Die Wurzel daraus ist s (population RMS ), womit man gerne die Standardabweichung sch¨ atzt. Der Streuparameter s ist aber kein erwartungstreuer Sch¨ atzer f¨ ur σ. Auch die Stichprobenstreuung s (sample RMS ) ist kein erwartungstreuer Sch¨atzer f¨ ur σ. Sowohl s als auch s sind dagegen asymptotisch erwartungstreu und konsistent. Die vorgestellten Sch¨ atzer x ¯ und s2 haben außer Erwartungstreue und Konsistenz eine weitere positive Eigenschaft: Sie sind robust, d. h., ihre Eigenschaften sind unabh¨angig von der zugrunde liegenden Verteilung. Oftmals findet man bessere (z. B. effizientere) Sch¨atzer f¨ ur eine bestimmte, vorab bekannte Verteilung. Ist man sich dagegen u ¨ber die genaue Verteilung nicht sicher, sollte man einen robusten Sch¨atzer verwenden, dessen Qualit¨aten jedenfalls innerhalb des m¨oglichen Spektrums von Verteilungen nicht (oder kaum) variieren.
4.1.2.2
Mittelwert bei Untergrundsubtraktion
H¨ aufig macht man Messungen (Stichproben) in einer Obermenge der Grundgesamtheit, d. h., man hat nicht bei allen Messungen das Objekt, das man messen m¨ ochte, tats¨achlich vorliegen, sondern ein Teil der Stichprobe ist Untergrund (z. B. Rauschen im allgemeinsten Sinn).
4.1. Stichprobenfunktionen
107
Die Messgr¨oße x ˜s = xs sei der Erwartungswert einer Messgr¨oße x in einer Ereignisklasse Signal , die nach fs (x) verteilt ist. Ist die Ereignisklasse Signal von anderen Ereignisklassen, zusammengefasst als Untergrund bezeichnet, nicht zu trennen, so kann man x ˜s durch zwei Messreihen bestimmen, wenn ein vollst¨andiges Ausschließen von Signalereignissen m¨oglich ist. Dies ist in der Praxis h¨ aufig der Fall, wenn es eine Variable gibt (discriminating variable), in der das Signal nur einen begrenzten Bereich einnimmt, typischerweise als Peak in der Verteilung. Untergrund sind dann Ereignisse außerhalb der Signalregion. ur Untergrundereignisse, die nach fu (x) Zun¨ achst bestimmt man x ˜u = xu f¨ verteilt sind, indem man das Stichprobenmittel aus M solchen Ereignissen bildet M 1 xj x ˆu = M j=1 Seine Varianz sch¨ atzt man mit 2 ˆ2u xj − M x s2u = xu ) = σ ˆ (ˆ M M (M − 1) 2
Danach misst man in der Signalregion, in der ein Bruchteil α±δα Untergrund vorhanden ist. Dort erh¨alt man aus N Ereignissen die Messreihe (xj )j=1...N mit N 1 xj x ˆ= N j=1 2 ˆ2 xj − N x s2 = x) = σ ˆ (ˆ N N (N − 1)
mit Varianz
2
die durch die Verteilung ˜ · fu (x) f (x) = (1 − α ˜ ) · fs (x) + α beschrieben wird. Dabei wird angenommen, dass fu universell ist, d. h., dass Untergrundereignisse im Signalbereich sich nicht von Untergrundereignissen außerhalb bez¨ uglich des Merkmals x unterscheiden. Diese Annahme sollte man in jeder Anwendung u ¨berpr¨ ufen. Damit ist x = (1 − α ˜ )xs + α ˜ xu Man erh¨alt also x ˆs =
α 1 ·x ˆ− ·x ˆu ± d 1−α 1−α
(4.19)
108
4. Statistische Inferenz
Den Fehler d kann man durch lineare Fehlerfortpflanzung absch¨atzen. Man findet 2 2 2 2 2 α x ˆ−x ˆu 1 s s + · · u + · δα2 (4.20) d2 = 1−α N 1−α M (1 − α)2 Beispiel 4.2. Beispiele findet man in der Teilchenphysik in H¨ ulle und F¨ ulle: Will man etwa die Eigenschaften einer Resonanz in der e+ e− -Produktion untersuchen, z. B. des J/ψ oder eines Υ -Mesons, so muss man die Eigenschaften des stets vorq subtrahieren. Wenn man die Schwerpunktshandenen Kontinuums aus e+ e− → q¯ energie nur wenig von der Resonanzmasse nach unten verschiebt, kann man das Kontinuum allein untersuchen. Auch andere Untergrundquellen wie e+ e− → τ + τ − oder Strahl-Wechselwirkungen mit dem Restgas im Vakuumrohr werden damit erfasst.
4.1.2.3
Effizienz von Mittelwerten
Jedes gewichtete Mittel xw =
w ·x i i wi
(4.21)
mit beliebigen, von den xi unabh¨ angigen Gewichten wi ist ebenfalls erwar= x, was sofort aus der Linearit¨at tungstreu und konsistent, d. h. mit xw des Erwartungswerts folgt, wi xi = wi x. Die Varianz ist 2 2 wi (xi − x)2 wi 2 σ 2 (x) σ 2 (xw ) = (4.22) = 2 2 σ (x) ≥ N ( wi ) ( wi ) Der Beweis Ungleichung folgt aus der verallgemeinerten Dreiecksunglei der 2 chung ( wi ) ≤ N wi2 . Diese folgt aus der einfachen Dreiecksungleichung 2ab ≤ a2 + b2 in wenigen Schritten:
2 wi
=
i
wi wj ≤
j
1 i
=
j
N i
2
2
(wi2 + wj2 )
wi2 +
N j
2
wj2 = N
wi2
Damit haben wir gezeigt, dass das einfache Mittel von allen gewichteten Mittelwerten am schnellsten gegen den wahren Wert konvergiert, da es die kleinste Varianz hat. Es hat die gr¨ oßte asymptotische Effizienz. Dies gilt aber nur unter der Voraussetzung, dass jede Einzelmessung die gleiche Genauigkeit hat, d. h., die Messfehler εi stammen aus der gleichen Verteilung.
4.1. Stichprobenfunktionen 4.1.3
109
Messreihen von Wertepaaren
Messreihe: (xi , yi )i=1...N
- , xy = N · xy [xy] = xi yi = , yj = N · xy + N (N − 1) · xy [x][y] = xi
(4.23) (4.24)
Daraus ergibt sich ein erwartungstreuer Sch¨ atzwert der Kovarianz xi y i − N · x ˆyˆ [xy] − [x][y]/N = cxy = N −1 N −1
(4.25)
mit cxy = C(x, y). Betrachtet man die Stichprobe selbst als Grundgesamtheit, so ist xi yi − N · x ˆyˆ (4.26) cxy = N die Kovarianz f¨ ur die Verteilung dieser endlichen Ereignismenge. Der Korrelationskoeffizient der Stichprobe, den fast jeder technisch-wissenschaftliche Taschenrechner berechnen kann, ist ρ=
cxy cxy = sx sy sx sy
(4.27)
Er ist ein Maß daf¨ ur, wie stark die Wertepaare korreliert sind. Sind die yi unabh¨ angig von den xi , sind die Erwartungswerte cxy = cxy = 0. Betrachten wir die Zufallsvariablen yi als Gewichte zu xi , so k¨onnen wir das gewichtete Mittel [xy] (4.28) x ¯y = [y] bilden. Aus [xy] = N xy = N xy + N C(x, y)
(4.29)
ergibt sich asymptotisch, wenn [y] ≈ N y ist, ¯ xy = x +
C(x, y) y
(4.30)
Sind die Gewichte mit den xi korreliert, so konvergiert der gewichtete Mittelwert x ¯y nicht gegen x. Nota bene: Hier ist eine feste Verteilung f (x, y) zugrunde gelegt. Wenn die xi und yi aus verschiedenen Verteilungen fi stammen, etwa Messungen mit verschiedenen Fehlern, a¨ndern sich die Eigenschaften des gewichteten Mittels, und die Aussage ist hinf¨allig.
110
4. Statistische Inferenz
4.1.3.1
Die Regressionsgerade
Die Regressionsgerade y = mx + c mit ρσy m= σx c = y − mx ist die Achse durch die Mittelpunkte aller vertikalen Sehnen der Kovarianzellipse (Abbildung 2.10) in der x, y-Ebene. Sie wird durch cxy N [xy] − [x][y] = s2x N [x2 ] − [x]2 [y] − m[x] ˆ [x2 ][y] − [x][xy] ˆ c = y¯ − m¯ ˆx = = N N [x2 ] − [x]2
m ˆ =
(4.31)
konsistent gesch¨atzt, aber i. Allg. nicht erwartungstreu. Lediglich ein Punkt auf dieser Geraden, die Ellipsenmitte (x, y), wird durch (¯ x, y¯) immer erwartungstreu gesch¨atzt. Die zweite Gerade durch die Mittelpunkte der horizontalen Sehnen der Kovarianzellipse in der x, y-Ebene wird analog durch Vertauschen x ↔ y gesch¨ atzt. Seit wissenschaftliche Taschenrechner in der Lage sind, lineare Regression durchzuf¨ uhren, werden Geraden-Fits gerne durch Regressionsgeraden ersetzt. Eine Regressionsanalyse ist jedoch etwas prinzipiell anderes als ein Fit. Die wichtigsten praktischen Unterschiede sind: •
Wertepaare, die man einer Regressionsanalyse unterzieht, haben i. Allg. Fehler, die wesentlich kleiner als ihre Streuung um die Regressionsgerade sind. Messwerte, an die man eine Gerade fittet, streuen dagegen nur im Rahmen des Messfehlers um die Fit-Gerade.
•
Zwischen den beiden Zufallsvariablen in der Regressionsanalyse besteht kein strenger Zusammenhang, sie sind lediglich korreliert. Die Regressionsgerade gibt einen mittleren linearen Zusammenhang zwischen den beiden Werten der Paare wieder. Die Wertepaare f¨ ur einen Geraden-Fit sind durch einen exakten linearen Zusammenhang verkn¨ upft – wenigstens ist das die Hypothese dessen, der einen Geraden-Fit macht. Die Fit-Gerade ist eine Sch¨ atzung der Geraden, die den exakten Zusammenhang zwischen Paaren von Messwerten wiedergibt.
•
Ein Qualit¨atsmerkmal der Regressionsgerade ist der Korrelationskoeffizient ρ: Ist sein Betrag 1, besteht ein exakter linearer Zusammenhang zwischen den Wertepaaren (alle Punkte liegen auf einer Geraden), ist sein Betrag deutlich kleiner, besteht nur eine geringe Korrelation zwischen den Werten eines Paares. Eine perfekte Gerade mit Steigung 0 hat folgerichtig ρ = 0, die Werte sind unkorreliert.
4.1. Stichprobenfunktionen
111
Ein Qualit¨atsmerkmal des Geraden-Fits ist das χ2 : Ist es wesentlich gr¨oßer als die Zahl der Freiheitsgrade (N − 2), ist die Hypothese falsch, dass zwischen den Wertepaaren ein linearer Zusammenhang besteht. Die Streuung der y-Werte um die Regressionsgerade yˆ = mx ˆ +ˆ c kann f¨ ur N > 2 mithilfe von . (yi − yˆi )2 1 [x][y] [y]2 = [y 2 ] − −m ˆ [xy] − (4.32) s2 = N −2 N −2 N N gesch¨atzt werden. Beispiel 4.3. Beispiel f¨ ur den Geraden-Fit: Ein elektrischer Widerstand soll durch Messen von Stromst¨ arken und Spannungen bestimmt werden. Beispiel 4.4. Beispiel f¨ ur eine lineare Regression: Der Zusammenhang zwischen K¨ orpergr¨ oße und K¨ orpergewicht soll untersucht werden. Beispiel 4.5. Beispiel f¨ ur eine lineare Regression in der Astrophysik: Der Zusammenhang zwischen Rotationsgeschwindigkeit und absoluter Helligkeit bei Spiralgalaxien kann durch eine Regressionsgerade beschrieben werden (Tully-FisherRelation).
F¨ ur das Problem der linearen Regression, also einen Datensatz mit unbekannter, aber konstanter Varianz σy2 , kann man zeigen, dass die Regressionsgerade die erwartungstreue Sch¨ atzung mit der kleinsten Varianz der Parameter m, ˆ ˆ c ist (Gauß-Markow-Theorem).
4.1.4
Histogramme: Sch¨ atzung aus Multinomialverteilungen
Beispiel 4.6. Die tats¨ achlichen Wahrscheinlichkeiten f¨ ur die Augenzahlen eines urfel realen W¨ urfels k¨ onnen etwas vom idealen 16 abweichen – bei einem gezinkten W¨ sogar erheblich. Eine Stichprobe soll Aufschluss dar¨ uber geben. Eine Stichprobe vom Umfang 50 ist Reihe (b) aus Beispiel 1.2, die im Histogramm in Abbildung 3.1 dargestellt ist. Die n1 . . . n6 sind multinomialverteilt mit Parametern p1 , p2 , p3 , p4 , p5 (die sechste Wahrscheinlichkeit ist dann p6 = 1 − p1 − p2 − p3 − p4 − p5 ) P (n1 , n2 , n3 ,n4 , n5 , n6 |p1 , p2 , p3 , p4 , p5 ; 50) 50! p n 1 p n 2 p n3 p n 4 p n 5 p n 6 = n 1 ! n2 ! n3 ! n4 ! n5 ! n6 ! 1 2 3 4 5 6 Eine erwartungstreue Sch¨ atzfunktion f¨ ur pi ist wegen (3.24) die relative H¨ aufigkeit ˆ pi = hi = ni /N . Die Standardabweichung von hi ist nach (3.25)
& σ(hi ) =
pi (1 − pi ) N
112
4. Statistische Inferenz
Wenn wir unseren Sch¨ atzwert ˆ pi f¨ ur pi einsetzen, erhalten wir aus Abbildung 3.1 ¨ durch Andern der Ordinate und Hinzuf¨ ugen der Messfehler
&
&
ˆ pi (1 − ˆ pi ) n ˆ 1 n ˆi 1 − i = N N N das Histogramm 4.2, das die Sch¨ atzung der Parameter p1 , . . . , p6 zeigt. σ ˆ(hi ) =
(4.33)
h(x) 0.20 Abb. 4.2 H¨ aufigkeitsverteilung der Resultate aus 50 W¨ urfen mit dem Spielw¨ urfel – Reihe (b) aus Beispiel 1.2 – als Sch¨ atzung der WahrDie scheinlichkeiten p1 , . . . , p6 . Erwartungswerte f¨ ur einen idealen W¨ urfel sind als d¨ unne Linie eingezeichnet.
0.10
1
2
3
4
x
5
6
Stichproben mit abz¨ahlbaren Zufallsvariablen kann man als Histogramm wie in Abbildung 4.2 darstellen. Dabei tr¨agt man die absoluten oder relativen H¨aufigkeiten u ¨ber der Zufallsvariablen x auf. Die Sch¨atzung pˆi = hi =
ni N
(4.34)
ist erwartungstreu und konsistent. Sie erf¨ ullt ˆ pi = pi (3.24). Ihre Varianz ist nach (3.25) pi (1 − pi ) (4.35) N und geht gegen 0 f¨ ur N → ∞. Ersetzen von pi durch pˆi in (4.33) liefert jedoch keine erwartungstreue Sch¨ atzung von σ 2 . Man findet sie aus folgenden Rechenschritten: σ 2 (hi ) =
n2i = σ 2 (ni ) + ni 2 = N pi − N p2i + N 2 p2i ni (N − ni ) = ni N − n2i = (N 2 − N )(pi − p2i ) = N (N − 1)pi (1 − pi ) ! ni (N − ni ) = pi (1 − pi ) N (N − 1) ! ni (N − ni ) pi (1 − pi ) 2 = σ (hi ) = N N 2 (N − 1) 1 = hi (1 − hi ) N −1
4.1. Stichprobenfunktionen
113
Damit ist eine erwartungstreue Sch¨ atzung der Varianz /2 (hi ) = hi (1 − hi ) σ N −1 n /2 (ni ) = i (N − ni ) σ N −1
(4.36)
Dies liefert eine asymptotisch erwartungstreue Sch¨ atzung der Standardabweichung & √ & ni N − ni hi (1 − hi ) σ ˆ(hi ) = = (4.37) N −1 N N −1 Die Fehlerbalken in Abbildung 4.2 geben diese Sch¨ atzung einer Standardabweichung wieder. Die Kovarianz ist nach (3.41) C(ni , nj ) = −ni nj /N . Analog zur Varianz sch¨atzt man die Kovarianz (i = j) erwartungstreu ˆ i , hj ) = − hi hj C(h N −1 ˆ i , nj ) = − ni nj C(n N −1
(4.38)
Dies beweist man ¨ahnlich wie bei der Varianz leicht aus ni nj = N 2 pi pj + Cij = N (N − 1)pi pj ! ni nj Cij = −N pi pj = − N −1 F¨ ur diskrete Werte ist die Einteilung des Histogramms durch die erlaubten Resultate vorgegeben. Um aus Stichproben-Histogrammen die Verteilung erkennen zu k¨onnen, muss allerdings der Stichprobenumfang wesentlich gr¨oßer sein als die Zahl der interessanten Bins, das ist bei diskreten Resultaten in etwa die Anzahl der 95 % h¨aufigsten Werte. Ist dies nicht der Fall, kann man Gruppen zusammenfassen. Man nennt eine Gruppe von diskreten Zufallsvariablen eine Klasse und die Anzahl in einer Klasse die Klassenbreite. Beispiel 4.7. Abbildung 4.3 zeigt zwei empirische Verteilungen von Impulszahlen eines Geiger-M¨ uller-Z¨ ahlrohrs mit Stichprobenumfang N = 100 im Vergleich mit einer Poisson-Verteilung bei niedrigen bzw. einer Gauß-Verteilung bei hohen Impulszahlen √ (Klassenbreite 3). Die Fehlerbalken der absoluten H¨ aufigkeiten H sind atzt. Dies ist fast immer eine hinreichend gute N¨ aherung an jeweils als H gesch¨ ' √ N −H die Multinomialfehler H · N −1 .
114
4. Statistische Inferenz
40
a)
H(n) •
30
20 • 15
20 • 10
•
10
•
5
• • 0
5
Abb. 4.3
4.1.4.1
b)
H(n) 25
• • •
•
........... ... ..... .. .. . ... •.... • •.... ... ... .. ... .. ... . ..• ... ... .. ... .. ... .. ... .. • ... ... ... . . . .. • . •....... ... .... . . . . . •..........• . . . . ................. ...........• ....• •
80 100 120 n n H¨ aufigkeitsverteilung der Impulszahlen eines Geiger-M¨ uller-Z¨ ahlrohrs (a) bei niedriger Rate im Vergleich mit der Poisson-Verteilung zum gefundenen Mittelwert n ¯ = 2.23 und (b) bei h¨ oherer Rate: Die Darstellung mit Klassenbreite 3 wird verglichen mit√der Gau߯ = 9.92. Verteilung zum gefundenen Mittelwert n ¯ = 98.4, σ = n Beide Stichproben haben einen Umfang N = 100.
Dichten
Verteilungsdichten von Messreihen einer kontinuierlichen Zufallszahl x stellt man ebenfalls in einem Histogramm dar. Dazu teilt man den Wertebereich [a, b] in k i. Allg. gleich große Abschnitte oder Bins [ai , bi ] mit den Grenzen i ahlt, wie h¨ aufig der ai = a + i−1 k (b − a) und bi = ai+1 = a + k (b − a) und z¨ gefundene Wert im betreffenden Bin liegt. Man erh¨alt so k multinomialverteilte Anzahlen n1 . . . nk . Dadurch hat man eine diskrete Verteilung erzeugt: b Die Wahrscheinlichkeiten, im Bin i zu landen, sind pi = aii f (x) dx. Die Gesamtzahl der Eintr¨age ist der Stichprobenumfang N . Die Anzahl ni in Bin i hat den Erwartungswert μi = ni = N pi = N
bi f (x) dx
(4.39)
ai
H¨aufig ist die Dichtefunktion innerhalb eines Bins hinreichend linear, sodass i zur Berechnung von man den Funktionswert in der Binmitte xi = ai +b 2 μi ≈ N f (xi )Δx verwenden kann. Dabei ist Δx = bi − ai die Binbreite. Ein erwartungstreuer Sch¨ atzwert f¨ ur μi ist ni mit der Standardabweichung & μi (4.40) σi = μi 1 − N
4.1. Stichprobenfunktionen
n 40
115
n
30 5 20 10
1996 Abb. 4.4
1998
2000
2002 x [mm]
1996
1998
2000
2002 x [mm]
H¨ aufigkeitsverteilung der Resultate aus N = 200 Messungen einer L¨ ange x, aufgetragen mit Binbreiten von 0.2 mm und 0.02 mm.
Abbildung 4.4 zeigt das Resultat von 200 Messungen einer L¨ange x mit zwei verschiedenen Binbreiten. Die Breite, die man in der Praxis w¨ ahlt, sollte dem Zweck angepasst sein: Eine kleine Binbreite enth¨alt zwar mehr Information u ¨ber die Verteilung der Stichprobe, zeigt aber wegen der großen Fluktuationen weniger u ¨ber das Gesamtverhalten der Verteilung der Grundgesamtheit.
1 dn N dx 1 mm
1 dn N dx 1 mm
1.0
1.0
0.5
0.5
1996 Abb. 4.5
1998
2000
2002 x [mm]
1996
1998
2000
2002 x [mm]
Eine Sch¨ atzung der Dichtefunktion aus den H¨ aufigkeitsverteilungen in Abbildung 4.4. Eine Dichte erh¨ alt man, indem man die Bininhalte ni ni durch Δx · N dividiert. N ist der Stichprobenumfang, N = einschließlich außerhalb des Darstellungsbereichs liegender Daten.
Will man das Histogramm mit einer Dichte vergleichen, muss man die absoatzwerte f¨ ur die Dichte umrechnen. Man erh¨alt luten H¨ aufigkeiten ni in Sch¨ als N¨ aherung der Dichtefunktion eine Treppenfunktion. Dazu tr¨agt man die
116 Dichte
4. Statistische Inferenz
1 ni 1 dn = fˆ(x) = N dx N bi − a i
(4.41)
in Bin i auf; bi − ai ist die Binbreite. Die Bins k¨ onnen bei dieser Auftragung unterschiedliche Breiten haben. Eine solche Auftragung zeigt Abbildung 4.5. Die Ordinaten beider Histogramme sind jetzt gleich, unabh¨angig von der Binbreite. Sie sind die Ordinate der Dichte f (x), wie sie in Abbildung 4.6d gezeigt ist. Da die wirkliche Dichte i. Allg. keine Treppe, sondern eine stetige Funktion ist, tr¨agt man den Funktionswert (4.41) besser als Punkt in der Binmitte auf. Da man i. Allg. f nicht kennt, muss man die Standardabweichung sch¨atzen. Das einfachste Verfahren ist, μ ˆi = ni einzusetzen und die Poisson-Approximation zu verwenden: √ (4.42) σ(ni ) ≈ ni Eine erwartungstreue Sch¨ atzung der Multinomial-Varianz f¨ uhrt auf den besseren Sch¨atzwert (4.36). Die Eintr¨ age sind korreliert mit Kovarianz −
μi μj ni n j ≈− N N −1
(4.43)
F¨ ur eine große Zahl von Bins k 1 und großen Stichprobenumfang N k ist die Poisson-Approximation ausreichend. Sie ist konsistent. Sie ist korrekt, wenn die Gesamtzahl N ebenfalls ein Sch¨atzwert f¨ ur eine mittlere Anzahl Ereignisse ist. Dass dabei alle Kovarianzen ∼ 1/N verschwinden, vereinfacht die Beurteilung erheblich, weshalb man in der Praxis f¨ ur das Problem der Dichtesch¨atzung gern die Poisson-Approximation verwendet. Eine weitere Rechtfertigung der Poisson-Approximation ist darin zu sehen, dass die Abweichung zwischen dem Fehler aufgrund des wahren Erwartungswerts und dem gesch¨atzten Fehler meist gr¨oßer ist als die Abweichung zwischen Poisson-Approximation und Binomialfehler. Beispiel 4.8. In Abbildung 4.6 werden die M¨ oglichkeiten (4.36) und (4.42) gegen¨ ubergestellt. Obwohl nur 11 Bins Eintr¨ age haben, ist der Unterschied schon recht gering. Insbesondere ist er geringer als der zur wahren Standardabweichung, die aus der Verteilung der Grundgesamtheit berechnet wurde und in Abbildung 4.6c dargestellt ist.
Ein Problem beider Methoden zur Sch¨atzung des Fehlers sind Bins mit ni = 0 Eintr¨agen. Hier ist Vorsicht geboten. Der Fehler auf ni ist wahrscheinlich kleiner als 1, aber fast immer gr¨ oßer als 0. Die leeren Bins unmittelbar rechts und links des Verteilung in Abbildung 4.6c zeigen die wahren Standardabweichungen als Fehlerbalken nach oben.
4.1. Stichprobenfunktionen 1 dn N dx 1 mm 1.0
a)
0.5
b)
0.5
1996
1998
2000
2002 x [mm]
1 dn N dx 1 mm 1.0
1996
1998
2000
2002 x [mm]
c)
d) f(x) 1.0
0.5
0.5
1996 Abb. 4.6
4.1.5
1 dn N dx 1 mm 1.0
117
1998
2000
2002 x [mm]
.. .. .. .. ... ... .... . . .. .. .. ... ... .... . . .. .... .. ... ... ... . ... .. ... ... .. ... .. ... .. ... . ... ... ... .. . .... . . . . ..................................... ......................................................
1996
1998
2000
2002 x [mm]
Die Dichte aus der H¨ aufigkeitsverteilung in Abbildung 4.4 mit Fehlerbalken nach (4.37) der Multinomialverteilung (a) bzw. nach der Poisson-Approximation (b). Abbildung (c) zeigt die wahren“ Feh” lerbalken, die aus der zugrunde liegenden Gauß-Verteilung (d) als Standardabweichung der Binomialverteilung der ni nach (4.40) errechnet wurden. Das ist in der Praxis aber erst dann m¨ oglich, wenn man die Verteilung der Grundgesamtheit (z. B. durch eine Kurvenanpassung an das Histogramm) ermittelt hat.
Sch¨ atzung aus Poisson-Verteilungen
Sch¨atzungen aus poissonverteilten Grundgesamtheiten sind Ereignisanzahlen n, mit n = μ. Die gefundene Zahl n ist ein erwartungstreuer Sch¨ atzer f¨ ur μ. Da die Varianz ebenfalls σ 2 (n) = μ ist, ist n auch ein erwartungstreuer Sch¨atzer f¨ ur σ 2 . Histogramme, bei denen nur die relative Verteilung bei vorgegebenem Stichprobenumfang N interessiert, haben multinomialverteilte Bininhalte mit
118
4. Statistische Inferenz
' i Standardabweichung μi (1 − pi ) ≈ ni NN−n −1 . Ist auch die Gesamtzahl der Eintr¨age N eine Messung eines unbekannten Verteilungsmittels – etwa einer mittleren Anzahl bei vorgegebener Zeit – so sind die Bininhalte poissonver√ √ teilt mit Standardabweichung μi ≈ ni . Da N selbst nur ein Sch¨ atzwert einer unbekannten mittleren Zahl N ist, verschwindet die Abh¨ angigkeit. Es gilt zwar noch immer N=
N =
ni ,
aber nicht N=
ni
ni
wie bei einer multinomialverteilten Grundgesamtheit.
4.1.5.1
Gewichtete Daten
Will man statt der Anzahl ni eine Summe aus Gewichten wj messen, die jedem Ereignis in definierter Weise zugewiesen werden (Anwendungsbeispiele finden sich im Kapitel u ¨ber Monte-Carlo-Simulation), ist die Messgr¨oße Wi =
ni
wj
j=1
Die Varianz von Wi ergibt sich aus der Poisson-Varianz der gez¨ahlten Ereigatzt man σ ˆ2 (ni ) = 1 und damit σ ˆ2 (Wi ) = w12 σ ˆ2 (ni ) = nisse. F¨ ur ni = 1 sch¨ 2 ur beliebige Anzahlen ni erh¨alt man daraus w1 . F¨ σ ˆ2 (Wi ) =
ni
wj2
(4.44)
j=1
Wenn die Gewichte wj = w(xj ) in einem Histogramm u ¨ber x nur von x abh¨ angen, ist der Erwartungswert analog zu (4.39) Wi = N
bi w(x)f (x) dx
(4.45)
ai
Gewichte k¨ onnen verwendet werden, um mit einem Sample mit Verteilung f (x) die Eigenschaften einer Verteilung g(x) zu untersuchen: Dazu gewichtet man jedes Element im Sample mit w(x) =
g(x) f (x)
4.1. Stichprobenfunktionen
119
Allerdings sollte man beachten, dass sich durch Gewichte der Fehler drastisch vergr¨ oßern kann. Beispiel 4.9. Wir z¨ ahlen nA Ereignisse vom Typ A und nB vom Typ B mit unterschiedlichen Nachweiswahrscheinlichkeiten pA = 10−3 , pB = 0.5 und nA,B = angige Sch¨ atzung der Gesamtzahl N = NA + NB ist pA,B NA,B . Eine modellunabh¨ ˆ = nA + nB = 103 nA + 2nB N pA pB mit Fehler ˆ) = δ(N
106 nA + 4nB
Dies ist ein einfaches Beispiel f¨ ur den allgemeinen Fall, dass man Ereignisse mit dem Kehrwert der Nachweiswahrscheinlichkeit w(x) = 1/p(x) gewichtet, um die Gesamtzahl zu erhalten. Der Fehler wird dann von den Ereignissen mit großen Gewichten dominiert. Wenn wir vorab wissen, dass NA = NB = 12 N ist, ist im Mittel nA = pA 21 N und nB = pB 21 N . Dann ist der Fehler der modellunabh¨ angigen Sch¨ atzung ˆ) = σ(N
√ 1000 + 2
&
√ √ N = 501 N 2
ˆ ) ≈ 1001. F¨ ur N = 2000 erwarten wir nA = 1 und nB = 500, und σ(N Eine bessere Sch¨ atzung ist in diesem Fall ˆ 2 = 2 n A + nB = n A + nB N pA + pB 0.2505 mit Fehler ˆ2) = δ(N der der Standardabweichung ˆ2) = σ(N
√
√ 2 nA + nB pA + pB
& N
√ √ 2 = 3.992 N p A + pB
ˆ 2 ) ≈ 89. entspricht. In unserem Zahlenbeispiel ist das σ(N
Wenn alle Gewichte nahe bei 1 liegen, ist die Varianz (4.44) von Wi klein, und die Gewichtssummen verhalten sich a¨hnlich wie poissonverteilte ungewichtete Ereignisse. Treten dagegen sehr große Gewichte auf, wird der Fehler durch die Fluktuation der Gewichte dominiert, und relative Fehler σ(Wi ) 1 √ Wi ni sind sehr groß. Man kann damit eine effektive Ereigniszahl definieren: neff :=
[wi ]2 Wi2 = ≤ ni σ 2 (Wi ) [wi2 ]
(4.46)
120
4. Statistische Inferenz
4.1.5.2
Signal und Untergrund
Ein h¨aufiges Problem ist das von Signal und Untergrund, das uns bereits in Abschnitt 4.1.2.2 begegnet ist. Beispiel 4.10. Die Aktivit¨ at eines radioaktiven Pr¨ aparats soll ermittelt werden. Wir nehmen der Einfachheit halber an, das Pr¨ aparat befinde sich im Innern eines Z¨ ahlers mit 100 % Ansprechwahrscheinlichkeit, sodass wir die Zerfallsrate direkt messen. Eine Messung wird mit und ohne Pr¨ aparat jeweils eine Minute lang durchgef¨ uhrt. Die gemessenen Anzahlen sind a = 231 f¨ ur Signal + Untergrund und b = 22 f¨ ur die reine Untergrundmessung. Was ist der Wert und der Fehler auf die Aktivit¨ at?
0 = 3.48/ s. Die Fehler (Standardabweichungen) Der Wert ist 231−22 pro 60 s, also A auf a und b, die beide√aus einer √ poissonverteilten Grundgesamtheit stammen, angig, der Fehler werden gesch¨ atzt durch a√und b. Beide Messungen sind unabh¨ auf die Differenz ist daher a + b = 15.9, und damit A = (3.48 ± 0.27)/ s. Beispiel 4.11. Der Wirkungsquerschnitt f¨ ur e+ e− → D± X soll gemessen werden. + Dazu ben¨ otigt man die Anzahl von D - und D− -Mesonen in folgender Verteilung20 (Abbildung 4.7) der invarianten Kππ-Masse. 2000 N 5 MeV/c2 1500
1000
500 mD + ↓
Abb. 4.7 H¨ aufigkeitsverteilung der invarianten Masse aus drei Teilchen, K + π − π − oder K − π + π + , die in e+ e− -Vernichtung beobachtet wurden. Der Peak stammt von Zerf¨ allen D± → ∓ ± ± K π π . Die Ereigniszahlen aus den drei markierten, gleich breiten Bereichen sind 26807, 28729 und 20139.
1.70 1.75 1.80 1.85 1.90 1.95 2.00 m(K− π + π + ) GeV/c2 Der Anteil der D± -Mesonen kann durch eine Seitenbandsubtraktion ermittelt werden: Man extrapoliert den Untergrundanteil im rechten und linken Seitenband in den Signalbereich. Wegen der Linearit¨ at des Untergrundes ist der Extrapolationsfaktor gerade Δmsignal f= 2Δmsideband wenn man zwei gleich breite Seitenb¨ ander benutzt. Im Bild sind alle drei Bereiche gleich groß, also ist f = 0.5. Der erwartete Untergrund im Signalbereich ist somit 23473 ± 108. Die Anzahl tats¨ achlich beobachteter D-Mesonen betr¨ agt 5256 ± 20
ARGUS Collaboration, H. Albrecht et al., Z. Phys. C66, 63 (1995).
4.1. Stichprobenfunktionen
121
188. Diese Anzahl ben¨ otigt man, wenn man den Anteil resonanter Unterkan¨ ale alt√den Fehler auf den mittleren (wie K ∗0 π + ) bestimmen will. Der Fehler enth¨ Untergrund (108), und die Untergrundfluktuation 23473 = 153. Die mittlere Anzahl f¨ ur den Beobachtungszeitraum, die man zur Berechnung des Wirkungsquerschnitts ben¨ otigt, ist 5256 ±√201. Der Fehler enth¨ alt jetzt die Flukerh¨ alt tuation der Gesamtzahl im Signalbereich 28729 = 169. Denselben Fehler √ man, indem man zu 188 quadratisch die gesch¨ atzte Signalfluktuation 5256 = 72 addiert.
Der Fehler beim allgemeinen Signal-und-Untergrund-Problem kann stets in drei Komponenten zerlegt werden. Will man die tats¨ achliche Anzahl n von Signalereignissen in der Stichprobe bestimmen, tragen nur zwei davon bei: der Fehler auf den mittleren Untergrund und die Untergrundfluktuation im Signalbereich. Will man die mittlere Anzahl n von Signalereignissen in einer unter gleichen Randbedingungen genommenen Stichprobe bestimmen, tr¨ agt als dritter Fehler die Signalfluktuation bei. n
n Messung A (Signal+Untergrund): Messung B (Untergrund): . . . extrapoliert (·f ) auf A: Sch¨atzung Signal:
a
a±
b
b±
f b + f 2b (a − f b) ± f b + f 2 b fb ±
√ √
a b
√ fb ± f b (a − f b) ± a + f 2 b (4.47)
Dabei ist a + f 2 b = (a − f b) + f b + f 2 b die√Summe aus der Fluktuation des wahren Signals um das mittlere Signal ( a − f b), √ der Fluktuation des wahren Untergrundes um den mittleren Untergrund ( f b) und der Un√ sicherheit im mittleren Untergrund (f b). Soll ein Signal-Mittelwert wie in Abschnitt 4.1.2.2 ermittelt werden, ist der Untergrundanteil f b + f 2b fb ± (4.48) α ˆ= a a Der Stichprobenumfang a ist dabei ein bekannter Wert ohne Fehler.
4.1.6
Sch¨ atzung aus Binomialverteilungen
Akzeptanzen und Effizienzen von Messapparaturen oder Selektionsverfahren sind Wahrscheinlichkeiten. Diese werden durch binomialverteilte Daten gemessen. Eine Messung aus einer vorgegebenen Gesamtzahl N ergibt dann
122
4. Statistische Inferenz
einen Bruchteil von n akzeptierten Ereignissen mit der unbekannten Wahrscheinlichkeit p. Der Sch¨atzer n pˆ = (4.49) N entspricht (4.34) und ist erwartungstreu. Die Varianz ist nach (3.25) p) = σ 2 (ˆ und wird durch sp = 2
p(1 − p) N
(4.50)
n n n(N − n) = 1− 2 N N N3
konsistent gesch¨atzt. Aus dem Erwartungswert von sp sp = 2
(4.51) 2
n n2 (N − 1)p(1 − p) − 3 = 2 N N N2
kann man den erwartungstreuen Sch¨ atzer n n s2p = 1− N (N − 1) N
(4.52)
wie in (4.36) konstruieren. Allerdings ergibt ein Wert n = 0 oder n = N f¨ ur beide Sch¨ atzer einen Wert von 0, der die wahre Varianz untersch¨atzt, weil i. A. n = n ist. Hier hilft in Ermangelung weiterer Informationen nur eine konservative Sch¨atzung, bei der man die Varianz f¨ ur n = 1 oder n = N − 1 berechnet.
4.1.6.1
Gewichtete Daten
Um eine Wahrscheinlichkeit aus gewichteten Daten zu messen, betrachten wir zun¨ achst nochmals die ungewichtete Binomialverteilung. Wir k¨onnen das Resultat (4.51) auch erhalten, wenn wir von zwei unabh¨angigen Anzahlen n1 und n2 mit n1 + n2 = N ausgehen, die poissonverteilt sind mit /2 = n , σ 1 1
/2 = n , σ 2 2
und dann die lineare Fortpflanzung der Varianzen nach (2.87) auf pˆ = anwenden: /2 = σ p
∂ pˆ ∂n1
2
/2 + σ 1
n1 n1 + n2
∂ pˆ ∂n2
2
/2 = σ 2
n1 n 2 (n1 + n2 )3
(4.53)
4.1. Stichprobenfunktionen
123
mit dem gleichen Resultat wie in (4.51) mit der Substitution n → n1 , N → n1 + n 2 . Diese Berechnung kann man leicht f¨ ur gewichtete Daten verallgemeinern: n1 → W1 =
n1
wi ,
n2 → W2 =
i=1
n 1 +n2
wi =
i=n1 +1
N
w i − W1
i=1
Dabei wird eine Sortierung der gez¨ahlten Ereignisse angenommen, sodass die ersten n1 die mit Wahrscheinlichkeit p akzeptierten Ereignisse und die nachfolgenden die n2 nicht akzeptierten sind. Die Varianzen von W1 und W2 werden wie in (4.44) durch 2 1 2 σ ˆW 1 = σW 1 =
n1
wi2 ,
2 1 2 σ ˆW 2 = σW 2 =
i=1
n 1 +n2 i=n1 +1
wi2 =
N
2 wi2 − σ1 W1
i=1
gesch¨atzt. Wir sch¨atzen p durch W1 W1 + W2 und verwenden die Fortpflanzung der Varianzen wie in (4.53), um 2 2 2 2 2 ∂ pˆ ∂ pˆ ˆW ˆW 1 W12 σ 2 2 2 2 + W2 σ σ ˆW 1 + σ ˆW σ ˆW p = 2 = ∂W1 ∂W2 (W1 + W2 )4 pˆ =
(4.54)
(4.55)
zu erhalten. Man sieht leicht, dass dieser Ausdruck gegen (4.53) bzw. (4.51) konvergiert, wenn alle Gewichte gleich sind, also wi ≡ w, W1 = wn1 , W2 = 2 2 2 2 ˆW ˆW wn2 , σ 1 = w n1 und σ 2 = w n2 .
4.1.7
Die empirische Verteilungsfunktion
Die empirische Verteilungsfunktion einer Messreihe (xi )i=1...N ist #(xi < x) (4.56) N Sie ist eine Stufenfunktion, die an den Stellen x1 ≤ x2 ≤ x3 ≤ . . . ≤ xN jedes Mal um 1/N zunimmt und dazwischen konstant ist (vgl. Abbildung 4.8). F¨ ur N → ∞ konvergiert sie stochastisch gegen die wahre Verteilungsfunktion F (x). S(x) =
Man kann aus ihr den Median x50 % und andere Quantile ablesen, das λQuantil bei S(ˆ xλ ) = λ. Ein Stichprobenquantil x ˆλ sch¨atzt das Verteilungsquantil einer an der Stelle xλ stetigen Dichtefunktion f mit 1 σ(ˆ xλ ) = f (xλ )
&
λ(1 − λ) N
(4.57)
124
4. Statistische Inferenz
1.0
S(x)
0.5
1999
2000
2001
2000
2001
x [mm]
2002
99 % 98 % 95 % 90 % 80 % 70 % 60 % 50 % 40 % 30 % 20 % 10 % 5% 2% 1% 1999 Abb. 4.8
x [mm]
2002
Empirische Verteilungsfunktion (Summenh¨ aufigkeit) S(x) zur Messreihe in Abbildung 4.4. Sie approximiert die Verteilungsfunktion F (x). Die untere Darstellung auf Wahrscheinlichkeitspapier ist in guter N¨ aherung linear, was f¨ ur eine Gauß-Verteilung spricht.
4.1. Stichprobenfunktionen wegen δx = teilung.
dx dF δF
= δF/f und δF =
125
λ(1 − λ)/N nach der Binomialver-
Der Stichprobenmedian ist ein Sch¨ atzer f¨ ur den Mittelwert einer symmetrischen Verteilung. Er ist wegen der Symmetrie erwartungstreu und f¨ ur stetige Dichten f asymptotisch (f¨ ur N → ∞) gaußverteilt mit Standardabweichung 1 √ (4.58) σ(ˆ x50 % ) = 2f (x50 % ) N Beispiel 4.12. F¨ ur um μ gaußverteilte Grundgesamtheiten mit√Dichte G(x|μ, σ) sch¨ atzt der Median μ erwartungstreu mit σ(ˆ x50 % ) = σ π/2/ N . Dagegen ist √ σ(¯ x) = σ/ N kleiner, das Stichprobenmittel ist also effizienter als der Median. Beispiel 4.13. F¨ ur eine Grundgesamtheit mit Wertebereich R und Dichte f (x) =
1 −|x−μ| e 2
(4.59)
(zweiseitige Exponentialverteilung) sch¨ ∞(effizienter) als das √ atzt der Median μ besser Stichprobenmittel, da σ(ˆ x50 % ) = 1/ N . Die Varianz ist 2 12 0 t2 e−t dt = Γ(3) = √ √ √ oßer als σ(ˆ x50 % ). 2, also ist σ(¯ x) = σ(x)/ N = 2/ N wesentlich gr¨ Beispiel 4.14. Zur Sch¨ atzung des Mittelwerts einer Breit-Wigner-Verteilung f (x) =
Γ 1 2π (x − μ)2 + (Γ/2)2
liefert der Median den effizientesten Sch¨ atzer. Da f¨ ur diese Verteilung σ = ∞ ist, hat auch das arithmetische Mittel unendliche Varianz und konvergiert nicht21 . Die Standardabweichung des Median ist dagegen nach (4.58) σ(x50 % ) =
πΓ 1 √ = √ Γ 4 4 N 2 2π N 2 Γ
und ist damit ein konsistenter Sch¨ atzer. Beispiel 4.15. Zur Sch¨ atzung des Mittelwerts einer Gleichverteilung
f (x) =
1 2d
0
|x − μ| < d sonst
(4.60)
ist ψ3 , die Mitte des Wertebereichs der Stichprobe, der effizienteste Sch¨ atzer: μ ˆ = ψ3 = 21
max xi + min xi 2
(4.61)
Das gilt allerdings nur f¨ ur die mathematische Verteilung; die physikalische wird nur im Zentralbereich durch diese Dichte beschrieben und ist nach oben und unten begrenzt.
126
4. Statistische Inferenz
Zum Vergleich betrachten wir zwei andere erwartungstreue Sch¨ atzer und setzen zur 1 x) = 12N . Vereinfachung 2d = 1. Die Varianz des arithmetischen Mittels ist σ 2 (¯ Der Median hat nach (4.58) die Varianz σ 2 (x50 % ) = effizienter Sch¨ atzer.
1 4N
, ist also ein weniger
Die Varianz der Mitte des Wertebereichs aus Aufgabe 2.9 ist σ 2 (ˆ μ) =
σ 2 (xu ) + σ 2 (xo ) + 2C(xu , xo ) 1 = 4 2(N + 2)(N + 1)
und geht asymptotisch mit 1/N 2 gegen 0.
4.1.8
Sch¨ atzung aus Gauß-Verteilungen
In Beispiel 4.12 hatten wir gesehen, dass das Stichprobenmittel ein effizienter, konsistenter und erwartungstreuer Sch¨ atzwert f¨ ur das Verteilungsmittel μ einer Gauß-Verteilung ist. Wegen der Abgeschlossenheit der Familie der Gauß-Verteilungen bez¨ uglich der Faltung (2.137) ist das Stichprobenmittel √ gaußverteilt mit Mittelwert μ und Standardabweichung σ/ N . Damit ist χ=
x ¯−μ √ σ/ N
(4.62)
standardnormalverteilt. Ein erwartungstreuer, konsistenter Sch¨ atzwert f¨ ur σ 2 ist s2 nach (4.17). Die Varianz von s2 ist nach (4.18)
σ2 (s2 ) =
2σ 4 N −1
(4.63)
Das entspricht einem relativen Fehler
σ(s2 ) σ2
& =
2 , N −1
σ(s) σ
( ≈
1 2(N − 1)
(4.64)
Der Beweis ergibt sich auch aus der folgenden Betrachtung. Die Summe χ2 =
N (xi − μ)2 i=1
σ2
ist chiquadratverteilt mit N Freiheitsgraden. Durch Umschreiben erh¨alt man χ2 =
1 2 2 − 2μ x + N μ x i i σ2
4.1. Stichprobenfunktionen
1 = 2 σ
x2i
127
. 2 N 1 1 2 + 2 xi xi − μ − N σ N
s 1 2 (¯ x − μ) N+ 2 σ2 σ /N s2 1 2 (¯ x − μ) = 2 (N − 1) + 2 σ σ /N 2
=
(4.65)
Da χ nach (4.62) standardnormalverteilt ist, ist der zweite Summand chiquadratverteilt mit einem Freiheitsgrad. Das bedeutet, der erste Summand
(N − 1)s2 N s = ist chiquadratverteilt mit (N − 1) Freiheitsgraden. 2 σ σ2 (4.66) 2
Dies setzt allerdings voraus, dass beide Summanden unabh¨ angig sind, was nicht offensichtlich ist. Ein strengerer Beweis nutzt die Transformation 1 y1 = √ (x1 − x2 ) 2 1 y2 = √ (x1 + x2 − 2x3 ) 2·3 1 y3 = √ (x1 + x2 + x3 − 3x4 ) 3·4 ··· 1 yN −1 = (x1 + · · · + xN −1 − (N − 1)xN ) (N − 1) · N 1 yN = √ (x1 + · · · + xN −1 + xN ) N Die yi sind im Vektorraum mit Basis x1 , . . . , xN paarweise orthogonale Einheitsvektoren ⎞ 1 ⎜ −1 ⎟ ⎟ ⎜ ⎜ 0 ⎟ ⎟ ⎜ 1 0 ⎟, y1 = √ ⎜ ⎜ 2⎜ 0 ⎟ ⎟ ⎜ . ⎟ ⎝ .. ⎠ ⎛
0
⎞ 1 ⎜ 1 ⎟ ⎟ ⎜ ⎜ −2 ⎟ ⎟ ⎜ 1 0 ⎟, y2 = √ ⎜ ⎜ 6⎜ 0 ⎟ ⎟ ⎜ . ⎟ ⎝ .. ⎠ ⎛
0
⎞ 1 ⎜ 1 ⎟ ⎟ ⎜ ⎜ 1 ⎟ ⎟ ⎜ 1 −3 ⎟ , . . . y3 = √ ⎜ ⎜ 12 ⎜ 0 ⎟ ⎟ ⎜ . ⎟ ⎝ .. ⎠ ⎛
0
4. Statistische Inferenz
128
. . . yN
⎛ ⎞ 1 ⎜1⎟ ⎜ ⎟ ⎜1⎟ ⎟ 1 ⎜ 1⎟ =√ ⎜ ⎜ N ⎜1⎟ ⎟ ⎜.⎟ ⎝ .. ⎠
1 2 2 also ist xi = yi . Die Kovarianzellipsoide in diesem Vektorraum sind Kugeln (Hypersph¨ aren), da alle xi die gleiche Varianz haben und unabh¨angig sind. Dann sind aber auch alle yi unabh¨ √ angig, und ihre Varianzen sind σ2 (yi ) = y 2i σ 2 = σ2 . Außerdem ist yN = N x¯. Dann ist N 2 N 2 N −1 2 2 x − Nx ¯2 y − yN yi s2 (N − 1) 2 = i=1 i2 = i=1 i2 = (4.67) 2 σ σ σ σ i=1 eine Summe aus (N − 1) unabh¨angigen, standardnormalverteilten Zufallsvariablen, also chiquadratverteilt mit (N − 1) Freiheitsgraden. Die Summe
(xi − x ¯ )2
σ2 verh¨ alt sich also wie eine Summe aus N −1 standardnormalverteilten Zufallsvariablen. Einen Freiheitsgrad hat man dadurch verloren, dass man statt des wahren Mittelwerts x ˜ einen an die Stichprobe angepassten x ¯ verwendet. Man kann auch argumentieren, dass ein Wert, z. B. N −1 xN = N x ¯− xi i=1
von den u ¨brigen linear abh¨angig ist. Aus (4.66) und σ2 (χ2 ) = 2(N −1) erh¨alt man (4.63): =
4
σ2 (s2 ) =
σ4 (N −1)2
σ2 (χ2 )
2σ N −1 .
¯| direkt Es ist unmittelbar einsichtig, dass s, s oder etwa N1 |xi − x proportional zu σ sind. Wenn man die Erwartungswerte berechnet, kann man daraus erwartungstreue Sch¨ atzwerte f¨ ur die Standardabweichung σ einer Gauß-Verteilung gewinnen: Γ( N −1 ) (4.68) σ ˆ1 = √ 2 N s 2Γ( 2 ) und ( N Nπ 1 |xi − x ¯| (4.69) σ ˆ2 = 2(N − 1) N i=1 Es gibt i. Allg. – wie hier – viele erwartungstreue Sch¨ atzer f¨ ur denselben Parameter.
4.1. Stichprobenfunktionen 4.1.9
129
Die Studentsche t-Verteilung
Ist die Streuung σ nicht bekannt, sondern nur ihr Sch¨atzwert s, kann man statt χ die Gr¨ oße x ¯−μ t= √ s/ N betrachten. Das Verhalten dieser Zufallsvariablen hat William S. Gosset 1908 unter dem Pseudonym Student untersucht. Seien (χi )i=1...N standardnormalverteilt, so wird χi /N √ t= s/ N
mit 2
s =
χ2i − ( χi )2 /N N −1
f¨ ur N ≥ 2 beschrieben durch die Studentsche t-Verteilung mit n = (N − 1) Freiheitsgraden ( d. f.) fn (t) = √
Γ( n+1 1 2 ) n+1 nπ · Γ n2 1 + t2 2 n
Γ( N2 )
= (N − 1)π · Γ N 2−1 1 +
1 t2 N −1
N/2
(4.70)
Wertebereich W = R Verteilungsfunktion ⎧ 1·3···(N −4) t 11 1 √ ⎪ + . . . + 1 + N −3 ⎪ 2u 2·4···(N −3) ⎪ 2 (N −1) u u 2 ⎪ ⎪ ⎪ N ≥ 3, ungerade ⎪ ⎪ 1 ⎨ (4.71) Fn (t) = + 1 arctan √Nt−1 + 2 ⎪ ⎪ ⎪π 6 ⎪ ⎪ −4) 1 ⎪ + √Nt−1 u1 + 23 u12 + . . . + 2·4···(N ⎪ ⎪ 3·5···(N −3) N 2−2 ⎩ u N ≥ 4, gerade mit u = 1 +
t2 t2 =1+ N −1 n
Momente: t = 0, g = 0,
σ 2 (t) = e=
n N −1 = (N ≥ 4), N −3 n−2
6 (N ≥ 6), N −5
130
4. Statistische Inferenz
f(t)
........ .... .... .. ......................................................... .. ........ ......... .. ... ....... ....... ... ................ ................ .................... 0.30 . . ... ......... ... ......... ... .. ........... .. ........ ..................... .. ........ .. ....... . .. . .. ......... ..................... .. ........ . . . .. ......... . . . 0.20 .. ....... .............. ... .. ........ ................ .. ......... .. ....... ................. .. ........ .. ......... .. . .. ....... ........................ .... ........ ............ . ....... . 0.10 . . .......... . . . . . . . . ............ ...... . . . . . ........... .... . . . . .................... . . . . . . . . . ...... .. . .. . ..... ................................ .. . . .. . . .. ... ... .. . .. .. . .. .. .. .. .. . .. .. .. ...... .........................................................................n=1 .. .. .... ... ... ... ...... ... ... ... .......................................... ............ ...... ..... ........... .... ... ..... ... .... .......................................... ...... ......... ..... .... ... ...... .... ... ..... .... ..... ..... ...... ..... ..... . ......... ........... ................ ..................... ........ ....... ........ ........ ......... ............ .......... .......... .......... ......... .............. .......... .......... ........ .......... 0.40
−5
Abb. 4.9
0
5 t Dichten der Student-Verteilung f¨ ur n = 1 . . . 4 Freiheitsgrade im Vergleich mit der Gauß-Verteilung (n = ∞).
Die Momente der Ordnung k sind jeweils erst ab N ≥ k + 2 definiert. Die Verteilung ist symmetrisch um 0, alle ungeraden Momente sind also 0. Gerade Momente sind μ2k = (2k − 1)!!nk /[(n − 2)(n − 4) · · · (n − 2k)] mit n > 2k. Die Dichte kann mithilfe der Betafunktion (Anhang A) und der Substitution θ = arctan √tn kompakter geschrieben werden: fn (t) = √
1 cosn+1 θ, nB( n2 , 12 )
t θ = arctan √ n
Die Verteilungsfunktionen werden zu ⎧ 1·3···(n−3) 1 1 2 n−2 ⎪ sin θ 1 + cos θ + . . . + cos θ ⎪ 2 2 2·4···(n−2) ⎪ ⎪ ⎪ n ≥ 2, gerade 1 ⎨ Fn (t) = + 6 ⎪1 2 ⎪ 2·4···(n−3) 2 3 n−2 ⎪ θ + sin θ cos θ + cos θ + . . . + cos θ ⎪ 3 3·5···(n−2) ⎪ ⎩π n ≥ 3, ungerade Abbildung 4.9 zeigt die Dichten f¨ ur 1 bis 4 Freiheitsgrade im Vergleich mit der Gauß-Verteilung. ¯ unabh¨ angige ZufallsAus Gleichung (4.67) haben wir gesehen, dass s2 und x variable sind. Die Dichte der t-Verteilung mit n Freiheitsgraden kann man daher erhalten als Dichte der transformierten Variablen x t= y/n
4.1. Stichprobenfunktionen
131
Tabelle 4.2 Schranken f¨ ur |t| zur Student-Verteilung mit n Freiheitsgraden.
n 1 2 3 4 5 6 7 8 9 10 20 30 40 50 100
N P = 0.68269
P = 0.90
P = 0.95
P = 0.99
|t| < 1
2 |t| < 1.8373 |t| < 6.3138 |t| < 12.7062 |t| < 63.6567 P = 0.50000 3 1.3213 2.9200 4.3027 9.9248 0.57735 4 1.1969 2.3534 3.1824 5.8409 0.60900 5 1.1416 2.1318 2.7764 4.6041 0.62610 6 1.1105 2.0150 2.5706 4.0321 0.63678 7 1.0906 1.9432 2.4469 3.7074 0.64408 8 1.0767 1.8946 2.3646 3.4995 0.64938 9 1.0665 1.8595 2.3060 3.3554 0.65341 10 1.0587 1.8331 2.2622 3.2498 0.65656 11 1.0526 1.8125 2.2281 3.1693 0.65911 21 1.0256 1.7247 2.0860 2.8453 0.67074 31 1.0169 1.6973 2.0423 2.7500 0.67469 41 1.0127 1.6839 2.0211 2.7045 0.67668 51 1.0101 1.6759 2.0086 2.6778 0.67787 101 1.0050 1.6602 1.9840 2.6259 0.68028
∞ ∞
1.0000
1.6449
1.9600
2.5758
0.68269
mit standardnormalverteiltem x und chiquadratverteiltem y mit n Freiheitsgraden. Grenzf¨ alle: 1 1 · (4.72) π 1 + t2 1 1 (4.73) F1 (t) = + arctan t 2 π (4.74) eiwt = −e−|w| 1 −t2 /2 (4.75) n = ∞ : f∞ (t) = √ e 2π F¨ ur einen Freiheitsgrad, also N = 2, ist die Student-Verteilung identisch mit der Cauchy- oder Breit-Wigner-Verteilung, auch Lorentz-Funktion genannt, mit Varianz σ 2 (t) = ∞. Auch f¨ ur N = 3 ist die Varianz noch ∞. n=1:
f1 (t) =
F¨ ur n → ∞ geht die Student-Verteilung in die Standardnormalverteilung u ¨ber. Dies sieht man aus dem Grenzwert n/2 2 n 2 t2 → et 2(n−1) → et /2 1+ n−1 Tabelle 4.2 gibt Grenzen an, innerhalb derer |t| mit verschiedenen Wahrscheinlichkeiten liegt, d. h. L¨osungen der Gleichung P = P (|t| < tmax ) =
t max
fn (t) dt −tmax
(4.76)
132
4. Statistische Inferenz
4.1.9.1
Eigenschaften der Breit-Wigner-Verteilung
Die Halbwertsbreite der Cauchy-Verteilung (4.72) ist FWHM = 2. Die allgemeine Breit-Wigner-Verteilung (oder Lorentz-Verteilung) mit Halbwertsbreite Γ und Mittelwert μ ist f (x) =
Γ 1 2 2π (x − μ) + (Γ/2)2
(4.77)
Der Mittelwert μ folgt aus Symmetriebetrachtungen. Das Integral des Erwartungswertes konvergiert nicht, es ist jedoch f¨ ur alle ungeraden k μ+t
lim
t→∞
μ−t
(x − μ)k dx = 0 (x − μ)2 + (Γ/2)2
Ihre Varianz ist σ2 =
√ ∞ ∞ y (x − μ)2 Γ Γ dx = dy = ∞ 2 2 2π −∞ (x − μ) + (Γ/2) 2π y + (Γ/2)2 0
und damit nicht begrenzt. Das gilt auch f¨ ur alle anderen geraden Momente. Viele Gesetze der Wahrscheinlichkeitsrechnung, etwa der zentrale Grenzwertsatz, sind daher auf diese Verteilung nicht anwendbar. Ihre charakteristische Funktion ist eitx = eitμ e−Γ |t|/2 Die Faltung zweier Breit-Wigner-Verteilungen hat die charakteristische Funktion eitx = eit(μ1 +μ2 ) e−(Γ1 +Γ2 )|t|/2 und ist damit wieder eine Breit-Wigner-Verteilung mit Mittelwert μ = μ1 +μ2 und Breite Γ = Γ1 + Γ2 . Da die Standardabweichung σ = ∞ ist, muss man das Breitenmaß Γ nicht quadratisch addieren: Es ist nicht proportional zur Wurzel einer Varianz. Hier addieren sich die Breiten stattdessen linear! Die Faltung einer Breit-Wigner-Verteilung mit einer Gauß-Verteilung ergibt eine Voigt-Verteilung22 ∞ Γ −y2 /2σ2 1 1 e (x − y − μ)2 + Γ 2 /4 2π σ 2π −∞ x − μ + iΓ/2 1 √ Re w =√ 2π σ σ 2
V (x|μ, σ, Γ ) = √
22
Sie beschreibt das Profil einer dopplerverbreiterten Spektrallinie.
(4.78)
4.2. Ersch¨opfende Sch¨atzfunktion
133
Dabei ist w(z) die komplexe Fehlerintegralfunktion (complex error function) 2
w(z) = e−z erfc(−iz) Auch diese Verteilung hat einen Mittelwert μ, der nicht aus dem Integral des Erwartungswertes berechnet werden kann, und unendliche Varianz. Als Breitenmaß kann die Halbwertsbreite FWHM verwendet werden, deren Wert approximiert wird23 durch FWHM ≈ 0.5346Γ + 0.2166Γ 2 + 8σ 2 ln 2 mit einer absoluten Genauigkeit von ±0.02 %.
Aufgabe 4.1. Computeraufgabe: Machen Sie (mindestens) 2000 Stichproben vom Umfang 10 von einer gaußverteilten Zufallszahl (Mittelwert x = 0, σ = 1) und bestimmen Sie daraus jeweils a) das Stichprobenmittel x ¯, b) den Sch¨atzwert der Standardabweichung s, c) den gesch¨ atzten Fehler s10 des Mittelwerts. Histografieren Sie die Verteilungen dieser Gr¨oßen und bestimmen Sie deren Mittel u ¨ber alle Stichproben. ˆ+s10 ] d) Ermitteln Sie, wie h¨aufig der wahre Mittelwert im Intervall [ˆ x −s10 , x ¨ liegt. Welche Uberdeckungswahrscheinlichkeiten erwarten Sie?
4.2
Ersch¨ opfende Sch¨ atzfunktion
Eigenschaften von Punktsch¨atzungen, die bereits in Kapitel 4.1 definiert wurden, sind die Konsistenz (ˆ p ist konsistente Sch¨ atzfunktion f¨ ur p, falls p ist erwartungstreue Sch¨ atzfunklimN →∞ pˆ = p) und die Erwartungstreue (ˆ tion f¨ ur p, falls ˆ p = p, und asymptotisch erwartungstreue Sch¨ atzfunktion, falls limN →∞ ˆ p = p). Diese Eigenschaften sind schwache Forderungen an Sch¨ atzfunktionen. So haben wir zwei verschiedene erwartungstreue und konsistente Sch¨ atzfunktionen f¨ ur die Standardabweichung σ einer Gauß-Verteilung kennengelernt (Gl. 4.68 und 4.69). 23
Approximation von E. E. Whiting, An empirical approximation to the Voigt profile, J. Quantitative Spectroscopy and Radiative Transfer 8, 1379 (1968), modifiziert nach J. J. Olivero, R. L. Longbothum, Empirical fits to the Voigt line width: a brief review, J. Quantitative Spectroscopy and Radiative Transfer 17, 233–236 (1977), wo auch eine bessere alternative Approximation angegeben wird.
134
4. Statistische Inferenz
Eine st¨ arkere Forderung ist, alle in der Stichprobe enthaltenen Informationen u ¨ber den wahren Parameter zu verwenden. Es ist opfende Sch¨ atzfunktion (engl. sufficient statiψˆp = ψ(x1 , . . . , xN ) ersch¨ stic) f¨ ur p ⇐⇒ f (x1 , . . . , xN |p) = h(x1 , . . . , xN ) · g(ψˆp |p)
(4.79)
d. h., falls die gesamte Information der x1 . . . xN u ¨ber p in ψˆp enthalten ist. Die Formulierung (4.79) ist die von Fisher und Neyman. Die Funktion h ¨ber ψˆp (x), nicht aber h¨angt nur von den xi ab, unmittelbar oder mittelbar u von p. Dabei bezeichnet p die zu sch¨ atzenden Parameter (Einzelwert oder m-Tupel). Entsprechend bezeichnet ψˆp eine oder mehrere Stichprobenfunktionen. Diese m¨ ussen nicht erwartungstreu sein. Es ist aber in jedem Fall ψˆp = Φ(p) eine Funktion von p, da die Dichte von ψˆp nur vom Parameter p abh¨ angt. Daraus l¨asst sich ein asymptotisch erwartungstreuer ersch¨opfender Sch¨atzer pˆ = Φ−1 (ψˆp ) berechnen, falls Φ umkehrbar ist. Eine andere, ¨aquivalente Formulierung ist die folgende: Es sei y = φ(x) ein N -Tupel, wobei φ die Messwerte x umkehrbar eindeutig auf y abbildet. ˆ = (y1 , . . . , ym ) ersch¨opfende Sch¨atzfunktionen der Parameter Dann sind ψ angt. p, falls die bedingte Dichte f (ym+1 , . . . , yN |y1 , . . . , ym ) nicht von p abh¨ Beispiel 4.16. Gauß-Verteilung: Das Stichprobenmittel aus der Messreihe: 7 n ¯ = x n. Es ist ersch¨ opfend bzgl. (xi )i=1...N mit f (x) = G(x|μ, σ) ist x i i=1 μ. Zum Beweis rechnet man 1 exp f (x1 , . . . , xN |μ) = √ ( 2πσ)N 1 = √ exp ( 2πσ)N
N −
i=1 (xi − μ) 2σ 2
N −
¯) i=1 (xi − x 2σ 2
8
2
2
8
· exp
N (¯ x − μ)2 − 2σ 2
.
mit der Zerlegung aus Gleichung 4.65. Ohne zu fragen, welchen Parameter man sch¨ atzen will, erh¨ alt man Kandidaten f¨ ur ersch¨ opfende Sch¨ atzfunktionen durch Betrachten der Dichte einer Stichprobe aus einer gaußverteilten Grundgesamtheit
1 exp f (x1 , . . . , xN ) = √ ( 2πσ)N
1 − 2 2σ
N
x2i − 2μ
i=1
N
8 x i + N μ2
i=1
Sie h¨ angt nur von den beiden Stichprobenfunktionen ψ1 =
N i=1
x2i ,
ψ2 =
N
xi
i=1
ab. Daher sind ψ1 und ψ2 ersch¨ opfende Sch¨ atzfunktionen f¨ ur μ und σ. In ihnen ist die gesamte Information u ¨ber die Parameter μ und σ der Gauß-Verteilung
4.3. Likelihood
135
enthalten. Wenn man die Information u ¨ber alle xi auf diese beiden Summen reduziert, hat man noch keine Information u ¨ ber μ und σ verloren. Die Funktion h ist hier eine Konstante, d. h. f (x|μ, σ) = g(ψ1 , ψ2 |μ, σ).
Aufgabe 4.2. Die Sch¨atzung einer Wahrscheinlichkeit durch Z¨ahlen eines Zufallsereignisses f¨ uhrt auf n, die gefundene Anzahl in N Versuchen. Zeigen Sie, dass dies eine ersch¨ opfende Sch¨atzfunktion ist.
4.3
Likelihood
Um die Information, die in einer Stichprobe enthalten ist, zu beschreiben, m¨ ussen wir die Wahrscheinlichkeiten als Funktion des zu sch¨atzenden Parameters betrachten. Eine Likelihood 24 ist die Wahrscheinlichkeit oder Wahrscheinlichkeitsdichte f¨ ur einen gegeben Wert einer Zufallsvariablen als Funktion eines unbekannten Parameters. Der einfachste Fall ist 1 Messung und 1 Parameter. Der Wertebereich des Parameters kann dabei diskret oder kontinuierlich sein. In der Praxis wichtiger ist der Fall eines kontinuierlich variierbaren Parameters. Aus der Messgr¨ oße x, die der Verteilung f (x|p) bzw. P (x|p) folgt, erh¨alt man die Likelihood l(p|x) = c · f (x|p)
oder
l(p|x) = c · P (x|p)
(4.80)
Sie ist eine Funktion des Parameters p, den man sch¨ atzen will. Da nur relative Werte der Likelihood interessieren, kann man die Wahrscheinlichkeit mit einer beliebigen positiven Konstanten c > 0 multiplizieren. Dabei darf c von x, aber nicht von p abh¨ angen. Beispiel 4.17. Ein einfaches Beispiel ist die Entscheidung zwischen einem normalen und einem gezinkten W¨ urfel. Der gezinkte W¨ urfel bringt die Sechs mit Wahrscheinlichkeit p6 = 0.55, die Eins mit p1 = 0.05 und alle anderen Werte mit opfend ist die Anzahl Einsen n1 und Sechsen n6 . p2 = p3 = p4 = p5 = 0.10. Ersch¨ Die Likelihood aufgrund der Multinomialverteilung ist 1 6N l(gezinkt) = 0.05n1 0.55n6 0.10N −n1 −n6 l(normal) =
24
R. A. Fisher, Phil. Transact. of the Royal Society of London A222, 309–368 (1922).
136
4. Statistische Inferenz
Die Vorfaktoren, die nur von den ni abh¨ angen, sind f¨ ur beide W¨ urfel gleich und k¨ onnen weggelassen werden. Wenn wir mit der Konstanten 6N multiplizieren, wird l(normal) = 1 l(gezinkt) = 0.3n1 3.3n6 0.6N −n1 −n6 und wir m¨ ussen mit jedem neuen Wurf l(gezinkt) mit 0.3, 0.6 oder 3.3 multiplizieren, wenn das Resultat 1, 2–5 oder 6 war. Wurf. Resultat 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
6N · l(normal)
6N · l(gezinkt)
1 1 1 1 1 1 1 1 1 1
0.600 × 3.3 = 1.980 × 0.6 = 1.188 × 3.3 = 3.920 × 3.3 = 12.937 × 0.6 = 7.762 × 0.6 = 4.657 × 3.3 = 15.370 × 0.6 = 9.222 × 3.3 = 30.432
3 6 4 6 6 2 2 6 5 6
Man kann den Zugewinn an Information bei jedem Wurf verfolgen. Die Tendenz zur Hypothese gezinkt wird schnell deutlich. Bereits nach 10 Stichproben liefert diese Hypothese das 30-Fache der Wahrscheinlichkeit f¨ ur die beobachteten Resultate beim normalen W¨ urfel.
Dieses Beispiel demonstriert den Nutzen der Likelihood: Sie vergleicht die Wahrscheinlichkeiten, wenn p der Parameter w¨are ( Was-w¨are-wenn” Wahrscheinlichkeit“). Das Beispiel zeigt auch, wie man den Zugewinn an Information durch weitere Messungen behandelt: Man multipliziert die alte und neue Likelihood miteinander. Der allgemeine Fall N unabh¨ angige Messungen, M Parameter mit uhrt auf die Verteilungen fi (xi |p1 . . . pM ) und Messgr¨oßen (xi )i=1...N f¨ Likelihood l(p1 . . . pM |x1 . . . xN ) = c
N
fi (xi |p1 . . . pM )
(4.81)
i=1
Da das Produkt schnell unhandlich wird, verwendet man meistens den Logarithmus der Likelihood oder kurz Log-Likelihood L(p1 . . . pM ) = ln l(p) =
N i=1
ln fi (xi |p1 . . . pM ) + c
(4.82)
4.3. Likelihood
137
der nur bis auf einen willk¨ urlichen konstanten Summanden c = ln c definiert ist.
4.3.1
Likelihood und a posteriori -Wahrscheinlichkeit
Es gibt einen Sonderfall, wo wir aus der Likelihood wieder eine physikalische Wahrscheinlichkeit gewinnen k¨onnen. Ist der Parameter selbst eine Zufallszahl, die sich von Versuch zu Versuch ¨andern kann und der a priori Verteilung mit der Dichte f (p) (bzw. Wahrscheinlichkeit P (p)) folgt, so ist die Likelihood eine bedingte Wahrscheinlichkeit oder Dichte, l(p|x) = c·f (x|p) = c · f (x, p)/f (p), und f (p) ist die Randverteilung von f (x, p). Dann kann man mithilfe des Bayesschen Theorems (2.22) bzw. (1.18) die a posteriori -Dichte f (p|x) =
l(p|x) f (x|p) f (p) = f (p) f (x, p ) dp l(p |x)f (p ) dp
(4.83)
bzw. a posteriori -Wahrscheinlichkeit P (p|x) =
l(p|x) P (p) p l(p |x)P (p )
(4.84)
gewinnen. Die willk¨ urliche Konstante c k¨ urzt sich aus diesen Ausdr¨ ucken heraus. Beispiel 4.18. Teilchenidentifikation: Geladene Teilchen (e± , μ± , π ± , K ± , p, p) k¨ onnen durch verschiedene Detektoren aufgrund ihrer Masse bzw. des daraus resultierenden Verh¨ altnisses zwischen Impuls und Geschwindigkeit identifiziert werden. M¨ ogliche Techniken sind Flugzeitmessung, spezifische Ionisation in einem Kammergas oder Nachweis des Tscherenkow-Kegels. Im ARGUS-Experiment wurden zwei dieser Methoden eingesetzt: die Messung der Flugzeit t und der spezifischen Ionisation y = dE/ dx. Die Dichtefunktionen f (y|X, p) f¨ ur X = e, μ, π, K, p mit Impuls p sind ann¨ ahernd gaußisch. Ihre genaue Form wurde aus Daten bestimmt. Der Messfehler der Flugzeit ist in guter N¨ aherung gaußverteilt mit Standardabweichung σt . Dann ist die a posteriori-Wahrscheinlichkeit f¨ ur die Teilchensorte eines Teilchens mit Impuls p, gemessener Flugzeit t und spezifischer Ionisation y f (y|X, p) G(t|tX (p), σt ) P0 (X) P (X|t, y, p) = X =e,μ,π,K,p f (y|X , p) G(t|tX (p), σt ) P0 (X ) Die a priori-Wahrscheinlichkeiten P0 h¨ angen vom Ereignistyp ab. Je mehr Vorabinformation u ¨ber die relativen H¨ aufigkeiten der Teilchensorten vorhanden sind, desto besser gibt die a posteriori -Wahrscheinlichkeit die Teilchenzahlverh¨ altnisse wieder. Optimal w¨ are P0 (X, p, . . .), wobei . . . Variable beinhaltet, die den Ereignistyp charakterisieren, wie etwa die Multiplizit¨ at geladener Teilchen oder die Jetstruktur. Ohne Zusatzinformation ist die Annahme 1 5 P0 (π) ≈ , P0 (e) ≈ P0 (μ) ≈ P0 (K) ≈ P0 (p) ≈ 9 9
138
4. Statistische Inferenz
eine brauchbare erste N¨ aherung an die typischen Teilchenzahlverh¨ altnisse, wie man sie in vielen Hochenergie-Experimenten findet.
4.4
Maximum-Likelihood-Sch¨ atzung
Die Likelihood erm¨oglicht uns eine einfache, allgemeine Vorschrift zur Sch¨atzung von Parametern: l(ˆ p) = max l(p), p
L(ˆ p) = max L(p) p
(4.85)
Der Sch¨ atzwert pˆ f¨ ur p ist der Parameter, f¨ ur den das erhaltene Messresultat das wahrscheinlichste ist. Da der Logarithmus im Bereich positiver reeller Zahlen eine streng monoton steigende Funktion ist, ist das Maximum von l gleichzeitig das Maximum des Logarithmus L. Ist L(p) eine stetig differenzierbare Funktion, so ist das Maximum entweder am Rand des Wertebereichs von p oder gegeben durch ∂L(p) =0 ∂p
(4.86)
p ˆ
F¨ ur ein n-Tupel von Parametern ist das ein Gleichungssystem. Wenn sich die Gleichung (bzw. das Gleichungssystem) nicht analytisch l¨ osen l¨asst oder f¨ ur Funktionen, die nicht differenzierbar sind, kann man pˆ durch numerische Maximierungsverfahren ermitteln. Ein bew¨ahrtes Programm der CERN-Bibliothek ist MINUIT25 , das jede Funktion mit endlich vielen26 frei variierbaren Parametern minimieren kann. Man findet die MaximumLikelihood-Sch¨ atzwerte als Minimum von −L(p). Die Maximum-Likelihood-Sch¨atzung (ML-Sch¨ atzung) ist eine universelle, aber nicht immer optimale Methode zur Punktsch¨atzung. Die wichtigsten Eigenschaften sind: • 25
26
Der Sch¨ atzer pˆ ist unabh¨angig von der Normierung von l (Konstanten c und c ). F. James, MINUIT Function Minimization and Error Analysis Reference Manual, CERN Program Library Long Writeup D506 (Version 94.1 von 1994); F. James, M. Winkler, MINUIT User’s Guide, June 2004 (Version 1.4 von 2004); F. James, M. Roos, Comp. Phys. Comm. 10, 343 (1975). In der alten FORTRAN-Version gab es eine feste Obergrenze von 50 Parametern, empfohlen sind maximal 15 gleichzeitig variierende Parameter, mehr Parameter erfordern i. Allg. ein Feintuning der gew¨ ahlten numerischen Methoden, die das Programm anbietet.
4.4. Maximum-Likelihood-Sch¨atzung •
139
F¨ ur alle Parameterwerte p ist pˆ stets dieselbe Funktion der Messwerte xi , daher ist ∂ pˆ = 0. (4.87) ∂p Dagegen h¨angt die Verteilung f (ˆ p|p) und damit auch der Erwartungswert ˆ p von p ab.
•
Das Maximum ist eindeutig und unabh¨ angig davon, welchen Parameter 1 = φ(ˆ man w¨ahlt: φ(p) p).
Die letzte Bedingung ist unmittelbar einsichtig, da die Likelihood von q = ur die φ(p) gegeben ist durch l(q) = f (x|φ−1 (q)) = f (x|p) = l(p). Es gibt f¨ Likelihood keine Jacobi-Determinante bei der Umrechnung in andere Variablen, da es sich um eine Funktion, nicht um eine Dichte handelt. Die Funktionswerte bleiben daher unge¨ andert, in einer Funktionsdarstellung wandern alle Punkte nur horizontal“, das Maximum beh¨alt seinen Wert und wandert ” an die Stelle qˆ = φ(ˆ p). Damit ist aber auch klar, dass pˆ i. Allg. nicht erwartungstreu ist. Wenn die Sch¨atzung f¨ ur eine Wahl des Parameters p erwartungstreu ist, so ist sie es q −ˆ p2 gerade die Varianz beispielsweise f¨ ur die Wahl q = p2 nicht mehr, da ˆ von pˆ und damit (bis auf nutzlose triviale F¨ alle) gr¨oßer 0 ist. Beispiel 4.19. F¨ ur die Poisson-Verteilung mit Parameter μ ist L(μ) = L(μ|n) = −μ + n ln μ + c maximal f¨ ur
∂L(μ) n = −1 + = 0 ∂μ μˆ μ
was auf den erwartungstreuen Sch¨ atzwert μ ˆ = n f¨ uhrt. Abbildung 4.10 zeigt die Poisson-Verteilung mit μ = 3 und die Likelihood-Funktion f¨ ur n = 3.
Die ML-Methode ist die wichtigste Methode zur Punktsch¨ atzung. Sie ist nicht nur plausibel, weil sie den Parameter ausw¨ahlt, f¨ ur den die beobachteten Messwerte die gr¨ oßte Wahrscheinlichkeit haben, sie hat auch einige Eigenschaften, die sie in vielen F¨ allen zur optimalen Methode machen.
Existiert f¨ ur p eine ersch¨ opfende Sch¨atzfunktion ψ(x1 . . . xN ), so ist der ML-Sch¨atzer pˆ(ψ) nur eine Funktion von ψ. Das bedeutet, wenn eine ersch¨ opfende Sch¨atzfunktion existiert, so ist auch der ML-Sch¨atzer pˆ ersch¨opfend. Zum Beweis nach (4.79) schreiben wir L(p|x1 . . . xN ) = ln h(x1 . . . xN ) + ln g(ψ|p) = ln g(ψ|p) + c
4. Statistische Inferenz
140
a)
P(n) 0.20
0.20
0.10
0.10
0
5
10
15
n
−5
..... .. ... .. .. ... ..... . ... .. ... .. ... ... ... .. ... .. .. ... .. ... .. ... . ... ... ... .. .. ... .. ... .. ... . ... ... ... .. .... .. ..... .. .. ...... ....... .. .......... .. ........................................ . ..
0
5
10
μ
15
c)
0 L(μ)
b)
(μ)
.................. ...... ...... ...... ... ...... ... ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. ..... .. .. ..... .. .... .. ..
0
5
10
μ
Abb. 4.10 Poisson-Verteilung f¨ ur μ = 3.0 (a) und LikelihoodFunktion f¨ ur n = 3 (b). Der Verlauf der Log-Likelihood ist in (c) dargestellt.
15
Dann ist die Lage des Maximums, insbesondere die L¨osung von ∂L 1 ∂g = =0 ∂p g ∂p nur von ψ und nicht mehr von den einzelnen xi abh¨ angig. Beispiel 4.20. Mittelwert μ einer Gauß-Verteilung mit bekannter Standardabweichung σ: L(μ) = −
N 1 (xi − μ)2 + c 2σ 2 i=1
Das Maximum erh¨ alt man f¨ ur
N ∂L(μ) 2 = (xi − μ ˆ) = 0 ∂μ μˆ 2σ 2 i=1
was auf das arithmetische Mittel f¨ uhrt: μ ˆ=x ¯=
N 1 xi N i=1
(4.88)
4.4. Maximum-Likelihood-Sch¨atzung
141
Das Stichprobenmittel ist also auch der ML-Sch¨ atzwert des Parameters μ der GaußVerteilung. Wir hatten bereits gesehen, dass x ¯ auch ersch¨ opfend ist. Beispiel 4.21. Soll umgekehrt bei bekanntem μ die Standardabweichung σ einer Gauß-Verteilung gesch¨ atzt werden, ist die Likelihood L(σ) = −
N 1 (xi − μ)2 − N ln σ + c 2σ 2 i=1
Das Maximum erh¨ alt man f¨ ur
N ∂L(σ) 1 N = (xi − μ)2 − =0 ∂σ σˆ σ ˆ σ ˆ3 i=1
was auf σ ˆ2 =
N 1 (xi − μ)2 N
(4.89)
i=1
f¨ uhrt. Wegen der Invarianz der ML-Methode unter der Wahl der Parameter ist
/2 = σ ˆ2 = σ oder σ 4 .
/4 etc. Der ML-Sch¨atzer ist erwartungstreu f¨ur σ 2 , aber nicht f¨ur σ σ
Will man beide Parameter μ und σ sch¨ atzen, so erh¨ alt man dieselben Ableitungen wie bei den Einzelsch¨ atzungen und somit das Gleichungssystem μ ˆ=
N 1 xi N i=1
σ ˆ2 =
N 1
N
(xi − μ ˆ )2
i=1
das auf dieselben L¨ osungen wie bei den Einzelsch¨ atzungen f¨ uhrt, allerdings mit μ ˆ ur statt μ bei der Sch¨ atzung von σ. Wir wissen, dass diese Sch¨ atzung σ ˆ = s auch f¨ σ 2 −σ 2 = −σ 2 /N . σ 2 nicht mehr erwartungstreu ist (Gl. 4.16). Sie hat einen Bias ˆ
4.4.1
Score und Informationsfunktion
Das Maximum von regul¨ aren Likelihood-Funktionen erh¨alt man als Nullstelle des Score 1 ∂l(p) ∂L(p) = (4.90) S(p) = ∂p l(p) ∂p S(p) ist unabh¨ angig von der Wahl der Konstanten c bzw. c . Falls L(p) stetig differenzierbar ist, ist S(ˆ p) = 0.
142
4. Statistische Inferenz
Der Score S(p|x) h¨angt von den Messgr¨oßen x (kurz f¨ ur (xi )i=1...N ) ab und ist damit eine Funktion von Zufallsvariablen. Der Erwartungswert des Score ist ∂ 1 ∂f (x|p) f (x|p) dx = f (x|p) dx = 0 (4.91) S(p) = f (x|p) ∂p ∂p 1 := S(ˆ S(p) p) = 0 ist eine erwartungstreue Sch¨atzung von S(p). Man kann damit eine erwartungstreue Sch¨atzung einer Funktion des Parameters p konstruieren. In den folgenden Beispielen ist der ML-Sch¨atzer μ ˆ selbst erwartungstreu, ˆ μ = μ: n =0 −1 + , - μ Gauß-Verteilung: xi − N μ = 0 1 , N xi = 0 Exponentialverteilung: − + 2 μ μ
Poisson-Verteilung:
Beispiel 4.22. Definiert man die Exponentialverteilung nicht u ¨ber den Mittelwert μ als Parameter, sondern u ¨ber λ = 1/μ als f (x|λ) = λe−λx so ist die log-Likelihood L(λ) = N ln λ − λ und S(λ) = Daraus erh¨ alt man
xi
N xi − λ
ˆ = N λ xi
Dies ist jedoch kein erwartungstreuer Sch¨ atzer, da S(λ) =
, N xi = 0 − λ
und somit λ=
1 ˆ 1/λ
ist. Man muss also alle Erwartungswerte linear (im Z¨ ahler) behalten, um einen erwartungstreuen Sch¨ atzer zu bekommen. Das gilt nur f¨ ur die Funktion μ(λ) =
mit μ ˆ=
1 λ
xi N
4.4. Maximum-Likelihood-Sch¨atzung
143
Weiteres Ableiten des Score f¨ uhrt auf die Fishersche Informationsfunktion I(p) = −
∂ 2 L(p) ∂p2
(4.92)
Das Minuszeichen wird plausibel, wenn man beachtet, dass die Kr¨ ummung im Maximum einer stetig differenzierbaren Funktion stets negativ ist: I(ˆ p) ist damit positiv. Sie ist ebenfalls unabh¨angig von der Normierung der Likelihood (bzw. von c und c ). Es ist ∂S(p) ∂p ∂ 1 ∂l(p) =− ∂p l(p) ∂p 2 ∂l(p) 1 ∂ 2 l(p) 1 − = 2 l (p) ∂p l(p) ∂p2
I(p) = −
Ihr Erwartungswert ist die Fishersche Information ! ∂ 2 L(p|x1 . . . xN ) ∂p2 " 2 # 2 ∂ ln f (x|p) = S (p) = N ∂p
I(p|x1 . . . xN ) = −
(4.93)
da 1 ∂ 2 l(p) l(p) ∂p2 und "
!
=
N ∂ ln f (xi |p) ∂p i=1
1 ∂ 2 f (x|p) ∂2 f (x|p) dx = 2 f (x|p) dx = 0 2 f (x|p) ∂p ∂p
2 #
" =
N ∂ ln f (xi |p) ∂p i=1
2 #
! ∂ ln f (xi |p) ∂ ln f (xj |p) = ∂p ∂p i=1 j=1 " 2 # , ∂ ln f (x|p) -2 ∂ ln f (x|p) + N (N − 1) =N ∂p ∂p " 2 # ∂ ln f (x|p) =N ∂p N N
144
4. Statistische Inferenz
Sie ist umso gr¨oßer, je genauer eine ML-Sch¨atzung ist. Da sie die mittlere Kr¨ ummung der Log-Likelihood-Funktion an der Stelle des wahren Parameters angibt, ist diese umso schmaler, je gr¨oßer I ist. Die Fishersche Information h¨angt nur von der Dichtefunktion f und vom Stichprobenumfang N ab. Insbesondere ist sie proportional zur Zahl N der Ereignisse. Daher ist die Information pro Ereignis " 2 # ∂ ln f (x|p) I(p|x1 . . . xN ) = (4.94) I0 (p) = N ∂p Die Verallgemeinerung auf M Parameter f¨ uhrt auf das Score-M -Tupel ∂L(p|x) (4.95) S(p|x) = ∂pi i=1...M und die Informationsmatrix I(p|x) = −
∂ 2 L(p|x) ∂pi ∂pj
(4.96) (i,j)=(1,1)...(M,M )
Aufgaben 4.3. Sch¨atzen Sie aus n gefundenen Zufallsereignissen bei N Versuchen die Wahrscheinlichkeit p mithilfe der ML-Methode. 4.4. Ein Beispiel einer kontinuierlichen Verteilung ist die Exponentialverteilung: 1 f (t|τ ) = e−t/τ (t ≥ 0) τ Sch¨atzen Sie den Parameter τ (mittlere Lebensdauer) mit der ML-Methode. Zeigen Sie, dass dieser Sch¨ atzer erwartungstreu und ersch¨opfend ist.
4.5
Wirksamste Sch¨ atzfunktion
Wir haben bereits in (4.8) die relative asymptotische Wirksamkeit (oder Effizienz ) definiert. Eine Sch¨atzfunktion soll den gesch¨ atzten Parameter m¨ oglichst genau wiedergeben. Die Genauigkeit ist aber durch die Breite der Verteilung und damit durch die Varianz beschrieben. Die Sch¨ atzfunktion mit minimaler Varianz ist die effektivste. Diese Bedingung ist aber f¨ ur sich allein nutzlos, da z. B. die Sch¨atzfunktion ψ10 in Beispiel 4.1 pˆ = ψ10 = 42
4.5. Wirksamste Sch¨ atzfunktion
145
ist, also eine Konstante, die Varianz 0 hat, was nicht zu unterbieten ist. Dennoch ist sie als Sch¨ atzer f¨ ur irgendeinen Parameter v¨ollig ungeeignet. Wir m¨ ussen daher Konsistenz oder Erwartungstreue mitfordern. Wir nennen pˆ = ψ(x1 , . . . , xN ) wirksamste Sch¨ atzfunktion (engl. most efficient statistic) f¨ ur p ⇐⇒ pˆ erwartungstreu und σ 2 (ˆ p) = minimal
(4.97)
Die wirksamste Sch¨ atzfunktion existiert nicht immer. Man begn¨ ugt sich h¨aufig mit weniger und nennt pˆ = ψ(x1 , . . . , xN ) asymptotisch wirksamste Sch¨ atzfunktion f¨ ur p p) = minimal ⇐⇒ pˆ asymptotisch erwartungstreu und lim σ 2 (ˆ N →∞
4.5.1
(4.98)
Ungleichung von Rao und Cram´ er
Ist pˆ ein beliebiger erwartungstreuer Sch¨ atzer f¨ ur p˜ und f (x|p) eine einparametrige, hinreichend regul¨are Verteilung, so ist σ 2 (ˆ p) ≥
1 2 = σmin I(p)
(4.99)
Dabei h¨angt die minimale Varianz i. Allg. vom Parameter ab, es ist also der wahre Parameter p = p˜ gemeint. Diese Ungleichung findet man in etlichen Varianten. Sie wurde von verschiedenen Mathematikern gefunden, darunter Rao und Cram´er, Fr´echet, Aitken und Silverstone. Sie gilt allerdings nur f¨ ur einen einzelnen Parameter. Damit definiert man die wirksamste Sch¨ atzfunktion pˆ f¨ ur p ⇐⇒ pˆ erwartungstreu und σ 2 (ˆ p) =
1 I(p)
(4.100)
und die Wirksamkeit oder Effizienz e(ˆ p) =
1 σ 2 (ˆ p) I(p)
≤1
(4.101)
146
4. Statistische Inferenz
F¨ ur Sch¨ atzfunktionen, die nicht erwartungstreu sind, ist die Rao-Cram´erUngleichung (ˆ p − p)2 = σ 2 (ˆ p) + (ˆ p − p)2 ≥
1+
∂ ˆ p−p ∂p
2
=
I(p)
∂ ˆ p ∂p
2
I(p)
(4.102)
H¨angt der Bias ˆ p − p ≡ ˆ p − p nicht von p ab, gilt f¨ ur die mittlere quadratische Abweichung dieselbe Ungleichung wie f¨ ur erwartungstreue Sch¨ atzer. F¨ ur erwartungstreue Sch¨ atzer ist ˆ p = p, also Summand
∂ ˆ p−p ∂p
∂p ∂p
= 1 bzw. der zweite
= 0.
Da ∂ˆ p − p/∂p sowohl positiv als auch negativ sein kann, kann man mit nicht erwartungstreuen Sch¨ atzern auch kleinere Varianzen erhalten als im Limit (4.100). Auch der unsinnige Fall ist damit beschrieben: Ist pˆ unabh¨ angig von p, ist 2 = 0, was z. B. mit einer Konstanten ∂ˆ p − p/∂p = −1 und somit σmin (Sch¨ atzer ψ10 in Beispiel 4.1) erreicht wird. Zum Beweis der Ungleichung (4.102) differenziert man (ˆ p − p)f (x|p) dx = ˆ p − p nach p (die rechte Seite ist 0 f¨ ur erwartungstreue Sch¨ atzer!) und erh¨alt
∂f (x|p) dx − f (x|p) dx = ∂p ∂ ln f (x|p) f (x|p) dx − 1 = (ˆ p − p) ∂p ! ∂ ln f (x|p) (ˆ p − p) = (ˆ p − p)S(p) = ∂p
∂ˆ p − p ∂p ∂ˆ p − p ∂ˆ p = −1 ∂p ∂p ∂ˆ p ∂p %2 $ ∂ˆ p 2 p − p)S(p) = p − p)2 I(p) ≥ (ˆ (∗) (ˆ p − p)2 S 2 (p) = (ˆ ∂p 2 (ˆ p − p)
(ˆ p − p) ≥ 2
∂ ˆ p ∂p
I(p) 1 falls ˆ p = p p) ≥ σ 2 (ˆ I(p)
In (∗) nutzt man aus, dass aus (2.72) durch Quadrieren folgt xy2 − 2xyxy + x2 y2 ≤ (x2 − x2 )(y 2 − y2 ) xy2 ≤ x2 y 2 − x2 y2 − x2 y 2 + 2xyxy xy2 ≤ x2 y 2 − (xy − yx)2
4.5. Wirksamste Sch¨ atzfunktion
147
Da der letzte Summand nichtnegativ ist, gilt auch xy2 ≤ x2 y 2 . (4.103) Die Maximum-Likelihood-Methode erreicht f¨ ur hinreichend regul¨ are Funktionen f¨ ur N → ∞ die Rao-Cram´ er-Schranke. Sie ist damit eine asymptotisch wirksamste Sch¨ atzfunktion. Genauer gilt f¨ ur eine dreimal differenzierbare Log-Likelihood-Funktion, mit endlichem |∂l/∂p|, |∂ 2 l/∂p2 | und |∂ 3 l/∂p3 | < C, wobei C nicht von p abh¨ angt, und 0 < (∂L/∂p)2 < ∞: Die Verteilung des ML-Sch¨ atzers pˆ konvergiert stochastisch gegen eine Gauß-Verteilung mit Mittelwert p˜ und Standardabweichung σ(ˆ p) =
1
1 =9 " #=( : I(˜ p) 2 : ∂ ln f (x|p) N ;N ∂p
1 −
!
∂ 2 ln f (x|p) ∂p2
p˜
p˜
(4.104) Dies gilt auch f¨ ur M Parameter: Die Verteilung des ML-Sch¨atzers p ˆ konvergiert stochastisch gegen eine Gauß-Verteilung mit Mittelwert p ˜ und Kovarianzmatrix C = G−1 , " G = I(˜ p) = −N
∂ 2 ln f (x|p1 . . . pM ) ∂pi ∂pj p˜
# (i,j)=(1,1)...(M,M )
(4.105) F¨ ur eine Kovarianzmatrix C p bedeutet wirksamste Sch¨ atzfunktion p ˆ , dass alle anderen Sch¨ atzer mit Kovarianzmatrix C p C p − C pˆ = X ≥ 0
(4.106)
erf¨ ullen, wobei X eine positiv semidefinite Matrix ist, d. h. aXa = ur alle Vektoren a. Sie ist minimal im Sinne der L¨ owneri,j ai Xij aj ≥ 0 f¨ 2 Halbordnung f¨ ur symmetrische Matrizen. Die Varianzen, also σi = ei C pˆei = Cpˆii , sind dann alle minimal. Da sie auch alle positiv sind, ist auch die Spur Sp C pˆ minimal. Beispiel 4.23. F¨ ur die Poisson-Verteilung ist I(μ) =
n , μ2
I(μ) =
1 μ
2 und der ML-Sch¨ atzer μ ˆ = n ist wirksamste Sch¨ atzDamit ist σ 2 (n) = μ = σmin funktion.
148
4. Statistische Inferenz
Aufgabe 4.5. Zeigen Sie, dass die Sch¨atzung einer mittleren Lebensdauer nach Aufgabe 4.4 die wirksamste Sch¨ atzfunktion ist.
4.5.2
Addition von Information
Die Likelihood erlaubt es, auf einfache Weise die Information aus verschiedenen unabh¨angigen Experimenten zu kombinieren, indem man die Likelihoods beider Experimente miteinander multipliziert. Haben zwei unabh¨ angige Experimente denselben Parameter p bestimmt, so kann man die Information beider Experimente durch das Produkt der Likelihoods ausdr¨ ucken: l(p) = l1 (p) · l2 (p) L(p) = L1 (p) + L2 (p) S(p) = S1 (p) + S2 (p) I(p) = I1 (p) + I2 (p) I(p) = I1 (p) + I2 (p) Log-Likelihood, Score und Informationsfunktion addieren sich. Aus der RaoCram´er-Ungleichung folgt f¨ ur die minimale Varianz 1 1 1 + 2 2 (p) = σ 2 σmin (p) σ 1,min 2,min (p)
4.5.3
(4.107)
Suffizienz und Effizienz
Ersch¨ opfende Sch¨atzfunktionen gibt es bei einparametrigen Verteilungen aus der exponentiellen Familie f (x|p) = a(x) ec(p)·h(x)−d(p)
(4.108)
mit beliebigen Funktionen a(x), h(x) und c(p) mit der Einschr¨ankung, dass ein geeignetes d(p) die Normierung f (x|p) dx = 1 gew¨ahrleistet. F¨ ur eine Messreihe x = (xi )i=1...N ist f (x|p) =
N i=1
a(xi )
exp c(p)
N i=1
h(xi ) − N d(p)
4.5. Wirksamste Sch¨ atzfunktion
149
und h(xi ) ist ersch¨opfend f¨ ur p, da die Faktoren a(xi ) nicht von p abh¨ angen. Wegen f (x|p) dx = 1 gilt
∂ a(x) ec(p)h(x)−d(p) dx = 0 ∂p a(x) ec(p)h(x)−d(p) [c (p)h(x) − d (p)] dx = 0 c (p) h(x) = d (p) d (p) h(x) = c (p)
(4.109)
ur den Sonderfall c(p) = p ist h(x) = d (p). mit c (p) = ∂c/∂p etc. F¨ F¨ ur diesen Sonderfall gilt ∂2 a(x) ep·h(x)−d(p) dx = 0 ∂p2 2 a(x) ep·h(x)−d(p) [h(x) − d (p)] − d (p) dx = 0 2 h2 (x) = d (p) − d (p) + 2d (p)h(x) = d (p) + h(x)2 σ 2 h(x) = d (p) (4.110) Eine interessante Untermenge der exponentiellen Familie hat die Form
f (x|p) = a(x) eb(p)+b (p)·[h(x)−p]
(4.111)
mit d(p) = p · b (p) − b(p) und c(p) = b (p). Dabei bezeichnet b (p) = ∂b/∂p die Ableitung der Funktion b(p), welche durch die Normierung von f (x|p) eingeschr¨ ankt wird. Dann ist nach (4.109) h(x) =
p · b (p) + b (p) − b (p) =p b (p)
mit der Annahme b (p) = 0 und somit N 1 pˆ0 = h(xi ) N i=1
wirksamste Sch¨ atzfunktion, erwartungstreu und ersch¨ opfend .
(4.112)
150
4. Statistische Inferenz
Die Varianz von h(x) ist wegen
f (x|p) dx = 1 gegeben durch
∂2 f (x|p) dx = 0 ∂p2 = a(x) eb(p)+b (p)·[h(xi )−p] · b (p)2 [h(x) − p]2 + b (p)[h(x) − p] − b (p) dx = b (p)2 [h(x) − p]2 + b (p)h(x) − p − b (p) 1 σ 2 (h(x)) = b (p) 1 (4.113) p0 ) = σ 2 (ˆ N b (p) Dann ist p0 − p) + b(p)] + c L(p) = N · [b (p) · (ˆ S(p) = N · b (p) · (ˆ p0 − p) I(p) = N · [b (p) − b (p) · (ˆ p0 − p)] I(p) = N b (p) p) > 0 wegen S(ˆ p) = 0 die L¨osung pˆ = Die ML-Methode liefert f¨ ur b (ˆ atzfunktion, womit (4.112) pˆ0 , d. h., sie liefert somit die wirksamste Sch¨ bewiesen ist. Beispiel 4.24. Gauß-Verteilung: a(x) = √
2 2 1 e−x /2σ , 2π σ
f¨ uhrt auf die Dichte f (x|μ) = √
1 exp 2π σ
b(μ) =
μ2 , 2σ 2
h(x) = x
μ2 + 2μ(x − μ) −x2 + 2 2σ 2σ 2
. = G(x|μ, σ)
Beispiel 4.25. Exponentialverteilung: a(t) = f¨ uhrt auf die Dichte
1 , e
b(τ ) = − ln τ
f (t|τ ) = exp −1 − ln τ −
h(t) = t
1 (t − τ ) τ
6 =
1 −t/τ e τ
F¨ ur Wahrscheinlichkeiten von diskreten Werten k¨onnen alle hier gezeigten Eigenschaften analog bewiesen werden, wenn man f (x|p) durch P (x|p) und Integrale durch Summen ersetzt.
4.5. Wirksamste Sch¨ atzfunktion
151
Beispiel 4.26. Poisson-Verteilung: 1 , b(μ) = −μ(1 − ln μ), n! f¨ uhrt auf die Wahrscheinlichkeit a(n) =
P (n|μ) =
h(n) = n
1 e−μ μn exp {−μ + μ ln μ + ln μ(n − μ)} = n! n!
Aufgabe 4.6. Zeigen Sie, dass die Binomialverteilung f¨ ur festes N mit einem freien Parameter p oder μ = pN auch vom Typ (4.111) ist.
4.5.4
Fehler eines Maximum-Likelihood-Sch¨ atzwerts
Eine M¨ oglichkeit der Fehlerabsch¨ atzung, die allerdings im allgemeinen Fall nur asymptotisch korrekt ist, ist durch die Rao-Cram´er-Schranke gegeben: δˆ p2 =
1 −
d2 L(p) dp2
(4.114) p ˆ
Dies ist eine Sch¨ atzung unter der Annahme 2 d L(p)/ dp2 p˜ = d2 L(p)/ dp2 pˆ die f¨ ur N → ∞ zutrifft. L¨ ost man die Maximum-(Log)-Likelihood-Bedingung numerisch, kann man auch die zweite Ableitung numerisch berechnen. Das erw¨ahnte Programm MINUIT verwendet dieses Verfahren im Algorithmus MIGRAD“. ” Asymptotisch gilt f¨ ur die meisten ML-Sch¨atzer Erwartungstreue und (4.105) und damit " # ∂ 2 ln f (x1 . . . xN |p1 . . . pM ) −1 p) = − C ≈ I(ˆ ∂pi ∂pj p ˆ
(i,j)=(1,1)...(M,M )
(4.115) Beispiel 4.27. In Beispiel 4.21 haben wir Mittelwert und Standardabweichung einer Gauß-Verteilung gesch¨ atzt. Die Informationsfunktionen sind N σ2 3ˆ σ2 − σ2 Iσσ (μ, σ) = N σ4 μ ˆ−μ Iμσ (μ, σ) = 2N σ ˆ3 Iμμ (μ, σ) =
152
4. Statistische Inferenz
mit Erwartungswerten N σ2 3(N − 1) − N 2N − 3 Iσσ (μ, σ) = = σ2 σ2 Iμσ (μ, σ) = 0 Iμμ (μ, σ) =
unter der Annahme, dass beide Parameter gesch¨ atzt werden (andernfalls ist Iσσ = 2N/σ 2 ). Die ML-Sch¨ atzfunktion f¨ ur μ und σ ist unkorreliert, mit asymptotischen Standardabweichungen σ μ) = √ σmin (ˆ N σmin (ˆ σ) = √
(4.116)
σ σ ≈ √ 2N − 3 2N
Alternativ kann man als zweiten Parameter σ 2 w¨ ahlen. Dann ist L(σ 2 ) = −
N 1 N (xi − μ)2 − ln σ 2 + c 2 2σ 2 i=1
S(σ 2 ) =
N 1
2σ 4
i=1 2
(xi − μ)2 −
N 2σ 2
2ˆ σ − σ2 2σ 6 N − 2 I(σ 2 ) = 2σ 4 I(σ 2 ) = N
(4.117)
σ 2 ) = 0. Der Erwartungswert (4.117) gilt f¨ ur gleichzeitig mit σ ˆ = s aus S(ˆ /2 ist in diesem Fall σ 2 (σ /2 ) = gesch¨ atztes μ ˆ . Die asymptotische Varianz f¨ ur σ 4 2 2 2σ /(N − 2). Tats¨ achlich ist die Varianz geringer, allerdings hat σ ˆ = s einen 2 1 2 Bias s − σ 2 = − N σ . Der Erwartungswert f¨ ur bekanntes μ ist I(σ 2 ) =
N . 2σ 4
Die minimale Varianz f¨ ur
/2 ist dann σ 2 (σ /2 ) = 2σ 4 /N und wird von s 2 erreicht. σ min
4.5.4.1
Likelihood-Ratio
Eine der vorteilhaften Eigenschaften der Likelihood-Funktion ist die Invarianz der Likelihood unter Parameter-Transformationen. Gleichzeitig ist sie aber nur bis auf einen willk¨ urlichen Faktor bestimmt, sodass sinnvolle Aussagen nur u ¨ber Verh¨altnisse von Likelihoods gemacht werden k¨onnen. Das Likelihood-Ratio r(p) =
l(p) l(p|x) = maxp l(p|x) l(ˆ p)
(4.118)
4.5. Wirksamste Sch¨ atzfunktion
153
ist ein Maß daf¨ ur, wie viel unwahrscheinlicher das erhaltene Resultat ist, wenn der wahre Parameter p statt pˆ ist. Ein Likelihood-Verh¨altnis ist im Logarithmus eine Differenz, d. h. − ln r(p) = L(ˆ p) − L(p)
(4.119)
Da die Likelihood asymptotisch einer Gauß-Verteilung entspricht, k¨onnen wir die Likelihood-Verh¨altnisse (bzw. Log-Likelihood-Differenzen) nach dem Verhalten der Gauß-Verteilung approximativ beurteilen. Wenn wir die Log-Likelihood in eine Taylorreihe um pˆ entwickeln, erhalten wir p)(p − pˆ)2 + O (p − pˆ)3 L(p) = L(ˆ p) − 12 I(ˆ da die erste Ableitung an der Stelle pˆ verschwindet. Die Likelihood-Funktion wird daher f¨ ur N → ∞ und pˆ → p < = l(p) = c exp − 12 I(ˆ p)(p − pˆ)2 also eine Gauß-Funktion mit Mittelwert pˆ und σ 2 = 1/I(ˆ p). Ist diese Annahme f¨ ur p nicht erf¨ ullt, so gibt es fast immer eine Transforur q ist die mation q = φ(p), f¨ ur die L(q) = L(ˆ q ) − 2σ21(ˆq) (q − qˆ)2 ist, d. h., f¨ Likelihood eine Gauß-Funktion. Mit dieser Annahme, also f (ˆ p|p) = √
(ˆ p−p)2 1 − e 2δpˆ2 2π δˆ p
(4.120)
kann man den Fehler δˆ pu ¨ber das Likelihood-Ratio sch¨atzen: l(ˆ p ± δˆ p) = e−1/2 l(ˆ p) bzw. L(ˆ p) − L(ˆ p ± δˆ p) =
1 2
(4.121)
Der so gesch¨atzte Fehler ist asymptotisch erwartungstreu, kann aber f¨ ur kleine N von der tats¨achlichen Standardabweichung der Sch¨atzung erheblich abweichen. Damit erkauft man sich den Vorteil, dass er – genau wie der ˆ = Sch¨atzwert selbst – unabh¨angig von der Parameter-Wahl ist, d. h. δ φ 1 φ(ˆ p + δˆ p) − φ(ˆ p) = φ(ˆ p + δˆ p) − φ(p). Beispiel 4.28. Die ML-Sch¨ atzung der Parameter μ und σ einer Gauß-Verteilung nach Beispiel 4.21 ist f¨ ur μ erwartungstreu, w¨ ahrend σ ˆ2 einen Bias −σ 2 /N hat. Die μ) = σ 2 /N und σ 2 (ˆ σ 2 ) = 2σ 4 /(N − 1). Varianzen sind nach (4.14) und (4.63) σ 2 (ˆ
154
4. Statistische Inferenz
Der gesch¨ atzte Fehler von μ ˆ und σ ˆ nach der Likelihood-Ratio-Methode ergibt sich aus N σ ˆ2 + (ˆ μ − μ)2 1 (xi − μ)2 − N ln σ = −N − N ln σ L(μ) = − 2 2σ 2σ 2 i=1
F¨ ur μ ˆ f¨ uhrt das auf die Bedingung L(ˆ μ) − L(ˆ μ + δμ ) =
2 N δμ 1 = 2 σ 2 ˆ2
√ mit der L¨ osung δμ = σ ˆ/ N . Der gesch¨ atzte Fehler von σ ˆ ergibt sich aus der Bedingung L(ˆ σ ) − L(ˆ σ + δσ ) =
N 2
=N
$ −1 +
$
σ ˆ2 δσ + 2 ln 1 + σ ˆ (ˆ σ + δσ ) 2
%
%
1 1 1 − + ln(1 + d) = 2 2 2(1 + d)2
Entwickelt man dies in eine Taylorreihe von d =
δσ σ ˆ ,
erh¨ alt man
5 3 9 4 14 5 20 6 1 d + d − d + d − ··· = 3 4 5 6 2N √ was gegen die asymptotische L¨ osung d = 1/ 2N konvergiert. d2 −
4.5.5
Bias beim Maximum-Likelihood-Fit
Ein Fit asymmetrischer Verteilungen an eine kleine Datenmenge kann leicht zu einem Bias des Sch¨atzwerts f¨ uhren. Erwartungstreue ist nur asymptotisch, d. h. f¨ ur unendlich viele Messwerte, gegeben. Ein Beispiel ist die Standardabweichung σ ˆ der Gauß-Verteilung (Beispiel 4.21). Beispiel 4.29. Dies soll ein weiteres, besonders einfaches Beispiel illustrieren: Die Verteilungsfunktion ist linear und nur in einem endlichen Intervall von 0 verschieden, 2x f (x|a) = a2 falls 0 ≤ x ≤ a 0 sonst In Abbildung 4.11a ist ein Beispiel f¨ ur a = 1.5 gezeigt. F¨ ur genau einen Messwert x1 ist die Likelihood 2x1 falls a ≥ x1 l(a) = a2 0 sonst ur x1 = 1.5). Damit und damit maximal f¨ ur ˆ a = x1 (Abbildung 4.11b zeigt l(a) f¨ ist aber der Erwartungswert 2 ˆ a = x = a 3 und liegt deutlich links des wahren Wertes a.
4.5. Wirksamste Sch¨ atzfunktion
155
F¨ ur zwei Messwerte gilt ˆ a = max(x1 , x2 ). Das Produkt der beiden LikelihoodFunktionen ist 0 links vom Maximum und f¨ allt mit 1/a4 rechts davon. Die Vertei3 4 a) = 4ˆ a /a (Abschnitt 2.7) und damit ˆ a = 45 a. lung von ˆ a = max(x1 , x2 ) ist f (ˆ F¨ ur N Messwerte ist ˆ a = max(x1 , . . . , xN ), Die Verteilung von ˆ a ist f (ˆ a) =
2Nˆ a2N −1 a2N
2N und damit ˆ a = 2N ur unendlich +1 a, was einem Bias von a/(2N + 1) entspricht. F¨ viele Messwerte geht ˆ a gegen a. Die Varianz ist
a) = σ 2 (ˆ
2N 2N − 2N + 2 2N + 1
2
a2 =
N a2 (N + 1)(2N + 1)2
d. h., σ(ˆ a) ≈ a/2N geht schneller als die Rao-Cram´er-Schranke gegen 0. Die einzig m¨ ogliche Fehlersch¨ atzung ist in diesem Beispiel die u ¨ber das Likelihood-Ratio bzw. die Log-Likelihood-Differenz −2N [ln ˆ a − ln(ˆ a + δˆ a)] ≈ 2N
δˆ a = ˆ a
1 2
die δˆ a=ˆ a/4N ≈ σˆa /2 f¨ ur den rechten Fehler und 0 f¨ ur den linken Fehler liefert.
f(x) 1.0
0.5
. ...... .... ... ..... .... . . . .. .... ... ..... ... .... . . . . .. . . . ..... . . . . .. .... .... . . ... . . ... ..... . . . . ... . . . ... ..... . . . . ... .. . . . ... . . . . . ... . . . ... ..... . . . . ... .. . . . ... . . . . . ... . . . ... ..... . . . . ... .. . . . ... . . . . . ....
0 Abb. 4.11
1
a)
b)
(a)
... ... ..... .... .... ..... .. .. .. .. .. ... .. .. .. ... .. .. .. ... .. .. .. ... .. .. .. ... .. ... .. ... .. ... .. ... .. ... .. ..... .. ..... .. ....... .. ........ .. ............. .. ........................... .. ...................... .
a
2 x 3.0 5.0 7.0 9.0 x a Lineare Verteilung mit a = 1.5 (a) und Likelihood f¨ ur eine Messung x1 = 1.5 (b).
Viele positive Eigenschaften der ML-Sch¨ atzung gehen verloren, wenn man ein Maximum am Rand des Wertebereichs der Parameter hat oder L(p) beim Maximum nicht differenzierbar ist. Dennoch f¨ uhrt die ML-Methode auch dann meist zu sinnvollen Resultaten. p) direkt als Funktion von p berechIn einfachen F¨ allen kann man ˆ p und σ 2 (ˆ nen, wie in Beispiel 4.21. Ist dies nicht analytisch m¨oglich, kann eine MonteCarlo-Simulation u ¨ber den Bias und den wahren Fehler einer MaximumLikelihood-Sch¨atzung Auskunft geben. Dabei sollte man den Parameter p
156
4. Statistische Inferenz
aber u ¨ber einen hinreichend weiten Bereich variieren, da ˆ p und σ 2 (ˆ p) explizit von p abh¨ angen.
4.5.6
Optimale Variablen und Asymmetrieparameter
Einen Parameter-Fit an eine beliebige Verteilung kann man oft durch einen Fit an eine eindimensionale Verteilung ersetzen. Dies ist immer dann m¨oglich, wenn man die Dichtefunktion in die Form f (x|p) = h0 (x) + p · h1 (x) bringen kann. Unter Umst¨anden sch¨atzt man einen transformierten Parameter φ(p), der eine solche Darstellung erlaubt. Die Funktion ω(x) = h1 (x)/h0 (x) ist eine ersch¨ opfende Stichprobenfunktion f¨ ur den Parameter p. Sie ist damit eine optimale Variable f¨ ur den ML-Fit und wird gelegentlich als optimierte Observable bezeichnet. Sie hat eine Dichte f (ω|p) = g(ω) · (1 + pω)
(4.122)
mit g(ω) = f (ω|0). Der ML-Fit an N Ereignisse mit Messgr¨oßen x1 . . . xN ist dann die Maximierung der Log-Likelihood L(p) =
N
ln(1 + pωi )
i=1
was auf die Bedingung dL ωi = =0 dp 1 + pωi i=1 N
(4.123)
f¨ uhrt. Die erreichbare Genauigkeit ist gegeben durch die Rao-Cram´erSchranke 1 (4.124) σ 2 (p) ≥ , ω2 N (1+pω) 2 Eine hervorragende grafische Darstellung des Fits ist die Gerade 1 dn = 1 + pω N g(ω) dω
(4.125)
deren Steigung gerade p ergibt. Ist die Funktion g(ω) nicht analytisch dn verf¨ ugbar, kann man den Quotienten aus zwei Histogrammen dω auftragen: aus den Daten und aus einer Monte-Carlo-Rechnung mit p = 0.
4.5. Wirksamste Sch¨ atzfunktion
157
Ist der Parameter p ein Asymmetrieparameter, d. h., ist g(ω) = g(−ω) eine gerade Funktion, so gilt ω = ωg(ω) dω + p ω 2 g(ω) dω = p ω 2 g(ω) dω ω 2 = ω 2 g(ω) dω + p ω 3 g(ω) dω = ω 2 g(ω) dω
ω
ω = pω 2 ω 3 = ω 3 g(ω) dω + p ω 4 g(ω) dω = p ω 4 g(ω) dω ω 4 = ω 4 g(ω) dω + p ω 5 g(ω) dω = ω 4 g(ω) dω
(4.126)
ω 3 = pω 4
(4.127)
2n−1
= pω 2n
(4.128)
Damit kann man p sch¨ atzen als
ωi [ω] (4.129) pˆ = 2 = 2 ωi [ω ] Der Fehler kann der linearen N¨aherung (3.9) approximiert werden als ( ω 4 1 (4.130) 1 − p2 2 δˆ p= ω N ω 2 F¨ ur kleine p kann man die Rao-Cram´er-Schranke entwickeln: 1 σ 2 (p) 2 2 N ω (1 − 2pω + 3p ω 2 − 4p3 ω 3 + 5p4 ω 4 ) 1 = 4 5 6
ω 3 2 2 3 ω + 5p4 ω N ω 1 − 2p ω2 + 3p ω − 4p
ω 2
ω 2
ω 2 1
4 6 4 ω N ω 2 1 + p2 ω + p 2 2
ω
ω $ % 4 6 2 4 2 ω 1 2 4 ω ω − ω 1−p −p (4.131) ≈ N ω 2 ω 2 ω 2 2 was zur Ordnung p2 mit dem Fehler der direkten Sch¨atzung (4.130) u ¨bereinstimmt. Ein ML-Fit w¨ urde zu keiner Verbesserung der Genauigkeit f¨ uhren. =
Die Methode l¨asst sich auf m Parameter verallgemeinern, falls m pj · hj (x) f (x|p) = h0 (x) + j=1
Die optimalen Variablen sind ωj (x) = hj (x)/h0 (x). Sie haben eine Dichte f (ω|p) = g(ω) · (1 + pj ωj ) (4.132) Die Beziehung ωj = pj ωj2 gilt aber nur, falls g in ωj gerade ist und ωj mit keinem anderen ωk korreliert ist (ωj ωk = 0).
158
4. Statistische Inferenz
Aufgabe 4.7. Leiten Sie (4.130) mithilfe von (4.127) her.
4.6
Varianzreduktion
Der Fehler (Standardabweichung) eines Mittelwerts wird nach (4.14) propor√ tional zu 1/ N kleiner. Dabei ist der Z¨ahler die Standardabweichung der Grundgesamtheit. Aber selbst f¨ ur Verteilungen, f¨ ur die der Mittelwert die wirksamste Sch¨atzfunktion ist, kann man den Fehler durch Verwenden zus¨atzlicher Information noch verringern. Solche Strategien zur Varianzreduktion spielen eine wichtige Rolle im effektiven Einsatz von Monte-Carlo-Methoden, k¨onnen aber auch bei der praktischen Datenanalyse von Nutzen sein.
4.6.1
Stratified Sampling
Eine einfache Methode zur Varianzreduktion ist das Stratified Sampling. Dazu unterteilt man die Stichprobe vom Umfang N in eine endliche Zahl von r Klassen mit Ni Elementen (i = 1 . . . r), deren Wahrscheinlichkeit (= relative H¨aufigkeit in der Grundgesamtheit) pi man kennt. Der Wert einer Messgr¨oße x ˜ wird durch das arithmetische Mittel (4.13)
x ¯=
N 1 xj N j=1
erwartungstreu gesch¨atzt mit dem Fehler nach (4.14) σ(x) σ(¯ x) = √ N Verwendet man stattdessen das Mittel aus den Klassenmittelwerten x ˆ=
r i=1
so ist der Fehler
pi
Ni 1 xj Ni j=1
9 : r : σi2 (x) p2i σ(ˆ x) = ; Ni i=1
(4.133)
(4.134)
4.6. Varianzreduktion
159
Bei einer zuf¨alligen Auswahl von insgesamt N Elementen der Grundgesamtheit (N Messungen) sind im Grenzfall N → ∞ die absoluten H¨aufigkeiten Ni = pi · N , und aus (4.134) wird 9 : r 1 : pi σi2 (x) σ(ˆ x) = √ ; N i=1
(4.135)
Haben die Klassen unterschiedliche Mittelwerte, so ist nach (2.60) f¨ ur Elemente der Klasse i x − xi )2 (x − x ˜)2 i = σi2 + (˜ wobei xi den Erwartungswert von x in der Klasse i bezeichnet. Weiter ist f¨ ur die vollst¨andige Grundgesamtheit ˜ )2 = σ 2 = (x − x
r
pi (x − x ˜ )2 i =
i=1
r
pi σi2 +
i=1
r
pi (˜ x − xi )2
i=1
Damit wird (4.135) 9 : r 1 : pi (˜ x − xi )2 σ(ˆ x) = √ ;σ 2 − N i=1
(4.136)
kleiner als der Fehler nach (4.14). Bisher sind wir von zuf¨ alligen Anteilen Ni in der Stichprobe ausgegangen. Wenn man diese Anteile bei festem N kontrollieren kann, ergibt sich eine weitere M¨oglichkeit, den Fehler zu reduzieren. Dazu muss man das Minimum r uhrt man den von (4.134) mit der Nebenbedingung i=1 Ni = N finden. F¨ Lagrange-Multiplikator α ein, so muss man die Zielfunktion L(Ni,i=1...r , α) =
r i=1
p2i σi2
r 1 −α N − Ni Ni i=1
(4.137)
minimieren. Das Gleichungssystem der Ableitungen 1 ∂L = −p2i σi2 2 − α = 0 ∂Ni Ni f¨ uhrt nach Elimination von α auf die Bedingung N1 N2 Nr = = ... = p1 σ 1 p2 σ 2 pr σ r
(4.138)
160
4. Statistische Inferenz
Die beste Strategie ist also, die Ni nicht im Verh¨altnis der Klassenwahrscheinlichkeiten pi , sondern nach pi σi zu w¨ahlen, d. h. pi σi Ni ≈ N · r j=1 pj σj Der Fehler nach (4.134) ist dann das arithmetische Mittel r 1 σ(ˆ x) = √ pi σ i N i=1
(4.139)
Beispiel 4.30. Stratified-Sampling-Methoden spielen in der Demoskopie eine Rolle: Die repr¨ asentative Umfrage unterteilt die Stichprobe nach Bev¨ olkerungsgruppen im Verh¨ altnis ihrer H¨ aufigkeit in der Gesamtbev¨ olkerung.
4.7
Minimum-Chiquadrat-Sch¨ atzung
Sind die Verteilungen der Grundgesamtheit fi (x, p) Gauß-Verteilungen um angig von p), so ergibt die MessXi (p) mit Standardabweichung δxi (unabh¨ reihe (xi ± δxi )i=1...N eine Log-Likelihood 1 (xi − Xi (p)) + c 2 i=1 (δxi )2 N
L(p) = −
2
(4.140)
Andererseits ist χ2 (p) =
N 2 (xi − Xi (p)) i=1
(δxi )2
= −2L(p)
(4.141)
chiquadratverteilt mit N Freiheitsgraden und ersch¨opfend bez¨ uglich p. Das Maximum der Log-Likelihood entspricht einem Minimum von χ2 . Man erh¨ alt so als Sonderfall einer ML-Sch¨atzung die Methode der kleinsten Quadrate, die Carl Friedrich Gauß 1801 f¨ ur die Landvermessung und Astronomie entwickelt hat. F¨ ur korrelierte Messgr¨ oßen ist χ2 (p) =
N N
(xi − Xi (p)) Gij (xj − Xj (p))
(4.142)
i=1 j=1
mit der Gewichtsmatrix G = C −1 . Die Likelihood-Funktion ist l(p) = 2 e−χ /2 . Die ML-Sch¨ atzung von p ergibt sich aus p) = min χ2 (p) χ2 (ˆ
(4.143)
4.7. Minimum-Chiquadrat-Sch¨ atzung
161
Dies f¨ uhrt auf das Gleichungssystem N N ∂χ2 ∂Xi = −2 Gij (xj − Xj (p)) =0 ∂pk ∂pk i=1 j=1
(4.144)
in dem wir bereits von der Symmetrie unter Vertauschung von i und j Gebrauch gemacht haben. Bei M Parametern sind das M Gleichungen mit k = 1...M. angig sind von p, ist das Verfahren nicht korrekt, Falls C bzw. die δxi abh¨ da L zus¨ atzliche Terme ln δxi (p) enth¨alt. In vielen F¨allen ist es aber genauso gut wie das exakte ML-Verfahren.
4.7.1
Anwendung: Daten mit unterschiedlichen Fehlern
Liegen mehrere Messungen eines einzigen Parameters p = x ˜ mit unterschiedlichen Messfehlern vor, kann man aus dieser Messreihe (xi ± δxi )i=1...N die Gr¨ oße N (xi − p)2 2 χ (p) = = [wx2 ] − 2[wx]p + [w]p2 δx2i i=1 mit den Gewichten wi = 1/δx2i minimieren und erh¨ alt N ∂χ2 xi − x ˆ = −2 x) = 0 2 = −2([wx] − [w]ˆ ∂p p=ˆx δx i i=1 mit der L¨osung
N
xi i=1 δx2i N 1 i=1 δx2i
x ˆ=
=
[wx] [w]
(4.145)
Der Fehler ergibt sich aus der Varianz (Fehlerfortpflanzung unkorrelierter Messwerte) 1 2 2 1 δˆ x2 = wi δxi = 2 [w] [w] bzw. nach Fishers Information δˆ x2 =
1
1 ∂ 2 χ2 2 ∂p2
= p=ˆ x
Das entspricht 1 1 = 2 δˆ x δx2i i=1 N
1 [w]
(4.146)
162
4. Statistische Inferenz
Der Wert von Chiquadrat im Minimum kann auch aus den Summen berechnet werden: χ2min = [wx2 ] − [wx]2 /[w] ist chiquadratverteilt mit N − 1 Freiheitsgraden. Diese Tatsache wird bisweilen genutzt, um auf unsichere δxi zu korrigieren. 1 χ2min · N − 1 [w]
δˆ x2 ≈
(4.147)
Mit dieser Korrektur kann man eine Sch¨ atzung des Fehlers verbessern, die offensichtlich auf falsch abgesch¨ atzten Einzelfehlern beruht. Das Verfahren ist jedoch zweifelhaft, da seine Notwendigkeit auf einen systematischen Fehler hindeutet. Eine einzelne falsche Fehlerabsch¨ atzung kann man herausfinden, wenn man die Einzelbeitr¨ age zu χ2 untersucht. Jedes dieser χ2i =
ˆ)2 (xi − x 2 δxi
sollte bei 1 liegen. Ist ein einzelner Fehler zu klein, f¨ allt das zugeh¨ orige χ2i aus der Reihe. Der allgemeinere Fall mit n-Tupeln von Messwerten (xi )i=1...N mit n × n Kovarianzmatrizen (C i )i=1...N ergibt als Fit-Wert x ˆ=
N
−1 Gi
i=1
N
G i xi
(4.148)
i=1
und (aus der Fisherschen Information) mit den Gewichtsmatrizen Gi = C −1 i die zugeh¨orige Kovarianzmatrix C(ˆ x) =
N
−1 Gi
(4.149)
i=1
F¨ ur eine Reihe korrelierter Messungen (xi )i=1...N mit einer N × N Kovarianzmatrix (C) ist χ2 (p) = (xi − p)Gij (xj − p) i,j
und G = C −1 . Damit wird (4.141) N N ∂χ2 = −2 Gij (xj − x ˆ) = 0 ∂p p=ˆx i=1 j=1 N N i=1 j=1
Gij xj =
N N i=1 j=1
Gij x ˆ
4.7. Minimum-Chiquadrat-Sch¨ atzung mit der L¨osung
N N i=1
j=1
x ˆ = N N i=1
Gij xj
j=1
Gij
163
(4.150)
entsprechend einer Gewichtung27 in (4.145) mit wi =
N
Gki
(4.151)
k=1
Kann man die Fehler in unkorrelierte δi und einen gemeinsamen (100 % korrelierten) δc zerlegen, so kann man die Gewichtung wi = 1/δi2 verwenden ugen. Am Beispiel und dem gewichteten Mittelwert den Fehler δc hinzuf¨ zweier Messwerte erh¨alt man 2 δc2 δ1 + δc2 C= δc2 δ22 + δc2 2 1 δ2 + δc2 −δc2 G= 2 2 −δc2 δ12 + δc2 δ1 δ2 + (δ12 + δ22 )δc2 δ12 δ22 1 2 2 2 δ1 δ1 δ2 + (δ12 + δ22 )δc2 δ12 δ22 1 = 2 2 2 δ2 δ1 δ2 + (δ12 + δ22 )δc2
w1 = G11 + G21 = w2 = G12 + G22
und der gemeinsame Faktor f¨ allt durch die Normierung 1/(w1 + w2 ) weg. Vorsicht ist geboten, wenn die korrelierten Fehler als konstante relative achlich ist auch in diesem Fall der Fehler gegeben sind, δci = r · xi . Tats¨ ˜ ≈ r·x ˆ, mit x ˆ aus korrelierte Fehler f¨ ur alle Messwerte gleich, δc = r · x den unkorrelierten Fehlern δui . Verwendet man stattdessen unterschiedliche alt man einen systematisch zu kleinen Sch¨atzwert. Fehler δci , erh¨
4.7.1.1
Stark korrelierte Fehler
Sind dagegen die Fehler tats¨ achlich verschieden und stark korreliert, liegt der beste Sch¨ atzwert manchmal außerhalb des Bereichs der Messwerte, kann also gr¨oßer als der gr¨oßte oder kleiner als der kleinste Messwert sein. Beispiel 4.31. Als Beispiel betrachten wir zwei Messwerte x1 = 1.0 ± 0.2 und x2 = 1.5 ± 0.4, die korreliert sind. Der beste Fitwert nach (4.150) ist in Abbildung 4.12a als Funktion des Korrelationskoeffizienten gezeigt. F¨ ur ρ > 0.5 liegt ˆ x unterhalb des kleinsten Wertes x1 = 1.0. 27
Wird in L. Lyons, D. Gibaut, P. Clifford, Nucl. Instr. and Meth. A270, 110 (1988) als BLUE (best linear unbiased estimator ) hergeleitet.
4. Statistische Inferenz
164
ˆ x 1.00
0.80
0.60
........................ .................. a) ............. .......... ......... ....... ...... ..... ..... .... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
−0.5 Abb. 4.12
0.0
. ... ... .. ... .. ....... .. ... ... b) .. .... ... .. ... . . ... ..... ... ... .. . . ... . . ... .. .. .. .. ... ... .. .. .. .. ... . ... ... ... ... . ... . . . . ... ... .. .. .. .. .. .. ..... .. .. ... ... ... ... ........ . . . . .. .. .. ... .. .... .. .......... ........... . .. ... . ........ ...... ..... . . . .. ... ....• ......... .
1.5 x2 1.0
0.5
0.5 ρ
.. ... ... ... ... ... . . .. ... ... ... ... ... . . . ... ... ... ... ... . . ..
0.5
1.0 x1 1.5
(a) Sch¨ atzwert aus Beispiel 4.31 als Funktion des Korrelationskoeffizienten ρ. (b) Kovarianzellipse und ihre mit χ2 skalierte aus dem gleichen Beispiel f¨ ur ρ = 0.8. Man sieht, dass der k¨ urzeste χ2 Abstand des korrelierten Messpunktepaars (x1 , x2 ) von der Linie x ≈ 0.83 f¨ uhrt. x1 = x2 unterhalb von x1 zum Punkt mit ˆ
In diesem Bereich kann die Korrelation nicht mehr von einem gemeinsamen Fehlerbeitrag δc stammen. Abbildung 4.12b zeigt, dass im Falle echter korrelierter und verschieden großer Fehler ein Wert unterhalb des Messwerte-Minimums den Messwerten in der x1 , x2 Ebene am n¨ achsten kommt. Der beste Fitwert nach (4.150) ist f¨ ur ρ = 0.8 der Wert ˆ x = 0.83333 (χ2min = 3.5).
Wenn immer ein Fitwert am Rand oder außerhalb des Bereichs der Messwerte liegt, ist dies eine Folge starker Korrelationen. Dies sollte Anlass sein, die Kovarianzmatrix genau zu u ¨berpr¨ ufen. So kann, wie oben beschrieben, die Multiplikation relativer Fehler mit fluktuierenden Messwerten die Matrixelemente verzerren, und daher zu einem systematisch verschobenen Fitwert f¨ uhren. Dieses Problem betrifft auch allgemeinere, in den Folgekapiteln beschriebene Fits.
4.7.2
Mittelbare Messung: Fit bei linearem Zusammenhang
Als wichtigen und zugleich streng l¨ osbaren Fall wollen wir das lineare Problem betrachten. Die Messdaten x = (x1 , . . . , xN ) mit Kovarianzmatrix C x = angen linear von M < N Parametern (cij ) und Gewichtsmatrix G = C −1 x h¨ p = (p1 , . . . , pM ) ab, d. h., die wahren Erwartungswerte sind gegeben durch x ˜ =A·p ˜+a
(4.152)
mit der bekannten (N × M )-Matrix A = (Aij ) und dem bekannten N -Tupel a. Beide h¨ angen weder von p noch von x ab.
4.7. Minimum-Chiquadrat-Sch¨ atzung
165
Der Fall M = N f¨ uhrt auf eine L¨osung p ˆ = A−1 (x − a) mit χ2 = 0, die keinen Freiheitsgrad u ¨brig l¨asst. Ist M > N , so gibt es i. Allg. unendlich viele L¨osungen, die alle χ2 = 0 haben: Die Parameter sind unterbestimmt. Ein Fit ist daher nur f¨ ur den Fall M < N interessant, bei dem die Parameter u ¨berbestimmt sind. F¨ ur die Messdaten ist dann x=x ˜+ε mit gaußverteiltem ε. Als Ergebnis des Minimum-Chiquadrat-Fits erh¨ alt man die ausgeglichenen Messdaten x ˆ =A·p ˆ+a Man bezeichnet die Minimum-Chiquadrat-Sch¨ atzung auch als Ausgleichsrechnung. Das zugeh¨orige Chiquadrat ist x − x) G (˜ x − x) χ2 (p) = (˜ = (Ap + a − x)G(Ap + a − x) ⎛ ⎞ M N M N ⎝ = Aij pj + ai − xi ⎠ Gik Akl pl + ak − xk (4.153) i=1 k=1
j=1
l=1
mit N Freiheitsgraden f¨ ur die wahren Parameter p = p ˜ . Der letzte Ausdruck ist invariant, wenn man i mit k vertauscht. Daher ergibt Differenzieren nach den pj nach der Produktregel zwei gleiche Terme, die in den M Gleichungen M Akl pˆl + ak − xk = 0 2Aij Gik l=1
2A† G (Aˆ p + a − x) = 0
(4.154)
als Faktor 2 auftreten. Hier wurde p durch den gesch¨atzten Parameter p ˆ ersetzt. χ2 (ˆ p) hat dann nur noch N − M Freiheitsgrade. Die L¨osung ist das Fit-Resultat p ˆ = (A† GA)−1 A† G (x − a) (M )
(M ×M )
(M ×N )
(4.155)
(N )
Die Sch¨atzung ist erwartungstreu: Da (4.155) eine lineare Gleichung p ˆ = † −1 † T · (x − a) mit T = (A GA) A G ist, ist der Erwartungswert ˆ p = T · (x − a) = T · (˜ x − a) = T A˜ p = p˜ wegen T A = (A† GA)−1 A† GA = 1.
(4.156)
166
4. Statistische Inferenz
Die Kovarianzmatrix von p ˆ kann man aufgrund des streng linearen Zusammenhangs nach (2.82) exakt berechnen. Man erh¨ alt die Fehlermatrix des Fits C p = T C xT †
† = (A† GA)−1 A† GC x (A† GA)−1 A† G = (A† GA)−1 A† G† A(A† GA)−1
= (A† GA)−1
(4.157)
Dabei wurde C x† = C x , (A† GA)† = (A† GA) und C x G = 1 verwendet. Weil A eine rechteckige Matrix ist, kann man das Produkt (AGA† )−1 nicht in ein Produkt A†−1 C x A−1 umschreiben. Da hierbei aus Messwerten durch eine lineare Transformation Fit-Werte werden, u ¨berrascht es nicht, dass die Kovarianzmatrix Cp =
1 ∂ 2 χ2 2 ∂pi ∂pj
−1 (4.158)
ist. F¨ ur gaußverteilte Messwerte ist p ˆ nach (4.155) die wirksamste Sch¨ atzfunktion, da χ2 = −2L ist. Mit den gefitteten Parametern kann man auch ausgeglichene Messdaten berechnen: (4.159) x ˆ = A(A† GA)−1 A† G(x − a) + a Ihre Kovarianzmatrix ist C xˆ = A(A† GA)−1 A†
(4.160)
Das minimale Chiquadrat ist χ2min = (x − x ˆ )G(x − x ˆ) = (x − a)[G − GA(A† GA)−1 A† G](x − a) = (x − a)G(x − a) − p ˆA† GAˆ p
(4.161)
mit dem Erwartungswert χ2min = (˜ x − a)G(˜ x − a) + εGε − p ˜C −1 ˜ − (ˆ p−p ˜)C −1 p−p ˜) p p p (ˆ −1 † ˜−M =p ˜A GA˜ p+N −p ˜C p p
=N −M unter Einsatz der Gleichung (2.84).
(4.162)
4.7. Minimum-Chiquadrat-Sch¨ atzung
167
Beispiel 4.32. Die direkte Messung aus Abschnitt 4.7.1, also N Messungen xi ±δxi eines Parameters p = x ˜ (M = 1), l¨ asst sich nach diesem Schema l¨ osen:
⎛
δx21 † A = (1 1 . . . 1), a = (0 0 . . . 0), C = ⎝ ... 0 =⇒
⎞
0 .. ⎠ . δx2N
xi /δx2i ˆ p= 2 1/δxi
Cp = σp2ˆ =
4.7.3
... .. . ...
1 1/σi2
Allgemeine Verteilungen und das Gauß-Markow-Theorem
Im letzten Abschnitt haben wir zumeist keinen Gebrauch davon gemacht, dass die Daten gaußverteilt sind. Immer wenn der Zusammenhang zwischen Parametern und Messwerten linear ist, ergibt sich ein erwartungstreuer Sch¨atzer nach (4.155) wegen der Linearit¨at des Erwartungswerts. Genauso ergibt sich bei linearem Zusammenhang eine exakte Transformation der Kovarianzmatrizen, also ist die Kovarianzmatrix der gesch¨atzten Parameter auch im allgemeinen Fall durch (4.157) gegeben. Allerdings ist dann χ2 nicht chiquadratverteilt, jedoch ist der Erwartungswert nach (4.162) derselbe wie der einer Chiquadratverteilung mit N − M Freiheitsgraden. uckgehender Satz lautet, dass f¨ ur VerteiEin auf Gauß und Markow28 zur¨ lungen mit endlicher Varianz und bekannter diagonaler Kovarianzmatrix C x (unkorrelierte Messwerte) der Sch¨ atzer nach (4.155) die wirksamste unter allen linearen Sch¨ atzfunktionen ist. Sie hat die kleinste Varianz, bzw. eine Kovarianzmatrix, die sich von allen anderen Kovarianzmatrizen linearer Sch¨ atzfunktionen durch eine positiv semidefinite Matrix unterscheidet (wie in Gl. 4.106). Es ist in diesem Fall eine robuste Sch¨atzmethode. Der Beweis wurde von Aitken29 auf korrelierte Messwerte verallgemeinert. Dieses Prinzip wird heute manchmal als BLUE (best linear unbiased estimator ) bezeichnet. Alle Methoden der kleinsten Quadrate (Least Squares Fit) bauen auf diesem Theorem auf und stellen im nicht-gaußschen Fall von der MaximumLikelihood-Methode unabh¨angige Sch¨ atzverfahren dar. Wirksamste Sch¨ atzfunktion ist das Resultat f¨ ur Verteilungen aus der exponentiellen Familie 28
29
Carl Friedrich Gauß, Theoria combinationis observationum erroribus minimis obnoxiae, Verlag Dieterich, G¨ ottingen 1823; Андрей Андреевич Марков 1908, u ¨bersetzt von H. Liebmann: Andrei A. Markoff, Wahrscheinlichkeitsrechnung, Verlag Teubner, 1912, Kapitel VII: Methode der kleinsten Quadrate. A. C. Aitken, IV. On Least Squares and Linear Combination of Observations, Proc. of the Royal Society of Edinburgh 55, 42–48 (1936).
4. Statistische Inferenz
168
(4.108). F¨ ur andere Verteilungen gilt das nur, wenn die Rao-Cram´erSchranke erreicht wird, andernfalls kann es nichtlineare Sch¨atzer mit asymptotischer Erwartungstreue und geringerer Varianz geben.
4.7.4
Kurven-Fit
Eine weitere wichtige Anwendung ist die Anpassung von Funktionen, die als Linearkombinationen geschrieben werden k¨onnen, an Messdaten. y=
M
ck φk (x)
k=1
Zun¨ achst wollen wir einen einfachen Sonderfall betrachten.
4.7.4.1
Fit einer Geraden
Die einfachste nichttriviale Funktion ist die Gerade y = mx + c Der ML-Fit an eine Messreihe (xi , yi ± δyi )i=1...N erfolgt durch Minimieren von χ2 =
(yi − mxi − c)2 δyi2
= [wy ] + m2 [wx2 ] − 2m[wxy] + 2mc[wx] − 2c[wy] + c2 [w] 2
(4.163)
mit wi = 1/δyi2 . Ableiten f¨ uhrt auf die beiden Gleichungen ∂χ2 = 2m[wx2 ] − 2[wxy] + 2c[wx] = 0 ∂m ∂χ2 = 2m[wx] − 2[wy] + 2c[w] = 0 ∂c mit der L¨osung [wxy][w] − [wx][wy] ± δm [wx2 ][w] − [wx]2 [wy] − m[wx] ˆ [wx2 ][wy] − [wx][wxy] ˆ c= = ± δc [w] [wx2 ][w] − [wx]2
m ˆ =
(4.164)
Durch Einsetzen von m = m ˆ und c = ˆ c in (4.163) erh¨ alt man χ2min = [wy 2 ] −
([wxy][w] − [wx][wy])2 [wy]2 − [w] [w]([wx2 ][w] − [wx]2 )
(4.165)
4.7. Minimum-Chiquadrat-Sch¨ atzung
169
Die Zahl der Freiheitsgrade ist N − 2. Man kann den Geraden-Fit auch als Sonderfall linear abh¨angiger Parameter betrachten. Dazu schreibt man die Geradengleichung x = p 1 X + p2 d. h. yi → xi , xi → Xi . Dann ist (unter Beibehaltung yi der alten Namen x1 x2 . . . x N † , und xi f¨ ur die Wertepaare) x = (y1 y2 . . . yN ), A = 1 1 ... 1 ⎞ ⎛ δy 2 0 ... 0 1 0 ⎟ ⎜ 0 δy22 . . . a = (0 0 . . . 0), C = ⎜ .. ⎟ .. ⎠. ⎝ .. . . . 2 0 0 . . . δyN Damit erh¨alt man auch auf einfache Weise die Fehler und die Kovarianz −1 [wxy] m ˆ [wx2 ] [wx] =⇒ pˆ = = [wy] [wx] [w] ˆ c −1 [wx2 ] [wx] Cp = [wx] [w] [w] − [wx]2 [wx2 ] δc2 = 2 [wx ][w] − [wx]2 [wx] Cmˆ ˆc = − 2 [wx ][w] − [wx]2 2 δm =
[wx2 ][w]
Will man unkorrelierte Parameter sch¨atzen, so sollte man die Gerade in der speziellen Form y = y¯ + m(x − x ¯) schreiben. W¨ahlt man den gewichteten Mittelwert x ¯ = [wx]/[w], so ist [wy] ± δy¯ [w] 1 δy2¯ = [w] Cm ˆˆ y¯ = 0 ˆ y¯ =
(4.166)
und m, ˆ δm wie im allgemeinen Fall. uhrt werden: Ein Geraden-Fit kann auch an die Funktion y = aemx durchgef¨ Man logarithmiert zu ln y = ln a + mx. Analog ergibt y = axm durch Logarithmieren (mit beliebiger Basis) die Gerade log y = log a + m log x. In beiden F¨allen ver¨andert man aber die Fehlerverteilung der y. Deshalb ist ein direkter Fit i. Allg. vorzuziehen.
170
4. Statistische Inferenz
Der Vorteil logarithmischer Skalen liegt dagegen in der Pr¨asentation des linearen Zusammenhangs: Das Auge kann einen linearen Verlauf von gekr¨ ummten Kurven gut unterscheiden. Das Ergebnis eines Fits wirkt daher u ¨berzeugender, wenn man es in transformierten Variablen als Gerade darstellen kann. Dies gilt auch f¨ ur andere Funktionen, etwa y = mx2 + c, deren Verlauf man durch Auftragen von y u ¨ber x2 als Gerade erkennen kann.
4.7.4.2
Geraden-Fit und Regressionsgerade
Die Regressionsgerade (4.31) ist identisch mit dem Resultat eines MinimumChiquadrat-Geraden-Fits, wenn alle Fehler δyi = δy gleich sind. Sie entspricht dann (4.164). Das ist die Formel, die die Taschenrechner berechnen k¨onnen! Gleichung (4.32) ist identisch zu χ2min /(N − 2) beim Geraden-Fit (4.165) mit δy = 1. Ein Chiquadrat kann man daraus zu χ2 = (N − 2) · s2 /δy2 berechnen.
4.7.4.3
Geraden-Fit bei unbekannten Fehlern
Wie im vorigen Abschnitt beschrieben, berechnet die lineare Regression eine Fit-Gerade, wenn alle Fehler δyi = δy gleich sind. Ist dies tats¨ achlich der alt man das Ergebnis eines MinimumFall und δy ist unbekannt, so erh¨ Chiquadrat-Fits f¨ ur die drei Parameter m, c, δy aus dem Ergebnis der linearen Regression, wobei δ0y2 = s2 =
1 N −2
. [x][y] [y]2 [y ] − −m ˆ [xy] − N N 2
(4.167)
durch die Streuung der y-Werte gesch¨ atzt wird.
4.7.4.4
Fit einer Funktion y =
cm φm (x)
Der allgemeine Fall einer Funktion, die linear von den Parametern abh¨ angt, ist M y= cm φm (x) (4.168) m=1
ur den Das kann ein Polynom mit φn (x) = xn sein, inklusive φ0 (x) = 1 f¨ konstanten Term und k = 0 . . . M − 1, oder eine Fourierreihe mit φ2n (x) = cos nx und φ2n−1 (x) = sin nx, oder eine beliebige Kombination anderer Funktionen.
4.7. Minimum-Chiquadrat-Sch¨ atzung
171
Der Fit dieser Funktion an die Messreihe (xi , yi ± δyi )i=1...N ist ein Fit mit linearem Zusammenhang zwischen Messwerten und Parametern. Aufgrund der u ¨blichen Konvention y = f (x) sind die Messwerte (Zufallsvariablen) hier y, w¨ahrend die x-Werte feste Parameter sind! Bei der ¨ Ubersetzung des Problems in die Terminologie von (4.155) ist daher Vorsicht geboten, die Zuordnung ist p = (c1 c2 . . . cM ), x = (y1 y2 . . . yN ), ⎛ φ (x ) φ (x ) . . . φ (x ) ⎞ 1 1 1 2 1 N (x ) φ (x ) . . . φ φ ⎜ 2 1 2 2 2 (xN ) ⎟ ⎟, a = (0 0 . . . 0), A† = ⎜ .. .. .. ⎠ ⎝ . . . φ (x ) ⎛ δy 2M 10 1
⎜ 0 C=⎜ ⎝ .. . 0
δy22 0
φM (x2 ) ... 0 ... 0 .. .. . . ...
... ⎞
φM (xN )
⎟ ⎟. ⎠
2 δyN
Dann ist die Gewichtsmatrix diagonal, mit Elementen wi = 1/δyi2 , und wir setzen A† GA = Φ, A† Gx = F mit
Φmn =
N φm (xi ) φn (xi ) i=1
Fm =
δyi2
N φm (xi ) · yi i=1
δyi2
= [wφm (x)φn (x)]
= [wφm (x)y]
Der Fit nach (4.155) ergibt p ˆ = Φ−1 F oder ˆ ck =
M
Φ−1 km Fm
(4.169)
m=1
Die Kovarianzmatrix der ˆ ck ist C c = Φ−1 Das minimale Chiquadrat ist χ2min = [wy 2 ] − N − M Freiheitsgrade.
M
cm [wφm (x)y] m=1 ˆ
und hat
Die Parameter sind unkorreliert, wenn die Funktionen φm orthogonal sind bez¨ uglich des Produkts φ ◦ ψ :=
N φ(xi ) ψ(xi ) i=1
δyi2
172
4. Statistische Inferenz
F¨ ur a¨quidistante St¨ utzstellen im Intervall [a, b] und gleiche Fehler δyi = const ist dies gleichwertig zur Orthogonalit¨ at bez¨ uglich φ ◦ ψ :=
b φ(x) ψ(x) dx a
Aus diesem Grund sind etwa Polynom-Fits numerisch stabiler (Matrixinversion!), wenn man statt φm (x) = xm im Intervall [a, b] Legendrepolynome φm (x ) = Pm (x ) im Intervall [−1, 1] benutzt, mit x = 2(x − a)/(b − a) − 1. Auch andere orthogonale Polynome, etwa Tschebyschew-Polynome, eignen sich gut f¨ ur Polynom-Fits.
Aufgaben 4.8. Berechnen Sie den Fehler auf den Sch¨atzwert (4.150). 4.9. Computeraufgabe: Schreiben Sie ein Geraden-Fit-Programm und testen Sie es mithilfe der Monte-Carlo-Rechnung. Nehmen Sie gaußverteilte Fehler in y und exakte Werte in x an. Schreiben Sie zun¨ achst eine Funktion gauss(), entweder nach der Methode in Aufgabe 2.16 (zentraler Grenzwertsatz) oder 2.8 (Box-MullerTransformation). Geben Sie sich Steigung und Achsenabschnitt vor, z. B. y = 2x − 4 Dann erzeugen Sie 20 Messpunkte“ zu x1 = 0, x2 = 0.5, x3 = 1.0, . . . , x20 = ” 9.5, indem Sie zum Erwartungswert y(xi ) eine gaußverteilte Zufallszahl addieren, also yi = y(xi ) + σ · gauss(). Die Wertepaare (xi , yi ) dienen dann als Ausgangsdaten f¨ ur Ihr Fit-Programm. Das Programm sollte Resultate und die Kovarianzmatrix f¨ ur Steigung und Achsenabschnitt der Geraden ausgeben. 4.10. Fit einer Parabel: Geben Sie einen Algorithmus an, der die Parameter einer Parabel yˆ = ax2 + bx + c aus der Messreihe (xi , yi ± δyi )i=1...N durch einen Minimum-Chiquadrat-Fit bestimmt. Computeraufgabe: Testen Sie den Algorithmus mit Monte-Carlo-Datenpunkten.
4.7. Minimum-Chiquadrat-Sch¨ atzung a)
2.5 y 2.0 •
• •
1.5 1.0
•• ••
c)
b) •
•• • •• • ••• • •
•
2.0 y 1.5 1.0
•
•
• ••
• •• • • •• • • ••••
•
•
2.0 y 1.5
•
•
••
• •
1.0
•••• •• •• • • •
• •
•
0.5
0.5
0.5
173
0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0 x x x Abb. 4.13 Verschiedene Messdaten, deren Erwartungswerte auf einer Parabel liegen. Die Fehler sind in (a) um einen Faktor 2 untersch¨ atzt, in (b) korrekt und in (c) um einen Faktor 2 u ¨ bersch¨ atzt. 0.0
4.7.5
Beurteilung von Fehlerbalken
Eine optische Kontrolle von Daten in einem Diagramm ist meist hilfreicher als ein quantitativer Test. Ob die Absch¨ atzung der Fehler zu sinnvollen 1σFehlerbalken f¨ uhrt, kann man mit bloßem Auge kontrollieren. Grob u ¨ beroder untersch¨ atzte Fehler fallen dadurch auf, dass die Datenpunkte zu stark springen oder im Gegenteil zwischen benachbarten Bins stark korreliert sind. Beispiel 4.33. In Abbildung 4.13 sind drei Messreihen zu sehen, bei denen die Messwerte y durch ein Polynom zweiten Grades in x beschrieben werden. Im mittleren Bild (b) sind die Messfehler korrekt gesch¨ atzt, im linken (a) sind sie zu klein und im rechten (c) zu groß. Nach dem Fit kann man das am χ2 -Wert im Minimum erkennen: χ2a = 88.0, χ2b = 16.4, χ2c = 7.1. Der Erwartungswert ist 17 (20 Datenpunkte, 3 Parameter). Aber schon vor dem Fit erkennt man mit etwas ¨ Ubung die Diskrepanz zwischen der Streuung der Punkte und den eingezeichneten Fehlerbalken mit bloßem Auge.
4.7.6
Fit bei nichtlinearem Zusammenhang
Vom linearen Fall wollen wir nun zum allgemeinen Fall x ˜ = φ(p) gehen, unter sonst gleichen Voraussetzungen, d. h. mit Messdaten x = (x1 , . . . , xN ) mit Kovarianzmatrix C x , Gewichtsmatrix G = C −1 x und Parametern p = (p1 , . . . , pM ), M < N . Lokale Linearisierung durch die Taylorreihe ergibt ∂φi mit Aij = ∂pj
x ˜ = φ(p(0) ) + A · (p − p(0) ) + . . . p(0)
(4.170)
174
4. Statistische Inferenz
Man erh¨ alt die L¨osung durch Iteration des linearen Problems, also (4.155) mit Startwerten p ˆ(0) : ˆ(n) + (A(n)† GA(n) )−1 A(n)† G x − φ(ˆ p(n) ) p ˆ(n+1) = p mit
(n) Aij
(4.171)
∂φi = . ∂pj p(n)
Die Konvergenz ist nicht selbstverst¨andlich, ist jedoch φ in der Umgebung des Maximums stetig, so konvergiert das Verfahren bei einem hinreichend nahen Startwert p ˆ(0) schnell gegen das Minimum. Hat man kein passendes Startwerte-M -Tupel (durch Vorinformation, andere Experimente, Theorie), so kann man einen geeigneten Wert durch Zufallszahlen (Suche nach min χ2 ) erhalten. Eine Approximation der Kovarianzmatrix von p ˆ ist C p = (A† GA)−1
(4.172) ∂φi , die im Rahmen der linearen N¨ aherung gilt. Im Gegensatz mit Aij = ∂pj p ˆ
zum linearen Fall sind die gesch¨atzten Parameter p ˆ nicht mehr gaußverteilt.
Aufgabe 4.11. Passen Sie die Funktion y = sin px an die Daten einer Messreihe (xi , yi ± δyi )i=1...N an. Computeraufgabe: Testen Sie Ihre L¨ osung mit Monte-Carlo-Datenpunkten.
4.7.7
Ausgleichsrechnung mit linearen Constraints
Eine Variante des linearen Problems sind lineare Nebenbedingungen. In diesem Fall betrachten wir die Werte einer Messreihe x = (x1 , . . . , xN ) mit ˜ = Kovarianzmatrix: C x als direkte Messung von N Parametern p = x ˜N ). Allerdings sind die Parameter nicht unabh¨angig, sondern durch (˜ x1 , . . . , x M Zwangsbedingungen (engl. constraints) miteinander verkn¨ upft: F = B˜ x+b=0
(4.173)
4.7. Minimum-Chiquadrat-Sch¨ atzung
175
Dabei ist B = (Bij ) eine (M ×N )-Matrix und b = (b1 , . . . , bM ) ein M -Tupel. angig. Es sind also nur N − M Werte der x1 , . . . , xN unabh¨ F¨ ur die gemessenen Werte gilt (4.173) nicht, da sie durch zuf¨ allige Fehler ε (beschrieben durch C) von den wahren Werten abweichen. Es ist daf¨ ur wegen x = x ˜+ε F = Bx + b − Bε = 0 (4.174) mit χ2 = εGε Ein Fit (oft kurz als M C-Fit bezeichnet, z. B. 4C-Fit f¨ ur M = 4) gibt korrigierte, ausgeglichene Messdaten x ˆ , die die Gleichung (4.173) erf¨ ullen: ˆ = Bˆ F x+b=0
(4.175)
Ein eleganter L¨osungsweg ist die Methode der Lagrange-Multiplikatoren α. Die Lagrange-Funktion x + b) L(˜ x, α) = χ2 + α(B˜ = (x − x ˜ )G(x − x ˜ ) + α(B˜ x + b)
(4.176)
hat ein Minimum, das durch dL = 0 gegeben ist:
∂L ∂ˆ xi
= −2G(x − x ˆ) + B†α = 0 i=1...N ∂L = Bˆ x+b=0 ∂αk k=1...M
6 N Gleichungen (4.177) 6 M Gleichungen (4.178)
Damit kann man N +M Unbekannte {ˆ xi }i=1...N und {αk }k=1...M bestimmen. Die letzten M Gleichungen sind gerade die Constraints. Sind sie erf¨ ullt, was ur von der L¨ osung ja von vornherein verlangt wurde, so ist L(˜ x, α) = χ2 f¨ jedes α, also auch min L = min χ2 . Die L¨osung erh¨ alt man mit 1 x ˆ = x − CB † α 2
(4.179)
aus (4.177). Einsetzen in (4.178) ergibt 1 B(x − CB † α) + b = 0 2
α = 2(BCB † )−1 (Bx + b)
(4.180)
176
4. Statistische Inferenz
(4.180) in (4.179) eingesetzt liefert x ˆ = x − CB † (BCB † )−1 (Bx + b)
(4.181)
Die Kovarianzmatrix von x ˆ kann man wegen des linearen Zusammenhangs (4.181) x ˆ = [1 − CB † (BCB † )−1 B]x − [CB † (BCB † )−1 Bb] wieder direkt angeben ˆ = [1 − CB † (BCB † )−1 B]C[1 − CB † (BCB † )−1 B]† C = C − 2CB † (BCB † )−1 BC + CB † (BCB † )−1 BC[CB † (BCB † )−1 B]† = C − CB † (BCB † )−1 BC
(4.182)
Die Gr¨oße ˆ )C −1 (x − x ˆ) χ2min = (x − x † † −1 = CB (BCB ) (Bx + b)C −1 CB † (BCB † )−1 (Bx + b) = F 0 (BCB † )−1 F 0
(4.183)
mit F 0 = (Bx + b) ist chiquadratverteilt mit M Freiheitsgraden. Die Zahl der Parameter ist N − M , da jeder Constraint daf¨ ur sorgt, dass man einen neuen xi -Wert als Funktion der verbleibenden eindeutig berechnen kann. Die Zahl der Freiheitsgrade ist N − (N − M ) = M . Beispiel 4.34. 1C-Fit von 2 unkorrelierten Messgr¨ oßen Messgr¨ oßen: x ± δx, y ± δy Constraint: ˆ x+ˆ y = c =⇒ ˆ y =c−ˆ x gesucht: ˆ x, ˆ y Der Fit kann als Sonderfall des linearen Problems mit einem freien Parameter x behandelt werden. ˆ x ist dann gegeben durch das Minimum von x, ˆ y ) = (ˆ x − x)2 /(δx)2 + (ˆ y − y)2 /(δy)2 χ2 (ˆ = (ˆ x − x)2 /(δx)2 + (c − ˆ x − y)2 /(δy)2 = min 2(c − ˆ x − y) 2(ˆ x − x) dχ2 − =0 = dˆ x (δx)2 (δy)2 ˆ x=
(c − y)/(δy)2 + x/(δx)2 ±d 1/(δy)2 + 1/(δx)2
ˆ y=
y/(δy)2 + (c − x)/(δx)2 ±d 1/(δy)2 + 1/(δx)2
d2 =
1 1/(δy)2 + 1/(δx)2
(4.184)
4.7. Minimum-Chiquadrat-Sch¨ atzung
177
Ein Fit nach dem Lagrange-Formalismus (4.176) ist immer dann erforderlich, wenn man die Constraint-Gleichungen nicht wie hier aufl¨ osen kann. In diesem Fall bildet man die Lagrange-Funktion, in der zwei Parameter“ ˆ x und ˆ y vorkommen, aber ” zus¨ atzlich die Constraints multipliziert mit Lagrangefaktoren, hier ein Term α · constraint. y − y)2 /(δy)2 + α(ˆ x+ˆ y − c) L(ˆ x, ˆ y , α) = (ˆ x − x)2 /(δx)2 + (ˆ 2(ˆ x − x) dL +α=0 = dˆ x (δx)2 2(ˆ y − y) dL +α=0 = dˆ y (δy)2 dL =ˆ x+ˆ y−c=0 dα mit der L¨ osung (4.181):
ˆ x ˆ y
=
x y
1 − 2 δx + δy 2
δx2 δy 2
(x + y − c)
Beispiel 4.35. Der Energie-Constraint vom Υ (4S): Wird an einem symmetrischen Speicherring die Reaktion e+ e− → Υ (4S) → BB zur Produktion von B-Mesonen genutzt, so ist die Energie jedes der beiden BMesonen genau eine Strahlenergie Eb (die halbe Schwerpunktsenergie bzw. Υ (4S)Masse). Werden die Zerfallsprodukte eines B-Mesons vollst¨ andig gemessen, erh¨ alt man aus der Summe ihrer Viererimpulse Impuls und Energie des B-Mesons p = orige Kovarianzmatrix C, (E, px , py , pz ) und aus der Fehlerfortpflanzung die zugeh¨ 2 deren Elemente wir mit CEE = σE , CEx = CxE , Cxy = Cyx . . . bezeichnen. Der lineare Energieconstraint ist einfach ˆ − Eb = 0 F =E und damit B = (1, 0, 0, 0),
b = −Eb
Die L¨ osung nach (4.181) ist ˆ = Eb E ˆ − E = Eb − E ΔE = E C ˆ px = px + Ex ΔE 2 σE CEy ˆ py = py + 2 ΔE σE CEz ˆ pz = pz + 2 ΔE σE 2 2 und CB † = (σE , CEx , CEy , CEz ). wobei der Term BCB † = σE
178
4. Statistische Inferenz
Die neue Kovarianzmatrix ist CEμ CEν 2 σE und ergibt kleinere Fehler auf korrigierte Energie und Impuls. Diese Methode gilt f¨ ur alle Paarproduktions-Prozesse mit bekannter Anfangsenergie. ˆ μν = Cμν − C
4.7.7.1
Unscharfe Constraints
Oft ist eine Zwangsbedingung selbst mit einem Fehler behaftet. In diesem Fall macht man wieder einen – ganz normalen – Minimum-Chiquadrat-Fit. Beispiel 4.36. Der realistische Energie-Constraint vom Υ (4S): In Beispiel 4.35 wurde die Strahlunsch¨ arfe vernachl¨ assigt. Tats¨ achlich hat man keine scharfe Zwangsbedingung, sondern nur E = Eb ± σB . Dabei ist σB = √1 σb , 2 da beide Strahlen unkorreliert zur Gesamtenergie beitragen, aber die Energie eines B-Mesons genau die H¨ alfte der Gesamtenergie ist. Statt eines Lagrange-Terms hat man einen weiteren Beitrag zu χ2 : ˆ − Eb )2 (E −1 (ˆ pμ − pμ )Cμν (ˆ pν − pν ) + χ2 = 2 σB μ,ν
ˆ Ableiten ergibt mit p0 ≡ E und ˆ p0 ≡ E. ˆ − Eb ∂χ2 E −1 = 2Cμν (ˆ pν − pν ) + 2δμ0 =0 2 ∂pμ σB oder in⎡ Matrixschreibweise ⎛ ⎞⎤ ⎛ ⎞ 2 2 Eb /σB 1/σB 0 0 0 ⎜ 0 ⎟ ⎢ −1 ⎜ 0 0 0 0 ⎟⎥ ˆ − C −1 p − ⎝ ⎠⎦ p ⎠=0 ⎣C + ⎝ 0 0 0 0 0 0 0 0 0 0
⎡
⎛
2 2 σE /σB 2 ⎢ ⎜ CEx /σB ⎣1 + ⎝ C /σ 2 Ey B 2 CEZ /σB
⎛
0 0 0 0
0 0 0 0
Die L¨ osung ist 2 2 ˆ = σ B E + σE E b E 2 2 σ B + σE
ˆ −E = ΔE = E
2 σB
2 σE (Eb − E) 2 + σE
CEx ΔE 2 σE CEy ˆ py = py + 2 ΔE σE CEz ˆ pz = pz + 2 ΔE σE
ˆ px = px +
⎞
2 2 ⎞⎤ σE /σB 0 2 ⎟ ⎜ CEx /σB 0 ⎟⎥ ⎜ ⎟ 2 ˆ = p + ⎜ CEy /σB ⎟ Eb = 0 ⎠⎦ p 0 ⎝ 2 ⎠ CEz /σB 0
4.7. Minimum-Chiquadrat-Sch¨ atzung
179
mit der neuen Kovarianzmatrix ˆ μν = Cμν − C
CEμ CEν 2 + σ2 σE B
Ein exakter Constraint ergibt sich daraus durch σB → 0. Das so minimierte Chiquadrat hat einen Freiheitsgrad (ein Constraint).
4.7.7.2
Mittelbare Messung mit Constraints
Der lineare Fall mittelbarer Messungen x = Ap + a von M Parametern mit K linearen Nebenbedingungen Bp + b = 0 l¨asst sich ebenfalls mithilfe der Lagrange-Funktion L = (Ap + a − x)G(Ap + a − x) + α(Bp + b) l¨osen:
∂L = −2A† G (Aˆ p + a − x) + B † α = 0 ∂ˆ xi i=1...N ∂L = Bˆ p+b=0 ∂αk k=1...M Es ist T := A† GA U := BT −1 B † p ˆ = C A† Gx − T −1 B † U −1 b p
C p = T −1 − T −1 B † U −1 BT −1
(4.185)
180
4. Statistische Inferenz
4.7.8
Ausgleichsrechnung mit allgemeinen Constraints
Den nichtlinearen Fall wollen wir zun¨ achst am einfachen Beispiel 2 Messwerte, 1 Constraint betrachten. Aus den Messdaten x, y mit Kovarianzmatrix C (und G = C −1 ) wollen wir ausgeglichene Messdaten x ˆ, yˆ unter der Nebenbedingung F (ˆ x, yˆ) = 0 gewinnen. Das Minimum von χ2 (ˆ x, yˆ) = Gxx (˜ x − x)2 + 2Gxy (˜ x − x)(˜ y − y) + Gyy (˜ y − y)2
(4.186)
ist gegeben durch dχ2 = 0. Wegen der Nebenbedingung k¨onnen x und y nicht unabh¨ angig voneinander variieren, daher muss man das totale Differenzial berechnen. dχ2 ∂χ2 ∂χ2 d˜ y = + =0 (4.187) d˜ x ∂x ˜ ∂ y˜ d˜ x Gleichzeitig folgt aus der Nebenbedingung F (˜ x, y˜) = 0 = const ∂F ∂F d˜ y dF = + =0 =⇒ d˜ x ∂x ˜ ∂ y˜ d˜ x d˜ y ∂F D ∂F =⇒ =− d˜ x ∂x ˜ ∂ y˜
(4.188)
Damit erhalten wir den Lagrange-Multiplikator α := −
∂χ2 d˜ y D ∂F ∂χ2 D ∂F = ∂ y˜ ∂ y˜ ∂ y˜ d˜ x ∂x ˜
(4.189)
Einsetzen in (4.187) ergibt dχ2 ∂χ2 ∂F = +α =0 d˜ x ∂x ˜ ∂x ˜
(4.190)
Dies ist aber eine Minimumsbedingung ∂L/∂ x ˜ = 0 aus der LagrangeFunktion (4.191) L = χ2 + α · F y = 0 zu ∂L/∂ y˜ = 0 mit demselben α, und die Entsprechend wird dχ2 /d˜ dritte Bedingung ∂L/∂α = F = 0 ist der Constraint. Die Methode ist also nicht nur f¨ ur lineare, sondern f¨ ur beliebige Constraints anwendbar. Allerdings gibt es dann keinen geschlossenen Ausdruck mehr f¨ ur die L¨ osung. Im allgemeinen Fall von N Messdaten x = (x1 , . . . , xN ) mit Kovarianzmatrix C sollen die ausgeglichenen Messdaten x ˆ M Constraints F (ˆ x) = 0 erf¨ ullen.
4.7. Minimum-Chiquadrat-Sch¨ atzung
181
∂Fi ˆ := ∂Fi zwei ungef¨ahr gleiche (M ×N )-Matrizen. Es sind B := ∂x und B ∂x j j x x ˆ Die Constraints kann man dann entwickeln als F (ˆ x) = F (x) + B(ˆ x − x) + O(ε2 ) ˆ x − x) + O(ε2 ) = F (x) + B(ˆ Dann ist nach der Methode der Lagrange-Multiplikatoren die LagrangeFunktion L = χ2 + αF = (x − x ˜ )C −1 (x − x ˜ ) + αF mit Minimum dL = 0 ∂L ˆ †α = 0 = −2C −1 (x − x ˆ) + B ∂ˆ xi i=1...N ∂L = F (ˆ x) = 0 ∂αk k=1...M
(4.192)
6 N Gleichungen (4.193) 6 M Gleichungen (4.194)
Dies sind N + M Gleichungen f¨ ur N + M Unbekannte: {ˆ xi }i=1...N und {αk }k=1...M . Im Gegensatz zum linearen Problem ist B nicht mehr konstant. Aus (4.193) folgt
1 ˆ† α x ˆ = x − CB 2
(4.195)
(4.195) in (4.194) =⇒ 1 ˆ† α) = 0 F (x − C B 2
1 ˆ †α ≈ F (x) − BC B 2 ˆ † )−1 F (x) α ≈ 2(BC B
(4.196)
ˆ an der Stelle x Bei der Entwicklung in eine Taylorreihe k¨onnen wir statt B ˆ auch B an der Stelle x verwenden. Gleichung (4.196) in (4.195) ergibt dann x ˆ = x − CB † (BCB † )−1 F (x)
(4.197)
ˆ (0) = B. Iterativ kann man die N¨ aherung verbessern. Als Startwert dient B ˆ (n) C ˆ (n)† (B ˆ (n) B ˆ (n)† )−1 F (ˆ x(n) ) B ˆ (n) − C ˆ (n) B ˆ (n) C ˆ (n)† (B ˆ (n) B ˆ (n)† )−1 B ˆ (n) C ˆ (n) =C
ˆ x ˆ (n+1) = x ˆ (n) − C ˆ (n+1) C
(n)
(4.198)
182
4. Statistische Inferenz
ˆ und C (C). ˆ Dabei a¨ndert sich mit jeder Iteration x ˆ , B (B) ˆ auskommt, entwickelt F an Eine zweite Variante, die ohne Iteration von C der Stelle x ˆ . Dann ist ˆ −x F (x) = F (ˆ x) + B(x ˆ) und es wird aus (4.198) ˆ (n)† (B ˆ (n)† )−1 [F (ˆ ˆ (n) (x − x ˆ (n) C B x(n) ) + B ˆ (n) )] x ˆ (n+1) = x − C B
(4.199)
Im Verlauf dieser Iteration wird der nichtlineare Constraint F (ˆ x(n) ) immer (n) ˆ (x− x ˆ (n) ) w¨achst und kleiner, w¨ ahrend gleichzeitig die lineare N¨aherung B seine Funktion u ¨bernimmt. Beispiel 4.37. Der Massen-Constraint-Fit: In einem Spektrometer werden Impulse geladener Teilchen gemessen. Sind zwei oder mehr Teilchen die Zerfallsprodukte eines Zustands bekannter Masse, etwa K 0 → π + π − oder D+ → K − π + π + , so kann man die Fehler auf die gemessene Impulssumme p = (E, p) = p1 + p2 + . . . mit Kovarianzmatrix C reduzieren, indem man die Masse dieses Zustands aufzwingt. Der Constraint ist ˆ2 − p ˆ2 = ˆ pMˆ p = m2 E
⎛
1 ⎜0 mit dem metrischen Tensor M = ⎝ 0 0
0 −1 0 0
0 0 −1 0
⎞
0 0 ⎟ . 0 ⎠ −1
Aus (4.193) erh¨ alt man p − p) + 2αMˆ p=0 2C −1 (ˆ
=⇒
ˆ p = p − αCMˆ p
Einsetzen in ein ˆ p beim Constraint ergibt pMˆ p − αˆ pM CMˆ p − m2 = 0 α=
pMˆ p − m2 ˆ pM CMˆ p
ˆ p=p−
pMˆ p − m2 CMˆ p ˆ pM CMˆ p
Dies kann als Iterationsformel verwendet werden. Die Iteration nach (4.199) ist ˆ p(n+1) = p − 2
(2p − ˆ p(n) )Mˆ p(n) − m2 CMˆ p(n) ˆ p(n) M CMˆ p(n)
(4.200)
4.8. Fit von Verteilungen
4.8
183
Fit von Verteilungen
H¨aufig bestimmt man Parameter eines physikalischen Modells aus statistischen Verteilungen von Daten. Handelt es sich um eine Menge von Messungen einer Variablen, so kann man ihre Verteilung in einem Histogramm darstellen (vgl. Abschnitt 4.1.4). Die Dichte ist dann ein Kurven-Fit an dieses Histogramm. Die Messung von Z¨ahlraten als Funktion der Zeit bestimmt beispielsweise die mittlere Lebensdauer eines radioaktiven Kerns, die man durch den Fit einer Exponentialfunktion an dieses Histogramm erh¨alt.
4.8.1
Multinomial- und Poisson-Fit an Histogramme
Der Fit einer Dichte f (x|p) an ein Histogramm mit k Bins in x [ai , bi ]i=1...k k mit Inhalt (ni )i=1...k , aus einer Gesamtzahl von i=1 ni = N Messwerten ergibt Sch¨atzungen der Parameter p und der erwarteten Gesamtzahl von Ereignissen (= Eintr¨agen) N . F¨ ur den Fit ben¨otigt man die erwartete Wahrscheinlichkeit f¨ ur einen Eintrag bi in Bin i: fi = f (x|p) dx (vgl. Abschnitt 4.1.4.1). Alle Wahrscheinlichkeiten ai
zusammen m¨ ussen die Bedingung k
fi = 1
i=1
erf¨ ullen, was man zur Normierung von f verwenden kann, falls diese unbeˆ · fi . kannt ist. Der Erwartungswert eines Bininhalts ist dann ni = μi := N Haben alle Bins die gleiche Breite Δx, und ist Δx klein gegen die Distanz, in der sich f signifikant nichtlinear a¨ndert, so kann der erwartete Inhalt durch ˆ ·f (xi |p)·Δx approximiert werden, dem Funktionswert in der Binmitte μi ≈ N ai +bi ˆ Δx. xi = 2 skaliert mit dem Faktor N Unabh¨ angigdavon kann man sofort den ML-Wert des Erwartungswerts ˆ = N. ˆ = k μi angeben: Ein Poisson-Fit ergibt N N = N i=1 Die Verteilung auf die Bins ist dann ein ML-Fit30 einer Multinomialverteilung μ n 1 μ n 2 μ nk N! 1 2 k ··· l= n1 ! n2 ! · · · nk ! N N N k k L(p) = ni ln μi + c = ni ln fi + c (4.201) i=1
=
k
i=1
ni (ln μi − ln ni )
i=1 30
Die willk¨ urliche Konstante c aller Log-Likelihoods L ist jeweils so gew¨ ahlt, dass L = 0 falls alle μi = ni , genau wie beim Chiquadrat-Fit.
184
4. Statistische Inferenz
mit μi = N fi . Das Maximum von L findet man i. Allg. nur durch numerische Minimierungsverfahren (z. B. mithilfe des Programmpakets MINUIT). Gleichwertig dazu ist der Poisson-Fit 6 1 μn1 1 μn2 2 · · · μnk k exp − μi n1 ! n2 ! · · · nk ! k L(p) = ni ln μi + c l=
(4.202)
i=1
=
k
ni (ln μi − ln ni )
i=1
wenn man als Nebenbedingung erzwingt, dass μi = N ist. Geht man von dieser Forderung ab, so erh¨alt man als Poisson-Fit ˆ) = L(p, N
k
ni ln μi − μi + c
i=1
=
k
ni ln fi +
i=1
=
k
ˆ− ni ln N
k
i=1
ni − μi + ni ln
i=1
k
ˆ + c fi N
(4.203)
i=1
μi ni
(4.204)
ˆ fi . Dies wird gelegentlich als extended ML-Fit“ bezeichnet, mit μi = N ” entspricht aber einem simultanen Multinomial-Fit f¨ ur p nach (4.201) und ˆ Poisson-Fit f¨ ur N ˆ ) = N ln N ˆ −N ˆ + c L(N ˆ N ˆ) + (N − N = N ln N ˆ =N max L : N ˆ fi und Wegen μi = N
(4.205)
ˆ ) identisch mit (4.203). fi = 1 ist L = L(p) + L(N
Es sei daran erinnert, dass die Multinomialverteilung f¨ ur k Bins k−1 Parameter hat. Nur wenn die Gesamtzahl aller Bininhalte ebenfalls ein interessierender Parameter ist, sind es k Parameter, die man direkt aus dem Poisson-Fit aller Bins bestimmt. Ist N nicht von Interesse, sondern nur die Aufteilung, ist der Multinomial-Fit von k − 1 Parametern die Methode der Wahl, und ˜ tragen nicht die Fehlerbeitr¨age der Fluktuation von N um den Mittelwert N zum Fehler bei: Die Fehler des Multinomial-Fits sind daher kleiner als die Fehler des Poisson-Fits.
4.8. Fit von Verteilungen
185
Der Poisson-Fit (4.204) hat jedoch zwei praktische Vorteile: •
Misst man einen Parameter, der auch von der Ereigniszahl abh¨angt, so ˆ den richtigen Fehler und erh¨ alt man durch den gleichzeitigen Fit mit N die Korrelationen mit der Ereigniszahl.
•
Kennt man die Normierung von f nicht, kann man sie in einem weiteren Parameter ν mit der Gesamtzahl kombinieren und verwendet die Dichte N · f (x|p) = ν(p) · g(x|p) mit einer unnormierten Funktion g. Dann ist ν(p) = bk a1
N
(4.206)
g(x|p) dx
Statt p und N fittet man also p und ν. Den Zusammenhang (4.206) braucht man nicht explizit zu kennen. Man darf aber im Fit die Nebenbedingung μi = N nicht explizit erzwingen, da man den Freiheitsgrad der Normierung als unabh¨angigen Parameter ben¨otigt. Sie ist wegen (4.205) automatisch gew¨ ahrleistet. Die Log-Likelihood-Funktion daf¨ ur ist L(p, ν) =
k
ni ln gi + N ln ν − ν
i=1
k
gi
(4.207)
i=1
bi i mit gi = g(x|p) dx ≈ g( ai +b 2 |p)Δx. Die letzte Summe entspricht a i ν g(x) dx und ist nach (4.206) im Maximum von L gleich N . ¨ Die Aquivalenz von Mulinomial-Fit und Poisson-Fit kann man am besten an einem einfachen Beispiel sehen. Gibt es nur zwei Ereignisklassen A und B, so kann man aus den Messwerten a = #(A), b = #(B) mit N = a + b die Wahrscheinlichkeit α = a/N aus der Binomialverteilung von a N a α (1 − α)b P (a) = a und den Erwartungswert n = N aus der Poisson-Verteilung von N P (N ) =
e−n nN N!
sch¨atzen. Ein ML-Fit der Binomialverteilung ergibt f¨ ur die Wahrscheinlichkeit α = a/N L(ˆ α) = a ln α ˆ + b ln(1 − α ˆ) b a S(ˆ α) = − α ˆ 1−α ˆ
(4.208)
186
4. Statistische Inferenz
mit einem Maximum bei α ˆ = a/(a+b) = a/N . Sind wir nur an α interessiert, ist das Problem damit gel¨ ost. Ist dagegen die Zahl N selbst Resultat eines Zufallsexperiments, weil z. B. die Messzeit vorgegeben war, hat man zwei M¨oglichkeiten: •
Man kann den Erwartungswert unabh¨angig durch einen Poisson-Fit bestimmen: ˆ ) = N ln N ˆ −N ˆ L(N (4.209) ˆ = N. mit Maximum bei N
•
Man kann die beiden Poisson-Verteilungen P (a) =
e− a aa e− b bb , P (b) = a! b!
zugrunde legen. Ein ML-Fit ist dann ein Poisson-Fit f¨ ur a ˜ = αN und ˜b = (1 − α)N L(ˆ a, ˆ b) = a ln ˆ a + b ln ˆ b − (ˆ a +ˆ b) a S(ˆ a) = − 1 ˆ a b S(ˆ b) = − 1 ˆ b
(4.210)
ˆ = N. mit Maxima bei ˆ a = a und ˆ b = b, also α ˆ = a/N und N Beide Methoden f¨ uhren offensichtlich zu den gleichen Antworten. Einen ¨ formalen Beweis der Aquivalenz beider Methoden liefert ein Vergleich von (4.208) und (4.209) mit (4.210): ˆ b a ˆ ) = a ln ˆ ˆ −N ˆ = L(ˆ L(ˆ α) + L(N + b ln + N ln N a, ˆ b) ˆ ˆ N N
(4.211)
ˆ und a + b = N . Dabei muss man beachten, dass ˆ a +ˆ b=N
4.8.2
Minimum-Chiquadrat-Fit
Sind alle Bininhalte groß, so kann die Poisson-Verteilung durch eine GaußVerteilung approximiert werden. Der ML-Fit wird dann ein MinimumChiquadrat-Fit mit χ2 = −2L =
k (ni − μi )2 i=1
μi
≈
k (ni − μi )2 i=1
ni
(4.212)
4.8. Fit von Verteilungen
187
Wenn der Unterschied zwischen ni und μi signifikant wird, liefert σ(ni ) = √ μi i. Allg. die zuverl¨ assigeren Ergebnisse. Andererseits ist dies ein Grund, zum genaueren Poisson-Fit u ¨berzugehen. Hat man ein Histogramm, dessen Inhalt nicht poissonverteilt ist, z. B. weil es durch Subtraktion zweier Histogramme entstanden ist oder weil es mit gewichteten Daten gef¨ ullt wurde, bleibt einem nur die M¨oglichkeit eines Minimum-Chiquadrat-Fits mit χ2 = −2L =
k (ni − μi )2 i=1
4.8.3
σ 2 (ni )
Der Poisson-Fit als iterativer Minimum-Chiquadrat-Fit
Der Maximum-Likelihood-Fit einer Verteilung mit m Parametern p = (pj )j=1...m an ein Histogramm mit k Bins (ni )i=1...k mit Erwartungswerten ni = μi (p) wird als Maximum-Likelihood-Fit mit der Log-Likelihood L(p) =
k
ni ln μi −
i=1
k
μi
(4.213)
i=1
aus Logarithmen der Poisson-Verteilungen P (ni |p) = e−μi μni i /ni ! durchgef¨ uhrt. Dazu setzen wir die m Score-Funktionen ∂L(p) ni ∂μi (p) ∂μi (p) = − ∂pj μ ∂pj ∂pj i=1 i i=1 k
Sj (p) =
k
(4.214)
f¨ ur j = 1 bis m gleich 0. Das ist ein System von m Gleichungen k p) ∂μi (p) ni − μi (ˆ · =0 μi (ˆ p) ∂pj p=ˆp i=1 deren L¨osung (evtl. eine von mehreren L¨osungen) p ˆ mit maximalem L(ˆ p) ist. Das ist dasselbe wie die Minimierung von χ2 =
k (ni − μi (p))2 i=1
mit
k ∂χ2 = −2 ∂pj i=1
μ ˜i
p) ∂μi (p) ni − μi (ˆ · =0 μ ˜i ∂pj p=ˆp
(4.215)
(4.216)
188
4. Statistische Inferenz
√ f¨ ur konstante Fehler σi = μ ˜i (d. h. μ ˜i sind keine Funktionen der pj ). Die Gleichungen (4.214) und (4.216) sind bis auf den Faktor −2 gleich und haben dieselbe L¨osung, wenn μ ˜i = μi (p) ist. Das erreicht man durch einen iterativen Minimum-Chiquadrat-Fit31 , wobei ˆi ersetzt. Als Startwerte nimmt man μ ˜i durch den jeweils besten Sch¨atzwert μ man beispielsweise μ ˆi(0) = ni f¨ ur ni = 0 und μ ˆi(0) = 0.5 f¨ ur ni = 0. Selbst oglich. Dann berechnet man das minimale χ2 aus (4.215) und μ ˆi(0) ≡ 1 ist m¨ erh¨ alt die erste Sch¨atzung der Parameter p ˆ(0) . Diese Minimierung wird iteriert, indem man f¨ ur μ ˜i den jeweils besten (konp(n−1) ) in (4.216) einsetzt, um jeweils die n¨ achste stanten) Wert μ ˆi(n) = μi (ˆ ˆ konvergieren. N¨aherung p ˆ(n) zu erhalten, bis die Werte zu p Die Methode eines iterativen Minimum-Chiquadrat-Fits funktioniert nicht nur f¨ ur poissonverteilte μ, sondern auch bei allen anderen Verteilungen der exponentiellen Familie (4.108).
4.8.4
Darstellung einer Fit-Funktion
Ein Vergleich eines Histogramms (mit Fehlerbalken!) mit der angefitteten Funktion kann auf zwei Arten dargestellt werden: •
Die Funktion ist glatt, also als Dichtefunktion, u ¨ber die Daten gezeichnet (Darstellung a in Abbildung 4.14). Diese Form eignet sich f¨ ur Binbreiten, die so klein sind, dass sich die Funktion von Bin zu Bin nur wenig ¨andert oder deren Verlauf innerhalb eines Bins linear ist. In Histogrammen mit vielen Bins erlaubt sie eine deutliche Unterscheidung zwischen Daten und Fit-Funktion und ist daher die am besten geeignete Darstellung. ahlen. Dies erAls Ordinate sollte man N1 dn dx nach Gleichung (4.41) w¨ laubt Bins unterschiedlicher Breite, und die Dichte f (x) kann ohne Zusatzfaktoren dar¨ uber gezeichnet werden.
•
Die Funktion ist als Histogramm (ohne Fehler) u ¨ber die Daten gezeichnet (Darstellung b in Abbildung 4.15). Diese Form eignet sich f¨ ur wenige, breite Bins, bei denen ja das Integral der Funktion mit dem Bininhalt verglichen werden muss. Statt einer stark variierenden Funktion, die man nur schwer mit dem Auge integrieren und mit dem in der Binmitte gezeichneten Fehlerintervall vergleichen kann, ist der integrierte Funktionswert als Histogrammbalken die tats¨achliche Gr¨ oße, die eine Einsch¨ atzung der G¨ ute des Fits unmittelbar erlaubt.
31
H. Dembinski, M. Schmelling, R. Waldi, Application of the Iterated Weighted Least-Squares Fit to counting experiments, Nucl. Instr. and Meth. A940, 135 (2019).
4.8. Fit von Verteilungen
0.3 1 dN N dx 0.2
0.1
a)
..... .. ... .. .. ... •..... . ... .. ... .. ... ... ... .. .. ... .. ... .. ... . ... ... .. ... . ... • ... ... . ... ... .. ... .. ... .. ..•. . ... ... ... . . . ..... . . . . ...........•.................•......... . . . ........• ...................•.
0
189
b)
0.3 •
0.2 •
0.1
•
•
•
•
•
5
Abb. 4.14
0 5 x 10 x 10 Verschiedene Darstellungen einer Fit-Funktion mit den gefitteten Daten am Beispiel eines gaußverteiltes Signals auf konstantem Untergrund. Die Kurve der Dichtefunktion in den Binmitten in (a) passt nicht zu den Datenpunkten (•), da diese tats¨ achlich Integralen von f (x) u ¨ber ein Bin entsprechen. Die Darstellung (b), die das binweise Integral der Fit-Funktion als Histogramm mit den ¨ Punkten vergleicht, zeigt daher die Ubereinstimmung besser.
Beispiel 4.38. Eine Stichprobe von Werten x eines normalverteilten Signals auf konstantem Untergrund wird in 7 Bins zwischen 0 und 11.5 eingeteilt. Abbildung 4.14 zeigt die Punkte mit einem Peak bei x = 5.5 und einer Standardabweichung von σ = 1 auf einem konstanten Untergrund. Das Histogramm enth¨ alt 2000 Signalereignisse und 1000 Untergrundereignisse. Ein Minimum-ChiquadratFit ergibt die eingezeichnete Dichte mit (66.3±1.9) % Signal, Mittelwert 5.49±0.03 und σ ˆ = 0.98 ± 0.03. Der Fit an f (x) in der Binmitte ergibt eine systematische Vergr¨ oßerung der Breite, σ ˆ = 1.10 ± 0.03. Entsprechend suggeriert Abbildung 4.14a einen schlechten Fit, insbesondere der Punkt im Bereich des Maximums scheint mehr als drei Standardabweichungen von der Kurve entfernt zu liegen. Die gute ¨ Ubereinstimmung ist nur in Abbildung 4.14b zu erkennen.
4.8.5
Mehrdimensionale Verteilungen
Ein Histogramm in zwei Variablen l¨asst sich als Legoplot“ noch darstellen ” (Abbildung 4.15), allerdings ben¨ otigt man große Datenmengen, um sowohl in feinen Schritten aufzul¨osen als auch in jedem Bin hinreichend viele Eintr¨ age zu bekommen. Eine zweidimensionale Dichte f (x, y|p) kann man an ein solches Histogramm durch einen Poisson-Fit anpassen, um die Parameter p zu bestimmen. Statt an die zweidimensionale Verteilung kann man auch einen Fit an eindimensionale Histogramme durchf¨ uhren: Die Projektionen bieten eine glattere Darstellung, im Fall zweier Variablen wie in Abbildung 4.15 die beiden His-
190
4. Statistische Inferenz
n 300
2500 n 2000
250 200 150
1500
100 50 0 y 4
1000 2
0
-2
Abb. 4.15
-4
-4
-2
0
2
4
500 x
−5
0
5 x
Legoplot“ aus 25000 Ereignissen einer zweidimensionalen Gauß” Verteilung (μx = μy = 0, σx = σy = 1, ρ = −0.8) auf einem konstanten Untergrund aus ebenfalls 25000 Ereignissen. Rechts ist die Projektion auf x als eindimensionales Histogramm dargestellt.
togramme f¨ ur x (Abbildung 4.15 rechts) und y (nicht dargestellt), die man mit den Randverteilungen f1 (x|p) und f2 (y|p) vergleichen kann. Ein Simultan-Fit dieser Randverteilungen an die beiden eindimensionalen Histogramme impliziert jedoch, dass x und y unabh¨ angig sind, da im Prinzip die Dichte f (x, y|p) = f1 (x|p) · f2 (y|p) angepasst wird! Sch¨atzt man außer Form-Parametern (wie Mittelwert und Standardabweichung) auch die Signalanzahl aus einem Simultan-Fit aus zwei Verteilungen unterschiedlicher Variablen aus der gleichen Stichprobe, untersch¨ atzt man √ den Fehler auf die Signalanzahl um einen Faktor 1/ 2. Dies muss man im Resultat ber¨ ucksichtigen.
4.8.6
Einzelwert-Fit
Bei zwei und mehr Variablen werden die Bininhalte auch bei großem Stichprobenumfang zunehmend kleiner, und ein Fit an ein mehrdimensionales Histogramm ist nicht mehr praktikabel. Maximale Information erh¨alt man durch Aufl¨osen des Histogramms in Einzelmesswerte (xi )i=1...N , wobei x auch ein Tupel aus mehreren Messgr¨ oßen eines Ereignisses sein kann: L(p) =
N j=1
ln f (xj |p) + c
(4.217)
4.8. Fit von Verteilungen
191
Bei zwei Variablen ist eine Darstellung der Daten als Scatterplot“ sinnvoll ” (Abbildung 2.6). Der Einzelwert-Fit ergibt sich auch als Grenzfall unendlich vieler, feiner Bins mit Inhalt 0 oder 1 aus dem Histogramm-Fit. Ein Histogramm mit k Bins k Δx , x + ] mit Inhalt (n ) , deren Summe [xi − Δx i i i=1...k i=1 ni = 2 2 i=1...k N ist, soll durch die Dichte f (x|p) beschrieben werden (die außerhalb der Histogramm-Grenzen 0 ist). Sind die Bins sehr schmal, kann der erwartete ˆ · f (xi |p) · Δx approximiert werden. Die Gesamtzahl Inhalt durch μi ≈ N ˆ =N = wird gesch¨ atzt zu N ni . Die Multinomial-Likelihood ist L(p) =
k
ni ln f (xi |p) + c
(4.218)
i=1
W¨ahlt man die Bins so fein, dass der Inhalt entweder ni = 0 oder 1 ist, bleibt schließlich (4.217), wobei jetzt u ¨ber alle Einzelmessungen summiert wird, die gerade die Bins mit Inhalt 1 repr¨asentieren. Wir erhalten also als Grenzfall wieder die Urform des Maximum-Likelihood-Fits. Er wird gelegentlich auch als ungebinter Fit“ oder single entry fit“ bezeichnet. Tats¨achlich ist er ” ” nichts anderes ein unmittelbarer Maximum-Likelihood-Fit einer Verteilungsfunktion an Daten. Er folgt auch aus dem Poissonfit mit Binweite Δx → 0, da der Zusatzterm k i=1
μi =
k
N f (xi |p)Δx → N
f (x|p) dx = N
i=1
konvergiert, sofern f (x|p) f¨ ur alle p eine wirkliche, d. h. auf 1 normierte, Wahrscheinlichkeitsdichte ist. Gegen¨ uber einem Fit an ein Histogramm hat er gleich mehrere Vorteile: •
Die Dimension des Datenraums geht nicht in den Fit-Algorithmus ein, man muss sich also nicht auf Projektionen des Datenraums auf ein oder zwei Dimensionen und/oder sehr wenige große Bins beschr¨anken, wie es bei einem Fit an ein Histogramm erforderlich ist.
•
Jedes Ereignis geht mit seinen Messwerten in voller Pr¨azision ein, da keine Einteilung in Klassen (Bins eines Histogramms) notwendig ist.
Diese Vorteile bringen jedoch auch einen Nachteil mit sich: Die Fitqualit¨at kann nicht mehr mit einem Chiquadrat-Test (Kapitel 5) u ¨berpr¨ uft werden. Es sind stattdessen aufwendige numerische Rechnungen oder Monte-CarloSimulationen erforderlich. ˆ mitbestimmt, maximiert man Wird N ˆ) = L(p, N
N j=1
ˆ −N ˆ ln f (xj |p) + N ln N
(4.219)
192
4. Statistische Inferenz
Dies wird manchmal als extended single entry fit“ bezeichnet32 . Der Fit ist ” aber lediglich eine technische Vereinfachung, er ist identisch mit zwei Fits durch Maximieren von L(p) =
N
ln fi
(4.220)
i=1
ˆ ) = N ln N ˆ −N ˆ= L(N
N
ˆ −N ˆ ln N
i=1
ˆ. d. h. einem Maximum-Likelihood-Fit f¨ ur p und einem Poisson-Fit f¨ ur N Diese Form des Fits wird h¨ aufig angewandt, wenn f (x|p) =
m
pk fk (x)
(4.221)
k=1
ist. Im Multinomial-Fall sind nur m − 1 der pk freie Parameter, weil einer durch die Bedingung pk = 1 durch die anderen festgelegt ist. Es ist also L(p1 , . . . , pm−1 ) =
N
ln
i=1
Em−1
pk fk (xi ) +
1−
k=1
m−1
F
pk
fm (xi )
(4.222)
k=1
ˆ die physikalischen PaSind statt der Bruchteile pk die Anzahlen Nk = pk N rameter, muss man den Poisson-Fit (extended Fit) verwenden, um korrekte Fehlerabsch¨ atzungen Man verzichtet in diesem Fit auf die zu erhalten. Nk = N und Zwangsbedingung pk = 1 bzw. hat m freie Parameter. ˆ mit der Bedingung N pk = N ˆ , oder einfacher Diese sind p1 , . . . , pm−1 , N mit neuen Parametern ˆ N pk N m ˆ N pk = N pk =
k=1
ˆ ein voller Satz von m unabh¨ wodurch statt des Parameters N angigen Para metern pk verwendet werden kann. Die Likelihood-Funktion ist ˆ) = L(p1 , . . . , pm−1 , N
N i=1
32
ˆ ln N
Em−1 k=1
pk fk (xi ) +
1−
m−1
pk
F ˆ fm (xi ) − N
k=1
J. Orear, Notes on Statistics for Physicists, UCRL-8417 (1958); R. Barlow, Nucl. Instr. Meth. A297, 496 (1990).
4.8. Fit von Verteilungen mit pm = 1 −
m−1 k=1
pk oder
L(p1 , . . . , pm ) =
N
E ln
i=1
ˆ =N· mit N
m k=1
193
m
F pk fk (xi ) − N
k=1
m
pk
(4.223)
k=1
ˆk = p · N : pk , bzw. mit Ereigniszahlen N k
ˆ1 , . . . , N ˆm ) = L(N
N
E ln
i=1
=
N
E ln
i=1
m ˆ Nk k=1 m
N
F fk (xi ) − F
m
ˆk N
k=1
ˆk fk (xi ) − N ln N − N
k=1
m
ˆk (4.224) N
k=1
wobei die Konstante N ln N weggelassen werden kann. Beispiel 4.39. Ein Beispiel f¨ ur den Einzelwert-Fit aus der Praxis33 ist die Partialwellenanalyse des Zerfalls D0 → K 0 π + π − . Abbildung 4.16 zeigt zun¨ achst das D0 -Signal in der Verteilung der invarianten Masse. Die Verteilung wird durch eine Dichte
E 1 f (m) = N
− N b+ √ D e 2π σm
(m−mD )2 2 2σm
F
mit 3 freien Parametern b, σm und ND beschrieben. mD = 1.8646 GeV/c2 ist die osung des Detektors, ND die (bekannte) Masse des D0 -Mesons, σ die Massenaufl¨ Anzahl der D0 -Mesonen und N die Anzahl aller Kombinationen im Histogramm. Der Signalbereich wird auf das Intervall 1.8446 GeV/c2 ≤ m ≤ 1.8846 GeV/c2 der Breite 40 MeV/c2 festgelegt, in dem 507 Events enthalten sind. Zur Kontrolle werden zwei Seitenb¨ ander untersucht, die durch 1.7346 GeV/c2 ≤ mX ≤ 1.8146 GeV/c2 1.9146 GeV/c2 ≤ mX ≤ 1.9946 GeV/c2 definiert sind, und bei einer Intervallbreite von zusammen 160 MeV/c2 insgesamt 268 Events enthalten. Daraus errechnet man nach (4.47) einen Untergrundanteil im Signalbereich von 67 ± 9 Ereignissen. Das bedeutet, wir haben eine tats¨ achliche Anzahl von 440 ± 9 D0 -Mesonen im Signalbereich. Abbildung 4.17 zeigt den Dalitz-Plot34 . Die Information u ¨ ber die PartialwellenZusammensetzung des Endzustands ist f¨ ur jedes Ereignis vollst¨ andig in den beiden 33 34
H. Albrecht et al., Phys. Lett. B308, 435 (1993) = zweidimensionale Verteilung invarianter Massequadrate. Die Phasenraumdichte ist in dieser Verteilung konstant.
194
4. Statistische Inferenz
150 N 10 MeV/c2 100
50
..... .. .. .. ... ... .... . .. ... .. ... ... .... ... . .. ... .. ... ... ... . ... ... ... .. .. .. ... .. .. ... .. ... .. .. . . . Seitenband .. Signal ..... Seitenband .... . . . ............................................ ............................................
1.75
1.80
1.85
Abb. 4.16 Verteilung der invarianten Masse von D0 Kandidaten in KS0 π + π − -Kombinationen. Die Fit-Kurve beschreibt die Verteilung gut.
1.90 1.95 m [ GeV/c2 ]
invarianten Massequadraten x = m2 (K 0 π − ) und y = m2 (π + π − ) enthalten. Zu ihrer Berechnung wurde eine Ausgleichsrechnung mit D0 -Massen-Constraint wie in Beispiel 4.37 durchgef¨ uhrt, aber darauf soll hier nicht weiter eingegangen werden. Die Akzeptanz η, d. h. die Wahrscheinlichkeit, ein Ereignis, das stattgefunden hat, u ¨berhaupt im Detektor zu beobachten, h¨ angt dagegen von mehr Parametern ab. Diese wollen wir in dem Symbol z zusammenfassen. An die Punkte wurde durch einen Einzelwert-Fit die Dichte f (x, y, z) = η(x, y, z) · f1 (x, y) angepasst mit f1 (x, y) = β
b(x, y) η(x, y, z) dz b(x, y) dx dy M,M
+ (1 − β)
ci c∗j Ai (x, y)A∗j (x, y)
i,j M,M i,j
ci c∗j
(4.225)
η(x, y, z) dz Ai (x, y)A∗j (x, y) dx dy
Da die Akzeptanz η(x, y, z) nicht von den Fit-Parametern abh¨ angt, kann man sie bei der Berechnung der Likelihood mit der willk¨ urlichen Konstanten kompensieren. Dann h¨ angt die verbleibende Dichte f1 (x, y) nur noch von x und y ab. Die Log-Likelihood-Funktion, die es zu maximieren gilt, ist L(ci ; i = 1 . . . M |xn , yn ; n = 1 . . . N ) =
N
log f1 (xn , yn )
n=1
Die Anzahl untersuchter Partialwellen ist M . Jede Partialwelle hat einen komplexen Parameter ci . Die absolute Normierung ergibt einen Constraint, den man durch ¨brig die willk¨ urliche Festlegung c1 = 1 absorbiert. Da eine unbeobachtete Phase u alt 2M − 2 reelle bleibt, kann man mit dieser Wahl Im c1 = 0 setzen und beh¨ Parameter. N = 507 ist die Zahl der Ereignisse im Signalbereich. Die Konstante β ist der Untergrundanteil β=
67 ± 9 = 0.132 ± 0.018 507
4.8. Fit von Verteilungen
195
In der Originalarbeit wird zus¨ atzlich ein Anteil mit falscher Ladungszuordnung ber¨ ucksichtigt, den wir hier vernachl¨ assigen. Ai sind die individuellen Amplituden der verwendeten Partialwellen. Die genaue Form der Funktionen ist f¨ ur die Beschreibung der statistischen Methode irrelevant, der interessierte Leser findet sie in der zitierten Originalarbeit. 2.0 m2 (π + π − ) [ GeV 2/c4 ] 1.5
1.0
0.5
2.0
······ ··· · a) ········ ·············· · · · · · · · ··············· · · · ·· ·· · · ·· ············· · · · · · · ···· · ·· · · · ···················· · · · · ···· · · · ··· · ··· · ········ ·· · · · ·· · · · · · · · · · · ···· ·· · · · · · · · · ·· · · ······· · · ·· ··· · ·· ········· · ·········· · · · ······ ······ ······· · · · · · · · · ···· ·········· · · · · ··· · · ········ ··· · ·· ·· · · ·· · ······················· · ··· · · ·· · · · · · ····· ··· · · · · · ·· · ·
1.5
1.0
0.5
0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 ¯ 0 π − ) [ GeV 2/c4 ] m2 (K Abb. 4.17
· ·· b) ·· ··· ··· ·· ··· ·· ···· ·· · · · · · · ·· · · · ····· ·· ·· · · · ·· ·· ·· · ···· · · · · ·· ·· · ·· · · · · ···· ·· · · ·· · · · · · · · ·· ····· · ·· · · · ·· ··· ·· ····· · · ·· · · ··· ·· ·· · · ·· · · ·· · · · ···· · · ·· · · · · ·· ······ ··· · · · · ·· · ·· · ·· ··· ··· ··· ·· ···· · · · · · ···· · ·· ·········· ··· ·· ····· · ·· ··· ···· · · · ··· · ·· · ·
0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 ¯ 0 π − ) [ GeV 2/c4 ] m2 (K
Dalitz-Plot von KS0 π + π − -Kombinationen im D0 Signalbereich (a) und in den Seitenb¨ andern (b).
Die Untergrundfunktion b(x, y) wird innerhalb des kinematisch erlaubten Wertebereichs von x und y konstant gesetzt. Dies ist durch eine Untersuchung der Seitenbandverteilung (Abbildung 4.17b) gerechtfertigt.
Die Integrale Iij =
η(x, y, z) dz Ai (x, y)A∗j (x, y) dx dy
wurden durch eine Monte-Carlo-Integration ermittelt. Dazu wurden Ngen Ereignisse generiert. Zur Simulation von η(x, y, z) m¨ ussen die Funktionswerte der Ai A∗j Funktionen nur f¨ ur die Nacc akzeptierten Ereignisse aufsummiert werden:
Nacc
Iij =
k=1
Ai (xk , yk ) A∗j (xk , yk )
Ngen Im Fit k¨ onnen sie dann als Konstanten eingesetzt werden. Die Dichte ist damit
⎡ M,M ⎤ ∗ ∗ ci cj Ai (x, y)Aj (x, y) ⎥ ⎢ ⎢ i,j ⎥ f1 (x, y) = β + (1 − β) ⎢ ⎥ M,M ⎣ ⎦ ∗ i,j
ci cj Iij
und die Log-Likelihood
⎧ ⎪ ⎪ ⎪ ⎨
⎡ M,M ⎤⎫ ⎪ ∗ ∗ ⎪ c c A (x, y)A (x, y) j i j i N ⎢ ⎥⎪ ⎬ i,j ⎢ ⎥ L= ln β + (1 − β) ⎢ ⎥ M,M ⎪ ⎣ ⎦⎪ ⎪ ⎪ n=1 ⎪ ⎪ ci c∗j Iij ⎩ ⎭ i,j
(4.226)
4. Statistische Inferenz
196
Tabelle 4.3 Resultate der Partialwellenanalyse von D0 → K 0 π + π − . D0 → K
∗− +
π
ϕ= ∗ − + K0 (1430) π K2∗ (1430)− π + 0 0
K ρ
K0ω K 0 f0 (975) K 0 f2 (1270) K 0 f0 (1400) 3-body M #Parameter x2 = −2 max L x2 σ(x2 ) SL
fit A
fit B
fit C
fit D
(70.2 ± 4.3) % 0◦ (9.3 ± 3.2) % (−152 ± 14)◦ (1.2 ± 1.0) %
(71.8 ± 4.2) % 0◦ (12.9 ± 3.4) % (−157 ± 12)◦ 0
(68.9 ± 3.4) % 0◦ (9.0 ± 3.4) % (−171 ± 19)◦ 0
(69.5 ± 3.5) % 0◦ 0
(21.1 ± 3.5) % (−141 ± 8)◦ (0.7 ± 0.7) % (4.7 ± 2.1) % (68 ± 17)◦ (4.1 ± 2.0) % (−166 ± 15)◦ (7.2 ± 2.8) % (−37 ± 16)◦ 0
(22.7 ± 3.2) % (−137 ± 7)◦ 0 (4.6 ± 1.8) % (68 ± 15)◦ (5.0 ± 2.1) % (−166 ± 12)◦ (8.2 ± 2.8) % (−31 ± 15)◦ 0
(23.5 ± 3.4) % (−141 ± 7)◦ 0 (4.1 ± 1.8) % (71 ± 19)◦ (4.3 ± 2.0) % (−175 ± 15)◦ 0
(21.2 ± 3.0) % (−143 ± 8)◦ 0 0
(8.1 ± 3.5) % (152 ± 16)◦
(20.0 ± 3.1) % (107 ± 9)◦
8 14 5.0 1.4 61.7 48 %
6 10 13.7 60.9 60.0 78 %
6 10 24.1 28.9 61.8 53 %
3 4 85.7 −19.1 63.4 4.9 %
0
0 0
Wegen des Untergrundanteils β kann der Ausdruck nicht mehr vereinfacht werden. Das Maximum von L wurde numerisch ermittelt. Die Resultate zeigt Tabelle 4.3. Die letzte Zeile der Tabelle (SL = Signifikanzniveau) gibt die Resultate eines Anpassungstests wieder, den wir weiter unten diskutieren werden.
Der Einzelwert-Fit ist der Prototyp eines Maximum-Likelihood-Fits und oft die einzige M¨oglichkeit, wenn die Daten aus n-Tupeln bestehen, sodass eine Klassifizierung in einem Histogramm zu grob wird. Er verf¨ uhrt aber auch zur Ausnutzung aller individuellen Informationen einer Datenmenge. Dabei muss man darauf achten, dass man f¨ ur alle verwendeten Daten auch die zugeh¨orige Dichte in der Likelihood ber¨ ucksichtigt. Beispiel 4.40. Wenn man Signal und Untergrund aus einem Einzelwert-Fit beosung σi . Man stimmt, kennt man oftmals neben dem Messwert xi auch die Aufl¨ kann daher den Fit mit der Likelihood (4.227) l(p) = αfs (x, σ) + (1 − α)fu (x, σ) durchf¨ uhren. Wenn der Untergrund linear verteilt ist, gibt Beispiel 4.11 ein modellunabh¨ angiges Verfahren zur Bestimmung der Signalanzahl. Alternativ kann man αfs (x) + (1 − α)fu (x)
4.8. Fit von Verteilungen
197
an das Histogramm fitten und die Signalzahl αN errechnen. Dabei f¨ uhren die unterschiedlichen Aufl¨ osungen verschiedener Ereignisse zu einer komplizierten Dichte ¨ vieler Normalverteifs (x) (Randverteilung). In der Praxis wird die Uberlagerung lungen aber durch eine Summe aus zwei oder drei Verteilungen mit verschiedenen σ hinreichend gut angen¨ ahert. Andererseits verf¨ uhrt die Kenntnis der individuellen Werte σi zur Anwendung des ungebinten Fits mit der Likelihood (4.227). Dabei muss man aber beachten, dass fs (x, σ) = fs (x|σ) · gs (σ) ist. Die bedingte Verteilung ist die Normalverteilung 2 2 1 fs (x|σ) = √ e−(x−μ) /2σ 2πσ und gs (σ) ist die Dichte f¨ ur die experimentellen Aufl¨ osungen f¨ ur Signalereignisse ur die Untergrundereig(die andere Randverteilung von fs ). Lediglich wenn man f¨ nisse eine entsprechende Zerlegung fu (x, σ) = fu (x|σ) · gu (σ) findet (wobei auch fu (x|σ) = fu (x) unabh¨ angig von der Aufl¨ osung sein kann) und wenn gu = gs = g ist, kann man diese gemeinsame Dichte ausklammern und in der Likelihood weglassen, da sie nicht vom Parameter α abh¨ angt. Ist das nicht der Fall, und man arbeitet dennoch mit den bedingten Dichten statt mit den vollst¨ andigen zweidimensionalen, muss man mit einem Bias f¨ ur α ˆ rechnen, der umso gr¨ oßer wird, je mehr sich gs und gu unterscheiden35 .
Die kombinierte Information aus mehreren unabh¨ angigen Datens¨atzen kann in einem einzigen Einzelwert-Fit an alle Daten ermittelt werden. Beispiel 4.41. Simultan-Fit mehrerer Signalkan¨ ale: Die Anzahl von D0 -Mesonen soll in mehreren Zerfallskan¨ alen bestimmt werden. Wir betrachten zwei Kan¨ ale: (1) D0 → K − π + und (2) D0 → K − π + π + π − . Die Signalform der Massenverteiosung). Der Fitparameter lungen fi (mi |pi ) ist unterschiedlich (verschiedene Aufl¨ ist Ns , die Anzahl aller D0 -Mesonen. Man beobachtet jeweils ni = B i · i · Ns Signalereignisse, dabei ist i die Nachweiswahrscheinlichkeit und B i das bekannte Verzweigungsverh¨ altnis f¨ ur den Kanal i. Die beiden Datens¨ atze enthalten jeweils Ni = ni + nbi Signal- und Untergrunderur den eignisse. Die (normierten!) Dichtefunktionen f¨ ur das Signal sind fi (mi |pi ), f¨ atze pi , q i beschrieUntergrund gi (mi |q i ). Ihre Form wird durch die Parameters¨ ben. Dann ist die Log-Likelihood mit poissonverteilten Anzahlen ni (Signal) und nbi (Untergrund): L(Ns , nb1 , nb2 , p1 , p2 , q 1 , q 2 ) =
Ni 2
)
ln B i i Ns fi (mj ) + nbi gi (mj )
*
i=1 j=1
−
2 i=1
35
B i i N s −
2
nbi
(4.228)
i=1
Giovanni Punzi, Comments on likelihood fits with variable resolution, Proceedings of PHYSTAT2003, Menlo Park, California, 8–11 Sep 2003; arXiv:physics/ 0401045. Der Bias beim Verwenden der bedingten Dichte wird seither gerne als Punzi-Effekt bezeichnet.
198
4. Statistische Inferenz
Dabei wurden wie in (4.224) die Anzahlen statt der Bruchteile verwendet, d. h. die Konstante −N1 ln N1 − N2 ln N2 wurde weggelassen. Das Resultat hat Fehlerbeitr¨ age von der Aufteilung Signal/Untergrund und von der zuf¨ alligen Gesamtzahl N1 + N2 = n1 + n2 + nb1 + nb2 (Poisson-Fit, extended Fit).
Aufgabe 4.12. Computeraufgabe: Testen Sie verschiedene Fit-Methoden an einer Verteilung wie in Abbildung 4.15: Generieren Sie 25000 Zufallswertepaare nach einer zweidimensionalen Gauß-Verteilung ( Signal“, wie in ” Aufgabe 2.15) und 25000 unkorrelierte gleichverteilte Zufallswertepaare mit −5.1 ≤ x ≤ 5.9 und −5.1 ≤ y ≤ 5.9 ( Untergrund“). ” f (x, y) =
1−p (xmax − xmin )(ymax − ymin ) +
2πσx σy
p
1 − ρ2
e
−
2 −2ρσ σ (x−μ )(y−μ )+(y−μ )2 σ 2 (x−μx )2 σy x y x y y x 2 σ 2 (1−ρ2 ) 2 σx y
Verwenden Sie μx = μy = 0, σx = σy = 1 und ρ = −0.8. Weitere Parameter sind N = 50000, p = 0.5 bzw. Ns = Nb = 25000. Bestimmen Sie die Parameter der Gauß-Verteilung und den Signalanteil (Multinomial-Fit) bzw. die Erwartungswerte f¨ ur Signal und Untergrund (Poisson-Fit) aus a) einem Einzelwert-Fit an die 50000 Ereignisse, b) einem Fit an das zweidimensionale Histogramm mit 55 × 55 Bins, c) zwei Fits an die Projektionen auf x und y (Histogramme mit je 55 Bins), d) einem Simultan-Fit an beide Projektionen und e) einem Einzelwert-Fit an die 50000 Ereignisse, bei dem ρ = 0 fest vorgegeben wird. f) Machen Sie auch einen Minimum-Chiquadrat-Fit an das zweidimensionale Histogramm und an die x-Projektion mit den Binfehlern des Histogramms, √ σi = ni sowie √ g) mit Binfehlern σi = μi .
4.8. Fit von Verteilungen 4.8.7
199
Pseudo-Likelihood-Methoden
Wenn eine Likelihood-Funktion einen zu großen numerischen Aufwand im Fit erfordert, greift man manchmal zu Approximationen, die asymptotisch erwartungstreue Sch¨ atzer der Likelihood-Funktion sind. Beispiel 4.42. Ein Beispiel ist eine Stichprobe vom Umfang N aus Signal und Untergrund, wie in Abschnitt 4.1.2.2. Im Signalbereich hat man einen Anteil α Signaldaten, und im Untergrundbereich M Untergrunddaten. Die Dichte im Signalbereich ist dann f (x) = αfs (x) + (1 − α)fu (x). Wenn die Untergrundverteilung fu (x) zwar durch Untergrunddaten (z. B. aus dem Signal-Seitenband, s. Beispiel 4.11) untersucht werden kann, aber nicht als Funktion aufgeschrieben, kann man keine Likelihood berechnen. Will man an das Signal eine Dichte fs (x|p) fitten, so kann man die Pseudo-Log-Likelihood L(p) =
N
ln fs (xi |p) − (1 − α)
i=1
M N ln fs (xj |p) M j=1
verwenden. Der Erwartungswert L(p) = N
[αfs (x|˜ p) + (1 − α)fu (x)] ln fs (x|p) dx
− (1 − α)N
= αN
fu (x) ln fs (x|p) dx
fs (x|˜ p) ln fs (x|p) dx
ist derselbe wie der einer Verteilung aus αN Signalereignissen. Beispiel 4.43. Ein zweites Beispiel ist der Fit gewichteter Ereignisse. Werden Ereignisse, die man mit einer eindeutigen Funktion w(x, y) bewichtet, durch die p) und f2 (y) beschrieben, wobei Dichte f (x, y|˜ p) mit den Randverteilungen f1 (x|˜ die y-Verteilung nicht vom Parameter p abh¨ angt, so haben die ungewichteten Ereignisse eine Dichte f (x, y|˜p) dy g(x|˜ p) = N w(x, y) Die unbekannte Normierung 1 N = f (x,y|p) ˜ dy dx w(x,y) tr¨ agt der Tatsache Rechnung, dass Gewichte meist nicht normiert sind bzw. nicht sein k¨ onnen, wenn die Normierung vom unbekannten Parameter p abh¨angt. Ein ln g(xi |p) maximieren, was Einzelwert-Fit w¨ urde die Log-Likelihood L(p) = durch die Integration einen hohen Rechenzeit-Aufwand erfordert. Hier verwendet man manchmal die Pseudo-Log-Likelihood36 L(p) =
N
wi ln f1 (xi |p)
i=1 36
Wenn man die Gewichte wi durch Anzahlen ni beobachteter Ereignisse in Histogramm-Bins der Gr¨ oße Δx ersetzt, ist dies die Poisson-Likelihood (4.218) ni ln f1 (xi |p). Verwendet man die Gewichte wi = 1/i zur Korrektur L(p) = der Nachweiswahrscheinlichkeit i , simuliert man das Verhalten der korrigierten Verteilung, wo ein nachgewiesenes Ereignis wi wahren Ereignissen entspricht.
200
4. Statistische Inferenz
Der Erwartungswert ist L(p) =N N =N =N
f (x, y|˜p)
w(x, y)
w(x, y) ln f1 (x|p) dy dx
f (x, y|˜ p) ln f1 (x|p) dy dx f1 (x|˜ p) ln f1 (x|p) dx = N ln f1 (x|p)
und unterscheidet sich vom Erwartungswert ungewichteter Ereignisse einzig durch den Normierungsfaktor N . Der Normierungsfaktor kann ebenfalls gesch¨ atzt werden. Da die Dichte der ungewichteten Ereignisse f (x, y) g(x, y) = N w(x, y) ist, ist der Erwartungswert w =
g(x, y)w(x, y) dx dy = N
f (x, y) w(x, y)
w(x, y) dx dy = N
und damit ˆ = N
wi N
Wenn man die Gewichte normiert, w → w N
wi
ˆ = 1. , wird N
In beiden F¨allen kann man davon ausgehen, dass der Parameter pˆ, der ein Maximum der Pseudo-Log-Likelihood ergibt, asymptotisch gegen p˜ konvergiert, genau wie das Maximum der korrekten Likelihood. Die Qualit¨ at dieser Konvergenz sollte aber vom Anwender (beispielsweise durch eine MonteCarlo-Simulation) untersucht werden. Allerdings gibt es dazu keine Pseudo-Informationsfunktion, die das Verhalten der Varianz der Sch¨ atzung beschreibt. Man muss daher stets eine gesonderte Fehlerbetrachtung durchf¨ uhren.
4.8.8
Sch¨ atzen von Signalverteilungen
Hat man einen Fit verschiedener Ereignisklassen i = 1 . . . k (meist ist k = 2: Signal und Untergrund), die sich durch ihre Verteilung in einer Reihe von Variablen x = (x1 . . . xm ) (m-Tupel) unterscheiden, mit bekannter Dichte fi (x|p), so kann man die Parameter p und die Erwartungswerte der Ereigniszahlen n ˜ i durch einen Fit einer Stichprobe (x1j . . . xmj ) von j = 1 . . . N Messungen zu p ˆ und n ˆi bestimmen. Mit einem Poisson-Fit maximiert man k N k L(n1 . . . nk ) = ln ni fi (xj ) − ni j=1
i=1
und erh¨alt Sch¨atzwerte f¨ ur die Ereigniszahlen.
i=1
4.8. Fit von Verteilungen
201
Soll die Verteilung fi (y) einer Klasse i (z. B. Signal) in einer Variablen y untersucht werden, so kann man ein Histogramm dieser Verteilung erhalten, indem man f¨ ur jedes Bin in y diesen Fit durchf¨ uhrt und das Ergebnis n ˆi (y) mit Fehler δni (y) auftr¨agt. Dieses Vorgehen stellt keine speziellen Anforderungen an die Verteilungen fi (x|p), insbesondere k¨onnen die Parameter p(y) f¨ ur verschiedene y-Bins unterschiedliche Werte annehmen, da sie jeweils neu bestimmt werden. Beispiel 4.44. Ein solches Verfahren wurde bei der Bestimmung der π + π − ¨ Massenverteilung im hadronischen Ubergang Υ (2S) → Υ (1S)π + π − von der 37 ARGUS-Kollaboration durchgef¨ uhrt . Abbildung 4.18 illustriert das Verfahren und das Resultat. Als diskriminierende Variable x dient die Missing Mass, in der Signalereignisse als Peak bei der Υ (1S)-Masse von einer glatten Untergrundfunktion unterschieden sind. Man erh¨ alt aus 14 Fits dieser Verteilungen 14 Bins in M (π + π − ).
Abb. 4.18
¨ Die Verteilung der π + π − -Masse (rechts) im hadronischen Ubergang Υ (2S) → Υ (1S)π + π − wurde durch einen Fit einer GaußVerteilung f¨ ur das Signal und ein Polynom dritten Grades f¨ ur den Untergrund der Missing Mass (links, berechnet aus den Viererimpulsen des Υ (2S) im Anfangszustand und der beiden Pionen) f¨ ur jedes Bin separat gewonnen.
Ist der Untergrund linear verteilt, bietet sich als einfachere M¨oglichkeit die Seitenbandsubtraktion an. Dabei unterstellt man, dass die Verteilung des Untergrundes im Signalband das Mittel der Verteilungen beider Seitenb¨ander ist, was in den meisten F¨allen in guter N¨aherung zutrifft. Man subtrahiert 37
ARGUS Collaboration, H. Albrecht et al., Phys. Lett. 134B, 137 (1984).
202
4. Statistische Inferenz
zwei Histogramme, das mit dem Verh¨altnis der Bandbreiten skalierte Histogramm aus beiden Seitenb¨andern vom Histogramm aus dem Signalband. Ist y eine von den Messgr¨oßen x unabh¨ angige Variable, erh¨alt man f¨ ur die atzung, indem man die eindimensionale Dichte fa (y) der Klasse a eine Sch¨ ullt. Die Summe der Messwerte f¨ ur y mit Gewichten wj in ein Histogramm f¨ ˆ Gewichte in einem Bin der Breite Δy ist dann n ˆa fa (y)Δy, also ist fˆa (y) =
1 n ˆa Δy
wa (xj )
(4.229)
yj ∈Bin(y± 12 Δy)
Dabei ist das Gewicht k Cah fh (xj |ˆ p) wa (xj ) = h=1 k n ˆ f (x |ˆ p j ) h=1 h h
(4.230)
mit der Kovarianzmatrix als der inversen Informationsmatrix: na , n ˆb ) = I −1 (ˆ na , n ˆb ) Cab = C(ˆ
(4.231)
angig ist, muss man den Fit im (m − 1)Falls y von den x1 . . . xm linear abh¨ dimensionalen Unterraum durchf¨ uhren, der orthogonal zu y ist. Solche Histogramme wurden von ihren Erfindern38 sPlots genannt. Fehlerbalken in diesem Histogramm erh¨alt man (wie stets in gewichteten Histo grammen) als wi2 (x). Man kann zeigen39 , dass die so definierten Gewichte tats¨ achlich die asymptotisch wirksamste Sch¨atzfunktion f¨ ur die Bins des y-Histogramms liefern. Allerdings sollte man bei der Anwendung auf die Erf¨ ullung der Voraussetzungen achten. Eine Voraussetzung ist, dass man die Dichten fh kennt. Haben die Dichten freie Parameter p, so muss man diese fest p = p ˆ setzen und damit ausschließlich die nh fitten. Der Einfluss der Variation dieser Parameter als Fehlerquelle muss separat untersucht werden. Beispiel 4.45. Man kann zeigen, dass die Seitenbandsubtraktion ein Sonderfall der sPlot-Technik ist: Statt einer Dichte betrachten wir 3 Wahrscheinlichkeiten f¨ ur das linke Seitenband (1) mit a Ereignissen, das Signalband (2) mit b Ereignissen und das rechte Seitenband (3) mit c Ereignissen, alle drei gleich breit, lineare Untergrundverteilung und N = a + b + c. Nach (4.47) ist n ˆs = b − 38 39
a+c 2
Muriel Pivk, Fran¸cois R. Le Diberder, s Plot: a statistical tool to unfold data distributions, Nucl. Instr. and Meth. A555, 356 (2005). R. N. Cahn, internal BABAR note (2005).
4.9. Intervallsch¨atzung
203
a+c 2 a+c 2 Css = σ (ns ) = b + 4 a+c 2 Cuu = σ (nu ) = 9 4 a+c Cus = Csu = −3 4 Statt der Dichten haben wir die Wahrscheinlichkeiten 2 a Ps (1) = 0, Pu (1) = 3a+c 1 Ps (2) = 1, Pu (2) = 3 2 c Ps (3) = 0, Pu (3) = 3a+c Dann sind die Gewichte f¨ ur eine Signalverteilung Css Ps (1) + Csu Pu (1) 1 ws (1) = =− n ˆs Ps (1) + n ˆu Pu (1) 2 Css Ps (2) + Csu Pu (2) =1 ws (2) = n ˆs Ps (2) + n ˆu Pu (2) Css Ps (3) + Csu Pu (3) 1 ws (3) = =− n ˆs Ps (3) + n ˆu Pu (3) 2 was das gleiche Resultat ergibt wie die Subtraktion der beiden Histogramme aus den Seitenb¨ andern, jeweils mit 12 skaliert, vom Histogramm aus der Signalregion. n ˆu = 3
4.9
Intervallsch¨ atzung
Mit dem Sch¨ atzen von Intervallen haben wir bereits mit der Fehlerrechnung begonnen: Das Intervall pˆ ± δp ≡ [ˆ p − δp, pˆ + δp] ist ein gesch¨atztes Intervall f¨ ur eine Messgr¨oße, einen Fit-Parameter oder eine sonst aus einer Messung abgeleitete Gr¨oße pˆ. Ist pˆ gaußverteilt und δp = 40 ¨ dieses Intervalls – also die σ(p), so ist die Uberdeckungswahrscheinlichkeit Wahrscheinlichkeit, dass der wahre Wert p˜ im Innern dieses Zufallsintervalls liegt – etwa 68 %. Diese Eigenschaft kann man verwenden, um in Abbildung 4.13 u ¨ber- oder untersch¨atzte Fehler zu erkennen. In den folgenden Abschnitten werden Methoden beschrieben, mit denen man Konfidenzintervalle sch¨atzt, denen man eine Wahrscheinlichkeit (Konfidenzniveau) zuordnen kann. Die Intervallsch¨ atzung kann auf mehrdimensionale Parameterr¨aume erweitert werden: Man sch¨atzt ein begrenztes, i. Allg. nicht rechteckiges Gebiet, eine Konfidenzregion bzw. einen Konfidenzbereich.
40
oft auch mit dem englischen Begriff Coverage bezeichnet
204
4. Statistische Inferenz
4.9.1
Die klassische Methode: Wahrscheinlichkeitsinferenz
Das Modell der Wahrscheinlichkeitsinferenz von Neyman und Pearson41 erlaubt eine Intervallsch¨atzung von Parametern zu vorgegebener physikalischer Wahrscheinlichkeit. Ein Wahrscheinlichkeits-Konfidenzbereich ist ein Bereich – z. B. ein (Zufalls-) Intervall –, dessen Bildungsvorschrift garantiert, dass er mit mindestens der Wahrscheinlichkeit CL (Konfidenz-Level42 oder Konfidenzniveau) den wahren Parameter enth¨ alt. D. h., im Mittel ergibt ein Anteil CL aller Messungen Messwerte x, deren zugeh¨ origer Konfidenzbereich p enth¨alt. ¨ Konfidenzniveau zum Konfidenzbereich K(x) ist die Uberdeckungswahrscheinlichkeit CL = P (p ∈ K) (4.232) Verschiedene (i. Allg. unendlich viele) Bildungsvorschriften zum gleichen CL sind m¨oglich, z. B. Obergrenze f¨ ur p“, symmetrisches Intervall um pˆ“ oder ” ” alle p, f¨ ur die x im k¨ urzest m¨oglichen Intervall liegt“. Dabei sind Bedingun” gen, die an p gestellt werden, wie die ersten beiden, meistens nicht eindeutig. Man sollte daher stets Bedingungen an den Messwert zur Definition zugrunde legen. ¨ Die Interpretation von CL als Uberdeckungswahrscheinlichkeit ist oft auch deshalb falsch, weil eine Methode nicht f¨ ur alle Resultate angewandt wird. So wird man etwa Obergrenzen f¨ ur p nur bei kleinen Sch¨atzwerten angeben, bei großen dagegen eher symmetrische Fehlerintervalle. F¨ ur die eingeschr¨ankte Menge der Messwerte, f¨ ur die eine bestimmte Methode angewandt wird, ist ¨ daher die Uberdeckungswahrscheinlichkeit i. Allg. gr¨oßer als CL. Eine sinnvolle Vorschrift ist die u ¨ber den kleinsten Bereich B m¨ oglicher Messwerte. Dieser ist dadurch gekennzeichnet, dass f (xi |p) ≥ f (xa |p) f¨ ur ∈ B(p) innerhalb und x ∈ / B(p) außerhalb des Bereichs ist und alle x i a f (x|p) dx = CL. Es hat also x ∈ B(p) f¨ ur jeden m¨ oglichen Parameter B(p) die Wahrscheinlichkeit CL. Dadurch wird zu jedem Parameter eindeutig eine Region von Messwerten definiert. Diese entspricht einem Gebiet in der (p, x)Ebene, wie es die unterlegten Bereiche in Abbildung 4.19 f¨ ur symmetrische Verteilungen mit Maximum und Mittelwert p illustrieren. 41
42
J. Neyman, E. S. Pearson, On the problem of the most efficient tests of statistical hypotheses, Phil. Transact. of the Royal Society of London A231, 289–337 (1933) und J. Neyman, Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, Phil. Transact. of the Royal Society of London A236, 333–380 (1937). CL f¨ ur engl. confidence level . In diesem Buch wird CL sowohl als Symbol f¨ ur den Zahlenwert verwendet, der sich aus einer konkreten Stichprobe ergibt, als auch zur Kennzeichnung eines Zahlenwerts als Konfidenzniveau, also etwa p < 12.34 ” mit 90 % CL“.
4.9. Intervallsch¨atzung
x
0
.. ............................. ................................................................................................... ........................................ .................................................................................................................................................................................... . . a) . . . . . .............. ............. . .......................................................................................................................... ............................................................................................................... ........................................................................................................................................................................................................ . . . . . ............................ ................................................................................................................... ................................................................................................................... .............................................................................................................................................................................................................. . . . . . . . ............................... ......................................................................................................................... ......................................................................................................................... ............................................................................................................................................................................................. . . . . . . ............................................... ...................................................................................................................... .......................................................................................................... .......................................................................................................................................................................................................... . . . . . . ............................ ................................................................................................................ ......................................................................................................................... .................................................................................................................................................................................................................... . . . . . . . ............. ............... ........................................................................................................................... ............................................................................................................ ....................................................................................................................................................................................................... . . . . . . .............................................................. ................................................................................................................................................................................................... ........................................................................................................... .......................................................................... ........................................
0 Abb. 4.19
x
0
205
................................ ................................................................................ ........................................................................................................................................................................ . . . . ................................................ b) ........................................................................................................................ ................................................................................................................................. ........................................................................................................................................................................................................................................... . . . .................................................................................................................... ........................................................................................................................................................... ........................................................................................................................................................................................................................... . . . . . . . . .................... . ................ . ............................................................................................................................................................................... .......................................... ......... ......................................................................................................................................................................................................... . . . . . ....................................................................... ................................................................................................................ ........................................................................................................... . ............................................................................................................................ . . . . . . . . ........................................... ..................................................................................................... ........................................................................................................................................................ . . . . ................................................................................ .................................................................................. .............................................................................................................................. . . . . . . . . . . . . . . .................................. ........................................................................... ................................................................................................................. . . . . .............................. ............................................................ ............................................................................................ ........................ . . .....
0
p
p
Wahrscheinlichkeitsbereiche in x und zugeh¨ orige Konfidenzbereiche in p. Die Grenzen des unterlegten Bereichs markieren die k¨ urzesten Intervalle, die jeweils x f¨ ur festes p mit Wahrscheinlichkeit CL enthalten. Die durch diese Linien festgelegten Intervalle in p sind die Konfidenzintervalle zu einem gemessenen x.
Beispiel 4.46. F¨ ur eine Gauß-Verteilung mit fester Standardabweichung σ f (x|p) = √
(x−p)2 1 − e 2σ2 2π σ
sind die k¨ urzesten Intervalle der Zufallsvariablen x ∈ [p − rσ, p + rσ] mit
r
mit Wahrscheinlichkeit CL
G(ξ) dξ = CL
(4.233)
−r
Daraus ergeben sich die Konfidenzintervalle f¨ ur p zu einem gemessenen x p ∈ [x − rσ, x + rσ]
mit Konfidenz CL
Abbildung 4.19a zeigt die Konstruktionsmethode: Die Diagonale markiert das Maximum der Verteilung beim Erwartungswert x = p. F¨ ur jeden Parameter p wird von dort nach oben und unten rσ abgetragen. Dies ergibt die beiden Linien, die den unterlegten Bereich begrenzen. Ein Konfidenzintervall f¨ ur p ist dann eine waagrechte Linie bis zu den Grenzen dieses Bereichs. Wegen der Symmetrie der Gauß-Verteilung unter Vertauschung von x und p ist diese Linie ebenfalls nach beiden Seiten rσ lang. Dies macht das Problem eindeutig und besonders einfach. Beispiel 4.47. Abbildung 4.19b illustriert ein etwas komplizierteres Beispiel f¨ ur einen Messwert, der um den Parameter p gaußverteilt ist mit Standardabweichung urzesten Intervalle zu vorgegebener Wahrscheinlichkeit CL σ = σ0 (1 + 0.1p). Die k¨
206
4. Statistische Inferenz
sind dann um x ¯ = p symmetrisch. Die vertikalen Fehlerbalken des eingezeichneten Beispielkreuzes sind gleich lang. Die Begrenzungen dieses Bereichs im (x, p)Diagramm sind aber nicht symmetrisch um die Hauptdiagonale, und die Konfidenzbereiche f¨ ur p, etwa die horizontalen Fehlerbalken im eingezeichneten Kreuz, sind noch mehr asymmetrisch um ˆ p = x.
Wird statt der Vorschrift k¨ urzestes Intervall in x“ die Forderung k¨ urzestes ” ” Intervall in p“ gestellt, ist die Methode nicht mehr eindeutig. F¨ ur jedes x kann jetzt ein anderes Intervall mit einem Anteil CL der Messwerte benutzt werden. Eine Methode, die f¨ ur einige wenige Messwerte besonders kurze Intervalle liefert, zeigt Abbildung 4.20a. Hier wurde jedes Mal nicht das k¨ urzeste Intervall f¨ ur x gew¨ahlt, sondern ein breiteres, aber mit kleinerer Obergrenze f¨ ur Parameter p < p0 und mit gr¨oßerer Untergrenze f¨ ur p > atzwerts pˆ = x. Die p0 . Dabei ist p0 < x ein Wert in der N¨ahe des Sch¨ Konfidenzintervalle aus dieser Vorschrift sind f¨ ur fast alle x breiter als die aus Abbildung 4.19a, aber f¨ ur ein kleines Intervall sind sie erheblich k¨ urzer. Auch wenn die Aussage richtig ist, dass die Methode mit Wahrscheinlichkeit CL korrekte Intervalle liefert, also Intervalle, die den wahren Wert p˜ enthalten, so ist doch klar, dass solch maßgeschneiderte Methoden dies in Wirklichkeit ¨ nicht erf¨ ullen, da sie nicht – was Voraussetzung f¨ ur die Uberdeckungswahrscheinlichkeit CL ist – auf alle Messwerte angewandt werden. Damit haben wir aber die Kernproblematik der Neyman-Pearson-Methode erfasst: Die als Konfidenzniveau angegebene Wahrscheinlichkeit macht nur Sinn, solange dieselbe Methode auf alle vorkommenden Messwerte angewandt wird. Problematisch wird diese Vorschrift daher auch, wenn p aus physikalischen Gr¨ unden eingeschr¨ ankt ist, etwa dadurch, dass nur positive Werte sinnvoll sind. Ein Neyman-Pearson-Konfidenzbereich zu einem beliebigen CL kann teilweise oder ausschließlich Werte enthalten, die a priori ausgeschlossen sind, also z. B. eine Obergrenze, die unterhalb der prinzipiell m¨ oglichen Untergrenze eines Parameters liegt! Dies ist vom Konzept her richtig, da solche Bereiche eine Wahrscheinlichkeit von weniger als (1 − CL) haben. Die Zusatzinformation u ¨ber die Parameter kann i. Allg. nicht ber¨ ucksichtigt werden, da die angegebene Wahrscheinlichkeit CL nur Aussagen u ¨ber das Resultat (die Messung) macht. Schließt man sie dennoch mit ein, erh¨alt man f¨ ur einige Messwerte u ¨berhaupt kein Konfidenzintervall. Abbildung 4.20b zeigt die resultierenden Grenzen f¨ ur um p > 0 symmetrisch verteilte x, etwa wieder nach einer Gauß-Verteilung G(x|p, σ) mit von p unabh¨ angigem σ. Tritt dann der (unwahrscheinliche, aber m¨ogliche) Fall ein, dass ein negatives x unterhalb der unteren Spitze des unterlegten Bereichs gefunden wird, liefert diese Vorschrift kein Konfidenzintervall. Der uneingeschr¨ ankte Bereich (Abbildung 4.19a) w¨ urde ein unsinniges Intervall ergeben, das vollkommen im unm¨oglichen negativen Bereich liegt. Die einzige M¨oglichkeit, in einem solchen Fall dennoch eine sinnvolle Aussage machen zu k¨ onnen, ist CL zu erh¨ohen.
4.9. Intervallsch¨atzung .. ......................................... ............................................. ....................................................................... . . . . . ........ . . .... ............................................. x ........................................... .................................................................... . . . . . .......................................... .............................................. ......................................................................... ............................ ........................... ......................... ...................... ... ... ... . ......................... . . x1 . . . ............. . . . . . .. ... . ................. .. ...................... .. ........................................... .... . . . .. ................................ .. ...................................... .. 0 ........................................................................... . . . . ... . . . . . . . ............................................ .............................................. ......................................................................... . . . . . . . ........................................... ...........................................
a)
0 Abb. 4.20
4.9.1.1
207
. ......................... .............................. ....................................................... . . . . . .......... . . ............................................ ................................. ...................................................................... . . . . . ........ ............ ......................................... ........................................... ............................................................ . . . . .. . . . ........................................ .......................................... ....................................................................... . . . . .. . . . .. ........................................ ......................................... .................................................................. . . . . .................................. ............................................................... ........................ .......................... . ............................... ..... ............................... . . . . . .. ..... ....
b)
x
0
.. ..... ......
? 0
p
p
(a) Mogelmethode mit 90 % CL: F¨ ur jedes p liegt x in einem Intervall mit 90 % Wahrscheinlichkeit, die Intervalle sind aber so gew¨ ahlt, dass das zugeh¨ orige Konfidenzintervall f¨ ur p zum gemessenen x1 besonders schmal wird. Dies geht auf Kosten anderer Werte, bei denen das Intervall daf¨ ur gr¨ oßer als n¨ otig ausf¨ allt. (b) Problem der Methode bei begrenztem Parameter p ≥ 0: Liegt x bei kleinem p ˜ im unteren 5 %-Bereich, gibt es kein 90 %-Konfidenzintervall.
Konfidenz-Obergrenzen
H¨aufig interessiert man sich nur f¨ ur eine Abgrenzung in eine Richtung, etwa eine Obergrenze u = u(x) f¨ ur einen Parameter p mit Konfidenzniveau CL zu einem Messwert x bei einer Dichte f (x|p) bzw. Verteilungsfunktion F (x|p). Falls x mit p monoton w¨ achst, ist die Grenze im (x, p)-Diagramm eine Untergrenze von x und die implizite Gleichung f¨ ur die Funktion u ist F (x|u) = CL
(4.234)
Nicht immer ist diese Gleichung f¨ ur alle x umkehrbar. Erfreulicherweise gibt es einige einfache F¨alle: Beispiel 4.48. F¨ ur eine Gauß-Verteilung mit fester Standardabweichung σ sind Obergrenzen f¨ ur den Mittelwert streng linear pmax = x + r · σ mit
r
G(ξ) dξ = CL
(4.235)
−∞
F¨ ur CL = 95 % ist r = 1.64. Andere Zahlenwerte findet man in Tabelle 2.1. Beispiel 4.49. F¨ ur die Poisson-Verteilung ist bei gefundener Anzahl n die Obergrenze f¨ ur den Mittelwert μ gegeben durch P (k > n) = e−μmax
∞ μkmax k=n+1
k!
= CL
4. Statistische Inferenz
208 10
a)
1.0
n
b)
..........................
. ........ ..... ........ ............. ............... ............................................... . ..... . . . .
P
5 0.5
0 5
0 Abb. 4.21
10
μ
0
5
μ
10
(a) Obergrenze des Mittelwerts μ einer Poisson-Verteilung mit ¨ 90 % CL bei gemessener Anzahl n. Die tats¨ achliche Uberdeckungswahrscheinlichkeit des Konfidenzintervalls P = P (μ < μmax ) ≥ 90 % ist in (b) dargestellt.
bzw. P (k ≤ n) = e−μmax
n μk
max
k=0
k!
= e−μmax E(n, μmax ) = 1 − CL
(4.236)
F¨ ur kleine n gibt Tabelle 4.4 die Obergrenzen f¨ ur μ. Die erlaubten n f¨ ur jedes μ mit 90 % Wahrscheinlichkeit sind die schwarzen Balken in Abbildung 4.21a. Die rechten Enden der Balken sind die 90 % CL-Obergrenzen. Da f¨ ur poissonverteilte Zahlen k mit Mittelwert μ P (k ≤ n) =
n k=0
e−μ
μk = Q(2μ|2(n + 1)) k!
gilt, wobei Q die komplement¨ are Verteilungsfunktion der Chiquadrat-Verteilung ist, kann man die Obergrenzen auch mithilfe der Inversen dieser Funktion berechnen: μmax = Q−1 (1 − CL|2(n + 1)) ¨ Ist der wahre Wert μ ˜ < μmax , so ist die Uberdeckungswahrscheinlichkeit P (˜ μ CL, da die Zufallsvariable k nicht stetig variiert werden kann (Abbildung 4.21b). Allerdings wird man bei n > 0 keine Obergrenze mehr angeben, sondern einen Mittelwert mit Fehler oder eine Ober- und Untergrenze.
Analog kann man Untergrenzen berechnen. Beispiel 4.50. F¨ ur die Poisson-Verteilung ist bei gefundener Anzahl n > 0 eine Untergrenze f¨ ur den Mittelwert μ gegeben durch P (k < n) = e−μmax
n−1 k=0
μkmax = e−μmax E(n − 1, μmax ) = CL k!
4.9. Intervallsch¨atzung bzw. P (k ≥ n) = e
−μmax
∞ μkmax k=n
mit der L¨ osung
k!
= 1 − CL
209
(4.237)
μmin = Q−1 (CL|2n)
Die CL-Untergrenzen zu n sind die (1 − CL)-Obergrenzen zu n − 1. F¨ ur kleine n gibt Tabelle 4.4 die Untergrenzen f¨ ur μ.
Tabelle 4.4 Poisson-Obergrenzen μ < μmax und Untergrenzen μ > μmin .
n
90 % CL
95 % CL
99 % CL
90 % CL
95 % CL
99 % CL
0 1 2 3 4 5 6 7 8 9 10
μ < 2.30259 3.88972 5.32232 6.68078 7.99359 9.27467 10.53207 11.77091 12.99471 14.20599 15.40664
2.99573 4.74386 6.29579 7.75366 9.15352 10.51303 11.84240 13.14811 14.43465 15.70522 16.96222
4.60517 6.63835 8.40595 10.04512 11.60463 13.10848 14.57062 15.99996 17.40265 18.78312 20.14468
μ > 0.10536 0.53181 1.10207 1.74477 2.43259 3.15190 3.89477 4.65612 5.43247 6.22130
0.05129 0.35536 0.81769 1.36632 1.97015 2.61301 3.28532 3.98082 4.69523 5.42541
0.01005 0.14855 0.43605 0.82325 1.27911 1.78528 2.33021 2.90611 3.50746 4.13020
Beispiel 4.51. Die Obergrenze eines Signals s aus einer Poisson-Verteilung bei gefundener Anzahl n und bekanntem mittlerem Untergrund b findet man mit der ochstens n − nb ist, wenn bedingten Wahrscheinlichkeit, dass die Signalanzahl ns h¨ die Untergrundanzahl nb ≤ n ist: P (ns + nb ≤ n|nb ≤ n) =
4.9.1.2
e−(s+b) E(n, s + b) = 1 − CL e−b E(n, b)
(4.238)
Konfidenzintervalle nach Feldman und Cousins
Eine der wenigen sinnvollen Vorschriften zur Konstruktion von Konfidenzintervallen nach der Wahrscheinlichkeits-Methode ist die Konstruktion von k¨ urzesten Intervallen in x f¨ ur alle Parameter p. Dies f¨ uhrt jedoch auf leere Intervalle, falls der Bereich f¨ ur p eingeschr¨ ankt ist. Einen Ausweg bietet die Bildungsvorschrift von Feldman und Cousins43 : Man verlangt nicht die gleiche Likelihood an den Intervallgrenzen, was auf die 43
G. J. Feldman, R. D. Cousins, Phys. Rev. D57, 3873 (1998); updated e-Print physics/9711021 Dec. 1999.
210
4. Statistische Inferenz
5 x/σ 0
−5
....... .................. .................. .. . . . . .. . . . .. . . ....... .. .................. .................. .................. . . .. . . . .. . . . .. . ........ ................ ................ .. ...... ................. . . .. ................ . . .. . . . .. . . .... .................. .. .. .................. .. ............ . .. . . . . .. . . .. . . . .. . . .. . . . .. . ........ ....... ........ .... .................. .......... .................. .... ................... . . . .. . . . .. . . .. .. . ...... .. .................. .. ................. .. .................. . . .. . . .. . . .. . .. . .. .. .......................... ........ ..... .. . .. ... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .
0.0 Abb. 4.22
1.0
2.0
3.0 p/σ 4.0
5.0
Konfidenzintervalle nach Feldman–Cousins mit 90 % CL. Die gepunkteten Linien begrenzen die k¨ urzesten x-Intervalle, die allerur p dings f¨ ur x/σ −1.64 zu unsinnigen leeren Intervallen f¨ f¨ uhren.
k¨ urzesten Intervalle f¨ uhren w¨ urde, sondern das gleiche Likelihood-Ratio f (x1 |p) l(p|x1 ) l(p|x2 ) f (x2 |p) = = = f (x1 |ˆ p(x1 )) max l(p|x1 ) max l(p|x2 ) f (x2 |ˆ p(x2 )) und
(4.239)
x2 f (x|p) dx = CL x1
Dabei ist pˆ der ML-Sch¨ atzwert, der auch ein Randwert des erlaubten Parameter-Intervalls sein kann. Ist der Wert f (x|ˆ p(x)) am Maximum unabh¨ angig von x (wie in Beispiel 4.48, solange pˆ innerhalb des erlaubten Intervalls liegt), so ist das konstruierte Intervall das k¨ urzeste f¨ ur x. Andererseits ist l(p|x)/ max l(p|x) = 1 f¨ ur alle x, deren pˆ(x) = pRand am Rand der Verteilung liegt. Daher stellt die Vorschrift sicher, dass diese x in Intervallen f¨ ur Parameter p in der N¨ ahe des Randes sind. Allerdings muss CL mindestens so groß sein wie die Wahrscheinlichkeit, eines dieser x f¨ ur p = pRand zu finden. F¨ ur eine Gauß-Verteilung wie in Beispiel 4.48 mit einoder zweiseitig begrenztem Intervall f¨ ur p bedeutet dies CL > 50 %, was f¨ ur sinnvolle Konfidenzniveaus ohnehin erf¨ ullt ist. Beispiel 4.52. Als Beispiel nehmen wir den Fall nichtnegativer Parameter p einer Gauß-Verteilung. Dann ist f¨ ur x ≥ 0 der beste Sch¨ atzwert ˆ p(x) = x und −(x−p)2 l(p|x) = e 2σ2 l(ˆ p|x)
4.9. Intervallsch¨atzung
211
Ist dagegen x < 0, so ist der beste Sch¨ atzwert ˆ p(x) = 0 am Rand des erlaubten Parameter-Bereichs und l(p|x) e = l(ˆ p|x)
−(x−p)2 2σ 2
e
−x2 2σ 2
=e
−p(p−2x) 2σ 2
−p2
px
= e 2σ2 · e σ2
d. h., im negativen x-Bereich f¨ allt die Funktion nur einfach exponentiell ab. Sobald dieser Bereich von der unteren Grenze x1 erreicht wird, wird das Intervall asymmetrisch um x = p. Im Grenzfall p = 0 verschiebt sich die Untergrenze nach ur alle x < 0 x1 = −∞, weil f¨ l(p|x) =1 l(ˆ p|x) und das Likelihood-Ratio erst bei x > 0 abf¨ allt. Das Konzept ist nur f¨ ur CL > 50 % sinnvoll, was aber keine wirkliche Einschr¨ ankung ist, da man u ¨blicherweise an CL ≥ 90 % interessiert ist. F¨ ur 90 % CL sind die Grenzen in Abbildung 4.22 dargestellt. Bei Messwerten zwischen x/σ ≈ 1.3 und 2.9 werden mehr kleine Parameterwerte p ausgeschlossen als beim Verfahren mit den k¨ urzesten x-Intervallen. Da man u ¨blicherweise f¨ ur x/σ > 1.64 noch nicht die Feldman–Cousins-Methode anwendet, ¨ sondern die gepunktete klassische Untergrenze verwendet, ist die Uberdeckungswahrscheinlichkeit einer solchen gemischten Methode f¨ ur kleine p-Werte gr¨ oßer als 90 %.
4.9.1.3
Zweiseitig begrenzte Poisson-Konfidenzintervalle
Wenn man mindestens ein Ereignis beobachtet hat und die M¨ oglichkeit einer anderen Quelle (Untergrund) ausgeschlossen ist, sollte man stets Ober- und Untergrenzen angeben, da in diesem Fall μ = 0 ausgeschlossen werden kann. Zweiseitig begrenzte Konfidenzintervalle f¨ ur Poisson-Verteilungen kann man nach verschiedenen Vorschriften berechnen. Nimmt man die mindestens CL wahrscheinlichsten Werte k zu jedem μ, also k max
P (k|μ) =
k=kmin
k max k=kmin
e−μ μk ≥ CL k!
und f¨ ur alle j < kmin und j > kmax ist P (j|μ)
0 verwendet werden. ur den Man sucht zu jedem μ den Bereich von kmin bis kmax , f¨ k max k=kmin
P (k|μ) =
k max k=kmin
e−(μ+b) (μ + b)k ≥ CL k!
und f¨ ur alle j < kmin und j > kmax ist P (k|μ) P (j|μ) < min P (j|ˆ μ) k=kmin ,...,kmax P (k|ˆ μ) mit μ ˆ = k falls k > b und μ ˆ = b sonst. Auch hier werden die Grenzen wie in Abschnitt 4.9.1.2 durch ein m¨ oglichst großes Likelihood-Ratio P (j|μ) l(μ|j) = l(ˆ μ|j) P (j|ˆ μ) innerhalb des Intervalls berechnet.
4.9. Intervallsch¨atzung 4.9.1.4
213
Konfidenzintervalle f¨ ur Wahrscheinlichkeiten
F¨ ur eine einzelne Beobachtung (n = 0 oder 1) eines Ereignisses mit unbekannter Wahrscheinlichkeit p gilt folgende Tabelle f¨ ur CL = α > 50 %:
P (×) ≥ α 0≤p≤1−α 1−α 1−α. Die Uberdeckungswahrscheinlichkeit P (p ∈ K) ist in der letzten Spalte als Funktion der wahren Wahrscheinlichkeit p angegeben. F¨ ur N Beobachtungen k¨onnen wir die Binomialverteilung zur Konstruktion k¨ urzester Konfidenzintervalle verwenden. Quotienten q = n/m kleiner Zahlen n und m beschreiben fast immer eine Wahrscheinlichkeit p=
n n + m
und sollten daher u ¨ber die Binomialverteilung P (n|n + m, p) gesch¨ atzt werden44 . Ein Intervall p ∈ [p1 , p2 ] entspricht q ∈ [q1 , q2 ] mit qi =
pi 1 − pi
(4.240)
Die manchmal verwendeten Clopper-Pearson-Konfidenzintervalle45 sind nicht die k¨ urzesten Intervalle, wie Sterne bereits 1954 gezeigt hat46 . Sie ergeben ¨ viel zu pessimistische Aussagen, mit Uberdeckungswahrscheinlichkeiten CL. Konfidenzintervalle K(n) f¨ ur eine Wahrscheinlichkeit p erh¨alt man mithilfe der k¨ urzesten Bereiche von binomialverteilten n zu gegebenem N als Funk¨ tion von p. Die Uberdeckungswahrscheinlichkeiten sind f¨ ur fast alle p gr¨oßer als CL. 44 45
46
Beispiele in F. James, M. Roos, Nucl. Phys. B172, 475 (1980). C. J. Clopper, E. S. Pearson, Biometrika 26, 404 (1934). Das Intervall ist die Schnittmenge zweier Intervalle zur Obergrenze und zur Untergrenze mit jeweils einem Konfidenzniveau (CL + 1)/2. T. E. Sterne, Biometrika 41, 275 (1954).
214
4. Statistische Inferenz
Beispiel 4.53. F¨ ur N = 2 und α = 95 % erh¨ alt man folgende Tabelle: P (×) ≥ 0.95
n=0
0.0000 ≤ p < 0.0253 0.0253 < p < 0.2236 0.2236 < p < 0.7764 0.7764 < p < 0.9747 0.9747 < p ≤ 1.0000
× × ×
n=1 × × ×
n=2
P (p ∈ K) > 95 %
× × ×
(1 − p)2 1 − p2 1 p(2 − p) p2
Daraus liest man die Konfidenzintervalle direkt ab: n = 0 : 0.0000 ≤ p < 0.7764 n = 1 : 0.0253 < p < 0.9747 n = 2 : 0.2236 < p ≤ 1.0000 ¨ Die Uberdeckungswahrscheinlichkeit ist in der letzten Spalte als Funktion der wahren Wahrscheinlichkeit p angegeben.
Aufgabe 4.13. Berechnen Sie die 95 % CL-Intervalle von p f¨ ur N = 3.
4.9.2
Die Bayessche Methode: Likelihood-Inferenz
Aus der Likelihood kann man eine Gr¨oße ableiten, die alle Axiome der Wahrscheinlichkeitsrechnung erf¨ ullt. Wir wollen sie subjektive Wahrscheinlichkeit C nennen (vgl. Abschnitt 1.3). Das Symbol C steht f¨ ur Chance und ist dem Titel der Bayesschen Arbeit (Fußnote6 auf S. 11) entnommen. Die Likelihood selbst erf¨ ullt Axiom 1, da Dichten, Wahrscheinlichkeiten und die Konstante c nichtnegative Zahlen sind. Axiom 3 f¨ uhrt auf die Definition C(p1 ∨ p2 ) = C(p1 ) + C(p2 )
(4.241)
F¨ ur eine subjektive Wahrscheinlichkeitsdichte geht die Summe bei einem oder u ¨ber die Werte eines Intervalls in ein Integral u ¨ber. Um Axiom 2 zu erf¨ ullen, m¨ ussen wir die Likelihood durch eine feste Wahl der Konstanten c so normieren, dass die subjektive Wahrscheinlichkeit f¨ ur irgendeinen Parameter aus dem erlaubten Wertebereich 1 ist. F¨ ur diskrete Parameter definiert dies eine subjektive Wahrscheinlichkeit (Chance) l(p|x) C(p) = p l(p|x)
(4.242)
4.9. Intervallsch¨atzung
215
Sie entspricht der bedingten a posteriori -Wahrscheinlichkeit (4.84), falls die a priori -Wahrscheinlichkeiten P (p) = P alle gleich sind. Gleichzeitig bietet sie alle Vorteile einer Likelihood, insbesondere kann man die Resultate mehrerer Messungen oder a priori -Information u ¨ber die m¨ oglichen Werte des Parameters p durch Multiplizieren der einzelnen Likelihood-Funktionen ber¨ ucksichtigen. F¨ ur kontinuierliche Parameter definieren wir die subjektive Wahrscheinlichkeitsdichte c(p) =
l(p|x) l(p|x) dp
(4.243)
Sie entspricht der bedingten a posteriori -Dichte (4.83), falls die a priori Dichte f (p) = a konstant ist. Ihr Integral ergibt eine Verteilungsfunktion C(p ≤ p0 ) =
p0 c(p) dp
(4.244)
−∞
Die so definierte subjektive Wahrscheinlichkeit erf¨ ullt alle Axiome einer Wahrscheinlichkeit oder Wahrscheinlichkeitsdichte. Sie ist aber keine physikalische Wahrscheinlichkeit, denn sie macht keine Aussage u ¨ber H¨aufigkeiten. Sie beschreibt vielmehr, was wir u ¨ber den unbekannten Parameter p˜ wissen. Der Parameter p ist in Wirklichkeit eine Konstante p˜, seine physikalische Wahrscheinlichkeit ist P (p = p˜) = 1 und P (p = p˜) = 0. Nur wenn die Parameter selbst Zufallsgr¨ oßen mit bekannten Wahrscheinlichkeiten P (p) = const bzw. Dichten g(p) = const sind, ist die subjektive Wahrscheinlichkeit eine a posteriori -Wahrscheinlichkeit bzw. die subjektive Wahrscheinlichkeitsdichte eine a posteriori -Wahrscheinlichkeitsdichte nach dem Bayesschen Theorem (1.18) bzw. (2.22): c(p) = f (p|x) = f (x|p) ·
g(p) g(p) = f (x|p) · f1 (x) f (x|p) · g(p) dp
In der Praxis trifft man diesen Sonderfall jedoch beliebig selten. Eine wirkliche a posteriori -Wahrscheinlichkeit kann i. Allg. nicht berechnet werden, weil entweder •
P (p) bzw. g(p) unbekannt ist oder
•
p keine Zufallsgr¨oße ist, sondern eine feste, unbekannte Zahl.
Die subjektive Wahrscheinlichkeit als a posteriori -Wahrscheinlichkeit folgt dann aus dem Bayesschen Postulat: Unbekannte Parameter werden als gleichverteilt angenommen. Das Postulat der Gleichverteilung ist eindeutig f¨ ur diskrete Parameter. F¨ ur kontinuierliche Parameter ist es jedoch nicht eindeutig, da transformierte
216
4. Statistische Inferenz
Parameter (etwa p2 statt p) nicht gleichverteilt sind. Diese Willk¨ ur besteht also in der Wahl des Parameters. W¨ahlen wir statt p eine Funktion, etwa φ(p) = p2 , so ist die Likelihood davon unabh¨angig, der Normierungsfaktor wird sich aber ¨andern, da l(p) dp = l(p) dp2 = 2 l(p) · p dp Somit kann man f¨ ur p2 eine subjektive Wahrscheinlichkeitsdichte auf zwei Arten definieren: entweder mit a priori -Wahrscheinlichkeit f (p) = const und anschließender Variablen-Transformation oder mit a priori -Wahrscheinlichkeit f (p2 ) = const. Beide Methoden liefern unterschiedliche Dichten! Darin zeigt sich der subjektive Charakter dieser Wahrscheinlichkeit“: Je nach” dem, wie man sein a priori -Nicht-Wissen quantifiziert, erh¨alt man unterschiedliche Antworten. F¨ ur reellwertige Parameter mit unbegrenztem Definitionsbereich ist eine Dichte g(p) = const nicht normierbar. Eine solche nicht normierbare Dichte gibt es auch als Faktor in H¨aufigkeitsdichten, z. B. bei der Zerfallszeit-Dichte λ des radioaktiven Zerfalls (Beispiel 2.14). Eine konstante Dichte ist eine sinnvolle Annahme f¨ ur die Abwesenheit jeglicher Information u ¨ber p. Die a posteriori -Wahrscheinlichkeitsdichte, die aus (2.22) mit dieser Annahme und der Likelihood folgt, ist wieder normierbar und damit eine echte Dichte. Ein Likelihood-Konfidenzniveau ist eine subjektive Wahrscheinlichkeit. Als Konfidenzregion sucht man ein Gebiet, in dessen Innern die Likelihood u ¨berall gr¨oßer ist als außerhalb und u ¨ber dem das Integral der subjektiven Wahrscheinlichkeitsdichte gerade das Konfidenzniveau CL ist. Ist die LikelihoodFunktion stetig, so ist l(p) = l0 an der Grenze des Gebiets konstant. Im eindimensionalen Fall erh¨ alt man ein oder mehrere Intervalle, an deren R¨ andern l(p) = l0 ist.
Der Bayes-Konfidenzbereich K zum Konfidenzniveau CL ist K CL = {p|l(p) > l0 } wobei l0 durch die Bedingung C(K CL ) =
c(p) dp = CL
(4.245)
l(p)>l0
bestimmt ist. Ein Konfidenzbereich in p ist auch ein Konfidenzbereich in einer transformierten Variablen ψ(p), aber i. Allg. mit anderem Konfidenzniveau. So
4.9. Intervallsch¨atzung
217
hat p2 andere Likelihood-Konfidenzbereiche als p. Dagegen sind LikelihoodVerh¨altnisse und der beste Sch¨ atzwert unabh¨angig von der Wahl des Parameters. Im Grenzfall N → ∞ wird wegen der Konsistenz der ML-Sch¨ atzung die Intervallbreite immer kleiner. Damit werden Parameter-Transformationen linearer, und das Konfidenzintervall h¨angt immer weniger von der Wahl des gesch¨atzten Parameters ab. F¨ ur Gauß-Verteilungen mit bekannter Standardabweichung und einem erlaubten Parameter-Bereich von −∞ bis +∞ ist der Likelihood-Konfidenzbereich identisch mit dem k¨ urzesten Wahrscheinlichkeits-Konfidenzintervall. F¨ ur Gauß-Verteilungen mit bekannter Standardabweichung, die durch einen nichtnegativen Parameter als Mittelwert beschrieben werden, ist die subjektive Wahrscheinlichkeitsdichte c(p) =
G(p|x, σ) , 1 − Q(x/σ)
p≥0
(4.246)
mit ∞ Q nach (2.133). Der Faktor 1/(1 − Q(x/σ)) normiert die Dichte, sodass c(p) dp = 1 ist. Die zugeh¨ orige Verteilungsfunktion ist 0 Q p−x σ C(p) = 1 − , 1 − Q(x/σ)
p≥0
(4.247)
F¨ ur negative Messwerte x < 0 erh¨ alt man daraus unmittelbar eine Obergrenze f¨ ur p, die L¨ osung von p
G(p |x, σ) dp
0
1 − Q(x/σ)
= CL
(4.248)
ist. Das Intervall K = [p1 , p2 ] zum Konfidenzniveau CL = α berechnet man mit der L¨osung r der Gleichung α=
1 − 2Q(r) 1 − Q(x/σ)
⇐⇒
Q(r) =
1 − α + αQ(x/σ) 2
und der L¨ osung r der Gleichung Q(r ) = (1 − α)[1 − Q(x/σ)] nach folgendem Algorithmus: p1 = x − r · σ if p1 < 0 then p1 = 0; p2 = x + r · σ else p2 = x + r · σ
218
4. Statistische Inferenz
Damit ergeben sich Konfidenz-Intervalle, wie sie in Tabelle 4.6 eingetragen sind. Das Problem der klassischen Wahrscheinlichkeitsinferenz, das z. B. wie in Abschnitt 4.9.1.2 umgangen werden muss, kann hier nicht auftreten. Daf¨ ur ¨ ist die Uberdeckungswahrscheinlichkeit aber nicht definiert und f¨ ur einige Parameter geringf¨ ugig kleiner als CL. Beispiel 4.54. F¨ ur die Obergrenze von μ aus einer Poisson-Verteilung ist bei gefundener Anzahl n die subjektive Wahrscheinlichkeitsdichte f¨ ur μ c(μ) = Die Normierung ergibt sich aus gegeben durch die Bedingung
∞ 0
e−μ μn n!
(4.249)
e−μ μn dμ = n!. Die Obergrenze ist dann
μ max −μ n
e
0
μ dμ = 1 − e−μmax E(n, μmax ) = CL n!
(4.250)
oder e−μmax E(n, μmax ) = 1 − CL, also dieselbe Grenze wie im Fall der NeymanPearson-Konfidenz (Beispiel 4.49). Analog gilt f¨ ur die Untergrenze bei n > 0
∞ e−μ μn μmin
n!
dμ = e−μmin E(n, μmin ) = CL
(4.251)
mit μmin (CL) = μmax (1 − CL). Beispiel 4.55. Zweiseitige Konfidenzintervalle f¨ ur n > 0 mit der Randbedingung alt man aus dem Gleichungssystem c(μmin ) = c(μmax ) erh¨ μ max −μ n
e
μmin
μ dμ = CL n!
e−μmin μn e−μmax μn max min = n! n! L¨ osungen findet man in Tab. 4.7. Tabelle 4.7 Zweiseitige Konfidenzintervalle f¨ ur poissonverteilte Messwerte n. n
68.269 % CL
90 % CL
95 % CL
99 % CL
1 2 3 4 5 6 7 8 9 10
0.26824...2.50065 0.86427...3.85450 1.55314...5.14830 2.28988...6.40286 3.05732...7.63020 3.84664...8.83739 4.65260...10.02894 5.47178...11.20790 6.30178...12.37645 7.14087...13.53620
0.08381...3.93215 0.44133...5.47917 0.93730...6.94611 1.50866...8.35540 2.12911...9.72313 2.78479...11.05948 3.46738...12.37117 4.17137...13.66286 4.89294...14.93793 5.62928...16.19890
0.04236...4.76517 0.30350...6.40122 0.71250...7.94830 1.20696...9.43022 1.75808...10.86445 2.35023...12.26235 2.97386...13.63153 3.62263...14.97732 4.29208...16.30362 4.97893...17.61335
0.00873...6.64272 0.13198...8.45066 0.39282...10.14778 0.74892...11.76638 1.17221...13.32657 1.64559...14.84161 2.15805...16.32062 2.70206...17.77008 3.27221...19.19476 3.86447...20.59832
4.9. Intervallsch¨atzung
219
Tabelle 4.6 90 % und 95 % Konfidenz-Intervalle [p1 , p2 ] eines nichtnegativen Parameters p aus einem gaußverteilten Messwert x. In der letzten Spalte ist das Likelihood-Ratio f¨ ur die Parameter-Werte an der rechten Grenze des Konfidenzintervalls angegeben. 90 % CL
x/σ pˆ/σ p1 /σ p2 /σ C(p < p1 ) (ˆ p − p1 )/σ (p2 − pˆ)/σ −5.0 −4.0 −3.0 −2.5 −2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 4.0 5.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 4.0 5.0
0 0 0 0 0 0 0 0 0 0 0 0.10 0.45 0.88 1.36 2.36 3.36
0.43 0.51 0.64 0.73 0.84 0.97 1.15 1.37 1.64 1.98 2.38 2.90 3.55 4.12 4.64 5.64 6.64
0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 1.86 % 3.84 % 4.69 % 4.93 % 5.00 % 5.00 %
−5.0 −4.0 −3.0 −2.5 −2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 4.0 5.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 4.0 5.0
0 0 0 0 0 0 0 0 0 0 0 0 0.20 0.59 1.05 2.04 3.04
0.55 0.66 0.82 0.92 1.05 1.21 1.41 1.66 1.96 2.32 2.73 3.18 3.80 4.41 4.95 5.96 6.96
0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 1.34 % 2.19 % 2.43 % 2.50 % 2.50 %
0 0 0 0 0 0 0 0 0 0.50 1.00 1.40 1.55 1.62 1.64 1.64 1.64
1 l(p2 ) = r(p2 ) l(ˆ p)
0.43 0.51 0.64 0.73 0.84 0.97 1.15 1.37 1.64 1.48 1.38 1.40 1.55 1.62 1.64 1.64 1.64
9.3 9.0 8.5 8.1 7.6 6.9 6.1 5.1 3.9 3.0 2.6 2.7 3.3 3.7 3.8 3.9 3.9
0.55 0.66 0.82 0.92 1.05 1.21 1.41 1.66 1.96 1.82 1.73 1.68 1.80 1.91 1.95 1.96 1.96
18.1 17.4 16.4 15.2 14.2 12.8 11.1 9.1 6.8 5.2 4.5 4.1 5.1 6.2 6.7 6.8 6.8
95 % CL
0 0 0 0 0 0 0 0 0 0.50 1.00 1.50 1.80 1.91 1.95 1.96 1.96
220
4. Statistische Inferenz
Beispiel 4.56. Die Obergrenze eines Signals s aus einer Poisson-Verteilung bei gefundener Anzahl n und bekanntem mittlerem Untergrund b findet man mit der subjektiven Wahrscheinlichkeitsdichte f¨ ur s c(s|n) =
e−(s+b) (s + b)n n!e−b E(n, b)
(4.252)
als L¨ osung der Gleichung s max
c(s) ds = 1 −
0
e−(smax +b) E(n, smax + b) = CL e−b E(n, b)
Der Nenner in (4.252) sorgt f¨ ur die korrekte Normierung
∞ 0
c(s) ds = 1.
Auch hier erh¨ alt man die gleichen Resultate wie bei der Wahrscheinlichkeitsmethode in Beispiel 4.51. Insbesondere ist c(s|0) = e−s , also ist eine Konfidenzobergrenze zu n = 0 unabh¨ angig vom Vorhandensein von Untergrund. Dies muss f¨ ur jede sinnvolle Methode gelten, jedenfalls wenn Signalereignisse und Untergrundereignisse unabh¨ angig sind. Intuitiv k¨ onnte man annehmen, dass bei einem hohen mittleren Untergrund die Obergrenze des Signals kleiner wird; dies ist jedoch genauso falsch wie die Annahme, dass beim W¨ urfeln im n¨ achsten Wurf eine Zahl wahrscheinlicher wird, wenn sie lange nicht vorgekommen ist.
4.9.2.1
Konfidenzintervalle f¨ ur Wahrscheinlichkeiten
Die Konfidenzintervalle, die man f¨ ur die Wahrscheinlichkeit p durch Messen einer binomialverteilten Anzahl n in einer Stichprobe vom Umfang N erh¨ alt, h¨ angen stark von der Methode ab: Die Bayes-Methode mithilfe der subjektiven Wahrscheinlichkeitsdichte c(p) liefert k¨ urzere Intervalle als die Neyman-Pearson-Methode. Beispiel 4.57. F¨ ur N = 2 sind die subjektiven Wahrscheinlichkeitsdichten c(p|0) = 3(1 − p)2 c(p|1) = 6 p(1 − p) c(p|2) = 3p2 Die k¨ urzesten 95 % CL-Intervalle sind daher f¨ ur n = 0 p max
3(1 − p)2 dp = 0.95 =⇒ pmax = 1 − 0.051/3
0
oder 0 ≤ p < 0.6316. Analog erh¨ alt man das Intervall f¨ ur n = 2. Die Funktion c(p|1) ist symmetrisch um ˆ p = 0.5. Daher ist die Untergrenze des Intervalls f¨ ur n = 1 gegeben durch
p1 0
6 p(1 − p) dp = 0.025 =⇒ p1 = 0.0943
4.9. Intervallsch¨atzung
221
Alle Intervalle f¨ ur N = 2 sind: n = 0 : 0.0000 ≤ p < 0.6316 n = 1 : 0.0943 < p < 0.9057 n = 2 : 0.3684 < p ≤ 1.0000 F¨ ur N = 1 erh¨ alt man n = 0 : 0.0000 ≤ p < 0.7764 n = 1 : 0.2236 < p ≤ 1.0000
Aufgabe 4.14. Berechnen Sie die 95 % CL-Intervalle von p f¨ ur N = 3.
4.9.3
Die Likelihood-Quotienten-Methode
Diese Methode ist nur f¨ ur gaußverteilte Sch¨atzwerte korrekt, wird aber h¨aufig auch auf andere Probleme angewandt. Insbesondere in mehrdimensionalen Parameter-R¨ aumen ist sie oft die einzig praktikable Methode. Man sollte sich aber dar¨ uber im Klaren sein, dass die Interpretation eines Konfidenzniveaus nur im Grenzfall der Gauß-Verteilung sinnvoll ist. Dort sind sowohl die Bayessche als auch die Neyman-Pearsonsche Interpretation korrekt. F¨ ur eine n-dimensionale Gauß-Verteilung ist ein Gebiet mit Konfidenzniveau CL begrenzt durch die Kontur, die durch den Likelihood-Quotienten r(p) =
l(p) = r CL l(ˆ p)
(4.253)
2
definiert ist. Dabei ist r CL = e−χ CL /2 (bzw. − ln r CL = χ2CL /2 die Differenz der Log-Likelihood) und χ2CL L¨osung von χ2CL
f (χ2 |n) dχ2 = CL
(4.254)
0
Tabelle 4.8 gibt einige Konfidenzniveaus und die zugeh¨ origen LikelihoodRatios bzw. Chiquadrat-Differenzen f¨ ur 1- bis 4-dimensionale ParameterR¨ aume. Abbildung 4.23 zeigt ein Beispiel f¨ ur n = 2. Die rechteckige ParameterRegion, die durch die Intervalle f¨ ur p1 und p2 zum Konfidenzniveau CL gegeben ist, hat ein Konfidenzniveau zwischen CL2 und CL, je nach der Gr¨ oße der Korrelation der zugeh¨origen Messwerte x1 und x2 . Die Ellipse,
222
4. Statistische Inferenz
p2
+σ2 ˆ p2 −σ2
90 %
.... ....... ............. .... .... .... ... .. ... . . ............................. ........ . . . ... . . ....... ... . .. . ....... .... .. . . ....... ... .. . .. ...... ... ... .. ...... ... ... .. .... ... .. . . .. .... ... ... .. .... ... .. . . .. ... .... .. ... ... .. . .. . .. ... ... .. ..... ... ... .. . . .. ... ... .. ..... .. ... .... . . .. ... ... .. ...... .. . . .. .... . ... ..... ... . .. .. ... .. ... ......... .. ....... .. ... . ....... . . ... . . .. ... . . . . . . . . . . . ........................ ... .. . ... .. .... . . .... . ....... ... ....................
•
74 %
90 %
90 % −σ1 Abb. 4.23
ˆ p1
+σ1
p1
Konfidenzbereiche in einem zweidimensionalen Parameter-Raum. Die Parameter sind Mittelwerte einer zweidimensionalen GaußVerteilung mit bekannter Kovarianzmatrix. W¨ ahrend die Projektionen auf p1 und p2 jeweils 90 % CL-Intervalle sind, hat die elliptische Region, die durch das Likelihood-Ratio r = 1/3.87 (oder ¨ Δχ2 = 2.71, Grenzen bei 1.64σ) definiert ist, nur eine Uberdeckungswahrscheinlichkeit von 74 %. Eine 90 % CL-Region ist die gepunktete Ellipse mit r = 1/10 (oder Δχ2 = 4.61, Grenzen ¨ bei 2.15σ). Die Uberdeckungswahrscheinlichkeit der rechteckigen Schnittmenge der beiden eindimensionalen 90 %-Intervalle liegt ur unkorrelierte Messgr¨ oßen zwischen 81 % (wenn p1 , p2 Parameter f¨ sind; die Achsen der Ellipse sind dann parallel zu den Koordinatenachsen) und 90 % f¨ ur maximale Korrelation.
die innerhalb dieser Region liegt und durch einen konstanten LikelihoodQuotienten festgelegt wird, ist eine Region mit einem Konfidenzniveau < CL2 . Z. B. entspricht die Ellipse, die durch zwei Intervalle mit 90 % CL begrenzt wird, einer Region mit 74 % CL.
4.9. Intervallsch¨atzung
223
Tabelle 4.8 Konfidenzniveaus, Log-Likelihood- und χ2 -Differenzen f¨ ur ndimensionale Gauß-Verteilungen.
n − ln r CL = 12 (Δχ2 = 1) − ln r CL = 1.3528 (Δχ2 = 2.7055) − ln r CL = 2 (Δχ2 = 4) − ln r CL = 12.5 (Δχ2 = 25) CL = 90 % CL = 95 %
4.9.4
1 CL = 68.3 %
2
3
4
39.3 %
19.9 %
9.0 %
74 %
56 %
39 %
86.5 %
73.9 %
59.4 %
CL = 90 % CL = 95.5 %
1 − CL = 5.7 · 10−7 3.7 · 10−6 1.5 · 10−5 5.0 · 10−5 Δχ2 = 2.71 Δχ2 = 3.84
4.61 5.99
6.25 7.81
7.78 9.49
Grenzen und Stichprobenumfang
√ Oft skalieren Grenzen genau wie statistische Fehler wie 1/ N mit dem Stichprobenumfang N . Dies ist aber nicht notwendigerweise immer der Fall, wie die folgenden Gegenbeispiele zeigen: Beispiel 4.58. Eine Obergrenze aus der Beobachtung von n = 0 Ereignissen in einer Stichprobe von N n liefert eine Obergrenze von μ < 3 mit 95 % CL und damit eine Obergrenze auf die Wahrscheinlichkeit p = μ/N f¨ ur dieses Ereignis, die wie 1/N skaliert. Beispiel 4.59. Wird ein Parameter p2 gemessen, der normalverteilt ist, √ so skaliert √ 2 die Obergrenze von p mit 1/ N , aber die Obergrenze von p mit 1/ 4 N .
5.
Tests
Als Resultat statistischer Analysen ben¨otigt man neben Zahlen auch einfache ja/nein-Aussagen, also Best¨atigungen oder Ablehnungen f¨ ur vorformulierte Hypothesen. Diese erh¨alt man aus statistischen Tests. Generell gilt: Ein Experimentalphysiker muss alle Annahmen u ¨ber statistische Verteilungen von Messdaten u ¨berpr¨ ufen. Dabei spielen qualitative Methoden eine genauso große Rolle wie quantitative statistische (Signifikanz-) Tests. Zu den wichtigsten qualitativen Methoden geh¨ort die grafische Darstellung der Daten zusammen mit der angenommenen Verteilung. Da die Gauß-Verteilung zu den h¨aufigsten angenommenen Verteilungen geh¨ ort – i. Allg. im Zusammenhang mit statistischen Messfehlern –, soll hier die Chi-Verteilung (im Englischen oft Pull genannt) besonders erw¨ ahnt werden. Histografiert wird die Gr¨oße χ=
x−x ˆ σx
(5.1)
(vgl. Beispiel 2.15), die f¨ ur korrekte x und σx den Mittelwert 0 und die Standardabweichung 1 haben sollte. Man kann das Histogramm mit einer u ¨berlagerten Standardnormalverteilung vergleichen. Außerdem kann man Mittelwert und Standardabweichung sowie deren statistische Fehler aufgrund des endlichen Stichprobenumfangs berechnen und mit den erwarteten Werten vergleichen. Abweichungen von der Gauß-Verteilung zeigen sich h¨ aufig in den Schw¨anzen der Verteilung, die besonders bei einer logarithmischen Ordinate auffallen. Eine alternative Darstellung der Chi-Verteilung bietet die lineare Auftragung der Summenh¨ aufigkeit auf Wahrscheinlichkeitspapier (Abbildung 2.8). Eine a¨quivalente Kontroll-Verteilung f¨ ur nicht normalverteilte Messgr¨ oßen ist ihr Beitrag ( l(x) · sign(x − x ˆ) χ(x) = −2 ln l(ˆ x) zur Log-Likelihood in einer Parameter-Bestimmung nach der MaximumLikelihood-Methode.
5.1
Signifikanztest
Statistische Aussagen haben Zufallscharakter und k¨ onnen eine Hypothese weder zweifelsfrei best¨ atigen noch widerlegen. Die Wahrscheinlichkeit erlaubt © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 R. Waldi, Statistische Datenanalyse, https://doi.org/10.1007/978-3-662-60645-2_5
226
5. Tests
es aber, eine quantitative Aussage u ¨ ber die Information zu machen, die eine onnen wir die Messung enth¨alt. Um eine einfache Hypothese H0 zu testen, k¨ Signifikanz einer Messung f¨ ur H0 angeben. Liegt eine Messung ξ = x einer Zufallsvariablen ξ vor, die von der Hypothese abh¨angt (Testvariable, discriminating variable), so definiert man das Signifikanzniveau (engl. significance level , manchmal auch p-value) ⎧ falls P (ξ > x|H0 ) < P (ξ > x|¬H0 ) ⎨ P (ξ > x|H0 ) falls P (ξ > x|H0 ) > P (ξ > x|¬H0 ) SL = P (ξ < x|H0 ) ⎩ P (|ξ − ξ | > |x − ξ | H ) falls P (ξ |H ) ein Maximum ist 0 0 0 0 0 (5.2) Falls also die Hypothese H0 kleine ξ bevorzugt, ist das Signifikanzniveau47 SL die Wahrscheinlichkeit, ein mindestens so großes ξ wie das gefundene x zu erhalten, obwohl H0 wahr ist. Dieser und der zweite Fall ist ein einseitiger Test, der dritte, bei dem extreme Abweichungen vom Messwert in beide Richtungen unwahrscheinlich sind, ist ein zweiseitiger Test. Bei asymmetrischen Dichten kann man den zweiseitigen Test auch anders festlegen, etwa so, dass P (ξ − ξ0 > x − ξ0 |H0 )/P (ξ > ξ0 |H0 ) falls x > ξ0 SL = (5.3) P (ξ − ξ0 < x − ξ0 |H0 )/P (ξ < ξ0 |H0 ) falls x < ξ0 d. h., man betrachtet von ξ0 , dem Maximum der Dichte (evtl. auch einem anderen geeigneten Wert, z. B. dem Mittelwert), die rechte und linke H¨ alfte des Wertebereichs der (Zufalls-)Messgr¨oße ξ separat (Abbildung 5.1a) oder SL =
2P (ξ − ξ0 > x − ξ0 |H0 ) 2P (ξ − ξ0 < x − ξ0 |H0 )
falls x > ξ0 falls x < ξ0
(5.4)
d. h., man l¨asst rechts und links vom Mittelwert stets gleich große Wahrscheinlichkeiten (Abbildung 5.1b) oder auch SL = f (ξ) dξ = P (ξ|f (ξ) < f (x)) (5.5) f (ξ)>f (x)
d. h., man fasst alle Bereiche zusammen, die eine kleinere Dichte als f (x) haben (Abbildung 5.1b, d¨ unne Linien). F¨ ur symmetrische Verteilungen sind alle diese Varianten ¨aquivalent zum zweiseitigen Test (5.2) Fall 3. Signifikanzgrenzen a¨ndern sich aber nicht nur mit der Wahl der Vorschrift zur Bestimmung des ausgeschlossenen Bereichs, sondern auch mit der Wahl 47
In diesem Buch wird SL meist als Symbol f¨ ur den Zahlenwert verwendet, der sich aus einer konkreten Stichprobe ergibt. Dieselbe Abk¨ urzung wird aber auch zur Kennzeichnung eines Zahlenwerts als Signifikanzniveau verwendet, also etwa H wird auf 1 % SL akzeptiert“. ” 0
5.1. Signifikanztest
f(ξ)
a) .. ... ...... .. ...... .. ... ... . ... .. .. ... ... ... .. ... . ... ... ... .. ... .. .. ... .. ... .. ... . ... ... ... .. .. ... .. ... .. ... . ... ... ... .. ... .. ..... .. ...... .. ...... .. ......... . . ........ . . . ..............................
f(ξ)
b) .. ... ...... .. ...... .. ... ... . ... .. .. ... ... ... .. ... . ... ... ... .. ... .. .. ... .. ... .. ... . ... ... ... .. .. ... .. ... .. ... . ... ... ... .. ... .. ..... .. ...... .. ...... .. ......... . . ........ . . . ..............................
ξ0 Abb. 5.1
227
ξ0
Beispiele f¨ ur zweiseitige Tests bei einer asymmetrischen Verteilung auf 5 % Signifikanzniveau. Die kritischen Bereiche sind nach Gleichung 5.3: gleiche relative Anteile rechts und links in (a) und nach ) und nach GleiGleichung 5.4: gleiche Fl¨ achen rechts und links ( ) in (b) definiert. chung 5.5: gleiche H¨ ohe rechts und links (
der Messgr¨oße! Wird statt x die Gr¨ oße x2 oder gar 1/x gemessen, ¨andert sich die Dichte: Im Gegensatz zur Likelihood kommt bei einer Dichte jeweils der Jacobi-Faktor hinzu. Damit kann sich nicht nur die Position des Maximums der Verteilung ¨andern, sondern im Extremfall sind sogar Bereiche hoher Dichte und Bereiche geringer Dichte vertauscht. Die physikalisch sinnvolle Auswahl der betrachteten Messgr¨oße ist daher wesentlich, um eine sinnvolle Signifikanzaussage zu erhalten. Um die Hypothese H0 zu testen, gibt man ein Signifikanzniveau α 1 vor. Ist SL < α, muss die Hypothese H0 verworfen werden. Zur Durchf¨ uhrung eines Tests mithilfe einer Stichprobe x = (xi )i=1...N ben¨otigt man eine Stichprobenfunktion T (x), die Teststatistik , die man so oßer ist als f¨ ur w¨ ahlt, dass sie f¨ ur unter H0 unwahrscheinliche Messreihen gr¨ wahrscheinliche. Man kann eine solche Funktion stets konstruieren. Liegt der Bereich maximaler Wahrscheinlichkeit einer Stichprobenfunktion ψ(x) f¨ ur H0 an der Stelle ahlen. Ein zweiseitiger Test f¨ ur ψ kann also ψ0 , kann man T = |ψ − ψ0 | w¨ in einen einseitigen f¨ ur T eindeutig u ¨bergef¨ uhrt werden. Unsere drei einfachen F¨alle (5.2) benutzen die Teststatistiken TI (x) = x, TII (x) = −x und TIII (x) = |x − ξ0 |. Daraus ergibt sich der Test der Nullhypothese H0 zu vorgegebenem Signifikanzniveau α P [T (ξ) > T (x)|H0 ] < α =⇒ ¬H0
(5.6)
d. h., wir werden die Nullhypothese H0 ablehnen, wenn die Wahrscheinlichkeit, dass T mindestens so groß wie der beobachtete Wert ist, kleiner als das
228
5. Tests
Signifikanzniveau ist. Dadurch ist ein kritischer Bereich T > Tc definiert, wobei Tc gegeben ist durch P [T (ξ) > Tc |H0 ] = α Dann ist der Test (5.6) einfach T (x) > Tc =⇒ ¬H0
(5.7)
d. h., wir verwerfen die Hypothese auf Signifikanzniveau α, wenn T im kritischen Bereich oberhalb Tc liegt. Beispiel 5.1. Wird eine M¨ unze 10-mal geworfen, und sie zeigt jedes Mal Kopf, werden wir vermuten, dass die M¨ unze oder das Werfen manipuliert war. Mit einem statistischen Test k¨ onnen wir diese Hypothese quantifizieren. Die Gegenhypothese, die wir widerlegen wollen, lautet P = P (Kopf) = 12 . Dazu gibt es unendlich viele Alternativhypothesen, z. B. P = 1, P > 12 , P 12 . . . Als Stichprobenfunktion f¨ ur unseren Test eignet sich die Anzahl n der W¨ urfe mit urfen Resultat Kopf“. Ist P = 12 , so ist die Wahrscheinlichkeit bei 10 W¨ ” 1 P (n ≥ 10|P = 12 ) = 10 2 d. h., wir k¨ onnen diese Hypothese auf einem Signifikanzniveau von 1 verwerfen, und stattdessen eine Manipulation unterstellen. Beispiel 5.2. Teilchenidentifikation durch Flugzeitmessung: Misst man den Impuls und die Flugzeit (TOF = time of flight) eines geladenen Teilchens, kann man daraus seine (Ruhe-)Masse berechnen. Da diese aber nur diskrete Werte annehmen kann, z. B. bei Hadron-Endzust¨ anden mit den Alternativen Pion (π ± : mπ ≈ 140 MeV/c2 ), Kaon (K ± : mK ≈ 494 MeV/c2 ) oder Proton (p : mp ≈ 938 MeV/c2 ), gibt es drei alternative Hypothesen zu testen. Aus dem gemessenen Impuls p und der Wegl¨ ange s kann man f¨ ur jede Teilchensorte die erwartete Flugzeit & m2 c2 s s 1+ = t(m) = βc c p2 berechnen. Man erh¨ alt also drei wahre Werte tπ , tK und tp . Der Messwert t ist gaußverteilt um den wahren Wert mit Standardabweichung σt . Um die Hypothese π auszuschließen, ∞ definieren wir einen kritischen Bereich t > tc . ahlt, dass t G(t|tπ , σt ) dt = α. Da tπ der kleinste in Frage Dabei wird tc so gew¨ c kommende Wert f¨ ur die wahre Flugzeit ist, gen¨ ugt ein einseitiger Test (Abbildung 5.2). Soll die Kaon-Hypothese getestet werden, m¨ ussen wir einen zweiseitigen Test machen, um gegen die Alternative Pion (kleineres t) und Proton (gr¨ oßeres t) abzugrenzen. Das Beispiel in Abbildung 5.2 ist ein Teilchen mit p = 900 MeV/c und einer Flugstrecke von 1.30 m. Daraus errechnet man eine Flugzeit im Labor von
(
t(m) = 4.34 ns ·
$
m 1+ 900 MeV/c2
%2
5.1. Signifikanztest
...... ..... a) ..... .. .... ±... ..... .. ... ...K .. ... p, p ¯ .... ..... . . . .. .... ... .... .. ..... .. ... ... .. .. ... .. ... ... ... .. . ... ... ... ... .. . .. ... ... ... ... ... ... ... ... .. .. ... .. ... . . ... ...... . . ... ... ... . ..... . .. ... ... . .... .. . ... ... .... .. ... ... . . .. ... . ... ... . ... .... ... . .. .. . .. ... . ... . .. .. ... ... . ... .. .. .. . ... . ... . . .. . ... ... ... .... . ... . ... . .. ... .. . . . .. . .. ... ... ... . .. .. . ... ... ... . .. . .. ... .. ... .. . . . . . . . ... . . ... . . . . . . . . . ...... ....... . . . . . . . . . . . . .................................................... ............. .......................................................
100 %
π ±.....
f(t|X)
4.0 Abb. 5.2
4.5
5.0 tc
5.5
SL(t|K)
50 %
10 %
229
b) .. .... .... ... ..... .. .. .. .. .. ... ..... . .. ... .. .. ... .... . . .. .... .. ... ... ... . ... ... ... . ... ... .. ... .. ... .. ... . ... ... .. ... .. ... .. ... . ... ... . .......... . . . . . . ............................................. .....................
6.0 6.5 t [ns]
K±
4.0
4.5
5.0 tK
5.5
6.0 t
6.5
(a) Dichte der gemessenen Flugzeitverteilung f¨ ur Pionen, Kaonen und Protonen mit Impuls p = 900 MeV/c. Angenommen wurde ur eine Flugstrecke von 1.3 m und eine Aufl¨ osung σt = 0.25 ns. F¨ onnen auf einem Signifikanzniveau von 1 % Werte rechts von tc k¨ Pionen als Teilchenart ausgeschlossen werden (schraffierter Bereich). ur Protonen Der Fehler 2. Art f¨ ur Kaonen ist βK = 53.8 % und f¨ βp = 2.3 · 10−7 . Das Signifikanzniveau, unter dem ein Messwert beim zweiseitigen Test der Kaon-Hypothese ausgeschlossen wird, ist in (b) aufgetragen.
oder tπ = 4.39 ns, tK = 4.95 ns und tp = 6.26 ns. In der Praxis macht man statt eines Tests einen ML-Fit zur Bestimmung der Teilchenart (Beispiel 4.18).
Eine Entscheidung, die man unter einem vorgegebenen Signifikanzniveau getroffen hat, kann falsch sein. Die Wahrscheinlichkeit einer Fehlentscheidung ist ein Qualit¨ atskriterium f¨ ur den Test. Man unterscheidet Fehler 1. Art α, eine Hypothese abzulehnen, obwohl sie wahr ist, und Fehler 2. Art β, eine Hypothese zu akzeptieren, obwohl sie falsch und stattdessen eine Alternativhypothese wahr ist. Die folgende Wahrscheinlichkeitstabelle gibt diese F¨ alle wieder. wahr ist. . . H0 Alternative H1 Alternative H2 .. .
P (H0 akzeptiert)
P (H0 abgelehnt)
1−α
α
β1 β2 .. .
1 − β1 1 − β2 .. .
Der Fehler 1. Art ist α = P (T > Tc |H0 )
230
5. Tests
und hat eine Wahrscheinlichkeit, die gegeben ist durch das Signifikanzniveau SL < α. Damit hat man ihn durch die Wahl des vorgegebenen Signifikanzniveaus α unter Kontrolle. Typische Werte liegen zwischen maximal 5 % f¨ ur unkritische Aussagen und 5.7·10−7 (5σ Ausschlussbereich der Gauß-Verteilung) f¨ ur neue Entdeckungen. Anders ist es mit dem Fehler 2. Art, dessen Wahrscheinlichkeit βi = P (T < Tc |Hi ) unter Umst¨anden groß ist. Er h¨ angt von der Alternativhypothese Hi ab, die letztlich wahr ist. Daher ist die Schlussfolgerung aus einem fehlgeschlagenen Test i. Allg. nur, dass man u ¨ber die Hypothese H0 aus der Messung x nicht entscheiden kann.
Ein statistischer Test kann eine Hypothese nur falsifizieren, nicht verifizieren. Eine Hypothese sollte daher so formuliert werden, dass der Fehler 2. Art der unwichtigere ist. H¨aufig ist eine Hypothese aber die Beobachtung von etwas Neuem, einem neuen Effekt, einem wirksamen Medikament, einem ungef¨ahrlichen Projekt, das man verifizieren muss. In diesem Fall sollte man sich ganz sicher sein, dass diese Hypothese H richtig ist. Es ist unkritischer, sie abzulehnen, obwohl sie wahr ist, als sie zu akzeptieren, obwohl sie falsch ist. Dazu formuliert man die Nullhypothese H0 = ¬H , die das Gegenteil dessen aussagt, das man best¨atigen will. Dann ist der kontrollierbare Fehler 1. Art f¨ ur H0 die Wahrscheinlichkeit, die Hypothese H zu akzeptieren, obwohl sie falsch ist. Unabh¨angig davon nennt man die zu testende Hypothese H0 stets Nullhypothese.
5.1.1
Einfache Hypothesen
Wir betrachten nur Hypothesen u ¨ber Parameter. Die Messreihe x = (x1 , . . . , xN ) von Zufallsvariablen ξ soll beschrieben werden durch die Dichte f (x|p), die nur von den Parametern p abh¨ angt. Eine einfache Hypothese legt die Werte der Parameter p eindeutig fest, d. h., H0 ≡ {p = p0 }. Eine zusammengesetzte Hypothese l¨ asst f¨ ur wenigstens einen Teil der Parameter mehrere Werte zu. Beispiel 5.3. Beispiele f¨ ur zusammengesetzte Hypothesen sind: •
Die xi sind gaußverteilt mit einem Mittelwert x ¯ (Standardabweichung beliebig).
•
Eine Verteilung besteht aus einem linearen Untergrund und einem Peak, der durch eine Gauß-Verteilung approximiert werden kann. Die Werte der beschreibenden Parameter blieben unspezifiziert. Das Gegenteil ist die zu testende Nullhypothese: kein Peak, nur linearer Untergrund.
5.1. Signifikanztest
231
F¨ ur eine einfache Hypothese H0 ist ∞
f (T |H0 ) dT
α=
(5.8)
Tc (α)
der Fehler 1. Art, die Hypothese f¨alschlicherweise abzulehnen. Zu vorgegebenem α definiert (5.8) die Untergrenze Tc des kritischen Bereichs. Liegt T (x) im wahrscheinlichen Bereich, der die Gesamtwahrscheinlichkeit 1 − α hat, werden wir die Hypothese akzeptieren. Der Fehler 2. Art, den wir in diesem Fall machen k¨ onnen, h¨angt von den wahren Werten der Parameter p ˜ ab. F¨ ur die einfache Alternativhypothese H1 ≡ {p = p1 } ist der Fehler 2. Art, H0 zu akzeptieren, obwohl stattdessen H1 wahr ist, Tc β1 =
∞
f (T |H1 ) dT = 1 −
−∞
f (T |H1 ) dT
Tc
Er wird minimal, falls 1 − β1 =
∞
f (T |H1 ) dT
Tc
maximal wird. Eine Teststatistik T , f¨ ur die 1 − β1 maximal wird, ist der beste oder sch¨ arfste Test einer einfachen Hypothese bez¨ uglich der Alternaaßig bester (oder sch¨ arfster ) Test erf¨ ullt dieses tivhypothese H1 . Ein gleichm¨ Kriterium f¨ ur alle Alternativhypothesen. Das bedeutet, dass die G¨ utefunktion (oder M¨ achtigkeit, engl. power ) MT (p) = 1 − β(p) =
∞
f (T |p) dT
(5.9)
Tc
f¨ ur einen gleichm¨ aßig besten Test das Supremum der G¨ utefunktionen aller m¨ oglichen Teststatistiken T ist. Ein Supremum existiert allerdings nicht immer. Der Wert der G¨ utefunktion an der Stelle p = p0 , die der Nullhypothese entspricht, ist gerade MT (p0 ) = α. Das Komplement der G¨ utefunktion β(p) = 1 − MT (p)
(5.10)
heißt Operationscharakteristik des Tests. Beispiel 5.4. Die G¨ utefunktion von Beispiel 5.2 als Funktion der Teilchenmasse ist f¨ ur einen zweiseitigen Test mit Akzeptanz-Intervall [t(m0 ) − Δt, t(m0 ) + Δt] MTOF (m) = 1 −
t(m 0 )+Δt t(m0 )−Δt
Sie hat ihr Minimum bei m = m0 .
G t t(m), σt dt
232
5. Tests
Ein Test heißt unverzerrt, falls β ≤1−α
(5.11)
f¨ ur alle einfachen Alternativhypothesen bzw. f¨ ur die zusammengesetzte Hypothese ¬H0 ist, also min MT (p) ≥ α p
Das Minimum der G¨ utefunktion liegt bei p = p0 . Der Fehler 2. Art ist dann kleiner als 1 minus dem Fehler 1. Art. Das bedeutet aber, der Fehler 1. Art 1 − βi einer einfachen Alternativhypothese Hi ist mindestens so groß wie der urden also mit einem Fehler 1. Art f¨ ur die einfache Nullhypothese H0 . Wir w¨ f¨ ur H0 unverzerrten Test jede andere Hypothese seltener zuf¨allig ablehnen als H0 . Ein Test heißt konsistent, falls ur lim MT (p) = 1 f¨
N →∞
5.1.2
p = p ˜
(5.12)
Intervallsch¨ atzung als Test
Eine Intervallsch¨atzung kann man auch als Test durchf¨ uhren. Auch Neyman und Pearson (Fußnote41 auf S. 204) benutzen diese Methode. Die Nullhypothese H0 ist dabei, dass die Messwerte x nicht durch den Parameter-Satz p bedingt sind. Als Teststatistik dient die Bedingung, dass x außerhalb einer Region U(p) liegt. Das Signifikanzniveau f¨ ur diesen Test ist SL = P (x ∈ / U). F¨ ur SL = α muss man f¨ ur jedes p ein Uα konstruieren, das 1 − α der m¨ oglichen Messwerte enth¨ alt. Wird die Nullhypothese verworfen, so hat man ein p ∈ K mit CL = 1 − α gefunden. Man erh¨alt K = {p|x ∈ / Uα (p)}
(5.13)
Eine Variante ist ein Chiquadrat-Test auf die Differenz p) Δχ2 (p) = χ2 (p) − χ2 (ˆ
(5.14)
mit SL = Q(Δχ2 , M ), wobei die Zahl der Freiheitsgrade die Anzahl M der Parameter ist. Variiert man nur einen Parameter p1 , nimmt man das Minimum von χ2 (p1 ; p2 , . . . , pM ) f¨ ur alle m¨oglichen p2 , . . . , pM und hat einen Freiheitsgrad. Die Grenzen sind definiert durch die Bedingung α = SL = 1−CL. Das Verfahren entspricht weitgehend der Wahrscheinlichkeitsinferenz, mit allen Vor- und Nachteilen.
5.1. Signifikanztest 5.1.3
233
Signal und Untergrund
Der Fall eines Signals auf Untergrund, wie wir ihn in Abschnitt 4.1.5.2 beschrieben haben, ist die klassische Anwendung f¨ ur einen Signifikanztest. Eine Messung n = n0 im Signalbereich mit mittlerem erwarteten Untergrund b ergibt als mittleres Signal s = n − b und die Sch¨ atzung sˆ = n0 − b. •
Die Nullhypothese lautet: Es gibt kein Signal, also s = 0 und n = b.
•
Das Signifikanzniveau errechnet sich zu SL = P (n ≥ n0 |n = b)
(5.15)
Hat die Nullhypothese ein kleineres Signifikanzniveau als das vorgegebene α, werden wir die Hypothese ablehnen und die Gegenhypothese es wurde ein ” Signal beobachtet“ akzeptieren. Sie hat eine Signifikanz von SL < α. Ist der mittlere Untergrund b = ¯b exakt bekannt, ist nach der PoissonVerteilung ∞ ¯k b ¯ ¯ = 1 − e−b E(n0 − 1, ¯b) (5.16) SL = e−b k! k=n0
Die Bestimmung des mittleren Untergrundes b hat allerdings h¨aufig selbst Fehler. In diesem Fall muss man P (n) unter Ber¨ ucksichtigung der Unsicherheit in b berechnen. F¨ ur große Untergrundzahlen kann man dazu die Gauß-Approximation heranziehen. Ist der mittlere Untergrund ˆ b ± δˆ b, so ist die erwartete Verteilung unter der Nullhypothese ' P (n) = G n ˆ b, ˆ (5.17) b + δˆ b2 Beispiel 5.5. Erkennungs- und Nachweisgrenzen radioaktiver Proben: Die Erkennungsgrenze AE ist die kleinste tats¨ achliche Z¨ ahlrate, bei der die Wahrscheinlichkeit, dass es sich um eine zuf¨ allige Fluktuation des Untergrundes handelt, kleiner als das Signifikanzniveau α ist. Das Signifikanzniveau α ist die Maximal-Wahrscheinlichkeit f¨ ur den Fehler 1. Art, ein nicht vorhandenes Signal zu messen. F¨ ur α = 1 % und lange Messzeiten ts (Probe) und tb (Nulleffekt, Untergrund), f¨ ur die die Gaußsche N¨ aherung gilt, ist Np = Ns − Nb und die Aktivit¨ at A=
Np 1 = ηts η
mit Fehlern nach (4.47)
( δNp =
ts tb
$
ts tb
N Ns − b ts tb
1+
ts tb
%
Nb
234
5. Tests ( δ Np =
Ns +
ts tb
2 Nb
Die Aktivit¨ at A ergibt sich aus der Proben-Pulszahl Np , der Signalmesszeit ts und der Akzeptanz η. Der Signifikanztest auf 1 %-Niveau ist erf¨ ullt, falls Np > 2.33 δNp , also A > 2.33 δNp /ηts . Die Nullhypothese Die Probe ist nicht radioaktiv“ ist ” gleichbedeutend mit die beiden Messwerte entstammen der gleichen (Untergrund-) ” Verteilung“, d. h., sie haben gleichen Mittelwert und gleiche Varianz. Diese Hypothese hat eine Wahrscheinlichkeit von 1 %, doch richtig zu sein, wenn das Signal mehr als 2.33σ (Tabelle 2.1: ±2.326 . . . symmetrisch 98 %) u ¨ber dem Mittelwert ¯ p = 0 liegt. Die Erkennungsgrenze ist bei einer Untergrundrate Rb = Nb /tb N
( 2.33 δNp 2.33 AE (1 %) = = η ts η
Rb ts
ts tb
1+
=
2.33 η
&
2Rb t
(5.18)
wobei der zweite Ausdruck f¨ ur t = ts = tb gilt. Allgemein ist
( χα AE (α) = η
Rb
1 1 + ts tb
mit P (χ > χα ) = Q(χα ) = α
(5.19)
ahlrate, bei der die WahrDie Nachweisgrenze AN ist die kleinste mittlere Z¨ scheinlichkeit, dass sie auf einem Signifikanzniveau α (hier 1 %) nachgewiesen wird, mindestens 1−β ist. Der Fehler 2. Art, ein vorhandenes Signal nicht erkannt zu haben, hat die Maximal-Wahrscheinlichkeit β. Wir machen also zwei Tests: den ersten auf Signifikanzniveau α, mit der Nullhypothese Die Probe ist nicht radioaktiv“, ” und den zweiten auf Signifikanzniveau β, mit der Nullhypothese Die Aktivit¨ at der ” Probe kann bei einer Erkennungsgrenze AE (α) nicht nachgewiesen werden“. Die Wahrscheinlichkeit, dass diese Hypothese richtig ist, ist die f¨ ur eine Rate A < AE , also P (A < AE |AN ) = β. W¨ ahlen wir f¨ ur β ebenfalls 1 %, so erhalten wir in der Gauß-N¨ aherung AE = AN − 2.33δA AN
2.33 = AE + η 2.33 = AE + η
2
(AN − AE ) =
2.33 η
2
AN (α, β) = AE (α) +
&
&
ηAN + Rb ts
ηAN + Rb ts
χ2β 2ηts
F¨ ur tb = ts = t und β = α ist das χα AN (α, α) = η
Ns (AN ) ts
χ2 2Rb + α t 2ηt
1+
& 1+
( (A + R )ts 1+4 E 2 b χβ
√
R t 2Rb t 1+4 + 4 b2 χα χα
(5.20)
(5.21)
5.1. Signifikanztest
235
&
√ √ χ2α 2Rb Rb t 1+ 2+2 + t 2ηt χα & √ χα (1 + 2) χα Rb = + η t 2t χα < η
F¨ ur Rb ts χα ist eine sichere Schranke 2χα AN (α, α) = η
&
2Rb t
(5.22)
H¨aufig wird ein Signal durch einen Fit einer Stichprobe (d. h. eine Menge experimenteller Daten) mit einer Verteilung f¨ ur Signal und Untergrund bestimmt. Dabei ist die Anzahl NS Signalereignisse ein Fit-Parameter. Eine konservative Absch¨atzung der Signifikanz ist ein Chiquadrat-Test auf χ2 =
NS2 δNS2
mit SL = Q(χ2 |1). Ein realistischer Test sollte dagegen die Wahrscheinlichkeit einer Untergrundfluktuation angeben, die das Signal vort¨auscht. Dazu kann man nicht einfach die Anzahl Untergrund-Ereignisse mit Fehler aus dem Signal-Fit nehmen, man muss vielmehr die Nullhypothese (kein Signal) durch einen zweiten Fit testen. Man hat dann im Idealfall zwei minimale χ2 aus einem Fit ohne Signal (NS = 0 erzwungen) und einem mit Signal, der genau einen freien Parameter (NS ) mehr hat. Die Differenz Δχ2min der beiden Chiquadrat-Minima eines Fits mit freiem NS und mit NS = 0 ist chiquadratverteilt mit einem Freiheitsgrad, man errechnet daraus SL = P (χ2 > Δχ2min ) = Q(Δχ2min |1). In den meisten F¨allen ist es nicht so einfach. Wenn man einen andern Maximum-Likelihood-Fit macht, kann man χ2min durch 2 max L (L = ln l) ersetzen. Die Differenz ist asymptotisch chiquadratverteilt mit einem Freiheitsgrad, man errechnet daraus SL = P (χ2 > −2Δ max L|1). Wenn man im Signal-Fit außer der Anzahl weitere Signalparameter frei lassen muss, erh¨ oht sich die Zahl der Freiheitsgrade entsprechend, da man aber in der Nullhypothese auf keinen der neuen Parameter empfindlich ist, ist die Differenz der Chiquadrat-Minima i. Allg. nicht chiquadratverteilt. In diesem oder in noch komplizierter gelagerten F¨ allen empfiehlt sich ein Untersuchung des Fit-Verhaltens mit einer Monte-Carlo-Simulation, um einen geeigneten Test zu entwickeln. Systematische Fehler gehen in die Signifikanz nur ein, wenn sie den Untergrund beeinflussen. Dabei spielen multiplikative Fehler, also Beitr¨ age zu Korrekturfaktoren, die Signal und Untergrund in gleicher Weise beeinflussen, keine Rolle.
236
5. Tests
5.1.4
Zwei-Hypothesen-Tests
Steht eine einfache Alternativhypothese H1 fest, kann man die Testbedingung versch¨arfen, wenn man statt des Signifikanzniveaus den Wert: CLs :=
α P (T > Tc |H0 ) = 1 − β1 P (T > Tc |H1 )
(5.23)
uhrend, da es sich nicht um ein Konfidenzniw¨ ahlt48 . Der Name CLs ist irref¨ veau, sondern ein Verh¨ altnis von Signifikanzniveaus handelt. Sind beide Hypothesen schwer unterscheidbar, ist der Fehler 2. Art β1 groß, d. h. α+β1 ≈ 1 und damit auch CLs ≈ 1. Hypothese H0 wird daher nur abgelehnt, wenn sie um den Faktor CLs unwahrscheinlicher ist als H1 . F¨ ur den Fall eines kleinen Signals auf Untergrund (nach Abschnitt 5.1.3) testet man die Hypothesen H1 = nur Untergrund, n = nb“ und H0 = er” ” wartetes Signal plus Untergrund, n = ns + nb“. Dabei nehmen wir an, dass der Erwartungswert nb = b bekannt ist. Der Test ist hier P (n ≤ nc |H0 ), H0 h¨angt allerdings vom erwarteten (mittleren) Signal ns = s ab. Der mittlere Untergrund b ist f¨ ur beide Hypothesen der gleiche, daher ist der Quotient (5.23) eigentlich eine bedingte Wahrscheinlichkeit nach (1.15), CLs = P (ns + nb ≤ n|nb ≤ n). Man verwendet die Information, dass der wahre Untergrund nb nicht gr¨oßer als der beobachtete Wert n f¨ ur Signal plus Untergrund sein kann. Beispiel 5.6. Diesen Test kann man zur Konstruktion von Konfidenz-Obergrenzen f¨ ur ein Signal im Sinne von Abschnitt 5.1.2 verwenden. Mit n Ereignissen kann man assigbarem CLs als Funktion der mittleren Signalanzahl s und der (mit vernachl¨ Fehler) gesch¨ atzten mittleren Untergrundanzahl b berechnen: CLs (s) =
P (nb + ns ≤ n|b, s) P (nb ≤ n|b, s = 0)
(5.24)
ur den CLs (smax ) = 1 − CL ist, entspricht der KonfidenzoberDer Wert smax , f¨ grenze nach (4.238), wenn ns und nb jeweils einer Poisson-Verteilung folgen. Beispiel 5.7. Eine Obergrenze auf einen nichtnegativen Parameter p, der durch die gaußverteilte Messgr¨ oße ξ = x mit bekannter Standardabweichung σ direkt gemessen wurde, kann ebenfalls mit CLs bestimmt werden. Beispiele sind etwa eine Masse, z. B. die Neutrinomasse, oder eine Zerfallsrate. Die Alternativhypothese H1 ist p = 0, also masselose Neutrinos oder kein Zerfall. Der Test beruht auf CLs (p) = 48
P (ξ < x|p) P (ξ < x|0)
(5.25)
A. L. Read, Presentation of search results: the CLs technique, J. Phys. G28, 2693 (2002).
5.2. G¨ ute einer Anpassung
237
und kann nach Abschnitt 5.1.2 in eine Konfidenz-Obergrenze pmax umgerechnet alt man werden. Aus CLs (pmax ) = 1 − CL erh¨ x−p
CLs =
−∞ x −∞
x −∞
G(t|0, σ) dt −
x −∞
x−p −∞
G(t|0, σ) dt = 1 − CL G(t|0, σ) dt G(t|0, σ) dt = CL
G(t|0, σ) dt p−x −x
G(t|0, σ) dt
1 − Q(x/σ)
= CL
(5.26)
¨ was mit der Bayes-Methode aus (4.248) u ¨bereinstimmt. Die Uberdeckungswahrscheinlichkeit ist wie bei der Bayes-Methode abh¨ angig vom wahren Parameter, aber u ¨berall mindestens CL, wenn man voraussetzt, dass auch f¨ ur große x-Werte eine Obergrenze und kein zweiseitiges Intervall angegeben wird.
5.2
G¨ ute einer Anpassung
Eine wichtige Klasse von Tests befasst sich mit der Frage, ob eine durch einen Fit bestimmte Verteilung oder Kurve die Daten auch beschreibt.
5.2.1
Chiquadrat-Test
Der einfachste Test, der bei einem Minimum-χ2 -Fit sozusagen kostenlos mitgeliefert wird, ist der Chiquadrat-Test. Bei einem Fit von N Messgr¨oßen (xi )i=1...N mit M Parametern (oder N −M Constraints) ist die Gr¨oße χ2min chiquadratverteilt mit N −M Freiheitsgraden. Testgr¨oße ist N (xi − x ˆi )2 (5.27) χ ˆ2min = σi2 i=1 f¨ ur eine diagonale Kovarianzmatrix. Man erwartet einen Mittelwert χ2 = N − M und eine Standardabweichung σ(χ2 ) = 2(N − M ). Das Signifikanzniveau ist gegeben als Wahrscheinlichkeit eines zuf¨ allig schlechten Fits. ˆ2 ) = Q(ˆ χ2 |N − M ) SL = P (χ2 ≥ χ
(5.28)
238
5. Tests
Mit dem Chiquadrat-Test kann ein schlechter Fit erkannt werden, zur Best¨atigung eines guten Fits enth¨ alt er jedoch zu wenig Information. Der beste Test ist die kritische Beurteilung durch einen Menschen. Bei KurvenFits erlaubt eine grafische Darstellung eine schnelle und zuverl¨assige Beurteilung. Bei anderen Chiquadrat-Tests mit diagonaler Kovarianzmatrix sollte man eine Tabelle der Einzelbeitr¨ age χi (mit Vorzeichen) zum χ2 ansehen, in der man einzelne Ausreißer oder systematische Tendenzen, wie lange Sequenzen mit gleichem Vorzeichen, leicht erkennen kann. Der Chiquadrat-Test ist ein sehr universeller Test: Durch den zentralen Grenzwertsatz erh¨ alt man in vielen F¨allen wenigstens approximativ gaußverteilte Messwerte. Jede Hypothese, die Vorhersagen u ¨ber solche Messwerte macht, kann man durch einen Chiquadrat-Test u ¨berpr¨ ufen. Bei einem allgemeinen ML-Fit hat man zwar keine χ2 -Variable, oft erlaubt einem aber der zentrale Grenzwertsatz ein approximatives Verhalten nach der Chiquadrat-Verteilung f¨ ur χ ˆ2L = −2(L + c ) der analog zur Gauß-Verteilung mit dem Faktor 2 skalierten negativen LogLikelihood L. Dabei muss man allerdings die Konstante c so w¨ahlen, dass ¨ zwischen Vorhersage und Daten, L + c = 0 bei exakter Ubereinstimmung wie etwa in (4.204). Dies ist nicht immer in sinnvoller Weise m¨oglich. Als Beispiel sei die Exponentialverteilung 1 f (x|μ) = e−x/μ (x ≥ 0) μ angef¨ uhrt. Die ML-Sch¨ atzung ergibt nach Aufgabe 4.4 xi μ ˆ=x ¯= N mit dem Maximum Lmax = −N ln μ ˆ−
1 xi = −N (ln x ¯ + 1) μ ˆ
(5.29)
Der Wert h¨angt offensichtlich nur von N und dem Mittelwert x ¯ ab. Er gibt daher keine Auskunft u ¨ber die G¨ ute der Anpassung an die Exponentialverteilung.
5.2. G¨ ute einer Anpassung 5.2.2
239
Kombination mehrerer Chiquadrat-Tests
Jeder Test liefert ein Signifikanzniveau SL = αi , das im Falle der G¨ ultigkeit der Nullhypothese eine gleichverteilte Zufallsvariable zwischen 0 und 1 darstellt. Liegen nun m unabh¨ angige Tests der gleichen Nullhypothese vor, so +m ist die kombinierte Ausschlusswahrscheinlichkeit αΠ = i=1 αi nicht mehr gleichverteilt. Sie hat also nicht die Aussagekraft eines einzelnen Signifikanzniveaus. Man kennt jedoch (unter Voraussetzung der Nullhypothese) ihre Verteilung nach Gleichung (2.148). Insbesondere ist χ2m = −2 ln αΠ chiquadratverteilt mit 2m Freiheitsgraden. Damit kann man f¨ ur die Kombination der m Tests ein neues Signifikanzniveau SL = Q(χ2m |2m)
(5.30)
berechnen. Ist die Nullhypothese richtig, ist SL wieder standardgleichverteilt. Dieses Verfahren ist jedoch willk¨ urlich. Tats¨achlich kann man unendlich viele ¨aquivalente Methoden angeben, um m Signifikanzniveaus zu kombinieren. F¨ ur den einfachsten Fall m = 2 kann man •
zu jedem SL1,2 ein zugeh¨origes χ21,2 finden, sodass SLi = Q(χ2i |ki ) ist;
•
dann ist χ2 := χ21 + χ22 chiquadratverteilt mit k1 + k2 Freiheitsgraden, das kombinierte Signifikanzniveau also SL = Q(χ21 + χ22 |k1 + k2 ). Dies l¨ asst sich sofort auf beliebige Zahlen m von Testresultaten verallgemeinern. Falls es sich dabei tats¨achlich um Chiquadrat-Tests gehandelt hat, ist unter den unendlich vielen Methoden genau eine richtige: SL = Q
m i=1
m
χ2i
ki
i−1
mit den tats¨achlichen Freiheitsgraden k1 . . . km der einzelnen Tests. Handelt es sich nicht um Chiquadrat-Tests, so ist jede dieser Methoden falsch.
240
5. Tests
5.2.3
Likelihood-Ratio-Test
Eine Teststatistik, die man bei Maximum-Likelihood-Fits zur Verf¨ ugung hat, ist die Differenz der Log-Likelihood-Werte bzw. das Verh¨altnis zweier Likelihoods lmax ΔL0 = Lmax − L0 = ln (5.31) l0 wobei L0 der Maximum-Likelihood-Fit-Wert unter der Nullhypothese H0 ist. Dabei vermindert die Nullhypothese die Zahl der Freiheitsgrade im Fit um n, h¨ aufig ist n = 1, wenn man genau einen Parameter festh¨ alt. Die Differenz kann man formal in ein Chiquadrat umrechnen: χ2 = 2ΔL0
(5.32)
Diese Gr¨ oße ist asymptotisch chiquadratverteilt mit n Freiheitsgraden (Wilks-Theorem49 ).
5.2.4
Empirischer Anpassungstest mithilfe der Log-Likelihood
Die Wahrscheinlichkeit eines zuf¨ allig schlechten Fits kann auch beim allgemeinen ML-Fit bestimmt werden, allerdings dann meist nur mithilfe von aufwendigen numerischen Methoden, da zwar die Differenz zweier LogLikelihoods aymptotisch chiquadratverteilt ist, der absolute Wert aber keine direkte Auskunft u ¨ber die G¨ ute eines Fits gibt. Die Monte-Carlo-Rechnung ist dabei oft die einfachste Methode, die zudem als allgemeines Rezept beschrieben werden kann: Wurden N Messdaten mit M Parametern gefittet durch die ML-Bedingung Lmax = max L, so simuliert man eine hinreichend große Menge von n Stichproben vom Umfang N , die der im Fit ermittelten Verteilung (p = p ˆ ) folgen. Dann fittet man diese Ereignisse mit derselben Methode wie die echten Daten und erh¨alt vom Fit der Stichprobe j eine Log-Likelihood max Lj . Daraus errechnet man eine Gr¨ oße x2j = −2 max Lj . Wegen des asymptotischen Verhaltens des ML-Fits ist χ2L + c mit einem geeigneten konstanten Summanden c asymptotisch chiquadratverteilt mit N − M Freiheitsgraden. F¨ ur endliche N kann man die Verteilung (einschließlich c) empirisch aus den n Stichprobenresultaten bestimmen. Das Signifikanzniveau, bei dem man den Fit gerade noch akzeptieren kann, wird dann approximiert durch den Bruchteil der max Lj < Lmax bzw. x2j > −2Lmax . Je gr¨oßer die Anzahl n der Stichproben, umso genauer kann man das Signifikanzniveau bestimmen. 49
S. S. Wilks, The large-sample distribution of the likelihood ratio for testing composite hypotheses, Ann. Math. Statist. 9, 60–62 (1938).
5.2. G¨ ute einer Anpassung 40 N
.. ... .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. ..
a)
30
20
10
−200 −100 Abb. 5.3
0
N 30
.. ... .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. ..
b)
20
10
100 200 χ2L
−200 −100
241
0
100 χ2L
200
Die Verteilung der Sch¨ atzfunktion χ2L = −2 max log l f¨ ur 250 MonteCarlo-Samples, die jeweils mit derselben Methode gefittet wurden. Histogramm (a) zeigt Ereignisse, die mit 10 Parametern gefittet wurden. In (b) wurden nur 4 Parameter benutzt. Die punktierten ur die Daten. Daraus l¨ asst sich die G¨ ute Linien sind die χ2L -Werte f¨ des Fits bestimmen.
Beispiel 5.8. Ein solcher Test wurde f¨ ur die vier Fits in Beispiel 4.39 durchgef¨ uhrt. Die letzten Zeilen von Tabelle 4.3 geben die gefundenen Mittelwerte von max L, die Standardabweichungen und das Signifikanzniveau wieder. Zwei Beispiele solcher empirischer Log-Likelihood-Verteilungen zeigt Abbildung 5.3.
Dieser Test kann jedoch nicht jeden schlechten Fit erkennen, wie die Likelihood in Gleichung (5.29) zeigt, die unabh¨angig von der Form der gefitteten Verteilung ist und daher f¨ ur jede andere Verteilung den gleichen Erwartungswert max L hat. Deshalb sind Histogramme der gefitteten Verteilungen zur Kontrolle eines ML-Fits unverzichtbar.
5.2.5
Der Studentsche t-Test
Zu einer Messreihe (xi )i=1...N kann man die Hypothese Der Erwartungswert der Grundgesamtheit ist x = μ0“ ” testen. Ist die Grundgesamtheit gaußverteilt mit ebenfalls unbekannter Standardabweichung, kann man μ ˆ durch das Stichprobenmittel und die Standardabweichung s nach (4.17) sch¨atzen. Als Teststatistik f¨ ur die Hypothese verwendet man dann μ ˆ − μ0 ˆ t= √ s/ N
5. Tests
242
Sie ist studentverteilt mit N − 1 Freiheitsgraden. Das Signifikanzniveau, auf dem die Hypothese verworfen werden kann, ist SL = P (|t| > |ˆ t|) die Wahrscheinlichkeit einer studentverteilten Zufallszahl t, eine gr¨ oßeren Betrag als ˆ t zu haben. Tabelle 4.2 gibt Grenzen des kritischen Bereichs von |t| f¨ ur SL = 1 − P = 0.10, 0.05 und 0.01 an.
5.2.6
Kolmogorow-Smirnow-Test
Eine h¨aufige Fragestellung ist es, ob eine Datenmenge eine vorgegebene Verteilung hat. Ein parameterfreier Test einer Stichprobe (xi )i=1...N aus dieser Datenmenge kann durch Vergleich der empirischen Verteilungsfunktion (vgl. Abbildung 4.8) #(xi < x) S(x) = (5.33) N mit der Verteilungsfunktion der zu testenden Hypothese F (x) durchgef¨ uhrt werden. Die Nullhypothese, die durch diesen Test mit der Wahrscheinlichkeit SL abgelehnt werden kann, ist dabei: Die Stichprobe entstammt einer Grundgesamtheit mit der Verteilungsfunk” tion F (x).“ Man verwendet die Testgr¨oßen50 √ D+ = N max[S(x) − F (x)] x √ − D = N max[F (x) − S(x)]
(5.34)
x
Die Symmetrie zwischen D+ und D− sieht man sofort, wenn man die uhrt F (x) in Verteilung von x = −x betrachtet. Diese Transformation f¨ F (x ) = 1 − F (−x) und S(x) in S (x ) = 1 − S(−x) u ¨ber. Damit wird aber [S (x ) − F (x )] = max [−S(x ) + F (x )] = max[F (x) − S(x)], max x
also D
+
x
= D− und D
−
x
= D+ .
ur stetige Verteilungsfunktionen F (x) und N → ∞ die D+ und D− haben f¨ Verteilung F + (λ) mit P (D+ > λ) = P (D− > λ) = 1 − F + (λ) = e−2λ 50
2
√ √ Abweichend von unserer Konvention wird h¨ aufig auch D/ N bzw. D+ / N als + D bzw. D bezeichnet.
5.2. G¨ ute einer Anpassung
243
Damit erh¨alt man zum Signifikanzniveau SL = α die Schranken D+ , D− ≤ ' − ln α 2 . Die Testgr¨ oße D = max(D + , D− ) =
√
N max |S(x) − F (x)| x
(5.35)
hat f¨ ur stetige Verteilungsfunktionen F (x) und N → ∞ die Verteilung (Satz von Kolmogorow) ∞
P (D ≤ λ) =
(−1)k e−2k
k=−∞ ∞
2
λ2
(−1)k+1 e−2k
P (D > λ) = 2
2
(5.36)
λ2
k=1 3 8 15 = 2α+ [1 − α+ + α+ − α+ . . .] 2
erh¨ alt man f¨ ur ein kleines Signifikanzniveau mit α+ = e−2λ . Damit' − ln(α/2) . α 1 die Schranke D ≤ 2 Bei der praktischen Durchf¨ uhrung des Tests sortiert man die Stichprobe in aufsteigender Folge, d. h. x1 ≤ x2 ≤ x3 ≤ . . . ≤ xN . Dann ist D=
maxn |n − N F (xn )| √ N
(5.37)
Schranken f¨ ur endliche N sind in Tabelle 5.1 angegeben. Beachten sollte man, dass die asymptotische Verteilung (5.36) nicht mehr gilt, wenn Parameter von F (x) aus derselben Stichprobe, die getestet wird, gesch¨atzt wurden. Ebenso kann der Test f¨ ur empirische Stichprobenfunktionen aus Histogrammen aufgrund zu großer Binbreite leicht zu einem zu großen Signifikanzniveau und damit zu einem ungerechtfertigten Ablehnen der Nullhypothese f¨ uhren.
5.2.6.1
Vergleich zweier Stichproben
Ein Vergleich zweier Stichproben (xi )i=1...Nx , (yi )i=1...Ny kann in analoger Weise mithilfe der empirischen Verteilungsfunktionen Sx und Sy durchgef¨ uhrt werden. Die Nullhypothese, die durch diesen Test mit der Wahrscheinlichkeit SL abgelehnt werden kann, ist dabei:
244
5. Tests
Tabelle 5.1 Schranken f¨ ur D+ und D im Kolmogorow-Smirnow-Test.
N
D SL = 0.10
D SL = 0.05
D+ SL = 0.05
D+ SL = 0.01
3 5 8 10 20 40 50
1.10 1.138 1.158 1.165 1.183 1.195 1.198
1.23 1.26 1.28 1.29 1.31 1.32 1.33
1.10 1.139 1.159 1.166 1.184 1.196 1.199
1.402 1.433 1.444 1.469 1.486 1.490
N →∞
1.223
1.358
1.224
1.517
Beide Stichproben entstammen einer Grundgesamtheit mit der gleichen ” Verteilungsfunktion F (x).“ Die Testgr¨ oßen ( +
D =
Nx Ny max[Sx (t) − Sy (t)] Nx + Ny t
(5.38)
Nx Ny max |Sx (t) − Sy (t)| Nx + Ny t
(5.39)
(
und D=
haben die gleichen asymptotischen Verteilungen wie ihre Analoga f¨ ur den Vergleich einer Stichprobe mit einer analytischen Verteilungsfunktion (Satz von Smirnow).
6.
Monte-Carlo-Rechnung
Zuf¨ allige Prozesse lassen sich im Computer simulieren. Der Zweig der Numerik, der sich damit besch¨ aftigt, ist die Monte-Carlo-Rechnung. Sie ist ein sehr hilfreiches Werkzeug, um zuf¨allige Vorg¨ange in der Natur zu simulieren, aber auch um statistische Analysemethoden zu testen. Und in der Numerik stellt sie ein effektives Verfahren zur Berechnung von Integralen in hochdimensionalen R¨aumen bereit. Zufallszahlen lassen sich aus zuf¨ alligen Prozessen durch Messung gewinnen, etwa durch Zeitmessungen mithilfe des radioaktiven Zerfalls. In der Praxis verwendet man Rausch-Generatoren (elektronische Schaltungen, in denen das sonst unerw¨ unschte Rauschen der wichtigste Output ist), um daraus in Echtzeit Zufallszahlen zu erzeugen, die man direkt im Programm verwenden, aber auch f¨ ur Simulationsrechnungen auf großen Datenspeichern – fr¨ uher u ¨blicherweise Magnetb¨ andern – ablegt. Solche Zufallsgeneratoren sind jedoch relativ langsam.
6.1
Quasi-Zufallszahlen
Statt echte“ Zufallszahlen zu verwenden, ist es oft sinnvoller, eine Sequenz ” von Zahlen zu benutzen, die reproduzierbar, also deterministisch, ist, die aber ein Verhalten zeigt, das von einer zuf¨alligen Sequenz nicht zu unterscheiden ist. Quasi-Zufallszahlen sind S¨ atze aus Zahlen, die sich nur in der gew¨ unschten Hinsicht wie echte Zufallszahlen verhalten, ansonsten aber eher regelm¨aßiges Verhalten zeigen. Quasi-Zufallszahlen m¨ ussen auf das jeweilige Problem zugeschnitten sein.
6.2
Uniforme Pseudozufallsgeneratoren
Universeller verwendbar sind reproduzierbare Sequenzen von Zahlen, die sich bez¨ uglich kleiner“ Stichproben in jeder Hinsicht wie echte Zufallszahlen ” verhalten. Dabei kann klein“ von der Gr¨oßenordnung 109 oder gar 1015 ” sein, also im Rahmen dessen, was man in sinnvoller Zeit auf einem Computer rechnen kann. Solche Zahlen werden als Pseudozufallszahlen bezeichnet. Als Ausgangsbasis verwendet man einen Algorithmus, der Pseudozufallszahlen gleichverteilt im Intervall [0, 1] produziert. © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 R. Waldi, Statistische Datenanalyse, https://doi.org/10.1007/978-3-662-60645-2_6
246
6. Monte-Carlo-Rechnung
ζ = Zufallszahl aus [0, 1[ mit der Dichte f (z) =
1 (0 ≤ z < 1) 0 sonst
Je nach Algorithmus sind dabei die Grenzen des Intervalls, 0 und 1, jeweils als Resultate m¨oglich oder nicht m¨ oglich. Nat¨ urlich sind alle S¨ atze solcher Zufallszahlen im mathematisch strengen Sinne endliche Untermengen des Intervalls, da sie mit einer endlichen Bitzahl dargestellt werden. Solche Algorithmen bergen stets die Gefahr nicht-zuf¨alliger systematischer Effekte, daher sollte ein Zufallsgenerator auf seine Eignung f¨ ur ein spezifisches Problem getestet werden. Diesem Nachteil stehen folgende Vorteile eines Pseudozufallsgenerators gegen¨ uber: 1. Pseudozufallszahlen sind schnell und einfach auf Computern zug¨ anglich, ohne zus¨ atzliche Hilfsmittel. 2. Pseudozufallszahlen sind reproduzierbar: Der gleiche Startwert liefert die gleiche Sequenz von Zahlen. Dies ist besonders n¨ utzlich bei der Fehlersuche in Monte-Carlo-Programmen. F¨ ur Anwendungen, bei denen es auf Unvorhersagbarkeit ankommt (wie etwa Computerspiele), kann die Sequenz mit einem zuf¨ alligen Startwert initialisiert werden, etwa den Mikrosekunden der Tageszeit einer eingebauten Uhr. Sequenzen von Pseudozufallszahlen ergeben sich aus einer Iteration zi = r(zi−n , . . . , zi−1 )
(6.1)
Der einfachste Sonderfall ist dabei zi = r(zi−1 )
(6.2)
Solche Sequenzen sind periodisch. Eine der Grundvoraussetzungen f¨ ur einen brauchbaren Zufallsgenerator ist, eine m¨oglichst große Periode zu haben. Im Falle von (6.2) ist dies die Anzahl verschiedener Werte, die der verwendete Computer darstellen kann. Um die vorhandene Bitzahl optimal zu nutzen, aber auch um einfach zu verstehende Algorithmen zu haben, erzeugt man in der Praxis nichtnegative ganze Zufallszahlen R zwischen 0 und M = 2k , wenn ein Datenwort k Bits hat. Die reelle (tats¨ achlich immer auch rationale) Zufallszahl zwischen 0 und 1 ergibt sich dann durch Division durch M : ζ=
R M
6.2. Uniforme Pseudozufallsgeneratoren
247
Damit kommt die 1 nie in der Sequenz vor, die gr¨ oßte Zufallszahl ist 1 − 2−k . Der Wertebereich solcher Sequenzen ist [0, 1[. Ist die 0 ist nicht erw¨ unscht, sollte man sie durch eine positive Zahl ζ0 < 1/M ersetzen (if -statement im Programm). Damit die entstehende Folge sich wie zuf¨ allig verh¨alt, muss die Funktion r in (6.2) folgende Anforderungen erf¨ ullen: 1. r[0, 1[ = [0, 1[ 2. | dr/ dz| 1, damit eine Korrelation aufeinanderfolgender Zufallszahlen ausgeschlossen wird. Allgemein sollte sich ein Zufallsgenerator m¨ oglichst ¨ chaotisch verhalten, d. h., kleinste Anderungen des Startwerts m¨ ussen ¨ rasch große Anderungen der Sequenz zur Folge haben. 3. Falls r st¨ uckweise stetig und x1 . . . xn alle L¨osungen von z = r(xi ), dann muss n(z) dx =1 dr i=1
x=xi
sein, ur z = r(x) da f¨ die Dichte ebenfalls 1 sein muss, und g(z) = f (xi )/|r (xi )| = 1/|r (xi )| = 1. Insbesondere ist diese Summe unabh¨ angig von z. Damit ist die Menge m¨oglicher Algorithmen f¨ ur uniforme Zufallszahlen zwischen 0 und 1 extrem eingeschr¨ankt.
6.2.1
Coveyou-Generator
Der Generator-Algorithmus von Robert R. Coveyou ist einer der einfachsten Algorithmen. start : R = B loop : R = R · (R + 1) mod 2k ζ = R/2k Der Wertebereich ist ]0, 1[ mit 2k − 1 diskreten rationalen Zahlen. Da der Algorithmus deterministisch ist, wiederholt sich eine Sequenz von Zufallszahlen periodisch. Bedingung f¨ ur eine maximale Periode von P = 2k−2 ist B mod 4 = 2 (6.3) Ein verwandter Generator benutzt als Modulus eine sehr große Primzahl und berechnet die einfache Sequenz loop : R = R · R mod M ζ = R/M
248
6. Monte-Carlo-Rechnung
In der Kryptografie verwendet man M = p · q, ein Produkt aus zwei großen Primzahlen p und q, benutzt aber nur das niederwertigste Bit der Sequenz. In beiden F¨allen kommt die 0 nicht vor.
6.2.2
Multiplikativ kongruentielle Generatoren
Die am h¨aufigsten anzutreffenden Zufallsgeneratoren sind multiplikativ oder gemischt kongruentielle Generatoren. Beide Algorithmen sind linear. Ein multiplikativ kongruentieller Generator LCG[M, A, 0; B] ist folgender Algorithmus: start : R = B loop : R = (A · R) mod M ζ = R/M Auch dieser Algorithmus hat den Wertebereich ]0, 1[ mit M − 1 diskreten rationalen Zahlen. Trotz ihrer einfachen Struktur ist es nicht einfach, ihre Eigenschaften zu ermitteln. Die kongruentiellen Generatoren sind aber heute (mit Methoden aus der Zahlentheorie) sehr gut verstanden, was ein ungeheurer Vorteil f¨ ur den Anwender ist. Dies war noch in den 1960er-Jahren nicht der Fall, und die Resultate mathematischer Forschungen u ¨ber Zufallsgeneratoren waren bis in die 1980er-Jahre bei Computerherstellern und Physikern weitgehend unbekannt, wie etwa ein KfK-Bericht51 von 1981 zeigt. Die Bedingungen f¨ ur maximale Periode sind: ggT(B, M ) = 1 A(p−1)/2 mod p = p − 1 A(p−1) mod p2 = 1 A mod 8 = 5 oder 3 A mod 4 = 3
(B, M teilerfremd) (f¨ ur alle Primteiler p|M, p = 2) (f¨ ur alle Primteiler p2 |M, p = 2) (falls 8|M ) (falls 4|M, 8|/M )
Sie erm¨ oglichen eine Periode P = M · X · Y mit p−1 aller Primteiler p|M X= p 1 Y = (falls 8|M ), 1 sonst 2 Uns interessiert in erster Linie der Sonderfall M = 2k (bin¨are Computer, k ≥ 3): Hier sind die Bedingungen B ungerade, A mod 8 = 5, 51
H. Borgwaldt, V. Brandl, “Evidence of Significant Bias in an Elementary Random Number Generator” KfK-3107 (1981).
6.2. Uniforme Pseudozufallsgeneratoren
· ζi+1
· •
0.5
·
· •
·
·
·
·
•
·
· · 0.0 Abb. 6.1
· ·
•
·
·
·
·
·
·
·
·
·
•
•
•
·
·
·
·
·
·
·
·
•
•
·
·
·
•
•
0.5
b) ·
•
•
h
·
·
·
·
·
·
·
·
·
· •
•
·
·
· · a)
ζi
249
0.05
•
1.0
0.0
0.5
ζ
1.0
Iterationsfunktion (a) und Dichte (b) des Generators aus Beispiel 6.1 f¨ ur A = 11. Die fetten Punkte in (a) entsprechen einer Sequenz mit (maximaler) Periode 16. Die H¨ aufigkeitsverteilung dieser Sequenz ist in (b) aufgetragen.
f¨ ur eine Periode P = 2k−2 (A mod 8 = 3 ergibt die gleiche Periode, solche Generatoren haben aber schlechtere statistische Eigenschaften). Untersuchungen u ¨ber Korrelationen zwischen aufeinanderfolgenden Zufallszahlen haben dar¨ uberhinaus gezeigt, dass man am wenigsten korrelierte Sequenzen erzeugt, falls52 √ A ≈ 2k−3 · ( 5 − 1) Eine zweiter Sonderfall, M = 10k (k ≥ 3), ist ebenfalls von Interesse, etwa in der Zufallszahlen-Erzeugung mit programmierbaren Taschenrechnern oder anderen dezimal arbeitenden Computern. Hier sind die Bedingungen 2|/B, 5|/B, A mod 8 = 5, A2 mod 25 = 4, 9, 14 oder 19 f¨ ur eine maximale Periode P = 2 · 10k−1 . Beispiel 6.1. Als u ¨berschaubares Demonstrationsbeispiel f¨ ur die Arbeitsweise und die Eigenschaften eines multiplikativ kongruentiellen Generators soll LCG[64, A, 0; B], also die Iteration R = A · R mod 64 mit ζ = R/64 dienen. Dieses Beispiel l¨ asst sich vollst¨ andig durchrechnen und erlaubt, einige interessante Eigenschaften zu demonstrieren. 52
J. H. Ahrens, U. Dieter, A. Grube, Computing 6, 121 (1970).
6. Monte-Carlo-Rechnung
250
Die erzeugten Sequenzen f¨ ur verschiedene A sind in Tabelle 6.1 aufgelistet. Die maximale Periode ist P = 16 f¨ ur ungerade Startwerte B und A = 3, 5, 11, 13, 19, 21, 27, 29, 35, 37, 43, 45, 51, 53. Abbildung 6.1a zeigt f¨ ur eine der g¨ unstigsten Sequenzen mit A = 11 die Iterationsfunktion. Wenn wir die Punkte verbinden, ist die konstante lokale Steigung 11 bereits recht steil. Die 64 m¨ oglichen Werte teilen sich in zwei unabh¨ angige Sequenzen der Periode 16, von denen eine durch dicke Punkte angedeutet ist. Die 32 restlichen Werte teilen sich in mehrere Sequenzen mit kleiner Periode, wie in Tabelle 6.1 am Beispiel A = 3. Beispiel 6.2. Der CERN-Generator LCG[231 , 69069, 0; 65539] (FORTRAN-Funktion RN32) ist maschinenunabh¨ angig. start : R = 65539 loop : R = (69069 · R) mod 231 ζ = int(R/128)/224 Er ist uniform (χ2 = 88.9/100 d. f. mit 1 960 000 Zahlen), aber aufgrund des Marsaglia-Effekts f¨ ur Sequenzen von n-Tupeln ungeeignet.
Tabelle 6.1 Multiplikativ kongruentielle Generatoren mit M = 64. A 2
3
B R 1 R2 . . . 1 2 4 8 16 32 3 6 12 24 48 32 5 10 20 40 16 32 7 14 28 56 48 32 0 1 2 4 5 8 10 16 20 32 40
... 3 6 12 15 24 30 48 60
P 0 0 0 0
0 0 0 0
... ... ... ...
9 27 17 51 25 11 33 35 51 59 49 19 57 43 18 54 34 38 50 22 36 44 45 7 21 63 61 55 37 47 13 39 53 31 29 23 26 14 42 62 58 46 52 28
56
1 1 1 1 1 16 8 4 16 2 8 2 4 1 2
11
1 11 57 51 49 27 41 3 33 43 25 19 17 59 9 35 5 55 29 63 53 7 13 15 37 23 61 31 21 39 45 47
16 16
13
1 13 41 21 17 29 57 37 33 45 9 53 49 61 25 5 3 39 59 63 51 23 43 47 35 7 27 31 19 55 11 15
16 16
6.2. Uniforme Pseudozufallsgeneratoren 6.2.2.1
251
Gemischt kongruentielle Generatoren
Gemischt kongruentielle Generatoren sind ebenfalls linear, haben aber einen zus¨ atzlichen konstanten Summanden. start : R = R0 loop : R = (A · R + B) mod M ζ = R/M Dieser Generator wird als LCG[M, A, B; R0 ] bezeichnet (LCG = Linear Congruential Generator ). Die Bedingungen f¨ ur maximale Periode sind: R0 beliebig ggT(B, M ) = 1 A mod p = 1 A mod 4 = 1
(B, M teilerfremd) (f¨ ur alle Primteiler p|M , p = 2) (falls 4|M )
Die Periode ist dann die maximal m¨ogliche: P = M . Eine weitere Bedingung f¨ ur gute statistische Eigenschaften ist min{n|(A − 1)n mod M = 0} > 4 Von Interesse sind wieder zwei Sonderf¨ alle. F¨ ur M = 2k (bin¨are Computer) w¨ ahlt man
B ungerade, A mod 8 = 5, √ A ≈ 2k−3 · ( 5 − 1) Periode: P = 2k F¨ ur M = 10k (dezimale Computer) w¨ ahlt man 2|/B, 5|/B, A mod 20 = 1 Periode: P = 10k
252
6. Monte-Carlo-Rechnung
6.2.2.2
Mehrfach kongruentielle Generatoren
F¨ ur viele moderne Anwendungen sind die Perioden einfacher kongruentieller Generatoren zu klein. Kommt man mit der Sequenzl¨ ange in die N¨ahe der Periode, k¨onnen die Abweichungen von realistisch zuf¨alligem Verhalten schon erheblich sein. Man ben¨ otigt also ¨ahnlich gut verstandene Generatoren mit wesentlich gr¨oßerer Periode. Eine direkte Verallgemeinerung, die diese Randbedingung erf¨ ullt, ist ein mfach gemischt (B = 0) oder multiplikativ (B = 0) kongruentieller Generator start : R(1) = R1 R(2) = R2 ... R(m) = Rm loop : R = (A1 · R(1) + . . . + Am · R(m) + B) mod M R(1) = R(2) ... R(m − 1) = R(m) R(m) = R ζ = R/M Die maximale Periode ist P = M m . Falls M eine Primzahl und B = 0 ist, ist P = M m − 1. Hier gen¨ ugt es, wenn außer Am nur ein weiteres Aj ungleich 0 ist; das erh¨oht die Geschwindigkeit. Nat¨ urlich wird man auch nicht alle R(j) jedes Mal umkopieren, sondern den Index jedes Mal zyklisch (d. h. mod m) um 1 verschieben.
6.2.2.3
Marsaglia-Effekt
Die Vergr¨ oßerung der Periode ist jedoch nicht hinreichend f¨ ur bessere Generatoren. Einen wesentlichen Nachteil aller multiplikativ oder gemischt kongruentielle Generatoren macht sie f¨ ur viele Anwendungen ungeeignet. Sie erzeugen n-Tupel (ζ1 , ζ2 . . . ζn ), die auf einem Gitter im n-dimensionalen Einheitsw¨ urfel liegen53 . Die kleinste Zahl von Hyperebenen durch die Gitterpunkte ist H ≤ (n!M )1/n (6.4) (siehe Tabelle ur M = 2k mit √ 6.2). Anzahlen nahe dem Maximum werden f¨ k−3 · ( 5 − 1) erreicht. A≈2 53
George Marsaglia, “Random Numbers Fall Mainly in the Planes”, Proc. Nat. Acad. Sci. WA 61, 25 (1968).
6.2. Uniforme Pseudozufallsgeneratoren
253
Tabelle 6.2 Obere Schranke f¨ ur die maximal erreichbare kleinste Zahl H von Hyperebenen. Dimension n
2 6
3
4
5
6
15
20
30
5 5 5 41 28 25 382 123 76
5 25 52
Hmax (M = 2 = 64) Hmax (M = 232 ) Hmax (M = 264 )
11 7 6 5 93K 2953 566 220 6M 5M 145K 18K
Hmax (M = 232 , m = 2) Hmax (M = 232 , m = 3)
6M 5M 145K 18K 4866 382 123 76 52 398T 8G 37M 1.5M 196K 3514 542 231 110
·
·
ζi+1
·
•·
·
0.5
·
0.0
· ·
· ·
· ·
•· ·
·
·
·
·
0.5
·
•·
· ·
ζi
·
·
•·
·
·
·
·
·
·
·
·
·
·
·
·
·
•·
·
·
•·
·
·
·
•·
·
·
·
·
·
·
·
·
·
·
·
·
·
•·
5 120 4866
10
· ·
· ·
Abb. 6.2 Der Marsaglia-Effekt in 2 Dimensionen am Beispiel des Generators in Tabelle 6.1 (M = 64, A = 11, B = 1). Markiert sind alle 2-Tupel (ζ0 , ζ1 ), (ζ2 , ζ3 ) . . . (•). Der Wert von H = 3 ist deutlich kleiner als die theoretische obere Schranke Hmax = 11.
1.0
m-fach kongruentielle Generatoren ergeben gr¨oßere H ≤ (n!M m )1/n . Viele Generatoren in Standard-Software-Bibliotheken sind vom kongruentiellen Typ und haben somit diesen Nachteil, von Großrechner- bis zu Taschenrechner-Programmen54 . Dabei wird die sichere Obergrenze nach (6.4) i. Allg. weit unterschritten, wie bereits das Beispiel (M = 64, n = 2, H = 11) mit einem tats¨achlichen Maximum von 3 Hyperebenen zeigt. Beispiel 6.3. In den 1960er-Jahren wurde der Generator LCG[231 , 65539, 0; 1] eingef¨ uhrt und in den Standardbibliotheken der IBM/360-Großrechner als Funktion RANDU implementiert. Dieser Generator bev¨ olkert in 3 Dimensionen nur 15 Ebenen! Er wurde jahrzehntelang vorwiegend in IBM-Rechnern eingesetzt und verursachte systematische Fehler (Fußnote51 auf S. 248).
Abhilfe schafft Vermischen mit einem anderen Algorithmus durch Addition modulo M oder bitweises XOR55 der verwendeten ganzen Zahlen. Dabei kann der zweite Algorithmus f¨ ur sich allein durchaus schlechte“ Eigenschaf” 54
55
Verschiedene kommerzielle Generatoren – darunter viele von PC-CompilerSoftwarepaketen – wurden untersucht von K. G. Hamilton, Comp. Phys. Comm. 75, 105 (1983). Exclusive OR ⊕, mit 1 ⊕ 0 = 0 ⊕ 1 = 1, 0 ⊕ 0 = 1 ⊕ 1 = 0.
254
6. Monte-Carlo-Rechnung
ten als Zufallsgenerator haben, er muss jedoch eine Gleichverteilung produzieren.
6.2.2.4
Der Spektraltest
Der Spektraltest u ¨berpr¨ uft die Gitterstruktur durch den Marsaglia-Effekt. Als Kriterium dient nicht die Anzahl der Ebenen, sondern deren Abstand. Gesucht wird diejenige Orientierung in n Dimensionen, in der die Ebenen den gr¨oßten Abstand haben. Je nachdem, ob die Ebenen parallel zu den Achsen oder einer Diagonalen √ orientiert sind, variiert der Abstand bei H Ebenen zwischen 1/H und n/H . Der Beispielgenerator (M = 64, A = 11, B = 1) hat f¨ ur n = 2 eine minimale Zahl von 3 Hyperebenen mit 3 Schnittpunkten auf der Achse zwischen 0 und 1, Steigung 3 und einem senkrechten Abstand d=
1 1 cos arctan ≈ 0.316 3 3
Nimmt man stattdessen die 4 Hyperebenen mit 2 Schnittpunkten und Steigung −1, ist der senkrechte Ebenenabstand d=
1 cos arctan 1 ≈ 0.354 2
F¨ ur einen Generator vom Typ R ← (AR + B) mod M erh¨alt man den maximalen Abstand der Hyperebenen in n Dimensionen mithilfe der L¨osungen der Gleichung (Z1 + AZ2 + · · · + An−1 Zn ) mod M = 0 Er ist
(6.5)
Z12 + Z22 + · · · + Zn2 dn = min M
aller L¨osungen von (6.5) ohne die triviale L¨ osung Z1 = Z2 = . . . = Zn = 0. Der Testalgorithmus wird beschrieben in [Knu].
6.2. Uniforme Pseudozufallsgeneratoren 6.2.3
255
Fibonacci-Generatoren
Moderne Generatoren mit sehr viel feinerer Gitterstruktur und großen Perioden basieren auf verallgemeinerten Fibonacci-Folgen. Eine Fibonacci-Folge hat die Form xi = xi−1 + xi−2 Sie hat aber definitiv schlechte Eigenschaften. Eine Verallgemeinerung ist ein Zufallsgenerator, der aus q Startwerten die folgende Iteration durchf¨ uhrt: ri = ri−p ◦ ri−q mod 2m ζi = ri /2m mit q > p > 0, wobei die Operation ◦ eine arithmetische (+, −) oder bitweise Operation (XOR und SHIFT) sein kann. Sie werden als LFG[M, q, p, ◦] bezeichnet (LFG = Lagged Fibonacci Generator ). F¨ ur die Operation + ist ein solcher Generator ein Spezialfall des mehrfach kongruentiellen Generators mit Ap = Aq = 1 und allen anderen Ai und B = 0. Die Bedingungen f¨ ur maximale Periode sind f¨ ur ◦ = + oder − gut untersucht. F¨ ur den Sonderfall M = 2k muss mindestens einer der Startwerte ungerade sein. Geeignete Paare von (p, q) findet man z. B. in [Knu]. So ist f¨ ur p = 1 q = 2, 3, 4, 6, 7, 15, 22, 60, 63 . . . optimal, f¨ ur q = 97 p = 6, 12, 33, 34. Die maximale Periode P = (2q − 1) · 2m−1 (Modulus M = 2m ) ist bereits f¨ ur kleine q erheblich gr¨ oßer als die Maximalzahl M zur Wortgr¨oße m des Computers. Maximale Periode ist jedoch nicht das einzige wesentliche Kriterium. Korrelationen zwischen aufeinanderfolgenden Zufallszahlen sind f¨ ur kleine q noch recht groß und werden nur f¨ ur große q vernachl¨ assigbar. Beispiel 6.4. Ein solcher Generator wurde bereits 1958 eingesetzt. Mitchell und Moore verwendeten eine Sequenz mit ◦ = +, p = 24 und q = 55 (beschrieben in [Knu]). Beispiel 6.5. Der Generator LFG[2k , 17, 5, ×] benutzt als Operation die Multiplikation. Wenn alle 17 Startwerte ungerade sind, ist die maximale Periode P = 2k−3 (217 − 1).
Ein Generator LFG[M, q, p, ⊕], der die Exclusive-OR-Operation (XOR) benutzt, hat die maximale Periode P = 2q − 1. Beispiel 6.6. Ein moderneres Beispiel ist der Generator von Marsaglia und Zaman56 mit p = 33 und q = 97. Er arbeitet direkt mit Gleitkommazahlen. M = 224 ist durch die Mantisse des verwendeten Rechners gegeben. 56
G. Marsaglia, A. Zaman, Report FSU-SCRI-87-50 (1987); CERNLIB-Generator RANMAR.
256
6. Monte-Carlo-Rechnung
start : ζ(1) = r1 ζ(2) = r2 ... ζ(97) = r97 c = 362436 · 2−24 i = 97 j = 33 loop : i = i − 1; if i < 0 then i = 97 j = j − 1; if j < 0 then j = 97 ζ(i) = ζ(i) − ζ(j) if ζ(i) < 0.0 then ζ(i) = ζ(i) + 1.0 c = c − 7654321 · 2−24 if c < 0.0 then c = c + 16777213 · 2−24 ζ(i) = ζ(i) − c if ζ(i) < 0.0 then ζ(i) = ζ(i) + 1.0 Bei optimalen Startwerten r1 . . . r97 ist die Periode dieses Generators 2144 ≈ 1018 . Beispiel 6.7. Ein Beispiel mit exclusive OR (XOR, ⊕) ist der Generator von Chiu und Guu57 , mit rj = rj−103 ⊕ rj−250 Solche Folgen nennt man auch Tausworthe-Folgen. Sein Vorteil ist die sehr geringe Rechenzeit; die getesteten statistischen Eigenschaften (bei 32 Bit Wortbreite) sind alle hervorragend. Als Nachteil muss man die große Anzahl von 250 Zahlen in Kauf nehmen, die den Status des Generators zu jeder Zeit beschreiben und die man zur Fortsetzung einer angefangenen Sequenz ausgeben und neu einlesen muss.
6.2.3.1
Add-and-Carry-Generatoren
Eine weitere Variante ist der Add-and-Carry-Generator (mit q > p > 0 und dem Carry-Bit c): start :
R(1) = R1 R(2) = R2 ... R(q) = Rq c=0 i=0
loop :
i = (i + 1) mod q j = (i + q − p) mod q R(i) = R(j) + R(i) + c
57
T. W. Chiu, T. S. Guu, Comp. Phys. Comm. 47, 129 (1987).
6.2. Uniforme Pseudozufallsgeneratoren if R(i) > M
257
then R(i) = R(i) − M ; c = 1 else c = 0
ζi = R(i)/M Statt zu addieren kann man auch hier subtrahieren (subtract and borrow ). Die Perioden solcher Generatoren sind sehr lang, ein Beispiel58 : M = 224 , p = 10, q = 24, Periode P ≈ 10171 . Allerdings haben auch diese Generatoren nicht-zuf¨ allige Eigenschaften, die im Einzelfall zu falschen Resultaten f¨ uhren k¨onnen59 . Es konnte gezeigt werden60 , dass Add-and-Carry-Generatoren ¨aquivalent zu gemischt kongruentiellen Generatoren mit einer sehr großen Primzahl M sind. So sind f¨ ur den Marsaglia-Zaman-Generator (M = 224 , p = 10, q = 24) die a¨quivalenten Parameter M = 2576 − 2240 + 1, A = 2576 − 2552 − 2240 + 2216 + 1. Damit zeigen diese Generatoren auch den Marsaglia-Effekt, wenngleich mit deutlich gr¨oßerer Hyperebenenzahl als einfache kongruentielle Generatoren. Eine Verbesserung erreicht man, indem man immer nach q Zahlen etliche u ¨berspringt.
6.2.4
Invers kongruentielle Generatoren
Eine weitere Variante, die keine Gitterstruktur erzeugt, ist der invers kongruentielle Generator . Der Algorithmus ist start : R = R0 loop : R = (A · ∼R + B) mod M ζ = R/M wobei f¨ ur optimale statistische Eigenschaften M eine große Primzahl ist und die Operation ∼R die Inverse zu R modulo M ist, d. h. die L¨ osung der Gleichung R · ∼R mod M = 1 (und als Sonderfall ∼0 = 0). Falls M prim ist ∼R = RM −2 mod M . Sie werden mit ICG[M, A, B; R0 ] bezeichnet (ICG = Inversive Congruential Generator ). Die maximale Periode ist P = M . F¨ ur gr¨ oßere Perioden kann man mehrere ICGs kombinieren (Compound Inversive Generator ).
58 59 60
G. Marsaglia, A. Zaman, Ann. Appl. Prob. 1, 462 (1991). Z. B. aufgezeigt von Ferrenberg et al., Phys. Rev. Lett. 69, 3382 (1992). S. Tezuka, P. L’Ecuyer, in Proc. 1992 Winter Simulation Conf., ed. J. J. Swain et al., p. 443.
258
6. Monte-Carlo-Rechnung
6.2.5
Explizite invers kongruentielle Generatoren
Diese Generatoren produzieren Zufallszahlen ζj nicht durch Iteration, sondern explizit aus j als Rj = ∼(A · j + B) mod M ζj = Rj /M Dabei sollte M eine Primzahl sein. Dann ist die Periode P = M . F¨ ur lange Perioden kann man mehrere solche Generatoren mit verschiedenen + Werten f¨ ur M mischen. Die Gesamtl¨ange der Sequenz ist dann P = Mi . Wichtig ist, dass der von Marsaglia entdeckte Gitter-Effekt bei allen genannten Generatoren auftritt, wenngleich die Berechnung der maximalen Zahl von Hyperebenen nicht immer einfach ist.
6.3
Generation beliebiger Verteilungen
Mithilfe eines Pseudozufallsgenerators, der eine Gleichverteilung zwischen 0 und 1 erzeugt, kann man jede beliebige Verteilung generieren.
6.3.1
Analytisches Verfahren
Analytische Generation von x nach f (x) im Intervall [a, b[ mit Verteilungs funktion F (x) = f (x) dx erh¨alt man nach (2.28) durch die Transformation x = F −1 (ζ)
(6.6)
Die Verteilungsfunktion F (und damit auch ihre Umkehrfunktion) erf¨ ullt immer die Voraussetzung der Monotonie f¨ ur die G¨ ultigkeit von (2.28). Die analytische Generation von Zufallszahlen ist besonders n¨ utzlich, um Zufallszahlen mit (theoretisch) unbegrenztem Wertebereich zu erzeugen.
6.3.2
Diskretisierung
Leider ist jedoch in vielen F¨allen die Dichte g nicht analytisch integrierbar, oder das Integral nicht analytisch umkehrbar. In diesem Fall kann man (6.6) numerisch anwenden. Dazu w¨ahlt man xj aus einem Sample von k diskreten Werten x1 . . . xk mit j = int(ζ · k) + 1, d. h. einem zuf¨alligen j. Die xj sind die L¨osungen zu F (xj ) = (j − 0.5)/k, j = 1 . . . k. Sie sind also das Abbild einer exakten Gleichverteilung in Schritten von 1/k durch F −1 auf den Wertebereich der x.
6.3. Generation beliebiger Verteilungen
259
Die Zahl k ergibt sich aus der gew¨ unschten Aufl¨osung in x, etwa einem Bruchteil der Messgenauigkeit f¨ ur diese Gr¨ oße. Die xj k¨onnen numerisch bestimmt werden, dabei ist eine Genauigkeit in F (xj ) von ±0.25/k hinreichend. Falls x innerhalb 0.5/k stark variiert, sollte k erh¨oht werden. Es ist dennoch in vielen F¨allen ein Sample von 10 000 bis 100 000 Werten ausreichend, aus denen dann eine Sequenz von Zufallszahlen mit wesentlich h¨ oherer Periode gebildet werden kann. Der Aufwand f¨ ur die numerische L¨ osung der Gleichungen F (xj ) = (j − 0.5)/k ist gering. Selbst wenn die Funktion numerisch integriert werden muss, gen¨ ugt ein Durchlauf des Wertebereichs, etwa nach folgendem Schema: start : x = a F =0 loop : x = x + step F = F + f (x) if F > j/k then verfeinere Schrittweite if F > (j − 1)/k then xj = x; j = j + 1 oßerem k if xj − xj−1 > Δx then Neustart mit gr¨ Wenn F in gr¨ oßeren Schritten als 1/k w¨ achst, hat man die Schrittweite f¨ ur die Integration zu grob gew¨ ahlt. Wenn die x-Werte zu weit auseinanderliegen, muss man mit gr¨ oßerem k arbeiten, denn es wurde nicht nur ein x-Wert f¨ ur das Sample u ¨bersprungen, sondern sicher auch das Integral nicht genau genug approximiert, weshalb man auf jeden Fall in feineren Schritten vorgehen sollte. Diese Methode wird jedoch unpraktikabel, wenn n-Tupel abh¨angiger Zufallszahlen zu erzeugen sind. Sowohl die Anzahl zu speichernder diskreter nTupel als auch der Aufwand einer mehrdimensionalen Integration, um sie zu berechnen, w¨achst exponentiell mit n.
6.3.3
Generation diskreter Verteilungen
Ein einzelnes Ereignis, das mit Wahrscheinlichkeit p eintritt, simuliert man durch if ζ < p then Ereignis Analog der beschriebenen Diskretisierung kontinuierlicher Zufallsvariablen erzeugt man jede diskrete Verteilung mit endlich oder unendlich großem Wertebereich, z. B. Zufallszahlen n ∈ N mit Wahrscheinlichkeiten pn : x=ζ n=1 F = p1 try : if x ≤ F then return n
6. Monte-Carlo-Rechnung
260
n=n+1 F = F + pn goto try
6.3.4
Hit or Miss
Eine Methode, die fast immer funktioniert und einfach zu programmieren ist, ist die Hit-or-Miss-Methode oder Accept/Reject-Methode. Man generiert x nach f (x) im Intervall [a, b[ mit fmax = max f (x) nach folgendem Algorithmus: try : x = (b − a) · ζ1 + a y = fmax · ζ2 if y > f (x) goto try return x d. h., x wird zun¨ achst mit der ersten Zufallszahl ζ1 gleichverteilt erzeugt. An otigt hier Stellen, an denen f (x) < fmax ist, hat man dann zu viele x, man ben¨ nur einen Bruchteil f (x)/fmax . Daher akzeptiert man genau diesen Anteil, was durch Vergleich mit einer zweiten gleichverteilten Zufallszahl ζ2 durch zuf¨ allige Auswahl geschieht: Die Wahrscheinlichkeit, ein generiertes x auch unter der f -Verteilung zu erhalten, und damit die H¨aufigkeit, mit der wir es ur behalten wollen, ist p = f (x)/fmax . Dies ist auch die Wahrscheinlichkeit f¨ ζ2 ≤ p. Beispiel 6.8. Bereits die einfache Dichte f (x) =
3
4 (1 − x
2
)
0
−1 ≤ x ≤ 1 sonst
f¨ uhrt auf ein Polynom dritten Grades f¨ ur F (x), das nicht mehr einfach analytisch umkehrbar ist. Dagegen liefert der einfache Algorithmus try : x = 2 · ζ1 − 1 y = ζ2 if y > 1 − x2 goto try return x die Verteilung mit geringen Rechenaufwand. Eine alternative Erkl¨ arung der Hit-or-Miss-Methode durch Paare von Zufallszahlen ist in Abbildung 6.3 gegeben. Man bombardiert eine Rechteckfl¨ ache gleichm¨ aßig mit Punkten (x, y). Wenn man die Fl¨ ache unter der Kurve y = f (x) trifft (hit), akzeptiert man den Punkt und damit die Zufallszahl x, wenn man sie verfehlt (miss), verwirft man ihn. Die mittlere Anzahl der Versuche ist das Verh¨ altnis der Rechteckfl¨ ache zur Fl¨ ache unter der Kurve, also 1.5.
Das Hit-or-Miss-Verfahren funktioniert auch, wenn man die Normierung der Dichte nicht kennt, sondern nur eine Funktion g(x) = p · f (x) mit unbekanntem p, da sich gmax = p · fmax mit demselben Faktor transformiert und die
6.3. Generation beliebiger Verteilungen
1.0 y=
4 f(x) 3 0.5
. ............................... ..... ...... .... ..... . . . ... .. ... miss ....... hit ... miss ... .. . ... . . ... ... ... ... ... .. ... . ... .... ... .. .. ... .. ... .. ... . ... ... ... .. ... .. .. ... .. ... .. ... . ... ... . .
−1.0
−0.5
0.0
0.5
x
261
Abb. 6.3 Hit-or-Miss-Generation der Verteilung f (x) = 34 (1−x2 ) zwischen −1 und 1. Mithilfe der Zufallszahlen x = 2ζ1 − 1 und y = ζ2 werden gleichverteilte Wertepaare innerhalb des Rechtecks −1 ≤ x < 1, 0 ≤ y < 1 erzeugt. Die Punkte (x, y) unter der Kurve werden akzeptiert (hit); die Verteilung ihrer x-Werte hat die Dichte f (x) = 2 3 4 (1 − x ). Die Punkte oberhalb der Kurve werden verworfen (miss).
1.0
Entscheidung nur vom Verh¨altnis g(x)/gmax = f (x)/fmax abh¨ angt. Davon haben wir in Beispiel 6.8 schon Gebrauch gemacht: Der Normierungsfaktor 3 4 wurde nicht verwendet. Die mittlere Anzahl n der Versuche pro erfolgreich berechneter Zufallszahl ist das Verh¨altnis der Fl¨ ache aller erzeugten Wertepaare zur Fl¨ache unter der Kurve y = g(x), n =
gmax · (b − a) = fmax · (b − a) g(x) dx
wobei f (x) die auf 1 normierte Dichte ist.
6.3.4.1
Hit or Miss in mehreren Dimensionen
Sind n-Tupel von Zufallszahlen zu w¨ urfeln, so kann man den StandardAlgorithmus leicht verallgemeinern: try : for i = 1 to n : xi = (bi − ai ) · ζi + ai y = fmax · ζn+1 if y > f (x1 , . . . , xn ) goto try return x Dabei kann die Effektivit¨at gesteigert werden, wenn Randverteilungen bekannt sind. Falls x1 die ineffektivste Variable ist, d. h. diejenige mit kleinsachst x1 erzeugen, danach die n − 1 antem f1 (x1 )/f1,max , kann man zun¨ deren Werte: try1 : x1 = (b1 − a1 ) · ζ1 + a1 y = f1,max · ζ2 if y > f1 (x1 ) goto try1
262
6. Monte-Carlo-Rechnung
try : for i = 2 to n : xi = (bi − ai ) · ζi + ai y = fmax (x1 ) · ζn+2 if y > f (x2 , . . . , xn ) goto try return x Dabei ist f (x2 , . . . , xn ) = f (x2 , . . . , xn |x1 ) = f (x1 , x2 , . . . , xn )/f1 (x1 ) die bedingte Verteilung. Da Normierungsfaktoren keine Rolle spielen, kann man einfach f (x1 , x2 , . . . , xn ) nehmen. Vorteilhaft ist allerdings, wenn man das ur alle x1 -Werte kennt, da man Maximum fmax (x1 ) = max f (x2 , . . . , xn |x1 ) f¨ sonst den Gewinn durch das Abspalten von x1 in der Generation wieder einb¨ ußt.
6.3.5
Importance Sampling
F¨ ur Funktionen mit steilen Peaks ist die Hit-or-Miss-Methode sehr uneffektiv. Man kann die Fl¨ ache verringern, indem man die Obergrenze an die Verteilung anschmiegt. Diese Idee liegt dem Importance Sampling-Verfahren zugrunde. Importance Sampling bedeutet: Erzeuge dort von vornherein mehr Zufallszahlen, wo sie wahrscheinlicher sind. Dies erreicht man durch eine Mischung zwischen analytischer Generation und Hit or Miss: 1. Suche g(x) ≈ f (x), g(x) > f (x) u ¨berall in [a, b[, wobei ξ nach g(x) analytisch generiert werden kann. 2. Generiere ξ, anschließend Hit-or-Miss-Entscheidung: Akzeptiere ξ, falls ζ ≤ f (ξ)/g(ξ). Eine Variante ist eine Stufenfunktion g(x): Man unterteilt [a, b[ in r Teilintervalle [a0 , a1 [, [a1 , a2 [ . . . [ar−1 , ar [ mit a0 = a und ar = b und w¨ahlt g(x) = gk =
max
ak−1 ≤x≤ak
f (x)
st¨ uckweise im jeweiligen Intervall. Das Verfahren, das auch als Stratified Sampling bezeichnet wird, ist: 1. W¨ahle ein Intervall mit Wahrscheinlichkeit (ak − ak−1 )gk p k = r i=1 (ai − ai−1 )gi nach dem Verfahren in Abschnitt 6.3.3. 2. W¨ahle x im Intervall k: x = ak−1 + ζ1 (ak − ak−1 ). 3. Hit-or-Miss-Entscheidung: Akzeptiere, falls ζ2 ≤ f (x)/gk .
6.3. Generation beliebiger Verteilungen 6.3.6
263
Beispiele: Generation wichtiger Verteilungen
Die folgende Tabelle 6.3 gibt einige Beispiele zur Generation h¨aufig ben¨ otigter kontinuierlicher Verteilungen. Tabelle 6.3 Generation kontinuierlicher Verteilungen aus standardgleichverteilten Zufallszahlen.
Verteilung
Intervall
Methode
[a, b[
ξ = (b − a) · ζ + a
f (x) = 2x
[0, 1[
Methode 1: ξ = max(ζ 1 , ζ2 ) √ Methode 2: ξ = ζ
f (x) ∼ xr
[a, b[
ξ = [(br+1 − ar+1 ) · ζ + ar+1 ]1/(r+1)
f (x) ∼ 1/x
[a, b[
ξ = (b/a)ζ · a
f (x) = 1/x2
]1, ∞]
ξ = 1/ζ
]0, ∞]
ξ = −k ln ζ
f (x) = xe
]0, ∞]
ξ = − ln(ζ1 · ζ2 )
f (x) = − ln x
[0, 1[
ξ = ζ1 · ζ2
Cauchy / Breit-Wigner: Γ 1 f (x) = 2π · (x−μ)2 +(Γ/2) 2
[−∞, ∞]
ξ = [tan π(ζ − 0.5)] · Γ/2 + μ (6.7)
f (x) =
f (x) =
6.3.6.1
1 b−a
1 −x/k ke −x
Gaußverteilte Zufallszahlen
Gaußverteilte Zufallszahlen mit f (x) = √
2 2 1 e−(x−μ) /2σ 2πσ
und Wertebereich ]−∞, ∞[ kann man auf zwei Arten effektiv erzeugen: Methode 1 (Box-Muller-Transformation): $' $' % % − ln ζ12 · sin 2πζ2 · σ + μ, ξ2 = − ln ζ12 · cos 2πζ2 · σ + μ ξ1 =
(6.8)
Diese Methode liefert jedes Mal ein Paar unkorrelierter gaußverteilter Zufallszahlen ξ1 und ξ2 (s. Aufgabe 2.8). Methode 2 (ξ ∈ [−6σ, 6σ]): ξ = (ζ1 − ζ2 + ζ3 − ζ4 + ζ5 − ζ6 + ζ7 − ζ8 + ζ9 − ζ10 + ζ11 − ζ12 ) · σ + μ Diese Methode ist schnell, da man nur 12 Additionen (bzw. Subtraktionen) ben¨otigt und gleichverteilte Zufallszahlen ebenfalls schnell produziert werden
264
6. Monte-Carlo-Rechnung
k¨onnen. Sie ist approximativ und beruht auf dem zentralen Grenzwertsatz (s. Aufgabe 2.16). Mithilfe eines Floating-Arithmetik-Prozessors kann jedoch Methode 1 effektiver sein. Gaußverteilte Zufallszahlen nach einer n × n-Kovarianzmatrix C (alle Mittelwerte 0) erh¨ alt man nach folgendem Rezept: 1. L¨ osen der Eigenwertgleichung Ce = se. 2. Die n Eigenwerte s1 . . . sn sind die Varianzen auf den Hauptachsen des Kovarianz-n-Ellipsoids. Man erzeugt nun n unkorrelierte gaußverteilte √ √ Zufallszahlen x1 = s1 ξ1 , . . . xn = sn ξn . 3. Die n zugeh¨origen Einheits-Eigenvektoren bilden spaltenweise angeordnet eine Rotationsmatrix ⎛
(1)
e1
(2)
(1)
en
e1 ⎜ . R = ⎝ ..
(2)
en
··· .. . ···
⎞ (n) e1 .. ⎟ . ⎠ (n)
en
und y = Rx ist ein gaußverteilter Zufallsvektor mit Kovarianzmatrix ⎛
s1 . C = R ⎝ .. 0
··· .. . ···
⎞ 0 .. ⎠ † R . sn
F¨ ur Mittelwerte μi = 0 addiert man auf y noch das n-Tupel der Mittelwerte μ.
6.3.6.2
Gamma- und chiquadratverteilte Zufallszahlen
Die Gammaverteilung f (x|r, β) =
β r xr−1 e−βx Γ(r)
(6.9)
mit β = 1 ist die Verallgemeinerung der Chiquadrat-Verteilung mit x = χ2 /2 und n = 2r Freiheitsgraden, fχ2 (χ2 |n) = fΓ (χ2 /2 | n/2, 1). Sie hat den Mittelwert x = r und die Varianz σ 2 (x) = r. Methode 1 (kleine r), Algorithmus: m = int(r) f = frac(r)
6.3. Generation beliebiger Verteilungen
265
1/f
try : w1 = ζ−1 1/(1−f ) w2 = ζ−2 if w1 + w2 > 1 goto try return ξ = −(ln ζ0 ) · w1 /(w1 + w2 ) − ln(ζ1 · ζ2 · · · · · ζm ) Methode 2 (Wilson-Hilferty-Approximation, r > 15), Algorithmus: try : g = ζ1 − ζ2 + ζ3 − ζ4 + ζ5√− ζ6 + ζ7 − ζ8 + ζ9 − ζ10 + ζ11 − ζ12 ξ = r · (1 − 1/(9r) + g/(3 r))3 if ξ < 0 goto try return ξ
6.3.6.3
Generation isotroper Einheitsvektoren
Einheitsvektoren in 2 oder 3 Dimensionen kann man analytisch erzeugen, schneller ist aber oft ein Hit-or-Miss-Algorithmus, der Punkte innerhalb eines Kreises oder einer Kugel gleichverteilt generiert und auf den Einheitsradius projiziert. in 2 Dimensionen, Algorithmus A: φ=2·π·ζ x = cos(φ) y = sin(φ) return (x, y) Algorithmus B (Hit or Miss): try : x = 2 · ζ1 − 1 y = 2 · ζ2 − 1 r = x2 + y 2 if r > 1 goto √ try √ return (x/ r, y/ r) mittlere Anzahl Versuche = 4/π in 3 Dimensionen, Algorithmus A: φ = 2 · π · ζ1 z =√ 2 · ζ2 − 1 {cos θ} {sin θ} s = 1 − z2 x = cos(φ) · s y = sin(φ) · s return (x, y, z) Algorithmus B (Hit or Miss im Kreis): z = 2 · ζ1 − 1 try : x = 2 · ζ2 − 1
266
6. Monte-Carlo-Rechnung y = 2 · ζ3 − 1 r = x2 + y 2 if r > 1 goto try R = (1 − z 2 )/r return (x · R, y · R, z)
Algorithmus C (Hit or Miss in der Kugel): try : x = 2 · ζ1 − 1 y = 2 · ζ2 − 1 z = 2 · ζ3 − 1 r = x2 + y 2 + z 2 if r > 1 goto √ √ try √ return (x/ r, y/ r, z/ r) mittlere Anzahl Versuche (B): = 4/π, (C): = 6/π
6.4
Monte-Carlo-Simulation
Die Erzeugung beliebiger Zufallsvariablen erlaubt die Simulation zuf¨ alliger Prozesse im Computer. Die folgenden einfachen Beispiele eignen sich bereits f¨ ur programmierbare Taschenrechner. Beispiel 6.9. Einfaches Diffusionsmodell Zwei gleiche Volumina a und b sind mit A und B Gasteilchen gef¨ ullt (A + B = N ) und durch ein kleines Loch verbunden. Simuliert wird die Diffusion einzelner Teilchen durch das Loch, mit der Wahrscheinlichkeit P (a → b) = A/N , P (b → a) = B/N . Der zeitliche Verlauf in Einzelschritten kann verfolgt werden. a
b
#=A
↔
#=B
Algorithmus (am Anfang alle Teilchen in Volumen a): start : A = N B=0
forever P = A/N if P > ζ1 then A = A − 1; B = B + 1 else A = A + 1; B = B − 1
Beispiel 6.10. Randomwalk in drei Dimensionen Ein Randomwalk im Raum, wie ihn etwa ein Gasteilchen in einem Gas beschreibt, kann durch ein einfaches Modell simuliert werden: Man verfolgt die Bahn eines
6.5. Monte-Carlo-Integration
267
Teilchens, das immer nach einer festen Flugstrecke (l = 1) seine Richtung isotrop im Raum a ¨ndert. Algorithmus: start : x = 0 y=0 z=0
for i = 1 to n : φ = 2 · π · ζ1 ξ= 2 · ζ2 − 1 {cos θ} s = (1 − ξ 2 ) {sin θ} x = x + s · cos φ y = y + s · sin φ z =z+ξ
Nach dem ersten Schritt ist die Entfernung r = x2 + y 2 + z 2 = 1. Aber bereits nach wenigen Schritten sind die Koordinaten x, y und z unabh¨ angig. Dann ist nach N Schritten x2 = y 2 = z 2 = 13 · N und r2 = N .
Monte-Carlo-Simulationen sind nur so gut wie die zugrunde liegenden Modelle. Modell beinhaltet alle explizit und implizit gemachten Voraussetzungen. Deshalb ist eine weitgehende Verifikation der Simulation mit Daten notwendig. Eine Korrelation, die in der Natur vorhanden ist, kann nur ber¨ ucksichtigt werden, wenn das Modell der Simulation diese Korrelation enth¨alt. Unterschiede zwischen Modell und Daten sollten daher auch in mehrdimensionalen Verteilungen oder Momenten gesucht werden. Soll etwa die Erfolgsquote eines statistischen Entscheidungsverfahrens (z. B. eine Intervallsch¨atzung) durch eine Monte-Carlo-Simulation gepr¨ uft werden, so ist das Ergebnis in den meisten F¨allen von den Annahmen u ¨ber die (wah¨ ren) Parameter der simulierten Verteilungen abh¨angig. Ahnlich wie statistische Tests eignen sich Monte-Carlo-Simulationen bevorzugt zum Falsifizieren einer Hypothese.
6.5
Monte-Carlo-Integration
Die Genauigkeit eines numerischen Resultats f¨ ur das Integral vergiert mit zunehmender Schrittzahl N wie ε∼
b a
f (x) dx kon-
1 Nc
wobei f¨ ur eine einfache Treppen-Approximation c = 1 ist, wogegen schnell konvergierende Algorithmen kleinere Werte haben, etwa c = 5 nach der
268
6. Monte-Carlo-Rechnung
Simpsonschen Regel. Ein numerisches Integral in n Dimensionen erfordert daher f¨ ur alle systematischen Integrationsverfahren bei einer vorgegebenen Genauigkeit ε eine Anzahl von n/c 1 N =K (6.10) ε Funktionswertberechnungen. Selbst die Mindestanzahl von 2 Schritten pro Dimension, die nur eine grobe Genauigkeit liefert, erfordert bereits N = 2n Funktionswert-Berechnungen. Bei n = 30 sind das schon mehr als 109 . Der Rechenaufwand steigt in jedem Fall exponentiell mit der Dimension des Integrationsvolumens und kommt damit schnell an die Grenzen des technisch Machbaren. Ein Integral, das auf Zufallszahlen beruht, konvergiert √ zun¨ achst wesentlich langsamer, mit c = 12 , da sich die Genauigkeit ε ∼ 1/ N verbessert. Die Konvergenz ist aber unabh¨angig von der Dimension, d. h. 2 1 N =a (6.11) ε f¨ ur beliebiges n. Auch beim besten systematischen Verfahren gibt es daher eine Dimension n, bei der 2 n/c und damit die Monte-Carlo-Integration schneller konvergiert. Die Konvergenz ist allerdings stochastisch, d. h., man kann keine strengen Fehlerschranken f¨ ur das Integral angeben! Die Methoden und Beispiele werden im Folgenden f¨ ur eindimensionale Integration b Ψ = ψ(x) dx a
angegeben, da der interessantere Fall, die n-dimensionale Integration b1 Ψ= a1
···
bn ψ(x1 . . . xn ) dx1 . . . dxn an
nach dem gleichen Schema abl¨auft. Die Funktion ψ ist keine Dichtefunktion, d. h., wir kennen auch das Integral u ¨ber dem gesamten Rn nicht, und ψ(x) kann negative Werte annehmen. Ist das Integrationsgebiet kein Quader, bettet man es in einen Quader ein und setzt ψ(x) = 0 außerhalb des Gebiets. Wird eine Integrationsgrenze ∞, ist eine Variablentransformation des zugeh¨ origen xi , z. B. x → 1/(x − c), erforderlich. Eine geeignete Wahl dieser Transformation kann die Konvergenz des Integrals beschleunigen.
6.5. Monte-Carlo-Integration 6.5.1
269
Hit or Miss
¨ Ahnlich wie beim W¨ urfeln einer Verteilung kann man auch hier das Hit-orMiss-Verfahren einsetzen. Dabei ist zu beachten, dass das Funktionsminimum auch negativ sein kann. Man sucht daher zun¨achst s = min{ψ(x)},
t = max{ψ(x)} in [a, b]
Der Algorithmus beschr¨ ankt sich dann auf das Z¨ ahlen von Treffern: start : n = 0 for i = 1 to N : x = (b − a) · ζ1 + a y = (t − s) · ζ2 + s if y < ψ(x) then n = n + 1 Ψ = (n/N · (t − s) + s) · (b − a) Der Fehler kann wegen der stochastischen Natur des Prozesses nur gesch¨atzt werden: √ ΔΨ ≈ σ(Ψ ) = n/N · (t − s) · (b − a)
6.5.2
Funktionsmittelung
Das Integral kann auch geschrieben werden als Ψ = ψ(x) · (b − a) d. h. als Produkt aus Intervallbreite und mittlerem Funktionswert. Der Erwartungswert ψ(x) =
b
b ψ(x)f (x) dx =
a
ψ(x) a
1 dx b−a
f¨ ur gleichverteilte x in [a, b] wird dabei durch eine Stichprobe als arithmetisches Mittel bestimmt. Algorithmus: start : y = 0 for i = 1 to N : x = (b − a) · ζ + a y = y + ψ(x) Ψ = y/N · (b − a)
270
6. Monte-Carlo-Rechnung
Der Fehler ist b √
ΔΨ ≈ σ(ψ) · (b − a)/ N =
a
ψ 2 (x) dx − Ψ 2 /(b − a) √ N
Eine Verbesserung ist m¨oglich durch Varianzreduktion, d. h. Verkleinerung von σ(ψ) durch systematische Optimierung der Strategie (Importance Sampling; Stratified Sampling, vgl. Abschnitt 4.6.1) oder der Zufallszahlenmenge (Quasi-Zufallszahlen). Stratified Sampling bedeutet Einteilung von [a, b] in r Teilintervalle der Breite uckweise Berechnung des Integrals. Die Anzahl Ni generierter Δxi und st¨ Zufallszahlen kann in jedem Intervall (dynamisch) so gew¨ ahlt werden, dass ur alle Intervalle konstant ist. (4.138) erf¨ ullt ist, d. h., dass σi (ψ)Δxi /Ni f¨
6.6
Gewichtete Daten
Ein h¨aufiges Problem ist die Ableitung von Eigenschaften einer g-verteilten Grundgesamtheit aus einem f -verteilten Sample. Dies ist beispielsweise dann der Fall, wenn man verschiedene Modelle mit einem einzigen Monte-CarloSample untersuchen will. Dazu gewichtet man jedes Ereignis mit dem Verh¨ altnis g(xi )/f (xi ). Sample: (xi )i=1...N nach einer Verteilung f (x) gesucht werden Eigenschaften einer Verteilung g(x) w(x) := g(x)/f (x) wi := w(xi ) φ(x)g =
φ(x)g(x) dx =
(6.12)
φ(x)w(x)f (x) dx = w(x)φ(x)f
(6.13)
Im Folgenden wird vorausgesetzt, dass f und g wirkliche (normierte) Dichten sind. Die Gewichte sind selbst Zufallsvariablen. Der Erwartungswert dieser Gewichte ist (6.14) 1g = wf =⇒ wf = 1 und ihre Varianz ist σ 2 (w) = w2 f − w2f = w2 f − 1 = wg − 1 = mit w2 f =
w2 (x)f (x) dx =
(w2 (x) − 1)f (x) dx (6.15)
g 2 (x) dx f (x)
6.6. Gewichtete Daten
271
Der Erwartungswert der Zufallsvariablen x ergibt sich zu xg = wxf
(6.16)
Die Gewichte w = g(x)/f (x) sind von der Zufallsvariablen x abh¨ angig, die Kovarianz C(x, w) = xwf − xf wf = xg − xf (6.17) verschwindet nur, wenn die Verteilungen f und g gleiche Erwartungswerte x haben. Die Anzahl aller Ereignisse aus einer Stichprobe ist der Stichprobenumfang N . Wird die Stichprobe dagegen durch Gewichte simuliert, gilt dies nur f¨ ur den Erwartungswert N , wi = N (6.18) f
i=1
Der Wert der Gewichtssumme aus einer einzelnen Stichprobe variiert dagegen mit einer Varianz N σf2 (w). Erwartungswerte von Summen: [w]f [wx]f [wx2 ] f 2 2 [w x ] f [wx]2 f
=N
(6.19)
= N · wxf
(6.20)
= N · wx f
(6.21)
2
= N · w2 x2 f = N · w x f + N (N − 1) · 2 2
(6.22) wx2f
(6.23)
Eine erwartungstreue Sch¨atzung von xg ist der Mittelwert x ˆ=
[wx] N
(6.24)
Den Fehler f¨ ur die Sch¨atzung xg = x ˆ ± d erh¨alt man mit d2 = der durch
w2 x2 f − wx2f σf2 (wx) = N N [w2 x2 ] − [wx]2 /N dˆ2 = N (N − 1)
(6.25)
erwartungstreu gesch¨atzt werden kann. Eine erwartungstreue Sch¨atzung der Varianz σg2 (x) ist sˆ21 =
(N − 1)[wx2 ] + [w2 x2 ] − [wx]2 N (N − 1)
(6.26)
272
6. Monte-Carlo-Rechnung
Asymptotisch gilt die einfachere Beziehung s22 =
ˆ2 [wx2 ] − N x N
(6.27)
mit s22 → s21 f¨ ur N → ∞. Eine Sch¨ atzung f¨ ur den Mittelwert mit kleinerer Varianz, die aber nur asymptotisch erwartungstreu ist, ist x ˆw = [wx]/[w] mit x ˆ2 → xg f¨ ur N → ∞. Dieser Mittelwert ist auch dann korrekt, wenn die Normierung der Dichten f und/oder g nicht bekannt ist und daher w(x) = νf (x)/g(x) mit einer unbekannten Normierungskonstanten ν verwendet wird. Der Fehler auf x ˆw kann durch lineare Fehlerfortpflanzung gesch¨atzt werden, wobei zu beachten ist, dass w von x abh¨ angige Zufallsgr¨ oßen sind, mit Varianz (6.15) und Kovarianz (6.17). H¨ aufig werden Histogramme oder Teilmengen einer Stichprobe von umgewichteten Ereignissen mit Gewichten (6.12) gebraucht. Histogramme mit beliebigen Gewichten wurden bereits in Abschnitt 4.1.5.1 vorgestellt. Dort wurde auch gezeigt, dass die effektive Ereigniszahl deutlich kleiner als die Zahl der verwendeten gewichteten Ereignisse sein kann. Daher lohnt es sich oftmals, ungewichtete Ereignisse, etwa durch die Hit-or-Miss-Methode, zu generieren.
Anhang A: Spezielle Funktionen
A.1
Gammafunktion und Fakult¨ at ∞
Zwei Definitionen: Γ(t) =
n! nz n→∞ z(z + 1) · · · (z + n)
xt−1 e−x dx = lim
0
(A.1)
Rekursion: Γ(t) = (t − 1)Γ(t − 1)
(A.2)
Fakult¨at: Γ(n) = (n − 1)! = 1 · 2 · · · (n − 1)
(A.3)
π sin πt √ Daraus folgt Γ( 12 ) = π Γ(t)Γ(1 − t) =
(A.4) (A.5)
Aus (A.2) und (A.5) erh¨alt man 1 · 3 · 5 · · · (2n − 1) √ (2n − 1)!! √ Γ(n + 12 ) = π= π n 2 2n
(A.6)
Aufgabe A.1. Berechnen Sie (A.5) als Γ( 12 ) =
∞
t−1/2 e−t dt.
0
A.2
Betafunktion und Binomialkoeffizienten
B(x, y) =
Γ(x)Γ(y) Γ(x + y)
(A.7)
n n! = k k! (n − k)! 1 n(n − 1) · · · (n − k + 1) = = 1 · 2···k (n + 1) · B(k + 1, n − k + 1) (a + b)n =
n n k=0
k
ak bn−k
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 R. Waldi, Statistische Datenanalyse, https://doi.org/10.1007/978-3-662-60645-2_7
(A.8)
(A.9)
274
Anhang A
n n = n−k k
(A.10) n = 0 f¨ ur k > n oder k
erweiterte Definition mit (A.8) und (A.10) =⇒
k 5.5 (A.27)
inverse Funktion x(C): y = − ln C C > 2 · 10−7 z = [((2y + 25)2 − 420)y 2 ]/[((y + 28)y + 96)2y + 131], −7 z = [((2y + 280)y + 572)y]/[(y + 144)y + 603], 2 · 10 > C > 1 · 10−112 x=
√
z
Genauigkeit Δx < 4 · 10−4 oder y = −π/2 · ln[2C − C 2 ] √ x = ((3 − y/14) · y/400 + 1) · y, Genauigkeit Δx < 1 · 10−4 ,
61
0.06 ≤ C ≤ 1
Δx/x < 1 · 10−4
S. E. Derenzo, Math. of Comp. 31 no. 137 (1977) 214.
(A.28)
A.6. Die Diracsche δ-Funktion
A.6
277
Die Diracsche δ-Funktion
Zur Beschreibung diskreter Verteilungen oder Verteilungen, die nur in einem Unterraum des Rn von 0 verschieden sind, verwendet man die Diracsche Deltafunktion (x = 0)
δ(x) = 0
(A.29)
δ(0) = ∞
mit
δ(x) dx = 1
(A.30)
Ihr Integral ist die Heavisidesche Stufenfunktion θ(x) =
δ(x) =
0 1
x