[Lecture Notes] Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

113 25 3MB

German Pages [108] Year 2024

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

[Lecture Notes] Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Table of contents :
Mathematische Modelle von Zufallsexperimenten
Grundbegriffe
Erste Beispiele diskreter Wahrscheinlichkeitsverteilungen
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Zufallsvariablen und ihre Verteilungen
Unabhängige Zufallsvariablen
Exkurs: Markovketten
Wahrscheinlichkeitsmaße auf R
Grundbegriffe reloaded
R-wertige Zufallsvariablen
Mehrdimensionale Verteilungen und Unabhängigkeit
Maßzahlen von Zufallsvariablen
Erwartungswerte und ihre Eigenschaften
Momente von Zufallsvariablen
Quantile
Grenzwertsätze
Statistik
Deskriptive Statistik
Induktive Statistik
Schätzprobleme
Statistische Tests
Konfidenzbereiche
Einführung in das statistische Lernen

Citation preview

Grundlagen der Wahrscheinlichkeitstheorie und Statistik f¨ur Studierende der Informatik Mathias Trabs Wintersemester 2022/23, Stand: 12. Februar 2024

Inhaltsverzeichnis 1 Mathematische Modelle von Zufallsexperimenten 1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Erste Beispiele diskreter Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . .

3 3 6

2 Bedingte Wahrscheinlichkeit und Unabh¨ angigkeit

13

3 Zufallsvariablen und ihre Verteilungen 3.1 Unabh¨ angige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Exkurs: Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21 22 31

4 Wahrscheinlichkeitsmaße auf R 4.1 Grundbegriffe reloaded . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 R-wertige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Mehrdimensionale Verteilungen und Unabh¨angigkeit . . . . . . . . . . . . . . . . .

35 35 41 43

5 Maßzahlen von Zufallsvariablen 5.1 Erwartungswerte und ihre Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Momente von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50 50 58 64

6 Grenzwerts¨ atze

67

7 Statistik 7.1 Deskriptive Statistik . . . 7.2 Induktive Statistik . . . . 7.2.1 Sch¨ atzprobleme . . 7.2.2 Statistische Tests . 7.2.3 Konfidenzbereiche

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

8 Einfu ¨ hrung in das statistische Lernen

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

72 73 81 83 92 98 101

1

2

INHALTSVERZEICHNIS

Literatur ▶ Henze und Kadelka (2010):Wahrscheinlichkeitstheorie und Statistik f¨ ur Studierende der Informatik und des Ingenieurwesens, Vorlesungsskript, • L. D¨ umbgen (2003): Stochastik f¨ ur Informatiker, Springer, • G. H¨ ubner (2009): Stochastik. Eine anwendungsorientierte Einf¨ uhrung f¨ ur Informatiker, Ingenieure und Mathematiker, Vieweg+Teubner, • H. Dehling und B. Haupt (2004): Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik, Springer, • K. Bosch (2011): Elementare Einf¨ uhrung in die Wahrscheinlichkeitsrechnung, Vieweg+Teubner, • M. Trabs, M. Jirak, K. Krenz und M. Reiß (2021): Statistik und maschinelles Lernen. Eine mathematische Einf¨ uhrung in klassische und moderne Methoden. Springer.

3

1

Mathematische Modelle von Zufallsexperimenten

Wir alle haben eine intuitive Vorstellung von Zufall und zuf¨alligen Ereignissen. In Stochastik soll diese Intuition mit einem mathematischen Fundament untermauert werden. W¨ahrend zuf¨allige Ereignisse gerade dadurch gekennzeichnet sind, dass deren Ausgang nicht vorherbestimmt ist, erlaubt uns eine mathematische Analyse tiefere Einblicke und Gesetzm¨aßigkeiten des Zufalls zu verstehen und herzuleiten. Was ist Zufall? Vorschulgruppe in der Kita: “Wenn Bjarne die gleiche Hose an hat, wie ich.” Wikipedia: “Von Zufall spricht man, wenn f¨ ur ein einzelnes Ereignis oder das Zusammentreffen mehrerer Ereignisse keine kausale Erkl¨arung gegeben werden kann. Als kausale Erkl¨arungen f¨ ur Ereignisse kommen je nach Kontext eher Absichten handelnder Personen oder auch naturwissenschaftliche deterministische Abl¨ aufe in Frage.” Georgii (2009): “Eine m¨ oglicherweise naturinh¨arente Indeterminiertheit, als auch unsere (eventuell prinzipielle) Unkenntnis u ¨ber die genauen Rahmenbedingungen der Situation.” ▶ Die Antwort auf diese Frage ist eher philosophischer Natur f¨ ur die mathematische Modellierung und Analyse nebens¨ achlich. Was ist Stochastik? ▶ Die Lehre von den Gesetzm¨aßigkeiten des Zufalls. Resultate (die uns im Verlauf der Vorlesung begegnen werden): • Was ist der erwartete/mittlere Ausgang eines Zufallsexperiments? • Das Gesetz der großen Zahlen

Abb.: M¨ unzwurfexperiment vom 18.10.21 mit 229 Studierenden.

Beispiel: M¨ unzwurfexperiment: pingo.coactum.de ; 590529 • Der zentrale Grenzwertsatz Wir m¨ ussen zun¨ achst den Zufall“ bzw. Zufallsexperimente mathematisch beschreiben (Wahr” scheinlichkeitstheorie). In einem zweiten Schritt werden wir die Ergebnisse von Zufallsexperimenten beschreiben (deskriptive Statistik) und aufgrund von Beobachtungen R¨ uckschl¨ usse auf das mathematische Modell ziehen (induktive Statistik).

1.1

Grundbegriffe

Wir ben¨ otigen zun¨ achst einige Grundbegriffe: • Der Grundraum ist eine nicht leere Menge Ω ̸= ∅. Sie enth¨alt alle m¨oglichen Ergebnisse eines Zufallsexperimentes. • Ereignisse sind Teilmengen A ⊆ Ω, denen prinzipiell eine Wahrscheinlichkeit zugeordnet werden kann. – Nicht immer wird jede Teilmenge als Ereignis bezeichnet, sondern nur Mengen aus einem Mengensystem A ⊆ P(Ω), wobei P(Ω) := {A : A ist Teilmenge von Ω}

die Potenzmenge bezeichnet.

– Ist Ω endlich (oder allgemeiner h¨ochstens abz¨ahlbar), dann w¨ahlt man typischerweise A = P(Ω), d.h. jede m¨ ogliche Teilmenge des Grundraums soll eine Wahrscheinlichkeit erhalten. ▶ Sprechweise: Ereignis A tritt ein ⇔ Ergebnis ω liegt in A

4

1

MATHEMATISCHE MODELLE VON ZUFALLSEXPERIMENTEN

• Vorsicht: ω ist kein Ereignis! Aber {ω} ist ein (Elementar-)Ereignis, falls A geeignet gew¨ahlt ist. Beispiel 1.1. 1. Werfen einer M¨ unze:

Ω = {K, Z}

Das Ereignis “Es f¨ allt Kopf” entspricht A = {K}. 2. Werfen eines W¨ urfels:

Ω = {1, ..., 6}

Das Ereignis “Augenzahl ist gerade” ist gegeben durch A = {2, 4, 6}. 3. In einem Netzwerk werden L¨ angen (in Byte) der ersten n = 105 Datenpakete beobachtet, die an einem Router ankommen: Ω = Nn = {(ω1 , ..., ωn ) | ωi ∈ N f¨ ur alle 1 ≤ i ≤ n} Interpretation: ωi = L¨ ange des i-ten Paketes Das Ereignis “Das gr¨ oßte Paket umfasst maximal 107 Byte” entspricht A := {(ω1 , ..., ωn ) | ωi ≤ 107 f¨ ur alle 1 ≤ i ≤ n}.



Logische Verkn¨ upfungen zwischen Bedingungen, die Ereignisse definieren, lassen sich durch mengentheoretische Operationen zwischen diesen Ereignissen beschreiben. Seien A, B ⊆ Ω Ereignisse. Dann ist: • A ∪ B = {ω ∈ Ω | ω ∈ A oder ω ∈ B} das Ereignis, dass A eintritt oder B eintritt (nicht exklusiv, d.h. es k¨ onnen auch beide Ereignisse eintreten), • A ∩ B = {ω ∈ Ω | ω ∈ A und ω ∈ B} das Ereignis, dass A und B eintritt, • A \ B = {ω ∈ Ω | ω ∈ A, ω ∈ / B} das Ereignis, dass A eintritt, aber nicht B eintritt, • B c das Ereignis, dass B nicht eintritt. • A ⊆ B bedeutet: Wenn A eintritt, dann tritt auch B ein. Im Wahrscheinlichkeitsmodell soll jedem Ereignis eine Wahrscheinlichkeit konsistent zugeordnet werden. Konsistent? F¨ ur n ∈ N unabh¨ angige“ Wiederholungen eines Zufallsexperimentes mit Grundraum ” Ω und Ergebnissen ω1 , . . . , ωn ∈ Ω betrachte die empirische Verteilung / relative H¨ aufigkeit n

Pn (A) :=

1X 1{ωi ∈A} , n i=1

A ⊆ Ω.

F¨ ur Pn : P(Ω) → R gelten: • 0 ≤ Pn (A) ≤ 1 f¨ ur alle A ⊆ Ω, • Pn (Ω) = 1, • Pn (A ∪ B) = Pn (A) + Pn (B) f¨ ur alle A, B ⊆ Ω mit A ∩ B = ∅ ▶ Diese Eigenschaften motivieren die Definition von Wahrscheinlichkeitsmaßen.

1.1

5

Grundbegriffe

Definition 1.2. Sei Ω ̸= ∅ eine beliebige nicht-leere Menge. Eine Abbildung P : P(Ω) → [0, 1] heißt diskretes Wahrscheinlichkeitsmaß, falls (a) P(Ω) = 1, (b) ∀An ⊆ Ω, n ∈ N, disjunkt: P

S n∈N

 P An = P(An )

(σ-Additivit¨at),

n∈N

(c) es existiert eine (h¨ ochstens) abz¨ahlbare Menge Ω0 ⊆ Ω mit P(Ω0 ) = 1. Dann heißt (Ω, P) diskreter Wahrscheinlichkeitsraum. Ist Ω0 endlich, sprechen wir von einem endlichen Wahrscheinlichkeitsraum.

Diese axiomatische Definition von Wahrscheinlichkeitsr¨aumen geht auf Kolmogorov (1933) zur¨ uck. Beispiel 1.3. 1. Einmaliges Werfen eines fairen W¨ urfels: Ω = {1, ..., 6}, |A| A ⊆ Ω : P(A) = |A| |Ω| = 6 , insbesondere P({ω}) = 61 f¨ ur alle ω ∈ Ω. Abb.: W¨ urfelexperiment in der Vorschulgruppe 2. Werfen zweier ununterscheidbarer fairer W¨ urfel: Ω = {(ω1 , ω2 ) | ω1 , ω2 ∈ {1, ..., 6}, ω1 ≤ ω2 } Hier ist es nicht sinnvoll, jeder Menge {(ω1 , ω2 )} die gleiche Wahrscheinlichkeit zuzuweisen, denn es gibt z.B. 2 M¨ oglichkeiten (1,2) zu erhalten, aber nur eine f¨ ur (1,1). ⇝ P({(ω1 , ω2 )}) = F¨ ur A ⊆ Ω folgt P(A) =

X



1 36 , 2 36 ,

falls ω1 = ω2 falls ω1 ̸= ω2

P({ω}).



ω∈A

Wir fassen die wichtigsten elementaren Eigenschaften von Wahrscheinlichkeitsmaßen auf endlichen R¨ aumen in folgendem Satz zusammen.

Satz 1.4. Sei (Ω, P) ein diskreter Wahrscheinlichkeitsraum. Dann gilt (i) P(∅) = 0 (ii) ∀A1 , . . . , Am ⊆ Ω disjunkt, m ∈ N:

m m [  X P An = P(An ) n=1

(iii) ∀A ⊆ Ω :

n=1

P(Ac ) = 1 − P(A)

(iv) ∀A, B ⊆ Ω, A ⊆ B :

P(B \ A) = P(B) − P(A), insbes. P(A) ≤ P(B)

6

1

MATHEMATISCHE MODELLE VON ZUFALLSEXPERIMENTEN

(v) ∀A, B ⊆ Ω :

P(A ∪ B) = P(A) + P(B) − P(A ∩ B) [  X (vi) F¨ ur alle Folgen An ⊆ Ω, n ∈ N gilt P An ≤ P(An ) n∈N

(“σ-Subadditivit¨ at”)

n∈N

Beweis. (i) Wegen ∅ ∩ ∅ = ∅ folgt aus Eigenschaft (b) P(∅) = P(∅ ∪ ∅ ∪ . . . ) = P(∅) ∈ [0, 1], kann dies nur f¨ ur P(∅) = 0 erf¨ ullt sein.

Pn

i=1

P(∅). Wegen

(ii) folgt aus (b) und (i) durch die Wahl An = ∅ f¨ ur n > m. (iii) Aus A ∪ Ac = Ω und A ∩ Ac = ∅ folgt: (a)

(b)

1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ). Umstellen liefert die Behauptung. (iv) F¨ ur A ⊆ B zerlegen wir B = A ∪ (B \ A), wobei A ∩ (B \ A) = ∅. Aus (b) folgt P(B) = P(A) + P(B \ A) und somit P(B \ A) = P(B) − P(A). Da P(B \ A) ≥ 0 erhalten wir P(B) ≥ P(A). (v) Es gilt A ∪ B = (A \ B) ∪ (B \ A) ∪ (A ∩ B), wobei die drei Mengen, die wir hier vereinigen disjunkt sind. Wir erhalten: (ii)

P(A ∪ B) = P(A \ B) + P(B \ A) + P(A ∩ B) (iv)

= P(A) − P(A ∩ B) + P(B) − P(A ∩ B) + P(A ∩ B)

= P(A) + P(B) − P(A ∩ B).

(vi) F¨ ur A1 , A2 , . . . ⊆ Ω betrachten wir B1 := A1 und Bn := An \ ( Dann sind B1 , B2 , . . . paarweise disjunkt und es gilt [ [ An = Bn . n≥1

Sn−1 k=1

Ak ) ⊆ An f¨ ur n ≥ 2.

n≥1

Wir folgern: [  [  X (iv) X σ-Add. An = P Bn P = P(Bn ) ≤ P(An ). n≥1

1.2

n≥1

n≥1

n≥1

Erste Beispiele diskreter Wahrscheinlichkeitsverteilungen

Wir werden nun einige wichtige Wahrscheinlichkeitsverteilung auf endlichen Wahrscheinlichkeitsr¨aumen diskutieren. Betrachten wir den kleinsten nichttrivialen Wahrscheinlichkeitsraum. Definition 1.5. Auf dem Grundraum Ω = {0, 1} wird durch P({1}) = p

f¨ ur ein

p ∈ [0, 1]

eine Wahrscheinlichkeitsverteilung festgelegt, welche als Bernoulliverteilung Ber(p) mit Erfolgswahrscheinlichkeit p bezeichnet wird.

1.2

7

Erste Beispiele diskreter Wahrscheinlichkeitsverteilungen

Es gilt

P({0}) = 1 − P({1}) = 1 − p,

sodass tats¨ achlich f¨ ur alle Elemente der Potenzmenge P(Ω) = {∅, {0}, {1}, {0, 1}} Wahrscheinlichkeiten eindeutig festgelegt sind. M¨ unzwurfexperiment: Mit der Kodierung 0 = b Zahl“ und 1 = b Kopf“ kann das M¨ unzwurfexperiment ” ” mit einer Bernoulliverteilung modelliert werden, wobei die M¨ unze fair ist, wenn p = 1/2. Beispiel 1.6 (Erd˝ os–R´enyi-Graph). Ein sehr einfaches Modell f¨ ur (soziale) Netzwerke ist ein Erd˝ os–R´enyi-Graph: Wir betrachten n ∈ N Individuen, wobei sich zwei Personen (i, j) ∈ {i, j ∈ {1, . . . , n} : i ̸= j} mit Wahrscheinlichkeit p ∈ (0, 1) m¨ ogen/folgen/liken/zitieren/... Wir stellen die Individuen als Knoten eines (ungerichteten) Graphen dar. F¨ ur jedes Paar (i, j) f¨ uhren wir ein Bernoulliexperiment mit Erfolgswahrscheinlichkeit p durch. Falls das Ereignis {1} eintritt, verbinden wir die Knoten i, j mit einer Kante. ♢ ●

● ●

● ●



● ●



● ●





● ●











● ●



● ●

● ●



















● ●







● ●







● ●







● ●



● ●



















● ●







● ●







● ●

























● ● ●







● ●

● ●



ER−Graph mit n=50, p=1/10

ER−Graph mit n=50, p=1/3

Abb.: Realisierungen von Erd˝ os–R´enyi-Graphen mit Parametern n = 50 und p = 1/10 (links) und p = 1/3 (rechts).

Das Modell f¨ ur den fairen W¨ urfel ist ein Spezialfall einer wichtigen Klasse von Wahrscheinlichkeitsr¨ aumen:

Definition 1.7. Ist Ω ̸= ∅ endlich, so heißt das durch P(A) :=

|A| , |Ω|

A ⊆ Ω,

definierte Wahrscheinlichkeitsmaß die Gleichverteilung oder Laplace-Verteilung U(A) auf Ω. Hierbei bezeichnet |A| die Anzahl der Elemente der Menge A.

Bei Gleichverteilungen sind also nur M¨achtigkeiten von Mengen zu bestimmen. Daf¨ ur sind oft sogenannte Urnenmodelle hilfreich. Urnenmodelle Es werden k Ziehungen aus einer Urne mit Kugeln, die mit 1, . . . , n durchnummeriert sind, durchgef¨ uhrt. Dabei betrachten wir wahlweise • Ziehen mit oder ohne Zuru ¨ cklegen, • Ziehen mit oder ohne Beru ¨ cksichtigung der Reihenfolge.

8

1

MATHEMATISCHE MODELLE VON ZUFALLSEXPERIMENTEN

Im Folgenden werden geeignete Grundr¨aume f¨ ur diese Zufallsexperimente und deren M¨achtigkeiten angegeben. Ziehen mit Zuru ¨ cklegen und mit Beru ¨ cksichtigung der Reihenfolge: M¨ oglicher Grundraum:  ΩmZ,mR = (ω1 , . . . , ωk ) | ωi ∈ {1, . . . , n} ∀ 1 ≤ i ≤ k = {1, . . . , n}k Interpretation: ω = (ω1 , . . . , ωk ) ∈ ΩmZ,mR bedeutet, dass f¨ ur alle 1 ≤ i ≤ k im i-ten Zug die Kugel mit der Nummer ωi gezogen worden ist. ▶ Es gilt |ΩmZ,mR | = nk . Ziehen ohne Zuru ¨ cklegen und mit Beru ¨ cksichtigung der Reihenfolge: M¨ oglicher Grundraum:  ΩoZ,mR = (ω1 , . . . , ωk ) ∈ {1, . . . , n}k | ωi ̸= ωj ∀1 ≤ i < j ≤ k Interpretation: ω = (ω1 , . . . , ωk ) ∈ ΩoZ,mR bedeutet, dass f¨ ur alle 1 ≤ i ≤ k im i-ten Zug die Kugel mit der Nummer ωi gezogen worden ist. n! . ▶ Es gilt |ΩoZ,mR | = n · (n − 1) · · · (n − k + 1) = (n − k)! Begr¨ undung: n M¨ oglichkeiten f¨ ur ω1 , dann n − 1 M¨ oglichkeiten f¨ ur ω2 bei gegebenem ω1 , dann n − 2 M¨ oglichkeiten f¨ ur ω3 bei gegebenen ω1 , ω2 , ... ... dann n − k + 1 M¨ oglichkeiten f¨ ur ωk bei gegebenen ω1 , ..., ωk−1 . Ziehen ohne Zuru ¨ cklegen und ohne Beru ¨ cksichtigung der Reihenfolge: M¨ oglicher Grundraum:  ΩoZ,oR = (ω1 , . . . , ωk ) ∈ {1, . . . , n}k | ωi < ωj ∀1 ≤ i < j ≤ k Interpretation: ω = (ω1 , . . . , ωk ) ∈ ΩoZ,oR bedeutet, dass die der Gr¨ oße nach geordneten gezogenen Kugelnummern gerade ω1 , . . . , ωk sind.   |ΩoZ,mR | n! n = = . ▶ Es gilt |ΩoZ,oR | = k! k!(n − k)! k Begr¨ undung: Es gibt zu jedem (ω1 , ..., ωk ) ∈ ΩoZ,oR genau k! verschiedene M¨ oglichkeiten, die k verschiedenen Kugelnummern anzuordnen, d.h. jedem ω ∈ ΩoZ,oR entsprechen k! Elemente aus ΩoZ,mR  ˜ oZ,oR := S ⊆ {1, . . . , n} | |S| = k , wobei S ∈ Ω ˜ oZ,oR als die Menge der Alternatives Modell: Ω gezogenen Kugelnummern zu interpretieren ist. Ziehen mit Zuru ¨ cklegen und ohne Beru ¨ cksichtigung der Reihenfolge: M¨ oglicher Grundraum:  ΩmZ,oR = (ω1 , . . . , ωk ) ∈ {1, . . . , n}k | ωi ≤ ωj ∀1 ≤ i < j ≤ k

1.2

Erste Beispiele diskreter Wahrscheinlichkeitsverteilungen

9

Interpretation: ω = (ω1 , . . . , ωk ) ∈ ΩmZ,oR bedeutet, dass die der Gr¨ oße nach geordneten gezogenen Kugelnummern gerade ω1 , . . . , ωk sind. Um |ΩmZ,oR | zu bestimmen betrachte die bijektive Abbildung S : ΩmZ,oR



{(˜ ω1 , ..., ω ˜ k ) ∈ {1, ..., n + k − 1}k | ω ˜1 < ω ˜ 2 < ... < ω ˜ k } =: Ω∗

S(ω1 , ..., ωk )

:=

(ω1 , ω2 + 1, ω3 + 2, ..., ωk + k − 1)

Ω∗ ist vom gleichen Typ wie ΩoZ,oR durch n + k − 1  mit n ersetzt  n+k−1 ∗ ▶ Daher gilt |ΩmZ,oR | = |Ω | = . k Beispiel 1.8. 6 Kugeln werden ohne Zur¨ ucklegen und ohne Ber¨ ucksichtigung der Reihenfolge aus 49 Kugeln gezogen.  =⇒ Es gibt 49 oglichkeiten 6 = 13.983.816 M¨ Da alle Kombinationen gleich wahrscheinlich sind, ist die W’keit f¨ ur 6 Richtige 1 49 6

 ≈ 7, 15 · 10−8 .



Beispiel 1.9. Sie haben am Geldautomaten die PIN f¨ ur Ihre EC-Karte vergessen und rufen Ihre Mitbewohnerin an, die 10 Zettel mit den PINs aller Ihrer aktuellen und alten EC- und Kreditkarten findet. Sie probieren die 10 m¨ oglichen PINs in zuf¨alliger Reihenfolge am Geldautomaten durch, bis dieser evtl. die Karte nach drei falschen Versuchen einzieht. ▶ Wie groß ist die W’keit, dass Sie genau 3 Versuche ben¨otigen? Situation: 3 mal Ziehen ohne Zur¨ ucklegen und mit Ber¨ ucks. der Reihenfolge 10! 3 ; Ω = {(ω1 , ω2 , ω3 ) ∈ {1, ..., 10} | ωi ̸= ωj ∀ i ̸= j} ⇒ |Ω| = = 720 7! Es kann Gleichverteilung angenommen werden. Ist r ∈ {1, . . . , 10} die richtige PIN, entspricht Erfolg im dritten Versuch“ dem Ereignis ”  A = (ω1 , ω2 , ω3 ) ∈ Ω | ω3 = r ⇒ |A| = 9 · 8 · 1 = 72. 72 |A| = = 0, 1. |Ω| 720 Den Urnenmodellen sehr ¨ ahnlich sind F¨ achermodelle:

▶ Bei Gleichverteilung gilt also

P(A) =

Wir haben k Murmeln und wollen diese auf n F¨acher verteilen. Dabei gelte wahlweise: • Mehrfachbelegung der F¨ acher erlaubt oder nicht erlaubt • unterscheidbare Murmeln oder nicht unterscheidbare Murmeln. ▶ Wie viele verschiedene Ergebnisse gibt es jeweils? ▶ Die resultierenden 4 m¨ oglichen Situationen entsprechen den 4 Urnenmodellen. Begr¨ undung: Nummeriere die F¨ acher von 1 bis n durch. Nimm eine Urne mit n durchnummerierten Kugeln. F¨ ur jede Murmel ziehen wir eine Kugel aus der Urne und legen die Murmel in das Fach mit der Nummer, die auf der Kugel steht. Mehrfachbelegung m¨ oglich ⇔ Ziehung mit Zur¨ ucklegen Murmeln unterscheidbar ⇔ Reihenfolge ber¨ ucksichtigt. Es ergibt sich folgender Zusammenhang zwischen Urnen- und F¨achermodellen. Angegeben ist jeweils die M¨ achtigkeit des Grundraums



10

1

MATHEMATISCHE MODELLE VON ZUFALLSEXPERIMENTEN

Urnenmodell mit n Kugeln und k Ziehungen mit Reihenfolge ohne Reihenfolge

mit Zur¨ ucklegen

ohne Zur¨ ucklegen

nk

n! (n−k)!

n+k−1 k

n k



mit Mehrfachbelegung



ohne Mehrfachbelegung

unterscheidbare Murmeln ununterscheidbare Murmeln Verteilung von k Murmeln auf n F¨acher

Tab.: Zusammenhang zwischen Urnen- und F¨achermodellen Anwendungen: Kollisionsprobleme (Geburtstagsproblem etc.), Sammelbildprobleme, ... Warnhinweis: Urnenmodelle erm¨ oglichen es, die Gr¨ oße vieler Mengen zu bestimmen, und damit die auch Wahrscheinlichkeiten, falls von einer Gleichverteilung ausgegangen werden kann. Allerdings ist die Annahme einer Gleichverteilung in vielen F¨allen nicht gerechtfertigt, insb. oft nicht im Modell mit Zur¨ ucklegen und ohne Ber¨ ucksichtigung der Reihenfolge! Erinnerung Beispiel 1.3(2): Werfen zweier ununterscheidbarer fairer W¨ urfel. Der Grundraum Ω = {(ω1 , ω2 ) | ω1 , ω2 ∈ {1, ..., 6}, ω1 ≤ ω2 } ist vom Typ ΩmZ,oR mit k = 2, n = 6, aber Zufallsmechanismus wird nicht durch Gleichverteilung beschrieben, da z.B. P({(1, 2)}) = 2/36 ̸= 1/36 = P({(1, 1)}). Im Allgemeinen lassen sich diskrete W’maße durch eine Funktion f : Ω → [0, 1] eindeutig beschreiben:

Satz und Definition 1.10. (i) Sei (Ω, P) ein diskreter Wahrscheinlichkeitsraum. Dann wird die Funktion f : Ω → [0, 1], f (ω) = P({ω}) Wahrscheinlichkeitsfunktion oder Z¨ ahldichte von P genannt und besitzt folgende Eigenschaften: (a) ΩT := {ω ∈ Ω | f (ω) > 0} ist abz¨ ahlbar (und heißt Tr¨ ager von P bzw. von f ), P (b) f (ω) = 1. ω∈Ω

F¨ ur alle A ⊆ Ω gilt dann: P(A) =

X ω∈A

f (ω) =

X

f (ω).

ω∈A∩ΩT

(ii) Ist umgekehrt Ω ̸= ∅ und f : Ω → [0, 1] eine Funktion, die (a) und (b) erf¨ ullt, so existiert genau ein diskretes Wahrscheinlichkeitsmaß auf Ω, das f zur Z¨ ahldichte hat.

1.2

11

Erste Beispiele diskreter Wahrscheinlichkeitsverteilungen

In der Vorlesung f¨ uhren wir den Beweis nur in dem Fall, in dem Ω = Ω0 abz¨ahlbar ist. Im Allgemeinen ist etwas mehr Vorsicht geboten, aber die Grundidee ist dieselbe: Beweis. (i) Wegen Eigenschaft (c) aus der Definition gilt f¨ ur alle ω ∈ / Ω0 , dass 0 ≤ f (ω) = P({ω}) ≤ P(Ωc0 ) = 1 − P(Ω0 ) = 0. Also ist ΩT ⊆ Ω0 abz¨ahlbar. Damit haben wir (a) gezeigt. (b) folgt aus X

f (ω)

ΩT ⊆Ω0

=

ω∈Ω

X

X

f (ω) =

P({ω})

σ-additiv

=

P(Ω0 ) = 1.

ω∈Ω0

ω∈Ω0

Weiterhin gilt f¨ ur alle A ⊆ Ω, dass P(A \ Ω0 ) ≤ P(Ωc0 ) = 0 gilt, sodass P(A)

=

P(A ∩ Ω0 ) + P(A \ Ω0 )

=

P(A ∩ Ω0 ) X P({ω})

σ-additiv

=

ω∈A∩Ω0

X

=

f (ω)

ω∈A∩Ω0

folgt. Hieraus folgt einerseits X

P(A) =

X

f (ω) =

ω∈A∩Ω0

X

f (ω) +

ω∈A∩ΩT

f (ω) | {z }

=

f (ω) =

X

ω∈(A∩Ω0 )\ΩT

X

f (ω)

ω∈A∩ΩT

=0 ∀ω∈ΩcT

und analog P(A) =

X

f (ω) =

X ω∈A

ω∈A∩ΩT

X

f (ω) −

f (ω).

ω∈A

ω∈A\ΩT

Man beachte, dass in der letzten Summe nur h¨ochstens abz¨ahlbar viele Summanden von null verschieden sind. (ii) Eindeutigkeit: Ist f die Z¨ ahldichte zweier Wahrscheinlichkeitsmaße P und Q auf Ω, dann gilt: X

P(A) =

f (ω) = Q(A)

∀A ⊆ Ω.

ω∈A

Also stimmen die beiden Abbildungen P : P(Ω) → [0, 1] und Q : P(Ω) → [0, 1] u ¨berein. Existenz: Wir definieren eine Abbildung P : P(Ω) → [0, 1] auf Ω mittels P(A) :=

X

f (ω)

∀A ⊆ Ω.

ω∈A

Dann gilt P(Ω) =

P

ω∈Ω

P(

[

n∈N

f (ω) = 1, f¨ ur alle disjunkten An ⊆ Ω, n ∈ N gilt X

An ) = ω∈

S

X X

f (ω) =

n∈N

An

n∈N

 X f (ω) = P(An ),

ω∈An

n∈N

und f¨ ur Ω0 := ΩT = {ω ∈ Ω : f (ω) > 0} gilt P(Ω0 ) =

X ω∈Ω0

f (ω) =

X ω∈Ω

f (ω) −

X

f (ω) = 1.

ω∈Ω\Ω0

Somit ist P ein diskretes Wahrscheinlichkeitsmaß auf Ω mit der Eigenschaft P({ω}) = f (ω) f¨ ur alle ω ∈ Ω.

12

1

MATHEMATISCHE MODELLE VON ZUFALLSEXPERIMENTEN

F¨ ur p ∈ [0, 1] liefert der Binomische Lehrsatz: 1 = (p + (1 − p))n =

n   X n k=0 |

k

pk · (1 − p)n−k {z } =:f (k)

0.20

▶ f : {0, ..., n} =: Ω → [0, 1], erf¨ ullt die Bedingungen (a) und (b) aus Satz 1.10, ist also die Z¨ ahldichte eines diskreten Wahrscheinlichkeitsmaßes auf Ω.

0.15

Bin(20,1/2)−Zähldichte Bin(20,1/5)−Zähldichte

0.00

0.05

0.10

Definition 1.11. Das Wahrscheinlichkeitsmaß P = Bin(n, p) auf {0, . . . , n} mit der Z¨ ahldichte   n k f (k) = p · (1 − p)n−k ∀k ∈ {0, ..., n} k heißt Binomialverteilung mit Parametern n ∈ N und p ∈ [0, 1].

0

1

2

3

4

5

6

7

8

9 10

12

14

16

18

20

Abb.: Z¨ahldichten der Binomialverteilung mit n = 20 und Erfolgswahrscheinlichkeiten p = {1/2, 1/5}.

Sp¨ ater: Bin(n, p) beschreibt zuf¨ allige Anzahl der Erfolge bei n-maliger unabh¨angiger Durchf¨ uhrung eines Zufallsexperiments mit Erfolgswahrscheinlichkeit p. Wir sehen aber bereits hier, dass wir f¨ ur n = 1 gerade die Bernoulliverteilung erhalten. Auf eine weitere wichtige Verteilungsfamilie f¨ uhrt folgende Frage:

0.8

Beispiel: Wie groß ist die W’keit, dass man genau k-mal (unabh. voneinander) einen fairen W¨ urfel werfen muss, bevor das erste Mal 6 gew¨ urfelt wird? k W’keit, k-mal keine 6 zu w¨ urfeln: 65 , W’keit, beim (k + 1). Mal 6 zu w¨ urfeln: 16 .  k ▶ Gesuchte Wahrscheinlichkeit = 56 · 61 ∀ k ∈ N0

Geom(1/2)−Zähldichte Geom(5/6)−Zähldichte

0.4

k ∈ N0 ,

0.2

f (k) = (1 − p)k · p,

0.6

Definition 1.12. Das Wahrscheinlichkeitsmaß P = Geo(p) auf N0 mit der Z¨ ahldichte

0.0

heißt geometrische Verteilung mit Parameter p ∈ (0, 1].

0

1

2

3

4

5

6

7

Abb.: Z¨ahldichte der metrischen Verteilung p ∈ {1/2, 5/6}.

8

9

10

geomit

f ist tats¨ achlich eine Z¨ ahldichte auf N0 , denn N0 ist abz¨ahlbar und X k∈N0

f (k) = p ·

X k∈N0

(1 − p)k

geometr.Reihe

=



1 = 1. 1 − (1 − p)

Geo(p) beschreibt Anzahl der Misserfolge bis zum ersten Erfolg bei unabh¨angiger Durchf¨ uhrung eines Zufallsexperiments mit Erfolgsw’keit p.

13

2

Bedingte Wahrscheinlichkeit und Unabh¨ angigkeit

Frage: Wie kann man den Einfluss eines Ereignisses B auf die Eintrittsw’keit eines anderen Ereignisses A beschreiben? Idee:

Vergleiche die W’keit, dass beide Ereignisse eintreten, mit der W’keit, dass B eintritt.

Definition 2.1. Sei (Ω, P) ein diskreter Wahrscheinlichkeitsraum, B ⊆ Ω mit P(B) > 0 und A ⊆ Ω. Dann heißt P(A | B) :=

P(A ∩ B) P(B)

die bedingte Wahrscheinlichkeit von A gegeben B.

Beispiel 2.2. Ω = {1, . . . , 10}, P = U(Ω), B = {1, . . . , 8}, A = {6, . . . , 10} ⇒

P(A|B) =

3 1 P({6, 7, 8}) = < = P(A). P({1, . . . , 8}) 8 2



Man beachte, dass f¨ ur festes B ⊆ Ω mit P(B) > 0, die Abbildung A 7→ P(A|B) wieder ein diskretes ¨ Wahrscheinlichkeitsmaß auf Ω ist (Beweis als Ubung). Beispiel 2.3 (Ziegenproblem). Hinter einer von drei T¨ uren befindet sich der Hauptgewinn, hinter den beiden anderen jeweils eine Ziege. Der Kandidat zeigt auf T¨ ur 1; diese bleibt zun¨achst verschlossen. Der Moderator weiß, hinter welcher T¨ ur sich der Hauptgewinn befindet. Er darf die Gewinnt¨ ur nicht ¨ offnen, muss aber eine Ziege zu erkennen geben. Der Moderator ¨ offnet T¨ ur 3 und bietet an, von T¨ ur 1 zu T¨ ur 2 zu wechseln.

Abb.: Illustration des Ziegenproblems. ▶ Soll man das tun? Wir modellieren: Aj = Gewinn hinter T¨ ur j.“ ”

;

P(A1 ) = P(A2 ) = P(A3 ) =

Bj = Moderator ¨ offnet T¨ ur j.“ ”

;

P(B2 |A1 ) = P(B3 |A1 ) =

1 2 P(B3 |A2 ) = P(B2 |A3 ) = 1.

1 3

14

2

1 3

A1 1 2

1 2

B2

B3

¨ BEDINGTE WAHRSCHEINLICHKEIT UND UNABHANGIGKEIT

1 3

1 3

A2

A3

1

1

B3

B2



P(A1 ∩ B3 ) = P(A1 ) · P(B3 |A1 ) 1 1 1 = · = 3 2 6

▶ Gesucht: P(A2 |B3 )

Abb.: Bedingte Wahrscheinlichkeiten als Baumdiagramm f¨ ur das Ziegenproblem.



Als Verallgemeinerung von P(A ∩ B) = P(B)P(A|B),

A, B ⊆ Ω, P(B) ̸= 0,

gilt: Satz 2.4 (Multiplikationsformel). Es seien A1 , . . . , An ⊆ Ω Ereignisse mit P(A1 ∩. . .∩An−1 ) > 0, dann gilt P(A1 ∩ . . . ∩ An ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · · · P(An |A1 ∩ . . . ∩ An−1 ).

Beweis. Sukzessives verwenden von P(A∩B) = P(B)P(A|B) mit A = Ak und B = A1 ∩· · ·∩Ak−1 , k = n, n − 1, . . . , 1, liefert: P(A1 ∩ . . . ∩ An ) = P(A1 ∩ . . . ∩ An−1 )P(An |A1 ∩ . . . ∩ An−1 ) = P(A1 ∩ . . . ∩ An−2 )P(An−1 |A1 ∩ . . . ∩ An−2 )P(An |A1 ∩ . . . ∩ An−1 ) = P(A1 ∩ A2 )P(A3 |A1 ∩ A2 ) · · · P(An−1 |A1 ∩ . . . ∩ An−2 )P(An |A1 ∩ . . . ∩ An−1 ) = P(A1 )P(A2 |A1 ) · · · P(An |A1 ∩ . . . ∩ An−1 ). Als Anwendung k¨ onnen wir Wahrscheinlichkeiten f¨ ur gekoppelte Zufallsexperimente berechnen: Viele stochastische Vorg¨ ange bestehen aus aufeinanderfolgenden Teilexperimenten. Das Ziegenproblem ist ein zweistufiges Beispiel hierf¨ ur. Ergebnisse eines n-stufigen Experiments sind n-Tupel ω = (ω1 , ω2 , . . . , ωn ), wobei ωj der Ausgang des j-ten Teilexperimentes ist. Sei Ωj die (abz¨ ahlbare) Ergebnismenge des j-ten Teilexperimentes. Dann ist Ω := Ω1 × · · · × Ωn = {ω = (ω1 , . . . , ωn ) : ωj ∈ Ωj f¨ ur j = 1, . . . , n} ein nat¨ urlicher Grundraum f¨ ur das Gesamtexperiment. ▶ Festlegung einer geeigneten Wahrscheinlichkeitsverteilung auf Ω mithilfe einer Startverteilung ¨ und Ubergangswahrscheinlichkeiten: P({(ω1∗ , . . . , ωn∗ )}) = P(A1 )P(A2 |A1 ) · · · P(An |A1 ∩ · · · ∩ An−1 ) mit Ai := {ω ∈ Ω : ωi = ωi∗ } (Experiment i hat das Ergebnis ωi∗ ergeben) und P(Ai |A1 ∩ · · · ∩ ∗ Ai−1 ) als W’keit f¨ ur ωi∗ im iten Experiment, wenn zuvor ω1∗ , . . . , ωi−1 beobachtet wurde (; Baumdiagramm, Bsp. 2.3).

15

Satz 2.5. Sei (Ω, P) ein diskreter Wahrscheinlichkeitsraum, I eine (h¨ ochstens) abz¨ ahlbare IndexS menge, Bi ⊆ Ω, i ∈ I, disjunkt mit P(Bi ) > 0 und i∈I Bi = Ω (d.h. Bi , i ∈ I, bildet eine disjunkte Zerlegung von Ω). Weiter sei A ⊆ Ω beliebig. (i) Es gilt der Satz von der totalen Wahrscheinlichkeit: X P(A) = P(A | Bi ) · P(Bi ). i∈I

(ii) Falls P(A) > 0 und k ∈ I, dann gilt der Satz von Bayes: P(Bk | A) =

P(A | Bk ) · P(Bk ) P(A | Bk ) · P(Bk ) =P . P(A) i∈I P(A | Bi ) · P(Bi )

Beweis. (i) F¨ ur (Bi )i∈I ⊆ Ω und A ⊆ Ω wie angegeben gilt [  [ A=A∩Ω=A∩ Bi = (A ∩ Bi ). i∈I

i∈I

Nun sind alle A∩Bi , i ∈ I, disjunkt, sodass aus der σ-Additivit¨at und der Definition der bedingten Erwartungen folgt: [  X X P(A) = P (A ∩ Bi ) = P(A ∩ Bi ) = P(A|Bi ) · P(Bi ). i∈I

i∈I

i∈I

(ii) Gilt zus¨ atzlich P(A) > 0, erhalten wir f¨ ur jedes k ∈ I: P(Bk ∩ A) P(Bk |A) = = P(A)

P(Bk ∩A) P(Bk )

· P(Bk )

P(A) P(A|Bk ) · P(Bk ) P(A|Bk ) · P(Bk ) (i) = P = . P(A) i∈I P(A | Bi ) · P(Bi )

Beispiel 2.6 (Fortsetzung - Beispiel 2.3). Nach Bayes-Formel gilt f¨ ur die bedingte W’keit des Gewinns hinter Tor 2 gegeben, dass der Moderator Tor 3 umdreht: P(A2 |B3 )

= = >

P(B3 |A2 )P(A2 ) P(B3 |A1 )P(A1 ) + P(B3 |A2 )P(A2 ) 1 · 31 2 1 1 1 = 3 2 · 3 +1· 3 1 = P(A1 |B3 ). 3

▶ Man sollte zu T¨ ur 2 wechseln!



Beispiel 2.7 (Covid-19-Schnelltest). ▶ Was bedeutet es, wenn ein Covid-19-Antigen-Test positiv ausf¨allt? In ca. 96, 5% der F¨ alle, in denen die Testperson infiziert ist, ist der Test positiv, d.h. die Covid19-Infektion wird erkannt. In 99, 7% der F¨ alle, in denen keine Infektion vorliegt, f¨allt der Test negativ aus.1 1 Angaben f¨ ur den SARS-CoV-2 Rapid Antigen Test von patienten-betroffene/informationen-zu-krankheiten/covid-19/

Roche

laut

https://www.roche.de/

16

2

¨ BEDINGTE WAHRSCHEINLICHKEIT UND UNABHANGIGKEIT

Wir betrachten nun die Ereignisse: K : Testperson ist mit Covid-19 infiziert. T : Der Test ist positiv. Dann gilt: P(T | K) = 0, 965 | {z }

und

Sensitivit¨ at des Tests

P(T c | K c ) = 0, 997 =⇒ | {z }

P(T | K c ) = 0, 003

Spezifit¨ at des Tests

Wir wenden den Satz von Bayes auf die Zerlegung Ω = K ∪ K c und A = T an: Bayes

P(K | T ) =

P(T | K) · P(K) = P(T | K) · P(K) + P(T | K c ) · P(K c ) 1+

1 P(T |K c )·P(K c ) P(T |K)·P(K)

Wird der Test ohne besondere Indikation angewendet, so entspricht P(K) der relativen H¨aufigkeit, mit der Covid-19 in der betrachteten Bev¨olkerungsgruppe auftritt. Wir verwenden Daten vom RKI (Stand 08.11.21), sodass P(K) vermutlich h¨oher ist. • Aktive Covid19-F¨ alle in Deutschland: 306.000 ▶ P(K) ≈

306.000 83.240.000

= 0, 0037



P(K|T ) ≈ 0, 54

• Aktive Covid19-F¨ alle in Schleswig-Holstein: 3.600 ▶ P(K) ≈

3.600 2.910.875

= 0, 0012



P(K|T ) ≈ 0, 28

• Aktive Covid19-F¨ alle in Sachsen laut RKI: 38.400 ▶ P(K) ≈

38.400 4.056.941

= 0, 0095



P(K|T ) ≈ 0, 76

Folgerung: ▶ In jedem Fall erh¨ oht sich die Infektionswahrscheinlichkeit bei einem positiven Schnelltest deutlich. ▶ Die Aussagekraft von derartigen medizinischen Tests selbst bei hoher Spezifit¨at sehr beschr¨ ankt, wenn die Erkrankungswahrscheinlichkeit sehr gering ist. ♢ Beispiel 2.8 (Simpson-Paradoxon). Bei den 6 F¨ achern mit den h¨ ochsten Bewerberzahlen wurden 1973 an der Universit¨at Berkeley ca. 44, 5% der m¨ annlichen, aber nur etwa 30, 3% der weiblichen Bewerber zugelassen. ▶ Ist die geringere Annahmequote bei Frauen ein Zeichen f¨ ur Geschlechterdiskriminierung? Wir setzen nat¨ urlich voraus, dass bei beiden Geschlechtern der Anteil Qualifizierter gleich hoch ist. In 4 der 6 F¨ acher ist die Annahmequote der Frauen h¨oher, in den beiden anderen nur geringf¨ ugig niedriger. Dennoch ist die Gesamtannahmequote bei den Frauen wesentlich niedriger. Grund: Die Frauen haben sich bevorzugt in F¨achern mit hoher Ablehnungsquote beworben (> 51% der M¨ anner haben sich bei den beiden F¨achern mit der h¨ochsten Zulassungsquote beworben, aber nur ≈ 7% der Frauen). Was ist der Zusammenhang zur bedingten Wahrscheinlichkeit? Wir modellieren der Einfachheit halber die Situation f¨ ur Frauen und M¨anner getrennt (aber analog). Hier sei das Modell f¨ ur eine zuf¨ allig unter allen Bewerberinnen ausgew¨ahlte Frau vorgestellt.

17 M¨ anner Fach 1 2 3 4 5 6 insg.

Anzahl der Bewerber 825 560 325 417 191 373 2691

Frauen

Zulassungsquote (in %) 62 63 37 33 28 6 44,5

Anzahl der Bewerberinnen 108 25 593 375 393 341 1835

Zulassungsquote (in % ) 82 68 34 35 24 7 30,3

Setze Ω = {1, . . . , 6} × {1, 0}. F¨ ur (f, b) ∈ Ω gibt f das gew¨ahlte Fach an, b = 1 bedeutet, dass Bewerberin zugelassen, und b = 0, dass sie abgelehnt wurde. Dann ist Fi := {(i, 1), (i, 0)}= ˆ sie hat sich auf Fach i beworben“, 1 ≤ i ≤ 6, ” Z := {(i, 1) | 1 ≤ i ≤ 6}= ˆ sie wurde zugelassen“. ” Das W’maß Pw , das die Situation der Frauen beschreibt, ist vollst¨andig bestimmt durch die Angaben Pw (Fi ) = Anteil der Frauen, die sich auf Fach i beworben haben, Pw (Z|Fi ) = Annahmequote f¨ ur Frauen im Fach i. (Warum?) Sei (Ω, Pm ) das analoge Modell f¨ ur die M¨anner. ▶ Die Annahmew’keit betr¨ agt (Satz von der totalen W’keit) f¨ ur Frauen/M¨anner: Pw (Z) =

6 X

Pw (Z|Fi ) · Pw (Fi )

bzw. Pm (Z) =

i=1

6 X

Pm (Z|Fi ) · Pm (Fi ).

i=1

▶ Pw (Z) < Pm (Z) kann auftreten obwohl Pw (Z|Fi ) ≥ Pm (Z|Fi ), wenn nur die kleinen bedingten W’keiten Pw (Z|Fi ) mit großen Gewichten Pw (Fi ) in die Summe eingehen. ▶ Das Paradoxon“ besteht also i.W. nur in einer unzul¨assigen Gleichsetzung von bedingten und ” normalen/unbedingten“ Wahrscheinlichkeiten! ” ▶ Alle relevanten Einflussfaktoren (hier: die F¨acherwahl) m¨ ussen ber¨ ucksichtigt werden, wenn man den Einfluss eines Merkmals (hier: das Geschlecht) auf eine Zielgr¨oße (hier: die Zulassungsquote) untersuchen m¨ ochte, es sei denn, man kann sicherstellen, dass diese weiteren Einflussfaktoren f¨ ur alle Auspr¨ agungen des eigentlich interessierenden Merkmals gleich sind (im vorliegenden Fall also Pw (Fi ) = Pm (Fi ) gelten w¨ urde). Anwendung in medizinischen Studien: Beim Vergleich der Wirksamkeit eines neuen Medikaments mit der eines anderen Medikaments oder eines Placebos werden die teilnehmenden Patienten zuf¨ allig auf die beiden Gruppen (also diejenigen, die das neue Medikament erhalten, und die Kontrollgruppe derjenigen, die das andere Medikament oder das Placebo erhalten) aufgeteilt ( rando” mized trial“). ♢ Wir kommen nun zu einer sehr zentralen Definition in der Stochastik. Wird A nicht von B beeinflusst, so sollte P(A) = P(A | B) =

P(A∩B) P(B)

gelten.

18

¨ BEDINGTE WAHRSCHEINLICHKEIT UND UNABHANGIGKEIT

2

Definition 2.9. Sei (Ω, P) ein diskreter Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊆ Ω heißen (P-)stochastisch unabh¨ angig, falls P(A ∩ B) = P(A) · P(B). Ereignisse A1 , . . . , An ⊆ Ω in einem diskreten Wahrscheinlichkeitsraum (Ω, P) heißen (P)stochastisch unabh¨ angig, wenn f¨ ur jede Indexmenge I ⊆ {1, . . . , n}, I ̸= ∅, gilt ! \ Y P Ai = P(Ai ). i∈I

i∈I

Beispiel 2.10. Wir betrachten zweimaliges Werfen eines fairen W¨ urfels: Ω = {1, . . . , 6}2 mit Gleichverteilung P. 1. Die Ereignisse A = {1} × {1, . . . , 6}

(beim ersten Wurf f¨allt 1)

B = {1, . . . , 6} × {1}

(beim zweiten Wurf f¨allt 1)

sollten unabh¨ angig sein. In der Tat gilt P(A ∩ B) = P({1} × {1}) =

6 6 1 = · = P(A) · P(B). 36 36 36

2. Aber A = {1} × {1, . . . , 6}

(beim ersten Wurf f¨allt 1),

B = {ω ∈ Ω : ω1 + ω2 = 6}

(Augensumme ist 6)

sollten nicht unabh¨ angig sein: P(A) · P(B) =

1 5 1 · ̸= = P(A ∩ B). 6 36 36 ♢

Bemerkung 2.11. 1. Definition 2.9 stellt sicher, dass jede beliebige Auswahl Ai , i ∈ I ⊆ {1, ..., n} aus unabh¨angigen Ereignissen A1 , . . . , An auch wieder unabh¨angig ist. 2. Mehr als zwei Ereignisse A1 , . . . , An sind im allgemeinen nicht stochastisch unabh¨angig, wenn nur n n \  Y P Ai = P(Ai ) i=1

gilt.

i=1

Gegenbeispiel: A1 = ∅ | {z } P(A1 )=0

und

A =A =A | 2 {z3 } P(A)∈(0,1)

So gilt zwar n n \  Y P Ai = P(∅) = 0 = P(Ai ), i=1

i=1

19 aber A1 , A2 , A3 sind nicht stochastisch unabh¨angig, da P(A2 ∩ A3 ) = P(A) ̸= P(A2 ) · P(A3 ) = (P(A))2 . 3. Mehr als zwei Ereignisse sind in der Regel nicht stochastisch unabh¨angig, wenn jeweils zwei der Ereignisse stochastisch unabh¨angig sind. Gegenbeispiel: Zweimaliges Werfen eines fairen W¨ urfels Modell:

Ω = {1, . . . , 6}2 , P Gleichverteilung

Betrachte die Ereignisse A1 ={1, 3, 5} × {1, . . . , 6}

(erste Augenzahl ist ungerade),

A2 ={1, . . . , 6} × {1, 3, 5}

(zweite Augenzahl ist ungerade),

A3 ={(ω1 , ω2 ) ∈ Ω | ω1 + ω2 ungerade}

(Augensumme ungerade)

=({1, 3, 5} × {2, 4, 6}) ∪ ({2, 4, 6} × {1, 3, 5}). Dann sind jeweils zwei dieser Ereignisse unabh¨angig, z.B. P(A2 ∩ A3 ) =

9 1 1 |{2, 4, 6} × {1, 3, 5}| = = · = P(A2 ) · P(A3 ) |Ω| 36 2 2

Aber: A1 , A2 , A3 sind nicht stochastisch unabh¨angig, denn A1 ∩ A2 ∩ A3 = ∅



P(A1 ∩ A2 ∩ A3 ) = 0 ̸=

1 = P(A1 ) · P(A2 ) · P(A3 ). 8

20

2

¨ BEDINGTE WAHRSCHEINLICHKEIT UND UNABHANGIGKEIT

21

3

Zufallsvariablen und ihre Verteilungen

In diesem Kapitel werden wir den wichtigen Begriff der Zufallsvariablen kennen lernen. Diese sind f¨ ur eine intuitive und technisch saubere Modellierung vieler Zufallsexperimente/ zuf¨alliger Gr¨oßen von fundamentaler Bedeutung.

Definition 3.1. Ist (Ω, P) ein diskreter Wahrscheinlichkeitsraum und S ̸= ∅ eine beliebige Menge, so wird eine Abbildung X : Ω → S auch S-wertige Zufallsvariable genannt.

Satz und Definition 3.2. Ist X : Ω → S eine Zufallsvariable auf einem diskreten W’raum (Ω, P), dann wird durch PX (B) := P(X −1 (B)),

∀ B ⊆ S,

ein Wahrscheinlichkeitsmaß PX auf S definiert, welches Verteilung von X genannt wird. (S, PX ) ist ein diskreter Wahrscheinlichkeitsraum. Notation f¨ ur Urbilder: {X ∈ B}

:= {ω ∈ Ω | X(ω) ∈ B} = X −1 (B)

{X = x}

:= {ω ∈ Ω | X(ω) = x} = X −1 ({x})

{X > x}

:= {ω ∈ Ω | X(ω) > x} = X −1 ((x, ∞))

(im Fall S = R)

etc. Zudem schreiben wir bspw. P(X ∈ B) := P({X ∈ B}). Beweis. Wir weisen die Eigenschaften eines diskreten Wahrscheinlichkeitsmaßes nach. Aus der Normierung und der σ-Additivit¨ at von P folgt PX (S) = P(X −1 (S)) = P(X ∈ S) = P(Ω) = 1 sowie f¨ ur beliebige disjunkte Mengen An ⊆ S, n ∈ N: [    [ PX An = P X ∈ An n∈N

n∈N

=P

[

 {X ∈ An }

n∈N

=

X n∈N

P(X ∈ An ) =

X

PX (An ).

n∈N

Ist schließlich Ω0 ⊆ Ω eine diskrete Menge mit P(Ω0 ) = 1, dann definieren wir S0 := {s ∈ S|∃ω ∈ Ω0 : X(ω) = s}. S0 ist h¨ ochstens abz¨ ahlbar und es gilt PX (S0 ) = P(X ∈ S0 ) = P(X −1 (S0 )) ≥ P(Ω0 ) = 1. Insgesamt haben wir damit gezeigt, dass (S, PX ) ein diskreter Wahrscheinlichkeitsraum ist. Beispiel 3.3 (Indikatorfunktionen). F¨ ur einen diskreten Wahrscheinlichkeitsraum (Ω, P) und ein Ereignis A ⊆ Ω ist die Indikatorfunktion ( 1, ω ∈ A, 1A : Ω → {0, 1}, 1A (ω) = 0, ω∈ / A,

22

3

ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN

eine {0, 1}-wertige Zufallsvariable. Die Verteilung von Es gilt f¨ ur alle ω ∈ Ω und A, B ⊆ Ω, dass

1Ω (ω) = 1, 1Ac (ω) = 1 − 1A (ω), sowie falls A ⊆ B, dass

1A ist Ber(p) f¨ur p = P(A).

1∅ (ω) = 0, 1A∩B (ω) = 1A (ω)1B (ω)

1A (ω) ≤ 1B (ω). ♢

Beispiel 3.4 (Augensumme zweier fairer W¨ urfel). Der zugrundeliegende W’raum ist Ω = {1, . . . , 6}2 versehen mit der Gleichverteilung P. Die Augensumme wird beschrieben durch die Zufallsvariable X : Ω → {2, . . . , 12} =: S,

X(ω1 , ω2 ) := ω1 + ω2 .

Die Verteilung PX von X hat die Z¨ ahldichte fX f¨ ur alle k ∈ S gegeben durch fX (k) =PX ({k}) = P(X = k)  =P {(ω1 , ω2 ) ∈ Ω | X(ω1 , ω2 ) = ω1 + ω2 = k}  =P {(ω1 , k − ω1 ) | 1 ≤ ω1 ≤ 6, 1 ≤ k − ω1 ≤ 6}  =P {(ω1 , k − ω1 ) | max(1, k − 6) ≤ ω1 ≤ min(6, k − 1)} ( k−1 falls 2 ≤ k ≤ 7 36 = 13−k falls 7 < k ≤ 12 36 =

3.1

6 − |k − 7| . 36



Unabh¨ angige Zufallsvariablen

Im vorangegangen Beispiel gehen wir ganz intuitiv davon aus, dass die beiden W¨ urfelw¨ urfe unabh¨ angig von einander sind. Diese Intuition wollen wir nun formalisieren. Zufallsvariablen sollen als unabh¨ angig gelten, wenn beliebige Ereignisse, die damit ausgedr¨ uckt werden k¨ onnen, stochastisch unabh¨ angig sind.

Definition 3.5. Sei (Ω, P) ein diskreter Wahrscheinlichkeitsraum und Si , i ∈ {1, . . . , n}, nichtleere Mengen. Zufallsvariablen Xi : Ω → Si ,

i ∈ {1, . . . , n},

heißen (P-)stochastisch unabh¨ angig, wenn f¨ ur beliebige Bi ⊆ Si , i ∈ {1, . . . , n}, die Ereignisse {X1 ∈ B1 }, . . . , {Xn ∈ Bn } stochastisch unabh¨ angig sind.

Die Zufallsvariablen Xi : Ω → Si besitzen die Verteilungen PXi f¨ ur alle i = 1, . . . , n. Auch der Vektor (X1 , . . . , Xn ) : Ω → S1 × · · · × Sn ist eine Zufallsvariable mit einer Verteilung P(X1 ,...,Xn ) auf S1 × · · · × Sn .

3.1

23

Unabh¨angige Zufallsvariablen

Satz 3.6. In der Situation von Definition 3.5 sind ¨ aquivalent: (i) X1 , . . . , Xn sind stochastisch unabh¨ angig. (ii) ∀Bi ⊆ Si (1 ≤ i ≤ n) : P(Xi ∈ Bi ∀ 1 ≤ i ≤ n) =

Qn

i=1

P(Xi ∈ Bi )

(iii) Bezeichnen fXi die Z¨ ahldichten von PXi auf Si , so hat die Z¨ ahldichte f(X1 ,...,Xn ) von P(X1 ,...,Xn ) die Form f(X1 ,...,Xn ) (t1 , . . . , tn ) =

n Y

fXi (ti )

∀ti ∈ Si , 1 ≤ i ≤ n.

i=1

▶ Die gemeinsame Verteilung P(X1 ,...,Xn ) unabh¨angiger Zufallsvariablen X1 , . . . , Xn besitzt also Produktgestalt. Beweis. Wir verwenden einen Ringschluss. (i) ⇒ (ii) folgt direkt aus den Definition von stochastischer Unabh¨ angigkeit von Ereignissen und Zufallsvariablen. (ii) ⇒ (iii) F¨ ur ti ∈ Si , i = 1, . . . , n w¨ahlen Bi = {ti } und erhalten aus (ii): f(X1 ,...,Xn ) (t1 , . . . , tn ) = P(X1 ,...,Xn ) ({t1 , . . . , tn }) = P(Xi = ti ∀1 ≤ i ≤ n) n Y P(Xi = ti ) = =

i=1 n Y

PXi ({ti }) =

i=1

n Y

fXi (ti ).

i=1

(iii) ⇒ (i) F¨ ur I ⊆ {1, . . . , n} und Bi ⊆ Si , i ∈ I ist Y P(Xi ∈ Bi ∀i ∈ I) = P(Xi ∈ Bi ) i∈I

zu zeigen. F¨ ur i ∈ {1, . . . , n} \ I setzen wir Bi = Si und erhalten aus (iii) P(Xi ∈ Bi ∀i ∈ I) = P(Xi ∈ Bi ∀1 ≤ i ≤ n) X = f(X1 ,...,Xn ) (t1 , . . . , tn ) (t1 ,...,tn )∈B1 ×···×Bn

= = =

X t1 ∈B1 n  Y i=1 n Y i=1

n X Y

···

fXi (ti )

tn ∈Bn i=1

X

fXi (ti )



ti ∈Bi

P(Xi ∈ Bi ) =

Y

P(Xi ∈ Bi ).

i∈I

Beispiel 3.7 (n unabh¨ angige Bernoulliexperimente). Ein Bernoulli-Zufallsexperiment wird n-mal unabh¨angig durchgef¨ uhrt, wobei die Erfolgswahrscheinlichkeit jeweils p ∈ [0, 1] sei. Wir betrachten den Grundraum Ω = {0, 1}n , wobei f¨ ur ω = (ω1 , . . . , ωn ) ∈ Ω genau dann ωi = 1 gelte, falls das i-te Experiment erfolgreich war und sonst ωi = 0.

24

3

ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN

Ω sei mit einem W’maß P versehen. Nun betrachten wir die Zufallsvariablen Xi : Ω → {0, 1} mit Xi (ω) = ωi also ( 0, falls i-tes Experiment Misserfolg, Xi = 1, falls i-tes Experiment Erfolg. Da Xi Bernoulli-verteilt mit Erfolgsw’keit p sein soll, muss gelten fXi (1) = PXi ({1}) = p, ⇐⇒

fXi (0) = PXi ({0}) = 1 − p

fXi (ωi ) = pωi (1 − p)1−ωi ,

ωi ∈ {0, 1}.

Dabei ist 00 = 1 definiert. Wegen Xi (ω) = ωi , i = 1, . . . , n gilt f¨ ur den Zufallsvektor (X1 , . . . , Xn )(ω) = ω

f¨ ur alle

ω ∈ Ω.

▶ P = P(X1 ,...,Xn ) . Wegen der geforderten Unabh¨ angigkeit von Xi , ist die Z¨ahldichte von (X1 , . . . , Xn ) als Produktdichte gegeben: f (ω1 , . . . , ωn ) = f(X1 ,...,Xn ) (ω1 , . . . , ωn ) = =

n Y i=1 n Y

fXi (ωi ) pωi (1 − p)1−ωi

i=1 Pn

=p

i=1

ωi

Pn

· (1 − p)

i=1 (1−ωi )

.

Pn Wir betrachten nun die Zufallsvariable Y := i=1 Xi , also die Anzahl der Erfolge in n Experimenten. PY hat die Z¨ ahldichte  fY (k) =P {Y = k} n n o n X X Xi (ω) = ωi = k =P (ω1 , . . . , ωn ) ∈ Ω Y (ω1 , . . . , ωn ) = i=1

=

X

i=1

f (ω)

(ω 1 ,...,ωn )∈Ω P n i=1 ωi =k

  n k = p (1 − p)n−k , k denn jeder Summand ist gleich pk (1 − p)n−k und es gibt auszuw¨ ahlen, an denen ωi den Wert 1 annimmt.

n k



M¨oglichkeiten, die k der n Stellen

▶ Die Z¨ ahldichte fY der Verteilung von Y ist gegeben durch   n k fY (k) = p (1 − p)n−k f¨ ur alle k ∈ {0, . . . , n}. k ▶ Y ist binomialverteilt: PY = Bin(n, p) Fazit:PSind X1 , . . . , Xn stochastisch unabh¨angig mit PXi = Ber(p), dann gilt f¨ ur deren Summe n Y = i=1 Xi PY = Bin(n, p).

3.1

25

Unabh¨angige Zufallsvariablen

In der ersten Woche hatten wir n = 193 unabh¨angige M¨ unzw¨ urfe durchgef¨ uhrt, wobei wir faire M¨ unzen annahmen, d.h. p = 1/2. Dabei war 100 mal Zahl gefallen. Wie wahrscheinlich ist es, dass in einem Y ∼ Bin(193, 1/2)-Experiment ein Ergebnis von mindestens 100 eintritt? P(Y ≥ 100) =

  193  193  X 1 193−k 1 X 193 193 1 k 1− = 193 ≈ 0, 33. 2 2 2 k k



k=100

k=100

Beispiel 3.8 (Capture-Recapture-Verfahren). Ziel: Die Anzahl N von Fischen in einem See soll gesch¨atzt werden. Verfahren: 1. Fange M Fische, markiere sie und lasse sie wieder frei. 2. Fange wieder n Fische, darunter seien m markierte. Annahme: Die Fangwahrscheinlichkeit im 2. Schritt sei f¨ ur markierte und unmarkierte Fische gleich. Modell: ucklegen aus N Fischen und ohne Ber¨ ucksichtigung der Reihenfolge. n-maliges Ziehen ohne Zur¨ Der W’raum ist damit gegeben durch Ω = {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n | ω1 < ω2 < · · · < ωn } versehen mit der Gleichverteilung P. Markierte Fische entsprechen den Nummern 1, . . . , M . Die Anzahl der gefangen markierten Fische entspricht der Zufallsvariable X(ω) =

n X

1{1,...,M } (ωi ).

i=1

▶ Da ohne Zur¨ ucklegen gezogen wird, sind die Zufallsvariablen

1{1,...,M } (ωi ) nicht unabh¨angig.

Die m¨ oglichen Werte von X(ω) sind also gegeben durch die Bedingungen 0 ≤ X(ω) ≤ min(n, M ),

n − X(ω) ≤ N − M,

womit folgt, dass der Wertebereich von X S := {max(0, n + M − N ), . . . , min(n, M )} ist. Zu berechnen ist nun: PX ({m}) = P(X = m) = wobei |Ω| =

N n



|{ω ∈ Ω | X(ω) = m}| , |Ω|

die Anzahl der M¨ oglichkeiten ist, n Fische aus N Fischen auszuw¨ahlen.

 Es gibt genau M oglichkeiten, m Fische aus M markierten Fischen zu ziehen. m M¨  −M Es gibt genau Nn−m M¨ oglichkeiten, n − m Fische aus allen N − M nicht markierten Fischen zu ziehen.  N −M  ▶ Es gibt M oglichkeiten, n Fische aus N zu ziehen, so dass genau m davon markiert m · n−m M¨ sind.  N −M  M m · n−m X 1S (m) ∀ m ∈ N0 (∗) ; fX (m) = P ({m}) = P(X = m) =  N n

26

3

ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN

0.30

Definition 3.9. Das Wahrscheinlichkeitsmaß P = Hyp(N, M, n) auf N0 gegeben durch die Z¨ahldichte (∗) heißt hypergeometrische Verteilung.

0.25

Hyp(30,20,20)

0.15

0.20

Hyp(50,20,20)

0.00

0.05

0.10

▶ Statistisches Problem: Sch¨ atze N basierend auf M, m, n.

0

Abb.: Z¨ ahldichte der Hypergeometrischen Verteilung mit M = n = 20 und N ∈ {30, 50}.

1

2

3

4

5

6

7

8

9

10

12

14

16

18

20



Bemerkung 3.10 (Hypergeometrische Verteilung). Die hypergeometrische Verteilung Hyp(N, M, n) beschreibt die Anzahl der markierten Gegenst¨ ande beim n-maligem Ziehen ohne Zuru ¨ cklegen aus N Gegenst¨anden, von denen M markiert sind. Zieht man mit Zuru ¨ cklegen, so ist die Wahrscheinlichkeit, einen markierten Gegenstand zu ziehen, bei jeder Ziehung M/N . Die Anzahl der gezogenen markierten Gegenst¨ande hat daher gerade die Binomialverteilung Bin(n, M/N ). Falls n ≪ N , dann ist Ziehen mit oder ohne Zur¨ ucklegen fast identisch und daher Hyp(N,M,n) ({m}) ≈ Bin(n, M ) ({m}) ∀ 0 ≤ m ≤ n 0.15

0.25

N

Bin(60,0.5) Hyp(100,50,60)

0.00

0.00

0.05

0.05

0.10

0.15

0.10

0.20

Bin(10,0.5) Hyp(100,50,10)

0

1

2

3

4

5

6

7

8

9

10

15

17

19

21

23

25

27

29

31

33

35

37

Abb.: Vergleich der Binomial- under hypergeometrischen Verteilung f¨ ur n = 0.6 (rechts) N .

39

41

n N

43

45

= 0.1 (links) und

F¨ ur eine große Anzahl an Experimenten n und eine kleine Erfolgsw’keit p kann Bin(n, p) durch eine strukturell einfachere Verteilung approximiert werden: Satz und Definition 3.11 (Poisson’scher Grenzwertsatz). Ist pn ∈ (0, 1), n ∈ N, so dass lim npn = λ > 0, dann gilt

n→∞

  n k λk lim Bin(n,pn ) ({k}) = lim pn (1 − pn )n−k = e−λ · =: fλ (k) n→∞ n→∞ k k!

∀k ∈ N0 .

Die dadurch definierte Funktion fλ : N0 → [0, 1] ist eine Z¨ ahldichte. Das dazu geh¨ orige Wahrscheinlichkeitsmaß Po(λ) heißt Poissonverteilung mit Parameter λ.

Dieses Resultat ist auch unter dem Namen Gesetz der kleinen Zahlen“ bekannt. ”

3.1

27

Unabh¨angige Zufallsvariablen

Beweis. F¨ ur festes k gilt   n nk n(n − 1) · · · (n − k − 1) = k k! nk    2 k − 1 nk 1 1− ··· 1 − . = 1 1− k! | n n{z n } →1 f¨ ur n→∞

Daraus folgt f¨ ur n → ∞ Bin(n,pn ) ({k}) λk

=

n k



pkn (1 − pn )n−k k

e−λ λ   k!   k! n npn k npn n λ · (1 − pn )−k · 1 − = k · e → 1. n k | λ{z } | {z } | n } {z | {z } →1

e−λ k!

→1

→e−λ

0.25

→1

0.00

0.05

0.10

0.15

0.20

Bin(10;0,5) Bin(30;0,1) Bin(100;0,02) Poiss(2)

0

1

2

3

4

5

6

7

8

9

10

Abb.: Illustration des Poisson’schen Grenzwertsatzes: Z¨ahldichten der Binomialverteilung mit Parametern n · p → 2 und Poissonverteilung mit Intensit¨at 2. Anwendung: Die Anzahl der Zerf¨ alle pro Minute in einer radioaktiven Probe ist (n¨aherungsweise) Poisson-verteilt. Dies l¨asst sich mit dem Poisson’schen Grenzwertsatz erkl¨ aren, wenn sich die Zerf¨alle einzelner Atome nicht gegenseitig beeinflussen. ¨ Beispiel 3.12 (Uberbuchung). F¨ ur einen Flug stehen 200 Pl¨ atze zur Verf¨ ugung. Da erfahrungsgem¨aß 3% aller Ticketk¨aufer nicht zum Flug erscheinen, verkauft die Fluggesellschaft n = 203 Tickets. Frage: Wie hoch ist die W’keit, dass der Flug u ¨berbucht ist, wenn man vereinfachend annimmt, dass das Nichterscheinen bei allen Ticketk¨aufern unabh¨angig voneinander erfolgt? Sei X die Anzahl der Ticketk¨ aufer, die nicht zum Flug erscheint. Dann ist X gerade Bin(n, p)verteilt mit p = 0, 03. ¨ Die W’keit einer Uberbuchung ist daher gerade P(X ≤ 2) = Bin(n,p) ({0, 1, 2}) ≈ 0, 0555. Verwendet man die Poisson-Approximation aus Satz 3.11, so erh¨alt man P(X ≤ 2) ≈ Ponp ({0, 1, 2}) ≈ 0, 0581. Der relative Approximationsfehler betr¨agt knapp 5%.



Oft treten Summen unabh¨ angiger Zufallsvariablen auf, z.B. als Gesamtmessfehler, der sich aus unabh¨ angigen Einzelfehlerquellen zusammensetzt.

28

3

ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN

Satz und Definition 3.13. Sind X, Y R-wertige Zufallsvariablen auf einem diskreten Wahrscheinlichkeitsraum mit Z¨ ahldichten fX von PX und fY von PY , dann heißt X (fX ∗ fY )(z) = fX (x) · fY (z − x), ∀z ∈ R, x∈R:fX (x)>0

die Faltung von fX und fY . Hierbei ist fX ∗ fY ist wieder eine Z¨ ahldichte mit dem Tr¨ ager ΩT := {z ∈ R|∃x, y ∈ R : z = x + y, fX (x) > 0, fY (y) > 0}und die zugeh¨ orige diskrete Verteilung PX ∗ PY nennen wir Faltung von PX und PY . Beweis. Da die Tr¨ ager von PX und PY abz¨ahlbar sind, muss auch ΩT abz¨ahlbar sein. Weiterhin ist (fX ∗ fY )(z) ≥ 0 f¨ ur alle z ∈ R und (fX ∗ fY )(z) > 0 kann nur gelten, wenn es mindestens eine Zerlegung z = x + y mit fX (x) > 0, fY (y) > 0 gibt. Um nachzuweisen, dass fX ∗ fY eine Z¨ ahldichte ist, bleibt zu zeigen X XX (fX ∗ fY )(z) = fX (x) · fY (z − x) z∈R

z∈R x∈R y=z−x

=

XX

fX (x) · fY (y)

x∈R y∈R

X

=

fX (x)

 X

x∈R

 fY (y) .

y∈R

Man beachte, dass in allen Summen h¨ochstens abz¨ahlbar viele Summanden von null verschieden sind.

Satz 3.14. Sind X, Y unabh¨ angige R-wertige Zufallsvariablen auf einem diskreten Wahrscheinlichkeitsraum, so gilt PX ∗ PY = PX+Y . Beweis. Bezeichnen wieder fX und fY die Z¨ahldichten von X und Y . F¨ ur jedes z ∈ R gilt aufgrund der Abz¨ ahlbarkeit des Tr¨ agers von PX sowie der σ-Additivit¨at von P: PX+Y ({z}) = P(X + Y = z)   = P {X + Y = z} ∩

[

 {X = x}

x∈R:fX (x)>0

 =P

 {X = x} ∩ {X + Y = z}

[ x∈R:fX (x)>0

X

=

 P X = x, Y = z − x .

x∈R:fX (x)>0

Nun verwenden wir die Unabh¨ angigkeit von X und Y , um zu folgern: X PX+Y ({z}) = P(X = x)P(Y = z − x) x∈R

=

X

fX (x) · fY (z − x) = PX ∗ PY ({z}).

x∈R

Beispiel 3.15. Wir berechnen die Faltung zweier Poisson-Verteilungen.

3.1

29

Unabh¨angige Zufallsvariablen

Seien λ1 , λ2 > 0. Dann hat Po(λ1 ) ∗ Po(λ2 ) die Z¨ahldichte P∞ (fλ1 ∗ fλ2 )(n) = k=0 fλ1 (k) · fλ2 (n − k) k Pn λn−k −λ1 λ1 2 = · k! · e−λ2 · (n−k)! k=0 e P n n−k 1 n! k = e−(λ1 +λ2 ) · n! k=0 k!(n−k)! · λ1 · λ2 =

e−(λ1 +λ2 ) ·

=

fλ1 +λ2 (n)

1 n!

· (λ1 + λ2 )n ∀n ∈ N0 .

Da diskrete Wahrscheinlichkeitsmaße durch ihre Z¨ahldichten eindeutig bestimmt sind, gilt also Po(λ1 ) ∗ Po(λ2 ) = Po(λ1 + λ2 ).



Beispiel 3.16 (Quicksort). Die Zahlen x1 , . . . , xn , die alle als verschieden angenommen werden, sollen sortiert werden. Der Algorithmus Quicksort erledigt die Aufgabe wie folgt: 1. W¨ ahle zuf¨ allig gleichverteilt ein xj aus. 2. Vergleiche f¨ ur jedes i ̸= j die Zahl xi mit xj . Falls xi < xj gilt, so schreibe xi in den Vektor Xl . Falls xi > xj gilt, so schreibe xi in den Vektor Xr . 3. Verfahre mit Xl und Xr getrennt ebenso, usw. bis nur noch Vektoren der L¨ange 1 u ¨brig sind. So etwa bei

3 7 2 6 13 1

1. zuf¨allige Wahl 7: 13 3 | 2{z6 1} | 7 | |{z} Xl



5 Vergleiche



3 Vergleiche



1 Vergleich

Xr

2. zuf¨allige Wahl 3 (bei Xl ): 2 1 | 3 | 6 | 7 | 13 |{z} Xl′

3. zuf¨allige Wahl 1 (bei Xl′ ): 1 | 2 | 3 | 6 | 7 | 13

9 Vergleiche Wir wollen nun eine Laufzeitanalyse des Algorithmus durchf¨ uhren. Zun¨ achst der worst case: Die gew¨ ahlte Zahl ist jeweils kleinste oder gr¨oßte. ▶ Die Anzahl der Vergleiche ist dann: (n − 1) + (n − 2) + · · · + 1 =

n · (n − 1) . 2

▶ Die gr¨ oßtm¨ ogliche Anzahl an n¨ otigen Vergleichen ist damit n(n − 1)/2. Nun zum best case: Es sei speziell n = 2k − 1 und die ausgew¨ahlte Zahl jeweils die mittlere. 1.)

2k − 2 Vergleiche

⇝ 2 Bl¨ocke mit L¨ange 2k−1 − 1

30

3 2.)

ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN

2 · (2k−1 − 2) Vergleiche ⇝ 4 Bl¨ocke mit L¨ange 2k−2 − 1

3.)

usw.

▶ Gesamtanzahl der Vergleiche: (2k − 2) + 2 · (2k−1 − 2) + ... + 2k−2 · (22 − 2) = (k − 1)2k − 2

k−2 X

2j

j=0

= (k − 1)2 − 2(2k−1 − 1) k

= (k − 2) · 2k + 2 ≈ n · log2 n. Man kann zeigen: Die erwartete Anzahl der ben¨otigen Vergleiche ist etwa 2 log 2 · Anzahl Vergleiche im best case. | {z } ≈1,39

Wir bestimmen nun die Z¨ ahldichte der zuf¨ alligen Anzahl von Vergleichen, die zum Sortieren ben¨ otigt werden. Da die Auswahl im 1. Schritt des Algorithmus jeweils zuf¨allig gleichverteilt erfolgt, h¨angt die Verteilung der Anzahl von Vergleichen nur von der Anzahl der Daten ab, nicht von ihren genauen Werten oder ihrer Reihenfolge. Wir definieren Z(X) := Zahl der Vergleiche, um Vektor X zu sortieren, sodass nach der Konstruktion des Algorithmus Z(X) = n − 1 + Z(Xl ) + Z(Xr ) gilt und die Z¨ ahldichte fn (m) := P(Z(x1 , . . . , xn ) = m) = P(Z(Xl ) + Z(Xr ) = m − (n − 1)),

m ∈ N,

nur von n abh¨ angt. Bezeichne nun K die zuf¨ allige Stelle, die die im 1. Schritt des Algorithmus ausgew¨ahlte Zahl nach Ordnung hat. Das Ereignis {K = k} bedeutet also gerade, dass die k-t kleinste Zahl ausgew¨ahlt worden ist. Bei gegebenem Wert k sind Z(Xl ), Z(Xr ) stochastisch unabh¨angig, da die zu vergleichenden Zahlen in den Teilvektoren Xl und Xr jeweils unabh¨angig gew¨ahlt werden. Da dann Z(Xl ) und Z(Xr ) die L¨ ange k − 1 bzw. n − k haben, gilt P(Z(Xl ) + Z(Xr ) = m − n + 1 | K = k) = (fk−1 ∗ fn−k )(m − n + 1). Es folgt mit dem Satz von der totalen Wahrscheinlichkeit fn (m)

= =

P(Z(Xl ) + Z(Xr ) = m − n + 1) n X P(K = k)P(Z(Xl ) + Z(Xr ) = m − n + 1 | K = k) k=1

=

n n m−n+1 X 1 1X X · (fk−1 ∗ fn−k )(m − n + 1) = fk−1 (j) · fn−k (m − n + 1 − j). n n j=0

k=1

k=1

▶ F¨ ur n ≥ 3 kann fn rekursiv berechnet werden, da f0 (0) = 1,

f0 (k) = 0 ∀ k ̸= 0, f2 (1) = 1,

f1 (0) = 1,

f1 (k) = 0 ∀ k ̸= 0,

f2 (k) = 0 ∀ k ̸= 1.

Es gilt z.B. f3 (2) = 1/3, f3 (3) = 2/3, f3 (k) = 0 ∀k ∈ N0 \ {2, 3}.

31

Exkurs: Markovketten

n=30

18

21

24

27

30

33

36

39

42

45

0.000

0.000

0.005

0.010

0.08 0.04 0.00 15

n=50

0.010

0.020

0.12

n=10

0.015

3.2

70 82 94 107 122 137 152 167 182 197

180 203 226 249 272 295 318 341 364 387

Abb.: Z¨ ahldichten der ben¨ otigten Vergleiche f¨ ur Quicksort f¨ ur n ∈ {10, 30, 50}. ▶ Die Verteilung der Vergleichsanzahl konzentriert sich in einem Bereich, der deutlich kleiner als die worst case Anzahl ist. ♢

3.2

Exkurs: Markovketten

Im vorangegangenen Beispiel sind die Anzahlen der zum Sortieren der Teilvektoren Xl und Xr ben¨ otigten Vergleiche nicht vollst¨ andig stochastisch unabh¨angig voneinander. Die Anzahl der noch ben¨ otigten Vergleiche h¨angt jedoch von den bis dahin erfolgten Sortierschritten nur u ange der Vektoren in der aktuellen Zerlegung des Datensatzes ab, nicht von dem ¨ber die L¨ Weg, wie diese Zerlegung erreicht worden ist. Folgen von Zufallsvariablen, die eine entsprechende Abh¨angigkeitsstruktur aufweisen, treten in vielen Anwendungen auf. Im Folgenden sei S immer eine h¨ ochstens abz¨ahlbare Menge.

Definition 3.17. Eine Folge (Xn )n∈N0 von S-wertigen Zufallsvariablen auf einem diskreten Wahrscheinlichkeitsraum (Ω, P) heißt Markovkette, falls sie die folgende sog. Markoveigenschaft erf¨ ullt:   P Xn+1 = sn+1 | Xn = sn , Xn−1 = sn−1 , . . . , X0 = s0 = P Xn+1 = sn+1 | Xn = sn ,  ∀n ∈ N, s0 , . . . , sn+1 ∈ S mit P Xn = sn , Xn−1 = sn−1 , . . . , X0 = s0 > 0. ¨ Die Markovkette heißt homogen, falls die sogenannten Ein-Schritt-Ubergangswahrscheinlichkeiten pts := P(Xn+1 = t | Xn = s) f¨ ur alle n ∈ N0 mit P(Xn = s) > 0 gleich sind.

▶ Bei Markovketten h¨ angt das zuk¨ unftige stochastische Verhalten nur vom gegenw¨artigen Zustand ab, nicht von der echten Vergangenheit. Das stochastische Verhalten einer homogenen Markov-Kette ist eindeutig bestimmt durch die Startverteilung PX0 (z.B. durch die Angabe der zugeh¨origen Z¨ahldichte f0 (s) = P({X0 = s}), ¨ s ∈ S) und die Ubergangswahrscheinlichkeiten pts mit t, s ∈ S. Dann gilt z.B. (vgl. Multiplikationsformel, Satz 2.4) P(X0 = s0 , X1 = s1 , X2 = s2 ) =

P(X2 = s2 | X1 = s1 , X0 = s0 ) · P(X1 = s1 , X0 = s0 )

= ps2 s1 · P(X1 = s1 | X0 = s0 ) · P(X0 = s0 )

32

3 =

ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN

ps2 s1 · ps1 s0 · f0 (s0 ).

▶ Allgemeiner gilt f¨ ur beliebige Ereignisse Ai , 0 ≤ i ≤ n, X X psn sn−1 · psn−1 sn−2 · . . . · ·ps1 s0 · f0 (s0 ). ··· P(Xi ∈ Ai ∀0 ≤ i ≤ n) = sn ∈An

s0 ∈A0

Beispiel 3.18 (Random Surfer). Internet als Graph: Menge der Webseiten V entspricht Knoten, Link von Webseiten v ∈ V auf Webseite w ∈ V wird durch (gerichtete) Kante e = (v, w) zwischen den Knoten beschrieben. Der Random Surfer klickt sich durch das Internet indem er zuf¨ allig und gleichverteilt einem der Links, die auf der aktuellen Seite vorhanden sind, folgt. ▶ Browser history: Markovkette! Folge der besuchten Webseiten V = (Vn , n ≥ 0) ist Irrfahrt auf einem Graphen. F¨ ur v ∈ V definiere

Ev := {e ∈ E|e = (v, w) f¨ ur ein w ∈ V}.

¨ F¨ ur alle n ∈ N und (v, w) ∈ V 2 ist die Ubergangswahrscheinlichkeit um von der Webseite v auf die Seite w zu gelangen gegeben durch ( 1  , falls (v, w) ∈ Ev , P Vn = w Vn−1 = v = #Ev 0, sonst. Wir notieren die Anzahl der Besuche des Random Surfers auf den jeweiligen Webseiten:

1

3

7

1

6

2

1

▶ Manche Webseiten werden m¨ oglicherweise nie erreicht (im Bild: Irrfahrt mit n = 20 Schritten). Modifikation: Der Random Surfer stoppt mit Wahrscheinlichkeit α ∈ (0, 1) seine Irrfahrt und f¨ angt dann auf einer komplett zuf¨ alligen neuen Webseite wieder neu an. Definiere Ev := {e ∈ E|e = (v, w) f¨ ur eine w ∈ V},

v ∈ V,

N := #V. ¨ ▶ Die Ubergangwahrscheinlichkeiten der Irrfahrt ¨andern sich zu ( 1−α α  +N , falls (v, w) ∈ Ev , v P Vn = w Vn−1 = v = #E α falls (v, w) ∈ / Ev N,

3.2

33

Exkurs: Markovketten

▶ Mit positiver Wahrscheinlichkeit erreicht der Random Surfer von jeder Webseite jede andere Webseite (d.h. die Markovkette ist irreduzibel). Wir notieren die Anzahl der Besuche des Random Surfers auf den jeweiligen Webseiten in n = 100 Schritten: 4

18

23

7

14

22

5

7

Wir notieren die relative H¨ aufigkeit der Besuche des Random Surfers auf den jeweiligen Webseiten in n = 5000 Schritten: 0,04

0,15

0,28

0,06

0,10

0,23

0,08

0,07

▶ Die Besuchsh¨ aufigkeiten konvergieren f¨ ur n → ∞ (Ergodentheorie). ▶ Googles Page-Rank-Algorithmus: Sortiere die Webseiten nach diesen Besuchsh¨aufigkeiten. ♢

34

3

ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN

35

Wahrscheinlichkeitsmaße auf R

4 4.1

Grundbegriffe reloaded

Kontinuierliche Ergebnisse eines Zufallsexperiments (z.B. L¨angen, Gewichte, Zeiten) lassen sich nicht auf nat¨ urliche Weise durch diskrete Wahrscheinlichkeitsr¨aume beschreiben. Im Allgemeinen kann man dann nicht mehr jeder Untermenge des Grundraums eine Wahrscheinlichkeit zuweisen, vgl. Gleichverteilung. ▶ Wahrscheinlichkeiten kann man nur noch gutartigen“ Mengen zuordnen, u.a.: ” • Intervalle sind gutartig. • Komplemente gutartiger Mengen sind gutartig. • Abz¨ ahlbare Vereinigungen gutartiger Mengen sind gutartig. Es bezeichne im folgenden A ⊆ P(Ω) das System aller gutartigen“ Mengen. ” Wie m¨ ussen Systeme “gutartiger” Mengen konstruiert werden?

Definition 4.1. Sei Ω ̸= ∅ ein beliebiger Grundraum. Eine Menge A ⊆ P(Ω) von Untermengen von Ω heißt σ-Algebra auf Ω, falls folgende Bedingungen erf¨ ullt sind: (a) Ω ∈ A , (b) A ∈ A ⇒ Ac ∈ A , (c) An ∈ A ∀n ∈ N ⇒

S

An ∈ A .

n∈N

(Ω, A ) heißt dann messbarer Raum. Die Mengen A ∈ A heißen Ereignisse.

▶ σ-Algebren modellieren die Menge aller Informationen, die wir u ¨ber ein Zufallsexperiment bekommen k¨ onnen, entsprechend lassen sich (a)-(c) interpretieren. Beispiel 4.2. Betrachte auf Ω = R die σ-Algebren: 1. A = {∅, (−∞, 0), [0, ∞), R} ; Wir wissen nur, ob das Ergebnis < oder ≥ 0 ist, 2. A = P(R) ; Wir wissen alles, insb. k¨onnen wir alle ω ∈ Ω unterscheiden. 3. A = BR sei die kleinste σ-Algebra, welche alle Intervalle (a, b] f¨ ur beliebige −∞ < a < b < ∞ enth¨ alt ; F¨ ur jedes Intervall wissen wir, ob ein Ergebnis darin liegt oder nicht. ♢ ▶ BR heißt Borel-σ-Algebra auf R. Man kann zeigen, dass BR auch alle offenen und alle abgeschlossenen Teilmengen von R enth¨alt. Obwohl alle “¨ ublichen” Untermengen von R in BR liegen, gilt BR ̸= P(R). Auf Ω = R werden wir typischerweise BR betrachten. Auf eine σ-Algebra A eingeschr¨ ankt k¨onnen wir die Definition eines diskretes W’maßes auf allgemeine Grundr¨ aume Ω u ¨bertragen:

36

4

WAHRSCHEINLICHKEITSMASSE AUF R

Definition 4.3. Sei (Ω, A ) ein messbarer Raum mit Grundraum Ω ̸= ∅ und σ-Algebra A . Eine Abbildung P : A → [0, 1] heißt Wahrscheinlichkeitsmaß auf (Ω, A ), falls (a) P(Ω) = 1, S  P (b) An ∈ A , n ∈ N, disjunkt ⇒ P An = P(An ) n∈N

(σ-Additivit¨at).

n∈N

(Ω, A , P) heißt dann Wahrscheinlichkeitsraum.

▶ Diskrete Wahrscheinlichkeitsr¨ aume ergeben sich als Spezialf¨alle mit A = P(Ω) und W’maßen mit abz¨ ahlbarem Tr¨ ager. Die S¨ atze und Definitionen 1.4 Rechenregeln f¨ ur diskrete W’maße, 2.1 Bedingte Wahrscheinlichkeiten 2.5 Satz von der Totalen Wahrscheinlichkeit und von Bayes, 2.9 stochastische Unabh¨ angigkeit von Ereignissen, u aß auf allgemeine Wahrscheinlichkeitsr¨aume, wobei als Ereignisse jeweils ¨bertragen sich sinngem¨ nur Mengen aus A betrachtet werden. ▶ Wesentlicher Unterschied zu diskreten Wahrscheinlichkeitsr¨aumen: W¨ ahrend diskrete W’maße P vollst¨ andig durch die Z¨ahldichte f (ω) := P({ω}), ω ∈ Ω bestimmt sind, ist dies f¨ ur allgemeine W’maße falsch! F¨ ur eine einfache Beschreibung von W’maßen auf (R, BR ) kann man zeigen, dass es gen¨ ugt, P((−∞, x]) f¨ ur alle x ∈ R festzulegen.

Satz und Definition 4.4. Ist P ein Wahrscheinlichkeitsmaß auf (R, BR ), so gilt f¨ ur die durch F : R → [0, 1], F (x) := P((−∞, x]) definierte Verteilungsfunktion von P: (i) F ist monoton steigend; (ii) F ist rechtsseitig stetig, d.h. es gilt limt↓x F (t) = F (x) f¨ ur alle x ∈ R. (iii) F (∞) := lim F (x) = 1, x→∞

F (−∞) := lim F (x) = 0. x→−∞

Ist umgekehrt F : R → [0, 1] eine Funktion, die (i) - (iii) erf¨ ullt, so existiert genau ein Wahrscheinlichkeitsmaß auf (R, BR ), das F als Verteilungsfunktion besitzt.

▶ F¨ ur a, b ∈ R, a < b gilt P((a, b]) = P((−∞, b]) − P(−∞, a]) = F (b) − F (a). Beweisskizze. Die Eigenschaften kann man wie folgt beweisen: (i) Aus s ≤ t folgt aus der Monotonie von P, dass F (s) = P((−∞, s]) ≤ P((−∞, t]) = F (t).

4.1

37

Grundbegriffe reloaded

(ii) Falls (tn )n∈N eine monoton fallende Folge T mit tn ↓ t ist, dann gilt (−∞, tn ] ↓ (−∞, t], d.h. (−∞, tn ] ⊇ (−∞, tn+1 ] f¨ ur alle n ∈ N und n∈N (−∞, tn ] = (−∞, t]. Aus (−∞, tn ] ↓ (−∞, t] folgt wiederum P((−∞, tn ]) → P((−∞, t]). (Man nennt diese Eigenschaft σ-Stetigkeit.) (iii) Falls (tn )n∈N eine monoton fallende Folge mit tn ↓ −∞ ist, folgt (−∞, tn ] ↓ ∅ und daher F (tn ) → P(∅) = 0. F¨ ur eine wachsende Folge (tn )n∈N mit tn ↑ ∞, ergibt sich (−∞, tn ] ↑ R und daher F (tn ) → P(R) = 1. Die R¨ uckrichtung beruht auf Resultaten der Maßtheorie, die deutlich u ¨ber diese Vorlesung hinausgehen. F¨ ur ein diskretes Wahrscheinlichkeitsmaß P auf Ω = R mit Z¨ahldichte f : Ω → [0, 1] und Tr¨ager ΩT := {ω ∈ Ω : f (ω) > 0} ⊆ Z ist die Verteilungsfunktion eine Treppenfunktion X F (t) = P((−∞, t]) = f (k), t ∈ R. k∈Z:k≤t

1 0.8

f (k) =

0.6

1 4

·

 3 k 4

0.4 0.2

0

1

2

3

4

5

6

7

8

9

t

Abb.: Verteilungsfunktion der Geometrischen Verteilung Geo(1/4). Viele Verteilungen auf (R, BR ) k¨ onnen besonders einfach durch ihre Wahrscheinlichkeitsdichten beschrieben werden:

Satz und Definition 4.5. Sei P ein Wahrscheinlichkeitsmaß auf (R, BR ). Existiert eine integrierbare Funktion f : R → [0, ∞), sodass Z x F (x) = P((−∞, x]) = f (t) dt ∀ x ∈ R, (∗) −∞

so heißt f Dichte von P bzw. der zugeh¨ origen Verteilungsfunktion F . F¨ ur A ∈ BR gilt dann Z Z P(A) = f (x) · 1A (x) dx =: f (x) dx. R

A

R∞ Umgekehrt ist jede integrierbare Funktion f : R → [0, ∞) mit −∞ f (t)dt = 1 Dichte eines Wahrscheinlichkeitsmaßes auf (R, BR ), das durch (∗) eindeutig festgelegt ist. ▶ Falls eine Dichte existiert, so ist F stetig (statt ein Treppenfkt. wie f¨ ur diskrete W’maße) Einige Bemerkungen: • Falls P auf (R, BR ) eine (st¨ uckweise) stetige Dichte hat, gilt f¨ ur −∞ < a < b < ∞ Z b     P [a, b] = P (a, b] = P [a, b) = P (a, b) = f (x)dx. a

38

WAHRSCHEINLICHKEITSMASSE AUF R

4

Anschaulich ist P([a, b]) also die Fl¨ache unter der Dichte zwischen a und b. • Die Dichte f ist nicht eindeutig bestimmt. f kann an endlichen vielen Stellen beliebig ge¨andert werden, ohne dass sich die Integrale ¨andern. • Im Folgenden seien Dichten bis auf endlich viele Stellen stetig. • Falls F stetig differenzierbar ist, dann ist eine Dichte gegeben durch f = F ′ . ▶ Dichten d¨ urfen nicht mit Z¨ ahldichten verwechselt werden: Falls eine stetige Dichte existiert, so gilt P({a}) = 0 f¨ ur alle a ∈ R, denn: Z a ε↓0 0 ≤ P({a}) ≤ P((a − ε, a]) = f (x)dx ≤ ε max f (x) → 0. x∈(a−1,a]

a−ε

Betrachten wir einige Beispiele:

Definition 4.6. F¨ ur −∞ < a < b < ∞ heißt das Wahrscheinlichkeitsmaß auf (R, BR ) zur Dichte 1 1(a,b] (stetige) Gleichverteilung U((a, b]) auf (a, b]. f := b−a

Tats¨ achlich gilt: Z



f (t) dt =

−∞

und f¨ ur alle a ≤ c < d ≤ b Z U(a,b] ((c, d]) =



−∞



1(a,b] (t)

−∞

b−a

Z

f (x) · 1(c,d] (x) dx =

dt =

b−a =1 b−a



1(a,b] (x)

−∞

b−a

Z

· 1(c,d] (x) dx =

d−c . b−a

▶ Die W’keit von (c, d] h¨ angt nur von der L¨ange des Intervalls ab, nicht von seiner Lage innerhalb von (a, b], daher der Name Gleichverteilung“. ” ▶ Man kann zeigen, dass kein Wahrscheinlichkeitsmaß P auf ([0, 1], P([0, 1])) existiert, so dass P((c, d]) = d − c

∀ 0 ≤ c < d ≤ 1.

Es gibt keine Gleichverteilung auf [0, 1], die jeder Untermenge von [0, 1] eine W’keit zuweist. ; Einschr¨ ankung auf BR .

Definition 4.7. Die Exponentialverteilung Exp(λ) mit Parameter λ > 0 ist gegeben durch die Dichte 1 fλ (x) := e−x/λ · 1[0,∞) (x), x ∈ R. λ Wir rechnen nach:

Z



fλ (x) dx =

−∞

Z 0



∞ 1 −x/λ e dx = −e−x/λ = 1. λ 0

Die Verteilungsfunktion ist gegeben durch Z x x Fλ (x) = fλ (t) dt = −e−t/λ = 1 − e−x/λ , −∞

0

∀x ≥ 0,

4.1

39

Grundbegriffe reloaded

und Fλ (x) = 0 f¨ ur alle x < 0. F¨ ur x, y ≥ 0 ist die bedingte Wahrscheinlichkeit, dass ein Wert gr¨oßer als x + y beobachtet wird, wenn bekannt ist, dass der Wert x u ¨berschreitet, gerade gleich    Expλ (x + y, ∞) ∩ (x, ∞) Expλ (x + y, ∞)   = Expλ (x + y, ∞) | (x, ∞) = Expλ (x, ∞) Expλ (x, ∞)  1 − Expλ (−∞, x + y]  = 1 − Expλ (−∞, x] 1 − Fλ (x + y) e−(x+y)/λ = 1 − Fλ (x) e−x/λ  −y/λ =e = Expλ (y, ∞) . =

▶ Exponentialverteilungen beschreiben Lebensdauern von Dingen, die nicht altern. Die W’keit noch weitere y Jahre zu u ¨berleben, gegeben dass bereits x Jahre u ¨berlebt wurden, h¨angt nicht von x ab. Da das bis x erlebte keinen Einfluss hat, sprecht man auch von Ged¨ achtnislosigkeit. Beispiel 4.8. Ein Seil der L¨ ange 1 wird so lange an beiden Enden gezogen, bis es reißt. Die Wahrscheinlichkeit, dass das Seil in der Umgebung der Stelle x ∈ (0, 1) reißt, sei proportional zum Abstand zum n¨aher gelegenen Ende, also proportional zu min(x, 1 − x). Modell: P sei das Wahrscheinlichkeitsmaß mit der Dichte ( c · min(x, 1 − x), x ∈ (0, 1), f (x) = 0, sonst. W¨ ahle c > 0 so, dass

R∞

!

−∞

Z c

f (x) dx = 1, das heißt

1

min(x, 1 − x) dx = 2c

1/2

Z

0

0

1/2 c ! x dx = cx2 0 = = 1. 4

Es folgt c = 4, also f (x) = 4 min(x, 1 − x)1(0,1) (x). Die Wahrscheinlichkeit, dass das l¨ angere Teilst¨ uck mindestens die L¨ange 3/4 besitzt, betr¨agt Z ∞  1 i h 3  ∪ ,1 = P 0, 1(0, 14 ]∪[ 34 ,1) (x) · f (x) dx 4 4 −∞ Z 1/4 Z 1 = 4x dx + 4(1 − x) dx 0

= =

3/4

1/4 4x2 0



1 . 4



Eine, wenn nicht die, zentrale Wahrscheinlichkeitsverteilung auf (R, BR ) ist folgende:

Definition 4.9. Die Normalverteilung N(µ, σ 2 ) mit Parametern µ ∈ R, σ > 0 ist gegeben durch die Dichte 1 (x − µ)2  f (x) := √ · exp − , x ∈ R. 2σ 2 2πσ 2

40

WAHRSCHEINLICHKEITSMASSE AUF R

4

Die Verteilung N(0, 1) heißt Standardnormalverteilung. Ihre Verteilungsfunktion bezeichnen wir mit Z x 2 1 √ e−t /2 dt. Φ(x) = 2π −∞

Mit φ(t) =

√1 2π

· exp −

f (x) =

t2 2



gilt

1 x − µ . φ σ σ Abb.: Dichte Glockenkurve.

der

Normalverteilung:

die

Die Standardnormalverteilungsfunktion bzw. -dichte besitzen einige wichtige Eigenschaften. Es gelten f¨ ur −∞ < a < b < ∞ und t ∈ R: Z

b

φ(t)dt = Φ(b) − Φ(a)

und

a

φ(t) = φ(−t).

Abb.: Verteilungsfunktion und Dichte der Standardnormalverteilung.

Daraus folgt f¨ ur alle x ∈ R

Φ(−x) =

Z

−x

φ(t) dt

u=−t

=

−∞

Z



φ(−u) du | {z }

x

=φ(u)

=



Z x φ(u) du φ(u) du − −∞ −∞ | {z } | {z } Z

=1

=

=Φ(x)

1 − Φ(x)

(insb. Φ(0) = 12 ).

F¨ ur die Verteilungsfunktion F der Normalverteilung N(µ, σ 2 ) gilt F (x)

= z=(t−µ)/σ

=

Z

x

f (t)dt =

−∞ (x−µ)/σ

Z

x

−∞

1 t − µ φ dt σ σ

Z

φ(z)dz −∞

=

x − µ Φ . σ

▶ Um Wahrscheinlichkeiten f¨ ur eine beliebige Normalverteilung zu berechnen, gen¨ ugt die (Tabelle der) Verteilungsfunktion Φ der Standardnormalverteilung.

4.2

41

R-wertige Zufallsvariablen x 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24 0.26 0.28 0.30

Φ(x) 0.5000 0.5080 0.5160 0.5239 0.5319 0.5398 0.5478 0.5557 0.5636 0.5714 0.5793 0.5871 0.5948 0.6026 0.6103 0.6179

x 0.76 0.78 0.80 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 1.02 1.04 1.06

Φ(x) 0.7764 0.7823 0.7881 0.7939 0.7995 0.8051 0.8106 0.8159 0.8212 0.8264 0.8315 0.8365 0.8413 0.8461 0.8508 0.8554

x 1.52 1.54 1.56 1.58 1.60 1.62 1.64 1.66 1.68 1.70 1.72 1.74 1.76 1.78 1.80 1.82

Φ(x) 0.9357 0.9382 0.9406 0.9429 0.9452 0.9474 0.9495 0.9515 0.9535 0.9554 0.9573 0.9591 0.9608 0.9625 0.9641 0.9656

x 1.84 1.86 1.88 1.90 1.92 1.94 1.96 1.98 2.00 2.02 2.04 2.06 2.08 2.10 2.12 2.14

Φ(x) 0.9671 0.9686 0.9699 0.9713 0.9726 0.9738 0.9750 0.9761 0.9772 0.9783 0.9793 0.9803 0.9812 0.9821 0.9830 0.9838

x 2.28 2.30 2.32 2.34 2.36 2.38 2.40 2.42 2.44 2.46 2.48 2.50 2.52 2.54 2.56 2.58

Φ(x) 0.9887 0.9893 0.9898 0.9904 0.9909 0.9913 0.9918 0.9922 0.9927 0.9931 0.9934 0.9938 0.9941 0.9945 0.9948 0.9951

Tab.: Tabellierte Funktionswerte der Verteilungsfunktion Φ der Standardnormalverteilung (Auszug).

▶ F¨ ur x < 0 verwende man die Beziehung Φ(−x) = 1 − Φ(x).

4.2

R-wertige Zufallsvariablen

Bei diskreten Wahrscheinlichkeitsr¨ aumen (Ω, P) ist eine Abbildung X : Ω → S f¨ ur S ̸= ∅ stets eine Zufallsvariable und besitzt somit eine Verteilung: PX (B) = P(X −1 (B)) = P(X ∈ B) ∀B ⊆ S. Dies ist dann ein diskretes Wahrscheinlichkeitsmaß auf S. Im allgemeinen Fall ist ein W’maß P nur noch auf einem Mengensystem A ⊆ P(Ω) definiert, d.h. P : A → [0, 1]. ▶ P(X −1 (B)) ist nur noch definiert, wenn X −1 (B) ∈ A , d.h. wenn das Urbild eine gutartige“ ” Menge ist. ▶ Wir schr¨ anken daher wieder die betrachteten Teilmengen B ⊆ S auf eine Untermenge von P(S) ein, genauer auf eine σ-Algebra C ⊆ P(S).

Satz und Definition 4.10. Es seien (Ω, A ), (S, C ) messbare R¨ aume und X : Ω → S eine Abbildung. X heißt S-wertige Zufallsvariable, falls X −1 (C) ∈ A

f¨ ur alle

C∈C

gilt. Man schreibt X : (Ω, A ) → (S, C ) und sagt, dass X (A , C )-messbar ist. Sei P ein Wahrscheinlichkeitsmaß auf (Ω, A ). Dann wird durch PX (C) := P(X −1 (C)) = P(X ∈ C),

C ∈ C,

ein Wahrscheinlichkeitsmaß PX auf (S, C ) definiert, die sogenannte Verteilung von X unter P.

Beispiel 4.11. • Ist (S, C ) = (R, BR ) gen¨ ugt X −1 (I) ∈ A f¨ ur jedes Intervall I ⊆ R.

42

4

WAHRSCHEINLICHKEITSMASSE AUF R

• F¨ ur Ω = S = R ist jede stetige Funktion X : R → R (BR , BR )-messbar.



Unter der Zusatzannahme, dass X messbar ist, funktioniert der Beweis, dass PX ein Wahrscheinlichkeitsmaß auf (S, C ) ist, analog zum Fall diskreter Wahrscheinlichkeitsr¨aume.

Definition 4.12. Sei X : (Ω, A ) → (R, BR ) eine R-wertige Zufallsvariable auf dem W’raum (Ω, A , P). (i) Die Verteilungsfunktion der Verteilung PX von X FX : R → [0, 1],

 x 7→ PX (−∞, x] = P(X ≤ x)

wird auch Verteilungsfunktion von X genannt. (ii) X heißt stetig (verteilte) Zufallsvariable, falls FX eine Dichte fX besitzt: Z x fX (t) dt ∀x ∈ R. P(X ≤ x) = −∞

fX heißt dann auch Dichte von X. Bemerkung 4.13. Ist der Wertebereich X(Ω) abz¨ahlbar, dann ist PX eine diskrete Verteilung und X heißt diskrete Zufallsvariable mit Z¨ahldichte fX (x) = P(X = x), x ∈ X(Ω). Beispiel 4.14 (Lineare Transformation der Normalverteilung). Sei X eine Zufallsvariable auf (Ω, A , P) mit Verteilung PX = N(µ, σ 2 ) f¨ ur µ ∈ R, σ > 0. Wir schreiben kurz X ∼ N(µ, σ 2 )

(analoge Schreibweise auch f¨ ur alle anderen Verteilungen).

Dann gilt f¨ ur beliebige m ∈ R, s > 0: Y := m + sX ∼ N(m + sµ, s2 σ 2 ), denn:  y − m FY (y) = P(Y ≤ y) = P(m + sX ≤ y) = P X ≤ s x − µ y−m  y − m − sµ  = FX =Φ =Φ . s } σ sσ | {z =:x

▶ Aus X ∼ N(0, 1) folgt µ + σX ∼ N(µ, σ 2 ). Aus X ∼ N(µ, σ 2 ) folgt

X−µ σ

∼ N(0, 1).

Satz 4.15 (kσ-Regeln). F¨ ur X ∼ N(µ, σ 2 ) und alle t > 0 gilt  X − µ    X −µ P(|X − µ| ≤ σt) =P ≤t ≤t =P −t≤ σ σ =Φ(t) − Φ(−t) = 2 · Φ(t) − 1, insbesondere   0.6827 , k = 1, 0.9545 , k = 2, P(|X − µ| ≤ k σ) = 2Φ(k) − 1 =  0.9973 , k = 3.



4.3

R1 −1

R2 −2

R3 −3

4.3

43

Mehrdimensionale Verteilungen und Unabh¨angigkeit

φ(x)dx ≈ 0.6826, φ(x)dx ≈ 0.9544, φ(x)dx ≈ 0.9974

Abb.: Illustration der kσ-Regel.

Mehrdimensionale Verteilungen und Unabh¨ angigkeit

Borel-σ-Algebren, Verteilungsfunktionen und Dichten kann man analog auch f¨ ur Ω = Rn den finieren. Die Borel-σ-Algebra BRn auf R wird definiert als die kleinste σ-Algebra, die alle Rechteckmengen n

×(a , b ] i

i

mit

− ∞ < ai < bi < ∞ f¨ ur alle 1 ≤ i ≤ n

i=1

enth¨ alt. Definition 4.16. Ist P ein Wahrscheinlichkeitsmaß auf (Rn , BRn ), so wird die zugeh¨orige multivariate Verteilungsfunktion F definiert durch  F (x1 , . . . , xn ) := P

n

×(−∞, x ] , 

i

(x1 , . . . , xn ) ∈ Rn .

i=1

Analog zum eindimensionalen Fall f¨ uhren wir Dichten auf Rn ein. Satz und Definition 4.17. Es sei P ein W’maß auf (Rn , BRn ) mit multivariater Verteilungsfunktion F . Existiert eine Abbildung f : Rn → [0, ∞), so dass f¨ ur alle (x1 , . . . , xn ) ∈ Rn Z x1 Z x2 Z xn F (x1 , . . . , xn ) = ··· f (t1 , . . . , tn ) dtn . . . dt2 dt1 −∞

−∞

−∞

gilt, so heißt f (multivariate) Dichte von P bzw. von F . Es gilt dann ∀B ∈ BRn Z Z ∞ Z ∞ P(B) = f (t)dt = ··· 1B (t1 , . . . , tn ) · f (t1 , . . . , tn ) dtn . . . dt1 . B

−∞

−∞

▶ Insbesondere gilt f¨ ur jede Dichte f : Z ∞ Z ∞ ··· f (t1 , . . . , tn )dtn · · · dt1 = 1 −∞

−∞

Abb.: Zweidimensionale Wahrscheinlichkeitsdichte.

44

WAHRSCHEINLICHKEITSMASSE AUF R

4

und f¨ ur B = (a1 , b1 ] × · · · × (an , bn ], ai < bi , i = 1, . . . , n:  P (a1 , b1 ] × · · · × (an , bn ] =

Z

b1

Z

bn

··· a1

f (t1 , . . . , tn ) dtn . . . dt1 .

an

Wir u ¨bertragen multivariate Verteilungsfunktionen auf Zufallsvariablen:

Satz und Definition 4.18. Ist (Ω, A ) ein messbarer Raum und Xi : Ω → R, 1 ≤ i ≤ n, so gilt ¨ die Aquivalenz X = (X1 , . . . , Xn ) : Ω → Rn (A , BRn )-messbar ⇐⇒

Xi : Ω → R (A , BR )-messbar

∀ 1 ≤ i ≤ n.

In dem Fall wird X auch n-dimensionaler Zufallsvektor genannt. Die multivariate Verteilungsfunktion von PX  FX (x1 , . . . , xn ) := P X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn , (x1 , . . . , xn ) ∈ Rn , heißt gemeinsame Verteilungsfunktion von X1 , . . . , Xn . Besitzt FX eine Dichte fX , dann heißt X stetig verteilt und fX heißt gemeinsame Dichte von X1 , . . . , Xn . Es gilt dann Z PX (B) = P(X ∈ B) = fX (t)dt, B ∈ BRn . B

Im Fall n = 2 schreiben wir meist (X1 , X2 ) = (X, Y ) und fX,Y f¨ ur die gemeinsame Dichte von (X, Y ). Beispiel 4.19 (Stetige Gleichverteilung im R2 ). Sei C ⊆ R2 mit positivem, endlichen Fl¨acheninhalt c. Der Zufallsvektor (X, Y ) hat eine (stetige) Gleichverteilung auf C, falls X und Y die gemeinsame Dichte 1 fX,Y (s, t) = 1C (s, t) = c

(

1 c,

0,

(s, t) ∈ C, sonst.

besitzen. Wir schreiben kurz (X, Y ) ∼ U(C). In diesem Fall gilt  P (X, Y ) ∈ B Fl¨ ache von B ∩ C = , B ∈ BR2 . Abb.: Zweidimensionale Dichte der Gleichverteilung Fl¨ ache von C auf C ⊆ R2 . Ist X = (X1 , . . . , Xn ) ein Zufallsvektor auf (Ω, A , P), so heißen die Verteilungen PXi , 1 ≤ i ≤ n, (eindimensionale) Randverteilungen oder Marginalverteilungen. ▶ Die Verteilungsfunktion Fi von Xi bzw. PXi berechnet sich wie folgt: Fi (x)

= =

 P X1 < ∞, . . . , Xi−1 < ∞, Xi ≤ x, Xi+1 < ∞, . . . , Xn < ∞  x , ∞, . . . , ∞ . F ∞, . . . , ∞, |{z} i. Argument



4.3

Mehrdimensionale Verteilungen und Unabh¨angigkeit

45

Satz 4.20 (Randdichten). Besitzt die Rn -wertige Zufallsvariable X = (X1 , . . . , Xn ) eine gemeinsame Dichte f : Rn → [0, ∞), so hat Xi f¨ ur jedes 1 ≤ i ≤ n die Dichte fi : R → [0, ∞) mit Z ∞ Z ∞  fi (x) = ··· f t1 , . . . , ti−1 , x, ti+1 , . . . , tn dtn · · · dti+1 dti−1 · · · dt1 −∞

−∞

f¨ ur alle x ∈ R. Zur Illustration nochmal der Fall n = 2:¿ Sind X und Y Zufallsvariablen mit gemeinsamer Dichte fX,Y , so ist Z ∞ s 7→ fX (s) := fX,Y (s, t)dt Dichte von X, −∞ Z ∞ t 7→ fY (t) := fX,Y (s, t)ds Dichte von Y, −∞

Insbesondere sind X und Y stetige Zufallsvariablen.

Abb.: Zweidimensionale Dichte fX,Y (s, t) geschnitten bei s0 . ▶ Fl¨ ache unter der blauen Kurve = fX (s0 ). Man kann nun die Unabh¨ angigkeit von Zufallsvariablen genauso wie in Definition 3.5 einf¨ uhren. Insbesondere definieren wir f¨ ur reellwertige Zufallsvariablen: Definition 4.21. Zufallsvariablen X1 , . . . , Xn : (Ω, A ) → (R, BR ) heißen stochastisch unabh¨ angig, wenn die Ereignisse {X1 ∈ B1 }, . . . , {Xn ∈ Bn } f¨ ur alle B1 , . . . , Bn ∈ BR stochastisch unabh¨ angig sind. Diskrete Zufallsvariablen sind genau dann unabh¨angig, wenn ihre gemeinsame Z¨ahldichte (x1 , . . . , xn ) 7→ f (x1 , . . . , xn ) gleich dem Produkt ihrer einzelnen Z¨ahldichten fXi (xi ) ist (s. Satz 3.6). Die Verteilung einer allgemeinen Zufallsvariablen l¨asst sich nicht durch eine Z¨ahldichte beschreiben. Es l¨ asst sich jedoch f¨ ur reellwertige Zufallsvariablen eine analoge Charakterisierung mit Hilfe ihrer Verteilungsfunktionen angeben.

Satz 4.22. F¨ ur Zufallsvariablen Xi : (Ω, A ) → (R, BR ), 1 ≤ i ≤ n, mit Verteilungsfunktionen FXi , 1 ≤ i ≤ n, sind ¨ aquivalent:

46

WAHRSCHEINLICHKEITSMASSE AUF R

4

(i) X1 , . . . , Xn sind stochastisch unabh¨ angig. (ii) P(X1 ∈ B1 , . . . , Xn ∈ Bn ) =

n Y

P(Xi ∈ Bi )

∀B1 , . . . , Bn ∈ BR .

i=1 n Y

(iii) P(X1 ≤ x1 , . . . , Xn ≤ xn ) =

P(Xi ≤ xi ) =

i=1

n Y

FXi (xi )

∀x1 , . . . , xn ∈ R.

i=1

▶ Zufallsvariablen sind genau dann unabh¨angig, wenn die Verteilungsfunktion ihrer gemeinsamen Verteilung das Produkt ihrer Verteilungsfunktionen ist. Beispiel 4.23. (i) Seien X1 , X2 stochastisch unabh¨angige Exp(1)-verteilte Zufallsvariablen mit den Verteilungsfunktionen FX1 (x) = FX2 (x) = (1 − e−x )1(0,∞) (x) f¨ ur alle x ∈ R. Dann gilt f¨ ur alle x1 , x2 ∈ R P(X1 ≤ x1 , X2 ≤ x2 ) = P(X1 ≤ x1 ) · P(X2 ≤ x2 ) = (1 − e−x1 )(1 − e−x2 )1(0,∞)2 (x1 , x2 ) = FX1 (x1 )FX2 (x2 ). (ii) Seien nun Y1 , Y2 R-wertige Zufallsvariablen, so dass f¨ ur alle y1 , y2 ∈ R: P(Y1 ≤ y1 , Y2 ≤ y2 ) = (1 − e− min(y1 ,y2 ) )1(0,∞)2 (y1 , y2 ).

(∗)

Dann folgt, dass Y1 (und analog Y2 ) Exp(1)-verteilt ist, denn ∀y1 ∈ R: FY1 (y1 ) = P(Y1 ≤ y1 ) = lim P(Y1 ≤ y1 , Y2 ≤ y2 ) = (1 − e−y1 )1(0,∞) (y1 ). y2 →∞

Da die rechte Seite von (∗) nicht als Produkt einer nur von y1 und einer nur von y2 abh¨angigen Funktion geschrieben werden kann, sind Y1 und Y2 jedoch nicht stochastisch unabh¨angig. Tats¨ achlich ist (Y1 , Y2 ) verteilt wie (X1 , X1 ) (Warum?). ♢ Falls die Verteilungen der Zufallsvariablen Dichten besitzen, so kann man mit diesen auch die Unabh¨ angigkeit charakterisieren, anlog zum diskreten Fall. Satz 4.24. Seien Xi : Ω → R f¨ ur i = 1, . . . , n ZVn auf einem W’raum (Ω, A , P). Falls alle Randverteilungen PXi , 1 ≤ i ≤ n jeweils eine Dichte fi besitzen, dann sind ¨ aquivalent. (i) X1 , . . . , Xn sind unabh¨ angig. (ii) P(X1 ,...,Xn ) besitzt eine Dichte f gegeben durch f (x1 , . . . , xn ) :=

n Y

fi (xi ),

(x1 , . . . , xn ) ∈ Rn .

i=1

Bemerkung 4.25 (Fazit f¨ ur Randverteilungen). • Durch die Verteilung von X = (X1 , . . . , Xn ) sind auch alle Randverteilungen eindeutig bestimmt; Verteilungsfunktionen und (im Fall der Existenz) Dichten der Randverteilungen lassen sich (prinzipiell) leicht berechnen.

4.3

47

Mehrdimensionale Verteilungen und Unabh¨angigkeit

• Umgekehrt ist die Verteilung von X i.A. nicht durch die Randverteilungen eindeutig festgelegt. • Sind X1 , . . . , Xn stochastisch unabh¨angig, so legen bereits die eindimensionalen Randverteilungen PXi die Verteilung von X eindeutig fest. Es gilt f¨ ur die Verteilungsfunktionen FX (x1 , . . . , xn ) = FX1 (x1 ) · · · FXn (xn ) und im Fall der Existenz f¨ ur die Dichten fX (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ).

Satz 4.26 (Blockungslemma). Seien X11 , X12 , . . . , X1n1 , X21 , . . . , X2n2 , . . . ,Xk1 , . . . , Xknk stochastisch unabh¨ angige Zufallsvariablen und g1 : Rn1 → R, g2 : Rn2 → R, . . . , gk : Rnk → R (messbare) Funktionen. Dann sind auch die Zufallsvariablen Y1 := g1 (X11 , . . . , X1n1 ), Y2 := g2 (X21 , . . . , X2n2 ), . . . , Yk := gk (Xk1 , . . . , Xknk ) stochastisch unabh¨ angig.

▶ Funktionen von disjunkten Bl¨ ocken unabh¨angiger Zufallsvariablen sind wieder unabh¨angig. Beispiel 4.27. X, Y, Z, U unabh¨ angig =⇒ Y1 := sin(X), Y2 := Y +3·eY ·U , Y3 := 4·Z 2 unabh¨angig. Dagegen sind sin(X) und Y + 3 · eX·U (in der Regel) nicht unabh¨angig. ♢ Viele f¨ ur diskrete Zufallsvariablen bekannte Konzepte und Formeln u ¨bertragen sich sinngem¨aß auf Zufallsvariablen mit Dichten, wobei Summen i.d.R. durch entsprechende Integrale zu ersetzen sind.

Satz und Definition 4.28. (i) Sind X, Y : (Ω, A ) → (R, BR ) unabh¨ angige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A , P), so wird die Verteilung PX+Y die Faltung von PX und PY genannt; geschrieben PX ∗ PY . (ii) Besitzt X eine Dichte fX und Y eine Dichte fY , so ist Z ∞ fX ∗ fY (z) := fX (x)fY (z − x) dx, −∞

eine Dichte von PX ∗ PY , d.h. fX+Y = fX ∗ fY .

z ∈ R,

48

4

WAHRSCHEINLICHKEITSMASSE AUF R

Beispiel 4.29. Seien X, Y unabh¨ angig, X ∼ Exp(λ), Y ∼ Exp(λ). Wegen fX (s) = fY (s) = 0 f¨ ur s < 0 gilt f¨ ur t > 0: Z t fX+Y (t) = fX (s) · fY (t − s)ds 0 Z t Z t 1 −s/λ 1 −(t−s)/λ = e · e ds = λ−2 · e−t/λ · 1ds = λ−2 · t · e−t/λ . λ λ 0 0 Wir erhalten einen Spezialfall der Gamma-Verteilung: X + Y ∼ Γ(2, 1/λ).



Definition 4.30. Die Zufallsvariable X hat eine Gamma-Verteilung mit Parametern α > 0 und β > 0, falls X die Dichte f (t) = mit Gamma-Funktion Γ(t) :=

R∞ 0

β α α−1 −βt t e 1(0,∞) (t), Γ(α)

t ∈ R.

xt−1 e−x dx, t > 0 besitzt.

Beachte: Es gilt Γ(k) = (k − 1)! f¨ ur k ∈ N. Folgende Tabelle fasst wichtige Faltungen zusammen: X∼

Y ∼

X +Y ∼

Bin(m, p)

Bin(n, p)

Bin(m + n, p)

Po(λ)

Po(µ)

Po(λ + µ)

N(µ, σ )

N(ν, τ )

N(µ + ν, σ 2 + τ 2 )

Γ(µ, β)

Γ(ν, β)

Γ(µ + ν, β)

Exp(λ)

Exp(λ)

Γ(2, 1/λ)

2

2

Tab.: Tabelle wichtiger Faltungen (Additionsgesetze) zweier unabh¨angiger Zufallsvariablen X und Y . Beachte: In jedem Fall sind X und Y als stochastisch unabh¨angig vorausgesetzt. Sehen Sie die Additionsgesetze f¨ ur die Binomialverteilung (ohne Rechnung) ein? F¨ ur die Zuverl¨ assigkeitstheorie sind Maxima und Minima von unabh¨angigen Zufallsvariablen wichtig.

Satz 4.31 (Verteilungsfunktion von Maximum und Minimum). Seien X1 , . . . , Xn stochastisch unabh¨ angige Zufallsvariablen mit den Verteilungsfunktionen FX1 , . . . , FXn . Dann gilt: (i) U := max(X1 , . . . , Xn ) besitzt die Verteilungsfunktion n Y FU (t) = FXj (t), t ∈ R. j=1

(ii) V := min(X1 , . . . , Xn ) besitzt die Verteilungsfunktion n Y FV (t) = 1 − (1 − FXj (t)), t ∈ R. j=1

4.3

49

Mehrdimensionale Verteilungen und Unabh¨angigkeit

Beweis. (i) Es gilt FU (t) = P(U ≤ t) = P(X1 ≤ t, . . . , Xn ≤ t) = P(X1 ≤ t) · · · P(Xn ≤ t) = FX1 (t) · · · FXn (t). (ii) Durch Komplementbildung folgt FV ((t)) = P(V ≤ t) = 1 − P(V > t) = 1 − P(X1 > t, . . . , Xn > t) = 1 − P(X1 > t) · · · P(Xn > t)   = 1 − 1 − P(X1 ≤ t · · · 1 − P(Xn ≤ t   = 1 − 1 − PX1 (t) · · · 1 − FXn (t) . Beispiel 4.32 (Serienschaltung aus parallelen Bl¨ocken).

Annahme: Lebensdauern X1 , . . . , Xm , Y1 , . . . , Yn sind stochastisch unabh¨ angig und besitzen die gleiche Verteilungsfunktion F. ▶ Lebensdauer der Schaltung: T := min(X, Y )

Abb.: Serienschaltung aus parallel geschalteten Bl¨ocken von m bzw. n Elementen. f¨ ur X := max(X1 , . . . , Xm ),

Y := max(Y1 , . . . , Yn )

▶ Satz 4.31: FX (t) = F (t)m , FY (t) = F (t)n . ▶ Wegen Blockungslemma sind X, Y unabh¨angig und damit FT (t) = 1 − (1 − FX (t)) · (1 − FY (t)) = 1 − (1 − F (t)m ) · (1 − F (t)n )) = F (t)m + F (t)n − F (t)m+n ,

t ∈ R.



50

5

5

MASSZAHLEN VON ZUFALLSVARIABLEN

Maßzahlen von Zufallsvariablen

5.1

Erwartungswerte und ihre Eigenschaften

Neben den Wahrscheinlichkeiten von zuf¨alligen Ereignissen ben¨otigen wir gewichtete Mittelwerte“ ” von Zufallsvariablen (z.B. mittlere Laufzeiten, mittlere Schadenh¨ohen, ...) Definition 5.1. Der Erwartungswert einer R-wertigen diskreten Zufallsvariable X : Ω → R auf einem Wahrscheinlichkeitsraum (Ω, A, P) ist definiert als X X EP [X] := E[X] := x · P(X = x) = x · PX ({x}), x∈X(Ω)

x∈X(Ω)

falls x∈X(Ω) |x| · P(X = x) < ∞ (ansonsten besitzt X keinen (endlichen) Erwartungswert bzgl. P). EP [X] heißt auch Mittelwert der Verteilung PX . P

Beispiel 5.2. 1. Sei X = 1A f¨ ur ein A ⊆ Ω. Dann folgt E[1A ] = E[X] = 0 · P(X = 0) + 1 · P(X = 1)= P(A). 2. F¨ ur X ∼ Po(λ), d.h. P(X = n) = e−λ · E[X]

= = k=n−1

=

=

λn n!

∞ X

nP(X = n) =

n=0 ∞ X

λ

λ λ

f¨ ur alle n ∈ N0 , gilt:

n=1 ∞ X k=0 ∞ X

∞ X

n · e−λ ·

n=0

λn n!

n−1

e−λ ·

λ (n − 1)!

e−λ ·

λk k!

Poλ ({k}) = λ.

k=0

♢ F¨ ur diskrete Zufallsvariablen mit Z¨ ahldichte fX ist der Erwartungswert also definiert als X X E[X] = x · P(X = x) = x · fX (x). x∈X(Ω)

x∈X(Ω)

Definition 5.3. Ist X eine stetige Zufallsvariable mit Dichte fX , so wird der Erwartungswert von X definiert als Z ∞ E[X] = x · fX (x) dx, −∞

falls

R∞ −∞

|x|fX (x) dx < ∞. E[X] heißt auch Mittelwert von PX .

5.1

51

Erwartungswerte und ihre Eigenschaften

▶ Der Erwartungswert entspricht dem physikalischen Schwerpunkt. Beispiel 5.4. 1. Sei X gleichverteilt auf (a, b], d.h. mit Dichte fX = 1(a,b] /(b − a). Dann hat X den Erwartungswert Z ∞ Z b 1 b2 − a2 a+b xfX (x) dx = x dx = E[X] = = . b−a a 2(b − a) 2 −∞ 2. Sei X exponentialverteilt mit Parameter λ, d.h. X besitze die Dichte fX (x) := 1[0,∞) (x).

1 −x/λ λe

·

Dann berechnet sich der Erwartungswert mittels partieller Integration zu Z ∞ E[X] = xfX (x) dx −∞ Z 1 ∞ −x/λ xe dx = λ 0 Z ∞ −x/λ ∞ = −xe + e−x/λ dx 0 0 ∞ = −λe−x/λ 0

= λ. ♢

Satz 5.5 (Transformationssatz). Sei (Ω, A, P) ein W’raum, X : Ω → S eine diskrete/stetige Zufallsvariable mit Z¨ ahldichte/Dichte fX und g : S → R messbar. Die ZV g(X) = g ◦ X : Ω → R besitzt genau dann einen endlichen Erwartungswert bzgl. P, wenn g einen endlichen Erwartungswert bzgl. PX besitzt. In diesem Fall gilt: X  g(x)fX (x), falls X diskret,     x∈S Z EP g(X) = EPX [g] = ∞   g(x)fX (x) dx, falls X stetig.  −∞

▶ Zur Berechnung von EP [g(X)] ben¨otigen wir nur die Verteilung PX von X, aber weder das zugrundeliegende W’maß P noch die Verteilung Pg(X) . ▶ F¨ ur eine Zufallsvariable X auf einem diskreten W’raum (Ω, P) mit existierendem Erwartungswert gilt: X X EP [X] = xPX ({x}) = X(ω)P({ω}). ω∈Ω

x∈X(Ω)

Beweis. Wir f¨ uhren den Beweis nur f¨ ur einen diskreten Wahrscheinlichkeitstraum. Es gilt   PX (g = y) = PX g −1 ({y}) = P X ∈ g −1 ({y})  = P {ω ∈ Ω : g(X(ω)) = y} = P(g(X) = y) ∀y ∈ R. Damit folgt X y∈R

|y|PX (g = y) < ∞

⇐⇒

X y∈R

|y|P(g(X) = y) < ∞,

52

5

MASSZAHLEN VON ZUFALLSVARIABLEN

sodass g genau dann einen endlichen Erwartungswert bzgl. PX besitzt, wenn g(X) einen endlichen Erwartungswert bzgl. P besitzt. In diesem Fall gilt X X EP [g(X)] = yP(g(X) = y) = yPX (g = y) = EPX [g]. y∈R

y∈R

Aufgrund der σ-Additivit¨ at von PX und weil (S, PX ) ein diskreter Wahrscheinlichkeitsraum ist, gilt weiter: X X  yPX (g = y) = yPX g −1 ({y}) y∈R

y∈R

=

X

PX ({x})

x∈g −1 ({y})

y∈R

=

X

y

X

X

y∈R

x∈g −1 ({y})

X

g(x)PX ({x}).

=

g(x)PX ({x})

x∈S

Beispiel 5.6. Sei X Poissonverteilt mit Erwartungswert λ > 0, d.h. PX = Po(λ). Dann gilt f¨ ur g(x) := x2 E[X 2 ] =EPX [g] =

∞ X

g(n)PX ({n})

n=0

= = =

∞ X n=0 ∞ X

n

n2

λ −λ e n!

n(n − 1)

n=0 ∞ X

∞ λn −λ X λn −λ e + n e n! n! n=0

λn−2 2 −λ λ e + E[X] (n − 2)! n=2

=λ2

∞ X λk k=0

k!

e−λ + λ

=λ2 + λ.



Beispiel 5.7. Sei X gleichverteilt auf [a, b], d.h. mit Dichte fX = 1[a,b] /(b − a). Dann hat X 2 den Erwartungswert Z ∞ Z b b2 + ab + a2 1 b3 − a3 E[X 2 ] = = . x2 fX (x) dx = x2 dx = b−a a 3(b − a) 3 −∞ ♢ Folgendes Resultat liefert uns grundlegenden Eigenschaften des Erwartungswerts.

Satz 5.8. Seien X, Y diskrete/stetige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), die Erwartungswerte besitzen. Dann gilt: (i) E[aX + Y ] = a · E[X] + E[Y ] f¨ ur alle a ∈ R (Linearit¨ at). (ii) Gilt X ≤ Y (d.h. X(ω) ≤ Y (ω) f¨ ur alle ω ∈ Ω), dann folgt E[X] ≤ E[Y ] (Monotonie). (iii) Wenn fX symmetrisch zu x = a ist, dann gilt E[X] = a.

5.1

53

Erwartungswerte und ihre Eigenschaften

▶ Der Mittelwert der Normalverteilung N(µ, σ 2 ) ist µ. Beweis. Wir f¨ uhren den Beweis nur auf einem diskreten Wahrscheinlichkeitsraum. (i) Es gilt X  E[aX + Y ] = aX + Y (ω)P({ω}) ω∈Ω

=

X

 aX(ω) + Y (ω) P({ω})

ω∈Ω

=a

X

X(ω)P({ω}) +

ω∈Ω

X

Y (ω)P({ω})

ω∈Ω

= aE[X] + E[Y ]. (ii) Aus der ω-weisen Absch¨ atzung folgt X X Y (ω)P({ω}) = E[Y ]. E[X] = X(ω) P({ω}) ≤ | {z } | {z } ω∈Ω

ω∈Ω

≥0

≤Y (ω)

(iii) Es gilt E[X] =

X

X

xfX (x) =

x∈R

afX (x) +

x∈R

=a

(x − a)fX (x)

x∈R

X

fX (x) +

x∈R

=a+

X

X

X

xfX (a + x)

x∈R

xfX (a + x) +

x>0

=a+

X X

xfX (a + x)

x0

=a+

X X

−xfX (a − x)

x>0

xfX (a + x) −

x>0

X

xfX (a + x) = a.

x>0

Beispiel 5.9 (Mittelwert der Binomialverteilung). Sei X eine Zufallsvariable auf (Ω, A, P) mit PX = Bin(n, p). Gesucht ist E[X]. 1. L¨ osung: Berechnen nach Definition: E[X] = =

n X k=0 n X k=0

=

k · P(X = k)   n k· · pk (1 − p)n−k k

n·p·

n X k=1

= n·p·

j=k−1

n−1 X j=0

(n − 1)! · pk−1 · (1 − p)(n−1)−(k−1) (k − 1)!((n − 1) − (k − 1))! (n − 1)! · pj · (1 − p)n−1−j j!(n − 1 − j)!

=

n · p · (p + 1 − p)n−1

=

n · p.

2. L¨ osung: Seien Xi unabh¨ angige Ber(p)-verteilte Zufallsvariablen, d.h. P(Xi = 1) = p und P(Xi = 0) = 1 − p. Pn Gem¨ aß Beispiel 3.7 ist dann i=1 Xi gerade Bin(n, p)-verteilt, hat also dieselbe Verteilung wie X.

54

5

MASSZAHLEN VON ZUFALLSVARIABLEN

Daher folgt n hX i E[X] =E Xi i=1

= =

n X i=1 n X

E[Xi ]  0 · P(Xi = 0) + 1 · P(Xi = 1) = n · p.

i=1

Wir erinnern uns an den Erd˝ os–R´ enyi-Graph aus Beispiel 1.6 mit n ∈ N Knoten: Ob eine Kante zwischen zwei Knoten gezogen wird, sei durch unabh¨angige Bernoulli-verteilte ZVn  Xi ∼ Ber(p), i = 1, . . . , n2 mit Verbindungsw’keit p ∈ (0, 1) beschrieben.  ▶ Wir erwarten im Mittel n2 p Kanten im Erd˝os–R´enyi-Graph. ♢ Das folgende Beispiel setzt unsere Quicksort-Analyse aus Beispiel 3.16 fort, wird aber aus Zeitgr¨ unden nicht in der Vorlesung besprochen. Beispiel 5.10 (Erwartete Laufzeit von Quicksort). Sei Z(X) = Z(x1 , . . . , xn ) die zuf¨allige Zahl der Vergleiche, die ben¨ otigt werden, um x1 , . . . , xn zu sortieren. Gesucht ist µn := E[Z(X)] =

∞ X

j · P(Z(X) = j) =

j=0

∞ X

jfn (j).

j=0

Dabei bezeichnet fn die Z¨ ahldichte von Z(X), die nur von n abh¨angt (vgl. Bsp. 3.16), so dass auch µn nur von n abh¨ angt. Es wird zuf¨ allig eine Zahl xj gleichverteilt aus x1 , . . . , xn ausgew¨ahlt; alle Zahlen kleiner als xj werden in einem Vektor Xl zusammen gefasst, die gr¨oßeren Zahlen in einem Vektor Xr . Es folgt = E[Z(X)]

µn

= E[n − 1 + Z(Xl ) + Z(Xr )] = n − 1 + E[Z(Xl )] + E[Z(Xr )]. Sei xj die K-t kleinste Zahl. Dann hat der Vektor Xl der Zahlen kleiner als xj die L¨ange K − 1 und der Vektor Xr der Zahlen gr¨ oßer als xj die L¨ange n − K. Daher gilt E[Z(Xl )]

= = =

∞ X j=0 ∞ X j=0 ∞ X

jP(Z(Xl ) = j) j

j

j=0

=

n X k=1 n X

P(Z(Xl ) = j | K = k)P(K = k) fk−1 (j) ·

k=1

1 n

n ∞ 1 XX · jfk−1 (j) n j=0 k=1

=

n n−1 1 X 1 X · µk−1 = · µj . n n j=0 k=1

Ebenso erh¨ alt man E[Z(Xr )] =

n n−1 1 X 1 X · µn−k = · µj , n n j=0 k=1

5.1

55

Erwartungswerte und ihre Eigenschaften

zusammen ergibt sich die Rekursionsformel µn = n − 1 +

n−1 2X µj . n j=0

Es folgt f¨ ur alle n ≥ 2 nµn = n(n − 1) + 2

n−1 X

µj

und

(n − 1)µn−1 = (n − 1)(n − 2) + 2

j=0

n−2 X

µj

j=0

und somit nµn − (n − 1)µn−1 = 2(n − 1) + 2µn−1

µn =

⇐⇒

n−1 n+1 µn−1 + 2 . n n

Mit vollst¨ andiger Induktion kann man zeigen, dass ( n X ≤ 2n log n 1 µn = 2(n + 1) − 4n ∼ 2n log n j ≥ 2n log n − 4n j=1 Aus Beispiel 3.16 ist bekannt, dass die Laufzeit im best case ∼ n log2 n = n log n/ log 2 ist. ▶ Die erwartete Laufzeit f¨ ur große Datens¨atze verh¨alt sich, wie das 2 log 2-fache der k¨ urzesten Laufzeit! ♢ Eine hilfreiche Anwendung von Erwartungswerten ist die Siebformel von Sylvester-Poincar´e bzw. das Einschluss-Ausschluss-Prinzip. Diese kann man zwar auch elementar mit den Mitteln aus Kapitel 1 beweisen, jedoch erm¨ oglichen Erwartungswerte dank der oben bewiesenen Rechenregeln eine deutlich einfachere Beweisf¨ uhrung (statt u ¨ber vollst¨andige Induktion). Mit den Mitteln aus Kapitel 1 l¨ asst sich leicht zeigen: P(A ∪ B) = P(A) + P(B) − P(A ∩ B) P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C) Allgemeiner gilt:

Satz 5.11 (Einschluss-Ausschluss-Prinzip). Seien A1 , . . . , An ∈ A Ereignisse in einem Wahrscheinlichkeitsraum (Ω, A, P). Dann gilt: n n [  X P Ai = P(Ai ) − i=1

i=1

=

X 1≤i 0. Somit wissen wir E[X] = λ = Var(X). 1. F¨ ur die Markov-Ungleichung gilt mit c > 0: P(X ≥ c) ≤

E[X] λ = c c

2. Die Chebyshev-Ungleichung liefert f¨ ur c > λ: P(X ≥ c) =P(X − λ ≥ c − λ) ≤P(|X − λ| ≥ c − λ) ≤

Es gilt:

 Markov ist sch¨ arfer, falls

c λ +

1 2

Var(X) λ = (c − λ)2 (c − λ)2

q λ + 14 , q + λ + 14 . +

Oft sind beide Schranken viel gr¨ oßer als P(X ≥ c) (m¨oglicherweise sogar ≥ 1).

5.2

61

Momente von Zufallsvariablen

2 1.8 1.6 1.4 1.2 1

Abb.: F¨ ur eine Po(λ)-verteilte ZV X mit λ = 10 die W’keiten P(X ≥ c) (blau durchgezogen) und P(|X − λ| ≥ c − λ) (braun Strich-Punkt), sowie die Markov-Schranke λ/c (rot gepunktet) und die Chebyshev-Schranke λ/(c−λ)2 (rot gestrichelt) jeweils als Funktion von c > λ.

0.8 0.6 0.4 0.2 0 10

12

14

16

18

20

22

24

26

28

30

♢ Bemerkung 5.22. Die Varianz ist im Gegensatz zum Erwartungswert nicht linear im Argument. Vielmehr gilt f¨ ur Zufallsvariablen X, Y mit E[X 2 ], E[Y 2 ] < ∞: Var(aX + b) = a2 · Var(X), (s.o.) sowie

f¨ ur a, b ∈ R,

  Var(X + Y ) = Var(X) + 2E (X − E[X]) · (Y − E[Y ]) + Var(Y ).

Die vorangegangene Formel f¨ ur die Varianz der Summe von Zufallsvariablen bringt uns direkt auf einen weiteren zentralen Begriff.

Definition 5.23. Es seien X, Y Zufallsvariablen mit Erwartungswerten E[X] und E[Y ].   Cov(X, Y ) := E (X − E[X]) · (Y − E[Y ]) = E[XY ] − E[X] · E[Y ] heißt (im Falle der Existenz) die Kovarianz von X und Y . Cov(X, Y ) Corr(X, Y ) := p Var(X) · Var(Y ) heißt dann Korrelation von X und Y , falls Var(X) > 0 und Var(Y ) > 0. X und Y heißen unkorreliert, falls Cov(X, Y ) = 0.

Beispiel 5.24. Seien X : Ω → {0, 1} und Y : Ω → {−1, 0, 1} ZVn auf einem diskreten W’raum (Ω, P). In der nachfolgenden Tabelle ist die Z¨ahldichte P(X = x, Y = y) der gemeinsamen Verteilung von (X, Y ) angegeben: x\y 0 1

-1 1/10 3/10

0 1/20 3/10

1 1/10 3/20

Zur Berechnung der Kovarianz und Korrelation: • Berechne die Z¨ ahldichten von X, Y u ¨ber die Zeilen- bzw. Spaltensummen. • Berechne E[X] = 3/4 und E[Y ] = −3/20.

62

5 • Berechne E[XY ] =

P1

x=0

P1

y=−1

MASSZAHLEN VON ZUFALLSVARIABLEN

xyP(X = x, Y = y) = −3/20.

• Es folgt Cov(X, Y ) = E[XY ] − E[X]E[Y ] = −3/80. • Berechne Var(X) = E[X 2 ] − E[X]2 = 3/16 und Var(Y ) = 251/400. p ▶ Es folgt Corr(X, Y ) = − 3/251.



Bemerkung 5.25. Existiert die Kovarianz zweier Zufallsvariablen X, Y , so gilt f¨ ur alle a, b, c, d ∈ R Cov(aX + b, cY + d) = ac Cov(X, Y ). Ist Z eine weitere Zufallsvariable, so dass Cov(X, Z) existiert, so gilt außerdem Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z). Diese sogenannte Bilinearit¨ at der Kovarianz, d.h. die Kovarianz ist in beiden Argumenten jeweils linear, kann man leicht anhand der Definition nachrechnen. Erinnerung, vgl. Satz 5.15: Seien X und Y stochastisch unabh¨angige reellwertige Zufallsvariablen mit Erwartungswerten E[X] und E[Y ]. Dann gilt E[X · Y ] = E[X] · E[Y ]. ▶ Unabh¨ angige Zufallsvariablen sind unkorreliert. Man beachte, dass aus Unkorreliertheit nicht Unabh¨angigkeit folgt: Beispiel 5.26. Sei X gleichverteilt auf {−1, 0, 1} und Y = X 2 . Dann gilt 1 2 1 + 1 · = 0 = 0 · = E[X]E[Y ], aber 3 3 3 1 1 2 P(X = 1, Y = 1) = P(X = 1) = ̸= · = P(X = 1)P(Y = 1). 3 3 3

E[XY ] = E[X 3 ] = −1 ·



Korollar 5.27. F¨ ur Zufallsvariablen X1 , . . . , Xn gilt Var

n X

n  X Xi = Var(Xi ) + 2

i=1

i=1

X

Cov(Xi , Xj ),

1≤i 2. Dann gilt E[X] = 1 − ε + ε · n

und

1−ε 3 ,i

∈ {0, 1, 2}, und P(X =

m(X) = 1,

denn P(X ≤ 1) = 32 (1 − ε) ≥ 12 und P(X ≥ 1) = 23 (1 − ε) + ε ≥ 21 . ▶ W¨ ahrend E[X] linear in n w¨ achst, spielt die Gr¨oße des Ausreißers n f¨ ur m(X) keine Rolle. m(X) ist damit robust gegen¨ uber Ausreißern. ♢ Als Verallgemeinerung des Medians definieren wir: Definition 5.34. F¨ ur eine Zufallsvariable X mit Verteilungsfunktion FX und 0 < p < 1 heißt −1 tp := tp (X) := FX (p) := inf{x ∈ R : FX (x) ≥ p}

p-Quantil (der Verteilung) von FX (bzw. von X). • t1/2 = m ist ein Median, • t1/4 heißt unteres Quartil, • t3/4 heißt oberes Quartil (der Verteilung) von FX (bzw. von X).

66

5

MASSZAHLEN VON ZUFALLSVARIABLEN

1,5 x1 - 0.5 0,5 1,0 0,0

0,5

1,0

1,5

0,0

0,0 0,2 0,4 0,6 0,8 1,0

−1 Achtung: Falls FX stetig und streng monoton wachsend ist, so ist FX die Umkehrfunktion zu FX .

0,0

0,2

0,4

0,6

0,8

1,0

Abb.: Verteilungsfunktion (links) und zugeh¨orige Quantile (rechts). Bemerkung 5.35. 1. Ist fX symmetrisch, so ist E[X] ein Median. 2. Das p-Quantil von N(0, 1) bezeichnen wir mit qp . Wichtige Quantile: p qp

0, 900 1.2816

0, 950 1, 6449

0, 975 1, 9600

0, 990 2, 3263

0, 995 2, 5758

0, 999 3.0902

F¨ ur p < 0, 5 verwende qp = −q1−p , 0 < p < 1. So ist etwa q0.05 = −q0.95 = −1.6449.

67

6

Grenzwerts¨ atze

In diesem Kapitel werden wir zwei fundamentale Resultate der Wahrscheinlichkeitstheorie kennen lernen, welche das asymptotische Verhalten von gewichteten Mitteln unabh¨angiger Zufallsvariablen beschreiben. Das erste Resultat dieser Art ist das sogenannte Gesetz der großen Zahlen“. ” Wir betrachten Summen von n Zufallsvariablen Xi f¨ ur n → ∞. F¨ ur große n ist die Verteilung von P n i=1 Xi in der Regel nicht exakt berechenbar. Ziel: Eine gute Approximation der Verteilung der Summe f¨ ur große n. Satz 6.1 (Schwaches Gesetz der großen Zahlen). Seien Xi , i ∈ N, unkorrelierte Zufallsvariablen mit Erwartungswerten E[Xi ] und existiere ein M < ∞, sodass Var(Xi ) ≤ M f¨ ur alle i ∈ N. Dann gilt f¨ ur alle ε > 0 n  1 X M (Xi − E[Xi ]) ≥ ε ≤ 2 −→ 0 P n i=1 nε

f¨ ur

n→∞

Beweis. Die Chebyschev-Ungleichung und die Unkorreliertheit der Xi zusammen mit Korollar 5.27 liefern: n n n 1 X   1 X h1 X  i P (Xi − E[Xi ]) ≥ ε = P Xi − E Xi ≥ ε n i=1 n i=1 n i=1 ≤

n 1 X  1 Var X i ε2 n i=1

=

X  1 Var Xi 2 2 n ε i=1

=

 1 X Var(X ) i n2 ε2 i=1

n

n

M nε2 Dieser Satz f¨ uhrt uns auf die sogenannte stochastische Konvergenz. ≤

Definition 6.2. Seien Y, Yn R-wertige Zufallsvariablen. Yn konvergiert (P-)stochastisch gegen Y , falls ∀ε > 0 :

P(|Yn − Y | ≥ ε) −→ 0. n→∞

Wir schreiben Yn → Y oder Yn → Y P-stochastisch. P

Bemerkung 6.3. Unter der Bedingung von Satz 6.1 gilt also n

1X P (Xi − E[Xi ]) → 0. n i=1 n

Ist E[Xi ] = µ f¨ ur alle i ∈ N, so gilt zudem

1X P Xi → µ. n i=1

68

6

¨ GRENZWERTSATZE

Beispiel 6.4 (Gesetz der großen Zahlen f¨ ur den fairen M¨ unzwurf). M¨ ochte man testen, ob eine M¨ unze fair ist, dann werfe man sie n Mal und definiere f¨ ur 1 ≤ i ≤ n ( 1, falls im i-ten Wurf Kopf f¨allt, Xi := 0, falls im i-ten Wurf Zahl f¨allt.

0.9 0.7 0.5

Pn Abb.: Realisierung von n1 i=1 Xi f¨ ur Xi ∼ Ber(1/2) und n ∈ {1, . . . , 500}.



● ● ● ●

0.6

P-stochastisch.

s[(1:n)]

n 1X n→∞ Xi → p n i=1

0.8

▶ Wegen E[Xi ] = p und des G.d.g.Z. konvergiert die relative H¨ aufigkeit, mit der Kopf f¨ allt:

1.0

Xi sind unabh¨ angig und Ber(p)-verteilt. F¨ ur eine faire M¨ unze gilt p = 1/2.

● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0

100

200

300

400

500

Ist die M¨ unze fair, so ist die relative H¨aufigkeit mit hoher W’keit nahe 1/2. Frage: Bei welchen Abweichungen von 1/2 kann man diese als deutlichen Hinweis auffassen, dass die M¨ unze unfair ist (also p ̸= 1/2 gilt)? Ist tats¨ achlich p = 1/2, so zeigt der Beweis von Satz 6.1 (bzw. die Chebychev-Ungl.) f¨ ur Yn := Pn X : i i=1  Y  Var(X ) 1 p(1 − p) 1 n 1 P − ≥ε ≤ = = . n 2 nε2 nε2 4nε2 √ ▶ Eine Abweichung√ gr¨ oßer als ε = 1/ 4τ n tritt h¨ochstens mit W’keit τ auf. Ist z.B. n = 500 (1/ n ≈ 0,045), so liefert die Wahl ε = 0,1  Y  1 n P(Yn ̸∈ (200, 300)) = P − ≥ 0, 1 ≤ 0, 05. n 2 Liegt die tats¨ achliche Anzahl von K¨ opfen nicht im Intervall (200, 300), so ist die M¨ unze also vermutlich unfair. Allerdings ist das Intervall unn¨otig lang. Sp¨ater wird der sog. zentrale Grenzwertsatz genauere Absch¨ atzungen liefern. ♢ Die folgende Anwendung ist ein weiteres Beispiel randomisierter Algorithmen. Beispiel 6.5 (Monte-Carlo-Simulationen). Ziel: Berechne f¨ ur eine Zufallsvariable Z den Erwartungswert E[Z]. Problem: Verteilung PZ ist oft zwar prinzipiell bekannt, aber nicht analytisch bestimmbar. Insbesondere ist dies oft der Fall, wenn Z von der Form f (Y1 , . . . , Yk ) f¨ ur “einfache“ Zufallsvariablen Yi ist. Idee: Simuliere unabh¨ angige Zufallsvariablen Zi , die verteilt sind wie Z (tats. Pseudozufallszahlen“ ” zi , die sich im Wesentlichen wie Zi verhalten). Wegen des Gesetzes der großen Zahlen n

1X Zi → E[Z] P-stochastisch n i=1 Pn ist zu hoffen, dass n1 i=1 zi ≈ E[Z], wenn n hinreichend groß ist. Konkretes Beispiel: Seien Y1 , Y2 unabh¨ angig und gleichverteilt auf [0, 1]. Somit ist (Y1 , Y2 ) gleichverteilt auf [0, 1]2 . Betrachte die Indikatorfunktion, dass (Y1 , Y2 ) im Viertelkreis liegt:

1.0

69

0.8

Z = 1{Y12 +Y22 ≤1} .

0.6

Dann gilt

0.2

0.4

Y2

E[Z] = P(Y12 + Y22 ≤ 1) Fl¨ ache Viertelkreis π = = . Fl¨ ache Einheitsquadrat 4

n 1X 4· zi ≈ 4 · E[Z] ≈ π. n i=1

0.0

▶ Mittels unabh. Realisierungen zi von Z erhalten wir f¨ ur große n eine Approximation von π:

●● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ● ●● ● ● ● ● ●●● ● ●●● ●● ●● ●● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ●● ● ●● ● ●● ●● ● ● ● ●● ● ●● ●● ● ● ● ●●●● ● ● ●● ● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ●● ● ● ●● ● ●●● ● ●●●● ● ● ●● ● ● ● ●● ● ●● ●● ● ●● ●●● ● ● ●● ●●●● ●●● ● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●● ●● ●● ● ● ● ●● ● ●● ●●●● ● ● ● ●●● ● ● ● ● ●● ●● ●● ● ●●●● ●● ● ● ●● ● ●●●●●● ●●● ●●● ●●● ● ●●● ● ●● ● ● ● ●●●● ● ● ●●● ● ●● ●● ● ● ● ● ●● ●● ●●●● ●● ● ●● ● ● ●● ●● ● ● ●● ●●● ● ● ●● ● ●●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ●● ● ●● ●● ●● ●●● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●● ●● ● ●● ●●● ● ●● ●● ●●●● ●● ● ● ● ● ● ●●● ●● ● ●● ● ● ● ● ● ● ●● ●●● ● ●● ● ●● ● ● ●●●● ● ●●●●●●● ●● ● ● ●● ●● ● ●● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ●● ●● ●● ●● ● ●●● ● ● ●● ● ●● ● ● ●● ●● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●●●●● ●●● ●●●● ●●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●●● ●● ● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ●● ● ● ● ●● ●● ● ● ● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ●● ●●●●●● ●●● ● ●● ● ● ● ● ● ● ●● ●●● ●● ● ●● ●●● ● ●● ● ●● ●●● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ●● ● ● ●● ● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ●● ●

0.0

0.2

0.4

0.6

0.8

1.0

Abb.: n = 1000 Realisierung von (Y1 , Y2 ) und resultierender Approximation π ≈ 3.1480. ♢

F¨ ur den Spezialfall unabh¨ angiger und identisch verteilter Zufallsvariablen (Xi )i≥1 mit E[Xi ] = µ und σ 2 := Var(Xi ) ∈ (0, ∞) liefert das Gesetz der großen Zahlen einen Grenzwert f¨ ur die Partialsummen n 1X P Xi → µ, n → ∞. n i=1 Pn ▶ Wie verh¨ alt sich die Verteilung von i=1 Xi f¨ ur n → ∞? Es gilt n n n hX i X  X Xi = nµ Xi = Var(Xi ) = nσ 2 . E und Var i=1

i=1

i=1

▶ Wir standardisieren, indem wir die Zufallsvariablen Sn := √

1 nσ 2

n X (Xi − µ), i=1

betrachten, sodass E[Sn ] = 0 und Var(Sn ) = 1 f¨ ur alle n ∈ N gilt. Unser zweites fundamentales Grenzwertresultat liefert Aufschluss u ¨ber die asymptotische Verteilung von Sn .

Satz 6.6 (Zentraler Grenzwertsatz). Seien Xi , i ∈ N, unabh¨ angige und identisch verteilte Zufallsvariablen, d.h. PXi = PX1 ∀i, (kurz: i.i.d.“ f¨ ur independent and identically distributed“) mit ” ” Erwartungswert µ = E[Xi ] und Varianz σ 2 = Var(Xi ) ∈ (0, ∞). Dann gilt f¨ ur alle x ∈ R: Z x n  1  X 2 1 n→∞ (Xi − µ) ≤ x −→ Φ(x) = √ e−t /2 dt. P √ 2 2π −∞ n · σ i=1 mit der Standardnormalverteilungsfunktion Φ.

Der Beweis ist z.B. im Lehrbuch von D¨ umbgen zu finden. Beispiel 6.7 (Normalapproximation der Poisson-Verteilung). Es seien Xi , 1 ≤ i ≤ n, i.i.d. Poisson-verteilt mit Parameter λ > 0. Somit gilt E[Xi ] = Var(Xi ) = λ, vgl. Beispiele 5.2 und 5.18.

70

6

¨ GRENZWERTSATZE

▶ Der Zentrale Grenzwertsatz liefert (f¨ ur großes n) n  1 X  (Xi − λ) ≤ x ≈ Φ(x) P √ nλ i=1

und daher n   X √  √  √  (Xi − λ) ≥ c ≈ Φ − c/ nλ + 1 − Φ c/ nλ = 2Φ − c/ nλ . P i=1

Andererseits ist

Pn

i=1

Xi Poisson-verteilt mit Parameter nλ (s. Bsp. 3.15), sodass

n   X  P (Xi − λ) ≥ c = 1 − Ponλ {⌈nλ − c⌉, . . . , ⌊nλ + c⌋} . i=1

Vergleich dieser Wahrscheinlichkeiten:

Abb.: W’keiten f¨ ur nλ = 100, jeweils abgebildet als Funktion von c. Blau durchgezogen: tats¨ achliche W’keit, schwarz gestrichelt: Normalapproximation, rot gepunktet: Chebychev’sche Schranke. Links: c ∈ [0, 20], rechts c ∈ [0, 80] mit logarithmischer Skala der y-Achse. ▶ W¨ ahrend f¨ ur moderate c die Approximation sehr gut ist, ergeben sich gr¨oßere Abweichungen f¨ ur extremere Werte von c. ♢ Wenden wir den Zentralen Grenzwertsatz auf eine Ber(p)-verteilte i.i.d. Folge (Xi )i≥1 an, ergibt sich wegen E[Xi ] = p und Var(Xi ) = p(1 − p): Korollar 6.8 (Zentraler Grenzwertsatz von Moivre-Laplace). Ist Yn eine Bin(n, p)-verteilte Zufallsvariable mit p ∈ (0, 1) f¨ ur alle n ∈ N, so gilt   Yn − np n→∞ P a< p ≤ b −→ Φ(b) − Φ(a) np · (1 − p)

∀ − ∞ ≤ a ≤ b ≤ ∞.

Beweis. F¨ ur i.i.d. PnBer(p)-verteilte (Bernoulli-)Zufallsvariablen (Xi )i∈N gilt, dass Yn die selbe Verteilung hat wie i=1 Xi . Zudem gilt (siehe Beispiele oben) µ = E[Xi ] = p sowie σ 2 := Var(Xi ) = p(1 − p). Daher folgt aus dem Zentralen Grenzwertsatz   Y − np   Y − np   Yn − np n n P a< p ≤b =P p ≤b −P p ≤a np · (1 − p) np · (1 − p) np · (1 − p)   Pn (X − µ)   Pn (X − µ) i i i=1 i=1 √ √ =P ≤b −P ≤a nσ 2 nσ 2 n→∞ −→ Φ(b) − Φ(a) ∀ − ∞ ≤ a ≤ b ≤ ∞.

71 ¨ Beispiel 6.9 (Uberbuchung, vgl. Bsp. 3.12). Bei einem Flug kann das Flugzeug n0 = 200 Personen bef¨ordern. Mit Wahrscheinlichkeit p = 0,96 erscheinen die Ticketinhaber jeweils unabh¨angig voneinander zum Flug. Frage: Wie viele Tickets darf das Unternehmen verkaufen, damit die Wahrscheinlichkeit einer ¨ Uberbuchung (d.h., dass mehr als n0 Personen zum Abflug erscheinen) maximal 0,05 betr¨agt? Bezeichnet X

= Anzahl der Personen, die zum Flug erscheinen,

n

= Anzahl der verkauften Tickets,

so ist X gerade Bin(n, p)-verteilt. ▶ W¨ ahle n nun maximal so, dass P(X > n0 ) ≤ 0,05. Der Zentrale Grenzwertsatz (bzw. Korollar 6.8) liefert die Approximation P(X > n0 )

= ≈

 X − np n0 − np  >p P p np(1 − p) np(1 − p)  n − np  ! 0 1−Φ p ≤ 0,05. np(1 − p)

Soll nun die rechte Seite kleiner oder gleich 0,05 sein, so ist dies ¨aquivalent zu s  n + 1−p (Φ−1 (0,95))2 2  n 2 −1 n0 + 1−p (0,95))2 0 0 2 (Φ 2 − − n ≤ p p p ≈ 203,55. ▶ Man kann also maximal 203 Tickets verkaufen. ¨ Die tats. Uberbuchungsw. betr¨ agt dann nur Bin(203,p) ({201, 202, 203}) ≈ 0,0113.



Beispiel 6.10 (Stetigkeitskorrektur). Die obige Approximation l¨ asst sich merklich verbessern! Da X nur nat¨ urliche Zahlen als Werte annehmen kann, gilt P(X > n0 ) = P(X > t)

∀t ∈ [n0 , n0 + 1).

Es ergibt sich wie oben  t − np  P(X > t) ≈ 1 − Φ p . np(1 − p) Oft wird der mittlere Wert t = n0 + 12 des Konstanzintervalls verwendet. Diese Wahl nennt man Stetigkeitskorrektur, da die Sprungfunktion t 7→ P(X ≤ t) durch eine stetige Funktion approximiert wird. Damit ergibt sich n ≤ 204,06, d.h. max. 204 verkaufte Tickets. In der Tat gilt ( 0,048 f¨ ur n = 204, P(X > n0 ) = Bin(n,p) (n0 + 1, . . . , n) ≈ 0,094 f¨ ur n = 205. ♢

72

7

7

STATISTIK

Statistik

Statistische Methoden werden immer dann angewandt, wenn Entscheidungen unter Unsicherheit getroffen werden m¨ ussen. Beispiele: • Marketing-Studien / Suchmaschinen: m¨oglichst sichere“ Informationen u ¨ber das unsichere“ ” ” Kaufverhalten von Kunden gewinnen • Wahlen: Vorhersage der Ergebnisse kurz nach Schließen der Wahllokale • Versicherungen: Kalkulation von Pr¨amien trotz ungewisser Schadensentwicklung • Medizin: Wirksamkeit neuer Medikamente und Wechselwirkung mit anderen Medikamenten • Qualit¨ atssicherung: Wann gehen konstruierte Maschinen kaputt? • Mikroskopie: Bildanalyse trotz Beobachtungsfehlern / Rauschen • Datenwissenschaften: Klassifikation von Bildern und Schriftzeichen ▶ Die Daten sind in all diesen Beispielen mit Fehlern oder Unsicherheiten behaftet, diese k¨onnen durch Zufallsexperimente beschrieben werden Wir unterteilen die Statistik wie folgt: • Beschreibende (deskriptive) Statistik – Beschreibung und Auswertung von Datens¨atzen in Form von Kennzahlen, Graphiken und Tabellen. – Dabei werden nur Aussagen zu den betrachteten Daten getroffen. • Beurteilende (schließende, induktive) Statistik: – Aus vorliegenden Daten werden R¨ uckschl¨ usse gezogen, die eine allgemeinere G¨ ultigkeit besitzen sollen, insbesondere auf neu gewonnene Beobachtungen. – Zur Quantifizierung des Risikos fehlerhafter Schl¨ usse benutzt jedes Verfahren der schließenden Statistik ein wahrscheinlichkeitstheoretisches Modell. Angewandte Statistik ist stets auf eine bestimmte Fachwissenschaft bezogen. ▶ Statistik ist einer der Grundpfeiler moderner Datenwissenschaften.

Definition 7.1. Sei X die Menge aller m¨oglichen Beobachtungen in einem Zufallsexperiment. Wird das Zufallsexperiment n-mal durchgef¨ uhrt und bezeichne xi ∈ X das i-te Ergebnis, dann heißt x := (x1 , . . . , xn ) Stichprobe (oder Urliste) vom Umfang n ∈ N. X heißt auch Stichprobenraum. Eine erste Kennzahl der deskriptiven Statistik: Definition 7.2. F¨ ur a ∈ X und eine Stichprobe x ist die absolute H¨ aufigkeit bzw. relative H¨ aufigkeit von a in x definiert durch Hx (a) :=

n X i=1

1{xi =a} bzw. hx (a) :=

Hx (a) . n

7.1

73

Deskriptive Statistik

Ein erster Schluss der induktiven Statistik: Sind xi Realisierungen von i.i.d. Zufallsvariablen Xi auf einem diskreten Wahrscheinlichkeitsraum (X n , P), dann gilt hx (a) −→ P(X1 = a)

f¨ ur

P

7.1

n → ∞.

Deskriptive Statistik

Im Folgenden befassen wir uns zun¨ achst mit der deskriptiven Statistik. Die bei einem stochastischen Vorgang beobachtbaren Gr¨oßen heißen Merkmale. • quantitative Merkmale – stetige Merkmale z.B. Gr¨oße, Gewicht und L¨ange[1mm] – diskrete Merkmale z.B. Anzahlen, Alter in Jahren[1mm] • qualitative Merkmale – ordinale Merkmale z.B. Zeugnisnoten, Priorit¨at eines Prozesses[1mm] – nominale Merkmale z.B. Prozessortyp, Geschlecht einer Person Werte, die von Merkmalen angenommen werden k¨onnen, heißen Merkmalsauspr¨ agungen.

Definition 7.3. Die empirische Verteilungsfunktion von x = (x1 , . . . , xn ) ist die Funktion Fn : R → [0, 1] n

1X 1{xi ≤t} , t ∈ R. t 7→ Fn (t) := n i=1

Bemerkung 7.4. • Fn (t) ist der Anteil derjenigen Stichprobenelemente, die kleiner oder gleich t sind. Um die Abh¨ angigkeit von x zu betonen, schreiben wir auch Fx statt Fn . • F¨ ur ein diskretes Merkmal gilt Fn (t) =

P

a≤t

hx (a).

• Fn ist die Verteilungsfunktion der empirischen Verteilung (= diskrete Gleichvert. auf den Daten) Pn (A) :=

n X 1X 1{xi ∈A} = n i=1

y∈A

n

1X 1{xi =y} , n i=1 | {z }

A ⊆ X.

=:fn (y) Z¨ ahldichte zu Fn

Beispiel 7.5 (diskretes Merkmal). Bei einer Produktion von Werkst¨ ucken werden n = 20 Proben zu je 15 Teilen entnommen und jeweils die Anzahl defekter Teile festgestellt. xi sei die Anzahl der defekten Teile in der i-ten Probe.

74

7

STATISTIK

Stichprobe: x = (0, 4, 2, 1, 1, 0, 0, 2, 3, 1, 0, 5, 3, 1, 1, 2, 0, 0, 1, 0) H¨ aufigkeitstabelle: aj 0 1 2 3 4 5

Hx (aj ) 7 6 3 2 1 1

hx (aj ) 0.35 0.30 0.15 0.10 0.05 0.05

Fx (aj ) 0.35 0.65 0.80 0.90 0.95 1.00 Abb.: Stabdiagramm und empirische Verteilungsfunktion. ♢

Beispiel 7.6 (Bundestagswahl). Bundestagswahl 2021. % 25

Zweitstimmenergebnis der n = 46.854.508 W¨ahlenden bei der

25.7

24.1

20 14.8

15

11.5

10.3

10

4.9

D

ie

Li

nk e

FD A

P FD

e ru¨ n G

C U + C

D

SP

D

SU

5

Abb.: Zweitstimmenergebnis bei der Bundestagswahl 2021. ♢ Beispiel 7.7 (Stetiges Merkmal). F¨ ur alle Gemeinden in Baden-W¨ urttemberg und Brandenburg betrachten wir den Anteil der Haushalte, die mit einer Internetgeschwindigkeit von ≥ 50 Mbit/s versorgt werden k¨onnen, im Juni 2022 in %.2 ▶ Baden-W¨ urttemberg: x = (99,51, 95,08, 97,61, 97,10, 85,85, . . . ) • Stichprobenumfang: 1101, Kleinster Wert: 0%, gr¨oßter Wert: 100% • Empirische H¨ aufigkeitsverteilung in einer Abstufung von einem Prozent ai 100 99 98 97 96 95 94 93 92 91 90 ... Hx (ai ) 35 56 92 127 105 88 70 61 49 28 23 ... hx (ai ) 0,031 0,051 0,084 0,115 0,095 0,080 0,064 0,055 0,045 0,025 0,021 . . . 2 Quelle:Deutschlandatlas,https://www.deutschlandatlas.bund.de

7.1

75

Deskriptive Statistik

▶ Brandenburg: x = (94,12, 96,18, 97,34, 97,32, 96,68, . . . ) • Stichprobenumfang: 416, Kleinster Wert: 5,43 %, gr¨oßter Wert: 100% • Empirische H¨ aufigkeitsverteilung in einer Abstufung von einem Prozent ai 100 99 98 97 96 95 94 93 92 91 90 ... Hx (ai ) 6 6 10 16 19 21 16 22 24 18 22 ... hx (ai ) 0,014 0,014 0,024 0,038 0,046 0,050 0,038 0,053 0,058 0,043 0,053 . . .

Abb.: Balkendiagramme der absoluten H¨aufigkeiten der prozentualen Anteile der Haushalte, die mit einer Internetgeschwindigkeit von ≥ 50 Mbit/s f¨ ur jede Gemeinde in Baden-W¨ urttemberg und Brandenburg. ♢ ¨ W¨ ahrend wir im vorherigen Beispiel im Prinzip ein stetiges Merkmal hatte (Uberlebensdauer) wurde durch die die Abstufung von 0.1 Monaten eine Diskretisierung/Rundung erzeugt, sodass die H¨ aufigkeitsverteilung noch aussagekr¨ aftig ist. Im Allgemeinen werden sich Merkmalsauspr¨agungen stetiger Merkmale nur selten (wenn u ¨berhaupt) wiederholen. Um dieser Problematik zu begegnen f¨ uhren wir nun Histogramme ein. • Ziel: u ¨bersichtliche Darstellung großer Datenmengen bei stetigem und/oder diskretem Merkmal mit vielen Auspr¨ agungen • Mittel: Klasseneinteilung durch Zerlegung des Stichprobenraums in halboffene Intervalle. • F¨ ur eine vorgegeben Anzahl K ∈ N von Klassen betrachte (a1 , a2 ], (a2 , a3 ], . . . , (aK , aK+1 ]

mit

a1 < a2 < · · · < aK < aK+1 , a1 < min xj , 1≤i≤n

max xj ≤ aK+1 .

1≤i≤n

▶ Das Histogramm ist definiert als die Funktion fˆnhist (y) :=

K X k=1

dk 1(ak ,ak+1 ] (y),

y ∈ R,

wobei

76

7

dk :=

nk , ak+1 − ak

nk :=

n 1 X 1{ak 0) Stichprobenvariationskoeffizient. x

Beispiel 7.10 (Fortsetzung von Beispiel 7.7). • Baden-W¨ urttemberg: • Brandenburg:

x = 87,069,

x = 84,566,

sx = 16,039,

sx = 12,669,

vx =

vx = sx x

sx x

= 0,184

= 0,150



Definition 7.11. Gegeben sei eine Stichprobe x = (x1 , . . . , xn ). • Die aus den aufsteigend sortierten Elementen x(1) ≤ x(2) ≤ . . . ≤ x(n) von x1 , . . . , xn bestehende Stichprobe x() := (x(1) , x(2) , . . . , x(n) ) heißt Ordnungsstatistik (zu x). • Der Stichprobenmedian (Zentralwert) von x ist definiert als ( x e :=

x( n+1 ) , falls n ungerade 2  1 2 · x( n ) + x( n +1) , falls n gerade 2

2

▶x ˜ ist der Median zur empirischen Verteilung Pn im Sinne von Definition 5.30. Beispiel 7.12. • x = (3, 2, 2, 1) =⇒ x() = (1, 2, 2, 3), x e = 12 (2 + 2) = 2 • x = (5, 3, 3, 1, 2) =⇒ x() = (1, 2, 3, 3, 5), x e = x(3) = 3 • Daten aus Bsp. 7.7: Baden-W¨ urttemberg x ˜ = 93.333, Brandenburg x ˜ = 87.867



Man beachte, dass wir f¨ ur gerade n per Konvention beim Stichprobenmedian stets den Mittelpunkt zwischen x( n ) und x( n +1) , vergleiche Beispiel 5.31. 2

2

Definition 7.13. F¨ ur y ∈ R setze ⌊y⌋ := max{k ∈ Z : k ≤ y}. Sei p ∈ (0, 1) und k := ⌊n · p⌋. Dann heißt ( x(k+1) , falls n · p ̸∈ N,  x ep := 1 , sonst, 2 · x(k) + x(k+1) das Stichproben-p-Quantil. Speziell heißen x e0.25 unteres (Stichproben-)Quartil und x e0.75 oberes (Stichproben-)Quartil. Beispiel 7.14. F¨ ur die Daten aus Beispiel 7.8 gilt x e0.5 = x e0.25 =

1 2

1 2

· (x(78) + x(79) ) = 5.380,

· (x(39) + x(40) ) = 4.545,

zum Vergleich: x = 5.407,

x e0.75 =

1 2

· (x(117) + x(118) ) = 6.184. ♢

78

7

STATISTIK

Als n¨ achstes definieren wir eine Mischung aus Mittelwert und Median, der insbesondere robuster gegen¨ uber Ausreißern ist als der Mittelwert, vgl. Beispiel 5.33.

Definition 7.15. F¨ ur α ∈ [0, 0.5) und k := ⌊n · α⌋ ist das α-getrimmte (gestutzte) Stichprobenmittel definiert als xα :=

1 · (x(k+1) + . . . + x(n−k) ). n−2·k

Insbesondere ist x = x0 . Beispiel 7.16 (Fortsetzung von Beispiel 7.7). F¨ ur α = 0.1, n = 100 gilt k = ⌊10.0⌋ = 10. x(111) + . . . + x(991) Baden-W¨ urttemberg: n = 1101, k = ⌊110.1⌋ = 110, x0.1 = = 89.403, 881 x(42) + . . . + x(375) Brandenburg: n = 416, k = ⌊41,6⌋ = 41, x0.1 = = 85.944. 334 ♢ Wir greifen nochmal die Begriffe aus Bemerkung 5.32 im Kontext von empirischen Daten auf. Bemerkung 7.17 (Lage- und Streuungsmaße). • x, x e1/2 , x ep und xα sind Lagemaße, d.h. sie verschieben sich bei Translationen aller Daten um den gleichen Wert ebenfalls um diesen Wert. F¨ ur ein Lagemaß l(x1 , . . . , xn ) gilt also l(x1 + a, . . . , xn + a) = l(x1 , . . . , xn ) + a

f¨ ur alle x1 , . . . , xn , a ∈ R

(sog. Translations¨ aquivarianz). • s2x und sx sind Streuungsmaße, d.h. sie ¨andern sich nicht bei Translation der Daten um den gleichen Wert. F¨ ur ein Streuungsmaß σ(x1 , . . . , xn ) gilt also σ(x1 + a, . . . , xn + a) = σ(x1 , . . . , xn )

f¨ ur alle x1 , . . . , xn , a ∈ R

(sog. Translationsinvarianz). Weitere wichtige Beispiele f¨ ur Streuungsmaße sind – der Quartilsabstand x e0.75 − x e0.25 , – die Stichprobenspannweite x(n) − x(1) , – die mittlere absolute Abweichung

1 n

·

Pn

i=1

|xi − x|.

Wir besch¨ aftigen uns nun mit der Beschreibung zweidimensionaler Daten

6 5

Abb.: Punktwolke oder Streuungsdiagramm mit BIP pro Kopf als Merkmal 1 und Happiness-Score als Merkmal 2 aus Bsp. 7.8.

3

4

Happiness-Score

7

Gegeben sei die Stichprobe (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) ∈ R2 .

0.0

0.5

1.0 BIP pro Kopf

1,5

▶ Ein (parametrisches) Regressionsmodell legt den Typ einer Regressionsfunktion fβ bis auf gewisse Parameter β ∈ Rp fest, sodass die Beobachtungen m¨oglichst gut beschrieben werden, d.h.,

7.1

79

Deskriptive Statistik

f¨ ur ein geeignetes β gilt: yi ≈ fβ (xi )

f¨ ur alle i = 1, . . . , n.

Einfache lineare Regression (Regressionsgerade)

quadratische Regression

exponentielle Regression Abb.: Regressionsmodelle Befassen wir uns mit der einfachen linearen Regression etwas genauer. Die sog. Regressionsgerade y = a ˆ + ˆbx ist bestimmt durch a ˆ, ˆb als L¨osung des Optimierungsproblems

min

a,b∈R

n X

(yi − a − bxi )2 .

i=1

▶ Kleinste-Quadrate-Methode: Minimiere die Quadrate der Residuen yi − a − bxi , i = 1, . . . , n.

Abb.: Illustration der Kleinste-Quadrate-Methode ▶ Urversion der empirischen Risikominimierung als Standardansatz im maschinellen Lernen.

Satz 7.18. PFalls s2x > 0, besitzt das KQ-Kriterium die eindeutige L¨ osung (ˆ a, ˆb) n arg mina,b∈R i=1 (yi − a − bxi )2 mit ˆb =

Pn

j=1 (xj − x) (yj − Pn 2 j=1 (xj − x)

y)

und

a ˆ = y − ˆb x.

=

80

7

Mit

n

s2x :=

STATISTIK

n

1 X 2 (xi − x) , n − 1 i=1

s2y :=

1 X 2 (yi − y) , n − 1 i=1

ist der (empirische) (Pearson-) Korrelationskoeffizient von (x1 , y1 ), ..., (xn , yn ) gegeben durch Pn 1 j=1 (xj − x) (yj − y) n−1 rxy = . sx sy Er misst St¨ arke des affinen Zusammenhangs von Merkmal 1 und Merkmal 2. s ▶ Es gilt ˆb = rxy sxy . Beweis. Differenzieren in a und b f¨ uhrt auf folgende Normalengleichungen: 0=

n X

xi (Yi − axi − b)

und

i=1

0=

n X

(Yi − axi − b)

i=1

Man pr¨ uft leicht nach, dass diese Gleichungen durch ˆ und ˆb gel¨ost werden, sofern die StichproPna 1 ¯n )2 > 0 gilt. Dies ist genau dann benvarianz der (xi ) nicht null ist, das heißt falls n i=1 (xi − x der Fall, wenn es xi , xj mit xi ̸= xj gibt. Offensichtlich liegt bei (ˆ a, ˆb) ein Minimum des streng konvexen Kleinste-Quadrate-Kriteriums vor. rxy ist die empirische Version der Korrelation zwischen zwei Zufallsvariablen, die wir in Kapitel 5 kennengelernt haben. Daher hat rxy analoge Eigenschaften, vgl. Bemerkung 5.29: (i) Es gilt −1 ≤ rxy ≤ +1. (ii) Falls rxy ≈ +1 (≈ −1), so liegt ein deutlich ansteigender (fallender) Trend vor. (iii) Ist rxy ≈ 0, liegt kein stat. Zusammenhang in Form einer linearen Beziehung vor.

Abb.: Zweidimensionale Daten mit negativen (links) bzw. positivem (rechts) Korrelationskoeffizienten (iv) Ist rxy > 0 (rxy < 0), so entsprechen wachsenden xi -Werten im Mittel“ wachsende (fallende) ” yi -Werte. Die Merkmale heißen positiv (negativ) korreliert. (v) Bei linearen Datentransformationen der Form x ej = a · xj + b,

yej = c · yj + d

(mit a > 0, c > 0) ¨ andert sich rxy nicht, d.h. es gilt rxeye = rxy . Beispiel 7.19 (Fortsetzung von Beispiel 7.8). 0.794

Regressionsgerade:

y = 3.34 + 2.22 · x,

rxy =

81

Induktive Statistik

6 5 3

4

Happiness-Score

7

7.2

0.0

0.5

1.0 BIP pro Kopf

1,5

Abb.: Regressionsgerade f¨ ur den Happiness-Score aus Beispiel 7.8 in Abh¨angigkeit des BIP pro Kopf ♢

7.2

Induktive Statistik

Wir kommen nun zur schließenden Statistik. Dabei werden wir auf zahlreiche wahrscheinlichkeitstheoretische Konzepte und Resultate zur¨ uckgreifen, die wir uns im ersten Teil der Vorlesung erarbeitet haben. Beispiel 7.20 (Motivation – Induktive Statistik). Studentin Saskia m¨ochte den Anteil der zufriedenen Studierenden an ihrer Universit¨at herausfinden. Sie f¨ uhrt eine Online-Umfrage durch, bei der alle Teilnehmenden die Frage nach der Zufriedenheit mit Ja oder Nein beantworten k¨onnen. Von den insgesamt N Studierenden f¨ ullen n ≤ N Studis Saskias Umfrage wahrheitsgem¨aß aus. ; Stichprobe x1 , . . . , xn ∈ {0, 1} (xi = 1, falls Studi i zufrieden). ▶ Welche Schl¨ usse kann Saskia aus ihren gesammelten Antworten f¨ ur den tats¨achlichen Anteil zufriedener Studierender ziehen? Wir ben¨ otigen ein wahrscheinlichkeitstheoretisches Modell: Ist M ≤ N die unbekannte Anzahl an zufriedenen Studis, k¨ onnen wir die Anzahl der positiven Antworten als Hyp(N, M, n) zu modellieren. Falls n ≪ N ist Hyp(N, M, n) ≈ Bin(n, ϑ) f¨ ur ϑ = M N ∈ [0, 1] (Bem. 3.10). ▶ Modell: xi sind Realisierungen von ZVn Xi ∈ {0, 1}, i ∈ 1, . . . , n mit i.i.d.

X1 , . . . , Xn ∼ Ber(ϑ)

mit unbekanntem Parameter ϑ ∈ [0, 1],

d.h. die Beobachtungen (Xi )i=1,...,n wurden unter einem der W’maße (Ber(ϑ))ϑ∈[0,1] erzeugt. ▶ Induktive Statistik: Aufgrund von (Xi )i=1,...,n Aussagen zum wahren“ zugrundeliegenden ϑ ” treffen. ♢ ▶ Stichprobe x = (x1 , x2 , . . . , xn ) wird als Realisierung eines Zufallsvektors X = (X1 , X2 , . . . , Xn ) aufgefasst. Sind (Xi )i=1,...,n unabh¨ angig und identisch verteilt, sprechen wir von einer i.i.d. Stichprobe. ▶ Die unbekannte Verteilung von X wird durch eine Familie von Wahrscheinlichkeitsverteilungen modelliert:

82

7

STATISTIK

Definition 7.21. Ein messbarer Raum (X , F ) versehen mit einer Familie (Pϑ )ϑ∈Θ von W’maßen mit einer beliebigen Parametermenge Θ ̸= ∅ heißt statistisches Experiment oder statistisches Modell. Zufallsvariablen auf (X , F , (Pϑ )ϑ∈Θ ) heißen Beobachtung oder Statistik.

X wird im Folgenden stets diskret oder (eine Teilmengen von) Rn sein, sodass wir F als die Potenzmenge bzw. die Borel-σ-Algebra w¨ahlen k¨onnen (wie bisher auch). Betrachten wir den Fall einer i.i.d. Stichprobe genauer: • F¨ ur n ∈ N sei X1 , . . . , Xn ∈ X eine i.i.d. Stichprobe mit X = R, F = BR und Randverteilungsdichte X1 ∼ fϑ mit unbekanntem Parameter ϑ ∈ Θ. ▶ Stichprobenvektor (X1 , . . . , Xn ) ist verteilt gem¨aß Produktdichte (Satz 4.24) fϑn (x1 , . . . , xn ) :=

n Y

fϑ (xi ),

x = (x1 , . . . , xn ) ∈ Rn , ϑ ∈ Θ.

i=1

▶ Statistisches Experiment: (Rn , BRn , (Pnϑ )ϑ∈Θ ), wobei Pnϑ durch die Produktdichte fϑn bestimmt ist. ▶ Kenngr¨ oßen von Pϑ h¨ angen von ϑ, weshalb wir sie mit ϑ indizieren, bspw. Z ∞ Z ∞ 2 Eϑ [X1 ] = x · fϑ (x) dx, Varϑ (X1 ) = (x − Eϑ [X1 ]) fϑ (x) dx. −∞

−∞

Im Folgenden nehmen wir stets an: • Die Parametermenge ist eine Teilmenge Θ ⊆ Rp . Wir sprechen von parametrischer Statistik. • Falls X1 diskret ist, besitzt Pϑ die Z¨ahldichte fϑ . Falls X1 stetig ist, so hat Pϑ die Dichte fϑ . ▶ Die Verteilung der Beobachtungen ist bis auf p viele Parameter bekannt. Im Gegensatz dazu ist Θ in der nichtparametrischen Statistik ein (unendlichdimensionaler) Funktionenraum. Das Histogramm ist ein Beispiel f¨ ur einen nichtparametrischen Sch¨atzer der Dichte. Beispiel 7.22 (Diskrete statistische Modelle). i.i.d.

(i) F¨ ur X1 , . . . , Xn ∼ Ber(ϑ) mit unbekanntem ϑ ∈ (0, 1) gilt p = 1 und Θ = (0, 1), fϑ (x) = ϑx · (1 − ϑ)1−x ,

x ∈ {0, 1}

i.i.d.

(ii) F¨ ur X1 , . . . , Xn ∼ Po(ϑ) mit unbekanntem ϑ > 0 gilt p = 1 und Θ = (0, ∞), ϑx , fϑ (x) = e−ϑ · x! Beispiel 7.23 (Stetige statistische Modelle).

x ∈ N0 .



7.2

83

Induktive Statistik i.i.d.

(i) F¨ ur X1 , . . . , Xn ∼ N(µ, σ 2 ) mit unbekanntem Mittelwert µ ∈ R und unbekannter Varianz 2 σ > 0 gilt p = 2 und Θ = {ϑ = (µ, σ 2 ) : µ ∈ R, σ 2 > 0} = R × (0, ∞),   (x − µ)2 1 , x ∈ R. · exp − fϑ (x) = √ 2σ 2 2πσ 2 i.i.d.

(ii) F¨ ur X1 , . . . , Xn ∼ Exp(ϑ) mit unbekanntem ϑ > 0 gilt p = 1 und Θ = (0, ∞), 1 fϑ (x) = e−x/ϑ , ϑ

x > 0.



▶ Aufgrund der Stichprobe x = (x1 , . . . , xn ) sollen Aussagen u ¨ber die zugrunde liegende Verteilung Pϑ der Stichprobenvariablen gemacht werden bzw. u ¨ber den wahren“ Parameter ϑ ∈ Θ unter dem ” die Beobachtungen erzeugt wurden. Drei grundlegende Fragestellungen der klassischen Statistik: ˆ (i) Parametersch¨ atzung: Mithilfe von x soll ein N¨aherungswert ϑ(x) f¨ ur ϑ angegeben werden. (ii) Hypothesentests: Entscheidung zwischen den sog. Hypothesen es gilt ϑ ∈ Θ0“ oder es ” ” ˙ 1 mit Θ0 , Θ1 ̸= ∅. gilt ϑ ∈ Θ1“, wobei Θ = Θ0 ∪Θ (iii) Konfidenzbereiche: Aufgrund von x soll eine Menge C(x) ⊆ Θ (bspw. ein Intervall) angegeben werden, das mit großer Wahrscheinlichkeit den wahren Parameter ϑ enth¨alt. Verwandte Aufgaben insb. im maschinellen Lernen: Vorhersagen, Klassifikation, Clustering, Dimensionsreduktion 7.2.1

Sch¨ atzprobleme

Ziel: Aufgrund der vorhandenen Beobachtungen x = (x1 , . . . , xn ) soll der unbekannte Parameter im statistischen Modell (X , F , (Pϑ )ϑ∈Θ ) bestimmt werden, also ein einzelner (bestm¨oglicher) Wert daf¨ ur angegeben werden (Punktsch¨ atzung).

Definition 7.24. Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell, ρ : Θ → Rd ein (abgeleiteter) ddimensionaler Parameter, d ∈ N. Ein Sch¨ atzer ist eine (messbare) Abbildung ρˆ : X → Rd . Gilt Eϑ [ˆ ρ] = ρ(ϑ) f¨ ur alle ϑ ∈ Θ, so heißt ρˆ unverzerrt oder erwartungstreu (engl.: unbiased).

▶ Beachte: Der Sch¨ atzer ρˆ darf nicht vom (unbekannten!) Parameter ϑ abh¨angen, sondern nur von den Beobachtungen. In der Analyse untersuchen wir jedoch das Verhalten von ρˆ unter (allen m¨ oglichen) ϑ ∈ Θ. Beispiel 7.25 (abgeleitete Parameter). • Sch¨ atzen von ϑ ∈ R selbst: ρ(ϑ) = ϑ, • Sch¨ atzen des unbekannten Erwartungswertes: ρ(ϑ) = Eϑ [X1 ], • Sch¨ atzen von Wahrscheinlichkeiten: ρ(ϑ) = Pϑ (X1 ∈ B) f¨ ur ein B ∈ F . ♢

84

7

STATISTIK

Beispiel 7.26. i.i.d. Seien X1 , . . . , Xn ∼ Ber(ϑ) mit ϑ ∈ (0, 1) und ρ(ϑ) = ϑ. Betrachte den Sch¨atzer n

1X ϑˆn (x) := xi . n i=1 ▶ ϑˆn (X) ist erwartungstreu: Eϑ [ϑˆn (X)] =

n

1X Eϑ [Xi ] = ϑ. n i=1

Streuung des Sch¨ atzers um den wahren Parameter ϑ? n 1 X ϑ(1 − ϑ) ˆ Varϑ (ϑn (X)) = 2 Varϑ (Xi ) = . n i=1 n

▶ F¨ ur gr¨ oßer werdenden Stichprobenumfang konzentriert sich also ϑˆn (X) um ϑ.



Definition ist sehr allgemein und l¨ asst auch unsinnige Sch¨atzer zu. Wie gut ein Sch¨ atzer ist, wird mithilfe einer Verlustfunktion bestimmt. Diese misst den Abstand zwischen gesch¨ atztem und wahrem Parameter.

Definition 7.27. Eine Funktion ℓ : Θ × Rd → R+ heißt Verlustfunktion, falls ℓ(ϑ, ·) f¨ ur jedes ϑ ∈ Θ messbar ist. Der erwartete Verlust R(ϑ, ρˆ) := Eϑ [ℓ(ϑ, ρˆ)] eines Sch¨ atzers ρˆ heißt Risiko. Typische Verlustfunktionen sind 1. der 0-1-Verlust ℓ(ϑ, r) = 1{r̸=ρ(ϑ)} , 2. der absolute Verlust ℓ(ϑ, r) = |r − ρ(ϑ)| (euklidischer Abstand im Rd ) sowie 3. der quadratische Verlust ℓ(ϑ, r) = |r − ρ(ϑ)|2 .

Folgendes Lemma kann auch als statistischer Pythagoras interpretiert werden: Lemma 7.28 (Bias-Varianz-Zerlegung). Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und ρˆ : X → Rd ein Sch¨ atzer des Parameters ρ(ϑ) mit Eϑ [|ˆ ρ|2 ] < ∞ f¨ ur alle ϑ ∈ Θ. Dann gilt f¨ ur den mittleren quadratischen Fehler (engl. mean squared error, kurz MSE)   ur alle ϑ ∈ Θ. Eϑ |ˆ ρ − ρ(ϑ)|2 = Varϑ (ˆ ρ) + | Eϑ [ˆ ρ] − ρ(ϑ) |2 f¨ {z } | =:Bias

▶ Der quadratische Fehler jedes Sch¨ atzers zerlegt sich in einen systematischen (deterministischen) Fehler |Eϑ [ˆ ρ] − ρ(ϑ)|2 und einen stochastischen Fehler Varϑ (ˆ ρ). Beweis. Es gilt     Eϑ |ˆ ρ − ρ(ϑ)|2 =Eϑ |ˆ ρ − Eϑ [ˆ ρ] + Eϑ [ˆ ρ] − ρ(ϑ)|2   =Eϑ [|ˆ ρ − Eϑ [ˆ ρ]|2 ] + 2Eϑ (ˆ ρ − Eϑ [ˆ ρ])⊤ (Eϑ [ˆ ρ] − ρ(ϑ)) + |Eϑ [ˆ ρ] − ρ(ϑ)|2 = Varϑ (ˆ ρ) + |Eϑ [ˆ ρ] − ρ(ϑ)|2 .

7.2

85

Induktive Statistik

Beispiel 7.29 (Fortsetzung Bsp. 7.26). Pn i.i.d. X1 , . . . , Xn ∼ Ber(ϑ) mit ϑ ∈ (0, 1), ρ(ϑ) = ϑ und ϑˆn (x) := n1 i=1 Xi . Aus der Bias-VarianzZerlegung folgt ϑ(1 − ϑ) Eϑ [|ϑˆn − ϑ|2 ] = Varϑ (ϑˆn ) = . n Betrachte den Sch¨ atzer ϑ˜n (x) :=

n

 1 X xi + 1 . n + 2 i=1

Dann gilt f¨ ur Bias und Varianz 1 − 2ϑ Eϑ [ϑ˜n ] − ϑ = n+2

bzw.

nϑ(1 − ϑ) . Varϑ (ϑ˜n ) = (n + 2)2

▶ ϑ˜n hat eine kleinere Varianz auf Kosten eines (kleinen) Bias. √ ▶ ϑ˜n hat einen kleineren quadratischen Fehler als ϑˆn , wenn |ϑ − 1/2| ≤ 1/ 8.

Abb.: Stabdiagramme der Verteilung von Tn = ϑˆn (X) f¨ ur ϑ = 0.1 (links) und ϑ = 0.7 (rechts) f¨ ur n ∈ {10, 20, 50}. ♢ Drei weitere wichtige Grundbegriffe beschreiben das asymptotische Verhalten von Sch¨atzern, d.h. f¨ ur gr¨ oßer werdenden Stichprobenumf¨ange. Das vorangegangene Beispiel deutet bereits darauf hin.

i.i.d.

Definition 7.30. Sei X1 , . . . , Xn ∼ Pϑ eine i.i.d. Stichprobe. Dann heißt eine Folge von Sch¨ atzern ρˆn = ρˆn (X1 , . . . , Xn ), n ∈ N, f¨ ur den abgeleiteten Parameter ρ(ϑ) ∈ R • asymptotisch erwartungstreu, falls f¨ ur jedes ϑ ∈ Θ lim Eϑ [ˆ ρn ] = ρ(ϑ).

n→∞

• konsistent, falls f¨ ur jedes ϑ ∈ Θ ϑ ρˆn → ρ(ϑ)

P

f¨ ur n → ∞.

86

7

STATISTIK

• asymptotisch normalverteilt, falls Eϑ [|ˆ ρn |2 ] < ∞ und f¨ ur alle ϑ ∈ Θ   ρˆ − E [ˆ n ϑ ρn ] ≤ t → Φ(t) Pϑ p Varϑ (ˆ ρn )

f¨ ur n → ∞ und alle t ∈ R.

Aufgrund des zentralen Grenzwertsatzes sind viele Sch¨atzer asymptotisch normalverteilt, so auch in Beispiel 7.25. Daher kommt der Untersuchung von statistischen Modellen unter Normalverteilungsannahme eine besondere Bedeutung zu. Wir befassen uns nun mit allgemeinen Prinzipien zur Konstruktion von Sch¨atzern, genauer mit (i) dem Sch¨ atzen von Maßzahlen durch entsprechende empirische Maßzahlen, (ii) der Momentenmethode, (iii) der Maximum-Likelihood-Methode. Wir beginnen mit den empirischen Maßzahlen. Dabei begegnen uns diverse Gr¨oßen, die wir bereits in der deskriptiven Statistik kennengelernt haben. Sch¨ atze Maßzahlen durch deren empirisches Analogon einer i.i.d. Stichprobe: ρ(ϑ) Eϑ [X1 ] Eϑ [X1k ] Varϑ (X1 )

Sch¨atzwert n 1X x= xi n i=1 n 1X k x n i=1 i n 1 X 2 sx = (xi − x)2 n − 1 i=1

Median t1/2 (X1 )

empirischer Median x e

Quantil tp (X1 )

empirisches Quantil x ep

Pϑ (X1 ∈ B)

empirische Verteilung Pn (B)

Tab.: Empirische Maßzahlen Beachte: F¨ ur diese Sch¨ atzmethode ben¨otigen wir kein parametrisches Modell. Die i.i.d.-Annahme an die Beobachtungen gen¨ ugt.

Satz 7.31. In einem (beliebigen) statistischen Experiment ist f¨ ur eine i.i.d. Stichprobe der Sch¨ atzer n

(i) X n :=

1X Xi erwartungstreu f¨ ur Eϑ [X1 ]. n i=1 n

(ii) Pn (B) :=

1X 1B (Xi ) erwartungstreu f¨ur P(X1 ∈ B) f¨ur jede B ∈ BR . n i=1 n

(iii) s2n (X1 , . . . , Xn ) :=

1 X (Xi − X n )2 erwartungstreu f¨ ur Varϑ (X1 ). n − 1 i=1

7.2

87

Induktive Statistik

Zudem ist Pn (B) konsistent und X n bzw. s2n (X1 , . . . , Xn ) sind konsistent, falls Eϑ [X12 ] < ∞ bzw. Eϑ [X14 ] < ∞.

Beweis. (i) und (ii) folgen aus der Linearit¨at des Erwartungswertes. (iii) Es gilt S=

n X

 ¯ n − Eϑ [Xi ]) 2 Xi − Eϑ [Xi ] − (X

i=1

=

n X

n X 2  ¯ n − Eϑ [X1 ]) + n X ¯ n − Eϑ [X1 ] 2 Xi − Eϑ [Xi ] − 2 (Xi − Eϑ [Xi ])(X

i=1

=

n X

i=1

 2 ¯ n − Eϑ [X1 ] 2 Xi − Eϑ [Xi ] −n X

i=1

|

{z

˜ =:S

}

¯ n ] = Eϑ [X1 ] erhalten wir und zusammen mit Eϑ [X     ¯ n ])2 E[S] = nE (X1 − Eϑ [X1 ])2 − nE (X n − Eϑ [X = n Var(X1 ) − n Var(X n )   1 = n Var(X1 ) − Var(X1 ) n = (n − 1) Var(X1 ). Mit dem Gesetz der großen Zahlen (Satz 6.1) folgt die Konsistenz von Pn (B), da unabh¨ angig und somit unkorrelliert sind und wegen

1B (Xn ), n ≥ 1,

Varϑ (1B (Xi )) = Pϑ (Xi ∈ B)(1 − Pϑ (Xi ∈ B)) ≤ 1. Analog folgt die Konsistenz von X n unter der Bedingung Eϑ [X12 ] < ∞. ¯ n )i=1,...,n nicht unabh¨angig von einander ussen wir etwas rechnen, da (Xi − X F¨ ur s2n (X1 , . . . , Xn ) m¨ n sind. Mit obiger Zerlegung von S und n−1 ↘ 1 f¨ ur n → ∞ erhalten wir f¨ ur jedes ε > 0 und n hinreichend groß, dass   1  n ¯ n − Eϑ [X ¯ n ] 2 > ε X Pϑ (|s2n (X1 , . . . , Xn ) − Varϑ (X1 )| > ε) = Pϑ S˜ − Varϑ (X1 ) + n−1 n−1   n 1  n n ˜ ¯ n − Eϑ [X ¯ n ] 2 > ε X ≤ Pϑ − 1 Varϑ (X1 ) + S − Varϑ (X1 ) + n−1 n n−1 n−1 | {z } 1 = n−1 ε/2 S − Varϑ (X1 ) + n−1 n n−1  n 1   n  ˜ ¯ n − Eϑ [X1 ] 2 > ε/4 X ≤ Pϑ S − Varϑ (X1 ) > ε/4 + Pϑ n−1 n n−1  1   p  ˜ ¯ n − Eϑ [X1 ] > ε/8 . ≤ Pϑ S − Varϑ (X1 ) > ε/8 + Pϑ X n ¯ n Summen unabh¨angiger Zufallsvariablen sind und Eϑ [ 1 S] ˜ = Varϑ (X1 ), Da sowohl S˜ als auch X n folgt nun wie im Beweis des Gesetzes großer Zahlen, dass beide Wahrscheinlichkeiten gegen 0 konvergieren sofern Eϑ [X14 ] < ∞. Memo: F¨ ur eine Stichprobe x = (x1 , . . . , xn ) ist Pn das W’maß mit Z¨ahldichte fn (y) =

1 n

Pn

i=1

1{xi =y} .

88

7

STATISTIK

Allgemeines Prinzip: F¨ ur eine Funktion h : R → R sch¨atze n

ρ(ϑ) := Eϑ [h(X1 )]

durch

1X ρˆ(x) := Efn [h] = h(xi ) n i=1

Beispiel 7.32. • h(X1 ) = 1B (X1 ) : Sch¨ atze E[h(X1 )] = E[1B (X1 )] = P(X ∈ B) durch n 1 X 1B (xi ) = Pn (B). n i=1 n 1 X xi = x. n i=1

• h(X1 ) = X1 : Sch¨ atze E[h(X1 )] = E[X1 ] durch

• h(X1 ) = (X1 − E[X1 ])2 : Sch¨ atze E[h(X1 )] = E[(X1 − E[X1 ])2 ] = Var(X1 ) durch n n−1 2 1 X (xi − x ¯)2 = · sx . n i=1 n



Mit der Momentenmethode wollen wir als n¨achstes aus den empirischen Erwartungswerten auf die zugrundeliegenden Parameter schließen. Sei ϑ = (ϑ1 , . . . , ϑp ) der unbekannte, p-dimensionale Parameter. Annahme: ϑ1 , . . . , ϑp lassen sich durch die ersten p Momente von X1 ausdr¨ ucken, d.h. es gelte mk (ϑ) := Eϑ [X1k ],

k = 1, . . . , p.

Vorgehen: Sch¨ atze mk (ϑ) durch das k-te Stichprobenmoment n

m b k (x) =

1X k x , n i=1 i

k = 1, . . . , s.

b Der Momentensch¨ atzer ϑ(x) = (ϑb1 (x), . . . , ϑbp (x)) ergibt sich durch Aufl¨osen der p Gleichungen ˆ = m mk (ϑ) b k (x),

k = 1, . . . , p,

nach ϑ. Vorteil: oft einfach anwendbar. Nachteil: ausreißeranf¨allig. Beispiele 7.33 (Fortsetzung Bsp. 7.26). i.i.d.

1. F¨ ur X1 , . . . , Xn ∼ Po(λ) mit Parameter λ ∈ Θ = (0, ∞) gilt m1 (λ) = Eλ [X1 ] = λ. Wir erhalten den Momentensch¨ atzer n 1X ˆ Xi . λ= n i=1 i.i.d.

2. F¨ ur X1 , . . . , Xn ∼ U([0, ϑ]) mit Parameter ϑ ∈ Θ = (0, ∞) gilt m1 (ϑ) = Eϑ [X1 ] = ergibt sich der Momentensch¨ atzer 1 ϑˆ = 2 n

n X i=1

Xi .

ϑ 2.

Es

7.2

89

Induktive Statistik i.i.d.

3. Sei X1 , . . . , Xn ∼ N(µ, σ 2 ) mit Parameterraum (µ, σ 2 ) ∈ Θ = R × (0, ∞). Dann ist m1 (µ, σ 2 ) = Eµ,σ2 [X1 ] = µ m2 (µ, σ ) = 2

Eµ,σ2 [X12 ]

und

= Varµ,σ2 (X1 ) + Eµ,σ2 [X1 ]2 = σ 2 + µ2 .

Folglich m¨ ussen wir die Gleichungen n

µ ˆ=

1X Xi = X n n i=1

n

und σ ˆ2 + µ ˆ2 =

1X 2 X n i=1 i

l¨ osen. Wir erhalten n

µ ˆ = X n,

σ ˆ2 =

1X n−1 2 (Xi − X n )2 = s (X1 , . . . , Xn ). n i=1 n n

Wir kommen nun zur Maximum-Likelihood-Methode. Idee: Die Beobachtungen x1 , . . . , xn seien Realisierungen von • diskreten Zufallsvariablen X1 , . . . , Xn . ▶ Maximiere die Wahrscheinlichkeit Pϑ (X1 = x1 , . . . , Xn = xn ) = fϑ (x1 ) . . . fϑ (xn ) als Funktion von ϑ ∈ Θ. • stetigen Zufallsvariablen X1 , . . . , Xn . ▶ Maximiere die gemeinsame Dichte fϑ (x1 ) · . . . · fϑ (xn ) als Funktion von ϑ ∈ Θ. Im Folgenden seien X1 , . . . , Xn unabh¨angig und identisch verteilt mit Dichte fϑ oder Z¨ahldichte fϑ .

Definition 7.34. (a) F¨ ur eine feste Stichprobe x = (x1 , . . . , xn ) ist die Likelihood-Funktion zu x definiert als Θ ∋ ϑ 7→ Lx (ϑ) :=

n Y

fϑ (xi ) = fϑ (x1 ) · . . . · fϑ (xn ),

ϑ ∈ Θ.

i=1

b (b) Wenn Lx (·) einen Maximalwert in ϑ annimmt, d.h., wenn ein ϑ(x) ∈ Θ existiert mit b Lx (ϑ(x)) = max{Lx (ϑ) : ϑ ∈ Θ},

(⋆)

b so heißt ϑ(x) (ein) Maximum–Likelihood-Sch¨ atzwert von ϑ zu x. (c) Ein Sch¨ atzer ϑb : X → Θ mit der Eigenschaft (⋆) f¨ ur jedes x ∈ X heißt MaximumLikelihood-Sch¨ atzer (ML-Sch¨ atzer) f¨ ur ϑ.

90

7

STATISTIK

Kann das Maximum nicht explizit bestimmt werden, k¨onnen numerische Optimierungsmethoden verwendet werden. Zur Berechnung des ML-Sch¨ atzers ist folgendes Vorgehen h¨aufig zielf¨ uhrend: Qn • Maximieren der Likelihood-Funktion Lx (ϑ) = aquivalent zur Maximierung i=1 fϑ (xi ) ist ¨ der Loglikelihood-Funktion ℓx (ϑ) := log Lx (ϑ) =

n X

log fϑ (xi ),

i=1

denn wegen der Monotonie des Logarithmus haben ℓx und Lx das Maximum an der gleichen Stelle. b • Ist Θ = (a, b) ein offenes Intervall und ℓx stetig differenzierbar auf Θ, dann l¨ost ϑ = ϑ(x) die Gleichung (notwendige Bedingung f¨ ur Maximum) ℓ′x (ϑ) =

n n d X X d dϑ fϑ (xi ) ! log fϑ (xi ) = =0 dϑ fϑ (xi ) i=1 i=1

ˆ • Hinreichende Bedingung z.B. mit ℓ′′x : Hat ℓ′x (ϑ) = 0 die einzige L¨osung ϑ = ϑ(x) ∈ (a, b) und ˆ ˆ gilt ℓ′′x (ϑ(x)) < 0, so ist ϑ(x) eindeutige Maximalstelle. i.i.d.

Beispiel 7.35. Im Bernoulli-Experiment gilt X1 , . . . , Xn ∼ Ber(ϑ) mit ϑ ∈ Θ = (0, 1). Mit x = (x1 , . . . , xn ) ∈ {0, 1}n und t = x1 + . . . + xn folgt Lx (ϑ) =

n Y

Pϑ (Xi = xi ) =

i=1

n Y

 ϑxi (1 − ϑ)1−xi = ϑt (1 − ϑ)n−t

i=1

ℓx (ϑ) = t log(ϑ) + (n − t) log(1 − ϑ) t n−t ℓ′x (ϑ) = − ϑ 1−ϑ t ′ ℓx (ϑ) = 0 ⇐⇒ ϑ = n

Abb.: Zwei Realisierungen der Likelihood-Funktion

▶ ML-Sch¨ atzer ist die relative Trefferh¨aufigkeit (hinreichende Bedingung pr¨ ufen!) n

1X b ϑ(x) =x = xi . n i=1 Wir erhalten also gerade den Sch¨ atzer aus Beispiel 7.26. Beispiel 7.36.

i.i.d.

Seien X1 , . . . , Xn ∼ N(µ, σ 2 ), ϑ = (µ, σ 2 ) ∈ Θ := R × (0, ∞). Es ist Lx (ϑ) =

n Y i=1

n n Y

 (x − µ)2 o i exp − 2 2σ 2 2πσ i=1 n  1 n   1 X = √ exp − 2 (xi − µ)2 . 2σ i=1 2πσ 2

fϑ (xi ) =



1



7.2

91

Induktive Statistik

F¨ ur festes σ 2 ist Lx maximal f¨ ur µ = x. Mit s := σ 2 bleibt Optimierungsproblem: n

n 1 X − log(2πs) − (xi − x ¯)2 → max! s 2 2s i=1 Ableiten ergibt n 1 X n ! (xi − x ¯)2 = 0 − + 2 2s 2s i=1

Beispiel 7.37.

n

⇐⇒

i.i.d.

n Y

fϑ (xi ) =

i=1

=

ist:



Seien X1 , . . . , Xn ∼ U([0, ϑ]). Es ist Lx (ϑ) =

1 ϑn

1X (xi − x ¯ )2 σ ˆ (x) = s = n i=1 2

n Y 1 1[0,ϑ] (xi ) ϑ i=1

1 1[0,ϑ] ( max xi ). i=1,...,n ϑn

ist monoton fallend in ϑ. Der MLE ist also das kleinste ϑ f¨ ur welches maxi=1,...,n xi ≤ ϑ erf¨ ullt ˆ ϑ(x) = max xi . i=1,...,n

Insbesondere unterscheidet sich in diesem Modell der Maximum-Likelihood-Sch¨atzer vom Momentensch¨ atzer. ♢ Mit dem Maximum-Likelihood-Prinzip k¨onnen wir auch die oben adhoc eingef¨ uhrte KleinsteQuadrate-Methode herleiten: Betrachten wir eine Stichprobe Y1 , . . . , Yn ∈ R gegeben durch das einfache lineare Modell Yi = a + bxi + εi ,

i = 1, . . . , n,

mit • erkl¨ arenden, deterministischen Gr¨oßen xi ∈ R, genannt Kovariablen, • unabh¨ angigen und identisch verteilten Beobachtungsfehlern εi ∼ N(0, σ 2 ), σ 2 > 0, und • unbekannten Parametern ϑ = (a, b) ∈ Θ = R2 . ▶ Yi ∼ N(a+bxi , σ 2 ) nach Beispiel 4.14, insb. sind Yi nicht identisch verteilt, aber unabh¨angig. In diesem Modell k¨ onnen wir nun den Maximum-Likelihood-Sch¨atzer bestimmen. Analog zu Bsp. 7.36 mit i-abh¨ angigen Mittelwerten µi = a+bxi erhalten wir f¨ ur y = (y1 , . . . , yn ) ∈ Rn die Likelihood- und Loglikelihood-Funktion: n    1 n 1 X exp − 2 (yi − a − bxi )2 Ly (ϑ) = √ 2σ i=1 2πσ 2

ℓy (ϑ) = −

n 1 X n log(2πσ 2 ) − 2 (yi − a − bxi )2 2 2σ i=1

▶ Maximieren von ℓy (ϑ) ist ¨ aquivalent zu (unabh¨angig von σ 2 !) n X i=1

(yi − a − b xi )2 → min ! a,b∈R

92

7

STATISTIK

▶ Der ML-Sch¨ atzer ist gerade die Kleinste-Quadrate-Methode aus Satz 7.18. „Alle Modelle sind falsch, doch manche sind n¨ utzlich.“ (George Box) Auch wenn das lineares Modell die tats¨achlichen Daten zu stark vereinfacht, liefert es uns doch eine robuste Methode, die auch unter deutlich allgemeineren Annahmen gute oder sogar bestm¨ogliche Resultate liefert. 7.2.2

Statistische Tests

H¨ aufig interessiert man sich weniger f¨ ur die gesamte zugrunde liegende Verteilung als die Frage, ob eine bestimmte Eigenschaft erf¨ ullt ist, oder nicht. Beispiel: Ist eine neue Behandlungsmethode I besser ist als die alte bisher genutzte Methode II? ▶ Aufgrund einer Beobachtung soll entschieden werden, ob die Hypothese I ist besser als II“ ” akzeptiert werden kann oder verworfen werden sollte. Beispiel 7.38 (Testproblem im normalverteilten Modell). Betrachte das statistische Modell (R, BR , (N(µ, σ 2 ))µ∈R ) mit unbekanntem Mittelwert µ und bekannter Varianz σ 2 = 1. Behauptung: µ > 0. Wir beobachten die Realisierung x = 0.5. K¨onnen wir sicher sein, dass die Behauptung gilt? Es gilt P0 (X > 0.5) = 1 − Φ(0.5) ≈ 0.31, d.h. im Grenzfall µ = 0, kann eine Beobachtung von mindestens 0.5 immer noch mit Wahrscheinlichkeit von etwa 31% eintreffen. ▶ Die Beobachtung 0.5 spricht nicht klar gegen µ ≤ 0 (Hypothese) bzw. f¨ ur die Behauptung (Alternative) µ > 0. ▶ Um (einigermaßen) sicher“ zu sein, dass die Behauptung gilt, entscheiden wir uns nur dann ” daf¨ ur, wenn im statistische Modell die Beobachtung klar gegen die Hypothese µ ≤ 0 spricht, d.h. falls x > c f¨ ur einen geeigneten (kritischen) Wert c > 0. Wie w¨ahlen wir c? ♢ Formalisierung: Betrachte ein statistisches Modell (X , F , (Pϑ )ϑ∈Θ ). F¨ ur eine Zerlegung der Parametermenge Θ in zwei disjunkte Teilmengen Θ0 und Θ1 , d.h. Θ = Θ0 ∪ Θ1

und ∅ = Θ0 ∩ Θ1 ,

ist das Testproblem beschrieben durch: H0 : ϑ ∈ Θ0

gegen H1 : ϑ ∈ Θ1 .

H0 , H1 heißen Hypothesen, genauer heißt H0 Nullhypothese und H1 Alternativhypothese oder Alternative. ▶ Ein statistischer Test entscheidet zwischen H0 und H1 aufgrund einer Beobachtung x ∈ X .

Definition 7.39. Ein (nichtrandomisierter) statistischer Test ist eine (messbare) Abbildung φ : X → {0, 1}, wobei ( 1 heißt, dass die Nullhypothese verworfen wird, φ(x) = 0 heißt, dass die Nullhypothese nicht verworfen wird. Die Menge {φ = 1} = {x ∈ X : φ(x) = 1} heißt Ablehnbereich oder kritischer Bereich von φ. {φ = 0} = {x ∈ X : φ(x) = 0} heißt Annahmebereich.

7.2

93

Induktive Statistik

Testen beinhaltet m¨ ogliche Fehlerentscheidungen: 1. Fehler 1. Art: Entscheidung f¨ ur H1 , obwohl H0 wahr ist.

Entscheidung

2. Fehler 2. Art: Entscheidung f¨ ur H0 , obwohl H1 wahr ist. Wirklichkeit“ ” ϑ ∈ Θ1

ϑ ∈ Θ0 φ(x) = 0

richtige Entscheidung

Fehler 2. Art

φ(x) = 1

Fehler 1. Art

richtige Entscheidung

Tab.: Wirkungstabelle eines statistischen Tests In der Regel ist es nicht m¨ oglich, die Wahrscheinlichkeiten f¨ ur die Fehler 1. und 2. Art gleichzeitig zu minimieren. Daher werden diese asymmetrisch betrachtet: (i) Begrenzung der Fehlerwahrscheinlichkeit 1. Art durch ein vorgegebenes Signifikanzniveau. (ii) Unter der Maßgabe (i) wird die Wahrscheinlichkeit f¨ ur Fehler 2. Art minimiert. Dieses asymmetrische Vorgehen l¨ asst sich mit der Unschuldsvermutung im Gerichtswesen vergleichen. Wir halten an der Nullhypothese fest, solange wir uns nicht sehr sicher sind (also nur mit sehr kleiner W’keit die Nullhypothese f¨alschlicherweise ablehnen). Beispiel 7.40 (Einseitiger Gauß-Test). Wir setzen Beispiel 7.38 fort: Im Modell (R, BR , (N(µ, σ 2 ))µ∈R ) mit bekanntem σ 2 > 0 betrachte das (einseitige) Testproblem f¨ ur ein festes µ0 ∈ R: H0 : µ ≤ µ0

gegen

H1 : µ > µ 0 .

Der statistische Test ist von der Form φ(x) = 1{x>c} . Wir w¨ahlen das Signifikanzniveau α = 0.05. d ▶ Wahrscheinlichkeit f¨ ur einen Fehler 1. Art: F¨ ur jedes µ ∈ R gilt X = µ + σZ unter Pµ f¨ ur ein Z ∼ N(0, 1) und damit  c − µ ! c − µ ≤ α, ∀µ ≤ µ0 . Pµ (φ = 1) = Pµ (X > c) = P(µ + σZ > c) = P Z > =1−Φ σ σ ¨ Aquivalent, weil Φ monoton wachsend ist: c − µ c − µ c − µ  0 sup 1−Φ ≤ α ⇐⇒ 1−α ≤ inf Φ =Φ ⇐⇒ c = µ0 +σΦ−1 (1−α). µ≤µ0 σ σ σ µ≤µ0 0 ▶ Einseitiger Gauß-Test: φ(x) = 1{ x−µ > q1−α } mit (1 − α)-Quantil q1−α = Φ−1 (1 − α) σ 2 (mit µ0 = 0 und σ = 1 ergibt sich φ(x) = 1{x>1.65} ).



Definition 7.41. Sei φ ein Test der Hypothese H0 : ϑ ∈ Θ0 gegen die Alternative H1 : ϑ ∈ Θ1 im statistischen Modell (X , F , (Pϑ )ϑ∈Θ ). Die Gu ¨ tefunktion von φ ist definiert als βφ :

Θ → R+ ,

ϑ 7→ Eϑ [φ(X)]

Ein Test φ erf¨ ullt das Signifikanzniveau α ∈ [0, 1] (oder φ ist Niveau-α-Test), falls βφ (ϑ) ≤ α

f¨ ur alle

ϑ ∈ Θ0 .

Ein Test φ zum Niveau α heißt unverf¨ alscht, falls βφ (ϑ) ≥ α f¨ ur alle ϑ ∈ Θ1 .

94

7

STATISTIK

▶ Ein nicht-randomisierten Test erf¨ ullt das Niveau α ∈ (0, 1), falls Pϑ (φ(X) = 1) ≤ α

f¨ ur alle ϑ ∈ Θ0 ,

▶ Die Wahrscheinlichkeit des Fehlers 1. Art wird mit der vorgegeben oberen Schranke α begrenzt. Damit wird die Hypothese H0 im Fall ihrer G¨ ultigkeit auf Dauer in h¨ochstens 100 · α% aller F¨alle verworfen wird (Gesetz der großen Zahlen). Typische Werte f¨ ur α sind 0.05 oder 0.01. Man w¨ ahlt kleine α, bspw. α = 0,05 oder α = 0,01. Beachte: • Lehnt ein Niveau α-Test H0 ab, so kann man praktisch sicher sein“, dass H0 nicht gilt ” (sonst w¨ are man zur Entscheidung φ(x) = 1 nur mit einer W’keit ≤ α gelangt). • Wird H0 abgelehnt, so sagt man auch: Die Ablehnung von H0 ist signifikant zum Niveau α. • Je kleiner α, umso bedeutungsvoller (signifikanter) ist im Fall einer Ablehnung von H0 der erhaltene Widerspruch zu H0 . • Wird H0 aufgrund von x ∈ X nicht verworfen, so heißt dies nur, dass x bei einer zugelassenen W’keit α f¨ ur einen Fehler 1. Art nicht im Widerspruch zu H0 steht. • Formulierungen wie H0 ist verifiziert“ oder H0 ist validiert“ sind hier v¨ollig fehl am Platz. ” ” Sie suggerieren, dass man im Falle des Nichtverwerfens von H0 die G¨ ultigkeit von H0 be” wiesen“ h¨ atte, was jedoch Unsinn ist! Beispiel 7.42 (Einseitiger Binomialtest). Von den 13 Todesf¨allen unter 55- bis 65-j¨ahrigen Arbeitern eines Kernkraftwerkes im Jahr 1995 waren 5 auf einen Tumor zur¨ uckzuf¨ uhren. Die Todesursachenstatistik 1995 weist aus, dass Tumore bei etwa 1/5 aller Todesf¨alle die Ursache in der betreffenden Altersklasse (in der Gesamtbev¨olkerung) darstellen. ▶ Ist die beobachtete H¨ aufung von tumorbedingten Todesf¨allen signifikant zum Niveau 5%? Bezeichne X die Anzahl der Tumortoten unter n = 13 Todesf¨allen. Statistisches Modell: X = {0, . . . , n},

F = P(X ),

Pϑ = Bin(n, ϑ),

ϑ ∈ Θ = [0, 1]

Einseitiges Testproblem: (Warum nicht andersherum?) H0 : ϑ ≤ 1/5

gegen H1 : ϑ > 1/5.

▶ Ziel: Nichtrandomisierter Test zum Niveau α = 0, 05. Viele Todesf¨ alle sprechen gegen die Nullhypothese, daher w¨ahlen wir φ(x) = 1{x>c}

f¨ ur einen kritischen Wert c > 0.

φ heißt einseitiger Binomialtest. ▶ W¨ ahle c so, dass Pϑ (φ(X) = 1) = Pϑ (X > c) ≤ α f¨ ur alle ϑ ≤ 1/5. F¨ ur eine m¨oglichst große G¨ ute sollte c unter dieser Bedingung m¨oglichst klein sein. F¨ ur alle k ∈ X ist [0, 1] ∋ ϑ 7→ Pϑ (X ≤ k) monoton fallend, denn f¨ ur k = n konstant und f¨ ur k < n gilt (ableiten + Teleskopsumme) Z 1 k   X n l n! n−l tk (1 − t)n−1−k dt. Pϑ (X ≤ k) = ϑ (1 − ϑ) = k!(n − 1 − k)! ϑ l l=0

7.2

95

Induktive Statistik !

0,6

0,10

0,8

0,15

1,0

▶ supϑ≤1/5 Pϑ (X > c) = P1/5 (X > c) ≤ α.

▶ c = 5, denn

0,4

0,05

P1/5 (X ≤ 5) ≈ 0.970.

0,2

0,0

▶ H0 kann zum Niveau 0.05 nicht verworfen werden.

0,0

βϕ

P1/5 (X ≤ 4) ≈ 0.901,

0,10

0,0

0,2

0,4

ϑ

0,6

0,15

0,8

0,20

0,25

0,30

1,0

Abb.: G¨ utefunktionen des Binomialtests, gr¨ un durchgezogen f¨ ur c = 5 und gr¨ un gestrichelt f¨ ur c = 4. In lila ein randomisierter Test, der das Niveau voll aussch¨opfen kann. Durch randomisieren des Tests kann das Niveau voll ausgesch¨opft werden (d.h. im Fall X = 5 wird wird die Hypothese nur mit W’keit γ verworfen, sodass α = P1/5 (X > 5) + γP1/5 (X = x)). ♢ Dieses Beispiel f¨ uhrt uns auf ein allgemeines Konstruktionsprinzip f¨ ur statistische Tests. Betrachten wir das Testproblem einer Hypothese H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 mit Θ0 ̸= ∅ und Θ1 = Θ \ Θ0 . F¨ ur Ablehnbereiche (Γα )α∈(0,1) ⊆ B(R) und eine Teststatistik T: X →R sei ein Test gegeben durch

(messbar)

φ(x) = 1{T (x)∈Γα } ,

x ∈ X.

Oft: Ablehnbereiche der Form Γα = (cα , ∞) mit kritischem Wert n o cα = inf c ∈ R : sup Pϑ (T > c) ≤ α , α ∈ (0, 1). ϑ∈Θ0

▶ Niveau α abgesichert bei einem gleichzeitig gr¨oßtm¨oglichen Ablehnbereich, sodass der Fehler 2. Art m¨ oglichst klein ist. Ist Θ0 = {ϑ0 } einelementig, dann ist der kritische Wert genau das (1 − α)-Quantil der Verteilung von T unter Pϑ0 . Beispiel 7.43 (Zweiseitiger Binomialtest). geboren.“

Hypothese Es werden genauso viele Jungen wie M¨adchen ”

Bezeichne X ∈ X = {0, . . . , n} die Anzahl der M¨adchen aus n ∈ N Geburten. Statistisches Modell: (X , P(X ), (Pϑ )ϑ∈[0,1] ) mit Pϑ = Bin(n, ϑ). Zweiseitiges Testproblem: H0 : ϑ = ϑ0

gegen H1 : ϑ ̸= ϑ0

mit ϑ0 = 1/2. Niveau auf α = 0.01 festgelegt. Die Teststatistik T (x) = x f¨ uhrt auf den zweiseitigen Binomialtest

96

mit kritischen Werten  α , uα (ϑ) = max k ∈ N : Pϑ (X < k) ≤ 2  α oα (ϑ) = min k ∈ N : Pϑ (X > k) ≤ . 2 F¨ ur ϑ0 = 1/2 erhalten wir den Test

> ≤

α 2

STATISTIK

>

α 2

α 2



α 2

0

φ(x) = 1 − 1{uα (ϑ0 )≤x≤oα (ϑ0 )}

Pϑ (X = k)

7

0

1 ···

uα (ϑ)

···

···

oα (ϑ)· · · n

Abb.: Illustration der kritischen Werte des zweiseitigen Binomialtests

φ(x) = 1{| nx − 12 |>cα } f¨ ur ein geeignetes cα (Symmetrie der Bin(n, 1/2)-Verteilung). In Baden-W¨ urttemberg wurden im Jahr 2020 n = 108 024 Kinder geboren. F¨ ur α = 0,01 erhalten wir u ¨ber die 0,005- und 0,995-Quantile von Bin(n, 1/2) die kritischen Werte uα ( 12 ) = 53 589

und oα ( 21 ) = 54 435

bzw. cα = 0,0039.

Tats¨ achlich wurden x = 52 269 M¨ adchen geboren, d.h. φ(x) = 1. ▶ Die Hypothese kann zum Niveau α verworfen werden, d.h. der Anteil der weiblichen Geburten ♢ weicht signifikant zum Niveau 0,01 von 12 ab. Bemerkung 7.44 (Asymptotisches Niveau). Bei großem n ist es sinnvoll, einen Gauß-Test f¨ ur eine geeignet standardisierte Teststatistik zu verwenden, um den Binomialtest zu approximieren: F¨ ur den Test φ(x) = 1{T (x)>cα } mit Teststatistik X T (X) = − ϑ0 n folgt wegen Eϑ [X] = nϑ und Varϑ (X) = nϑ(1 − ϑ) aus dem zentralen Grenzwertsatz: r  |X − nϑ |  n 0 Pϑ0 (T (X) > cα ) = Pϑ0 p > cα ϑ0 (1 − ϑ0 ) nϑ0 (1 − ϑ0 ) r   n→∞ n ≈ P |Z| > cα ϑ0 (1 − ϑ0 )  r  n ! = 2 1−Φ cα = α. ϑ0 (1 − ϑ0 ) q q ϑ0 (1−ϑ0 ) −1 0) ▶ W¨ ahle cα = ϑ0 (1−ϑ q = Φ (1 − α/2) mit ϑ = ϑ0 unter H0 . 1−α/2 n n Das Niveau α wird dann nur asymptotisch f¨ ur n → ∞ eingehalten. Als asymptotische Approximation erhalten wir einen Test folgender Gestalt: Beispiel 7.45 (Zweiseitiger Gauß-Test). Im Modell (R, BR , (N(µ, σ 2 ))µ∈R ) mit bekanntem σ 2 > 0 betrachten wir das zweiseitige Testproblem f¨ ur ein festes µ0 ∈ R: H0 : µ = µ0

gegen

H1 : µ ̸= µ0 .

zum Niveau α ∈ (0, 1). ▶ Der zugeh¨ orige zweiseitige Gauß-Test φ(x) = 1{|x − µ0 |/σ > q1−α/2 } mit Quantil q1−α/2 = ullt das Niveau α ∈ (0, 1): Φ−1 (1 − α2 ) erf¨  X − µ  0 Pµ0 (φ = 1) = Pµ0 > q1−α/2 σ } | {z ∼N(0,1)

7.2

97

Induktive Statistik = 1 − Φ(q1−α/2 ) + Φ(−q1−α/2 ) = 2 − 2Φ(q1−α/2 ) = α.

kσ-Regel (Satz 4.15): φ = 1{|x − µ0 | > 2σ} hat Niveau 0,05 & φ = 1{|x − µ0 | > 3σ} hat Niveau 0,01. i.i.d. ¯ n ∼ N(µ, σ2 ) ; Gauß-Test φ(x) = 1{|¯ xn − µ0 | > √σ q1−α/2 }. Falls X1 , . . . , Xn ∼ N(µ, σ 2 ) gilt X n

n

Wie k¨ onnen wir mit einer unbekannten Varianz umgehen? Im Modell (Rn , BRn , (N(µ, σ 2 )⊗n )µ∈R,σ>0 ) ist φ(x) = 1{|¯ xn −µ0 | > √σn q1−α/2 } nicht anwendbar. P n 1 Satz 7.31: s2n (x) = n−1 ¯n )2 ist konsistenter Sch¨atzer von σ 2 . Wir ersetzen daher σ i=1 (xi − x durch sn (plug-in-Prinzip): n o sn (x) φ˜n (x) = 1 |¯ xn − µ0 | > √ q1−α/2 n Dann gilt mit Monotonie von Pµ0 , Konsistenz von sn und Stetigkeit von Φ f¨ ur alle ε ∈ (0, 1): lim sup Pµ0 (φ˜n = 1) n→∞

=

 X  ¯ n − µ0 sn (X) √ > lim sup Pµ0 q1−α/2 σ } σ/ n n→∞ | {z | {z } zuf¨ allig

∼N(0,1)

  X ¯ n − µ0 σ(1 − ε) √ > q1−α/2 + lim sup Pµ0 (|sn (X) − σ| > σε) ≤ lim sup Pµ0 σ σ/ n n→∞ n→∞  ε↓0 = 2 1 − Φ (1 − ε)q1−α/2 −→ 2(1 − Φ(q1−α/2 )) = α. ▶ lim supn→∞ Pµ0 (φ˜n = 1) ≤ α. Analog lim inf n→∞ Pµ0 (φ˜n = 1) ≥ α. ⇒ limn→∞ Pµ0 (φ˜n = 1) = α. Damit besitzt φ˜n asymptotisch das Niveau α. ♢ W¨ ahrend das plug-in-Prinzip in Verbindung mit Konsistenz des eingesetzten Sch¨atzers in vielen verschiedenen Modellen n¨ utzliche Resultate erzielt, kann man im Normalverteilungsmodell sogar nicht-asymptotische Niveau-α-Tests konstruieren. Bemerkung 7.46 (t-Tests).

i.i.d.

F¨ ur X1 , . . . , Xn ∼ N(µ, σ 2 ) sind

n

n

X 1 X ¯ n )2 unabh¨angig ¯n = 1 Xi und Sn2 = (Xi − X X n i=1 n − 1 i=1

und

¯n − µ X p ∼ t(n − 1), Sn2

wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgrade bezeichnet und durch die Dichte f (x) = p

1 π(n − 1)

Γ( n2 )  n−1 2

1−

x2 −n/2 , n−1

x∈R

definiert ist. Insbesondere haben die t-Tests φ=1

nX o ¯ n − µ0 p > qt(n−1),1−α Sn2

bzw.

n X o ¯ n − µ0 φ˜ = 1 p > qt(n−1),1−α/2 Sn2

e 0 : µ = µ0 das Niveau α mit τ -Quantilen qt(n−1),τ der f¨ ur die Hypothesen H0 : µ ≤ µ0 bzw. H t(n − 1)-Verteilung. Wir schließen unsere Einf¨ uhrung zu statistischen Tests mit einem allgemeinen wichtigen Konstruktionsprinzip ab:

98

7

STATISTIK

Definition 7.47. Es sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell mit Likelihoodfunktion L. Ein Test f¨ ur die Hypothese H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 von der Form ( supϑ∈Θ1 L(ϑ, x) 1, falls Λ(x) > k, mit Λ(x) := φ(x) = ∈ [0, ∞], k ∈ R+ supϑ∈Θ0 L(ϑ, x) 0, falls Λ(x) ≤ k, heißt Likelihood-Quotienten-Test.

Bemerkung 7.48. H¨ aufig liegt Θ1 dicht in Θ und die Likelihoodfunktion ist stetig in ϑ. Dann gilt ˆ x) sup L(ϑ, x) = sup L(ϑ, x) = L(ϑ, ϑ∈Θ1

ˆ mit Maximum-Likelihood-Sch¨atzer ϑ.

ϑ∈Θ i.i.d.

Beispiel 7.49 (t-Test als LQ-Test). F¨ ur X1 , . . . , Xn ∼ N(µ, σ 2 ) mit µ ∈ R, σ 2 ∈ (0, ∞) unbekannt und das Testproblem H0 : µ = µ0 gegen H1 : µ ̸= µ0 ergibt sich • ML-Sch¨ atzer unter Θ0 , d.h. µ = µ0 ist bekannt: σ ˆ02

= argmaxσ2 >0

n n   1 X 1X 1 2 exp − 2 (xi − µ0 ) = (xi − µ0 )2 . 2σ i=1 n i=1 (2πσ 2 )n/2

• ML-Sch¨ atzer auf ganz Θ (Bsp. 7.36): (ˆ µ, σ ˆ 2 ) = (¯ xn , n1 ▶ Λ(x) = 2

Pn

i=1 (xi

−x ¯n ))2 .

σ (2πeˆ σ 2 )−n/2 ˆ02 n/2 L(ˆ µ, σ ˆ 2 ; x) = . = L(µ0 , σ ˆ02 ; x) σ ˆ2 (2πeˆ σ02 )−n/2 √

xn −µ0 ) T Da Λ(x)2/n = 1 + n−1 monoton in der Teststatistik |T | = | n(¯ | aus dem t-Test ist, sn (x) k¨ onnen wir H0 ablehnen, falls |T | groß ist und wir erhalten den zweiseitigen t-Test.

• Auch die Verteilung von T 2 ∼ F1,n−1 ist explizit bekannt und wird F(isher)-Verteilung genannt. ♢ 7.2.3

Konfidenzbereiche

W¨ ahrend ein (Punkt-)Sch¨ atzer einen einzelnen Wert angibt, m¨oglichst in der N¨ahe des wahren Parameters, um R¨ uckschl¨ usse auf das zugrunde liegende Modell zu ziehen, geben Konfidenzbereiche ein Intervall an, in dem der Parameter mit gegebener Wahrscheinlichkeit liegt. i.i.d.

Beispiel 7.50 (Konfidenzintervall). x1 , . . . , xn sei eine Stichprobe aus Realisierungen von X1 , . . . , Xn ∼ N(µ, σ 2 ) mit unbekanntem µ ∈ R und bekannter Varianz σ 2 > 0. Definiere mit q1−α/2 := Φ−1 (1 − α2 ) h σq1−α/2 σq1−α/2 i I = I(x1 , . . . , xn ) := x ¯n − √ ,x ¯n + √ . n n ▶ I = I(X1 , . . . , Xn ) ist ein von den Beobachtungen abh¨angiges, zuf¨alliges Intervall. ¯ n ∼ N(µ, σ2 ) gilt Wegen X n Pµ (µ ∈ I)

  1−α/2 1−α/2 ¯ n − σq√ ¯ n + σq√ = Pµ X ≤µ≤X n n   σq1−α/2 σq 1−α/2 ¯n ≤ µ + √ = Pµ µ − √ ≤X n n

7.2

99

Induktive Statistik =

Φ(q1−α/2 ) − Φ(−q1−α/2 ) = 2Φ(q1−α/2 ) − 1 = 1 − α.

▶ Mit Wahrscheinlichkeit 1 − α enth¨ alt I den zugrundeliegenden Parameter µ. Es gilt: n gr¨ oßer ; I k¨ urzer; σ gr¨oßer ; I l¨anger; α gr¨oßer ; I k¨ urzer. Unbekannte Varianz kann wieder mit plug-in behandelt werden.



Definition 7.51. Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell mit abgeleitetem Parameter ρ : Θ → Rd . Eine mengenwertige Abbildung C : X → P(Rd ) heißt Konfidenzmenge zum Konfidenzniveau 1 − α (oder zum Irrtumsniveau α) f¨ ur α ∈ (0, 1), falls  Pϑ (ρ(ϑ) ∈ C) = Pϑ {x ∈ X : ρ(ϑ) ∈ C(x)} ≥ 1 − α f¨ ur alle ϑ ∈ Θ (und {x ∈ X : ρ(ϑ) ∈ C(x)} ∈ F f¨ ur alle ϑ ∈ Θ). Im Fall d = 1 und falls C(x) f¨ ur jedes x ∈ X ein Intervall ist, heißt C Konfidenzintervall.

Beachte: • {x ∈ X : ρ(ϑ) ∈ C(x)} ist das Ereignis ρ(ϑ) wird vom zufallsabh¨angigen Bereich C(X) ” u ¨berdeckt“. ▶ ρ(ϑ) fix ist, w¨ ahrend C zuf¨ allig ist. • Eine konkrete Konfidenzmenge C(x) zu einer Realisierung X = x kann ρ(ϑ) enthalten oder nicht. Man kann dann aber nicht von einer Wahrscheinlichkeit“ sprechen, dass dieses Inter” vall ρ(ϑ) enth¨ alt. • Wenn man wiederholt in unabh¨ angiger Folge einen Konfidenzbereich C(x) zum Niveau 1 − α bestimmt, werden die zuf¨ alligen Bereiche C(X) bei vielen Wiederholungen (1 − α)· 100% aller F¨ alle ρ(ϑ) enthalten, unabh¨angig davon, was der wahre Parameter ist. • F¨ ur reellwertige ρ(ϑ) ist die Menge C(x) := Rd , x ∈ X , trivialerweise ein Konfidenzbereich zum Niveau 1 − α f¨ ur beliebige α > 0, aber v¨ollig nutzlos. ▶ W¨ unschenswert: M¨ oglichst kleine Konfidenzbereiche unter Einhaltung eines Niveaus 1 − α. Ein verbreitetes Konstruktionsprinzip f¨ ur die Konfidenzintervalle ist die Verwendung eines Sch¨atzers. Das Konfidenzintervall aus Beispiel 7.50 ist ein erstes Beispiel hier. Im Bernoulli-Experiment kann man ¨ ahnlich vorgehen: i.i.d.

Beispiel 7.52 (Konfidenzintervall im Bernoulli-Experiment). Im Bernoulli-Experiment X1 , . . . , Xn ∼ Ber(ϑ) von Beispiel 7.26 gilt f¨ ur das Intervall n 1X Cn (x) := [ϑˆn (x) − εn , ϑˆn (x) + εn ] mit ϑˆn (x) = xi , εn > 0, n i=1 dass

n  X  !   Pϑ ϑ ∈ Cn (X) = Pϑ |ϑˆn (X) − ϑ| ≤ εn = Pϑ (Xi − ϑ) ≤ nεn ≥ 1 − α. i=1

Da

Pn

onnen wir f¨ ur große n wieder eine Normalapproximation q verwenden und i=1 Xi ∼ Bin(n, ϑ) k¨

erhalten ein Konfidenzintervall, das asymptotisch das Niveau 1 − α hat: F¨ ur εn := gilt:  Pn (X − ϑ)   i Pϑ ϑ ∈ Cn (X) = Pϑ pi=1 ≤ q1−α/2 → 1 − α nϑ(1 − ϑ)

ϑ(1−ϑ) q1−α/2 n

100

7

Ersetze nun εn mit εˆn =

q

ˆn (1−ϑ ˆn ) ϑ q1−α/2 n

STATISTIK

(plug-in). ♢

Eine alternative Konstruktion von Konfidenzmengen bietet folgender Korrespondenzsatz, der eine Verbindung zu statistischen Tests herstellt:

Satz 7.53 (Korrespondenzsatz). Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und α ∈ (0, 1). Dann gilt: 1. Liegt f¨ ur jedes ϑ0 ∈ Θ ein Test φϑ0 der Hypothese H0 : ϑ = ϑ0 zum Signifikanzniveau α vor, so definiert C(x) = {ϑ ∈ Θ : φϑ (x) = 0} eine Konfidenzmenge zum Konfidenzniveau 1 − α. 2. Ist C eine Konfidenzmenge zum Niveau 1 − α, dann ist φϑ0 (x) = 1 − 1C(x) (ϑ0 ) ein Niveauα-Test der Hypothese H0 : ϑ = ϑ0 .

▶ Konstruktionsprinzip: F¨ ur den Annahmebereich A(ϑ) = {x ∈ X : φϑ (x) = 0} eines Niveauα-Tests φϑ w¨ ahle  C(x) = ϑ ∈ Θ : x ∈ A(ϑ) Vorteil: A(ϑ) ist Teilmenge von X , die wir mit Pϑ messen“ k¨onnen. ” ▶ W¨ ahle A(ϑ) so, dass sie diejenigen x ∈ X enth¨alt, f¨ ur die die (Z¨ahl-)Dichte von X unter ϑ besonders groß ist. Beweis. Nach Konstruktion erh¨ alt man in beiden F¨allen, ∀ϑ ∈ Θ : ∀x ∈ X : φϑ (x) = 0

⇐⇒

ϑ ∈ C(x).

Damit ist φϑ ein Test zum Niveau α f¨ ur alle ϑ genau dann, wenn 1 − α ≤ Pϑ (φ = 0) = Pϑ ({x : ϑ ∈ C(x)}) und somit ist C eine Konfidenzmenge zum Niveau 1 − α. Beispiel 7.54. Mit Hilfe des Korrespondenzsatzes k¨onnen wir ein Konfidenzintervall zum Niveau 0,95 f¨ ur die Geburtswahrscheinlichkeit von M¨adchen berechnen. Im Modell aus Beispiel 7.43 (X , P(X ), (Pϑ )ϑ∈[0,1] )

mit

Pϑ = Bin(n, ϑ)

ist ein Konfidenzbereich gegeben durch  C(x) = ϑ ∈ [0, 1] : u0,05 (ϑ) ≤ x ≤ o0,05 (ϑ) , Wegen der Monotonie von u0,05 (ϑ) und o0,05 (ϑ) in ϑ (vgl. Bsp. 7.42) ist C sogar ein Konfidenzintervall und wird Clopper-Pearson-Intervall genannt. F¨ ur n = 108 024 und x = 52 269 erhalten wir das Konfidenzintervall [0,4809, 0,4868]. ♢

101

8

Einf¨ uhrung in das statistische Lernen

5

Happiness-Score

• wir kein parametrisches Modell annehmen, i.i.d. nur (Xi , Yi ) ∼ P(X,Y ) mit unbekannter Verteilung;

4

mit feature space X ⊆ Rp , wobei

3

(X1 , Y1 ), . . . , (Xn , Yn ) ∈ X × Y

6

7

Wir beobachten eine Trainingsmenge

0.0

• p, n sehr groß sein k¨ onnen.

0.5

1.0 BIP pro Kopf

1,5

Aufgaben des maschinellen Lernens: • Regression: Y = R. Ziel: Vorhersage von Yn+1 f¨ ur ein neues Xn+1 ; predictor m : X → Y. • Klassifikation: Y = {1, . . . , K}, K ∈ N. Ziel: Vorhersage von Yn+1 f¨ ur neues Xn+1 ; Klassifizierer m : X → Y. • Unsupervised learning: Keine Yi . Ziel: Struktur von Xi und ihrer Verteilung ; Clustering, generative Modelle, Dimensionsreduktion... Wir betrachten eine Methodenklasse M = {mϑ : X → Y|ϑ ∈ Θ}. (X,Y ) Konstruktionsprinzip: Im statistischen Modell (X × Y, AX ×Y , (Pϑ )ϑ∈Θ ) ergibt sich mϑ aus (X,Y ) Pϑ (als bedingter Erwartungswert Eϑ [Y |X = x] s.u.). Wir messen dessen G¨ ute durch eine Verlustfunktion ℓ : M × X × Y −→ R+ ,

(m, x, y) 7→ ℓm (x, y).

Beispiele: • Quadratischer Verlust: ℓm (x, y) = (y − m(x))2 (Regression), • 0-1-Verlust: ℓm (x, y) = 1{m(x)̸=y} (Klassifikation), • negative Loglikelihood-Fkt.: ℓmϑ (x, y) = − log L(ϑ; x, y) (; Maximum-Likelihood-Sch¨atzung). ▶ W¨ ahle mϑ ∈ M so, dass das Risiko R(m) := E[ℓm (X, Y )] f¨ ur (X, Y ) ∼ P(X,Y ) minimiert wird. (X,Y ) Dabei ist m 7→ R(m) nicht verf¨ ugbar, weil P unbekannt ist. Pk Gesetz der großen Zahlen (Satz 6.1): R(m) ≈ k1 i=1 ℓm (Xi′ , Yi′ ) ist der mittlere Verlust von Methode m auf den Testdaten (X1′ , Y1′ ), . . . , (Xk′ , Yk′ ). Die Definition von Verlust und Risiko entsprechen Definition 7.27 angepasst an das Beobachtungsschema aus Xi und Yi . Trainingmenge features label predictor Hypothesis class Uncertainty quantification

(Xi , Yi )i=1,...,n Xi Yi m M

Stichprobe erkl¨arende Variable Response-Variable/ Zielvariable Gesch¨atzte Regressionsfunktion Methodenklasse Konfidenzuaussagen

Tab.: Kleines W¨ orterbuch: Machine learning ↔ Statistik

102

8

¨ EINFUHRUNG IN DAS STATISTISCHE LERNEN

Da wir R(m) nicht kennen, m¨ ussen wir es sch¨atzen: Definition 8.1. F¨ ur eine Trainingsmenge (Xi , Yi )i=1,...,n sind das empirische Risiko und der empirische Risikominimierer definiert als n

Rn (m) :=

1X ℓm (Xi , Yi ) n i=1

bzw.

m ˆ n := arg min Rn (m). m∈M

Falls (Xi , Yi )i=1,...,n unabh¨ angig sind, gilt nach dem Gesetz der großen Zahlen gilt wieder Rn (m) → R(m) f¨ ur jedes feste m und n → ∞. P ˆ n h¨ angt von (Xi , Yi )i=1,...,n ab und deshalb gilt im Allgemeinen nicht Rn (m ˆ n) → Achtung: m R(m ˆ n ). P

Bei der Umsetzung der empirischen Risikominimierung spielen viele verschieden Aspekte ein Rolle, insbesondere Optimierungs- (ℓm ist h¨aufig nicht konvex in den Parametern von m), algorithmische (große und viele Daten), Approximations- (w¨ unschenswerte Eigenschaften von M) und eben statistische Probleme. Wir konzentrieren uns hier auf den letzten Punkt. Beispiel 8.2 (Multiple lineare Regression). Wir betrachten Xi ∈ Rp , Yi ∈ R und die lineare Regressionsklasse  M := mϑ : x 7→ x⊤ ϑ|ϑ ∈ Rp Mit quadratischem Verlust ℓm (x, y) = (y − m(x))2 ist der empirische Risikominimierer m ˆ n = mϑˆ gegeben durch den Kleinste-Quadrate-Sch¨ atzer n

1X (Yi − Xi⊤ ϑ)2 . ϑˆ = arg min ϑ∈Rp n i=1

3000

4000

Happiness-Score 5000 6000

7000

Die Klasse M′ := {mϑ : x 7→ ϑ1 + ϑ2 x|ϑ ∈ R2 } der affinen Funktionen auf R ergibt sich f¨ ur Xi = (1, xi )⊤ mit xi ∈ R und der resultierende empirische Risikominimierer ist genau die Regressionsgerade aus Satz 7.18. Die Polynomiale Regression ergibt sich mit Xi = (1, xi , x2i , . . . , xip−1 )⊤ und ϑ ∈ Rp . ♢

0.0

0.5

1.0 BIP pro Kopf

1.5

103 Abb.: Polynomielle Regression mit Polynomen vom Grad 1 (violett), 3 (gr¨ un, gestrichelt) und 30 (gr¨ un, durchgezogen) Die vorangegangene Abbildung zeigt, dass eine m¨oglichst große Klasse M nicht notwendigerweise zu einer besseren Vorhersage f¨ uhrt. Bekommen einzelne Beobachtungen (mitsamt ihrer stochastischen Unsicherheit) ein zu großes Gewicht, spricht man von Overfitting. Wie gut ist der empirische Risikominimierer? Vgl. Bias-Varianz-Zerlegung (Lemma 7.28).

Satz 8.3 (Orakelungleichung). Wir bezeichnen mit m∗ := arg minm : X →Y R(m) den Minimierer in der Klasse aller (messbaren, quadratintegrierbaren) Abbildungen m : X → Y und nennen m∗ Orakell¨ osung. F¨ ur den empirischen Risikominimierer m ˆ n in der Klasse M gilt:   R(m ˆ n ) − R(m∗ ) ≤ +2 sup |Rn (m) − R(m) |. inf R(m) − R(m∗ ) m∈M | {z } m∈M {z } | | {z } Exzessrisiko Approximationsfehler / inductive bias

stochastischer Fehler

• R(m∗ ) = inf m : X →Y R(m) gibt das minimale, unvermeidbare Risiko an und wird Orakelrisiko genannt. m∗ ist unbekannt (daher der Name) und dient als Messlatte. • Der Approximationsfehler gibt an, wie gut M die Orakell¨osung m∗ approximieren kann. ; Wird kleiner, f¨ ur gr¨ oßere Klassen M. • Der stochastische Fehler ist die maximale Abweichung des empirischen zum theoretischen Risiko. ; W¨ achst mit der Gr¨ oße der Klasse M. Beweis. Sei m ∈ M beliebig. Nach Konstruktion gilt Rn (m ˆ n ) ≤ Rn (m). Damit ergibt sich R(m ˆ n ) = R(m) + R(m ˆ n ) − R(m) ≤ R(m) + R(m ˆ n ) − R(m) + Rn (m) − Rn (m ˆ n) ≤ R(m) + 2 sup |Rn (m′ ) − R(m′ )|. m′ ∈M

Da die linke Seite kleinergleich der rechten Seite f¨ ur jedes m ∈ M ist, muss R(m ˆ n ) auch eine untere Schranke f¨ ur das Infimum der rechten Seite u ¨ber m sein. Was ist die Orakell¨ osung? Betrachten wir zun¨ achst das Regressionsproblem mit quadratischem Risiko R(m) = E[(Y − m(X))2 ]. • Bem. 5.17: Minimierer von R(m) unter allen konstanten Funktion ist m∗const = E[Y ]

mit

R(m∗const ) = Var(Y ).

• Bem. 5.29: Minimierer von R(m) unter allen linearen Funktion ist m∗lin (x) =

Cov(X, Y ) (x − E[X]) + E[Y ] Var(X)

mit

R(m∗lin ) = Var(Y )(1 − Corr(X, Y )2 ).

104

8

¨ EINFUHRUNG IN DAS STATISTISCHE LERNEN

▶ Allgemeiner Minimierer unter minimaler Strukturvoraussetzung an m : X → Y mit E[m(X)2 ] < ∞ (d.h. m ist quadratintergierbar ⇔ m(X) hat endliche 2. Momente)?

Satz und Definition 8.4. Seien X ∈ X ⊆ Rp , Y ∈ Y ⊆ R ZVn auf einem Wahrscheinlichkeitsraum (Ω, A , P) mit gemeinsamer Dichte fX,Y (x, y), E[Y 2 ] < ∞ und g : Y → R+ eine beliebige Dichte auf Y. Dann ist f¨ ur jedes x ∈ X die Funktion  Z  fX,Y (x, y) , f¨ ur fX (x) > 0, f (x) Y ∋ y 7→ fY |X=x (y) := mit fX (x) = fX,Y (x, y)dy X  Y g(y), f¨ ur fX (x) = 0, eine Dichte auf Y und heißt bedingte Dichte von Y gegeben X = x.Weiter gilt Z  2   2  ∗ ∗ E Y − m (X) = min E Y − m(X) f¨ ur m (x) := E[Y |X = x] := yfY |X=x (y)dy. m

Y

E[Y |X = x] heißt bedingter Erwartungswert von Y gegeben X = x.

fX ist die Randdichte aus Satz 4.20. Beweis. F¨ ur jedes x ∈ X mit fX (x) = 0 ist fY |X=x (y) = g(y) eine Dichte. Beachte dabei, dass fX (x) = 0 f¨ ur eine Realisierung X = x mit Wahrscheinlichkeit 0 eintritt: Z fX (x)dx = 0. P(fX (X) = 0) = −1 ({0}) fX

Sei nun x ∈ X mit fX (x) > 0. Dann ist fY |X=x nach Konstruktion eine nicht-negative Funktion auf Y und es gilt: Z Z fX (x) 1 fX,Y (x, y)dy = = 1. fY |X=x (y)dy = f (x) fX (x) X Y Y Also ist y 7→ fY |X=x (y) f¨ ur jedes x ∈ X eine Dichte. Als n¨ achstes weisen wir nach, dass E[m∗ (X)2 ] < ∞ gilt: Nach Bemerkung 5.17 gilt 2 Z Z ∗ 2 y 2 fY |X=x (y)dy m (x) = yfY |X=x (y)dy ≤ Y

Y

und daher E[m (X) ] = ∗

2

Z

m∗ (x)2 fX (x)dx Z Z ≤ y 2 fY |X=x (y)fX (x)dydx ZX ZY = y 2 fX,Y (x, y)dydx X

X

Y

= E[Y 2 ] < ∞. Um die Minimalit¨ atseigenschaft nachzuweisen, zerlegen wir f¨ ur jedes m : X → Y mit E[m(X)2 ] < ∞:   R(m) = E (Y − m∗ (X) + m∗ (X) − m(X))2

105       = E (Y − m∗ (X))2 + 2E (Y − m∗ (X))(m∗ (X) − m(X)) + E (m∗ (X) − m(X))2 . F¨ ur den Kreuzterm gilt:   E (Y − m∗ (X))(m∗ (X) − m(X)) Z Z = (y − m∗ (x))(m(x) − m∗ (x))fX,Y (x, y)dydx X Y Z Z ∗ = (m(x) − m (x)) (y − m∗ (x))fX,Y (x, y)dydx X Y Z Z  Z ∗ ∗ fX,Y (x, y)dy dx = (m(x) − m (x)) yfX,Y (x, y)dy −m (x) X {z } |Y {z } |Y =m∗ (x)fX (x)

=fX (x)

= 0. Es gilt also

    R(m) = E (Y − m∗ (X))2 + E (m∗ (X) − m(X))2 .

W¨ ahrend der erste Term nicht von m abh¨angt, nimmt der zweite Summand sein Minimum 0 bei m = m∗ an. Bemerkung 8.5 (Bedingte Erwartung). • F¨ ur eine Realisierung X = x tritt der Fall fX (x) = 0 nur mit Wahrscheinlichkeit 0 ein, sodass g praktisch keine Rolle spielt. • Der Beweis zeigt, dass das Minimum bis auf eine PX -Nullmenge eindeutig ist. • Im Fall dass (X, Y ) diskret verteilt sind mit gemeinsamer Z¨ahldichte fX,Y (x, y) wird die bedingte Z¨ ahldichte von Y gegeben X = x exakt genauso definiert: F¨ ur jedes x ∈ X mit fX (x) = P(X = x) > 0 gilt fY |X=x (y) :=

fX,Y (x, y) P(X = x, Y = y) = = P(Y = y|X = x). fX (x) P(X = x)

Die bedingte Z¨ ahldichte ist also die bedingte Wahrscheinlichkeit, dass {Y = y} eintritt, gegeben {X = x} (vgl. Definition 2.1). Der bedingte Erwartungswert ist in diesem Fall von der Form X X E[Y |X = x] = yfY |X=x (y) = yP(Y = y|X = x). y∈Y

y∈Y

Beispiel 8.6 (Allgemeines Regressionsmodell). F¨ ur unabh¨angige Xi ∼ U([0, 1]) und εi ∼ N(0, σ 2 ), i = 1, . . . , n und eine unbekannte Funktion f : [0, 1] → R beobachten wir (X1 , Y1 ), . . . , (Xn , Yn )

mit

Yi = f (Xi ) + εi ,

i = 1, . . . , n.

▶ Was ist die bestm¨ ogliche Vorhersage f¨ ur Y = f (X) + ε mit X ∈ U([0, 1]), ε ∼ N(0, σ 2 ) unabh¨ angig?  =⇒ m∗ = arg min R(m), R(m) = E (Y − m(X))2 ] m : [0,1]→R

Es gilt: 1

1

2

e− 2σ2 (y−f (x))

1[0,1] (x),

fX,Y (x, y)

=



fy|X=x (y)

=

2 1 fX,Y (x, y) 1 =√ e− 2σ2 (y−f (x)) 2 fX (x) 2πσ

2πσ 2

fX (x) = 1[0,1] (x),

x ∈ [0, 1], y ∈ R,

(Dichte von N(f (x), σ 2 )),

106

8

m∗ (x)

:= E[Y |X = x] =

Z

¨ EINFUHRUNG IN DAS STATISTISCHE LERNEN

yfY |X=x (y)dy= f (x)

(Erwartungswert von N(f (x), σ 2 )).

R

▶ Orakelrisiko: R(m∗ ) = E[(Y − f (X))2 ] = E[ε2 ]= σ 2 .

-0,2

0,0

0,2

0,4

0,6

Abb.: Beobachtungen (Xi , Yi )i=1,...,n , n = 100, mit f (schwarz) Polynom vom Grad 4 und gesch¨atzte Regressionspolynome (1) m ˆ n (gr¨ un, gestrichelt), (2) m ˆn (gr¨ un, durchgezogen), (3) m ˆ n (violett, gestrichtelt), (4) m ˆ n (violett, durchgezogen). 0,0

0,2

0,4

0,6

0,8

1,0

▶ Empirischer Risikominimierer (= Regressionspolynom): n

m ˆ (p) n :=

2 1X Yi − m(Xi ) . m Polynom vom Grad p n i=1 arg min



Beispiel 8.7 (Herzerkrankung). Heart Disease Data Set a • n = 301 Patienten, • Xi ∈ R2 (systolische) Ruheblutdruck und maximale Herzfrequenz von Patienten i = 1, . . . , n, • Yi = +1 falls Patient i eine Herzerkrankung hat.

Maximale Herzfrequenz 80 100 120 140 160 180 200

Wir wenden uns abschließend Klassifikationsproblemen zu und wollen auch hierf¨ ur die Orakell¨osung bestimmen. Wir betrachten (X1 , Y1 ), . . . (Xn , Yn ) ∈ X ×{−1, +1} und wollen f¨ ur ein neues X die zugeh¨ orige Klasse Y voraussagen. Im Allgemeinen k¨onnen wir keine perfekte Trennung zwischen den Klassen erwarten.

100

120

140 160 Ruheblutdruck

180

200

♢ a https://archive.ics.uci.edu/ml/ datasets/heart+disease

Abb.: Darstellung der Patientendaten aus dem Heart Disease Data Set. Gr¨ une Dreiecke markieren gesunde und violette Punkte kranke Patienten. Entscheidungsgrenze der logistischen Regression als gestrichelte Linie.

Mit Pk (B) := P(X ∈ B|Y = k), B ⊆ X (mb.) und πk := P(Y = k) f¨ ur k ∈ {−1, +1} gilt nach dem Satz der totalen Wahrscheinlichkeit (Satz 2.5) P(X ∈ B) = π+1 P+1 (B) + π−1 P−1 (B) Wir nehmen an, dass P±1 Dichten p±1 haben, d.h. pk beschreibt die Verteilung der Kovariablen Xi in der Klasse k ∈ {−1, +1}.

107 ▶ Bedingte W’keit f¨ ur Klasse +1 f¨ ur ein gegebenes x ∈ X bestimmt mit Bayes-Formel (Satz 2.5): η(x) := P(Y = +1|X = x) =

P(X = x|Y = +1)P(Y = +1) π+1 p+1 (x) = P(X = x) π+1 p+1 (x) + π−1 p−1 (x)

(f¨ ur Z¨ ahldichten klar, sonst als bedingte Dichte fY |X=x (+1) mit gemeinsamer Dichte fX,Y (x, y) = π+1 p+1 (x)1{+1} (y) + π−1 p−1 (x)1{−1} (y)). ▶ Entscheidung f¨ ur Klasse +1, falls η(x) > 1/2, sonst f¨ ur Klasse −1. Um die G¨ ute einer Klassifikation zu messen, verwenden wir den 0-1-Verlust mit zugeh¨origem Risiko: Definition 8.8. Jede (messbare) Funktion C : X → {−1, +1} heißt Klassifizierer. Ihr Klassifikationsfehler ist R(C) := P(Y ̸= C(X)). Durch ( +1, falls π+1 p+1 (x) > π−1 p−1 (x), ∗ C (x) = sgn(2η(x) − 1) = −1, falls π+1 p+1 (x) ≤ π−1 p−1 (x) mit sgn(z) := 1(z > 0) − 1(z ≤ 0) wird der Bayes-Klassifizierer festgelegt. R(C ∗ ) heißt BayesRisiko des Klassifikationsproblems. Im Gegensatz zu statistischen Tests, werden hier die Entscheidungsfehler (1. und 2. Art) aufsummiert: R(C) = P(Y = +1, C(X) = −1) + P(Y = −1, C(X) = +1).

Satz 8.9 (Bayes-Risiko). F¨ ur das Bayes-Risiko gilt R(C ∗ ) = E[η(X) ∧ (1 − η(X))]. F¨ ur das Exzessrisiko eines Klassifizierers C gilt   R(C) − R(C ∗ ) = E |2η(X) − 1|1{C(X)̸=C ∗ (X)} . Insbesondere besitzt der Bayes-Klassifizierer minimales Risiko.

▶ Die Klassifikation ist an der Entscheidungsgrenze des Bayes-Klassifzierers {x ∈ X : η(x) = 12 } am schwierigsten, denn der Integrand η(X) ∧ (1 − η(X)) in R(C ∗ ) wird bei η(X) = 1/2 maximal. Beweis. Durch Bedingen und Einsetzen von η(x) erhalten wir P(Y ̸= C(X) | X = x) = P(Y = +1 | X = x)1{C(x) = −1}

+ P(Y = −1 | X = x)1{C(x) = +1}

= 1 − η(x) + (2η(x) − 1)1{C(x) = −1}. Nun gilt 1{C ∗ (x) = −1} = 1{2η(x) − 1 ≤ 0}, sodass insbesondere P(Y ̸= C ∗ (X) | X = x) = η(x) ∧ (1 − η(x)) und damit R(C ∗ ) = E[η(X) ∧ (1 − η(X))] gilt. Weiterhin schließen wir P(Y ̸= C(X) | X = x) − P(Y ̸= C ∗ (X) | X = x)

108

8

¨ EINFUHRUNG IN DAS STATISTISCHE LERNEN

= (2η(x) − 1)(1{C(x) = −1} − 1{C ∗ (x) = −1)} = |2η(x) − 1|1{C(x) ̸= C ∗ (x)}.

Integration bez¨ uglich der Verteilung von X bzw. der Satz der totalen Wahrscheinlichkeit ergibt   R(C) − R(C ∗ ) = P(Y ̸= C(X)) − P(Y ̸= C ∗ (X)) = E |2η(X) − 1|1{C(X) ̸= C ∗ (X)} . Der letzte Ausdruck ist offensichtlich nichtnegativ. ▶ η(x) = P(Y = +1|X = x) ist unbekannt. L¨ osungsansatz: Plug-in mit Sch¨atzer von η. Beispiel 8.10 (k n¨ achste Nachbarn). Definiere induktiv die n¨achsten Nachbarn X(1) (x), . . . , X(n) (x) von x u ¨ber X(1) (x) ∈ arg min ∥Xj − x∥, j=1,...,n

X(i+1) (x) ∈

arg min

∥Xj − x∥,

i = 1, . . . , n − 1.

j;Xj ∈{X / (1) (x),...,X(i) (x)}

F¨ ur k ∈ {1, . . . , n} bezeichnen wir mit Nk (x) = {X(1) (x), . . . , X(k) (x)} die Menge der k n¨ achsten Nachbarn von x. Der kNN-Klassifizierer ist definiert als n 1X Cˆ kN N (x) := sgn(2ˆ ηk (x) − 1) mit ηˆk (x) = 1{Xi ∈ Nk (x), Yi = +1}. k i=1

-2

-1

0

1

2

3

4

standardisierter Ruheblutdruck

-2

-1

0

1

2



-3

standardisierte max. Herzfrequenz

2 1 0 -1 -2 -3

standardisierte max. Herzfrequenz

▶ Mehrheitsvotum unter den k n¨ achsten Nachbarn.

-2

-1

0

1

2

3

4

standardisierter Ruheblutdruck

Abb.: Klassifikation, beruhend auf den k n¨achsten Nachbarn f¨ ur Beispiel 8.7 mit k = 3 (links) und k = 30 (rechts). Der violette Bereich wird als herzkrank und der gr¨ une Bereich als gesund klassifiziert.