Un primo corso in probabilità: Per scienze pure e applicate 9788820748326

Si espongono gli elementi del calcolo delle probabilità con la finalità di indicare come avvicinarsi alla descrizione qu

414 44 3MB

Italian Pages 366 Year 2009

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Un primo corso in probabilità: Per scienze pure e applicate
 9788820748326

Table of contents :
Copertina
Frontespizio
Copyright
Indice
Premessa
1 Introduzione alla probabilità
2 La teoria assiomatica
3 Le variabili aleatorie
4 Distribuzioni notevoli
5 Valore medio, momenti e funzioni generatrici
6 Distribuzioni e momenti condizionati
7 Densità di probabilità speciali e loro proprietà
8 Disuguaglianze notevoli
9 Teoremi asintotici
Appendice A Variabili aleatorie discrete
Appendice B Variabili aleatorie continue
Appendice C Distribuzione normale standard
Appendice D Fattoriali e coefficienti binomiali
Appendice E Formule notevoli
Appendice F Disuguaglianze
Alcuni personaggi
Indice analitico
Indice delle abbreviazioni e dei simboli
Quarta di copertina

Citation preview

Antonio Di Crescenzo Virginia Giorno

Amelia Giuseppina Nobile Luigi Maria Ricciardi

Un primo corso in probabilità per scienze pure e applicate

Liguori Editore

Questa opera è protetta dalla Legge sul diritto d’autore (Legge n. 633/1941: http://www.giustizia.it/cassazione/leggi/l633_41.html). Tutti i diritti, in particolare quelli relativi alla traduzione, alla citazione, alla riproduzione in qualsiasi forma, all’uso delle illustrazioni, delle tabelle e del materiale software a corredo, alla trasmissione radiofonica o televisiva, alla registrazione analogica o digitale, alla pubblicazione e diffusione attraverso la rete Internet sono riservati, anche nel caso di utilizzo parziale. La riproduzione di questa opera, anche se parziale o in copia digitale, è ammessa solo ed esclusivamente nei limiti stabiliti dalla Legge ed è soggetta all’autorizzazione scritta dell’Editore. La violazione delle norme comporta le sanzioni previste dalla legge. Il regolamento per l’uso dei contenuti e dei servizi presenti sul sito della Casa Editrice Liguori è disponibile al seguente indirizzo: http://www.liguori.it/politiche_contatti/default.asp?c=legal L’utilizzo in questa pubblicazione di denominazioni generiche, nomi commerciali e marchi registrati, anche se non specificamente identificati, non implica che tali denominazioni o marchi non siano protetti dalle relative leggi o regolamenti. Liguori Editore - I 80123 Napoli http://www.liguori.it/ © 2009 by Liguori Editore, S.r.l. Tutti i diritti sono riservati Prima edizione italiana Luglio 2009 Di Crescenzo, Antonio : Un primo corso in probabilità per scienze pure e applicate/Antonio Di Crescenzo, Virginia Giorno, Amelia Giuseppina Nobile, Luigi Maria Ricciardi Napoli : Liguori, 2009 ISBN-13 978 - 88 - 207 - 4845 - 6 1. Matematica 2. Casualità I. Titolo. Aggiornamenti: ————————————————————————————————————— 17 16 15 14 13 12 11 10 09 10 9 8 7 6 5 4 3 2 1 0

Indice

Premessa 1 Introduzione alla probabilit`a 1.1 Introduzione . . . . . . . . . . . . 1.2 Nota storica . . . . . . . . . . . . 1.3 Spazio campione ed eventi . . . . 1.4 Prime definizioni di probabilit`a . . 1.4.1 Definizione classica . . . 1.4.2 Definizione frequentista . 1.4.3 Definizione soggettiva . . 1.5 Probabilit`a geometriche . . . . . . 1.6 Problemi di calcolo combinatorio .

ix

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

1 1 3 5 10 10 12 14 15 18

2 La teoria assiomatica 2.1 Caratterizzazione degli eventi . . . . . . . . . . . . . . . . 2.2 Definizione assiomatica di probabilit`a . . . . . . . . . . . 2.3 Disuguaglianza di Boole e formula di inclusione-esclusione 2.4 Indipendenza di eventi . . . . . . . . . . . . . . . . . . . 2.5 Probabilit`a condizionata . . . . . . . . . . . . . . . . . . 2.6 Legge delle alternative . . . . . . . . . . . . . . . . . . . 2.7 Teorema di Bayes . . . . . . . . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

25 25 30 34 40 47 53 56

3 Le variabili aleatorie 3.1 Variabili aleatorie unidimensionali . . . . . . . . . . . 3.2 La funzione di distribuzione . . . . . . . . . . . . . . 3.3 Classificazione delle variabili aleatorie unidimensionali 3.3.1 Variabili aleatorie discrete . . . . . . . . . . . 3.3.2 Variabili aleatorie assolutamente continue . . . 3.3.3 Variabili aleatorie miste . . . . . . . . . . . . 3.4 Trasformazioni di variabili aleatorie . . . . . . . . . . 3.5 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . 3.6 Funzione di distribuzione congiunta . . . . . . . . . . 3.7 Classificazione dei vettori aleatori . . . . . . . . . . . 3.7.1 Vettori aleatori bidimensionali discreti . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

59 59 62 65 65 68 70 72 78 80 82 82

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

vi

Indice

3.8 3.9 4

5

6

3.7.2 Vettori aleatori bidimensionali assolutamente continui 3.7.3 Vettori aleatori multidimensionali . . . . . . . . . . . Indipendenza di variabili aleatorie . . . . . . . . . . . . . . . Trasformazioni di vettori aleatori . . . . . . . . . . . . . . . .

Distribuzioni notevoli 4.1 Famiglie parametriche di distribuzioni . . . . . . 4.2 Variabili aleatorie discrete . . . . . . . . . . . . 4.2.1 Distribuzione uniforme . . . . . . . . . . 4.2.2 Distribuzione di Bernoulli . . . . . . . . 4.2.3 Distribuzione binomiale . . . . . . . . . 4.2.4 Distribuzione ipergeometrica . . . . . . . 4.2.5 Distribuzione geometrica . . . . . . . . . 4.2.6 Distribuzione binomiale negativa . . . . . 4.2.7 Distribuzione di Poisson . . . . . . . . . 4.3 Vettori aleatori discreti . . . . . . . . . . . . . . 4.3.1 Distribuzione multinomiale . . . . . . . 4.3.2 Distribuzione ipergeometrica multivariata 4.4 Variabili aleatorie assolutamente continue . . . . 4.4.1 Distribuzione uniforme . . . . . . . . . . 4.4.2 Distribuzione esponenziale . . . . . . . . 4.4.3 Distribuzioni di Erlang e gamma . . . . . 4.4.4 Distribuzione iperesponenziale . . . . . . 4.4.5 Distribuzione di Weibull . . . . . . . . . 4.4.6 Distribuzione normale . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

84 86 89 94

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

105 105 105 106 107 108 112 116 118 122 125 126 130 132 132 135 140 144 146 148

Valore medio, momenti e funzioni generatrici 5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Valore medio . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Valore medio di una funzione di variabile aleatoria . . . . . 5.4 Momenti di una variabile aleatoria . . . . . . . . . . . . . . 5.5 Valore medio e momenti di una funzione di vettore aleatorio 5.6 Covarianza e coefficiente di correlazione . . . . . . . . . . . 5.7 Momenti centrali di somme di variabili aleatorie . . . . . . . 5.8 Funzioni generatrici . . . . . . . . . . . . . . . . . . . . . . 5.8.1 Funzione generatrice dei momenti . . . . . . . . . . 5.8.2 Funzioni generatrici di probabilit`a . . . . . . . . . . 5.8.3 Esempi di funzioni generatrici . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

153 153 153 166 173 186 189 196 202 203 205 208

Distribuzioni e momenti condizionati 6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . 6.2 Distribuzioni condizionate per variabili discrete . . 6.3 Distribuzioni condizionate per variabili continue . . 6.4 Distribuzioni condizionate per vettori aleatori misti 6.4.1 X discreta e Y assolutamente continua . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

219 219 219 224 228 228

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . .

. . . . . . . . . . . . . . . . . . .

. . . . .

. . . . . . . . . . . . . . . . . . .

. . . . .

. . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

Indice

6.5 6.6 6.7 6.8 6.9

vii

6.4.2 X assolutamente continua e Y discreta . . . . . . . . . Probabilit`a condizionate . . . . . . . . . . . . . . . . . . . . . 6.5.1 Variabile condizionante discreta . . . . . . . . . . . . . 6.5.2 Variabile condizionante assolutamente continua . . . . . Legge delle alternative e teorema di Bayes per variabili aleatorie Medie e momenti condizionati . . . . . . . . . . . . . . . . . . Valori medi delle medie condizionate . . . . . . . . . . . . . . . La densit`a normale bivariata . . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

231 233 233 234 234 240 245 249

7

Densit`a di probabilit`a speciali e loro propriet`a 7.1 Introduzione . . . . . . . . . . . . . . . . . 7.2 Statistiche ordinate e distribuzione beta . . 7.3 Distribuzione chi–quadrato . . . . . . . . . 7.4 Distribuzione di Fisher . . . . . . . . . . . 7.5 Distribuzione di Student . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

255 255 255 260 263 267

8

Disuguaglianze notevoli 8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Alcune semplici disuguaglianze . . . . . . . . . . . . . 8.3 Disuguaglianze coinvolgenti i soli momenti . . . . . . . 8.4 Limitazioni per somme di variabili aleatorie indipendenti 8.5 Altre disuguaglianze rilevanti . . . . . . . . . . . . . . . 8.6 Momenti di variabili aleatorie stocasticamente ordinate .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

271 271 271 284 288 291 296

9

Teoremi asintotici 9.1 Successioni di variabili aleatorie . . . 9.2 Convergenza di variabili aleatorie . . 9.3 Teorema centrale di convergenza . . . 9.4 Cenni alle leggi dei grandi numeri . . 9.5 Convergenze di distribuzioni binomiali

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

299 299 299 307 312 317

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

Appendici

322

A Variabili aleatorie discrete

323

B Variabili aleatorie continue

327

C Distribuzione normale standard

333

D Fattoriali e coefficienti binomiali

335

E Formule notevoli

337

F Disuguaglianze

341

Indice nomi Alcuni dei personaggi

347

viii

Indice

Indice analitico

349

Indice delle abbreviazioni e dei simboli

353

Premessa

Ben diversamente dagli scorsi decenni, nel panorama delle discipline oggetto d’insegnamento nei corsi di laurea triennali e specialistici sempre maggiore spazio trova il Calcolo delle Probabilit`a; ci`o non soltanto per la rilevanza che esso riveste per gli studenti delle Facolt`a di Scienze, d’Ingegneria e di Economia, ma anche per il riconosciuto ruolo formativo che svolge, dischiudendo allo studente, desiderabilmente fin dagli inizi del percorso universitario, l’esistenza di strumenti e modi non convenzionali di guardare ai fenomeni naturali e, in breve, al “mondo dell’incerto” che, dopotutto, e` proprio quello nel quale siamo tutti in larga parte immersi e che molte delle nostre azioni condiziona. Non trascurabile e` poi la circostanza che una delle principali applicazioni del Calcolo delle Probabilit`a e` la Statistica Inferenziale, ormai pane quotidiano per studenti e ricercatori anche in altre aree disciplinari quali Sociologia e Medicina. Va peraltro sottolineato che una corretta e non deviante utilizzazione delle tecniche e, in generale, della metodologia statistica, non pu`o avvenire in assenza di una sufficientemente approfondita conoscenza del Calcolo delle Probabilit`a, unitamente alla consapevolezza dei limiti di applicabilit`a di questa nel trarre affidabili conclusioni sui fenomeni in considerazione. A differenza ad esempio della Geometria, il cui sistema assiomatico-deduttivo affonda le proprie radici nell’opera di Euclide del III secolo a.C., o del Calcolo Differenziale il cui sviluppo, legato ai nomi di Newton e Leibniz, risale al XVII secolo, il Calcolo delle Probabilit`a e` una conquista del XX secolo. Invero, a superamento dei precedenti risultati concernenti fondamentalmente giochi d’azzardo ed altre situazioni a questi in ultima analisi riconducibili, il Calcolo delle Probabilit`a, o, pi`u propriamente, la Teoria della Probabilit`a, doveva attendere Andrey Nikolaevich Kolmogorov per trovare negli anni trenta una sistemazione assiomatica rigorosa. Questa, tuttavia, non e` oggetto del presente volume, il cui scopo e` di fornire un “primo corso” sulla materia avente la funzione di informare, e soprattutto di formare, lo studente interessato sui vari modi con i quali avvicinarsi alla risoluzione di problemi concreti; ci`o anche attraverso ampia esemplificazione e svolgimento dettagliato di numerosi esercizi, tutti da riguardarsi come parte integrante degli argomenti trattati. Gli strumenti dei quali si richiede lo studente sia in possesso consistono in una qualche dimestichezza con gli elementi base dell’analisi matematica, tipicamente oggetto d’insegnamento in un paio di moduli di un corso di studi universitari di durata triennale. Va tuttavia osservato che la comprensione di una significativa parte del testo prescinde anche da siffatti prerequisiti, e che le formule particolarmente necessarie, quando non ricavate esplicitamente, sono state inserite in un’apposita Appendice. Pur non trattandosi di un volume a carattere avanzato, non si rifugge da precisione nell’esposizione dei concetti: i risultati sono infatti tutti ricavati in modo rigoroso e, quando non

x

Indice Premessa

dimostrati a causa di indesiderabili appesantimenti o della necessit`a di far ricorso a strumenti troppo avanzati, essi sono corredati da specifici commenti e considerazioni esplicative. I primi sette capitoli sono dedicati agli elementi di base ed alle propriet`a salienti della probabilit`a, ivi inclusa una sistematica, ampia trattazione delle distribuzioni di probabilit`a con enfasi sulla loro utilizzazione per la risoluzione di problemi suggeriti da svariati contesti disciplinari. L’ottavo capitolo e` interamente dedicato alla presentazione di talune disuguaglianze probabilistiche il cui ruolo e` ampio e riconosciuto anche nei contesti applicativi. Il nono capitolo e` infine incentrato sui cosiddetti teoremi asintotici della probabilit`a, la cui trattazione avviene, nel presente volume, attraverso l’utilizzazione della funzione generatrice dei momenti invece che della pi`u potente funzione caratteristica, peraltro meno accessibile allo studente di destinazione. Sono altres`ı presenti alcune Appendici sinotticamente elencanti le distribuzioni trattate nel volume unitamente alle loro principali caratteristiche, nonch´e varie formule e disuguaglianze notevoli delle quali e` stato fatto sistematico od occasionale uso. Napoli, 25 marzo 2009 Gli Autori

Capitolo 1 Introduzione alla probabilit`a

1.1

Introduzione

Il Calcolo delle Probabilit`a, del quale la Statistica costituisce la pi`u popolare applicazione, oltre a rivestire elevato interesse sotto il profilo matematico fornisce utili strumenti di indagine in numerose e svariate aree tra le quali vanno annoverate le scienze fisiche e naturali nonch´e discipline quali tecnologia, psicologia, sociologia, economia, medicina. Grazie al Calcolo delle Probabilit`a ed alla Statistica e` risultata possibile l’estensione di rigorosi metodi quantitativi all’analisi ed all’interpretazione di esperimenti i cui risultati non appaiono univocamente determinati nel senso che ripetizioni di tali esperimenti in condizioni per quanto possibile identiche non conducono a risultati identici. Gli esempi pi`u familiari sono forniti dai giochi d’azzardo, riconducibili spesso a lanci di dadi o monete, scelta di carte da mazzi ben mescolati, lotterie; altrettanto significativi sono peraltro i dati tratti da sondaggi d’opinione, indagini epidemiologiche, sperimentazioni di nuovi farmaci, emissione di particelle da sorgenti radioattive, numero di utenti in file di attesa alle casse di un supermercato o ai caselli autostradali. A differenza di altre branche della matematica, quali ad esempio la geometria il cui sistema assiomatico-deduttivo affonda le proprie radici nell’opera di Euclide, la teoria della probabilit`a ha origini piuttosto recenti dal momento che i contributi pi`u antichi a questa disciplina risalgono ai secoli XV e XVI. La corrispondenza tra Pierre de Fermat e Blaise Pascal iniziata nel 1654, relativa a problemi specifici di giochi d’azzardo, che non venivano comunque annoverati tra le finalit`a della matematica dell’epoca, condusse all’introduzione di concetti di base quali “probabilit`a” e “aspettazione”. Un primo studio matematico sistematico, sempre con riferimento ai giochi d’azzardo, risale allo stesso periodo (1657) ed e` dovuto a Christian Huygens (De Ratiociniis in Ludo Aleae). Di questi iniziali sviluppi vanno sottolineate due caratteristiche fondamentali: anzitutto l’analisi dei giochi d’azzardo e` pressoch´e l’unico punto di riferimento concreto nella costruzione della teoria della probabilit`a, presumibilmente a causa dello scarso sviluppo delle scienze naturali in quell’epoca; in secondo luogo gli strumenti usati si riducono essenzialmente all’aritmetica ed al calcolo combinatorio.

2

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Un vero e proprio trattato a carattere analitico, che costitu`ı una fondamentale svolta rispetto a tale tendenza, fu pubblicato da Pierre-Simon Laplace nel 1812 con il titolo di Th´eorie Analytique des Probabilit´es. Contributi allo sviluppo di un apparato analitico sempre pi`u complesso, dovuti anche a Abraham De Moivre, a Karl Friedrich Gauss e a Simeon Denis Poisson, furono sviluppati a seguito di pressanti, specifiche richieste da parte della comunit`a scientifica e politica: necessit`a di formulare una teoria degli errori, risolvere problemi di balistica e ideare metodi di statistica, specialmente di statistica delle popolazioni. La formulazione moderna del calcolo delle probabilit`a deve comunque riguardarsi come una grande conquista del XX secolo. Grazie ai progressi registrati nei settori tecnologici e delle scienze fisiche e naturali, lo sviluppo della teoria della probabilit`a si e` poi ulteriormente accentuato allargando enormemente il campo delle sue applicazioni prima confinate esclusivamente ai giochi d’azzardo o a situazioni a questi riconducibili. Il calcolo delle probabilit`a nasce dall’osservazione di fenomeni casuali sistematicamente riscontrabili in natura e si prefigge di studiarne le leggi che li governano. Nel suo sviluppo possono individuarsi alcuni filoni principali che riguardano rispettivamente (i) la natura della probabilit`a, (ii) la teoria matematica del calcolo delle probabilit`a, (iii) le applicazioni. Come suggerito da Rudolf Carnap (Logical Foundations of Probability, University of Chicago Press, 1950), nell’ambito della problematica concernente la natura della probabilit`a (punto (i)) possono individuarsi due aree, l’una a carattere filosofico, l’altra privilegiante l’aspetto sperimentale. La prima e` incentrata sulla cosiddetta “inferenza induttiva”; questa si prefigge di ricavare delle propriet`a o delle indicazioni, da tradurre in assiomi di una teoria matematica, a partire da considerazioni ed osservazioni imprescindibili da un contesto induttivo. La seconda area, che privilegia l’aspetto sperimentale, e` incentrata sul problema dell’individuazione di relazioni che permettano di collegare i possibili risultati di esperimenti casuali con grandezze intrinseche dei fenomeni coinvolti. In particolare, essa e` rivolta allo studio di eventi ripetitivi caratterizzati dalla validit`a della cosiddetta legge empirica del caso, ossia dalla propriet`a che le loro frequenze empiriche di occorrenza in un gran numero di prove ripetute in condizioni sempre macroscopicamente identiche; all’aumentare del numero delle prove appaiono stabilizzarsi intorno a dei valori limite. La teoria matematica del calcolo delle probabilit`a (punto (ii)) e` invece fondata sulla formulazione di un insieme di assiomi dai quali sia possibile pervenire ad una teoria matematica intrinsecamente coerente. La validit`a di questa va poi collaudata mettendo a confronto risultati teorici con dati sperimentali. E` bene peraltro menzionare che gli assiomi stessi sono formulati in guisa da tradurre in forma quantitativa talune propriet`a suggerite da osservazioni di natura empirica. La teoria generale costruita in base a tali assiomi nel suo insieme prescinde, invece, dai fatti sperimentali, e quindi proprio attraverso questi essa va valutata a posteriori; la necessit`a di sostituzioni o di ritocchi del sistema assiomatico diventerebbe invero ineludibile qualora si riscontrassero contraddizioni o incongruenze con fatti sperimentali. L’esigenza di una costruzione assiomatica della teoria della probabilit`a nasce dalla circostanza che in molti casi sono da prendersi in esame situazioni ben pi`u complesse di quelle che, ad esempio, caratterizzano esperimenti collegati ai classici giochi d’azzardo, per i quali e` spesso sufficiente l’uso della nozione di frequenza empirica. Un fondamentale contributo in tal senso e` costituito dalla celeberrima monografia del 1933 del matematico russo An-

Un primo corso in probabilit`a per scienze pure e applicate

3

drey Nikolaevich Kolmogorov, disponibile in traduzione inglese col titolo Foundations of the Theory of Probability, Chelsea, N.Y., 1950. La struttura di base della teoria assiomatica della probabilit`a da questi elaborata e` da allora rimasta pressoch´e invariata. Per quanto attiene, infine, al settore concernente le applicazioni del calcolo delle probabilit`a (punto (iii)), va sottolineato che tra queste emerge per notoriet`a ed utilit`a la Statistica. Essa comprende un insieme di metodi di natura logica e matematica atti a raccogliere, elaborare, analizzare ed interpretare dati allo scopo di descrivere fenomeni collettivi e di estendere la descrizione di certi fenomeni osservati ad altri fenomeni dello stesso tipo non ancora osservati. La Statistica ha quindi per oggetto l’analisi di dati tratti da esperimenti effettivi, costituendo cos`ı un naturale collegamento tra la teoria matematica della probabilit`a e la realt`a. Concludiamo questo paragrafo con una considerazione di un Premio Nobel per la Fisica, il danese Max Born, che puntualizza1 un aspetto della rilevanza della teoria della probabilit`a nella Scienza: “. . . Il concetto di casualit`a interviene gi`a nei primi passi dell’attivit`a scientifica in virt`u del fatto che nessuna misura e` corretta in maniera assoluta. Io ritengo che la casualit`a sia un concetto pi`u fondamentale della causalit`a; invero, se in un caso concreto la relazione di causa-effetto sussista o meno pu`o solo giudicarsi applicando alle misure le leggi della casualit`a . . . ”. 1.2

Nota storica

L’assenza di una nozione quantitativa di probabilit`a nel mondo pregalileiano e` presumibilmente da attribuirsi all’inesistenza del metodo sperimentale. Fu infatti con la nascita di questo metodo, gloria tutta italiana, che riguardando all’antico gioco dei dadi con la nuova mentalit`a scientifica si scopr`ı l’esistenza di talune regolarit`a nei risultati di esperimenti i cui esiti non sono prevedibili con certezza in quanto legati in qualche misura al caso. Di ci`o viene fatta menzione nell’opera De Ludo Aleae di Gerolamo Cardano (1501–1576), medico, matematico e filosofo italiano, completata forse nel 1526 ma pubblicata postuma nel 1663. Precedentemente il concetto di probabilit`a era stato oggetto d’interesse del matematico Luca Pacioli (1445–1517) e, successivamente, dello stesso Galileo. Ma fu soltanto con Blaise Pascal (1623–1662) che il calcolo delle probabilit`a venne alla luce soprattutto per merito del Cavaliere Antoine Gombaud de M´er´e (1607–1684), personaggio molto in vista nell’ambiente bene parigino. Costui, accanito giocatore, accusava la matematica, della quale possedeva qualche conoscenza, di essere responsabile delle sue perdite ai dadi dal momento che le frequenze dei risultati del gioco non corrispondevano alle sue valutazioni teoriche sulle quali egli basava la determinazione della posta. Proprio il suo porre a Pascal quesiti del tipo “quanti lanci occorrono per poter sperare di ottenere un 6 doppio lanciando una coppia di dadi” fu all’origine della prima richiamata corrispondenza tra questi e Pierre de Fermat (1601–1665) che si estese successivamente a numerosi problemi di probabilit`a combinatoria. Seguirono l’opera dell’olandese Christian Huygens (1629–1695), della quale si e` gi`a fatta menzione, ed i lavori dei Bernoulli, membri di una famiglia di matematici svizzeri. A Jacques Bernoulli (1654–1705), autore della Ars Coniectandi, che apparve postuma nel 1713, sono dovuti un celebre teorema ed un famoso modello matematico che portano il suo nome. Daniele Bernoulli (1700–1782) si preoccup`o invece di applicare il calcolo delle probabilit`a a svariati

1 M.

Born. Natural Philosophy of Cause and Chance, Oxford University Press, 1949.

4

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

problemi concreti, introducendo anche la nozione di “utilit`a” nella teoria della probabilit`a. A lui e` dovuta la formulazione del cosiddetto paradosso di San Pietroburgo, che val qui la pena riassumere. Si considera il gioco d’azzardo consistente in una successione di lanci indipendenti di una moneta non truccata. Un giocatore viene ammesso al gioco previo pagamento di una certa somma, diciamo di s Euro. Si suppone che il giocatore riceve 2 Euro se si verifica testa al primo lancio, 4 Euro se testa si verifica per la prima volta al secondo lancio, 8 Euro se testa si verifica per la prima volta al terzo lancio e, in generale, 2n Euro se testa si verifica per la prima volta all’n-esimo lancio. Ci si chiede quale sia un valore “equo” di s, ossia quale sia un’equa somma da richiedersi al giocatore per consentirgli di partecipare al gioco. Intuitivamente si sarebbe portati ad identificare s con la somma che in media il giocatore vince, ma questa si dimostra valere +∞. Tale risultato e` appunto paradossale in quanto si esigerebbe una somma infinitamente grande per consentire la partecipazione ad un gioco dal quale non pu`o che ricavarsi una vincita limitata. Ritorniamo al nostro breve excursus di carattere storico.2 Ruolo importante per lo sviluppo della teoria della probabilit`a fu svolto dal matematico inglese Abraham de Moivre (1667–1754) che con la sua Doctrine of Chance del 1718 gett`o le basi della convergenza della distribuzione binomiale alla legge normale, dimostrando cos`ı, sia pure in un caso particolare, una legge riscontrata molto spesso nello studio sperimentale dei cosiddetti fenomeni casuali o aleatori, ossia dei fenomeni retti dalle leggi del caso. Sempre in Inghilterra, soprattutto a seguito del crescente sviluppo delle societ`a di assicurazione, specialmente delle assicurazioni marittime a copertura dei rischi legati ai commerci d’oltremare, Thomas Bayes (1702–1761) formul`o il cosiddetto “problema della probabilit`a delle cause”, fornendone una prima soluzione attraverso una nota formula che porta il suo nome. Al matematico francese Antoine Deparcieux (1703–1768) va fatta poi risalire la nascita della statistica moderna grazie all’utilizzazione che egli sistematicamente fece di concetti e metodi della probabilit`a in indagini di natura statistica. Seguirono Pierre-Simon Laplace (1749–1827), anch’egli francese, il cui trattato sulla teoria analitica della probabilit`a e` gi`a stato richiamato, ed il tedesco Karl Friedrich Gauss (1777–1855), grazie ai quali trovarono ulteriore sviluppo e sistemazione importanti questioni quali il teorema centrale di convergenza, l’analisi degli errori nelle misure, il trattamento dei dati sperimentali. E` significativo che il grafico della famosa curva di Gauss, che estrema rilevanza riveste nel contesto della probabilit`a, abbia fatto bella mostra di s´e sulle banconote tedesche dei vecchi 10 marchi! Notevoli ulteriori contributi alla teoria della probabilit`a furono apportati nel Secolo XIX soprattutto da matematici francesi e inglesi. Basti ricordare le opere di Simeon Denis Poisson (1781–1840) al cui nome e` legata una fondamentale legge della teoria, e di George Boole (1815–1864) la cui intuizione doveva poi, tra l’altro, contribuire ad individuare la struttura algebrica della teoria della probabilit`a. Dalla met`a del XIX secolo sino agli anni venti di quello appena trascorso lo sviluppo della teoria della probabilit`a e` saldamente legato ai nomi dello studioso sovietico Pafnuti Lvovich Chebyshev (1821–1894) e dei suoi allievi Andrei Andreyevich Markov (1856–1922) e Aleksandr Mikhailovich Lyapunov (1857–1918) ai quali va anche attribuito il merito di aver introdotto e sistematicamente utilizzato il concetto di variabile aleatoria. Essi molto contribuirono a dar lustro alla celebre scuola matematica di San Pietroburgo alla quale sono

2 Una trattazione approfondita della storia della probabilit` a fino alla nascita della teoria assiomatica e` , ad esempio, presente nel classico trattato L.E. Maistrov, Probability Theory – A Historical Sketch, Academic Press, 1974.

Un primo corso in probabilit`a per scienze pure e applicate

5

ascrivibili fondamento logico e impostazione astratta della teoria della probabilit`a, nonch´e la nascita stessa di una nuova branca di questa teoria, oggi nota quale teoria dei processi stocastici. Lo sviluppo della moderna teoria della probabilit`a ed il suo successivo allargamento a molteplici, diversificati settori di grande interesse applicativo e` avvenuto attraverso l’opera di numerosissimi studiosi di svariati Paesi. Va comunque detto che ruolo centrale ha svolto la cosiddetta Scuola Russa, particolarmente con Sergei Natanovich Bernstein (1880–1968), Andrey Nikolaevich Kolmogorov (1903–1987) e Aleksandr Yakovlevich Khinchin (1894– ´ 1959). Fu per`o durante la prima decade del ’900 che Emile Borel (1871–1956) formul`o il primo collegamento tra teoria della probabilit`a e aspetti della teoria astratta della misura delle funzioni di variabile reale. Successivamente, negli anni venti, queste idee furono ulteriormente sviluppate ad opera dei sopra menzionati Khinchin e Kolmogorov oltre che da Evgeny Evgenievich Slutsky (1880–1948), Paul L´evy (1886–1971), Richard von Mises (1883–1953) e molti altri, con risultati davvero fecondi per lo sviluppo della teoria. Ulteriori importanti sviluppi si ebbero anche con Jarl Waldemar Lindeberg (1876–1932), Bernstein, William Feller (1906–1970) ed innumerevoli altri studiosi, tra cui l’eclettico Norbert Wiener (1894– 1964). Gli strumenti della teoria della misura e dell’analisi funzionale hanno poi condotto ad estensioni formidabili della teoria della probabilit`a, soprattutto per quanto attiene alla sopra ricordata teoria dei processi stocastici che, gi`a presente in embrione in lavori di Louis Bachelier (1870–1946), Adriaan Daniel Fokker (1887–1972) e Max Planck (1858–1947), ha trovato fondamento matematico rigoroso agli inizi degli anni trenta ad opera di Khinchin e di Kolmogorov. Proprio a quest’ultimo, come si e` gi`a detto, e` dovuta la formulazione assiomatica della teoria della probabilit`a.

1.3

Spazio campione ed eventi

Convenzionalmente con la locuzione “esperimento casuale” si indica ogni atto o processo, spontaneamente verificantesi o artificialmente realizzato, di cui non sia prevedibile con certezza il risultato o lo sviluppo, ma che sia ripetibile o, quantomeno, concepibile come tale. Ogni singola esecuzione dell’esperimento casuale viene detta prova. I possibili esiti, o “risultati”, di un esperimento casuale devono intendersi invece sempre ben definiti o precisabili. L’impossibilit`a di previsione pu`o essere di duplice natura: si pu`o trattare di fenomeni deterministici di cui, per`o, sono mal note o non sono affatto note leggi atte a descriverli, oppure di fenomeni di natura aleatoria, ossia intrinsecamente retti da leggi probabilistiche. Per quanto riguarda fenomeni del primo tipo si fissi per un attimo l’attenzione sul problema della descrizione dell’evoluzione dinamica delle molecole di un gas. In linea di principio sarebbe possibile formulare le equazioni del moto delle singole molecole, ma tali equazioni sarebbero in realt`a improduttive; ci`o non solo per il loro numero astronomico (si ricordi che ad esempio un grammo di idrogeno contiene circa 6 · 1023 molecole), ma anche perch´e in realt`a il moto delle molecole individuali non offre interesse essendo molto pi`u importante ottenere informazioni sul comportamento macroscopico del gas. In questo caso tecniche di tipo statistico vengono in aiuto per risolvere problemi che pure sono di natura deterministica. Ricordiamo, poi, che vi sono fenomeni a carattere intrinsecamente aleatorio, quali quelli connessi con il comportamento della materia a livello subatomico. A carattere intrinsecamente aleatorio sono

6

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

altres`ı annoverati tutti gli esperimenti concernenti estrazioni di carte da mazzi ben mescolati, di biglie da urne, o in generale riguardanti giochi d’azzardo. Si consideri un esperimento casuale con caratteristiche e condizioni ambientali ben definite; si definisce spazio campione, e lo si indica tradizionalmente con Ω, l’insieme dei possibili risultati dell’esperimento casuale.3 Ad esempio, nell’esperimento consistente nell’estrazione di una biglia da un’urna contenente n biglie in parte bianche e in parte rosse, lo spazio campione potrebbe essere costituito da n elementi, ciascuno identificante una ed una sola biglia. Se invece dovesse essere d’interesse solo il colore della biglia estratta, lo spazio campione consisterebbe dei due soli elementi “bianco”, “rosso”. A seconda delle situazioni, lo spazio campione pu`o essere discreto (finito o numerabile) o continuo. Se, ad esempio, l’esperimento casuale consiste nel lanciare una moneta per un prefissato numero di volte e nel registrare la successione di teste e di croci ottenuta, Ω e` finito; se, invece, l’esperimento consiste nel lanciare ripetutamente un dado fino a quando il risultato e` un numero pari, Ω e` numerabile; infine, Ω e` continuo se ad esempio si assume che l’esperimento fornisca come esito un numero reale appartenente ad uno specificato intervallo. Si noti che esperimenti casuali distinti possono dar luogo allo stesso spazio campione. I possibili risultati dell’esperimento casuale vengono detti eventi elementari. Nel seguito il generico evento elementare sar`a denotato con ω. Lo spazio campione Ω e` costituito dunque dalla totalit`a degli eventi elementari. L’associare ad ogni esperimento casuale uno spazio campione permette di introdurre il concetto di evento. Un evento e` un sottoinsieme dell’insieme Ω, ivi compreso l’insieme vuoto e l’intero Ω. Si noti che con tale definizione un evento elementare non e` un evento, mentre evento pu`o essere un singleton, ossia un sottoinsieme di Ω costituito da un solo evento elementare. Nel seguito un generico evento sar`a usualmente denotato con lettere romane maiuscole A, B, . . . E` importante sottolineare che non sempre tutti i sottoinsiemi dello spazio campione Ω possono essere considerati eventi. Il concetto di evento e` , invero, inscindibilmente legato alle nozioni di osservabilit`a e misurabilit`a. Perch´e un sottoinsieme E di Ω possa riguardarsi come evento, deve anzitutto potersi stabilire se il risultato dell’esperimento casuale, quando effettuato, e` , oppure no, un elemento di E; inoltre, deve anche essere possibile “misurare” l’evento, ossia associare ad E una misura P (E) che viene interpretata come probabilit`a di E. Si pensi, ad esempio, all’esperimento casuale consistente nel lancio di una moneta ripetuto quattro volte. Lo spazio campione Ω consta di 16 eventi elementari ciascuno dei quali e` formato da una sequenza di 4 elementi, ognuno di questi essendo T (Testa) o C (Croce). Sia E il sottoinsieme di Ω costituito dagli eventi elementari contenenti almeno tre teste: E = {(TTTT), (CTTT), (TCTT), (TTCT), (TTTC)}. Si supponga ora che i risultati di questo esperimento casuale siano registrati da un dispositivo fisico in grado di trascrivere soltanto 2 dei 4 risultati dei lanci. L’osservatore e` dunque nell’impossibilit`a di stabilire, sulla base dei dati registrati dal dispositivo, se il risultato dell’esperimento casuale appartiene, oppure no, ad E. Quindi E non e` osservabile, cos`ı che non pu`o riguardarsi come evento. D’altra parte, si comprende come questa non osservabilit`a

3 Talvolta per spazio campione si intende un qualsiasi insieme i cui elementi siano in corrispondenza biunivoca con i possibili risultati dell’esperimento casuale considerato.

Un primo corso in probabilit`a per scienze pure e applicate

7

comporti l’impossibilit`a di associare ad E una misura (ad esempio attraverso la registrazione delle frequenze empiriche di occorrenza di E) che sia interpretabile come la sua probabilit`a. In realt`a, anche prescindendo da considerazioni di “osservabilit`a”, e` ben noto che vi sono situazioni in cui non e` possibile associare una misura (ossia una probabilit`a in questo contesto) a tutti i sottoinsiemi di Ω. Ad esempio se Ω coincide con Rn si e` quasi sempre costretti da ragioni di consistenza matematica a considerare come famiglia degli eventi la sola classe dei cosiddetti insiemi di Borel (dei quali si dir`a nel Capitolo 2) in luogo della collezione di tutti i sottoinsiemi di Ω. Si dice che un evento E si verifica, o “occorre”, quando il risultato ω dell’esperimento casuale effettuato appartiene ad E. Ad esempio, nell’esperimento consistente nel lanciare una sola volta un dado, pu`o assumersi Ω = {1, 2, . . . , 6}, cos`ı che E = {2, 4, 6} e` l’evento “numero pari”. Se il lancio d`a come esito il numero 2, oppure il numero 4 oppure il numero 6, diciamo che l’evento E si e` verificato. Si noti che il verificarsi di un evento non esclude il verificarsi anche di altri eventi. Ad esempio, con riferimento al lancio del dado, l’uscita del numero 6 indica l’occorrenza sia dell’evento “uscita di un numero pari” sia dell’evento “uscita di un numero maggiore di 4”. Lo spazio Ω, costituito dalla totalit`a degli eventi elementari, e` detto evento certo (“certo” perch´e qualunque sia l’evento elementare ω che si verifica, risulta ω ∈ Ω). Quindi, Ω e` un insieme di eventi elementari necessari (nel senso che uno di essi si deve verificare necessariamente) ed incompatibili (ossia pi`u eventi elementari non possono verificarsi simultaneamente). L’evento che non contiene nessun evento elementare viene detto evento impossibile e denotato con Ø. Si noti che esiste un’analogia tra il linguaggio del calcolo delle probabilit`a e quello della teoria degli insiemi. Infatti, agli elementi di un insieme corrispondono gli eventi elementari; al termine “sottoinsieme” corrisponde il termine “evento”; all’insieme Ω corrisponde l’evento certo; all’insieme vuoto Ø corrisponde l’evento impossibile. Se A e` un evento, A (complemento o complementare di A), denota l’evento costituito dall’insieme degli eventi elementari di Ω che non appartengono ad A. Ovviamente il complemento di A e` l’evento A; quindi Ω = Ø e Ø = Ω. Se A e B sono eventi, A ∪ B denota l’evento che consiste di tutti gli eventi elementari che appartengono ad almeno uno degli eventi A, B. Quindi A ∪ B si verifica se A si verifica e B non si verifica, oppure se B si verifica e A non si verifica, oppure se entrambi A e B si verificano. Se A e B sono eventi, A ∩ B denota l’evento che consiste di tutti gli eventi elementari che appartengono sia ad A che a B. Inoltre, se A ∩ B = Ø gli eventi A e B non si possono verificare contemporaneamente; infatti, se ω ∈ A allora ω 6∈ B, e se ω ∈ B allora ω 6∈ A. In questo caso gli eventi A e B sono detti incompatibili oppure mutuamente esclusivi. Con la scrittura A ⊂ B, che si legge A implica B, si indica che il verificarsi dell’evento A implica il verificarsi dell’evento B. Quindi, se A ⊂ B e se ω ∈ A, allora ω ∈ B. Ovviamente A ⊂ B equivale a B ⊂ A. Inoltre, la scrittura A = B indica che ogni evento elementare in A e` un evento elementare in B ed ogni evento elementare in B e` un evento elementare in A. Si noti che A = B equivale a richiedere che A ⊂ B e B ⊂ A. Pi`u in generale, l’evento A1 ∪ A2 ∪ · · · ∪ An si verifica quando almeno uno degli eventi Ak (k = 1, 2, . . . , n) si verifica, mentre l’occorrenza dell’evento A1 ∩ A2 ∩ · · · ∩ An consiste nel verificarsi di tutti gli eventi Ak (k = 1, 2, . . . , n).

8

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Gli eventi A1 , A2 , . . . , An sono detti incompatibili se e solo se essi sono incompatibili a due a due, cio`e se e solo se Ai ∩ Aj = Ø (i, j = 1, 2, . . . , n; i 6= j). Le relazioni tra eventi sono spesso rappresentate mediante diagrammi di Venn, in cui lo spazio campione Ω e` solitamente indicato con un rettangolo, mentre gli eventi sono rappresentati da regioni del rettangolo, ad esempio cerchi o parti di cerchi (v. Figura 1.1).

'$ A

A

A

&%

B

&% &%

(b) L’evento A ∪ B e` tratteggiato

(a) Gli eventi A e A

A

'$ '$

'$ '$ B

&% &%

(c) L’evento A ∩ B e` tratteggiato

A

'$ '$ B

&% &%

(d) Eventi incompatibili

Figura 1.1 – Diagrammi di Venn indicanti alcuni eventi.

Esempio 1.1 Si supponga di lanciare per due volte un dado e si assuma come spazio campione l’insieme delle 36 coppie di possibili risultati: Ω = {(i, j): i, j = 1, 2, . . . , 6}. Si denoti con A = {(i, j): i = 1, 2; j = 1, 2, . . . , 6} l’evento che si verifica quando il primo dado fornisce un numero minore di 3, con B = {(i, j): i = 1, 2, . . . , 6; j = 4, 5, 6} l’evento che si verifica quando il secondo dado d`a un numero maggiore di 3 e con C = {(i, j): i = 4, 5, 6; j = 1, 2} l’evento che si verifica quando il primo dado fornisce un numero maggiore di 3 e il secondo un numero minore di 3. In Figura 1.2 sono indicati gli eventi A, B e C mediante un diagramma di Venn. Si noti che gli eventi A e B non sono incompatibili, poich´e A ∩ B = {(i, j): i = 1, 2; j = 4, 5, 6}, mentre A e C sono incompatibili, cos`ı come incompatibili sono B e C. ♦ Alcune semplici relazioni tra eventi sono le seguenti: (1)

Ø∩A=Ø e

Ø∪A=A

Un primo corso in probabilit`a per scienze pure e applicate

9

j 6

6 5 4 3 2 1

A  ' s s s s s

s

s

s

1

2

s s & s s

s s

s s

s s s

s s  s s s s

s s   s

s

s

3

4

5

s s s s s s 6

$ B %

 C

 i

Figura 1.2 – Diagramma di Venn che indica i tre eventi A, B e C dell’Esempio 1.1.

(2)

Ω∩A=A e Ω∪A=Ω

(3)

A∩A=Ø e

(4)

(A ∪ B) ∪ C = A ∪ (B ∪ C)

(5)

(A ∩ B) ∩ C = A ∩ (B ∩ C)

(6)

A∩(B ∪C) = (A∩B)∪(A∩C)

(distributivit`a dell’intersezione rispetto all’unione)

(7)

A∪(B∩C) = (A∪B)∩(A∪C)

(distributivit`a dell’unione rispetto all’intersezione).

A∪A=Ω (propriet`a associativa dell’unione di eventi) (propriet`a associativa dell’intersezione di eventi)

Altre relazioni, di leggermente pi`u riposta dimostrazione, sono le seguenti: (8)

A ∩ (A ∩ B) = Ø.

Infatti, per la propriet`a associativa (5) si ha A ∩ (A ∩ B) = (A ∩ A) ∩ B = Ø ∩ B = Ø. (9)

A = (A ∩ B) ∪ (A ∩ B). Invero, dire che l’evento A si verifica equivale a dire che si verificano entrambi gli eventi A e B, oppure che si verifica l’evento A senza che si verifichi B; infatti, per le propriet`a (2) e (3) e per la propriet`a distributiva (6) risulta A = A∩Ω = A∩(B ∪B) = (A ∩ B) ∪ (A ∩ B).

(10)

A = A ∪ (A ∩ B).

10

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Infatti, dire che l’evento A si verifica equivale a dire che si verifica l’evento A oppure che si verificano entrambi gli eventi A e B. Ci`o e` immediata conseguenza dell’osservazione che l’unione di un evento con un suo sottoinsieme riproduce l’evento stesso. (11)

A = A ∩ (A ∪ B). Dire che l’evento A si verifica equivale a dire che si verifica l’evento A e che si verifica almeno uno degli eventi A, B; infatti, per la propriet`a distributiva (6) si ha che A ∩ (A ∪ B) = (A ∩ A) ∪ (A ∩ B) = A ∪ (A ∩ B) = A.

(12)

A ∪ B = A ∪ (A ∩ B). Infatti, dire che almeno uno degli eventi A, B si verifica equivale a dire che o si verifica l’evento A oppure che si verifica l’evento B senza che si verifichi A; invero, usando la propriet`a distributiva (7) si ha A∪(A∩B) = (A∪A)∩(A∪B) = Ω∩(A∪B) = A∪B.

(13)

A∪B =A∩B

e

A∩B =A∪B

(formule di De Morgan).

Concludendo, la famiglia degli eventi deve possedere una struttura adeguatamente ricca. Infatti, e` ragionevole richiedere che se un sottoinsieme E di Ω e` un evento, deve risultare possibile stabilire inequivocabilmente se il generico risultato ω dell’esperimento casuale e` , oppure no, un elemento di E. Se ci`o e` possibile, e` certamente anche possibile stabilire se ω appartiene, oppure no, al complemento E di E; se, inoltre, si pu`o stabilire se ω appartiene, oppure no, a ciascun sottoinsieme se ω apparSn Ei (i = 1, 2, . . . , n) di Ω, si pu`o ancheTstabilire n tiene, oppure no, all’unione i=1 Ei (e, quindi, anche all’intersezione i=1 Ei ). E` dunque naturale richiedere che la classe degli eventi sia chiusa rispetto alle operazioni di complementazione, unione e intersezione finita. Infine, poich´e e` sempre affermativa la risposta al quesito se ω appartenga o meno ad Ω, va richiesto che anche l’intero spazio campione Ω sia un evento. In realt`a, come vedremo in seguito, si suppone che la classe degli eventi sia chiusa anche rispetto alle operazioni di complementazione, unione ed intersezione numerabili; ci`o non risulta giustificabile su base intuitiva e va, per il momento, interpretato come un requisito atto a pervenire ad una maggiormente ricca teoria matematica della probabilit`a. 1.4

Prime definizioni di probabilit`a

Per costruire una teoria utilizzabile in problemi concreti e` opportuno partire da una definizione di probabilit`a che ne rispecchi il contenuto intuitivo e che allo stesso tempo sia operativa nel senso di contenere in s´e le regole di calcolo che sono alla base dei necessari sviluppi matematici. Poich´e l’interpretazione degli aspetti intuitivi non e` unica, si sono sviluppate nel corso dei tempi definizioni diverse di probabilit`a: classica, frequentista e soggettiva. 1.4.1

Definizione classica

La prima definizione di probabilit`a, che chiameremo “classica”, si ritrova gi`a in Pascal e viene utilizzata anche da Laplace.

Un primo corso in probabilit`a per scienze pure e applicate

11

Definizione 1.1 (Probabilit`a classica) Dato uno spazio campione Ω finito, si definisce probabilit`a P (A) di un evento A ⊂ Ω il rapporto tra il numero N (A) di casi favorevoli al verificarsi dell’evento A ed il numero N (Ω) dei casi possibili, purch´e questi ultimi siano “ugualmente possibili”: N (A) P (A) = . N (Ω) Tale definizione, sebbene operativa, contiene in realt`a una tautologia perch´e affermare che gli eventi sono “ugualmente possibili” equivale ad affermare che sono equiprobabili, ossia ugualmente probabili. Quindi, tale definizione presuppone che si sappia stabilire a priori quando eventi hanno uguale probabilit`a di occorrenza. Ci`o e` peraltro intuitivamente fattibile quando ci si riferisce, ad esempio, a risultati di esperimenti quali giochi nei quali l’equiprobabilit`a di taluni risultati (uscita di rosso o nero in roulettes non truccate, estrazioni del lotto, ecc.) e` realisticamente conseguenza delle condizioni in cui si opera. Dalla Definizione 1.1 segue immediatamente che la probabilit`a e` un numero compreso tra 0 (quando nessun caso e` favorevole) e 1 (quando tutti i casi sono favorevoli); in particolare si ha il valore 1 quando l’evento si verifica certamente. Un’altra conseguenza della definizione e` la legge di additivit`a finita della probabilit`a che pu`o cos`ı formularsi: se A1 e A2 sono eventi incompatibili dello stesso spazio campione Ω, la probabilit`a della loro unione e` uguale alla somma delle rispettive probabilit`a: P (A1 ∪ A2 ) = P (A1 ) + P (A2 ).

(1.1)

Infatti, poich´e per ipotesi i due eventi sono incompatibili, il numero N (A1 ∪ A2 ) dei casi favorevoli all’evento A1 ∪ A2 e` uguale a N (A1 ) + N (A2 ), ossia alla somma del numero dei casi favorevoli ad A1 e del numero di quelli favorevoli ad A2 . Usando la Definizione 1.1, si ha: P (A1 ∪ A2 ) =

N (A1 ∪ A2 ) N (A1 ) + N (A2 ) N (A1 ) N (A2 ) = = + = P (A1 ) + P (A2 ). N (Ω) N (Ω) N (Ω) N (Ω)

Abbiamo cos`ı ricavato, come diretta conseguenza della definizione data, alcune propriet`a della probabilit`a. Da quanto detto discende che l’area nella quale e` utilizzabile la definizione classica di probabilit`a e` quella dei giochi d’azzardo e simili. Invero in tal caso le regole stesse individuano con esattezza le diverse possibili alternative che, come si e` gi`a sottolineato, possono spesso assumersi ugualmente probabili. Si tratta allora di determinare il numero dei casi possibili ed il numero dei casi favorevoli, nel che gioca ruolo importante il calcolo combinatorio. Va qui menzionato che nel caso in cui Ω non contiene un numero finito di elementi, il concetto di equiprobabilit`a deve essere espresso in altro modo, come si vedr`a nel seguito. Esempio 1.2 Si supponga di lanciare un dado4 e di voler calcolare la probabilit`a che il risultato sia un numero pari. Per motivi di simmetria, le uscite di ciascuna delle sei facce del dado sono da considerarsi ugualmente probabili. Essendo 3 il numero di casi favorevoli e 6 il numero di casi possibili, per la definizione classica la probabilit`a richiesta e` 3/6 = 1/2. Si supponga ora di lanciare il dado per due volte e di essere interessati alla probabilit`a che

12

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi Tabella 1.1 – Somma dei risultati in due lanci di un dado.

Primo lancio

1

2

1 2 3 4 5 6

2 3 4 5 6 7

3 4 5 6 7 8

Secondo lancio 3 4 5 4 5 6 7 8 9

5 6 7 8 9 10

6 7 8 9 10 11

6 7 8 9 10 11 12

la somma dei risultati sia 10 oppure 11. Si considerino i seguenti eventi: B = {la somma dei risultati e` 10 oppure 11}, A1 = {la somma dei risultati e` 10}, A2 = {la somma dei risultati e` 11}. Si noti che B = A1 ∪ A2 e, poich´e gli eventi A1 e A2 sono incompatibili, dalla (1.1) risulta P (B) = P (A1 ) + P (A2 ). Il numero dei casi possibili e` N = 36, ossia uguale al numero delle coppie (i, j), i, j = 1, . . . , 6. Come si nota dalla Tabella 1.1, le coppie che forniscono come somma 10 sono (4, 6), (5, 5) e (6, 4), cos`ı che il numero dei casi favorevoli all’evento A1 e` 3. Ne segue P (A1 ) = 3/36 = 1/12. Invece, le coppie che forniscono come somma 11 sono (5, 6) e (6, 5), di modo che il numero dei casi favorevoli all’evento A2 e` 2. Ne segue P (A2 ) = 2/36 = 1/18. La probabilit`a richiesta e` in conclusione P (B) = 1/12 + 1/18 = 5/36. ♦ 1.4.2

Definizione frequentista

E` noto fin dall’antichit`a che per un gran numero di fenomeni traducibili in esperimenti casuali consistenti in prove ripetute (quali ad esempio ripetizioni del lancio di una moneta) il verificarsi o meno di un prefissato evento esibisce talune regolarit`a. Invero, indicato con νn (A) il numero di volte in cui l’evento A si verifica in n prove ripetute nelle stesse condizioni (frequenza assoluta di occorrenza dell’evento A), la frequenza relativa fn (A) di occorrenza di A, ossia il rapporto νn (A)/n, al crescere di n appare stabilizzarsi intorno ad un qualche “valore limite”. Questa osservazione, di natura esclusivamente empirica, ha condotto alla formulazione del seguente postulato, noto come Legge Empirica del Caso: In una successione di prove effettuate nelle stesse condizioni, al crescere del numero delle prove la frequenza relativa di ogni prefissato evento si avvicina alla probabilit`a dell’evento stesso. La legge empirica del caso mette in relazione la frequenza relativa, determinata sperimentalmente, con la nozione teorica di probabilit`a, che risulta pertanto indirettamente definita. Si giunge cos`ı alla definizione frequentista di probabilit`a. Definizione 1.2 (Probabilit`a frequentista) In una successione di prove effettuate nelle stesse condizioni la probabilit`a di un evento e` misurata dalle frequenze relative di occorrenza dell’evento quando il numero delle prove cresce indefinitamente.

4 A meno di esplicito avviso contrario, assumeremo sempre tacitamente che dadi, monete e mazzi di carte siano “equi”, ossia non truccati, e che gli esperimenti coinvolti non siano effettuati ad opera di bari.

Un primo corso in probabilit`a per scienze pure e applicate

13

Va subito detto che perch´e questa definizione sia utilizzabile e` necessario disporre di successioni di prove ripetute tutte effettuate nelle medesime condizioni. Ci`o ne restringe l’applicabilit`a a situazioni ben definite, quali lanci successivi di una moneta. Nemmeno la definizione frequentista e` esente da critiche. Infatti, le frequenze relative di cui si dice costituiscono successioni costruite sperimentalmente cos`ı che i concetti classici, quali quelli di limite, non sono appropriati. Come la definizione classica, la definizione frequentista e` comunque operativa. La frequenza relativa delle prove in cui l’evento considerato si verifica possiede le stesse caratteristiche esibite dal rapporto tra il numero di casi favorevoli e il numero dei casi possibili. Infatti si ha 0 ≤ fn (A) ≤ 1, con l’uguaglianza a 0 se l’evento non si e` verificato nelle n prove e l’uguaglianza ad 1 se l’evento si e` verificato in ognuna delle n prove. E` ragionevole assumere che tali propriet`a sussistano anche nell’ideale passaggio al limite, ossia quando il numero delle prove viene assunto infinitamente grande. Quindi anche per la definizione frequentista la probabilit`a e` un numero compreso tra 0 e 1. Inoltre, se in un esperimento consistente in n prove ripetute si considerano due eventi incompatibili A1 e A2 , allora per la definizione di frequenza relativa si ha: fn (A1 ∪ A2 ) =

νn (A1 ∪ A2 ) νn (A1 ) νn (A2 ) = + = fn (A1 ) + fn (A2 ). n n n

E` ragionevole assumere che tale propriet`a sussista al crescere indefinito del numero delle prove. Usando quindi la definizione frequentista si giunge di nuovo alla legge (1.1) di additivit`a finita della probabilit`a.

Figura 1.3 – Frequenze relative in una particolare successione di lanci di una moneta.

La Figura 1.3 mostra l’andamento della frequenza relativa di occorrenza dell’evento “Testa” in un particolare esperimento consistente in 100 lanci di una moneta equa. Si noti come al crescere del numero dei lanci effettuati tale frequenza si avvicini al valore 1/2 coincidente con la probabilit`a a priori dell’evento considerato. Esempio 1.3 Si consideri l’esperimento consistente nel lanciare una moneta che si sa essere non equa, ossia truccata. La definizione classica di probabilit`a non pu`o in questo caso essere

14

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

utilizzata poich´e le uscite ora non sono equiprobabili. Se in 1000 lanci il numero di volte in cui appare Testa e` 750, le frequenze relative all’uscita di Testa e Croce sono rispettivamente 0.75 e 0.25; esse possono ragionevolmente essere riguardate come valutazioni delle corrispondenti probabilit`a. ♦ 1.4.3

Definizione soggettiva

Esistono delle situazioni in cui non e` possibile ricorrere alle due precedenti definizioni di probabilit`a: da un lato poich´e non sembra avere alcuna giustificazione l’ipotesi di equiprobabilit`a degli eventi elementari, dall’altro perch´e non e` possibile effettuare ripetizioni dell’esperimento nelle medesime condizioni. Un esempio tipico e` costituito dalle scommesse sul risultato di un incontro di calcio in cui non si pu`o ritenere che i tre possibili risultati (vincita della squadra di casa, pareggio, vincita della squadra in trasferta) siano equiprobabili. Inoltre i precedenti incontri sostenuti dalle due squadre non possono essere riguardati come prove ripetute nelle medesime condizioni (perch´e non e` detto che i giocatori siano sempre nelle stesse condizioni atletiche, perch´e i campi di gioco non sono caratterizzati da condizioni immutabili meteorologiche o di manto erboso, perch´e l’effetto della tifoseria pu`o essere variamente condizionante, e cos`ı via). In situazioni analoghe a quella descritta si pu`o ricorrere all’impostazione “soggettiva” (o “personale”) della probabilit`a. Questa, gi`a accennata in Pascal ed attribuibile a D. Bernoulli, e` stata ripresa e sviluppata in epoca recente soprattutto da Bruno de Finetti (1906–1985) e da Leonard Jimmie Savage (1917–1971). Nell’approccio soggettivo la probabilit`a di un evento viene identificata con il “grado di fiducia” che una persona ripone nel verificarsi dell’evento. Pi`u precisamente, si d`a la seguente definizione: Definizione 1.3 (Probabilit`a soggettiva) La probabilit`a di un evento A e` il prezzo P (A) che un individuo ritiene equo pagare per ricevere 1 se l’evento si verifica e ricevere 0 se l’evento non si verifica. E` appena il caso di menzionare che tale prezzo deve intendersi minore dell’unit`a. La Definizione 1.3 trova un’immediata interpretazione quando ci si riferisca al contesto delle scommesse, acquistando la seguente formulazione: La probabilit`a di un evento A e` l’importo P (A) che uno scommettitore e` disposto a puntare per ricevere 1 in caso di vincita e 0 in caso di perdita. La definizione data poggia su principi di equit`a e di coerenza. L’individuo, infatti, deve essere in grado di valutare “in modo equo”, nel senso che deve essere disposto ad accettare la scommessa senza mutare la somma puntata quando da scommettitore diventa banco: scommettitore e banco devono quindi potersi scambiare i rispettivi ruoli senza alterare le probabilit`a di vincita e di perdita associate al gioco. L’individuo deve inoltre caratterizzarsi come “coerente” nel senso che l’insieme delle probabilit`a da lui assegnate non deve consentire di realizzare vincita certa o perdita certa attraverso un insieme di scommesse simultanee. La probabilit`a di un evento si interpreta in sostanza come l’importo che un individuo, in base alle proprie personali valutazioni, giudica equo pagare (farsi pagare) per riscuotere (pagare) l’importo unitario se l’evento si verifica e l’importo nullo se l’evento non si verifica. In tali condizioni l’individuo e` dunque disposto a pagare (ricevere) s P (A) per ricevere (pagare) s se l’evento si verifica.

Un primo corso in probabilit`a per scienze pure e applicate

15

Dalla definizione soggettiva e` possibile dedurre alcune regole per la probabilit`a. Infatti, in base alla definizione, in una scommessa su A si paga P (A) per ricevere 1 se A si verifica e ricevere 0 se A non si verifica. Poich´e non sarebbe coerente pagare pi`u di 1 per ricevere 1 se l’evento A si verifica, ne segue che e` P (A) ≤ 1. D’altra parte non sarebbe coerente pagare meno di 1 se l’evento si verifica con certezza. Quindi, deve essere P (A) = 1 se l’evento e` certo. Inoltre, se l’evento A non si verifica mai non sarebbe coerente pagare pi`u di 0 per ricevere 0 e quindi P (A) = 0. Dalla condizione di coerenza e` possibile inoltre far discendere la legge di additivit`a finita (1.1) della probabilit`a. Siano A1 , A2 , . . . , An degli eventi necessari ed incompatibili; si considerino n scommesse, una su ciascuno di tali eventi, in cui si paga P (Ai ) per ricevere 1 se A i si verifica e ricevere 0 se Ai non si verifica (i = 1, 2, . . . , n). Quindi, in totale si P n paga i=1 P (Ai ). Poich´e certamente uno ed uno solo degli eventi si verifica, si riceve 1 nella scommessa relativa a quell’evento e si riceve 0 nelle altre scommesse. Pertanto, dall’insieme Pn delle scommesse si ottiene certamente 1. Per la condizione di coerenza deve risultare fosse diversa da 1, si realizzerebbe i=1 P (Ai ) = 1. Infatti, se tale Psomma Pnin ogni caso posn sibile un guadagno pari a 1 − P (A ), che risulterebbe positivo se i i=1 i=1 P (Ai ) < 1 e Pn negativo se i=1 P (Ai ) > 1, contraddicendo cos`ı la condizione di coerenza. Si considerino ora due eventi incompatibili A1 e A2 . I tre eventi A1 , A2 e A1 ∪ A2 sono necessari e incompatibili. Quindi, P (A1 ) + P (A2 ) + P (A1 ∪ A2 ) = 1. D’altra parte anche gli eventi A1 ∪ A2 e A1 ∪ A2 sono necessari e incompatibili e pertanto P (A1 ∪ A2 ) + P (A1 ∪ A2 ) = 1. Queste due ultime uguaglianze implicano che P (A1 ∪ A2 ) = P (A1 ) + P (A2 ). Nemmeno la definizione soggettiva e` esente da critiche. In molti casi l’individuo non e` indifferente di fronte al rischio; in alcuni casi lo cerca (in lotterie, giochi d’azzardo) pagando un prezzo che certamente non e` equo ed in altri casi (nelle assicurazioni) paga proprio per evitare il rischio. La critica maggiore e` che la probabilit`a soggettiva e` legata alla persona coinvolta: la probabilit`a di un dato evento pu`o invero essere notevolmente diversa per persone diverse, riflettendo le differenti informazioni, esperienze e atteggiamenti su cui esse basano le proprie convinzioni. 1.5

Probabilit`a geometriche

La definizione classica di probabilit`a, che richiede che tutti gli eventi costituiti da singoli punti dello spazio campione siano equiprobabili, trova un’analogia di carattere geometrico nel caso in cui lo spazio campione Ω consiste ad esempio di figure geometriche (intervalli, figure piane, figure solide). In tal caso i punti di Ω non sono pi`u in numero finito, cos`ı che il concetto di “ugualmente probabile” sta ora semplicemente ad indicare che la probabilit`a che un punto appartenga ad un sottoinsieme dello spazio campione Ω e` proporzionale alla misura di questo sottoinsieme. In generale, quindi, se M e` la misura di Ω (lunghezza, area, volume) e m e` l’analoga misura di un evento E di pari dimensionalit`a (riguardato come sottoinsieme di Ω), allora la probabilit`a P (E) di tale evento viene posta uguale a m/M. Ad esempio, con riferimento alla Figura 1.4, sia AB il segmento di lunghezza L e sia CD un segmento di AB di lunghezza ℓ. Ci si pu`o chiedere quale sia la probabilit`a che un punto scelto a caso su AB appartenga a CD. In questo caso Ω e` costituito dall’insieme dei punti di AB. All’evento E = {un punto scelto a caso su AB appartiene a CD} va pertanto associata la probabilit`a P (E) = ℓ/L.

16

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi



A

-



D

C



L

B -

Figura 1.4 – Esempio di probabilit`a geometriche in una dimensione.

Come secondo esempio si consideri un quadrato Q di lato d e sia C il cerchio inscritto in Q (v. Figura 1.5). Si intende determinare la probabilit`a che un punto scelto a caso in Q

Figura 1.5 – Esempio di probabilit`a geometriche nel piano.

appartenga a C. In questo caso Ω e` l’insieme dei punti di Q cos`ı che all’evento E = {un punto scelto a caso in Q cade in C} va associata la probabilit`a P (E) =

area di C π d2 /4 π = = ≈ 0.7853. area di Q d2 4

(1.2)

Giova osservare che in taluni casi la definizione geometrica di probabilit`a pu`o dar luogo ad ambiguit`a. E` ad esempio celebre il cosiddetto paradosso di Bertrand che nasce dalla considerazione del seguente problema: tracciata a caso una corda di una circonferenza, calcolare la probabilit`a che la sua lunghezza sia maggiore di quella del lato del triangolo equilatero inscritto nella circonferenza. Questo problema apparentemente ammette pi`u di una soluzione in conseguenza delle diverse concrete traduzioni in termini operativi della procedura con la quale e` possibile tracciare una corda “a caso”. Tra i vari possibili criteri, qui considereremo i tre sotto elencati (v. Figura 1.6). 1. Per ragioni di simmetria si pu`o assegnare a priori la direzione della corda da tracciare. Con riferimento alla figura (a), sceglieremo come direzione quella orizzontale. Consideriamo poi il diametro perpendicolare a tale direzione e su questo fissiamo a caso il punto attraverso il quale far passare la corda. Nel caso della figura (a) la corda tracciata con tale scelta casuale sia AB.

Un primo corso in probabilit`a per scienze pure e applicate

17

2. Sempre per ragioni di simmetria si pu`o fissare uno degli estremi della corda sulla circonferenza. Nella figura (b) tale estremo e` stato denotato con A. La corda verr`a considerata come tracciata a caso se l’altro suo estremo (P nel caso della figura) e` un punto scelto a caso sulla circonferenza. 3. Si pu`o scegliere a caso un punto interno al cerchio e considerarlo come punto medio della corda da tracciare, come indicato in figura (c).

Figura 1.6 – Illustrazioni del paradosso di Bertrand.

Anzitutto ricordiamo che se r denota √ il raggio della circonferenza, il lato del triangolo equilatero in essa inscritto ha lunghezza r 3 e che l’altezza di tale triangolo e` 3 r/2. Per ognuno dei tre criteri precedentemente descritti calcoliamo la probabilit`a dell’evento E = {la lunghezza della corda scelta a caso e` maggiore della lunghezza del lato del triangolo equilatero inscritto nella circonferenza}. La sopra specificata diversit`a delle procedure di costruzione della corda, conduce a tre differenti risultati. Infatti, nel caso (a) lo spazio campione Ω e` costituito dall’insieme dei punti del diametro individuato e l’evento E si verifica per quei punti del diametro la cui distanza dal centro della circonferenza e` minore di r/2. Quindi la probabilit`a richiesta e` P (E) = (r/2)/r = 1/2. Nel caso (b) la tangente alla circonferenza nel punto A ed i due lati del triangolo equilatero con vertice in questo punto individuano tre angoli di π/3 ciascuno ⌢





che insistono sugli archi AB, BC, CA, ognuno di lunghezza 2 π r /3. In tal caso lo spazio campione Ω e` costituito dall’insieme dei punti della circonferenza e l’evento E si verifica se e ⌢

solo se l’estremo P cade sull’arco BC . La probabilit`a di E risulta pertanto data dal rapporto (2 π r/3)/(2 π r) = 1/3. Infine, nel caso (c) lo spazio Ω e` costituito dai punti interni alla circonferenza ed E si verifica se e solo se il punto medio della corda cade nel cerchio di raggio r/2 concentrico a quello di partenza. La probabilit`a di E pu`o essere pertanto calcolata come rapporto tra le aree dei due cerchi: P (E) = [π (r/2)2 ]/(π r2 ) = 1/4. Questo risultato, soltanto in apparenza paradossale, ammette una spiegazione semplice: le diverse soluzioni ottenute sono in realt`a soluzioni di problemi diversi caratterizzati da spazi campione differenti. Il paradosso e` in ultima analisi dovuto alla circostanza che l’enunciato del problema non definisce in modo univoco cosa debba intendersi per “tracciare a caso una corda”.

18

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Il paradosso di Bertrand costituisce un esempio paradigmatico di come generiche affermazioni quali “scegliere a caso”, “scegliere con equiprobabilit`a” o simili sono talora inadeguate a specificare in modo non ambiguo condizioni e criteri alla base dell’esperimento casuale considerato. Come la formula (1.2) suggerisce, la teoria della probabilit`a pu`o essere utilizzata anche per effettuare calcoli relativi a problemi non necessariamente connessi con fenomeni aleatori. Nel caso dell’esempio precedentemente considerato del cerchio inscritto nel quadrato, se si denota con n il numero di punti scelti a caso nel quadrato e con νn (E) il numero di questi punti che capitano nel cerchio, dalla definizione frequentista segue che per n sufficientemente grande la frequenza relativa fn (E) = νn (E)/n tende a stabilizzarsi intorno al valore limite costante P (E). Dalla (1.2) si ricava cos`ı una stima del numero π avendosi π ≈ 4 fn (E). Questo costituisce un semplice esempio di applicazione di alcune tecniche, oggi largamente utilizzate, note come metodi di Monte Carlo. Tali tecniche si rivelano spesso utili in svariati problemi di natura non esclusivamente probabilistica, quali la valutazione di integrali definiti per funzioni di pi`u variabili di forma anche complicata, la risoluzione di equazioni differenziali o di sistemi di equazioni algebriche. 1.6

Problemi di calcolo combinatorio

Se lo spazio campione Ω e` finito e se e` inoltre ragionevole assumere che gli eventi costituiti dai singleton dei suoi elementi sono equiprobabili, e` possibile considerare una classe di problemi in cui, facendo uso della definizione classica, in modo naturale si assegnano probabilit`a ad eventi pi`u complessi. In problemi di questo tipo ruolo fondamentale riveste il calcolo combinatorio. Si assuma che l’insieme Ω consiste di n oggetti. In problemi coinvolgenti la scelta di oggetti da questo insieme occorre distinguere il caso in cui questa e` effettuata con rimpiazzamento dal caso in cui essa e` effettuata senza rimpiazzamento. Si pu`o inoltre porre o meno l’attenzione sull’ordine con cui gli oggetti si presentano nella selezione. Definizione 1.4 Dicesi disposizione senza ripetizione (o, semplicemente, disposizione) di n oggetti distinguibili su k posti ogni selezione ordinata di k oggetti di Ω senza rimpiazzamento. Dicesi permutazione degli n oggetti ogni disposizione senza ripetizione degli n oggetti su n posti. Dicesi disposizione con ripetizione degli n oggetti su k posti ogni selezione ordinata con rimpiazzamento di k elementi di Ω. Due disposizioni si considerano distinte quando differiscono o per la scelta degli n oggetti o per l’ordine con cui essi sono distribuiti sui k posti. Proposizione 1.1 Il numero Dn,k di disposizioni senza ripetizione di n oggetti su k posti e` Dn,k = n(n − 1)(n − 2) · · · (n − k + 1) =

n! (n − k)!

(1 ≤ k ≤ n);

(1.3)

il numero Pn di permutazioni di n oggetti e` Pn = n!

(n ≥ 1);

(1.4)

Un primo corso in probabilit`a per scienze pure e applicate

19

b n,k di disposizione con ripetizione di n oggetti su k posti e` il numero D b n,k = nk D

(k ≥ 1).

(1.5)

Dimostrazione La (1.3) segue osservando che la scelta del primo elemento pu`o effettuarsi in n modi diversi, quella del secondo elemento in n − 1 modi diversi, e cos`ı via, fino a che si perviene all’elemento k-esimo che pu`o scegliersi in n − k + 1 modi diversi. La (1.4) segue immediatamente dalla (1.3) ponendo k = n. Infine, la (1.5) si ricava notando che la scelta di ognuno dei k oggetti pu`o essere effettuata in n modi diversi.  Definizione 1.5 Dicesi combinazione senza ripetizione (o, semplicemente, combinazione) di n oggetti a gruppi di k ogni selezione non ordinata di k oggetti tratti da Ω senza rimpiazzamento. Dicesi combinazione con ripetizione di n oggetti a gruppi di k ogni selezione non ordinata di k elementi tratti da Ω con rimpiazzamento. Proposizione 1.2 Il numero Cn,k di combinazioni di n oggetti a gruppi di k e`   n Cn,k = (1 ≤ k ≤ n); k bn,k di combinazioni con ripetizione di n oggetti a gruppi di k e` il numero C   bn,k = n + k − 1 C (k ≥ 1). k

(1.6)

(1.7)

Dimostrazione Calcoliamo in primo luogo Cn,k . Se si considerano tutte le possibili permutazioni degli oggetti di ciascuna combinazione senza ripetizione si ottengono tutte le disposizioni senza ripetizione di n elementi su k posti; in altri termini deve risultare Pk Cn,k = Dn,k . La (1.6) segue di qui facendo uso delle (1.3) e (1.4). Dimostriamo ora la (1.7). Fissati n e bn,k il numero di combinazioni con ripetizione di n oggetti a gruppi di k. Il numero k, sia C bn,k combinazioni con ripetizione e` pertanto k C bn,k . complessivo di oggetti presenti nelle C Per motivi di simmetria (nessuno degli n oggetti e` privilegiato rispetto agli altri) ognuno debn,k /n volte nell’insieme delle C bn,k combinazioni con ripetizione. gli n oggetti compare k C La dimostrazione della (1.7) consiste ora nel pervenire ad un’equazione alle differenza la bn,k . A tal fine, esprimiamo in una diversa forma il rapporto cui soluzione fornir`a proprio C b k Cn,k /n. Considerato nuovamente l’insieme di tutte le combinazioni con ripetizione degli n elementi a gruppi di k, fissiamo l’attenzione su quelle che contengono almeno una volta un prefissato elemento. Indipendentemente dal numero di volte che tale elemento vi compare, lo si elimini una sola volta da ciascuna combinazione. Ci`o che rimane dopo tale operazione e` un bn,k−1 combinazioni con ripetizione di n elementi a gruppi di k − 1, insieme costituito dalle C bn,k−1 oggetti. Ognuno degli n oggetti comparir`a in tale insiecontenenti in totale (k − 1) C bn,k−1 /n volte. Quanti elementi abbiamo eliminato in totale? Evidentemente, me (k − 1) C b Cn,k−1 . Pertanto sussiste l’uguaglianza bn,k bn,k−1 kC (k − 1) C bn,k−1 , = +C n n

20

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

ossia

Di qui, per iterazione, si ottiene:

bn,k = n + k − 1 C bn,k−1 . C k

bn,k = (n + k − 1) (n + k − 2) · · · (n + 1) C bn,1 . C k (k − 1) · · · 1

bn,1 = n, otteniamo in definitiva Poich´e si ha evidentemente C   (n + k − 1)! n+k−1 b Cn,k = = . k! (n − 1)! k



I numeri di disposizioni e di combinazioni con e senza ripetizione sono riassunti in Tabella 1.2. Tabella 1.2 – Numero di disposizioni e di combinazioni con e senza ripetizione.

Disposizioni (l’ordine e` importante nella selezione)

Combinazioni (l’ordine non e` importante nella selezione)

Senza ripetizione

Con ripetizione

Senza ripetizione

Con ripetizione

1≤k≤n

k≥1

1≤k≤n

k≥1

Dn,k

n! = (n − k)!

b n,k = nk D

Cn,k

  n = k

bn,k = C



n+k−1 k



Esempio 1.4 Si scelgano due lettere dall’insieme Ω = {x, y, z}. Le disposizioni senza ripetizione delle 3 lettere su 2 posti sono le seguenti: (x, y), (x, z), (y, x), (y, z), (z, x), (z, y). Il loro numero e` ottenibile dalla (1.3) ponendovi n = 3, k = 2. Invece le disposizioni con ripetizione delle 3 lettere su 2 posti sono (x, x), (x, y), (x, z), (y, x), (y, y), (y, z), (z, x), b 3,2 = 9, come segue dalla (1.5). Inoltre, come si ricava (z, y), (z, z), quindi in numero di D dalla (1.6), esistono C3,2 = 3 combinazioni di lettere dell’insieme Ω: (x, y), (x, z), (y, z). b3,2 = 6 combinazioni con ripetizione di due lettere di Ω, come si deduce dalla Esistono poi C (1.7); queste sono (x, x), (x, y), (x, z) (y, y), (y, z), (z, z). Infine, le permutazioni delle 3 lettere di Ω sono (x, y, z), (x, z, y), (y, x, z), (y, z, x), (z, x, y), (z, y, x), il cui numero e` P3 = 6, come si ricava dalla (1.4) per n = 3. ♦

Un primo corso in probabilit`a per scienze pure e applicate

21

Esempio 1.5 Si calcoli la probabilit`a che in un’estrazione del lotto esca l’ambo (20, 50) su una fissata ruota. Lo spazio campione Ω e` costituito dalle cinquine che si possono formare con i numeri interi da 1 a 90. Poich´e non interessa l’ordine in cui appaiono gli elementi della cinquina, gli elementi di Ω sono le combinazioni di 90 numeri a gruppi di 5. Il numero di tali cinquine, che e` ragionevole ritenere equiprobabili, e` N (Ω) = 90 5 . Si consideri ora l’evento A = {uscita dell’ambo (20, 50) sulla fissata ruota}. I casi ad esso favorevoli sono le cinquine che contengono, in posizioni qualsiasi, i numeri 20 e 50. Il numero di tali cinquine si ottiene pertanto calcolando il numero N (A) di combinazioni dei rimanenti 88 numeri a gruppi di 3,  che e` 88 3 . Quindi, in definitiva, si ottiene: N (A) P (A) = = N (Ω)



  88 90 88! 85! 5! 2 = = = 0.0025. 3 5 3! 85! 90! 89 · 9

Evidentemente tale probabilit`a non cambia se al posto dei numeri 20 e 50 si pone una qualsiasi altra coppia di numeri possibili, in particolare la coppia (1, 2). ♦ Esempio 1.6 Ci proponiamo di calcolare la probabilit`a che in quattro successivi lanci di un dado i risultati si presentano in ordine strettamente crescente. Lo spazio Ω dei casi possibili e` quello delle disposizioni con ripetizione di 6 elementi su 4 posti poich´e in ogni lancio i sei possibili risultati sono 1, 2, 3, 4, 5, 6. Quindi il numero di casi possibili e` N (Ω) = 64 che, per ragioni di simmetria, possiamo giudicare equiprobabili. Si consideri l’evento A = {i risultati dei quattro lanci si presentano in ordine strettamente crescente}. Il numero di casi favorevoli all’occorrenza di tale evento e`  N (A) = 1 + 43 + 53 = 15. Infatti, affinch´e i risultati siano in ordine strettamente crescente, l’ultimo lancio del dado deve fornire come risultato 4, 5 oppure 6; se esso fornisce come risultato 4, esiste un’unica sequenza possibile, cio`e (1, 2, 3, 4); se fornisce come risultato 5 occorre considerare tutte le possibili combinazioni senza ripetizione dei quattro numeri  {1, 2, 3, 4} su tre posti, cio`e le 43 sequenze (1, 2, 3, 5), (1, 2, 4, 5), (1, 3, 4, 5), (2, 3, 4, 5); infine, se fornisce come risultato 6 occorre considerare tutte le possibili  combinazioni senza ripetizione dei cinque numeri {1, 2, 3, 4, 5} su tre posti, cio`e le 53 sequenze (1, 2, 3, 6), (1, 2, 4, 6), (1, 2, 5, 6), (1, 3, 4, 6), (1, 3, 5, 6), (1, 4, 5, 6), (2, 3, 4, 6), (2, 3, 5, 6), (2, 4, 5, 6), (3, 4, 5, 6). Pertanto risulta P (A) =

15 N (A) = 4 = 0.0115. N (Ω) 6 ♦

Esempio 1.7 Si consideri un’urna contenente n biglie numerate da 1 a n e si supponga di estrarre k biglie dall’urna effettuando estrazioni con rimpiazzamento. Si e` interessati a calcolare la probabilit`a che il campione estratto di k biglie, detto anche “campione di taglia k”, non contenga ripetizioni, cio`e che ogni numero appaia esattamente una volta. La cardinalit`a di Ω e` N (Ω) = nk , pari al numero delle disposizioni con ripetizione delle n biglie su k posti. Si consideri l’evento A = {nel campione di k biglie non ci sono ripetizioni}. Il numero N (A) dei casi favorevoli ad A e` uguale al numero delle disposizioni

22

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

di n biglie su k posti, ossia N (A) = n(n − 1) · · · (n − k + 1) = n!/(n − k)!. Pertanto si ha: P (A) =

k−1 Y N (A) n(n − 1) · · · (n − k + 1) i = = 1− . k N (Ω) n n i=1

♦ Esempio 1.8 Si consideri un ordinamento casuale dei numeri 1, 2, . . . , n. Si calcoli la probabilit`a che i numeri 1 e 2 risultino consecutivi e la probabilit`a che i numeri 1, 2 e 3 siano anch’essi consecutivi. Lo spazio Ω consiste di tutte le possibili permutazioni di n elementi, il cui numero e` N (Ω) = n!. Consideriamo i seguenti eventi: A = {i numeri 1, 2 sono consecutivi nella sequenza} e B = {i numeri 1, 2 e 3 sono consecutivi nella sequenza}. Il numero dei casi favorevoli ad A e` N (A) = (n − 1)(n − 2)! poich´e i numeri 1, 2 possono apparire consecutivamente nella sequenza di n numeri in n − 1 posizioni e, fissate le posizioni dei numeri 1 e 2, occorre considerare tutte le possibili permutazioni dei rimanenti n − 2 numeri. Analogamente, il numero dei casi favorevoli a B e` N (B) = (n − 2)(n − 3)! poich´e i numeri 1, 2, 3 possono essere sistemati consecutivamente nella sequenza di n numeri in n−2 modi e, fissate le tre posizioni dei numeri 1, 2 e 3, occorre considerare tutte le possibili permutazioni degli altri n − 3 numeri. In conclusione, si ha: (n − 1)(n − 2)! (n − 1)! 1 N (A) = = = , N (Ω) n! n! n N (B) (n − 2)(n − 3)! 1 P (B) = = = . N (Ω) n! n(n − 1) P (A) =

♦ Esempio 1.9 In fila in un negozio vi sono m uomini e n donne. Supponendo che tutti siano giunti in ordine casuale, si determini la probabilit`a che gli uomini nella fila occupino tutti posizioni consecutive. La cardinalit`a dell’insieme Ω e` N (Ω) = (m + n)! essendo uguale al numero delle permutazioni delle m + n persone nella fila. Consideriamo l’evento A = {gli uomini presenti nella fila sono tutti in posizioni consecutive}. Il numero di casi favorevoli a tale evento e` N (A) = (n + 1) n! m! = (n + 1)! m!. Infatti gli m uomini possono essere considerati come un unico blocco che pu`o essere sistemato nella fila lunga m + n in n + 1 modi distinti. Fissate le m posizioni del blocco occorre considerare tutte le possibili permutazioni degli m uomini e delle n donne. In definitiva si ha: P (A) =

N (A) (n + 1)! m! = . N (Ω) (m + n)! ♦

Esempio 1.10 Un mazzo di n chiavi contiene la chiave che apre una determinata serratura. Ci proponiamo di calcolare la probabilit`a che, scegliendo ogni volta a caso una chiave diversa, sia la k-esima quella giusta.

Un primo corso in probabilit`a per scienze pure e applicate

23

Lo spazio Ω consiste di tutte le disposizioni senza ripetizione di n chiavi su k posti. La sua cardinalit`a e` quindi N (Ω) = n(n − 1) · · · (n − k + 1). Si consideri l’evento A = {la k-esima chiave scelta apre la serratura}. Il numero di casi ad esso favorevoli e` N (A) = (n−1)(n−2) · · · (n−k+1). Infatti occorre considerare tutte le disposizioni senza ripetizione che hanno all’ultimo posto la chiave giusta mentre le rimanenti k − 1 chiavi vanno scelte tra le n − 1 chiavi rimanenti. Pertanto risulta: P (A) =

(n − 1)(n − 2) · · · (n − k + 1) 1 N (A) = = . N (Ω) n(n − 1) · · · (n − k + 1) n

Si noti che il risultato non dipende da k, come e` intuitivo: con uguali probabilit`a, ciascuna pari a 1/n, la chiave giusta e` la prima, la seconda, . . . , l’n-esima. ♦ Esempio 1.11 Si scelgano casualmente k numeri dall’insieme {0, 1, . . . , 9} con rimpiazzamento. Si e` interessati a calcolare la probabilit`a che nella sequenza cos`ı costituita non siano presenti i numeri 0 e 1, nonch´e la probabilit`a che nella sequenza, supposta di lunghezza non inferiore a 3, il numero 0 appaia esattamente 3 volte. La cardinalit`a dell’insieme Ω e` N (Ω) = 10k in quanto l’insieme Ω consiste di tutte le disposizioni con ripetizione di 10 elementi su k posti. Sia A = {nella sequenza di lunghezza k non sono presenti il numero 0 ed il numero 1}. Il numero di casi favorevoli a questo evento e` N (A) = 8k , pari al numero di tutte le disposizioni con ripetizione degli otto elementi rimanenti su k posti. Pertanto si ha:  8 k N (A) 8k P (A) = (k = 2, 3, . . .) . = k = N (Ω) 10 10

Si consideri ora l’evento B = {nella sequenza di lunghezzak il numero 0 appare esattamen te 3 volte}. Il numero di casi favorevoli a B e` N (B) = k3 9k−3 . Infatti esistono k3 modi distinti in cui si pu`o collocare tre volte il numero 0 in una sequenza di lunghezza k, rimanendo cos`ı disponibile una sottosequenza di lunghezza k − 3 nella quale i rimanenti numeri 1, 2, . . . , 9 possono collocarsi, con ripetizione, in 9k−3 modi distinti. Risulta quindi:   k−3      N (B) k 9 k 1 3 9 k = = (k ≥ 3). P (B) = k N (Ω) 3 10 3 9 10 ♦

Esempio 1.12 Due persone, denotate con U e V, sono in una fila costituita in totale da n persone. Si calcoli la probabilit`a che tra U e V vi siano k persone. La cardinalit`a dell’insieme Ω e` N (Ω) = n!, pari al numero di permutazioni delle n persone nella fila. Sia A = {k persone tra U e V sono nella fila}. Il numero di casi favorevoli ad A e` N (A) = 2 (n − k − 1) (n − 2)!. Il coefficiente 2 deriva dal fatto che le posizioni di U e V possono essere scambiate (U pu`o precedere V oppure U pu`o seguire V). Se U precede V, la scelta della posizione di U nella sequenza (in maniera tale da avere k persone che separano U da V) pu`o essere effettuata in n − k − 1 modi; infine, fissate le posizioni di U e V, esistono (n − 2)! modi di sistemare le rimanenti n − 2 persone in fila. Si ha quindi: P (A) =

N (B) 2 (n − k − 1) (n − 2)! = . N (Ω) n!



24

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Esempio 1.13 In un’aula vi sono k (k ≤ 365) studenti convocati indipendentemente dalle loro date di nascita, che sono supposte equidistribuite nei 365 giorni dell’anno (ipotesi certo semplificatrice). Ci proponiamo di calcolare la probabilit`a che tutti gli studenti presenti abbiano distinti compleanni, nonch´e la probabilit`a che almeno 2 studenti abbiano lo stesso compleanno. Lo spazio campione Ω e` costituito da tutte le disposizioni con ripetizione di 365 elementi su k posti, in numero di N (Ω) = 365k . Sia A = {tutti i k studenti compiono gli anni in giorni differenti}. Il numero di casi favorevoli a tale evento e` N (A) = 365 · 364 · · · (365 − k + 1), pari al numero delle disposizioni di 365 elementi su k posti. Pertanto si ha: P (A) =

N (A) 365 · 364 · · · (365 − k + 1) 364 · 363 · · · (365 − k + 1) = = . N (Ω) 365k 365k−1

Si consideri ora l’evento B = {almeno 2 studenti compiono gli anni nello stesso giorno}. Evidentemente, B = A, cos`ı che il numero di casi favorevoli a B e` N (B) = N (A) = N (Ω) − N (A) = 365k − 365 · 364 · · · (365 − k + 1). Quindi: P (B) = 1 − P (A) = 1 −

364 · 363 · · · (365 − k + 1) . 365k−1

Tabella 1.3 – Probabilit`a che almeno 2 studenti tra k compiano gli anni nello stesso giorno.

k

P (B)

k

P (B)

5 10 15 20 21 22 23

0.0271 0.1169 0.2529 0.4114 0.4437 0.4757 0.5073

24 25 30 40 50 60 70

0.5383 0.5687 0.7063 0.8912 0.9704 0.9941 0.9992

La Tabella 1.3 mostra che per k = 23 la probabilit`a di trovare in aula almeno due studenti che hanno lo stesso compleanno e` 0.5073 (massima incertezza!), mentre per k = 70 tale probabilit`a e` molto prossima all’unit`a (quasi certezza!). ♦

Capitolo 2 La teoria assiomatica

2.1

Caratterizzazione degli eventi

Se all’esperimento casuale e` associato uno spazio campione Ω finito, e` ragionevole richiedere che la famiglia degli eventi contenga l’evento certo e che sia chiusa sotto le operazioni di unione finita (e, quindi, anche di intersezione finita) e di complementazione. Spesso, tuttavia, vanno considerati esperimenti casuali caratterizzati da uno spazio campione infinito per i quali gli eventi di interesse sono espressi mediante operazioni di unione, intersezione e complementazione ripetute anche infinite volte, come e` indicato nel seguente esempio. Esempio 2.1 Si consideri l’esperimento consistente in una successione di lanci di una moneta, ognuno dei quali fornisce come risultato testa oppure croce. Lo spazio campione Ω e` costituito da tutte le sequenze infinite di T (Testa) e C (Croce). Esso prende il nome di spazio di Bernoulli. Per ogni fissato intero positivo n, si considerino gli eventi Tn = {al lancio n-esimo esce testa} ed il suo complementare Cn = {al lancio n-esimo esce croce}. Tn e` dunque l’insieme di tutte le sequenze infinite di T e C aventi T nella posizione n-esima, mentre Cn e` costituito da tutte le sequenze infinite di T e C aventi C nella posizione n-esima. Si definiscono eventi dello spazio di Bernoulli tutti i sottoinsiemi di Ω che possono ottenersi a partire dagli eventi Tn e Cn (n = 1, 2, . . .) mediante le operazioni di unione, intersezione e complementazione, applicate anche un numero infinito di volte. Si supponga ora di essere interessati ai seguenti eventi: A = {testa si presenta per la prima volta in corrispondenza di un numero pari di lanci}, B = {testa si presenta per la prima volta in corrispondenza di un numero dispari di lanci}, E = {testa non appare mai}. Notiamo che l’evento Ek = {testa si presenta per la prima volta al lancio k-esimo} (k = 1, 2, . . .) pu`o esprimersi in termini degli eventi Tn e Cn nel seguente modo: E1 = T 1 ,

Ek = C1 ∩ C2 ∩ · · · ∩ Ck−1 ∩ Tk

(k = 2, 3, . . .).

Gli eventi E1 , E2 , . . . cos`ı costruiti sono incompatibili essendo Ei ∩ Ej = Ø ∀i, j: i 6= j. E`

26

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

poi immediato convincersi che si ha: A=

+∞ [

E2k

B=

k=1

+∞ [

E2k+1

E=

k=0

+∞ \

Ek .

k=1

Gli eventi A e B sono pertanto rappresentati mediante unioni numerabili di eventi incompatibili ciascuno dei quali e` a sua volta espresso mediante intersezioni degli eventi Tn e Cn . Infine, l’evento E e` rappresentato mediante intersezione numerabile di eventi non incompatibili. ♦ L’Esempio 2.1 suggerisce che la famiglia degli eventi deve possedere una struttura sufficientemente ricca da consentire che componendo eventi mediante operazioni di unione, intersezione e complementazione, ripetute anche un numero infinito di volte, si ottengano ancora eventi. Occorre a tal proposito osservare che l’iterazione infinita dell’operazione di unione o intersezione di elementi di una famiglia di insiemi non sempre fornisce come risultato un elemento della famiglia stessa, come e` indicato nell’esempio seguente. Esempio 2.2 Si consideri la famiglia I = {In ; n = 1, 2, . . .} di intervalli chiusi di R cos`ı definiti:   1 In = 0, 1 − . n Evidentemente risulta:   1 , In = 0, 1 − k n=1 k [

+∞ [

In = [0, 1).

n=1

Quindi, mentre una qualsiasi unione finita di intervalli In appartiene alla famiglia I , l’unione infinita degli In non e` un elemento di I . ♦ La circostanza che operazioni quali l’unione numerabile di elementi di una preassegnata famiglia possano generare elementi non appartenenti alla medesima famiglia suggerisce l’introduzione nella teoria della probabilit`a di famiglie di insiemi che siano chiuse rispetto alle operazioni di unione e complementazione. In tal modo, operando sugli insiemi di una siffatta famiglia mediante operazioni di unione e complementazione ripetute anche infinite volte, si generano insiemi anch’essi appartenenti alla famiglia stessa. Diamo ora la seguente Definizione 2.1 Una famiglia F di sottoinsiemi di Ω costituisce una σ-algebra se sussistono le seguenti propriet`a: (i) Ω ∈ F ; (ii) se An ∈ F per n = 1, 2, . . . , allora (iii) se A ∈ F , allora A ∈ F .

S+∞

n=1

An ∈ F ;

Un primo corso in probabilit`a per scienze pure e applicate

27

Proposizione 2.1 Se F e` una σ-algebra di sottoinsiemi di Ω, si ha: (a) Ø ∈ F ; (b) se A1 , A2 , . . . e` un insieme numerabile di elementi di F , allora

+∞ \

An ∈ F ;

n=1

(c) se A1 , A2 , . . . , An e` un insieme finito di elementi di F , allora

n [

Ak ∈ F e

k=1

n \

Ak ∈ F .

k=1

Dimostrazione La (a) discende immediatamente dalle (i) e (iii) della Definizione 2.1 avenS+∞ dosi Ø = Ω. La (b) segue osservando che An ∈ F per la (iii), che n=1 An ∈ F per S+∞ la (ii) e che, infine, n=1 An ∈ F di nuovo per la (iii). D’altro canto da una delle legS+∞ T+∞ gi di De Morgan segue n=1 An = n=1 An , il che completa la dimostrazione della (b). Notiamo, infine, che la (c) riguarda unioni ed intersezioni finite. Per dimostrarla si consideri la successione (infinita) di insiemi {Bn }, dove Bi = Ai (i = 1, 2, . . . , n) mentre Bn+1 = Bn+2 = . . . = Ø. Si osservi che {Bn } e` una successione di elementi di F . Infatti, per ipotesi Ai ∈ F (i = 1, 2, S . . . , n) ed inoltre S+∞Ø ∈ F in virt`u della (a). Per la n (ii) della Definizione 2.1 si ha allora k=1 Ak = k=1 Bk ∈ F . Analogamente, si consideri la successione (infinita) di insiemi {Cn }, dove Ci = Ai (i = 1, 2, . . . , n) mentre Cn+1 = Cn+2 = . . . = Ω. Nuovamente risulta che {Cn } e` una successione di elementi di F . Infatti, per ipotesi Ai ∈ F (i = 1,T 2, . . . , n) edTinoltre Ω ∈ F in virt`u della (i) della n +∞ Definizione 2.1. Dalla (b) si ha pertanto k=1 Ak = k=1 Ck ∈ F .  Dalla Definizione 2.1 e dalla Proposizione 2.1 discende che una σ-algebra F , costruita a partire da uno spazio campione Ω, e` una famiglia di sottoinsiemi di Ω chiusa rispetto alle operazioni di unione numerabile, intersezione numerabile e complementazione. Ci`o garantisce che mediante operazioni di unione, intersezione e complementazione di elementi di F , ripetute anche un numero infinito di volte, si generano elementi ancora appartenenti a F .

Osservazione 2.1 Si supponga che lo spazio campione Ω sia costituito da n elementi. Poich´e iP sottoinsiemi totale) sono  din un insieme di n elementi (compreso l’insieme vuoto e l’insieme n n n ` ` = 2 , il numero di sottoinsiemi di Ω che e possibile considerare e 2 . La famiglia k=0 k di tali sottoinsiemi, nota quale insieme potenza, e` una σ-algebra poich´e sono certamente soddisfatte le propriet`a (i) ÷ (iii) della Definizione 2.1. A partire da una famiglia G di sottoinsiemi di Ω si pu`o costruire una classe di σ-algebre ognuna contenente G . Si pu`o dimostrare che in questa classe esiste una σ-algebra minima F0 coincidente con l’intersezione di tutte le σ-algebre contenenti G ; essa, che e` quindi la minima σ-algebra contenente tutti gli elementi della famiglia G , e` denominata “σ-algebra generata da G ”. Definizione 2.2 Dato un esperimento casuale ed individuata una famiglia G di sottoinsiemi di Ω, chiameremo “famiglia degli eventi” la σ-algebra generata da G e diremo “eventi” gli elementi di questa.

28

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Osservazione 2.2 Indicheremo qui un metodo per costruire la minima σ-algebra contenente n preassegnati eventi A1 , A2 , . . . , An . A tal fine, consideriamo gli eventi della forma A⋆1 ∩ A⋆2 ∩ · · · ∩ A⋆n , dove A⋆k (k = 1, 2, . . . , n) e` o Ak oppure Ak . Due eventi di questo tipo sono distinti se differiscono per almeno un A⋆k , ossia se nell’uno compare Ak e nell’altro Ak . Quindi, la loro intersezione e` l’evento impossibile. Ne segue che gli eventi considerati sono tra loro incompatibili ed inoltre che uno ed uno solo di essi si deve necessariamente verificare. Indichiamo con E1 , E2 , . . . , Em i nuovi eventi non impossibili cos`ı costruiti. (Si noti che risulta m ≤ 2n ). L’evento impossibile, gli eventi E1 , E2 , . . . , Em e le unioni di tali eventi costituiscono tutti insieme la minima σ-algebra contenente gli eventi A1 , A2 , . . . , An assegnati; essa consta di 2m eventi. Esempio 2.3 Si consideri l’esperimento del lancio di un dado e sia Ω = {1, 2, 3, 4, 5, 6}. Dall’Osservazione 2.1 segue che la minima σ-algebra contenente gli eventi elementari e` costituita da 26 = 64 eventi. La minima σ-algebra di sottoinsiemi di Ω generata dall’evento  A = {uscita di un numero pari} consta invece di soli 22 = 4 eventi avendosi F0 = Ø, {1, 3, 5}, {2, 4, 6}, Ω . Se, invece, si desidera la minima σ-algebra di sottoinsiemi di Ω generata dagli eventi A1 = {uscita di un numero pari} e A2 = {uscita di un numero divisibile per 3}, in analogia con il procedimento descritto nell’Osservazione 2.2 occorre considerare gli eventi E1 = A1 ∩ A2 = {2, 4, 6} ∩ {3, 6} = {6},

E2 = A1 ∩ A2 = {2, 4, 6} ∩ {1, 2, 4, 5} = {2, 4}, E3 = A1 ∩ A2 = {1, 3, 5} ∩ {3, 6} = {3}, E4 = A1 ∩ A2 = {1, 3, 5} ∩ {1, 2, 4, 5} = {1, 5}. La minima σ-algebra F0 contenente A1 e A2 e` quindi costituita dai 24 = 16 seguenti eventi: n F0 = Ø, {3}, {6}, {1, 5}, {2, 4}, {3, 6}, {1, 3, 5}, {1, 5, 6}, {2, 3, 4}, {2, 4, 6}, {1, 2, 4, 5}, o {1, 3, 5, 6}, {2, 3, 4, 6}, {1, 2, 3, 4, 5}, {1, 2, 4, 5, 6}, {1, 2, 3, 4, 5, 6} . ♦

Esempio 2.4 Si supponga che lo spazio campione sia l’insieme dei numeri reali, cio`e Ω = R, e sia G = {(−∞, x], x ∈ R} la famiglia degli intervalli infiniti a sinistra e chiusi a destra. La σ-algebra generata da G , che in questo caso solitamente si indica con B, prende il nome di classe di Borel. La σ-algebra generata da G si ottiene componendo gli elementi di G mediante operazioni di complementazione, unione (finita e numerabile) e intersezione (finita e numerabile). La classe di Borel B e` molto ampia; in particolare essa contiene gli insiemi costituiti da singoli punti, gli intervalli aperti, chiusi, semiaperti a destra o a sinistra, finiti o infiniti. ♦ Sia {A1 , A2 , . . .} un insieme numerabile di eventi di F . La successione A1 , A2 , . . . e` non crescente se e solo se per ogni n risulta An+1 ⊂ An , mentre e` non decrescente se e solo se per ogni n si ha An ⊂ An+1 . La successione e` monotona se e` non crescente oppure non decrescente. Per successioni monotone si possono definire le consuete operazioni di limite.

Un primo corso in probabilit`a per scienze pure e applicate

29

Definizione 2.3 Il limite di una successione monotona A1 , A2 , . . . di eventi di F si definisce al seguente modo: lim An =

n→+∞

lim An =

n→+∞

+∞ \

n=1 +∞ [

An

(se la successione e` non crescente),

An

(se la successione e` non decrescente).

n=1

Dalla Definizione 2.1 e dalla Proposizione 2.1 si nota che il limite di una successione monotona di eventi di F e` un evento poich´e appartiene a F . Inoltre, per successioni generali di eventi di F si possono definire le consuete operazioni di limite inferiore e di limite superiore. Definizione 2.4 Si definiscono rispettivamente limite inferiore e limite superiore di una successione A1 , A2 , . . . di eventi di F i seguenti limiti: lim inf An = lim n→+∞

n→+∞

+∞ \

Ak ,

k=n

lim sup An = lim n→+∞

n→+∞

+∞ [

Ak .

k=n

Anche il limite inferiore ed il limite superioredi successione di eventi di F sono eventi Tuna +∞ in quanto appartengono a F . Infatti, poich´e A ; n = 1, 2, . . . e` una successione k k=n non decrescente, utilizzando la Definizione 2.3 risulta lim inf An = lim n→+∞

n→+∞

+∞ \

Ak =

+∞ [ +∞ \

Ak .

n=1 k=n

k=n

Quindi dalla Definizione 2.1 e dalla Proposizione 2.1 segue che lim inf An ∈ F . Analogan→+∞ S+∞ ` e una successione non crescente, utilizzando la mente, poich´e A ; n = 1, 2, . . . k=n k Definizione 2.3 segue: lim sup An = lim n→+∞

n→+∞

+∞ [

Ak =

k=n

+∞ \ +∞ [

Ak .

n=1 k=n

Utilizzando ancora la Definizione 2.1 e la Proposizione 2.1, si ricava che lim sup An ∈ F . n→+∞

Occorre osservare che lim inf An e` l’evento che si verifica se e solo se esiste almeno un n→+∞

indice n tale che tutti gli eventi An , An+1 , . . . si verificano, ossia se e solo se si verificano tutti gli eventi della successione tranne al pi`u un numero finito. Inoltre lim sup An e` l’evento n→+∞

che si verifica se e solo per ogni n almeno uno degli eventi An , An+1 , . . . si verifica, ossia se e solo se si verificano infiniti eventi della successione. In generale si ha quindi lim inf An ⊂ n→+∞

lim sup An . Se risulta lim inf An = lim sup An = A, si dice che la successione {An ; n = n→+∞

n→+∞

n→+∞

1, 2, . . .} ammette limite e si scrive lim An = A. n→+∞

Nell’esempio che segue esamineremo alcune propriet`a di successioni di eventi delle quali si far`a uso nel seguito per la dimostrazione di un’importante disuguaglianza (v. Paragrafo 2.3).

30

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Esempio 2.5 Data una successione {An ; n = 1, 2, . . .} di eventi di F , si definisca una nuova successione {Bn ; n = 1, 2, . . .}, con B1 = A1 , Bn = A1 ∩A2 ∩· · · An−1 ∩An (n = 2, 3, . . .). Si vuole dimostrare che risulta +∞ [

An =

n=1

+∞ [

Bn

(2.1)

n=1

ed inoltre che gli eventi della successione {Bn ; n = 1, 2, . . .} sono incompatibili. Sk Sk In primo luogo dimostriamo per induzione che sussiste la relazione n=1 Bn = n=1 An (k = 1, 2, . . .). Tale uguaglianza e` vera per k = 1; supponendo che sia valida per k, utilizzando le leggi di De Morgan dimostriamo che essa sussiste per k + 1. A tal fine, osserviamo che k+1 [

Bn =

n=1

k [

n=1

=

k+1 [

n=1

Bn ∪ Bk+1 = An ∩

[ k

n=1

k [

n=1

An ∪

  [ k An An ∪ Ak+1 ∩ n=1

[ k

n=1

An



=

k+1 [

n=1

An ∩ Ω =

k+1 [

An .

n=1

Sk La (2.1) segue immediatamente osservando che le successioni n=1 An ; k = 1, 2, . . . e Sk n=1 Bn ; k = 1, 2, . . . sono non decrescenti e che quindi ammettono limite. Notiamo, infine, che gli eventi della successione {Bn ; n = 1, 2, . . .} sono incompatibili risultando B1 ∩ Bi = A1 ∩ (A1 ∩ A2 ∩ · · · ∩ Ai−1 ∩ Ai ) = Ø (i = 2, 3, . . .) ed inoltre Bi ∩ Bj = (A1 ∩A2 ∩· · ·∩Ai−1 ∩Ai )∩(A1 ∩A2 ∩· · ·∩Ai ∩· · ·∩Aj−1 ∩Aj ) = Ø (i, j = 2, 3, . . . ; i < j). ♦ 2.2

Definizione assiomatica di probabilit`a

Come mostrato nel Paragrafo 1.4, le diverse definizioni di probabilit`a date condividono le seguenti tre propriet`a: (i) P (A) ≥ 0 per ogni evento A; (ii) P (Ω) = 1; (iii) se A e B sono eventi incompatibili, P (A ∪ B) = P (A) + P (B). Passeremo ora brevemente in rassegna gli elementi essenziali dell’impostazione assiomatica della teoria della probabilit`a, nell’ambito della quale le suddette propriet`a costituiranno la base intuitiva di partenza. Occorrer`a, peraltro, riferirsi a famiglie di eventi caratterizzate da una struttura che consenta di assegnare ad ogni evento una misura, che qui verr`a identificata con la probabilit`a dell’evento. Come si e` gi`a detto, l’impostazione assiomatica della teoria della probabilit`a e` dovuta principalmente ad A.N. Kolmogorov. Definizione 2.5 Si dice spazio probabilizzabile ogni coppia (Ω, F ), dove Ω e` uno spazio campione e F e` una σ-algebra generata da sottoinsiemi di Ω. Definizione 2.6 Dato uno spazio probabilizzabile (Ω, F ), si dice misura di probabilit`a (o probabilit`a) una funzione di insieme P : F → R che gode delle seguenti propriet`a: (i) P (A) ≥ 0 ∀A ∈ F ;

Un primo corso in probabilit`a per scienze pure e applicate

31

(ii) P (Ω) = 1; (iii) se {An ; n = 1, 2, . . .} e` una successione di eventi incompatibili di F , ossia una famiglia di elementi di F tali che Ai ∩ Aj = Ø ∀i, j = 1, 2 . . . , i 6= j, allora P

 +∞ [

n=1

+∞  X An = P (An ). n=1

La propriet`a (iii) esprime l’additivit`a completa o additivit`a numerabile della probabilit`a. D’ora innanzi ci riferiremo alle propriet`a (i), (ii) e (iii) come agli assiomi della probabilit`a, che, per brevit`a, chiameremo semplicemente assiomi e che denoteremo rispettivamente come “primo assioma”, “secondo assioma” e “terzo assioma”. Definizione 2.7 Dicesi spazio di probabilit`a ogni tripla (Ω, F , P ), dove Ω e` uno spazio campione, F e` una σ-algebra generata da sottoinsiemi di Ω e P e` una misura di probabilit`a su (Ω, F ). Dalla Definizione 2.6 seguono alcune proposizioni di semplice dimostrazione, particolarmente significative dal punto di vista probabilistico. Proposizione 2.2 P (Ø) = 0.

(2.2)

Dimostrazione SiSconsideri la successione di eventi {An ; n = 1, 2, . . .} tale che An = Ø +∞ per ogni n. Poich´e n=1 An = Ø ∈ F , per il terzo assioma si ha P (Ø) = P

 +∞ [

n=1

+∞ +∞  X X An = P (An ) = P (Ø) n=1

n=1

che, per il primo assioma, e` verificata se e solo se P (Ø) = 0.



La (2.2) esprime la circostanza che l’evento impossibile ha probabilit`a nulla di verificarsi. E` bene per`o precisare che non e` detto che un evento a probabilit`a zero coincida con l’evento impossibile. Ad esempio, nell’esperimento consistente nella scelta casuale di un numero reale, con Ω = R, l’evento A = {uscita di un prefissato numero reale α} deve avere probabilit`a zero, pur non identificandosi con l’evento impossibile. Analogamente, un evento avente probabilit`a 1 non coincide necessariamente con l’evento certo Ω. Ad esempio, l’evento A = {non uscita di un prefissato numero reale α} ha probabilit`a 1, pur non coincidendo con Ω. Definizione 2.8 Un evento A si dice quasi certo se e` P (A) = 1; se invece risulta P (A) = 0, l’evento A viene detto quasi impossibile. Dimostriamo ora che l’additivit`a numerabile della misura P, di cui alla (iii) della Definizione 2.1, implica la sua additivit`a finita.

32

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Proposizione 2.3 Siano A1 , A2 , . . . , Ak eventi incompatibili di F . Si ha: P

k [



An =

n=1

k X

P (An ).

(2.3)

n=1

Dimostrazione Si consideri una successione di eventi {Bn ; n = 1, 2, . . .} tali che Bn = An

(n = 1, 2, . . . , k),

Bk+1 = Bk+2 = . . . = Ø.

Si noti che risulta Bi ∩ Bj = Ø per i 6= j, cos`ı che la successione {Bn ; n = 1, 2, . . .} e` costituita da eventi incompatibili. Utilizzando il terzo assioma della probabilit`a e la (2.2) si ha: k k +∞ k [   +∞  X [ X X An = P Bn = P (Bn ) + P (Bn ) = P (An ), P n=1

n=1

n=1

n=k+1

n=1

che esprime proprio l’additivit`a finita della funzione P.



Proposizione 2.4 Per ogni A ∈ F si ha: P (A) = 1 − P (A).

(2.4)

Dimostrazione Dalla Definizione 2.1 segue che se A ∈ F allora anche A ∈ F ; inoltre risulta Ω = A∪A. Poich´e A e A sono eventi incompatibili, dalla Proposizione 2.3 e ricordando il secondo assioma si ha: 1 = P (Ω) = P (A ∪ A) = P (A) + P (A), 

da cui segue la (2.4).

Dalla Proposizione 2.4 discende che il complementare di un evento quasi certo e` un evento quasi impossibile, e viceversa. Proposizione 2.5 Per ogni A ∈ F si ha 0 ≤ P (A) ≤ 1. Dimostrazione Se A ∈ F , dal primo assioma si ha P (A) ≥ 0; inoltre, poich´e A ∈ F , dalla Proposizione 2.4 e dal primo assioma segue P (A) = 1−P (A) ≥ 0, e quindi P (A) ≤ 1.  La probabilit`a P e` dunque una funzione P : F → [0, 1] che ad ogni evento A ∈ F assegna un reale dell’intervallo [0, 1] nel rispetto della Definizione 2.6. Proposizione 2.6 Siano A e B eventi appartenenti ad F . Se A ⊂ B allora P (A) ≤ P (B). Dimostrazione Anzitutto osserviamo che, essendo A ⊂ B, e` possibile esprimere B come unione degli eventi incompatibili A e A ∩ B rappresentanti rispettivamente la parte di B comune ad A e la parte di B che non e` comune ad A: B = A ∪ (A ∩ B),

con

A ∩ (A ∩ B) = Ø.

Dal primo assioma e dalla Proposizione 2.3 segue allora: P (B) = P (A) + P (A ∩ B) ≥ P (A). 

Un primo corso in probabilit`a per scienze pure e applicate

33

Una conseguenza di quanto test´e dimostrato e` che se A e B sono eventi di F , risulta: P (A ∩ B) ≤ min{P (A), P (B)} ≤ max{P (A), P (B)} ≤ P (A ∪ B). Osservazione 2.3 Se {An ;  n = 1, 2, . ..} e` una famiglia finita o numerabile di eventi di F e S+∞ S+∞ se n=1 An = Ω, allora P n=1 An = 1.

Esempio 2.6 In un esperimento casuale con spazio campione Ω si consideri la σ-algebra generata dagli eventi A1 e A2 , e si ponga P (A1 ) = a,

P (A2 ) = b,

P (A1 ∩ A2 ) = c.

Si desidera determinare delle condizioni su a, b, c in modo tale che siano soddisfatti gli assiomi della probabilit`a. Osserviamo in primo luogo che dalla Proposizione 2.5 segue 0 ≤ a ≤ 1, 0 ≤ b ≤ 1 e 0 ≤ c ≤ 1. Tali condizioni per`o non sono sufficienti a garantire che siano soddisfatti gli assiomi della probabilit`a. In base all’Osservazione 2.2 consideriamo gli eventi E1 = A1 ∩ A2 ,

E2 = A1 ∩ A2 ,

E3 = A1 ∩ A2 ,

E4 = A1 ∩ A2 .

Poich´e essi sono incompatibili, dalle ipotesi fatte e dalla Proposizione 2.3 segue: P (E1 ) = P (A1 ∩ A2 ) = c,

P (E2 ) = P (A1 ∩ A2 ) = P (A1 ) − P (A1 ∩ A2 ) = a − c, P (E3 ) = P (A1 ∩ A2 ) = P (A2 ) − P (A1 ∩ A2 ) = b − c,

P (E4 ) = 1 − P (E1 ) − P (E2 ) − P (E3 ) = 1 − a − b + c.

Quindi, affinch´e siano soddisfatti gli assiomi della probabilit`a occorre imporre che risulti P (Ei ) ≥ 0 (i = 1, 2, 3, 4), ossia c ≥ 0, a − c ≥ 0, b − c ≥ 0 e 1 − a − b + c ≥ 0. Quindi, 0 ≤ a ≤ 1,

0 ≤ b ≤ 1,

max(0, a + b − 1) ≤ c ≤ min(a, b).

Cos`ı, se P (A1 ) = 1/2 e P (A2 ) = 3/4 allora risulta max(0, a + b − 1) = 1/4 e min(a, b) = 1/2 e pertanto deve essere 1/4 ≤ c ≤ 1/2. ♦ Esempio 2.7 Con riferimento all’esperimento dell’Esempio 2.1 si calcolino le probabilit`a dei seguenti eventi: Ek = {testa si presenta per la prima volta al lancio k-esimo} (k = 1, 2, . . .), A = {testa si presenta per la prima volta in corrispondenza di un numero pari di lanci}, B = {testa si presenta per la prima volta in corrispondenza di un numero dispari di lanci}, E = {testa non si presenta mai}. Se i lanci sono k, i 2k possibili risultati per ragioni di simmetria possono considerarsi ugualmente probabili. Uno solo di essi realizza la sequenza di k −1 croci seguite da una testa, verificando con ci`o Ek . Quindi P (Ek ) = 1/2k . Essendo gli eventi E1 , E2 , . . . incompatibili, dal terzo assioma segue: P (A) = P

+∞ [

k=1

E2k



=

+∞ X

k=1

P (E2k ) =

+∞  k +∞ X X 1 1 1 = = · 2k 2 4 3

k=1

k=1

34

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Ragionando in maniera analoga, si ottiene poi: P (B) = P

+∞ [

k=0

E2k+1



=

+∞ X

P (E2k+1 ) =

k=0

+∞ X

k=0

1 2 = · 22k+1 3

Infine, essendo A ∪ B ∪ E = Ω, con A, B ed E incompatibili, segue: P (E) = 1 −

1 2 − = 0. 3 3 ♦

L’evento E e` pertanto quasi impossibile.

La funzione probabilit`a gode dell’importante propriet`a di essere una funzione di insieme continua come emerge dal seguente teorema che ci limitiamo ad enunciare. Teorema 2.1 Se {An ; n = 1, 2, . . .} e` una successione di eventi di F dotata di limite, posto lim An = A,

n→+∞

risulta lim P (An ) = P (A).

n→+∞

2.3

Disuguaglianza di Boole e formula di inclusione-esclusione

Il terzo assioma della probabilit`a esprime la propriet`a di additivit`a completa per eventi incompatibili da cui, come si e` visto, segue anche la propriet`a di additivit`a finita. Esaminiamo ora il caso in cui si abbandona l’ipotesi di incompatibilit`a degli eventi. Teorema 2.2 (Disuguaglianza di Boole) Se {An ; n = 1, 2, . . .} e` una successione di eventi di F , si ha: +∞  +∞  X [ P An ≤ P (An ) (2.5) n=1

n=1

Dimostrazione Consideriamo la successione ausiliaria di eventi {Bn ; n = 1, 2, . . .} con B1 = A1 , Bn = A1 ∩ A2 ∩ · · · An−1 ∩ An (n = 2, 3, . . .). Come si e` dimostrato S+∞ nell’Esempio 2.5 gli eventi di tale successione sono incompatibili ed inoltre risulta n=1 An = S+∞ n=1 Bn . Per il terzo assioma si ha quindi: P

 +∞ [

n=1

+∞ +∞   +∞  X [ X An = P Bn = P (Bn ) ≤ P (An ), n=1

n=1

(2.6)

n=1

dove l’ultima disuguaglianza segue dall’essere A1 = B1 , Bn ⊂ An per n = 2, 3, . . . e dalla Proposizione 2.6. 

Un primo corso in probabilit`a per scienze pure e applicate

35

La disuguaglianza di Boole fornisce una maggiorazione della probabilit`a dell’unione di P un numero finito o numerabile di eventi che, ovviamente, e` significativa solo se risul+∞ ta n=1 P (An ) ≤ 1. L’esempio seguente indica un’applicazione della disuguaglianza di Boole. Esempio 2.8 (Problema degli insiemi monocromatici) Sia {S1 , S2 , . . . , Sn } una famiglia di sottoinsiemi di un insieme U , ciascuno dei quali contiene k elementi. Diremo colorazione di U ogni funzione che a ciascun elemento di U associa uno di due colori, che qui supporremo essere rosso e blu. Diremo che Si e` monocromatico se tutti i suoi elementi hanno lo stesso colore. Nel 1963 Paul Erd¨os dimostr`o il seguente risultato: “Se e` n < 2k−1 , allora esiste una colorazione tale che nessuno degli insiemi S1 , S2 , . . . , Sn e` monocromatico”. Per dimostrarlo, si consideri una colorazione casuale degli elementi di U , ossia si supponga che ogni elemento di U abbia colore rosso o blu con probabilit`a 1/2. Il numero di possibili colorazioni distinte e` N (U ) = 2|U | , dove |U | denota la cardinalit`a dell’insieme U . Si consideri ora l’evento Ai = {l’insieme Si e` monocromatico}; il numero di casi favorevoli a tale evento e` N (Ai ) = 2 · 2|U |−k . Infatti i k elementi di Si devono avere tutti colore rosso oppure tutti colore blu ed, una volta fissato tale colore, ciascuno dei rimanenti |U | − k elementi di U pu`o essere colorato in due differenti modi. Pertanto, per la definizione classica di probabilit`a, si ha P (Ai ) = 2 · 2|U |−k /2|U | = 2−(k−1) (i = 1, 2 . . . , n). Se si considera l’evento A = {almeno uno degli insiemi S1 , S2 , . . . , Sn e` monocromatico}, risulta A = ∪ni=1 Ai . Quindi, per la disuguaglianza di Boole si ha: [  X n n n  k−1 X n 1 = k−1 < 1, P (A) = P Ai ≤ P (Ai ) = 2 2 i=1 i=1 i=1 dove l’ultima disuguaglianza segue dall’aver ipotizzato che risulta n < 2k−1 . Dall’essere P (A) < 1, segue che l’evento complementare A = {nessuno degli insiemi S1 , S2 , . . . , Sn e` monocromatico} ha probabilit`a positiva. Dunque esiste almeno una colorazione tale che nessuno degli insiemi S1 , S2 , . . . , Sn e` monocromatico. ♦ Il precedente esempio e` particolarmente istruttivo anche perch´e indica l’utilizzazione di considerazioni probabilistiche per la risoluzione di un problema di natura non probabilistica. Teorema 2.3 Se A1 e A2 sono eventi di F , si ha: P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ).

(2.7)

Dimostrazione Dalle propriet`a (9) e (12) del Paragrafo 1.3 risulta: A1 ∪ A2 = A1 ∪ (A1 ∩ A2 ),

A2 = (A1 ∩ A2 ) ∪ (A1 ∩ A2 ).

(2.8)

Si noti che gli eventi A1 ∪ A2 e A2 sono cos`ı stati entrambi espressi come unioni di eventi incompatibili poich´e risulta A1 ∩ (A1 ∩ A2 ) = Ø e (A1 ∩ A2 ) ∩ (A1 ∩ A2 ) = Ø. Facendo uso della Proposizione 2.3 in (2.8) si ha: P (A1 ∪ A2 ) = P (A1 ) + P (A1 ∩ A2 ),

P (A2 ) = P (A1 ∩ A2 ) + P (A1 ∩ A2 ) (2.9)

da cui, per eliminazione di P (A1 ∩ A2 ), segue la tesi.



36

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Si noti che dalla (2.7) discende P (A1 ∪ A2 ) ≤ P (A1 ) + P (A2 ), in accordo con quanto previsto dalla disuguaglianza di Boole. Esempio 2.9 Un imprenditore si avvale dell’opera di due collaboratori C1 e C2 . Con riferimento ad un prefissato giorno lavorativo, si considerino gli eventi Ai = {il collaboratore Ci e` assente nel giorno fissato} (i = 1, 2) e si supponga che P (A1 ) = 3/100, P (A2 ) = 4/100 e P (A1 ∩ A2 ) = 1/100. Si calcolino le probabilit`a dei seguenti eventi: E1 = {l’imprenditore si avvale al pi`u di un collaboratore}, E2 = {l’imprenditore si avvale almeno di un collaboratore}, E3 = {l’imprenditore si avvale di un solo collaboratore}. Poich´e E1 = A1 ∪A2 , dal Teorema 2.3 segue P (E1 ) = P (A1 )+P (A2 )−P (A1 ∩A2 ) = 6/100. Inoltre, essendo E2 = A1 ∪ A2 , si ha P (E2 ) = 1 − P (A1 ∩ A2 ) = 99/100. Infine, osservando che E3 = (A1 ∩ A2 ) ∪ (A1 ∩ A2 ) (ossia che e` esprimibile come unione di eventi incompatibili), risulta P (E3 ) = P (A1 ∩ A2 ) + P (A1 ∩ A2 ) = 5/100, dove l’ultima uguaglianza segue in quanto P (A1 ∩ A2 ) = P (A1 ) − P (A1 ∩ A2 ) e P (A1 ∩ A2 ) = P (A2 ) − P (A1 ∩ A2 ). ♦ La seguente proposizione ha delle interessanti implicazioni. Proposizione 2.7 Se A1 e A2 sono eventi di F , si ha: (a) P (A1 ) = 0 ⇒ P (A1 ∩ A2 ) = 0 e P (A1 ∪ A2 ) = P (A2 ); (b) P (A1 ) = 1 ⇒ P (A1 ∪ A2 ) = 1 e P (A1 ∩ A2 ) = P (A2 ). Dimostrazione Dimostriamo in primo luogo l’implicazione (a). Poich´e A1 ∩ A2 ⊂ A1 , applicando la Proposizione 2.6 si ha P (A1 ∩ A2 ) ≤ P (A1 ). Poich´e P (A1 ) = 0 per ipotesi, ricordando il primo assioma si ha 0 ≤ P (A1 ∩A2 ) ≤ P (A1 ) = 0, da cui segue P (A1 ∩A2 ) = 0. Inoltre, dalla (2.7) risulta P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) = P (A2 ). Dimostriamo ora l’implicazione (b). Poich´e A1 ⊂ A1 ∪ A2 , in virt`u della Proposizione 2.6 si ha P (A1 ) ≤ P (A1 ∪ A2 ). Poich´e P (A1 ) = 1 per ipotesi, ricordando la Proposizione 2.5 si ottiene 1 = P (A1 ) ≤ P (A1 ∪ A2 ) ≤ 1, da cui segue P (A1 ∪ A2 ) = 1; dalla (2.7) segue infine P (A1 ∩ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∪ A2 ) = P (A2 ).  Notiamo che un evento A rimane invariato se unito all’evento impossibile avendosi A ∪ Ø = A. Se si sostituisce a Ø un evento quasi impossibile l’uguaglianza non sussiste pi`u, pur continuando a sussistere l’uguaglianza tra le rispettive probabilit`a, come mostrato nella Proposizione 2.7. Pertanto si pu`o affermare che un evento quasi impossibile unito ad un evento non modifica la probabilit`a dell’evento unione. Analogamente, un evento quasi certo intersecato con un evento non modifica la probabilit`a dell’evento intersezione. La (2.7) e` suscettibile di generalizzazione al caso di un numero finito di eventi. L’estensione del risultato (2.7) al caso di n eventi arbitrari e` detta formula di Poincar´e o, pi`u significativamente, formula di inclusione-esclusione. Infatti la probabilit`a dell’unione di n eventi e` data dalla somma delle probabilit`a di ciascuno dei singoli eventi diminuita della somma delle probabilit`a delle intersezioni a due a due aumentata della somma delle probabilit`a delle intersezioni a tre a tre e cos`ı via, fino ad arrivare alla probabilit`a dell’intersezione di tutti gli n eventi da aggiungersi con il segno (−1)n+1 . Sussiste infatti il seguente teorema:

Un primo corso in probabilit`a per scienze pure e applicate

37

Teorema 2.4 Se A1 , A2 , . . . , An ∈ F , allora P (A1 ∪ A2 ∪ · · · ∪ An ) =

n X i=1

P (Ai ) −

X

P (Ai ∩ Aj ) +

i 0. Per la funzione generatrice di probabilit`a si ottiene: GX (z) =

+∞ r X λ r=0

r!

e−λ z r = e−λ

+∞ X (λ z)r r=0

r!

= eλ (z−1)

(z ∈ R)

e quindi MX (s) = GX (es ) = exp{λ (es − 1)}

(s ∈ R).

Essendo E(X) =

dMX (s) = λ es MX (s) = λ , ds s=0 s=0

E(X 2 ) = si ricava:

 d2 MX (s) s s = λ (1 + λ) , = λ e 1 + λ e M (s) X 2 ds s=0 s=0 Var(X) = λ,

1 CX = √ · λ

Proposizione 5.23 Se X1 , X2 , . . . , Xn sono variabili indipendenti con Xi ∼ P(λi ) per i = 1, 2, . . . , n, allora Y = X1 + X2 + . . . + Xn ha distribuzione di Poisson di parametro λ = λ1 + λ2 + . . . + λ n .

212

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Dimostrazione Tale risultato pu`o essere agevolmente dimostrato osservando che dal Teorema 5.21 si ha: GY (z) = GX1 (z) GX2 (z) . . . GXn (z) = eλ1 (z−1) eλ2 (z−1) · · · eλn (z−1) = e(λ1 +λ2 +...+λn ) (z−1) . Poich´e GY (z) e` la funzione generatrice di probabilit`a di una variabile aleatoria con distribuzione di Poisson di parametro λ = λ1 + λ2 + . . . + λn , risulta Y ∼ P(λ).  Distribuzione uniforme Sia X ∼ U(a, b). La sua densit`a di probabilit`a e` : fX (x) =

  

1 , b−a

a 0, si ricava la funzione generatrice dei momenti: MX (s) = λ

Z

+∞

e−x (λ−s) dx =

0

λ λ−s

(s < λ).

Sviluppando questa in serie di potenze di s si ottiene: MX (s) =

X s k X  1 k sk 1 = = k! , 1 − s/λ λ λ k! +∞

+∞

k=0

k=0

Un primo corso in probabilit`a per scienze pure e applicate

213

da cui, ricordando la (5.99), segue: E(X k ) = k!

 1 k

(k = 0, 1, . . .).

λ

In particolare, risulta: E(X) =

1 , λ

E(X 2 ) = 2

1 2 , λ

Var(X) = E(X 2 ) − [E(X)]2 =

1 . λ2

Si noti che CX = 1, cos`ı che il coefficiente di variazione di una generica variabile aleatoria si pu`o interpretare come una misura della sua deviazione dalla variabile esponenziale. Distribuzione di Erlang Sia X ∼ E(n, λ). La sua densit`a di probabilit`a e` pertanto:  n n−1  λ x e−λ x , x > 0 fX (x) = (n − 1)!   0, altrimenti,

con λ > 0 e n intero positivo. Come si evince dalla Proposizione 4.15, se X1 , X2 , . . . , Xn sono variabili aleatorie indipendenti con X ∼ E(1, λ) per i = 1, 2, . . . , n, allora X = X1 + X2 + . . . + Xn ha distribuzione di Erlang di parametri n e λ. Pertanto, dal Teorema 5.19 segue:  λ n (s < λ). MX (s) = MX1 (s) MX2 (s) · · · MXn (s) = λ−s Inoltre, risulta:

E(X) =

n , λ

Var(X) =

n , λ2

1 CX = √ · n

Si noti che il coefficiente di variazione e` una funzione decrescente in n che tende a zero al crescere di n. Inoltre, se e` n > 1, risulta 0 < CX < 1. Distribuzione gamma Sia X ∼ G(ν, λ) di densit`a di probabilit`a  ν ν−1  λ x e−λx , x > 0 Γ(ν) fX (x) =   0, altrimenti,

R +∞ con λ, ν reali positivi e con Γ(ν) = 0 e−x xν−1 dx. La funzione generatrice dei momenti di X e` : Z +∞ Z +∞ ν ν−1 λν sx λ x −λx MX (s) = e e dx = xν−1 e(s−λ) x dx Γ(ν) Γ(ν) 0 0 Z +∞  λ ν λν = (λ − s)−ν e−y y ν−1 dy = (s < λ) . Γ(ν) λ−s 0

214

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Si noti che per ν = n, MX (s) coincide con la funzione generatrice dei momenti di una variabile di Erlang di parametri n e λ. Pi´u in generale, si ha: dMX (s) ν  λ ν+1 ν E(X) = = = λ, ds λ λ−s s=0 s=0 2 ν (ν + 1) ν (ν + 1)  λ ν+2 d MX (s) (2) 2 = MX (0) = = , E(X ) = 2 2 ds λ λ−s λ2 s=0 s=0

da cui segue:

Var(X) =

ν , λ2

1 CX = √ · ν

Il coefficiente di variazione di X e` minore di 1 per ν > 1, uguale a 1 per ν = 1 e maggiore di 1 per ν < 1. Distribuzione iperesponenziale Sia X una variabile aleatoria di densit`a iperesponenziale di parametri a1 , a2 , . . . , an , λ1 , λ2 , . . . , λn , quindi di densit`a:  n X   ai λi e−λi x , x > 0 fX (x) = i=1   0, altrimenti,

con λi > 0 P (i = 1, 2, . . . , n) e con a1 , a2 , . . . , an numeri reali tali che ai ≥ 0 (i = n 1, 2, . . . , n) e i=1 ai = 1. La funzione generatrice dei momenti e` : MX (s) =

Z

0

+∞

es x

n X

ai λi e−λi x dx =

i=1

n X

ai

Z

+∞

es x λi e−λi x dx =

0

i=1

n X ai λi λ −s i=1 i

se s < min(λ1 , λ2 , . . . , λn ). Inoltre, si ha: E(X) =



= s=0

n X ai λi d2 MX (s) E(X ) = = 2 3 ds2 (λ s=0 i − s) i=1 2

da cui segue:

n X dMX (s) ai λi = 2 ds (λ s=0 i − s) i=1

Var(X) = 2



n X ai , λ i=1 i

=2 s=0

X 2 n n X ai ai − · λ2 λ i=1 i i=1 i

n X ai 2 , λ i=1 i

Vogliamo ora mostrare che per ogni n > 1 risulta CX ≥ 1, ossia che Var(X) ≥ [E(X)]2 . A tal fine utilizzeremo la disuguaglianza algebrica di Cauchy-Schwarz-Bunyakowsky: X n i=1

xi yi

2



X n i=1

x2i

 X n i=1

yi2



,

Un primo corso in probabilit`a per scienze pure e applicate

215



√ con x1 , x2 , . . . , xn e y1 , y2 , . . . , yn arbitrari numeri reali. Ponendo xi = ai e yi = ai /λi per i = 1, 2, . . . , n, la disuguaglianza di Cauchy-Schwarz-Bunyakowsky diventa: X n i=1

ai λi

2



n X i=1

Pertanto, 2

Var(X) − [E(X)] = 2

ai

n n X X ai ai = 2 2 . λ λ i=1 i i=1 i

X n i=1

2  X n ai ai ≥ 0, − λ2i λ j=1 i

2 e quindi CX ≥ 1. Si noti che CX = 1 se e solo se λ1 = λ2 = . . . = λn , ossia se la densit`a di probabilit`a di X e` esponenziale.

Distribuzione di Weibull Sia X una variabile aleatoria di densit`a di probabilit`a di Weibull di parametri λ e α:   α λ xα−1 exp{−λ xα }, x > 0 fX (x) =  0, altrimenti, con α > 0 e λ > 0. La funzione generatrice dei momenti e` data da: MX (s) = α λ = αλ

Z

+∞

0 +∞ X

k=0

=

+∞ k X s

k=0

k!

es x xα−1 exp{−λ xα } dx sk k!

Z

+∞

xα+k−1 exp{−λ xα } dx

0

λ− k/α

Z

+∞

y k/α e−y

0

 k +∞ k Γ 1 + X s α , dy = k/α k! λ k=0

ottenuta ricorrendo prima all’espansione in serie di Taylor di es x , effettuando successivamente il cambiamento di variabile di integrazione y = λ xα e ricordando, infine, la definizione della funzione gamma. Ricordando la (5.99), si ha:  n Γ 1+ α E(X n ) = λn/α

(n = 0, 1, . . .).

Si noti che per α = 1 la densit`a di di probabilit`a Weibull diventa una densit`a esponenziale di parametro λ e che E(X n ) = n!/λn . Distribuzione normale Sia X ∼ N (µ, σ) di densit`a di probabilit`a fX (x) =

n (x − µ)2 o 1 √ exp − , 2 σ2 σ 2π

x ∈ R,

216

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

con µ ∈ R e σ > 0. La funzione generatrice dei momenti e` data da: Z +∞ n (x − µ)2 o 1 MX (s) = es x √ exp − dx 2 σ2 σ 2π −∞  2 Z +∞ 1 y (σ y+µ) s √ = e exp − dy 2 2 π −∞ Z n (y − σ s)2 o n 1 σ 2 2 o +∞ s exp − dy =√ exp µ s + 2 2 2π −∞ n σ2 2 o = exp µ s + s , 2

ottenuta effettuando prima il cambiamento di variabile di integrazione y = (x − µ)/σ ed osservando poi che l’integrale su R di una densit`a normale e` unitario. Inoltre, si ottiene: d MX (s) E(X) = = (µ + σ 2 s) MX (s) = µ, ds s=0 s=0 d2 MX (s) d MX (s) 2 2 E(X 2 ) = = σ M (s) + (µ + σ s) = σ 2 + µ2 , X ds2 ds s=0 s=0 cos`ı che

Var(X) = σ 2 .

Per µ 6= 0, il coefficiente di correlazione e` CX = σ/µ; inoltre si ha CX < 1 per µ > σ, CX = 1 per µ = σ ed, infine, CX > 1 per µ < σ. Da quanto appena dimostrato scaturiscono i seguenti importanti risultati. Proposizione 5.24 Se X1 , X2 , . . . , Xn sono variabili indipendenti con Xi ∼ N (µi , σi ) per i = 1, 2, . . . , n e se a1 , a2 , . . . , an sono numeri reali, allora Y = a1 X1 +a2 X2 +. . .+an Xn ha distribuzione normale di parametri µ e σ, dove µ = a1 µ1 + a2 µ2 + . . . + an µn e σ 2 = a21 σ12 + a22 σ22 + . . . + a2n σn2 . Dimostrazione Tale risultato pu`o essere agevolmente dimostrato osservando che dal Teorema 5.19 si trae: MYn (s) = MX1 (a1 s) MX2 (a2 s) · · · MXn (an s) n n n a2 σ 2 o a2 σ 2 o a2 σ 2 o = exp a1 µ1 s + 1 1 s2 exp a2 µ2 s + 2 2 s2 · · · exp an µn s + n n s2 2 2 2 n   o 1 2 2 2 2 2 2 = exp a1 µ1 + a2 µ2 + . . . + an µn s + a1 σ1 + a2 σ2 + . . . + an σn s2 . 2

Essendo MY (s) la funzione generatrice dei momenti di una variabile aleatoria con distribuzione normale di parametri µ e σ, dove µ = a1 µ1 + a2 µ2 + . . . + an µn e σ 2 = a21 σ12 + a22 σ22 + . . . + a2n σn2 , si ha Y ∼ N (µ, σ).  In particolare, se X1 , X2 , . . . , Xn sono variabili aleatorie indipendenti ognuna con distribuzione normale di parametri µ e σ, allora la media campionaria X=

X1 + X2 + . . . + X n n

Un primo corso in probabilit`a per scienze pure e applicate

217

√ ha distribuzione normale di parametri µ e σ/ n. Da ci`o segue che E(X) = µ e Var(X) = σ 2 /n. Distribuzione di Laplace Sia X una variabile aleatoria di densit`a di probabilit`a: fX (x) =

n |x − α| o 1 exp − , 2β β

x ∈ R,

con α ∈ R e β > 0. In tal caso si dice che X ha distribuzione di Laplace di parametri α e β. La funzione generatrice dei momenti e` : Z

n |x − α| o 1 exp − dx 2β β −∞ Z α Z +∞ n (α − x) o n (x − α) o 1 1 = es x exp − dx + es x exp − dx 2 β −∞ β 2β α β Z +∞ Z +∞ n yo n yo 1 1 = es (α−y) exp − dy + es (α+y) exp − dy 2β 0 β 2β 0 β  eα s 1 eα s 1 eα s 1 = + = |s| < . 2 1+βs 2 1−βs 1 − β 2 s2 β

MX (s) =

+∞

es x

Inoltre, si ottiene: E(X) =

d MX (s) = α, ds s=0

E(X 2 ) = E(X 2 ) =

cos`ı che si ha:

2

Var(X) = 2 β ,

CX

d2 MX (s) = α2 + 2 β 2 , ds2 s=0

√ β 2 = · α

Capitolo 6 Distribuzioni e momenti condizionati

6.1

Introduzione

Lo studio delle relazioni sussistenti tra variabili aleatorie richiede l’introduzione del concetto di distribuzione condizionata. Nel Capitolo 2 si e` parlato di probabilit`a condizionata per eventi che appartengono ad uno stesso spazio campione. In particolare si e` visto (v. Definizione 2.11) che, dati gli eventi A e B, con P (B) > 0, la probabilit`a dell’evento A condizionata dal verificarsi dell’evento B e` per definizione: P (A|B) =

P (A ∩ B) . P (B)

Qui si desidera estendere il concetto di probabilit`a condizionata al caso di variabili aleatorie; ci`o viene effettuato attraverso la definizione delle distribuzioni condizionate. In seguito si parler`a anche di momenti condizionati, ossia dei momenti di una distribuzione condizionata. 6.2

Distribuzioni condizionate per variabili discrete

Sia (X, Y ) un vettore aleatorio discreto di funzione di probabilit`a congiunta pX,Y (x, y) e siano pX (x) e pY (y), rispettivamente, le funzioni di probabilit`a marginali di X e di Y. Denotiamo con DX l’insieme, finito o numerabile, degli x ∈ R tali che pX (x) > 0, e con DY l’insieme, finito o numerabile, degli y ∈ R tali che pY (y) > 0. Ricordando la Definizione 2.11, non e` difficile pervenire alla funzione di probabilit`a condizionata nel caso di variabili aleatorie discrete purch´e ci si limiti a considerare quei valori della variabile condizionante Y caratterizzati da probabilit`a positiva. Definizione 6.1 Se (X, Y ) e` un vettore aleatorio discreto di funzione di probabilit`a congiunta pX,Y (x, y), allora per ogni y ∈ DY la funzione di probabilit`a della variabile aleatoria X condizionata da Y = y e` : pX|Y (x|y) =

pX,Y (x, y) pY (y)

(x ∈ R).

(6.1)

220

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Per ogni y ∈ DY , pX|Y (·|y) definisce una funzione di probabilit`a, cos`ı che risulta: X

pX|Y (x|y) ≥ 0,

{r: xr ∈DX }

pX|Y (xr |y) = 1.

(6.2)

Infatti, essendo pX,Y (x, y) non negativa e pY (y) positiva, dalla (6.1) segue che pX|Y (x|y) ≥ 0. Si noti inoltre che se x 6∈ DX , risulta pX,Y (x, y) ≤ pX (x) = 0, da cui si deduce in tal caso pX|Y (x|y) = 0. Inoltre, ricordando che la funzione di probabilit`a marginale di Y viene ottenuta sommando la probabilit`a congiunta di X e Y su tutti i valori possibili di X, dalla (6.1) si ha: X

{r: xr ∈DX }

pX|Y (xr |y) =

1 pY (y)

X

pX,Y (xr , y) =

{r: xr ∈DX }

pY (y) = 1. pY (y)

Per ogni y ∈ DY e` anche possibile definire la funzione di distribuzione condizionata di X dato Y = y, come qui di seguito specificato. Definizione 6.2 Sia (X, Y ) un vettore aleatorio discreto di funzione di probabilit`a congiunta pX,Y (x, y). Per ogni y ∈ DY la funzione di distribuzione condizionata di X dato Y = y e` : FX|Y (x|y) = P (X ≤ x|Y = y)

(x ∈ R).

(6.3)

La funzione di distribuzione condizionata di X dato Y = y pu`o essere calcolata a partire dalla (6.3); infatti, per ogni y ∈ DY si ha: X P (X ≤ x, Y = y) pX,Y (xr , y) = pY (y) pY (y) {r: xr ≤x, xr ∈DX } X = pX|Y (xr |y) (x ∈ R).

FX|Y (x|y) =

(6.4)

{r: xr ≤x, xr ∈DX }

Si pu`o poi facilmente dimostrare che FX|Y (x|y) e` una funzione non decrescente in x, continua a destra per ogni x e che per ogni fissato y ∈ DY risulta: lim FX|Y (x|y) = 0,

x→−∞

lim FX|Y (x|y) = 1.

x→+∞

Analogamente alla (6.1), per ogni x ∈ DX si pu`o definire la funzione di probabilit`a della variabile aleatoria Y condizionata da X = x al seguente modo: pY |X (y|x) =

pX,Y (x, y) pX (x)

(y ∈ R).

(6.5)

Inoltre, similmente alla (6.4), per ogni x ∈ DX e` possibile definire la funzione di distribuzione della variabile aleatoria Y condizionata da X = x: X FY |X (y|x) = P (Y ≤ y|X = x) = pY |X (yr |x) (y ∈ R). (6.6) {r: yr ≤y, yr ∈DY }

Un primo corso in probabilit`a per scienze pure e applicate

221

Esempio 6.1 Sia (X, Y ) un vettore aleatorio discreto di funzione di probabilit`a congiunta:  1/4 , x = 1, y = 2   1/8 , (x = 2, y = 2) oppure (x = 2, y = 4) pX,Y (x, y) =   1/2 , x = 1, y = 4 0, altrimenti.

Determiniamo le funzioni di probabilit`a condizionate pX|Y (x|y) e pY |X (y|x). A tale scopo osserviamo che le funzioni di probabilit`a marginali delle variabili X e Y sono rispettivamente:    3/4 , x = 1  3/8 , y = 2 pX (x) = 1/4 , x = 2 pY (y) = 5/8 , y = 4   0, altrimenti, 0, altrimenti. Pertanto, dalla (6.1) segue la funzione di probabilit`a di X condizionata da Y = 2:  pX,Y (x, 2)  2/3 , x = 1 pX|Y (x|2) = = 1/3 , x = 2  pY (2) 0, altrimenti

mentre la funzione di probabilit`a di X condizionata da Y = 4 risulta data da:  pX,Y (x, 4)  4/5 , x = 1 pX|Y (x|4) = = 1/5 , x = 2  pY (4) 0, altrimenti.

Facendo uso della (6.4) e` possibile determinare la funzione di distribuzione di X condizionata da Y = 2 e quella condizionata da Y = 4: (0, (0, x 0, e dove pX|Y (x|y) = pX,Y (x, y)/pY (y) per la definizione (6.1). Se, invece, X e` assolutamente continua e B e` un sottoinsieme di R, per ogni y ∈ DY la (6.46) diventa: Z P (X ∈ B | Y = y) = fX|Y (x|y) dx (6.48) B∩DX

dove DX denota l’insieme, finito o numerabile, degli x ∈ R tali che fX (x) > 0, e dove fX|Y (x|y) = pY |X (y|x) fX (x)/pY (y) per la definizione (6.43).

234

6.5.2

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Variabile condizionante assolutamente continua

Definizione 6.10 Se Y e` assolutamente continua, denotando con DY l’insieme degli y ∈ R tali che fY (y) > 0, per ogni y ∈ DY la probabilit`a condizionata di un evento {X ∈ B} dato che Y = y e` : P (X ∈ B | Y = y) = lim P (X ∈ B | y < Y ≤ y + h) h↓0

= lim h↓0

P (X ∈ B, y < Y ≤ y + h) P (y < Y ≤ y + h)

(6.49)

sempre che il limite esista. In particolare, se X e` discreta e B e` un sottoinsieme finito o numerabile di R, per ogni y ∈ DY la (6.49) conduce nuovamente alla (6.47), con pX|Y (x|y) = fY |X (y|x) pX (x)/fY (y) definita in (6.36). Se invece X e` assolutamente continua e se B e` un sottoinsieme di R, per ogni y ∈ DY la (6.49) conduce di nuovo alla (6.48), con fX|Y (x|y) = fX,Y (x, y)/fY (y) definita in (6.18). 6.6

Legge delle alternative e teorema di Bayes per variabili aleatorie

Come visto nel precedente paragrafo, per un vettore aleatorio (X, Y ) e` possibile definire P (X ∈ B | Y = y), dove B e` un sottoinsieme della classe di Borel B. Qui si vuole mostrare che tale probabilit`a gioca un ruolo rilevante poich´e permette di estendere la legge delle alternative e la legge di Bayes per eventi, di cui ai Paragrafi 2.6 e 2.7, anche a situazioni coinvolgenti variabili aleatorie. Teorema 6.1 Sia (X, Y ) un vettore aleatorio e sia B ∈ B. (a) Se Y e` discreta, denotando con DY l’insieme finito o numerabile degli y ∈ R tali che pY (y) > 0, si ha: X P (X ∈ B) = P (X ∈ B|Y = yr ) pY (yr ), B ∈ B. (6.50) {r: yr ∈DY }

(b) Se Y e` assolutamente continua, denotando con DY l’insieme degli y ∈ R tali che fY (y) > 0, risulta: Z P (X ∈ B) = P (X ∈ B|Y = y) fY (y) dy, B ∈ B. (6.51) DY

Dimostrazione (a) Se Y e` discreta, essendo DY l’insieme finito o numerabile degli y ∈ R tali che pY (y) > 0, si ha: X P (X ∈ B) = P (X ∈ B, Y ∈ DY ) = P (X ∈ B, Y = yr ) =

X

{r: yr ∈DY }

{r: yr ∈DY }

P (X ∈ B | Y = yr ) pY (yr ),

Un primo corso in probabilit`a per scienze pure e applicate

235

dove l’ultima uguaglianza segue dalla (6.46). La (6.50) e` cos`ı dimostrata. (b) Se Y e` assolutamente continua, il risultato non pu`o essere ottenuto per via diretta essendo P (Y = y) = 0 per ogni y ∈ R, e si rende cos`ı necessario un procedimento limite. A tal fine, rappresentiamo l’insieme DY come unione dei sottointervalli (yr , yr+1 ] ottenuti tramite i punti yr (r = 0, ±1, ±2, . . .), ed indichiamo con Hr l’evento {yr < Y ≤ yr+1 }. In virt`u dell’assioma di additivit`a completa si ha: X X P (X ∈ B) = P (X ∈ B, Y ∈ Hr ) = P (X ∈ B | Y ∈ Hr ) P (Y ∈ Hr ) r

=

X r

r

P (X ∈ B | yr < Y ≤ yr+1 ) P (yr < Y ≤ yr+1 ),

(6.52)

dove le somme sono estese a tutti gli r tali che (yr , yr+1 ] ⊆ DY . Essendo Y assolutamente continua, il teorema della media conduce a scrivere: Z yr+1 P (yr < Y ≤ yr+1 ) = fY (y) dy = fY (ξr ) ∆yr , (6.53) yr

con yr ≤ ξr ≤ yr+1 e con ∆yr = yr+1 − yr . Utilizzando (6.53) nella (6.52) si ottiene: X P (X ∈ B) = P (X ∈ B | yr < Y ≤ yr+1 ) fY (ξr ) ∆yr . (6.54) r

Scegliendo una partizione di DY progressivamente pi`u fine in maniera da ottenere intervalli (yr , yr+1 ] la cui ampiezza tende a zero, e ricordando la definizione (6.49) di probabilit`a condizionata, attraverso un procedimento limite dalla (6.54) si ottiene la (6.51). Ci`o completa la dimostrazione.  Si noti che se (X, Y ) e` discreto e B = {x}, dalla (6.50) si ottiene la (6.8). Se, invece, X e` discreta, Y assolutamente continua e B = {x}, la (6.51) si identifica con la (6.40). Inoltre, se X e` assolutamente continua, Y discreta e se si sceglie B coincidente con l’intervallo (x, x + h], la (6.50) conduce a scrivere: X P (x < X ≤ x + h) = P (x < X ≤ x + h|Y = yr ) pY (yr ), {r: yr ∈DY }

da cui, dividendo ambo i membri per h e procedendo al limite per h ↓ 0, si riottiene la (6.45). Infine, se (X, Y ) e` assolutamente continuo e si sceglie B coincidente con l’intervallo (x, x + h], dalla (6.51) si ricava: Z P (x < X ≤ x + h) = P (x < X ≤ x + h|Y = y) fY (y) dy DY

che, previa divisione di ambo i membri per h e passaggio al limite per h ↓ 0, conduce alla (6.24). Scegliendo B ∈ B coincidente con l’intervallo (−∞, x], dal Teorema 6.1 segue anche che e` possibile esprimere la funzione di distribuzione di una variabile aleatoria X in termini

236

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

di funzione di distribuzione condizionata di X dato Y = y. Infatti, se Y e` discreta e DY e` l’insieme finito o numerabile degli y ∈ R tali che pY (y) > 0, dalla (6.50) si ricava: FX (x) =

X

(x ∈ R);

FX|Y (x|yr ) pY (yr )

{r: yr ∈DY }

(6.55)

se invece Y e` assolutamente continua e DY e` l’insieme degli y ∈ R tali che fY (y) > 0, dalla (6.51) si ottiene: Z FX (x) = FX|Y (x|y) fY (y) dy (x ∈ R). (6.56) DY

Le leggi delle alternative per vettori aleatori sono riassunte nella Tabella 6.1. Tabella 6.1 – Leggi delle alternative per il vettore aleatorio (X, Y ).

P (X ∈ B) =

Y discreta X P (X ∈ B|Y = yr ) pY (yr )

{r: yr ∈DY }

FX (x) =

X

FX|Y (x|yr ) pY (yr )

(x ∈ R)

{r: yr ∈DY }

(X, Y ) discreto pX (x) =

X

pX|Y (x|yr ) pY (yr )

(x ∈ R)

{r: yr ∈DY }

X assolutamente continua, Y discreta X fX (x) = fX|Y (x|yr ) pY (yr ) (x ∈ R) {r:yr ∈DY }

Y assolutamente continua Z P (X ∈ B) = P (X ∈ B|Y = y) fY (y) dy DY

Z FX (x) =

FX|Y (x|y) fY (y) dy,

(x ∈ R)

DY

X discreta, Y assolutamente continua Z pX (x) = pX|Y (x|y) fY (y) dy (x ∈ R) DY

(X,ZY ) assolutamente continuo fX (x) = fX|Y (x|y) fY (y) dy (x ∈ R) DY

Esempio 6.11 Sia X0 , X1 , . . . una successione di variabili aleatorie indipendenti e identicamente distribuite con funzione di distribuzione FX (x) e sia N ∼ P(λ). Sotto l’ipotesi che N e` indipendente da ognuna delle Xr , determiniamo la funzione di distribuzione di UN = max(X0 , X1 , . . . , XN ) e di VN = min(X0 , X1 , . . . , XN ). Si osservi che UN e VN dipendono dai valori assunti dalla variabile N, cos`ı che le distribuzioni richieste non possono essere determinate direttamente. Se invece si suppone che sia N = n, il numero di variabili tra cui scegliere il massimo o il minimo non e` pi`u aleatorio. In altri termini, la variabile UN condizionata da N = n e` il massimo tra n variabili aleatorie indipendenti e identicamente distribuite, cos`ı che la funzione di distribuzione di UN condizionata da N = n pu`o essere determinata come gi`a mostrato nel Paragrafo 3.9. Invero, facendo uso della (3.63), dell’indipendenza di N dalle Xi nonch´e dell’indipendenza di X1 , X2 , . . . ,

Un primo corso in probabilit`a per scienze pure e applicate

237

per n = 0, 1, . . . risulta: P (UN ≤ x, N = n) P (Un ≤ x) pN (n) FUN |N (x|n) = P (UN ≤ x | N = n) = = pN (n) pN (n)  n+1 = P max(X0 , X1 , . . . , Xn ) ≤ x = [F (x)] (x ∈ R).

Per determinare la funzione di distribuzione di UN e` ora sufficiente applicare la (6.55). Infatti, ricordando la (4.20), per ogni x ∈ R si ha: FUN (x) =

+∞ X

n=0

FUN |N (x|n) pN (n) =

+∞ X

n=0

e−λ

 λn [F (x)]n+1 = F (x) exp −λ [1−F (x)] . n!

Per la variabile VN procediamo in modo analogo. In primo luogo valutiamo la funzione di distribuzione di VN condizionata da N = n che, facendo uso della (3.64) e delle ipotesi di indipendenza tra le variabili in questione, per ogni n = 0, 1, . . . risulta essere: P (VN ≤ x, N = n) FVN |N (x|n) = P (VN ≤ x | N = n) = = P (Vn ≤ x) pN (n)  = P min(X0 , X1 , . . . , Xn ) ≤ x = 1 − [1 − F (x)]n+1 (x ∈ R).

Utilizzando nuovamente la (6.55), si ottiene poi: FVN (x) =

+∞ X

n=0

FVN |N (x|n) pN (n) =

+∞ X

e−λ

n=0

 = 1 − [1 − F (x)] exp −λ F (x)

λn  1 − [1 − F (x)]n+1 n! (x ∈ R).

Sottolineiamo, infine, che questi risultati sono stati ottenuti sotto l’ipotesi di indipendenza e di identica distribuzione delle variabili Xi , ma non e` stata necessaria alcuna ipotesi sulla natura delle variabili Xi . Se assumiamo che esse sono assolutamente continue, tali risultano UN e VN , e si ha: fUN (x) = fVN (x) =

  d FUN (x)  = 1 + λ F (x) f (x) exp −λ [1 − F (x)] dx

 d FVN (x)  = 1 + λ [1 − F (x)] f (x) exp −λ F (x) dx

dove f (x) denota la densit`a di ognuna delle variabili Xi .

(x ∈ R), (x ∈ R), ♦

Cos`ı come accade nel contesto degli eventi, anche per le variabili aleatorie la formula delle alternative costituisce la base per la determinazione di distribuzioni “a posteriori”. Il seguente teorema e` la riformulazione della legge di Bayes per distribuzioni di variabili aleatorie. Teorema 6.2 Sia (X, Y ) un vettore aleatorio e sia B ∈ B.

238

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

(a) Sia Y discreta e sia DY l’insieme, finito o numerabile, degli y ∈ R tali che pY (y) > 0. Se P (X ∈ B) > 0, per ogni y ∈ DY si ha: P (X ∈ B | Y = y) pY (y) P (X ∈ B) P (X ∈ B|Y = y) pY (y) X · P (X ∈ B|Y = yr ) pY (yr )

pY |X (y|B) = P (Y = y | X ∈ B) = =

(6.57)

{r: yr ∈DY }

(b) Siano Y assolutamente continua e DY l’insieme degli y ∈ R tali che fY (y) > 0. Se P (X ∈ B) > 0, per ogni y ∈ DY risulta: 1 P (X ∈ B | Y = y) fY (y) fY |X (y|B) = lim P (y < Y ≤ y + ε | X ∈ B) = ε↓0 ε P (X ∈ B) P (X ∈ B | Y = y) fY (y) · (6.58) =Z P (X ∈ B | Y = v) fY (v) dv DY

Dimostrazione Nel caso (a), essendo Y discreta e P (X ∈ B) > 0, si ha: P (Y = y | X ∈ B) =

P (X ∈ B, Y = y) P (X ∈ B|Y = y) pY (y) = , P (X ∈ B) P (X ∈ B)

da cui, ricordando la (6.50), per ogni y ∈ DY segue immediatamente la (6.57). Nel caso (b), essendo P (X ∈ B) > 0, per ogni ε > 0 si ha: P (y < Y ≤ y + ε, X ∈ B) P (X ∈ B) P (X ∈ B | y < Y ≤ y + ε) P (y < Y ≤ y + ε) = ; P (X ∈ B)

P (y < Y ≤ y + ε | X ∈ B) =

di qui, dividendo ambo i membri per h, procedendo al limite per ε ↓ 0 e utilizzando la (6.49), si ottiene la prima delle (6.57). L’ultima uguaglianza nella (6.58) segue poi dalla precedente tenendo conto della (6.51).  Si noti che se (X, Y ) e` discreto e B = {x}, dalla (6.57) si ottiene la (6.9). Se invece X e` discreta, Y assolutamente continua e B = {x}, la (6.58) si identifica con la (6.37). Inoltre se X e` assolutamente continua, Y discreta e si sceglie B coincidente con l’intervallo (x, x + h], la (6.57) fornisce: P (Y = y | x < X ≤ x + h) =

P (x < X ≤ x + h | Y = y)/h pY (y), P (x < X ≤ x + h)/h

da cui, procedendo al limite per h ↓ 0, si ottiene la (6.42). Infine, se (X, Y ) e` assolutamente continuo e se si sceglie di nuovo B coincidente con l’intervallo (x, x + h], la (6.58) si pu`o scrivere al seguente modo: P (x < X ≤ x + h | Y = y)/h 1 fY (y), lim P (y < Y ≤ y + ε | x < X ≤ x + h) = ε↓0 ε P (x < X ≤ x + h)/h

Un primo corso in probabilit`a per scienze pure e applicate

239

cos`ı che, procedendo al limite per h ↓ 0, si ricava la (6.25). Come nel caso degli eventi, la legge di Bayes assume un significato particolarmente importante se alle variabili aleatorie coinvolte si assegnano i ruoli di causa ed effetto. Precisamente, chiamiamo Y la causa del verificarsi di {X ∈ B}, ossia dell’effetto di tale causa. Se Y e` discreta, la probabilit`a condizionata pY |X (y|B) e` la probabilit`a di Y valutata sapendo che {X ∈ B}; essa e` denominata probabilit`a a posteriori. La legge di Bayes (6.57) permette quindi di calcolare la probabilit`a a posteriori pY |X (y|B) supponendo note la funzione di probabilit`a di X e le probabilit`a condizionate P (X ∈ B | Y = y). Analogamente, se Y e` assolutamente continua, la densit`a condizionata fY |X (y|B) e` la densit`a di Y valutata sapendo che {X ∈ B}; essa prende il nome di densit`a a posteriori. La legge di Bayes (6.58) consente quindi di calcolare la densit`a di probabilit`a a posteriori fY |X (y|B) supponendo note la densit`a di probabilit`a di X e le probabilit`a condizionate P (X ∈ B | Y = y). Le leggi di Bayes per variabili aleatorie sono riassunte nella Tabella 6.2. Tabella 6.2 – Leggi di Bayes per il vettore aleatorio (X, Y ).

Y discreta P (X ∈ B | Y = y) pY (y) pY |X (y|B) = P (X ∈ B) (y ∈ DY , P (X ∈ B) > 0) (X, Y ) discreto pX|Y (x|y) pY (y) pY |X (y|x) = pX (x) (x ∈ DX , y ∈ DY ) X assolutamente continua, Y discreta fX|Y (x|y) pY (y) pY |X (y|x) = fX (x) (x ∈ DX , y ∈ DY )

Y assolutamente continua P (X ∈ B | Y = y) fY (y) fY |X (y|B) = P (X ∈ B) (y ∈ DY , P (X ∈ B) > 0) X discreta, Y assolutamente continua pX|Y (x|y) fY (y) fY |X (y|x) = pX (x) (x ∈ DX , y ∈ DY ) (X, Y ) assolutamente continuo fX|Y (x|y) fY (y) fY |X (y|x) = fX (x) (x ∈ DX , y ∈ DY )

Esempio 6.12 Siano Y1 , Y2 , . . . , Yn variabili aleatorie indipendenti e identicamente distribuite con funzione di distribuzione F (x) e siano U = max(Y1 , Y2 , . . . , Yn ) e V = min(Y1 , Y2 , . . . , Yn ). Determiniamo la distribuzione di Y1 condizionata da U ≤ u e la distribuzione di Y1 condizionata da V > v. Distinguiamo due casi: (a) Y1 , Y2 , . . . , Yn discrete e (b) Y1 , Y2 , . . . , Yn assolutamente continue. Nel caso (a), essendo Y1 , Y2 , . . . , Yn discrete, tali sono anche U e V. Posto B = {U ≤ u}, dalla (3.63) segue P (U ≤ u) = [F (u)]n , cos`ı che se F (u) > 0 dalla (6.57) si ottiene: P (U ≤ u | Y1 = y) pY1 (y) P (U ≤ u)   [F (u)]n−1 pY1 (y) pY (y) = 1 , n = [F (u)] F (u)  0,

P (Y1 = y | U ≤ u) =

y v} dalla (3.64) segue P (V > v) = [1 − F (u)]n . Se F (u) < 1, dalla (6.57) si ricava quindi: P (V > v | Y1 = y) pY1 (y) P (V > v)   [1 − F (v)]n−1 pY1 (y) pY1 (y) = , n = [1 − F (v)] 1 − F (v)  0,

P (Y1 = y | V > v) =

y>v y ≤ v.

Nel caso (b) invece, essendo Y1 , Y2 , . . . , Yn assolutamente continue, tali sono anche U e V ; pertanto, facendo uso della (6.58), si pu`o procedere in modo analogo al caso discreto, cos`ı che se F (u) > 0 si ha: ( fY1 (y) 1 P (U ≤ u | Y = y) fY1 (y) , y v | Y1 = y) fY1 (y) lim P (y < Y ≤ y + ε | V > v) = = ε↓0 ε P (V > v)

(

fY1 (y) , y>v 1 − F (v) 0, y ≤ v. ♦

6.7

Medie e momenti condizionati

Sia (X, Y ) un vettore aleatorio con funzione di distribuzione FX,Y (x, y) e sia Z una variabile aleatoria funzione di X e Y : Z = g(X, Y ), (6.59) con g: R2 → R funzione Borel-misurabile. Ci proponiamo di definire la media condizionata di Z dato Y = y. Esaminiamo separatamente i seguenti quattro casi: (a) (X, Y ) discreto, (b) (X, Y ) assolutamente continuo, (c) (X, Y ) misto con X discreta e Y assolutamente continua, (d) (X, Y ) misto con X assolutamente continua e Y discreta. (a) Sia (X, Y ) discreto di funzione di probabilit`a congiunta pX,Y (x, y). Siano poi pX (x) e pY (y) rispettivamente le funzioni di probabilit`a marginali di X e di Y. Denotiamo con DX l’insieme finito o numerabile degli x ∈ R tali che pX (x) > 0 e indichiamo con DY l’insieme finito o numerabile degli y ∈ R tali che pY (y) > 0. Per ogni y ∈ DY , la media condizionata di Z = g(X, Y ) dato Y = y e` : E(Z | Y = y) =

X

{r: xr ∈DX }

g(xr , y) pX|Y (xr |y) =

X

{r: xr ∈DX }

g(xr , y)

pX,Y (xr , y) , pY (y)

(6.60) sempre che tale media esista. Cos`ı come accade per il valore medio di una variabile discreta non condizionata, la media condizionata di Z dato Y = y esiste sempre se Z e` non negativa oppure se Z e` non positiva, anche se non necessariamente finita. Se Z assume con probabilit`a

Un primo corso in probabilit`a per scienze pure e applicate

241

non nulla valori sia positivi che negativi, la media condizionata di Z dato Y = y esiste se la serie al secondo membro della (6.60) e` assolutamente convergente oppure se nel calcolo non compaiono simultaneamente infiniti positivi e negativi. (b) Sia (X, Y ) assolutamente continuo di densit`a di probabilit`a congiunta fX,Y (x, y). Siano inoltre fX (x) e fY (y) rispettivamente le densit`a di probabilit`a di X e di Y. Denotati con DX l’insieme degli x ∈ R tali che fX (x) > 0 e con DY l’insieme degli y ∈ R tali che fY (y) > 0, per ogni y ∈ DY la media condizionata di Z = g(X, Y ) dato Y = y e` : E(Z | Y = y) =

Z

+∞

g(x, y) fX|Y (x|y) dx =

−∞

Z

+∞

g(x, y)

−∞

fX,Y (x, y) dx , fY (y)

(6.61)

sempre che essa esista. Cos`ı come accade per il valore medio di una variabile assolutamente continua non condizionata, la media condizionata di Z dato Y = y esiste sempre se Z e` non negativa oppure Z e` non positiva, anche se non necessariamente finita. Se Z assume con probabilit`a non nulla valori sia positivi che negativi, la media condizionata di Z dato Y = y esiste se l’integrale al secondo membro della (6.61) e` assolutamente convergente oppure se nel corso del suo calcolo non compaiono simultaneamente infiniti positivi e negativi. (c) Sia (X, Y ) misto, con X discreta con funzione di probabilit`a pX (x) e Y assolutamente continua con densit`a di probabilit`a fY (y). Siano DX l’insieme finito o numerabile degli x ∈ R tali che pX (x) > 0 e DY l’insieme degli y ∈ R tali che fY (y) > 0. Per ogni y ∈ DY , la media condizionata di Z = g(X, Y ) dato Y = y e` : E(Z | Y = y) =

X

{r: xr ∈DX }

g(xr , y) pX|Y (xr |y) =

X

g(xr , y)

g(x, y)

pY |X (y|x) fX (x) dx (6.63) pY (y)

{r: xr ∈DX }

fY |X (y|xr ) pX (xr ) fY (y)

(6.62) sempre che essa esista. Le condizioni per l’esistenza della media condizionata sono le stesse del caso (a). (d) Sia (X, Y ) misto, con X assolutamente continua con densit`a di probabilit`a fX (x) e Y discreta con funzione di probabilit`a pY (y). Siano DX l’insieme degli x ∈ R tali che fX (x) > 0 e DY l’insieme finito o numerabile degli y ∈ R per i quali risulta pY (y) > 0. Per ogni y ∈ DY , la media condizionata di Z = g(X, Y ) dato Y = y e` : E(Z | Y = y) =

Z

DX

g(x, y) fX|Y (x|y) dx =

Z

DX

se esistente. Le condizioni per l’esistenza della media condizionata sono le stesse del caso (b). Se nelle (6.60), (6.61), (6.62) e (6.63) si sceglie g(x, y) = x, si ottiene E(X | Y = y) cui si d`a il nome di media condizionata di X dato Y = y. Se invece si pone g(x, y) = xn (n = 2, 3, . . .) si ottiene E(X n | Y = y), che e` detto momento condizionato di ordine n di X dato Y = y. I momenti condizionati di ordine n di X dato Y = y sono indicati nella Tabella 6.3. Inoltre, se µ(y) = E(X | Y = y) esiste finito e se nelle  (6.60), (6.61), (6.62) e (6.63) si sceglie g(x, y) = [x − µ(y)]n (n = 2, 3, . . .) si ottiene E X − µ(y)]n | Y = y , detto momento condizionato centrale di ordine n di X dato Y = y. In particolare, cos`ı come accade in assenza di condizionamento, se µ(y) e` finito, la varianza condizionata di X dato

242

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi Tabella 6.3 – Momenti condizionati di ordine n (n = 1, 2, . . .) di X dato Y = y.

X

n

E(X | Y = y) =

xn r

{r: xr ∈DX }

X

n

E(X | Y = y) =

E(X | Y = y) =

n

E(X | Y = y) =

Z

Z

(y ∈ DY )

{r: xr ∈DX }

X discreta, Y assolutamente continua X fY |X (y|xr ) pX (xr ) xn xn r pX|Y (xr |y) = r fY (y)

{r: xr ∈DX }

n

(X, Y ) discreto X pX,Y (xr , y) pX|Y (xr |y) = xn r pY (y)

(y ∈ DY )

{r: xr ∈DX }

X assolutamenteZcontinua, Y discreta pY |X (y|x) fX (x) x fX|Y (x|y) dx = xn dx (y ∈ DY ) pY (y) DX n

DX

+∞

(X, Y ) assolutamente continuo Z +∞ fX,Y (x, y) x fX|Y (x|y) dx = xn dx (y ∈ DY ) fY (y) −∞ n

−∞

Y = y e` cos`ı definita: Var(X | Y = y) = E



 2 X − µ(y)]2 | Y = y = E(X 2 | Y = y) − E(X | Y = y) . (6.64)

Esempio 6.13 Supponiamo che X ∼ P(λ) descriva, in una qualche ragionevole approssimazione, il numero di decadimenti radioattivi prodotti da un certo materiale fisico e che ogni decadimento sia rilevato con probabilit`a p indipendentemente da ogni altro. Sia Y la variabile aleatoria descrivente il numero decadimenti rilevati. Ci proponiamo di determinare E(X|Y = y) e Var(X|Y = y), ossia il numero medio e la varianza dei decadimenti avvenuti sapendo che ne sono stati rilevati y. Per le ipotesi fatte, per x = 0, 1, . . . si ha:     x py (1 − p)x−y , y = 0, 1, . . . , x y pY |X (y|x) =   0, altrimenti. Per determinare E(X|Y = y) occorre conoscere la funzione di probabilit`a condizionata di X dato Y = y. A tal fine osserviamo che dalla (6.11) per y = 0, 1, . . . segue: +∞ +∞   X X n y λn −λ pY (y) = pY |X (y|n) pX (n) = p (1 − p)n−y e y n! n=y n=y +∞ (p λ)y −λ X [(1 − p) λ]n−y (p λ)y −λ (1−p) λ (p λ)y −p λ = e = e e = e . y! (n − y)! y! y! n=y

Un primo corso in probabilit`a per scienze pure e applicate

243

Pertanto si ha Y ∼ P(p λ). Inoltre, tenendo conto della (6.12), per ogni y = 0, 1, . . . risulta:  x−y pY |X (y|x) pX (x)  [(1 − p) λ] e−(1−p) λ , x = y, y + 1, . . . pX|Y (x|y) = = (x − y)!  pY (y) 0, altrimenti. Facendo, quindi, uso della (6.60) e della (6.64), per y = 0, 1, . . . si trae: E(X|Y = y) =

+∞ X

k=y

+∞

[(1 − p) λ]k−y −(1−p) λ X [(1 − p) λ]r −(1−p) λ k e = (r + y) e (k − y)! r! r=0

= y + (1 − p) λ, +∞ X  2 [(1 − p) λ]k−y −(1−p) λ e Var(X|Y = y) = k − y − (1 − p) λ (k − y)! k=y

=

+∞ X r=0



r − (1 − p) λ

2 [(1 − p) λ]r −(1−p) λ e = (1 − p) λ. r! ♦

Esempio 6.14 Sia (X, Y ) assolutamente continuo con densit`a congiunta:  −y e , y > 0, 0 < x ≤ y fX,Y (x, y) = 0, altrimenti. Risulta: fY (y) =

Z

+∞

−∞

Z y   e−y dx = y e−y , y > 0 fX,Y (x, y) dx = 0   0, altrimenti.

Inoltre, facendo uso della (6.18), per ogni y > 0 si ha:  fX,Y (x, y) 1/y, fX|Y (x|y) = = 0, fY (y)

0 0 si ha: Z +∞ Z y 1 yn E(X n | Y = y) = xn fX|Y (x|y) dx = xn dx = (n = 1, 2, . . .) , y 0 n+1 −∞ da cui, facendo uso della (6.64), si ottiene: Var(X | Y = y) =

y2 y2 y2 − = · 3 4 12 ♦

244

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Esempio 6.15 Sia (X, Y ) misto con X discreta e Y ∼ U(0, 1). Supponiamo che per ogni 0 < y < 1 risulti:     n y x (1 − y)n−x , x = 0, 1, . . . , n x pX|Y (x|y) =   0, altrimenti, ossia assumiamo che la funzione di probabilit`a condizionata di X dato Y = y sia binomiale di parametri n e y. Dalle (6.62) e (6.64) per ogni 0 < y < 1 segue:   n X n k E(X | Y = y) = k y (1 − y)n−k = n y k k=0   Var(X | Y = y) = E X − n y)2 | Y = y = n y (1 − y).



Esempio 6.16 Sia (X, Y ) misto con X assolutamente continua e Y discreta. Supponiamo che sia:  1  , y = 1, 2, . . . y (y + 1) pY (y) =  0, altrimenti

e che per ogni y = 1, 2, . . . risulti:   y (y + 1) x (1 − x)y−1 , 0 < x < 1 fX|Y (x|y) =  0, altrimenti. Dalla (6.63) per ogni y = 1, 2, . . . si ottiene: Z 1 Z E(X | Y = y) = x fX|Y (x|y) dx = y (y + 1) 0

= y (y + 1)

Z

0

0

1

(1 − z)2 z y−1 dz =

1

x2 (1 − x)y−1 dx

2 · y+2 ♦

Il seguente teorema illustra la propriet`a di linearit`a di cui godono le medie condizionate. Teorema 6.3 Sia (X, Y ) un vettore aleatorio. Si considerino le variabili Z1 = g1 (X, Y ) e Z2 = g2 (X, Y ) con gi : R2 → R funzione Borel-misurabile (i = 1, 2) e siano α1 e α2 reali arbitrari. Risulta: E(α1 Z1 + α2 Z2 |Y = y) = α1 E(Z1 | Y = y) + α2 E(Z2 | Y = y),

(6.65)

sempre che al secondo membro le medie condizionate esistano e che nella somma non siano presenti simultaneamente infiniti di segno opposto.

Un primo corso in probabilit`a per scienze pure e applicate

245

Sussistono inoltre i seguenti teoremi. Teorema 6.4 Siano X e Y variabili aleatorie indipendenti e sia T = r(X) con r: R → R funzione Borel-misurabile. Se E(T ) esiste, si ha: E(T | Y = y) = E(T )

(6.66)

per tutti gli y ∈ R per i quali la media condizionata di T dato Y = y e` definita. Teorema 6.5 Sia (X, Y ) un vettore aleatorio. Si considerino le variabili aleatorie T = r(Y ) e Z = g(X, Y ) con r: R → R e g: R2 → R funzioni Borel-misurabili. Si ha: E(T Z | Y = y) = r(y) E(Z | Y = y)

(6.67)

sempre che al secondo membro esista la media condizionata. Le dimostrazioni dei precedenti tre teoremi sono state omesse in quanto seguono direttamente dalle definizioni (6.60), (6.61), (6.62) e (6.63) sfruttando le propriet`a di linearit`a di somme e di integrali. 6.8

Valori medi delle medie condizionate

Dato un vettore aleatorio (X, Y ) e una variabile aleatoria Z = g(X, Y ), con g: R2 → R funzione Borel-misurabile, la media condizionata E(Z | Y = y) e` , per sua stessa definizione, una funzione dei valori y assunti dalla variabile aleatoria Y. Per ogni y appartenente all’insieme DY dei valori che Y assume con probabilit`a non nulla nel caso discreto, o con densit`a di probabilit`a non nulla nel caso continuo, denotiamo con h(Y ) = E(Z | Y ) = E[g(X, Y ) | Y ]

(6.68)

la funzione ottenuta facendo variare y sull’insieme DY . Se E(Z) esiste finito, si pu`o dimostrare che h(Y ) e` una funzione misurabile che pu`o quindi essere interpretata come una variabile aleatoria ottenuta a partire da Y. E` naturale chiedersi quali siano le caratteristiche probabilistiche di h(Y ). Mentre la distribuzione di h(Y ) dipende dalla distribuzione del vettore aleatorio (X, Y ) di modo che la sua determinazione deve essere effettuata esaminando le varie situazioni che caso per caso si presentano, e` invece possibile fornire dei risultati generali per il valore medio di h(Y ). Teorema 6.6 Sia (X, Y ) un vettore aleatorio e sia Z = g(X, Y ). Se E(Z) e` finito, allora   E(Z) = E E(Z|Y ) . (6.69)

Dimostrazione Poich´e µ(Y ) = E(Z|Y ) e` una variabile aleatoria ottenuta come funzione di Y, la sua media pu`o essere calcolata facendo uso dei risultati ottenuti nel Paragrafo 5.3. Utilizzando notazione e risultati del Paragrafo 6.5, dimostriamo il teorema nei casi in cui (X, Y ) e` discreto e in cui (X, Y ) e` assolutamente continuo, anche se la (6.69) e` valida in situazioni pi`u generali.

246

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Caso (a) Se (X, Y ) e` discreto, ricordando la (5.22), si ha: X   E E(Z|Y ) = E(Z | Y = y) pY (y).

(6.70)

{s:ys ∈DY }

Facendo ora uso della (6.7) e della (6.60) si ottiene: X X E(Z) = g(xr , ys ) pX,Y (xr , ys ) {r:xr ∈DX } {s:ys ∈DY }

=

X



X

{s:ys ∈DY } {r:xr ∈DX }

 X g(xr , ys ) pX|Y (xr |ys ) pY (ys ) =

{s:ys ∈DY }

E(Z | Y = y) pY (y),

  che per la (6.70) si identifica con E E(Z|Y ) . Caso (b) Se (X, Y ) e` assolutamente continuo, ricordando la (5.23), si ha: Z   E E(Z|Y ) = E(Z | Y = y) fY (y) dy.

(6.71)

DY

Quindi, utilizzando la (6.23) e la (6.61), si ricava:  Z +∞Z +∞ Z Z +∞ E(Z) = g(x, y) fX,Y (x, y) dx dy = g(x, y) fX|Y (x|y) dx fY (y) dy −∞ −∞ DY −∞ Z = E(Z | Y = y) fY (y) dy, DY

  che, tenendo conto della (6.71), coincide con E E(Z|Y ) .

   Se nella (6.69) si sceglie g(x, y) = x, si ottiene E(X) = E E(X|Y ) , mentre se si po ne g(x, y) = xn (n = 2, 3, . . .) si ottiene E(X n ) = E E(X n | Y ) . Ci`o significa che e` possibile esprimere il valore medio di X come valore medio della variabile aleatoria E(X|Y ), ed il momento di ordine n di X come valore medio della variabile aleatoria E(X n |Y ) (n = 2,3, . . .). Inoltre, se µ(y) esiste finito per ogni y ∈ DY e se si sceglie n g(x, y) = [x − µ(y) , la (6.69) diventa:     E X − µ(Y )]n = E E X − µ(Y )]n |Y (n = 1, 2, . . .). (6.72) Si noti che il primo membro nella (6.72) non corrisponde al momento centrale di ordine n di X poich´e µ(Y ) = E(X|Y ) non e` il valore medio della variabile X ma e` una variabile aleatoria che per ogni y ∈ DY assume i valori E(X | Y = y).

Corollario 6.1 Sia (X, Y ) un vettore aleatorio. Si considerino le variabili T = r(Y ) e Z = g(X, Y ) con r: R → R e g: R2 → R funzioni Borel-misurabili. Se E(T Z) esiste finito, risulta:   E(T Z) = E T E(Z|Y ) . (6.73)   Dimostrazione Dalla (6.69) si ha E(T Z) = E E(T Z|Y ) . Poich´e, per il Teorema 6.5, E(T Z | Y = y) = r(y) E(Z | Y = y) per ogni y ∈ DY , si ricava immediatamente la (6.73). 

Un primo corso in probabilit`a per scienze pure e applicate

247

Se si denota con Var(X|Y ) una variabile aleatoria che per ogni y ∈ DY assume come valori Var(X | Y = y) = E{[X − µ(y)]2 | Y = y}, sussistono i risultati che seguono. Teorema 6.7 Sia (X, Y ) un vettore aleatorio. Se µ(y) = E(X | Y = y) esiste finito per ogni y ∈ DY e X ha varianza finita, si ha:  E[Var(X|Y )] = E X − µ(Y )]2 = E(X 2 ) − E[µ2 (Y )] (6.74)  2 2 2 Var[E(X|Y )] = E µ(Y ) − E(X)] = E[µ (Y )] − [E(X)] (6.75)   Var(X) = E Var(X|Y ) + Var[E(X|Y )]. (6.76)

Dimostrazione Scegliendo n = 2 nella (6.72), per la propriet`a di linearit`a della media si ha:  E[Var(X|Y )] = E X − µ(Y )]2 = E(X 2 ) + E[µ2 (Y )] − 2 E[X µ(Y )]. Poich´e per la (6.73) risulta E[X µ(Y )] = E[µ(Y ) E(X|Y )] = E[µ2 (Y )], si ricava immediatamente la (6.74). Inoltre, facendo uso della (6.69), si ottiene:  2  2 Var[E(X|Y )] = Var[µ(Y )] = E µ(Y ) − E[µ(Y )] = E µ(Y ) − E(X) = E[µ2 (Y )] + [E(X)]2 − 2 E(X) E[µ(Y )],

da cui segue la (6.75). Infine, sommando membro a membro le (6.74) e (6.75), segue la (6.76).  Il Teorema 6.7 mostra quindi che la varianza di X pu`o essere ottenuta come somma del valore medio della variabile aleatoria Var(X|Y ) e della varianza della variabile aleatoria E(X|Y ). Esempio 6.17 Dei clienti pervengono l’uno dopo l’altro ad un centro per richiedere un servizio. Se il servizio non e` immediatamente disponibile essi rimangono in attesa formando una coda. Assumiamo che il tempo richiesto per espletare un singolo servizio sia descrivibile mediante una variabile aleatoria Y esponenzialmente distribuita con parametro µ. Denotiamo con X la variabile aleatoria rappresentante il numero di clienti che perviene al centro durante un intervallo di tempo uguale a quello necessario per espletare il singolo servizio. Per ogni y > 0 supponiamo che si abbia:  x   (λ y) e−λ y , x = 0, 1, . . . x! pX|Y (x|y) =   0, altrimenti.

Calcoliamo quanti clienti pervengono in media al centro durante detto intervallo di tempo. Osserviamo a tal fine che dalla (6.40) per x = 0, 1, . . . si ha: Z +∞ Z +∞ (λ y)x −λ y −µ y pX (x) = pX|Y (x|y) fY (y) dy = e µe dy x! 0 0 Z +∞ λx µ λx x! =µ y x e−(λ+µ) y dy = , x! 0 λ + µ x! (λ + µ)x

248

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

dove l’ultima uguaglianza segue ricordando l’espressione dei momenti di una variabile aleatoria esponenziale (v. Paragrafo 5.8.3). Pertanto,   λ x  µ , x = 0, 1, . . . pX (x) = λ + µ λ + µ  0, altrimenti,

ossia X ha distribuzione di Pascal di parametro p = µ/(λ + µ). Concludiamo quindi che risulta: λ 1−p = · E(X) = p µ Si noti che lo stesso risultato si pu`o ottenere pi`u rapidamente senza dover determinare la distribuzione di X. Infatti, essendo E(X | Y = y) = λ y per ogni y > 0, applicando la (6.69) si ottiene: Z +∞ Z +∞ λ E(X) = E(X|Y = y) fY (y) dy = λ y µ e−µ y dy = · µ 0 0 ♦

Esempio 6.18 Consideriamo un elaboratore elettronico il cui carico di lavoro e` suddiviso in n distinte classi di priorit`a numerate da 1 a n. Denotiamo con Y la variabile aleatoria descrivente tali classi e assumiamo che si abbia:  ay , y = 1, 2, . . . , n pY (y) = 0, altrimenti, Pn con ai > 0 per i = 1, 2, . . . , n e i=1 ai = 1. Sia X la variabile aleatoria descrivente il tempo di utilizzazione della CPU da parte di un job, e assumiamo che la densit`a condizionata di X dato che il job in esame appartiene alla classe i-esima sia esponenziale di parametro λi (i = 1, 2, . . . , n). In altri termini, assumiamo che per i = 1, 2, . . . , n risulta:  λi e−λi x , x > 0 fX|Y (x|i) = 0, altrimenti. Vogliamo calcolare il tempo medio di utilizzazione della CPU. Essendo E(X | Y = i) = 1/λi per ogni i = 1, 2, . . . , n, dalla (6.69) si ha: E(X) =

n X i=1

pY (i) E(X|Y = i) =

n X ai · λ i=1 i

E` opportuno osservare che nello schema proposto la variabile aleatoria X ha distribuzione iperesponenziale (v. Paragrafo 4.4.4). Per convincersene e` sufficiente applicare la (6.45) da cui si ottiene:  n n X X   fX|Y (x|i) pY (i) = ai λi e−λi x , x > 0 fX (x) = i=1 i=1   0, altrimenti. ♦

Un primo corso in probabilit`a per scienze pure e applicate

249

Esempio 6.19 Sia Z1 , Z2 , . . . una sequenza di variabili aleatorie indipendenti e identicamente distribuite con valore medio µ e varianza σ 2 entrambi finiti. Denotiamo con N una variabile aleatoria, indipendente da ognuna delle Zi , che assume valori interi positivi. Calcoliamo la media e la varianza di X = Z1 + Z2 + . . . + ZN . Facendo uso dell’indipendenza di N dalle Zi nonch´e della mutua indipendenza di Z1 , Z2 , . . . , per n = 0, 1, . . . si ha: µ(n) = E(X | N = n) = n µ,

Var(X | N = n) = n σ 2 .

Per l’indipendenza delle variabili coinvolte, dalla (6.69) si ha poi: E(X) =

+∞ X

n=0

E(X | N = n) pX (n) =

+∞ X

n µ pX (n) = µ E(N ).

n=0

Inoltre, utilizzando ancora l’indipendenza, dalle (6.69), (6.74) e (6.75) si ottiene: E[Var(X|N )] =

+∞ X

n=1

Var[E(X|N )] = E =

Var(X | N = n) pX (n) = σ 2 E(N ),



+∞ X

+∞ X  µ(N ) − E(X)]2 = E µ(N ) − E(X)]2 | N = n pX (n) n=1

[nµ − µ E(N )]2 pX (n) = µ2 Var(N ),

n=1

da cui, per la (6.76), segue:   Var(X) = E Var(X|Y ) + Var[E(X|Y )] = σ 2 E(N ) + µ2 Var(N ). 6.9



La densit`a normale bivariata

La densit`a di probabilit`a normale bivariata e` una generalizzazione per vettori aleatori bidimensionali della densit`a di probabilit`a normale discussa nel Paragrafo 4.4.6. Definizione 6.11 Un vettore aleatorio (X, Y ) di densit`a di probabilit`a " (  x − µ 2  y − µ 2 1 1 Y X p + fX,Y (x, y) = exp − 2) 2 2 (1 − ̺ σ σ X Y 2 π σ X σY 1 − ̺ #) x − µ  y − µ  X Y −2 ̺ (x, y ∈ R), (6.77) σX σY con µX ∈ R, µY ∈ R, σX > 0, σY > 0 e −1 < ̺ < 1, si dice di distribuzione normale di parametri µX , µY , σX , σY , ̺.

250

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

La densit`a normale bivariata soddisfa alcune propriet`a, qui di seguito esaminate, che la rendono particolarmente interessante nel contesto delle distribuzioni condizionate. Proposizione 6.1 Se (X, Y ) e` un vettore aleatorio di densit`a di probabilit`a (6.77), allora X ∼ N (µX , σX ) e Y ∼ N (µY , σY ). Dimostrazione Calcoliamo la densit`a di probabilit`a fX (x) della variabile aleatoria X. Dalla (3.47) risulta:  Z +∞  x − µ 2  1 1 X p exp − fX (x) = fX,Y (x, y) dy = 2 (1 − ̺2 ) σX 2 π σX σY 1 − ̺2 −∞   Z +∞  x − µ   y − µ   y − µ 2  1 X Y Y × exp − −2 ̺ + dy. 2) 2 (1 − ̺ σ σ σ X Y Y −∞

Completando il quadrato rispetto a x nell’esponente si ha: ( )  x − µ 2  x − µ 2 1 1 ̺2 X X p exp − fX (x) = + 2 (1 − ̺2 ) σX 2 (1 − ̺2 ) σX 2 π σX σY 1 − ̺2 ) ( Z +∞ hy − µ x − µX i2 1 Y − ̺ dy × exp − 2 (1 − ̺2 ) σY σX −∞ ) ( 1 1  x − µX 2 √ = (x ∈ R). (6.78) exp − 2 σX σX 2 π

2 Quindi X ha distribuzione normale i cui parametri µX e σX , come visto nell’Esempio 5.25, coincidono rispettivamente con media e varianza di X. Un procedimento del tutto analogo permette di dimostrare che risulta: n (y − µ )2 o 1 Y √ (y ∈ R), (6.79) fY (y) = exp − 2 2 σ σY 2 π Y

e di qui concludere che Y ha distribuzione normale di parametri µY , coincidente con la media e σY2 rappresentante la varianza.  In Figura 6.1 e` rappresentata la densit`a normale bivariata per µX = µY = 0, σX = σY = 1 e ̺ = 0.9, 0.5, 0, −0.9. Proposizione 6.2 Sia (X, Y ) un vettore aleatorio normale di densit`a di probabilit`a congiunta (6.77). Le densit`a di probabilit`a condizionate fX|Y (x|y) e fY |X (y|x) sono normali e per x, y ∈ R risulta: ( ) h i2 1 1 σX p fX|Y (x|y) = exp − 2 x − µX − ̺ (y − µY ) 2 σX (1 − ̺2 ) σY σX 2 π (1 − ̺2 ) (6.80) ) h i 2 1 1 σY p exp − 2 y − µY − ̺ (x − µX ) . fY |X (y|x) = 2 σY (1 − ̺2 ) σX σY 2 π (1 − ̺2 ) (

(6.81)

Un primo corso in probabilit`a per scienze pure e applicate

251

Un primo corso in probabilit`a per scienze pure e applicate

251

µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = 0.9

0.3

µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = 0.5

0.15

µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = 0.9

0.2 0.1 0.0 −3 −2 −1 0.3

x0

1

2

3 −3

−2

1 0 −1 y

2

3

0.05 0.00 −3 −2 −1 0.15

0.2 0.0 −3 −2 −1

x0

1

2

3 −3

−2

1 0 −1 y

2

3

1

2

3 −3

−2

0.05 0.00 −3 −2 −1

µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = 0

0.10

x0

1 0 −1 y

2

3

0.10

0.1

0.15

µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = 0.5

0.10

1

2

3 −3

−2

−1

1 y

2

3

µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = − 0.9

0.3

µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = 0

µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = − 0.9

0.2

0.05 −3 −2 −1 0 0.15 x

1

2

0.10

3 −3

−2

1 0 −1 y

2

3

0.1 0.0 −3 −2 −1 0.3

x0

1

2

3 −3

−2

−1

0

1 y

2

3

0.2

0.05 −3 −2 −1

x0

0

x0

1

2

3 −3

−2

1 0 −1 y

2

3

0.1 0.0 −3 −2 −1

x0

1

2

Figura 6.1 – Rappresentazioni grafiche di densit`a normali bivariate.

Figura 6.1 – Rappresentazioni grafiche di densit`a normali bivariate.

3 −3

−2

1 0 −1 y

2

3

252

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Inoltre, le medie e le varianze condizionate sono: σX 2 E(X|Y = y) = µX + ̺ (y − µY ), Var(X|Y = y) = σX (1 − ̺2 ), σY E(Y |X = x) = µY + ̺

σY (x − µX ), σX

(6.82)

Var(Y |X = x) = σY2 (1 − ̺2 ) . (6.83)

Dimostrazione Ricordando la (6.18), dalle (6.77) e (6.79) segue la (6.80). Analogamente, facendo uso della (6.21) dalle (6.77) e (6.78) segue la (6.81). Pertanto, le densit`a di probabilit`a condizionate di X dato Y = y e di Y dato X = x nel caso in esame sono normali. In virt`u delle propriet`a della densit`a normale si conclude che la media e la varianza di X dato Y = y sono date da (6.82), mentre per la variabile Y condizionata da X = x sussistono le (6.83).  Nel caso di un vettore aleatorio bidimensionale normale, E(X|Y = y) e E(Y |X = x) sono funzioni lineari rispettivamente di y e di x, dette in Statistica curve di regressione. Proposizione 6.3 Se (X, Y ) e` un vettore aleatorio di densit`a di probabilit`a congiunta (6.77) la covarianza ed il coefficiente di correlazione di X e Y sono rispettivamente: Cov(X, Y ) = σX σY ̺ ,

̺(X, Y ) = ̺.

(6.84)

Dimostrazione Calcoliamo la covarianza. Ricordando la (5.69), dalla (6.77) si ricava: Z +∞ Z +∞ Cov(X, Y ) = E[(X − µX ) (Y − µY )] = (x − µX ) (y − µY ) fX,Y (x, y) dx dy =

2 [2σX (1

2

−̺

)] [2σY2

2

(1 − ̺ )] p 2 π σX σY 1 − ̺2

Z

−∞ +∞

dz1

−∞

Z

−∞ +∞

−∞

n  o z1 z2 exp − z12 − 2 ̺ z1 z2 + z22 dz2

dove l’ultima uguaglianza segue effettuando il cambiamento di variabili di integrazione q q 2 (1 − ̺2 ), z1 = (x − µX )/ 2 σX z2 = (y − µY )/ 2 σY2 (1 − ̺2 ).

Completando il quadrato rispetto a z2 nell’esponente si ha: Z n o 2σX σY (1 − ̺2 )3/2 +∞ Cov(X, Y ) = dz1 z1 exp −(1 − ̺2 )z12 π −∞ Z +∞ o n × z2 exp −(z2 − ̺ z1 )2 dz2 2 3/2

=

2σX σY (1 − ̺ ) π

×

−∞ +∞

Z

Z

−∞ +∞

n o dz1 z1 exp −(1 − ̺2 ) z12 2

(y + ̺ z1 ) e−y dy

−∞ Z +∞

n o 2σX σY ̺ (1 − ̺ ) z12 exp −(1 − ̺2 ) z12 dz1 π −∞ Z +∞ 2 2σX σY ̺ = x2 e−x dx = σX σY ̺. π −∞ 2 3/2

=

Un primo corso in probabilit`a per scienze pure e applicate

253

Da quest’ultima, in virt`u della (5.75), segue immediatamente che il coefficiente di correlazione del vettore normale in esame e` ̺.  Il Teorema 5.11 mostra che se due variabili aleatorie sono indipendenti, esse sono anche non correlate e quindi hanno coefficiente di correlazione nullo. Nel caso di variabili normali, eccezionalmente (v. Paragrafo 5.6) vale anche il viceversa, ossia: Proposizione 6.4 Due variabili aleatorie X e Y di densit`a di probabilit`a congiunta (6.77) sono indipendenti se e solo se sono non correlate. Dimostrazione E` sufficiente mostrare che se il coefficiente di correlazione, ossia ̺, e` nullo le variabili aleatorie X e Y sono indipendenti. In questo caso ponendo ̺ = 0 nella (6.77) si ottiene fX,Y (x, y) = fX (x) fY (y), che mostra l’indipendenza delle variabili X e Y. 

Capitolo 7 Densit`a di probabilit`a speciali e loro propriet`a

7.1

Introduzione

In questo capitolo fisseremo l’attenzione su alcune densit`a di probabilit`a che giocano ruolo rilevante in contesti applicativi: le densit`a beta, chi-quadrato, di Fisher e di Student. 7.2

Statistiche ordinate e distribuzione beta

Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti e identicamente distribuite con funzione di distribuzione F (x). Denotiamo con Y1 = min(X1 , X2 , . . . , Xn ) e con Yn = max(X1 , X2 , . . . , Xn ) le variabili aleatorie rappresentanti rispettivamente il minimo ed il massimo dei valori assunti dalle variabili X1 , X2 , . . . , Xn . Sia inoltre Yk (k = 2, . . . , n − 1) la variabile aleatoria denotante il valore di X1 , X2 , . . . , Xn che si colloca al k-esimo posto tra tutti i valori ordinati in maniera crescente tra i suddetti minimo e massimo. Le variabili aleatorie Y1 , Y2 , . . . , Yn sono dette variabili ordinate; in statistica prendono il nome di statistiche ordinate. Essendo X1 , X2 , . . . , Xn indipendenti e identicamente distribuite, dalle (3.63) e (3.64) per ogni y ∈ R si ha:  n  n FY1 (y) = 1 − 1 − F (y) , FYn (y) = F (y) , (7.1) dove per i = 1, 2, . . . , n si e` posto F (y) = FXi (y). Per determinare la funzione di distribuzione di Yk osserviamo che l’evento {Yk ≤ y} coincide con l’evento “si verificano almeno k degli n eventi {X1 ≤ y}, {X2 ≤ y}, . . . , {Xn ≤ y}”. Poich´e questi sono indipendenti e si verificano ciascuno con probabilit`a F (y), ricordando la distribuzione binomiale (v. Paragrafo 4.2.3), per ogni y ∈ R risulta: FYk (y) = P (Yk ≤ y) =

n   X n 

r=k

r

r  n−r F (y) 1 − F (y)

(k = 1, 2, . . . , n).

(7.2)

Si noti che ponendo k = 1 e k = n nella (7.2) si ritrovano rispettivamente le funzioni di distribuzione del minimo e del massimo di X1 , X2 , . . . , Xn , indicate in (7.1). Se poi le Xi

256

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

sono assolutamente continue con densit`a di probabilit`a f (y), dalla (7.2) si ottiene:    k−1  n−k n fYk (y) = k f (y) F (y) 1 − F (y) (k = 1, 2, . . . , n). k

(7.3)

Infatti, in tal caso dalla (7.2) si ha:

n   X  r−1  n−r d n FY (y) = r f (y) F (y) 1 − F (y) fYk (y) = dy k r r=k n−1 X n r  n−r−1 − F (y) (n − r) f (y) 1 − F (y) . r r=k

Isolando nella prima sommatoria il termine corrispondente a r = k ed effettuando nella seconda sommatoria il cambiamento di indice s = r + 1 si ottiene:    k−1  n−k n fYk (y) = k f (y) F (y) 1 − F (y) k  o n n   X  r−1  n−r n n + r − (n − r + 1) f (y) F (y) 1 − F (y) , r r−1 r=k+1

che conduce alla (7.3) essendo nulla la differenza in parentesi graffa. Supponiamo ora che X1 , X2 , . . . , Xn siano indipendenti ed uniformemente distribuite nell’intervallo (0, 1). Dalla (7.3) per k = 1, 2, . . . , n si ricava allora:     n k y k−1 (1 − y)n−k , 0 < y < 1 k fYk (y) = (7.4)   0, altrimenti. La densit`a di probabilit`a (7.4) e` un caso particolare della densit`a di probabilit`a beta che passiamo a definire. Definizione 7.1 Una variabile aleatoria X di densit`a di probabilit`a    Γ(α + β) xα−1 (1 − x)β−1 , 0 < x < 1 fX (x) = Γ(α) Γ(β)   0, altrimenti,

(7.5)

con α, β reali positivi e con Γ(ν) definita in (4.41), si dice avere distribuzione beta di parametri α e β. La locuzione “beta” deriva dalla presenza in (7.5) della funzione beta di Eulero di parametri α e β cos`ı definita: Z 1 Γ(α) Γ(β) = y α−1 (1 − y)β−1 dy (α > 0, β > 0). (7.6) B(α, β) = Γ(α + β) 0

Un primo corso in probabilit`a per scienze pure e applicate

257

Facendo uso della (7.6), si pu`o immediatamente verificare che la (7.5) e` effettivamente una densit`a di probabilit`a per ogni α > 0 e β > 0. Nel seguito la scrittura X ∼ Be(α, β) indicher`a che X ha distribuzione beta di parametri α e β. Si noti che ponendo α = k e β = n − k + 1 nella (7.5) si ottiene la (7.4). Infatti, ricordando che Γ(ν) = (v − 1)! per v = 1, 2, . . . , si ha:   Γ(α + β) Γ(n + 1) n! n = = =k . Γ(α) Γ(β) Γ(k) Γ(n − k + 1) (k − 1)! (n − k)! k Se risulta invece α = β = 1, la (7.5) diventa una densit`a di probabilit`a uniforme nell’intervallo (0, 1). La densit`a beta trova svariate utilizzazioni in probabilit`a e in statistica grazie alla flessibilit`a della sua forma al variare dei parametri. In particolare, dalla (7.5) segue: lim fX (x) =

x→0

( 0,

β, +∞,

α>1 α=1 0 < α < 1,

lim fX (x) =

x→1

(

0, β>1 α, β=1 +∞, 0 < β < 1,

ed inoltre, per ogni 0 < x < 1, risulta: h i Γ(α + β) α−2 d fX (x) = x (1 − x)β−2 α − 1 − x (α + β − 2) . dx Γ(α) Γ(β) Ci`o mostra che la densit`a (7.5) pu`o esibire i differenti tipi di comportamenti indicati nella Tabella 7.1. Tabella 7.1 – Comportamenti della densit`a di probabilit`a beta al variare dei parametri.

Condizioni 0 < α < 1, 0 < β < 1

Comportamenti di fX (x) nell’intervallo (0, 1) diverge positivamente sia quando x → 0 sia quando x → 1 e presenta un minimo nel punto (1 − α)/(2 − α − β)

0 < α < 1, β ≥ 1

diverge positivamente quando x → 0 ed e` monotona decrescente nell’intervallo (0, 1)

α ≥ 1, 0 < β < 1

e` monotona crescente nell’intervallo (0, 1) e diverge positivamente quando x → 1

α = 1, β = 1

e` unitaria nell’intervallo (0, 1)

α = 1, β > 1

e` monotona decrescente nell’intervallo (0, 1)

α > 1, β = 1

e` monotona crescente nell’intervallo (0, 1)

α > 1, β > 1

presenta un massimo nel punto (α − 1)/(α + β − 2)

In Figura 7.1 e` rappresentata la densit`a di probabilit`a beta (7.5) per differenti scelte dei parametri α e β. La funzione generatrice dei momenti della distribuzione beta non e` suscettibile di una semplice rappresentazione. Si possono tuttavia calcolare i momenti in base alla loro stessa

258

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi fX(x)

2.5 2

fX(x)

2.5

α=2,β=5

2

α=0.5,β=1

1.5

α=2,β=2

1.5

α=0.5,β=0.5

1

1

0.5

α=1,β=0.5 0

0.4

0.6

α=1,β=1

0.5

α=1,β=3

0.2

α=5,β=1

0.8

1

x

0

0.2

0.4

0.6

0.8

1

x

Figura 7.1 – Densit`a di probabilit`a di X ∼ Be(α, β).

definizione: Z 1 Γ(α + β) xn+α−1 (1 − x)β−1 dx Γ(α) Γ(β) 0 0 Γ(α + β) Γ(α + β) Γ(α + n) = B(α + n, β) = (n = 1, 2, . . .). Γ(α) Γ(β) Γ(α) Γ(α + β + n)

E(X n ) =

Z

1

xn fX (x) dx =

(7.7)

In particolare, ricordando la (4.42), e` possibile ricavare dalla (7.7) valore medio e varianza: Γ(α + β) Γ(α + 1) α = , Γ(α) Γ(α + β + 1) α+β Γ(α + β) Γ(α + 2)  α 2 − Var(X) = E(X 2 ) − [E(X)]2 = Γ(α) Γ(α + β + 2) α+β  α 2 α (α + 1) αβ = − = · (α + β) (α + β + 1) α+β (α + β)2 (α + β + 1) E(X) =

(7.8)

(7.9)

Il seguente teorema indica talune relazioni esistenti tra variabili aleatorie di densit`a gamma e di densit`a beta. Teorema 7.1 Se Z1 e Z2 sono variabili aleatorie indipendenti con Z1 ∼ G(α, λ) e Z2 ∼ G(β, λ), allora le variabili aleatorie X=

Z1 , Z1 + Z2

Y = Z1 + Z2

(7.10)

sono indipendenti e risulta X ∼ Be(α, β) e Y ∼ G(α + β, λ). Dimostrazione Determiniamo in primo luogo la densit`a di probabilit`a congiunta del vettore aleatorio   Z1 (X, Y ) = , Z1 + Z2 Z1 + Z2

Un primo corso in probabilit`a per scienze pure e applicate

259

e successivamente le densit`a di probabilit`a di ognuna delle sue componenti. Essendo Z1 e Z2 indipendenti, ricordando l’espressione (4.40) della densit`a gamma si ha:   λα z1α−1 −λ z1 λβ z2β−1 −λ z2 e e , z1 > 0, z2 > 0 fZ1 ,Z2 (z1 , z2 ) = Γ(β)  Γ(α) 0, altrimenti.

Per determinare la densit`a congiunta fX,Y (x, y) ricorriamo al Teorema 3.8. Consideriamo pertanto la trasformazione x = g1 (z1 , z2 ) =

z1 , z1 + z 2

y = g2 (z1 , z2 ) = z1 + z2 .

Per ogni coppia (z1 , z2 ) con z1 > 0 e z2 > 0 risulta 0 < x < 1 e y > 0. Quindi la trasformazione inversa z1 = h1 (x, y) = x y,

z2 = h2 (x, y) = (1 − x) y

ha dominio D = {(x, y): 0 < x < 1, y > 0}. Lo Jacobiano della trasformazione ∂(h1 , h2 ) y x Jh (x, y) = = =y −y 1 − x ∂(x, y)

e` non nullo per ogni (x, y) ∈ D. Essendo soddisfatte le ipotesi del Teorema 3.8, si ha:  α+β   λ xα−1 (1 − x)β−1 y α+β−1 e−λ y , 0 < x < 1, y > 0 fX,Y (x, y) = Γ(α) Γ(β)   0, altrimenti.

La conoscenza della densit`a di (X, Y ) permette di ricavare le densit`a di probabilit`a di X e di Y. Infatti, se 0 < x < 1 si ha: Z +∞ Z +∞ λα+β α−1 β−1 fXY (x, y) dy = fX (x) = x (1 − x) y α+β−1 e−λ y dy Γ(α) Γ(β) −∞ 0 Z +∞ 1 Γ(α + β) α−1 = xα−1 (1 − x)β−1 uα+β−1 e−u du = x (1 − x)β−1 , Γ(α)Γ(β) Γ(α)Γ(β) 0 dove l’ultima uguaglianza segue dalla (4.41). Facendo poi uso della (7.6), per y > 0 si ricava: Z +∞ Z 1 λα+β α+β−1 −λ y y e xα−1 (1 − x)β−1 dx fY (y) = fXY (x, y) dx = Γ(α) Γ(β) −∞ 0 =

λα+β λα+β y α+β−1 e−λ y B(α, β) = y α+β−1 e−λ y . Γ(α) Γ(β) Γ(α + β)

Possiamo quindi affermare che X ∼ Be(α, β) e che Y ∼ G(α + β, λ). In conclusione, essendo fX,Y (x, y) = fX (x) fY (y) per ogni (x, y) ∈ R2 , le variabili aleatorie X e Y sono indipendenti. 

260

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Si noti che l’indipendenza di X e Y, espressa dal Teorema 7.1, e` conseguenza dell’ipotesi che Z1 e Z2 sono di distribuzioni gamma. Scegliendo altre distribuzioni di probabilit`a per le variabili indipendenti Z1 e Z2 , usualmente accade che X e Y non sono pi`u indipendenti. Un ulteriore interessante risultato e` il seguente: E(X) =

E(Z1 ) ; E(Z1 ) + E(Z2 )

esso deriva dalla (7.8) e dalla circostanza che E(Z1 ) = α/λ e E(Z2 ) = β/λ (v. Paragrafo 5.8.3). 7.3

Distribuzione chi–quadrato

Nel caso ν = n/2 e λ = 1/2, con n intero positivo, la densit`a gamma specificata nella (4.40) prende il nome di densit`a chi–quadrato ed al parametro n si d`a il nome di numero di gradi di libert`a. Precisamente, si ha la seguente Definizione 7.2 Una variabile aleatoria X di densit`a di probabilit`a   1 n/2 1   xn/2−1 e−x/2 , x > 0 Γ(n/2) 2 fX (x) =   0, x≤0

(7.11)

con n intero positivo e con Γ(ν) definita in (4.41), si dice di distribuzione chi–quadrato con n gradi di libert`a. Nel seguito con X ∼ χ2 (n) intenderemo che X ha distribuzione chi–quadrato con n gradi di libert`a. In Figura 7.2 e` rappresentata la densit`a di probabilit`a chi–quadrato (7.11) per n = 1, 3, 5, 7. Il seguente teorema evidenzia il ruolo giocato dal parametro n. Teorema 7.2 Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, con Xi ∼ N (0, 1) per i = 1, 2, . . . , n. Allora, Yn = X12 + X22 + . . . + Xn2 ha distribuzione chi–quadrato con n gradi di libert`a. Dimostrazione Calcoliamo in primo luogo la funzione di distribuzione FY (y) di Y = X 2 , con X ∼ N (0, 1). Per y < 0 si ha FY (y) = 0, mentre per y ≥ 0 risulta: √ √ FY (y) = P (X ≤ y) = P (− y ≤ X ≤ y) = 2

Z



y



− y

√ fX (x) dx = 2 Φ( y) − 1,

con Φ(z) definita in (4.54). La densit`a di probabilit`a di Y = X 2 e` pertanto:  1 √ e−y/2 , y > 0 2πy fY (y) =  0, y ≤ 0.

(7.12)

Un primo corso in probabilit`a per scienze pure e applicate

261

fX(x)

0.3

n=1

0.25

n=3

0.2 0.15

n=5

0.1 n=7

0.05

0

5

10

15

20 x

Figura 7.2 – Densit`a di probabilit`a di X ∼ χ2 (n).

Si noti che Y ∼ G(1/2, 1/2). Ci`o segue ponendo ν = 1/2 e λ = 1/2 nella (4.40) e ricordando che sussiste l’identit`a: Z +∞  1  Z +∞ √ Z +∞ −y2 /2 √ 2 1 −1/2 −x e dy = √ = x e dx = 2 e−y /2 dy = π, Γ 2 2 −∞ 0 0 (7.13) ottenuta dalla (4.41) effettuando il cambiamento di variabile di integrazione x = y 2 /2 e facendo poi ricorso alle propriet`a della densit`a normale standard. Avendo Y distribuzione gamma di parametri ν = 1/2 e λ = 1/2, la sua funzione generatrice dei momenti e` (v. Paragrafo 5.8.3):  λ ν MY (s) = = (1 − 2 s)−1/2 (s < 1/2). (7.14) λ−s

Consideriamo ora le variabili aleatorie Z1 , Z2 , . . . , Zn , con Zi = Xi2 per i = 1, 2, . . . , n. Per il Teorema 3.7 esse sono indipendenti e, per quanto poc’anzi dimostrato, risulta Zi ∼ G(1/2, 1/2) per i = 1, 2, . . . , n. Pertanto, si pu`o scrivere: Yn = X12 + X22 + . . . + Xn2 = Z1 + Z2 + . . . + Zn .

(7.15)

Dal Teorema 5.19, facendo uso della (7.14), si ottiene poi: MYn (s) = MZ1 (s) MZ2 (s) · · · MZn (s) = (1 − 2 s)−n/2

(s < 1/2),

(7.16)

che si riconosce essere la funzione generatrice dei momenti di una variabile di densit`a gamma di parametri ν = n/2 e λ = 1/2. Si pu`o quindi in definitiva affermare che risulta Yn ∼ χ2 (n).  Il Teorema 7.2 afferma che la somma dei quadrati di variabili aleatorie normali standard indipendenti ha distribuzione chi–quadrato con un numero di gradi di libert`a uguale al numero

262

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

degli addendi. Quindi, la denominazione “numero di gradi di libert`a”, attribuita al parametro n, assume il significato di numero di addendi indipendenti presenti nella somma. La densit`a chi–quadrato (7.11) contiene un solo parametro: il numero n di gradi di libert`a. Inoltre, poich´e per ogni x > 0 si ha  1 n/2+1   d 1 fX (x) = xn/2−2 e−x/2 (n − 2) − x , dy Γ(n/2) 2

la funzione densit`a chi–quadrato con n gradi di libert`a e` strettamente decrescente per n = 1, 2, mentre per n > 2 presenta un unico punto di massimo in x = n − 2. Vogliamo ora calcolare i momenti di X ∼ χ2 (n). Essendo X non negativa, essi esistono e dalla (5.39) sono dati da Z

 1 n/2 Z +∞ 1 E(X ) = x fX (x) dx = xn/2+k−1 e−x/2 dx Γ(n/2) 2 0 0 Z +∞ 2k Γ(n/2 + k) 2k z n/2+k−1 e−z dz = (k = 1, 2 . . .), (7.17) = Γ(n/2) 0 Γ(n/2) k

+∞

k

dove l’ultima uguaglianza segue per la (4.41). In particolare, dalla (7.17) si ottiene: E(X) =

2 Γ(n/2 + 1) = n, Γ(n/2)

E(X 2 ) =

4 Γ(n/2 + 2) = n (n+2), Γ(n/2)

Var(X) = 2 n.

Osservazione 7.1 Sia X ∼ χ2 (n). Determiniamo la distribuzione e i momenti della variabile aleatoria Y = 1/X. Dal Teorema 3.4 segue:   1 n/2  1 n/2+1 n 1 o 1   1 1 exp − , y>0 y 2y fY (y) = fX = Γ(n/2) 2 (7.18)  y y2  0, y ≤ 0.

Inoltre, dal Teorema 5.1 si ha: Z +∞  1 n/2 Z +∞ 1 1 k −k E(Y ) = E(X ) = fX (x) dx = xn/2−1−k e−x/2 dx xk Γ(n/2) 2 0 0 Z +∞ 1 z n/2−k−1 e−z dz. = k 2 Γ(n/2) 0 Facendo uso della (4.41), si ottiene cos`ı:    Γ(n/2 − k) , k < n/2 k 2k Γ(n/2) E(Y ) =   +∞, k ≥ n/2.

(7.19)

Si noti che se X ∼ χ2 (n), i momenti E(X −k ) divergono quando k ≥ n/2, a differenza dei momenti E(X k ) che sono invece finiti per k = 1, 2, . . . . ♦

Un primo corso in probabilit`a per scienze pure e applicate

263

Come mostrato dalla (7.16), la funzione generatrice dei momenti di una variabile aleatoria X ∼ χ2 (n) e` data da MX (s) = (1 − 2 s)−n/2

(s < 1/2).

(7.20)

Nei due esempi seguenti utilizziamo tale funzione per determinare la distribuzione di alcune variabili aleatorie. Esempio 7.1 Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, con Xi ∼ χ2 (ki ) per i = 1, 2 . . . , n. Determiniamo la distribuzione di Y = X1 + X2 + . . . + Xn . Osserviamo che dal Teorema 5.19 e dalla (7.20) segue: MY (s) = MX1 (s) MX2 (s) · · · MXn (s) = (1 − 2 s)−k1 /2 (1 − 2 s)−k2 /2 · · · (1 − 2 s)−kn /2 = (1 − 2 s)−(k1 +k2 +...+kn )/2

(s < 1/2).

Si e` cos`ı ottenuta la funzione generatrice dei momenti di una variabile aleatoria chi–quadrato con k = k1 + k2 + . . . + kn gradi di libert`a. Pertanto, Y ∼ χ2 (k). ♦

Esempio 7.2 Siano X1 e X2 variabili aleatorie indipendenti. Supponiamo che X1 ∼ χ2 (n1 ) e che Y = X1 + X2 sia tale che Y ∼ χ2 (n) con n > n1 . Per calcolare la distribuzione di X2 osserviamo che dal Teorema 5.19 e dalla (7.20) si ricava MY (s) = MX1 (s) MX2 (s), cos`ı che MX2 (s) =

MY (s) (1 − 2 s)−n/2 = (1 − 2 s)−(n−n1 )/2 = MX1 (s) (1 − 2 s)−n1 /2

(s < 1/2).

Questa si riconosce essere la funzione generatrice dei momenti di una variabile aleatoria a distribuzione chi–quadrato con n − n1 gradi di libert`a. Pertanto risulta X2 ∼ χ2 (n − n1 ). ♦ 7.4

Distribuzione di Fisher

Vogliamo ora definire un’altra interessante densit`a di probabilit`a di notevole interesse in contesti applicativi. Definizione 7.3 Una variabile aleatoria X di densit`a di probabilit`a   n1 + n2       Γ      2   n1 n1 /2 xn1 /2−1 1 + n1 x −(n1 +n2 )/2 , x > 0 n2 n2 fX (x) = Γ n1 Γ n2   2 2   0, altrimenti (7.21) con n1 , n2 interi positivi e con Γ(ν) definita in (4.41), si dice di distribuzione di Fisher (o di distribuzione F di Fisher) con n1 e n2 gradi di libert`a. Nel seguito con la scrittura X ∼ F(n1 , n2 ) intenderemo che X ha distribuzione di Fisher con n1 e n2 gradi di libert`a. In Figura 7.3 e` rappresentata la densit`a di probabilit`a di Fisher (7.21) per alcune scelte dei parametri n1 e n2 . Il seguente teorema mostra la connessione esistente tra una variabile di distribuzione di Fisher e due variabili aleatorie a distribuzioni chi–quadrato.

264

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

fX(x)

1

n1=2, n2=1

0.8 0.6

n1=4, n2=3

0.4 n1=3, n2=2

0.2

0

0.5

1

1.5

2 x

Figura 7.3 – Densit`a di probabilit`a di X ∼ F (n1 , n2 ).

Teorema 7.3 Se U ∼ χ2 (n1 ) e V ∼ χ2 (n2 ) sono indipendenti, la variabile aleatoria X=

U/n1 V /n2

(7.22)

ha distribuzione di Fisher con n1 e n2 gradi di libert`a. Dimostrazione Determiniamo dapprima la densit`a di probabilit`a congiunta della coppia   U/n1 (X, Y ) = ,V (7.23) V /n2 e successivamente la densit`a di probabilit`a di X. Essendo U e V indipendenti, si ha:  1  1 n1 /2 n1 /2−1 −u/2 1  1 n2 /2 n2 /2−1 −v/2  n   n  u e v e , u > 0, v > 0 1 2 2 2 Γ fU,V (u, v) = Γ 2   2 0, altrimenti.

Per determinare la densit`a congiunta fX,Y (x, y) facciamo appello al Teorema 3.8. A tal fine consideriamo la trasformazione x = g1 (u, v) =

u/n1 , v/n2

y = g2 (u, v) = v.

Conseguentemente, per ogni coppia (u, v) tale che u > 0 e v > 0 risulta x > 0 e y > 0. Quindi la trasformazione inversa u = h1 (x, y) =

n1 x y, n2

v = h2 (x, y) = y

Un primo corso in probabilit`a per scienze pure e applicate

265

ha come dominio D = {(x, y): x > 0, y > 0}. Lo Jacobiano della trasformazione n 1 y n1 x ∂(h1 , h2 ) n2 n2 n1 Jh (x, y) = = y = n2 ∂(x, y) 0 1

e` non nullo per ogni (x, y) ∈ D. Essendo soddisfatte le ipotesi del Teorema 3.8, per x > 0 e y > 0 si ha: fX,Y (x, y) =

Quindi,

n y n1 /2−1 2−(n1 +n2 )/2  n1 n1 o n1 n  n  y n2 /2−1 exp − 1+ xy x y. 1 2 n2 2 n2 n2 Γ Γ 2 2

 n y n1 o 2−(n1 +n2 )/2  n y n1 /2 n1 /2−1 n2 /2−1    n  n  1 x y exp − 1+ x , x > 0, y > 0 1 2 n2 2 n2 Γ fX,Y (x, y) = Γ 2 2    0, altrimenti.

La conoscenza della densit`a del vettore (X, Y ) permette di ricavare la densit`a di probabilit`a di X. Infatti, per ogni x > 0 risulta: 2−(n1 +n2 )/2 n1n1 /2 n1 /2−1 fX (x) =  n  n  x 1 2 n2 Γ Γ 2 2

Z

+∞

0

n y n1 o y (n1 +n2 )/2−1 exp − 1+ x dy. 2 n2

 Operando nell’integrale il cambiamento di variabile z = 1 + n1 x/n2 y/2, per ogni x > 0 si ottiene:  n n1 /2  n −(n1 +n2 )/2Z +∞ 1 1 1 n /2−1 1 fX (x) = n  n  x 1+ x z (n1 +n2 )/2−1 e−z dz. 2 1 n n 2 2 0 Γ Γ 2 2 (7.24) Ricordando quindi la (4.41), la (7.21) segue. In conclusione, X ∼ F(n1 , n2 ).  Ci proponiamo ora di effettuare il calcolo dei momenti di X ∼ F(n1 , n2 ), certo esistenti essendo X non negativa. Dal Teorema 7.3 segue: E(X k ) = E

h U/n k i 1

V /n2

=

 n k 2

n1

E(U k ) E

 1  , Vk

con U ∼ χ2 (n1 ) e V ∼ χ2 (n2 ) variabili aleatorie indipendenti. Ricordando le (7.17) e (7.19) si ha poi:   k Γ(n /2 + k) Γ(n /2 − k)  1 2  n2 , k < n2 /2 k n1 Γ(n1 /2) Γ(n2 /2) E(X ) = (7.25)   +∞, k ≥ n2 /2.

266

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

In particolare,    n2 Γ(n1 /2 + 1) Γ(n2 /2 − 1) = n2 , n2 > 2 Γ(n1 /2) Γ(n2 /2) n2 − 2 E(X) = n1   +∞, n2 ≤ 2,

(7.26)

che mostra che E(X) dipende soltanto dal numero di gradi di libert`a della variabile V che compare al denominatore della (7.22). Inoltre, poich´e   2 Γ(n /2 + 2) Γ(n /2 − 2) n22 (n1 + 2)  2 1  n2 = , n2 > 4 2 n1 Γ(n1 /2) Γ(n2 /2) n1 (n2 − 2) (n2 − 4) E(X ) =   +∞, n2 ≤ 4, per n2 > 4 la varianza di X ∼ F(n1 , n2 ) e` : Var(X) =

2 n22 (n1 + n2 − 2) · n1 (n2 − 2)2 (n2 − 4)

Osservazione 7.2 Sia X ∼ F(n1 , n2 ). Per determinare la distribuzione di Y = 1/X, osserviamo che risulta fY (y) = 0 per y ≤ 0; utilizzando il Teorema 3.4, per y > 0 si ha invece: n + n  1 2 1 1  n n2 /2  Γ n2 −(n1 +n2 )/2 2 2 fY (y) = fX = n  n  y n2 /2−1 1 + y , 2 1 2 y y n1 n1 Γ Γ 2 2

che mostra che Y ∼ F(n2 , n1 ). Possiamo quindi affermare che se X ha distribuzione di Fisher con n1 e n2 gradi di libert`a, allora 1/X ha distribuzione di Fisher con n2 e n1 gradi di libert`a. ♦ L’osservazione seguente esplicita la connessione esistente tra una variabile a distribuzione di Fisher e una variabile a distribuzione beta. Osservazione 7.3 Sia X ∼ F(n1 , n2 ). Per determinare la distribuzione di Y =

n1 X/n2 1 + n1 X/n2

osserviamo che risulta fY (y) = 0 per y 6∈ (0, 1); in virt`u del Teorema 3.4, per 0 < y < 1 si ha: n + n  1 2  n y n Γ 1 2 2 2 fY (y) = fX =  n   n  y n1 /2−1 (1 − y)n2 /2−1 , 1 2 n1 (1 − y) n1 (1 − y)2 Γ Γ 2 2

indicante che Y ∼ Be(n1 , n2 ).



Un primo corso in probabilit`a per scienze pure e applicate

7.5

267

Distribuzione di Student

Un’altra distribuzione di considerevole interesse applicativo e` quella di Student1 che passiamo a definire. Definizione 7.4 Una variabile aleatoria X di densit`a di probabilit`a n + 1  Γ 2 −(n+1)/2 2  1 + x fX (x) = √ , x∈R n n nπΓ 2

(7.27)

con n intero positivo e con Γ(ν) definita in (4.41), si dice avere distribuzione di Student, o avere “distribuzione t di Student”, con n gradi di libert`a. Nel seguito con X ∼ T (n) intenderemo che X ha distribuzione di Student con n gradi di libert`a. Il teorema seguente mostra la stretta connessione esistente tra una variabile a distribuzione di Student (7.27) e variabili a distribuzione chi–quadrato e normale standard. Teorema 7.4 Siano U ∼ χ2 (n) e Z ∼ N (0, 1) variabili aleatorie indipendenti. Allora X=p

Z U/n

(7.28)

ha distribuzione di Student con n gradi di libert`a. Dimostrazione Procederemo determinando inizialmente la densit`a di probabilit`a congiunta di   Z (X, Y ) = p ,U ; (7.29) U/n

successivamente otterremo la densit`a di probabilit`a di X. Essendo U e Z indipendenti, si ha:   1 n/2 2 1 1   e−z /2 , u > 0, z ∈ R un/2−1 e−u/2 √ Γ(n/2) 2 2π fU,Z (u, z) =   0, u ≤ 0, z ∈ R.

Per determinare la densit`a congiunta fX,Y (x, y) utilizziamo il Teorema 3.8. A tal fine consideriamo la trasformazione z , y = g2 (u, z) = u. x = g1 (u, z) = p u/n

Per ogni coppia (u, z) tale che u > 0 e z ∈ R, risulta x ∈ R e y > 0. Quindi la trasformazione inversa r y z = h1 (x, y) = x , u = h2 (x, y) = y n

1 Student

e` lo pseudonimo con cui il matematico inglese W.S. Gosset pubblicava i suoi articoli.

268

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

ha dominio D = {(x, y): x ∈ R, y > 0}. Lo Jacobiano r y x ∂(h1 , h2 ) √ Jh (x, y) = = n 2 ny ∂(x, y) 0 1

r = y· n

della trasformazione e` non nullo per ogni (x, y) ∈ D. Essendo soddisfatte le ipotesi del Teorema 3.8, per x ∈ R e y > 0 si ha:  1 n/2 n x2 y o r y 1 n/2−1 −y/2 1 √ fX,Y (x, y) = e · y exp − Γ(n/2) 2 2n n 2π Quindi,  −n/2−1/2 n y x2 o   2  n  y n/2−1/2 exp − 1 + , √ 2 n fX,Y (x, y) = πn Γ  2  0,

x ∈ R, y > 0 altrimenti.

La conoscenza della densit`a di (X, Y ) permette di ricavare la densit`a di probabilit`a di X. Infatti, per ogni x ∈ R si ha: Z +∞ Z +∞ n y 2−n/2−1/2 x2 o n y n/2−1/2 exp − 1 + dy. fX (x) = fX,Y (x, y) dy = √ 2 n 0 0 πn Γ 2

Operando il cambiamento di variabile z = y (1 + x2 /n)/2 segue poi: Z  1 x2 −(n+1)/2 +∞ (n+1)/2−1 −z   fX (x) = √ 1+ z e dz n n 0 πn Γ 2 da cui, ricordando la (4.41), si ottiene la (7.27). In conclusione, X ∼ T (n).



Notiamo che la densit`a (7.27) e` unimodale, simmetrica intorno all’asse x = 0 e dipendente dal solo parametro rappresentante il numero di gradi di libert`a. Si noti che per n = 1 la (7.27) si identifica con la densit`a di Cauchy (5.17). Invece, al limite per n → +∞ essa converge alla densit`a normale standard. Infatti, facendo uso dell’approssimazione di Stirling  z z √ Γ(z + 1) ∼ 2πz (z → +∞) e

e osservando che   n x2 o x2 (n+1)/2 x2 1/2 h x2 n i1/2 lim 1+ = lim 1+ 1+ = exp , n→+∞ n→+∞ n n n 2

si ha

n + 1  n x2 o Γ 2 −(n+1)/2 1 2  1 + x √ lim √ = , exp − n n→+∞ n 2 2π nπΓ 2

x ∈ R.

Un primo corso in probabilit`a per scienze pure e applicate

269

fX(x) n=5 n=2

n=1

-4

-3

-2

-1

0

1

2

3

4

x

Figura 7.4– Densit`a di probabilit`a di X ∼ T (n) per n = 1, 2, 5 e densit`a normale standard (curva con tratto continuo)

In Figura 7.4 e` rappresentata la densit`a di probabilit`a di Student (7.27) per n = 1, 2, 5 e la densit`a normale standard (curva con tratto continuo). La variabile X ∼ T (n) non possiede funzione generatrice dei momenti. Per quanto attiene ai momenti E(X k ) non sempre esistono e, quando esistono, non sempre sono finiti. Dalla Definizione 5.5 si ha infatti: Z 0 Z +∞ Z +∞ xk fX (x) dx + xk fX (x) dx. (7.30) E(X k ) = xk fX (x) dx = −∞

−∞

0

Ricordando la (7.27) segue poi: Z

0

+∞

n + 1 Z +∞  Γ x2 −(n+1)/2 k 2 n dx xk 1 + x fX (x) dx = √ n 0 nπΓ 2 n + 1 k/2 Z 1 n Γ 2  = z (n−k)/2−1 (1 − z)(k+1)/2−1 dz , √ n 0 2 πΓ 2

dove l’ultima uguaglianza e` frutto del cambiamento di variabile di integrazione z = (1 + x2 /n)−1 . Pertanto, ricordando la (7.6) e la (7.13), si ottiene:  k + 1 n − k  k/2  n B  Z +∞  , k 0 risulta:

Sia X una variabile aleatoria non negativa.

 E X P (X ≥ a) ≤ · a

(8.1)

Dimostrazione Consideriamo l’evento A = {ω ∈ Ω : X(ω) ≥ a} e la corrispondente funzione indicatrice  0, ω ∈ A IA (ω) = 1, ω ∈ A. Quest’ultima e` una variabile aleatoria di Bernoulli che assume il valore 0 con probabilit`a P (A) = P (X < a) e il valore 1 con probabilit`a P (A) = P (X ≥ a). Quindi E(IA ) = P (X ≥ a). Essendo X ≥ a > 0, sussiste la seguente disuguaglianza: X ≥ X IA ≥ a IA .

(8.2)

272

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Infatti, se ω ∈ A si ha IA (ω) = 0 e la (8.2) e` soddisfatta essendo X(ω) ≥ 0 = X(ω) IA (ω) = a IA (ω). Se invece ω ∈ A si ha IA (ω) = 1, cos`ı che la (8.2) e` nuovamente verificata essendo X(ω) = X(ω) IA (ω) ≥ a IA (ω). Dalla (8.2) si ottiene poi X − a IA ≥ 0, da cui segue E(X − a IA ) ≥ 0. Per la propriet`a di linearit`a del valore medio si ha infine E(X) − a E(IA ) ≥ 0, ossia E(X) ≥ aE(IA ) = a P (X ≥ a), che conduce alla (8.1). Si noti che se X e` assolutamente continua e non negativa la (8.1) pu`o essere dimostrata pi`u semplicemente nel seguente modo: E(X) =

Z

0

+∞

x fX (x) dx ≥

Z

+∞

x fX (x) dx ≥ a

a

Z

+∞

a

fX (x) dx = a P (X ≥ a). 

Il Teorema 8.1 sussiste per qualsiasi variabile aleatoria non negativa, quale che sia la sua funzione di distribuzione. Proprio a tale grande generalit`a e` dovuta la sua importanza. Si noti che grazie alla (8.1) la sola conoscenza del valore medio e` sufficiente per avere una maggiorazione della funzione P (X ≥ a). Va menzionato che la rilevanza della disuguaglianza di Markov risiede anche nel ruolo che essa gioca nel consentire la deduzione di importanti altre disuguaglianze, quali le disuguaglianze di Chebyshev e di Chernoff. Modesta appare invece in generale la possibilit`a di farne uso per ottenere significative approssimazioni miranti alla determinazione di utili maggioranti alle probabilit`a, come esemplificato negli Esempi 8.1 e 8.2. Si noti infine che nel caso a ≤ E(X), la (8.1) non e` significativa. Tabella 8.1– Per tre scelte dei parametri n e p, con n p = 1, sono elencate le probabilit`a (8.3) e i maggioranti forniti dalla (8.4) in corrispondenza dei primi cinque interi x.

x

“ ” P X≥x

“ ” P X≥x

“ ” P X≥x p = 0.2 n=5

(n p)/x

1 2 3 4 5

0.6415 0.2642 0.0755 0.0159 0.0026

0.6513 0.2639 0.0702 0.0128 0.0016

0.6723 0.2627 0.0579 0.0067 0.0003

1.0000 0.5000 0.3333 0.2500 0.2000

p = 0.05 n = 20

p = 0.1 n = 10

Markov

Esempio 8.1 Sia X ∼ B(n, p). Si ha P (X ≥ x) =

n   X n k p (1 − p)n−k k

k=⌈x⌉

(x ≥ 0),

(8.3)

Un primo corso in probabilit`a per scienze pure e applicate

273

dove ⌈x⌉ denota il minimo intero maggiore o uguale ad x. Essendo E(X) = np, dalla disuguaglianza di Markov per ogni x positivo si ricava: np P (X ≥ x) ≤ · (8.4) x Nella Tabella 8.1 confrontiamo le probabilit`a binomiali (8.3) con la limitazione (n p)/x fornita dalla disuguaglianza (8.4) per alcune scelte di n e p tali che n p = 1. ♦ Esempio 8.2 Si consideri l’esperimento consistente nel lanciare ripetutamente per n volte una moneta. Si e` interessati alla probabilit`a che il numero di volte in cui si verifica testa sia non inferiore a 3 n/4. Denotando con X la variabile aleatoria che rappresenta il numero di volte in cui si realizza testa negli n lanci, si ha X ∼ B(n, 1/2). Ponendo p = 1/2 e x = 3 n/4 nella (8.3) si ottiene:   n  3 n   1 n X n P X≥ = , (8.5) 4 2 k k=⌈3 n/4⌉

mentre, facendo uso della disuguaglianza (8.4), risulta:  3 n 2 ≤ · P X≥ 4 3

(8.6)

Tabella 8.2 – Le probabilit`a (8.5) per alcune scelte di n.

n 5 10 15 20 25

“ ” P X ≥ 3 n/4 0.18750 0.05469 0.01758 0.02069 0.00732

n 30 35 40 45 50

“ ” P X ≥ 3 n/4 0.00261 0.00094 0.00111 0.00041 0.00015

Si noti che la probabilit`a al primo membro della (8.5) tende a zero al crescere del numero n di lanci, il che si riflette nella Tabella 8.2, mentre la disuguaglianza (8.6) fornisce una limitazione a tale probabilit`a piuttosto debole che non dipende dal numero di lanci. ♦ Una generalizzazione della disuguaglianza di Markov (8.1) e` fornita nel seguente teorema: Teorema 8.2 Sia X una variabile aleatoria e siano a e ν reali positivi. Risulta:  E |X|ν P (|X| ≥ a) ≤ · (8.7) aν Dimostrazione Essendo |X| una variabile aleatoria non negativa, tale e` anche |X|ν , cos`ı che  ν E |X| esiste (finito o infinito). Pertanto, per a > 0 e ν > 0, in virt`u della disuguaglianza di Markov si ottiene:  E |X|ν ν ν P (|X| ≥ a) = P (|X| ≥ a ) ≤ · aν 

274

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Poich´e P (|X| < a) = 1 − P (|X| ≥ a), dalla (8.7) segue immediatamente:   E |X|ν P (|X| < a) ≥ 1 − (a > 0, ν > 0). aν

(8.8)

Si noti che la conoscenza anche di un solo momento di |X| consente di ottenere una maggiorazione per P (|X| ≥ a) attraverso la (8.7), nonch´e una minorazione per P (|X| < a) mediante la (8.8), sempre che non risulti aν ≤ E |X|ν , nel qual caso n´e la (8.7) n´e la (8.8) sono significative. Abbiamo visto nel Paragrafo 5.4 che la varianza pu`o essere riguardata come una misura della dispersione di una variabile aleatoria intorno al suo valore medio. Questa interpretazione e` rafforzata dalla disuguaglianza di cui al teorema che segue. Teorema 8.3 (Disuguaglianza di Chebyshev) finito. Per ogni reale positivo ε si ha:

Sia X una variabile aleatoria con E(X 2 )

 Var(X) P X − E(X) ≥ ε ≤ · ε2

(8.9)

Dimostrazione Osserviamo anzitutto che essendo per ipotesi E(X 2 ) finito, tali sono anche E(X) e Var(X). Ponendo nella (8.7) X − E(X) al posto di X, ν = 2 e a = ε, segue la (8.9) avendosi:   E [X − E(X)]2 Var(X) P X − E(X) ≥ ε ≤ = · 2 ε ε2 

  Essendo P X − E(X) < ε = 1 − P X − E(X) ≥ ε , dalla (8.9) si ha poi:  Var(X) P X − E(X) < ε ≥ 1 − · ε2

(8.10)

Osserviamo che mentre per calcolare la probabilit`a che una variabile aleatoria X assuma valori in un fissato insieme occorre in generale conoscerne la funzione di distribuzione, la disuguaglianza di Chebyshev mostra che la probabilit`a con cui una variabile aleatoria di valore medio µ e varianza σ 2 assuma valori nell’insieme (−∞, µ − ε] ∪ [µ + ε, +∞) e` minore o uguale a σ 2 /ε2 , cos`ı che la probabilit`a che detta variabile assuma valori nell’intervallo (µ − ε, µ + ε) e` non minore di 1 − σ 2 /ε2 pur non conoscendone la sua funzione di distribuzione. Nel Capitolo 9 si vedr`a come la disuguaglianza di Chebyshev si riveli particolarmente utile anche in svariati problemi di convergenza di successioni di variabili aleatorie. Esempio 8.3 Siano X ∼ B(n, p) e Y = X/n. Se si interpreta X come il numero di successi in n prove di Bernoulli indipendenti, allora Y rappresenta la frequenza relativa dei successi. Ricordando che E(Y ) = p e Var(Y ) = p (1−p)/n, dalla disuguaglianza di Chebyshev (8.9) si ottiene:  p (1 − p) P |Y − p| ≥ ε ≤ . (8.11) n ε2

Un primo corso in probabilit`a per scienze pure e applicate

275

Poich´e e` sempre p (1 − p) ≤ 1/4, dalla disuguaglianza (8.11) si ricava:  P |Y − p| ≥ ε ≤

1 · 4 n ε2

(8.12)

La probabilit`a che Y differisca da p per almeno ε e` dunque non minore di (4 n ε2 )−1 qualsiasi sia p. “ Tabella 8.3– Numero minimo di prove di Bernoulli indipendenti da effettuare affinch´e qualsiasi sia p risulti P |Y − ” p| ≥ ε ≤ c per varie scelte di ε e c.

ε 0.1 0.2 0.3 0.4 0.5

c = 0.1

c = 0.05

c = 0.025

c = 0.01

c = 0.005

250 63 28 16 10

500 125 56 32 20

1000 250 112 63 40

2500 625 278 157 100

5000 1250 556 313 200

Nella Tabella 8.3 e` indicato il numero minimo n0 di prove  di Bernoulli indipendenti da effettuare affinch´e qualsiasi sia p risulti P |Y − p| ≥ ε ≤ c per varie scelte di ε e c. Tale numero e` ottenuto dalla (8.12) mediante la relazione n0 = min{n : (4 n ε2 )−1 ≤ c}, ossia n0 = ⌈(4 c ε2 )−1 ⌉. Ad esempio, come si evince dalla Tabella 8.3, per ε = 0.1 e c = 0.025, risulta n0 = 1000. ♦ Esempio 8.4 Riprendiamo in considerazione l’Esempio 8.2 e sia X ∼ B(n, 1/2). In tal caso E(X) = n/2 e Var(X) = n/4 e quindi si ha: E(X)      3 n n E(X)  n P X≥ =P X− ≥ = P X −E(X) ≥ ≤ P X −E(X) ≥ , 4 2 4 2 2

da cui, applicando la disuguaglianza di Chebyshev con ε = E(X)/2, si ottiene:  3 n  4 Var(X) 4 P X≥ ≤ = · 4 [E(X)]2 n

(8.13)

Per n > 6, la (8.13) fornisce una limitazione migliore di quella fornita dalla (8.6). In particolare, la (8.13) mostra esplicitamente che la probabilit`a (8.5) tende a zero al crescere del numero di lanci. ♦ Teorema 8.4 Sia X una variabile aleatoria con E(X 2 ) finito. Per ogni reale positivo r si ha: n o p 1 P X − E(X) < r Var(X) ≥ 1 − 2 · (8.14) r p Dimostrazione Segue immediatamente dalla (8.10) ponendovi ε = r Var(X). 

276

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Questo teorema fornisce limitazioni in soli termini di valore medio e di deviazione standard. Esso e` quindi particolarmente utile proprio quando la funzione di distribuzione non e` nota. Ovviamente, quando tale funzione e` conosciuta, mediante essa si ottengono limitazioni pi`u accurate, come evidenziato nell’esempio seguente.  Esempio 8.5 Ci proponiamo di confrontare P |X − µ| < r σ con la limitazione superiore fornita dalla (8.14) per le variabili aleatorie uniforme, normale e di Laplace caratterizzate da stesso valore medio µ finito e stessa deviazione standard σ finita e positiva. √ √ (a) Nel caso X ∼ U(a, b), scegliamo a = µ − σ 3 e b = µ + σ 3, cos`ı che E(X) = µ e Var(X) = σ 2 . Si ha:  Z µ+r σ √  1 r   √ dx = √ , 0 < r < 3 P |X − µ| < r σ = (8.15) 3 µ−r σ 2σ 3  √  1, r ≥ 3.

(b) Se X ∼ N (µ, σ), in virt`u della (4.57) segue:    X −µ P |X − µ| < r σ = P −r < < r = 2 Φ(r) − 1, σ

(8.16)

dove Φ(z) e` la funzione di distribuzione della variabile aleatoria normale standard (v. Paragrafo 4.4.6). (c) Sia X√una variabile aleatoria di distribuzione di Laplace di parametri α e β, con α = µ e β = σ/ 2. Con tali scelte risulta E(X) = µ e Var(X) = σ 2 ed inoltre si ha: Z µ+r σ n √2 |x − µ| o  1 √ exp − P |X − µ| < r σ = dx σ µ−r σ σ 2 Z µ Z µ+r σ n √2 (µ − x) o n √2 (x − µ) o 1 1 = √ exp − dx + √ exp − dx σ σ σ 2 µ−r σ σ 2 µ Z r √ √ 2 e− 2 z dz = 1 − e− 2 r . (8.17) =√ 2 0 Nella Tabella 8.4 vengono confrontate le probabilit`a (8.15), (8.16) e (8.17) con la limitazione 1 − 1/r2 fornita dalla disuguaglianza (8.14) per alcune scelte di r. Si noti che nel caso della distribuzione normale la disuguaglianza (8.14) fornisce un risultato pi`u debole di quello espresso dalla legge del 3 σ, illustrata nel Paragrafo 4.4.6. Infatti, come mostra la Tabella 8.4, con precisione sulla quarta cifra decimale, si ha P (|X − µ| < 3 σ) ≥ 0.8889, mentre dalla legge del 3 σ si ottiene P (|X − µ| < 3 σ) ≃ 0.9974. ♦ p  Esempio 8.6 Ci proponiamo di confrontare P X − E(X) < r Var(X) con la limitazione superiore della (8.14) per le variabili aleatorie esponenziale e di Erlang di ordine 2, caratterizzate dallo stesso valore medio finito 1/λ (λ > 0). (a) Sia X ∼ E(1, λ), cos`ı che E(X) = 1/λ e Var(X) = 1/λ2 . Si ha: n o 1 − r p 1 + r P X − E(X) < r Var(X) = P 1.

(b) Sia X ∼ E(2, 2 λ), di modo che E(X) = 1/λ e Var(X) = 1/(2 λ2 ). In tal caso risulta: o n1 n p r  1 r o 1− √ 2. 0

Nella Tabella 8.5 vengono riportate le probabilit`a (8.18) e (8.19) con la limitazione 1 − 1/r2 fornita dalla disuguaglianza (8.14) per alcune scelte di r. ♦ Teorema 8.5 Sia X una variabile aleatoria con E(X) 6= 0 e E(X 2 ) finito. Per ogni reale positivo δ si ha: n X − E(X) o (CX )2 P , (8.20) 0) = 1 − P (X = 0) ≥

[E(X)]2 · E(X 2 )

(8.23)

Dimostrazione Dall’assunta non negativit`a di X , per ogni intero positivo k si ha: E(X k ) = E(X k |X > 0) P (X > 0) + E(X k |X = 0) P (X = 0) = E(X k |X > 0) P (X > 0).

(8.24)

Ponendo k = 2 nella (8.24) e ricordando che E(X 2 |X > 0) ≥ [E(X|X > 0)]2 , si ottiene: E(X 2 ) = E(X 2 |X > 0) P (X > 0) ≥ [E(X|X > 0)]2 P (X > 0).

(8.25)

Inoltre, dalla (8.24) per k = 1 si ha: [E(X|X > 0)]2 P (X > 0) =

[E(X|X > 0) P (X > 0)]2 [E(X)]2 = · P (X > 0) P (X > 0)

(8.26)

280

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Pertanto, utilizzando la (8.26) nella (8.25) risulta E(X 2 ) ≥

[E(X)]2 , P (X > 0) 

da cui segue la (8.23). Per variabili non negative, alla (8.23) si pu`o anche dare la forma seguente: P (X = 0) = 1 − P (X > 0) ≤

Var(X) · E(X 2 )

(8.27)

Si noti che, se X e` assolutamente continua e non negativa entrambe le disuguaglianze (8.23) e (8.27) perdono di significato. Infatti, essendo P (X = 0) = 0, la (8.27) esprime l’ovvia relazione Var(X) ≥ 0; analogamente, essendo P (X > 0) = 1 per la non negativit`a di X, la (8.23) esprime l’ovvia relazione [E(X)]2 ≤ E(X 2 ). Esempio 8.7 Se X ∼ B(n, p) si ha P (X = 0) = (1 − p)n , E(X) = n p e Var(X) = n p (1 − p). La (8.27) conduce quindi alla disuguaglianza (1 − p)n ≤

1−p 1 − p + np

(n = 1, 2, . . . ; 0 < p < 1).

Se invece X ∼ P(λ) risulta P (X = 0) = e−λ , E(X) = Var(X) = λ e dalla (8.27) si ottiene la ben nota disuguaglianza frequentemente utilizzata in contesti matematici diversi e−λ ≤

1 1+λ

(λ > 0). ♦

Introdurremo ora la cosiddetta disuguaglianza di Chernoff che coinvolge la funzione generatrice dei momenti e quindi implicitamente fa intervenire tutti i momenti della variabile aleatoria e non soltanto i primi due come avviene per le disuguaglianze finora dimostrate. Teorema 8.8 (Disuguaglianza di Chernoff)  Sia X una variabile aleatoria la cui funzione generatrice dei momenti MX (s) = E esX e` finita almeno in un intorno dell’origine. Per ogni reale positivo a, si ha P (X ≥ a) ≤ e−s a MX (s)

P (X ≤ a) ≤ e−s a MX (s)

per s ≥ 0

per s ≤ 0.

(8.28) (8.29)

Dimostrazione Per s = 0 le (8.28) e (8.29) sono banalmente soddisfatte. Per s > 0, utilizzando la disuguaglianza di Markov (8.1) si ottiene:    sX E es X sa P (X ≥ a) = P e ≥e ≤ = e−s a MX (s), es a e quindi la (8.28) e` dimostrata. Se e` invece s < 0, utilizzando nuovamente la (8.1) si ricava:    E es X P (X ≤ a) = P es X ≥ es a ≤ = e−s a MX (s), es a ossia la (8.29). 

Un primo corso in probabilit`a per scienze pure e applicate

281

La disuguaglianza di Chernoff sussiste per ogni reale s per il quale MX (s) e` finita; quindi, per ottenere la migliore limitazione, basta scegliere nelle (8.28) e (8.29) il reale s0 che minimizza e−s a MX (s). Esempio 8.8 Sia X ∼ B(n, p). Essendo E(X) = n p e Var(X) = n p (1 − p), se si pone ε = x − n p nella prima delle disuguaglianze di Chebyshev unilaterali (8.21) si ha:  P X≥x ≤

n p (1 − p) · n p (1 − p) + (x − n p)2

(8.30)

Per ogni s ≥ 0 dalla disuguaglianza di Chernoff (8.28) risulta:  n P (X ≥ x) ≤ e−s x MX (s) = e−s x 1 − p + p es . (8.31) i n  Poich´e il reale s0 che minimizza e−s x 1 − p + p es se np ≤ x < n e` tale che es0 = [x(1 − p)]/[p(n − x)], dalla (8.31) si ottiene la seguente disuguaglianza: h p (n − x) ix h n (1 − p) in  P X ≥ x ≤ e−s0 x MX (s0 ) = (n p ≤ x < n). (8.32) x (1 − p) n−x

La Tabella 8.7 consente di confrontare le probabilit`a binomiali (8.3), la limitazione superiore fornita dalla (8.30) nelle colonne 3 e 6 e la limitazione superiore fornita dalla (8.32) nelle colonne 4 e 7 per alcune scelte di n e p tali che n p = 1. Tabella 8.7– Per alcune scelte di n e p tali che n p = 1, sono riportate le probabilit`a binomiali (8.3) (colonne 2 e 5), il maggiorante di cui alla (8.30) (colonne 3 e 6), ed il maggiorante dato dalla (8.32) (colonne 4 e 7).

“ ” P X≥x

Chebyshev

Chernoff

x

p = 0.05 n = 20

p = 0.05 n = 20

p = 0.05 n = 20

1 2 3 4 5

0.6415 0.2642 0.0755 0.0159 0.0026

1.0000 0.4872 0.1919 0.0955 0.0560

1.0000 0.6616 0.2454 0.0611 0.0111

“ ” P X≥x

Chebyshev

Chernoff

p = 0.1 n = 10

p = 0.1 n = 10

p = 0.1 n = 10

0.6513 0.2639 0.0702 0.0128 0.0016

1.0000 0.4737 0.1837 0.0909 0.0533

1.0000 0.6414 0.2151 0.0445 0.0060

Una limitazione pi`u debole pu`o essere ricavata dalla (8.31) facendo uso della disuguaglianza1 1 − p + p es = 1 + p (es − 1) ≤ exp{p (es − 1)}, ottenendo

P (X ≥ x) ≤ exp{−s x + n p (es − 1)}.

Il reale s0 che minimizza exp{−s x + n p (es − 1)} minimizza anche −s x + n p (es − 1), cos`ı che s0 = ln[x/(n p)] se x ≥ n p. Pertanto dalla (8.31) si ottiene anche la seguente pi`u

1 La

disuguaglianza segue immediatamente dallo sviluppo in serie di MacLaurin dell’esponenziale.

282

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

debole, ma spesso utilizzata, limitazione:  np x P (X ≥ x) ≤ ex−np x

(np ≤ x < n).

(8.33) ♦

Esempio 8.9 Sia X ∼ P(λ). Si ha: P (X ≥ x) =

+∞ X λk −λ e k!

k=⌈x⌉

(x ≥ 0),

(8.34)

con E(X) = Var(X) = λ. Ponendo ε = x − λ nella prima delle disuguaglianze di Chebyshev unilaterali (8.21), si ottiene:  P X≥x ≤

λ · λ + (x − λ)2

(8.35)

Per ogni s ≥ 0, dalla disuguaglianza di Chernoff si ricava:

n o P (X ≥ x) ≤ e−s x MX (s) = e−s x exp{λ (es − 1)} = exp λ (es − 1) − s x .

n o Il reale s0 che minimizza exp λ (es − 1) − s x e` ln(x/λ) se x ≥ λ. Pertanto, per x ≥ λ si ottiene:   x o n x − 1 − x ln , P (X ≥ x) ≤ e−s0 x MX (s0 ) = exp λ λ λ ossia: e−λ (λ e)x P (X ≥ x) ≤ (x ≥ λ). (8.36) xx La Tabella 8.8 riporta le probabilit`a di Poisson (8.34), i maggioranti forniti dalla (8.35) e quelli forniti dalla (8.36) per alcune scelte di x e di λ. ♦ Esempio 8.10 Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti con funzione di probabilit`a   1/2, x = −1 (r = 1, 2 . . . , n) P (Xr = x) = 1/2, x = 1  0, altrimenti e sia Y = X1 + X2 + . . . + Xn . Si ha:    n 1 n   , y = 0, ±1, . . . , ±n; n − y intero pari (n − y)/2 2 P (Y = y) =   0, altrimenti.

(8.37)

Essendo E(Y ) = 0 e Var(Y ) = n, se si pone ε = y nella prima delle disuguaglianze di Chebyshev unilaterali (8.21) risulta: P (Y ≥ y) ≤

n · n + y2

(8.38)

Un primo corso in probabilit`a per scienze pure e applicate

283

Tabella 8.8– Per alcune scelte di λ e x, sono riportate le probabilit`a di Poisson (8.34) nelle colonne 2 e 5, il maggiorante fornito dalla (8.35) nelle colonne 3 e 6, il maggiorante fornito dalla (8.36) nelle colonne 4 e 7.

x

1 2 3 4 5

1 2 3 4 5 6 7 8

“ ” P X≥x

Chebyshev

Chernoff

“ ” P X≥x

Chebyshev

Chernoff

λ = 0.5

λ = 0.5

λ = 0.5

λ=1

λ=1

λ=1

0.3935 0.0902 0.0144 0.0018 0.0002

0.6667 0.1818 0.0741 0.0392 0.0241

0.8244 0.2801 0.0564 0.0081 0.0009

0.6321 0.2642 0.0803 0.0190 0.0037

1.0000 0.5000 0.2000 0.1000 0.0588

1.0000 0.6796 0.2737 0.0785 0.0175

λ = 1.5

λ = 1.5

λ = 1.5

λ=2

λ=2

λ=2

0.7769 0.4422 0.1912 0.0656 0.0186 0.0045 0.0009 0.0002

0.8571 0.8571 0.4000 0.1935 0.1091 0.0690 0.0472 0.0343

0.9274 0.5602 0.2409 0.0805 0.0220 0.0051 0.0010

0.8647 0.5940 0.3233 0.1429 0.0527 0.0166 0.0045 0.0011

0.6667 1.0000 0.6667 0.3333 0.1818 0.1111 0.0741 0.0526

1.0000 0.8054 0.4618 0.2057 0.0749 0.0231 0.0062

Poich´e la funzione generatrice di ognuna delle Xr e` data da  1 1 MX (s) = E esX1 = e−s + es = cosh s, 2 2

per le ipotesi di indipendenza  n e di identica distribuzione di X1 , X2 , . . . , Xn , dal Teorema 5.19 segue MY (s) = MX (s) , cos`ı che dalla disuguaglianza di Chernoff per ogni s ≥ 0 si ha:  n P (Y ≥ y) ≤ e−s y cosh s . (8.39)   n Il reale s0 che minimizza e−s y cosh s e` tale che e2 s0 = (n + y)/(n − y) se 0 ≤ y < n; pertanto, dalla (8.39) si ottiene: n  n − y y/2  n p (0 ≤ y < n). (8.40) P (Y ≥ y) ≤ n+y (n − y)(n + y)

La Tabella 8.9 consente di confrontare le probabilit`a P (Y ≥ y) ottenute tramite la (8.37), il maggiorante fornito dalla (8.38) nelle colonne 3 e 6, il maggiorante (8.40) nelle colonne 4 e 7 per n = 10, 15 e per varie scelte di y. Una limitazione pi`u debole pu`o essere ricavata dalla (8.39) facendo uso della disuguaglianza cosh s =

+∞ +∞ 2 k +∞ n s2 o X X X s2 k k! s (s2 /2)k = ≤ = exp , (2 k)! k! (2 k)! k! 2

k=0

k=0

k=0

(8.41)

284

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Tabella 8.9– Per n = 10, 15 e per varie scelte di y sono elencate le probabilit`a P (Y ≥ y) ed i maggioranti forniti rispettivamente dalle (8.38) e (8.40).

Chebyshev

Chernoff

y

“ ” P Y ≥y

Chebyshev

Chernoff

n = 10

“ ” P Y ≥y

n = 10

n = 10

n = 15

n = 15

n = 15

1 2 3 4 5 6 7 8

0.3770 0.3770 0.1719 0.1719 0.0547 0.0547 0.0107 0.0107

0.9091 0.7143 0.5263 0.3846 0.2857 0.2174 0.1694 0.1351

0.9512 0.8176 0.6332 0.4392 0.2703 0.1455 0.0669 0.0252

0.5000 0.3036 0.3036 0.1509 0.1509 0.0592 0.0592 0.0176

0.9375 0.7895 0.6250 0.4839 0.3750 0.2941 0.2344 0.1899

0.9672 0.8748 0.7393 0.5828 0.4276 0.2911 0.1830 0.1056

ottenendo P (Y ≥ y) ≤ e−s y+n s Il reale che minimizza e−s y+n s ricava:

2

/2

2

/2

.

e` s0 = y/n se y ≥ 0. Pertanto dalle (8.39) e (8.41) si

n y2 o P (Y ≥ y) ≤ exp − 2n

(0 ≤ y < n),

una limitazione certo pi`u debole delle precedenti.



Come si evince dai risultati riportati nelle Tabelle 8.7, 8.8 e 8.9, per valori sufficientemente grandi della variabile la disuguaglianza di Chernoff fornisce limitazioni migliori rispetto a quelle ottenute dalla disuguaglianza di Chebyshev. 8.3

Disuguaglianze coinvolgenti i soli momenti

Vogliamo ora introdurre una disuguaglianza che si riferisce ai valori medi e non alle probabilit`a: la cosiddetta disuguaglianza di Jensen. Essa riguarda il valore medio di trasformazioni convesse di variabili aleatorie. Per illustrare il concetto di convessit`a che questa disuguaglianza coinvolge, ricordiamo che una funzione g(x) continua in un intervallo aperto I = (a, b) si dice convessa se comunque si scelgano due punti x1 e x2 in I, con x1 < x2 , per ogni reale α ∈ (0, 1) risulta: g[α x1 + (1 − α) x2 ] ≤ α g(x1 ) + (1 − α) g(x2 ).

(8.42)

In altri termini, g e` convessa se la corda tracciata tra due punti qualsiasi della curva non giace mai al di sotto della curva stessa. Se invece g e` concava, ossia se −g e` convessa, in luogo della (8.42) si ha: g[α x1 + (1 − α) x2 ] ≥ α g(x1 ) + (1 − α) g(x2 ).

Un primo corso in probabilit`a per scienze pure e applicate

285

Figura 8.1 – Illustrazione della disuguaglianza (8.42).

Si noti che se g possiede derivate prima e seconda, la convessit`a in I equivale a richiedere che risulta g ′′ (x) ≥ 0 per x ∈ I, mentre la concavit`a in I equivale a richiedere g ′′ (x) ≤ 0 per x ∈ I. Ci`o premesso, prendiamo in considerazione in primo luogo una variabile aleatoria discreta X con funzione di probabilit`a ( p, x=x 1

P (X = x) =

1 − p, x = x2 0, altrimenti.

Se g(x) e` una funzione convessa, in virt`u della (8.42) risulta: E[g(X)] = p g(x1 ) + (1 − p) g(x2 ) ≥ g[p x1 + (1 − p) x2 ] = g[E(X)]. Questo risultato pu`o essere esteso a una variabile aleatoria X qualsiasi per la quale esistono   finiti sia E(X) che E g(X) .

Teorema 8.9 (Disuguaglianza di Jensen) Sia X una variabile aleatoria con valore medio finito e sia g una funzione convessa e continua in tutto l’intervallo contenente i valori assunti da X con probabilit`a non nulla. Se E[g(X)] esiste finito risulta: E[g(X)] ≥ g[E(X)],

(8.43)

il segno di uguaglianza sussistendo solo se X e` degenere o se g e` lineare. Dimostrazione Dimostreremo il teorema sotto l’ipotesi che g sia rappresentabile mediante la formula di Taylor di punto iniziale E(X) = µ con termine complementare di Lagrange di ordine due, ossia se si ha: g(x) = g(µ) + g ′ (µ) (x − µ) +

1 ′′ g (ξ) (x − µ)2 2

286

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

per qualche reale ξ interno all’intervallo di estremi x e µ. Per l’ipotizzata convessit`a di g risulta g ′′ (x) ≥ 0, cos`ı che per ogni valore assunto da X con probabilit`a non nulla si ha g(x) ≥ g(µ) + g ′ (µ) (x − µ). Pertanto si ottiene la disuguaglianza g(X) ≥ g(µ) + g ′ (µ) (X − µ). Per la propriet`a di linearit`a del valore medio si ha poi: E[g(X)] ≥ g(µ) + g ′ (µ) E(X − µ) = g(µ), 

da cui segue la (8.43).

In particolare, se g(x) = xβ con β > 1, dalla (8.43) si ottiene E(X β ) ≥ [E(X)]β . Inoltre sussiste il seguente Corollario 8.1 Sia X una variabile aleatoria con funzione generatrice dei momenti MX (s) finita. Per ogni s ∈ R si ha: MX (s) ≥ es E(X) . (8.44) Dimostrazione Segue immediatamente dalla (8.43) ponendo g(x) = es x .



Se g e` concava, la disuguaglianza di Jensen (8.43) si inverte, ossia risulta E[g(X)] ≤ g[E(X)]. In particolare, se g(x) = xβ con 0 < β < 1 si ottiene E(X β ) ≤ [E(X)]β . Inoltre, se g(x) = ln x ed X e` una variabile aleatoria positiva, risulta E(ln X) ≤ ln[E(X)]. Vogliamo ora introdurre due importanti disuguaglianze riguardanti i valori medi, ossia la disuguaglianza di Schwarz–H¨older e la disuguaglianza di Minkowsky. Cominciamo, a tal fine, con l’enunciare il seguente Lemma 8.1 (Disuguaglianza di Young) tali che ϑ1 + ϑ2 + . . . + ϑn = 1. Si ha:

Siano y1 , y2 , . . . , yn , ϑ1 , ϑ2 , . . . , ϑn reali positivi

y1 y2 · · · yn ≤

n X

ϑr yr1/ϑr .

(8.45)

r=1

Dimostrazione Osserviamo anzitutto che risulta: y1 y2 · · · yn = eln y1 eln y2 · · · eln yn = eϑ1 z1 +ϑ2 z2 +...+ϑn zn , dove l’ultima uguaglianza e` stata ottenuta ponendo ln yr = ϑr zr per r = 1, 2, . . . , n. Essendo g(x) = ex una funzione convessa, dalla (8.42) si ha: |y1 y2 · · · yn | ≤ ϑ1 ez1 + ϑ2 ez2 + . . . + ϑn ezn = e quindi la (8.45).

n X

ϑr yr1/ϑr ,

r=1



Un primo corso in probabilit`a per scienze pure e applicate

287

Teorema 8.10 (Disuguaglianza di Schwarz–H¨older) Se (X1 , X2 , . . . , Xn ) e` un vettore aleatorio e α1 , α2 , . . . , αn sono reali positivi tali che α1−1 + α2−1 + . . . + αn−1 = 1, risulta: n  Y  1/αr E |Xr |αr , E X1 X2 · · · X n ≤

(8.46)

r=1

sempre che i valori medi al secondo membro siano finiti e diversi da zero. Dimostrazione Se si pone ϑr =

1 , αr

|Xr | Yr =  1/αr E |Xr |αr

(r = 1, 2, . . . , n),

utilizzando la disuguaglianza di Young (8.45) risulta:

i hX 1  E(|X1 X2 · · · Xn |) αr = E Y Y · · · Y ≤ E Y 1 2 n r n Y α 1/αr  r=1 r E |Xr |αr n

r=1

=

n n X 1  αr  X 1 E Yr = 1. = α α r=1 r r=1 r

(8.47)

Dall’essere dunque superiormente limitato dall’unit`a il rapporto al primo membro della (8.47), si riconosce immediatamente la (8.46).  Si noti che nel caso particolare n = 2, α1 = α2 = 2, X1 = X, X2 = Y, la disuguaglianza di Schwarz–H¨older diventa  2 E(|XY |) ≤ E(X 2 ) E(Y 2 ), ossia si identifica con la disuguaglianza di Schwarz (5.74).

Teorema 8.11 (Disuguaglianza di Minkowsky) rio e sia α > 1. Risulta:

Sia (X1 , X2 , . . . , Xn ) un vettore aleato-

n α 1/α X   1/α E X1 + X 2 + . . . + X n ≤ E |Xr |α ,

(8.48)

r=1

sempre che i valori medi al secondo membro siano finiti e diversi da zero.

Dimostrazione Sia Y = X1 + X2 + . . . + Xn . Essendo α > 1, per la linearit`a del valore medio si ha α

E |Y |



n n hX i X    α−1 α−1 = E |Y | |Y | ≤E |Xr | |Y | = E |Xr | |Y |α−1 . r=1

r=1

Dalla disuguaglianza di Schwarz–H¨older (8.46) si ricava poi:   1/α  1/β E |Xr | |Y |α−1 ≤ E |Xr |α E |Y |β (α−1)

(r = 1, 2 . . . , n),

(8.49)

288

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

con β = α/(α − 1). Facendo uso di questa nella (8.49), si ottiene infine: n  X  1/α  (α−1)/α E |Y |α ≤ E |Xr |α E |Y |α , r=1



da cui segue immediatamente la (8.48).

Esempio 8.11 Siano X1 , X2 , . . . , Xn variabili aleatorie positive indipendenti e identicamente distribuite con valore medio finito µ e siano H=

n 1 1 1 + + ... + X1 X2 Xn

,

G = (X1 X2 · · · Xn )1/n ,

X=

n 1 X Xr , n r=1

(8.50)

rispettivamente le loro medie armonica, geometrica e campionaria. Vogliamo mostrare che per n = 1, 2, . . . sussistono le disuguaglianze E(H) ≤ E(G) ≤ E(X). A tal fine, osserviamo in primo luogo che per la propriet`a di linearit`a del valore medio e per l’ipotesi di identica distribuzione di X1 , X2 , . . . , Xn si ha E(X) = µ. Ponendo g(x) = x1/n , dalla disuguaglianza di Jensen per funzioni concave scaturisce:    1/n E(G) = E (X1 X2 · · · Xn )1/n ≤ E(X1 X2 · · · Xn )  1/n = E(X1 )E(X2 ) · · · E(Xn ) = µ,

avendo utilizzato nelle ultime due uguaglianze rispettivamente le ipotesi di indipendenza e di identica distribuzione di X1 , X2 , . . . , Xn . Risulta quindi E(G) ≤ E(X). Inoltre, essendo le variabili aleatorie positive, facendo uso della disuguaglianza di Young con ϑ1 = ϑ2 = . . . = ϑn = 1/n si ottiene:  1 1/n  1 1/n  1 1/n 1h 1 1 1 i ··· ≤ , + + ... + X1 X2 Xn n X1 X2 Xn   da cui segue E(H) ≤ E (X1 X2 · · · Xn )1/n , ossia E(H) ≤ E(G). 8.4



Limitazioni per somme di variabili aleatorie indipendenti

In questo paragrafo vogliamo considerare alcune disuguaglianze riguardanti somme di variabili aleatorie indipendenti. A tal fine forniamo anzitutto una disuguaglianza riguardante la funzione generatrice dei momenti. Lemma 8.2 Sia X una variabile aleatoria dotata di valore medio finito µ e tale che P (a ≤ X ≤ b) = 1 con a e b reali. Allora, per ogni s ∈ R risulta: MX (s) ≤

b − µ sa µ − a sb e + e . b−a b−a

(8.51)

Un primo corso in probabilit`a per scienze pure e applicate

289

Dimostrazione Per la convessit`a della funzione g(x) = ex nell’intervallo [a, b], dalla (8.42) ponendo α = (b − x)/(b − a), x1 = s a, x2 = s b, per ogni x ∈ [a, b] si ha: esx ≤

b − x sa x − a sb e + e . b−a b−a

Essendo P (a ≤ X ≤ b) = 1, sussiste la disuguaglianza: b − X sa X − a sb e + e . b−a b−a

esX ≤

(8.52)

La (8.51) segue poi immediatamente passando ai valori medi nella (8.52).



In particolare, dal Lemma 8.2 scaturisce che se X e` una variabile aleatoria a valore medio nullo e tale che P (|X| ≤ c) = 1 con c reale positivo, allora per ogni s ∈ R risulta MX (s) ≤ cosh(s c). Teorema 8.12 (Disuguaglianza di Hoeffding) Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti ognuna dotata di valore medio finito E(Xr ) = µr (r = 1, 2 . . . , n) e tali che per r = 1, 2, . . . , n risulti P {ar ≤ Xr ≤ br } = 1. Posto Y = X1 + X2 + . . . + Xn , per ogni c > 0 si ha:   2 c2 P {Y − E(Y ) ≥ c} ≤ exp − Pn (8.53) 2 r=1 (br − ar )   2 c2 P {Y − E(Y ) ≤ −c} ≤ exp − Pn . (8.54) 2 r=1 (br − ar )

Dimostrazione Per ogni s ≥ 0, utilizzando la disuguaglianza di Chernoff (8.28) si ricava: P {Y − E(Y ) ≥ c} ≤ e−s c MY −E(Y ) (s) = e−s c e−s E(Y )

n Y

MXr (s),

(8.55)

r=1

dove l’ultima uguaglianza segue per l’indipendenza di X1 , X2 , . . . , Xn . Facendo uso del Lemma 8.2, per ogni s ≥ 0 si ha: P {Y − E(Y ) ≥ c} ≤ e−s [c+E(Y )] Posto a=

n X

ar ,

r=1

b=

n X

br ,

r=1

n  Y br − µr

es ar +

r=1

br − ar

pr =

µr − ar , br − ar

 µr − ar s br e . br − ar

1 − pr =

br − µr br − ar

(8.56)

(8.57)

la (8.56) si pu`o scrivere: −s [c+E(Y )−a]

P {Y − E(Y ) ≥ c} ≤ e

 n  Y s (br −ar ) 1 − pr + pr e .

r=1

(8.58)

290

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

  Poich´e per ogni 0 ≤ p ≤ 1 e t ≥ 0 la funzione e−pt 1 − p + pet e` non crescente, si ha  e−pt 1 − p + p et ≤ 1.

Sussiste quindi anche la disuguaglianza pi`u debole  2 e−pt 1 − p + p et ≤ et /8 , che applicata alla (8.58) conduce per ogni s ≥ 0 a scrivere

n o n s2 (b − a )2 o r r exp s pr (br − ar ) exp 8 r=1   n s2 X = exp −s c + (8.59) (br − ar )2 . 8 r=1

P {Y − E(Y ) ≥ c} ≤ e−s [c+E(Y )−a]

n Y

n o Pn Pn Il reale che minimizza exp −s c + (s2 /8) r=1 (br − ar )2 e` s0 = 4 c/ r=1 (br − ar )2 . Facendo uso di tale valore nella (8.59) si ottiene la (8.53). Per dimostrare la (8.54) utilizziamo la disuguaglianza di Chernoff (8.29). Pertanto, per ogni s ≤ 0, si ha: P {Y − E(Y ) ≤ −c} ≤ es c MY −E(Y ) (s) = es c e−s E(Y )

n Y

MXr (s),

(8.60)

r=1

dove l’uguaglianza scaturisce nuovamente dall’indipendenza di X1 , X2 , . . . , Xn . Facendo uso del Lemma 8.2 e delle posizioni (8.57), per ogni s ≤ 0 si ottiene:  n  Y s [c−E(Y )+b] −s (br −ar ) P {Y − E(Y ) ≥ c} ≤ e pr + (1 − pr ) e r=1 n Y

n s2 (b − a )2 o n o r r exp exp −s (1 − pr ) (br − ar ) 8 r=1   n s2 X = exp s c + (br − ar )2 . (8.61) 8 r=1 ≤ es [c−E(Y )+b]

n o Pn Pn Il reale che minimizza exp s c + (s2 /8) r=1 (br − ar )2 e` s0 = − 4 c/ r=1 (br − ar )2 . Facendo uso di tale valore nella (8.61), si ottiene la (8.54). 

Nel caso di somma di variabili aleatorie indipendenti di Bernoulli, la disuguaglianza di Hoeffding conduce al seguente Corollario 8.2 Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti con Xr ∼ B(1, p) per r = 1, 2 . . . , n. Se Y = X1 + X2 + . . . + Xn , allora per ogni c > 0 si ha: P {Y − n p ≥ c} ≤ e−2 c

2

/n

,

P {Y − n p ≤ −c} ≤ e−2 c

2

/n

.

(8.62)

Un primo corso in probabilit`a per scienze pure e applicate

291

Tabella 8.10– Per n = 10, p = 0.1 e p = 0.5 sono riportate le probabilit`a binomiali in colonne 2 e 4, il maggiorante fornito dalla (8.63) in colonne 3 e 5, e il maggiorante dato dalla (8.64) in colonna 6.

c

P (|X − 1| ≥ c) p = 0.1

Chebyshev p = 0.1

P (|X − 5| ≥ c) p = 0.5

Chebyshev p = 0.5

Hoeffding

1 2 3 4 5

0.6126 0.0702 0.0128 0.0016 0.0001

0.9000 0.2250 0.1000 0.0563 0.0360

0.7539 0.3437 0.1093 0.0216 0.0020

2.5000 0.6250 0.2778 0.1563 0.1000

1.6375 0.8987 0.3306 0.0815 0.0135

Dimostrazione Segue immediatamente dalle (8.53) e (8.54) ponendo ar = 0 e br = 1 per r = 1, 2, . . . , n.  Esempio 8.12 Sia X ∼ B(n, p). Ponendo E(X) = n p e Var(X) = n p (1 − p) nella disuguaglianza di Chebyshev (8.9), per ogni c > 0 si ottiene:  np(1 − p) P |X − n p| ≥ c ≤ , c2 mentre dalla disuguaglianza (8.62) per ogni c > 0 si ha:    2 P |X − n p| ≥ c = P X − n p ≥ c + P X − n p ≤ −c ≤ 2 e−2 c /n .

(8.63)

(8.64)

Nella Tabella 8.10 confrontiamo le probabilit`a binomiali P (|X − n p| ≥ c) con la limitazione superiore in (8.63) e con la limitazione superiore in (8.64) per n = 10 e per due diversi valori di p. ♦

Esempio 8.13 Riprendiamo in considerazione gli Esempi 8.2 e 8.4 e sia X ∼ B(n, 1/2). Ricordiamo che la disuguaglianza (8.4) fornisce P {X ≥ 3n/4} ≤ 2/3, mentre dalla disuguaglianza di Chebyshev si ricava P {X ≥ 3 n/4} ≤ 4/n. Facendo invece uso della (8.62) si ottiene la disuguaglianza:   3 n n n P X≥ =P X− ≥ ≤ e−n/8 , (8.65) 4 2 4 che fornisce un maggiorante che tende a zero esponenzialmente con n. ♦ 8.5

Altre disuguaglianze rilevanti

Introduciamo due importanti disuguaglianze che svolgono un ruolo fondamentale nello studio di leggi della probabilit`a: la disuguaglianza di Kolmogorov e la disuguaglianza di L´evy. Teorema 8.13 (Disuguaglianza di Kolmogorov) Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti ognuna a valore medio nullo e momento del secondo ordine finito. Inoltre, sia Yr = X1 + X2 + . . . + Xr per r = 1, 2, . . . , n. Per ogni a > 0 si ha: n o E(Y 2 )  n P max Y1 |, |Y2 |, . . . , |Yn | ≥ a ≤ · (8.66) a2

292

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Dimostrazione Consideriamo i seguenti eventi necessari ed incompatibili:  A0 = ω ∈ Ω : |Y1 | < a, |Y2 | < a, . . . , |Yn | < a  A1 = ω ∈ Ω : |Y1 | ≥ a (8.67)  Ak = ω ∈ Ω : |Y1 | < a, |Y2 | < a, . . . , |Yk−1 | < a, |Yk | ≥ a (k = 2, 3 . . . , n).

Si noti che per k = 1, 2, . . . , n l’evento Ak si realizza quando k e` il primo indice per il quale si ha |Yk | ≥ a. E` evidente che risulta n n o [  ω ∈ Ω : max Y1 |, |Y2 |, . . . , |Yn | ≥ a = Ar . r=1

Se indichiamo con IAr (ω) la funzione indicatrice dell’evento Ar , allora per r = 0, 1, . . . , n risulta Yr2 IAr ≥ a2 IAr . Quindi: n n n  X n o [ X   P max Y1 |, |Y2 |, . . . , |Yn | ≥ a = P Ak = P (Ar ) = E IAr k=1

r=1

r=1

 n n X  E Yr2 IAr 1 X ≤ = E Yr2 IAr . 2 2 a a r=1 r=1

(8.68)

  Vogliamo ora mostrare che risulta E Yr2 IAr ≤ E Yn2 IAr per r = 1, 2, . . . , n. A tal fine notiamo che essendo Yn2 = [Yr + (Yn − Yr )]2 , si ha:       E Yn2 IAr = E Yr2 IAr + E (Yn − Yr )2 IAr + 2 E Yr (Yn − Yr ) IAr . (8.69)

Nell’ultimo valore medio la variabile Yn − Yr e` funzione di (Xr+1 , Xr+2 , . . . , Xn ), mentre la variabile Yr IAr e` funzione di (X1 , X2 , . . . , Xr ). Essendo X1 , X2 , . . . , Xn indipendenti, tali sono anche Yn − Yr e Yr IAr cos`ı che       E Yr (Yn −Yr ) IAr = E Yr IAr E Yn −Yr = E Yr IAr E Xr+1 +Xr+2 +. . .+Xn = 0.

Poich´e (Yn − Yr )2 IAr ≥ 0, dalla (8.69) si ricava:        E Yr2 IAr = E Yn2 IAr − E (Yn − Yr )2 IAr ≤ E Yn2 IAr .

(8.70)

Facendo uso della (8.70) nella (8.68) , in conclusione si ottiene: n n o   1 X P max Y1 |, |Y2 |, . . . , |Yn | ≥ a ≤ 2 E Yn2 IAr a r=1

=

n   1  2X 1 E Y IAr ≤ 2 E Yn2 , n 2 a a r=1

ossia la (8.66). Si noti che se n = 1 la disuguaglianza di Kolmogorov si riduce alla (8.7) con ν = 2. Dalla disuguaglianza di Kolmogorov scaturisce il seguente



Un primo corso in probabilit`a per scienze pure e applicate

293

˜1, X ˜2, . . . , X ˜ n variabili aleatorie indipendenti ognuna con momento Corollario 8.3 Siano X ˜ ˜1 + X ˜2 + . . . + X ˜ r (r = 1, 2, . . . , n). Per ogni a > 0 del secondo ordine finito e sia Yr = X si ha: n n o 1 X ˜ r )· Var(X (8.71) P max Y˜r − E(Y˜r )| ≥ a ≤ 2 1≤r≤n a r=1

˜ r − E(X ˜ r ), risulta E(Xr ) = 0 ed inoltre E(Xr2 ) = Dimostrazione Ponendo Xr = X ˜ r ) e` finito. Per r = 1, 2, . . . , n risulta poi Y˜r − E(Y˜r ) = X1 + X2 + . . . + Xn . Var(X Essendo soddisfatte le ipotesi del Teorema 8.13, dalla (8.66) si ottiene: P

n

n o Var(Y˜ ) 1 X n ˜ r ), max Y˜r − E(Y˜r )| ≥ a ≤ = Var(X 1≤r≤n a2 a2 r=1

(8.72)

˜1, X ˜2, . . . , X ˜n. avendo fatto ricorso nell’ultima uguaglianza all’indipendenza di X

 Esiste un’altra interessante disuguaglianza che si riferisce alla distribuzione del max1≤r≤n Yr |, con Yr = X1 + X2 + . . . + Xr , quando X1 , X2 , . . . , Xn sono indipendenti e possiedono una distribuzione simmetrica intorno allo zero. Questo risultato e` noto come disuguaglianza di L´evy. Ricordiamo che una variabile aleatoria X e` a distribuzione simmetrica rispetto all’asse x = 0 se e solo se −X ha la stessa distribuzione di X, ossia se P (X ≤ x) = P (X ≥ −x) per ogni x ∈ R. Teorema 8.14 (Disuguaglianza di L´evy) Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti le cui funzioni di distribuzione sono tutte simmetriche intorno allo zero. Inoltre, sia Yr = X1 + X2 + . . . + Xr (r = 1, 2, . . . , n). Per ogni a > 0 si ha: n o   P max Y1 , Y2 , . . . , Yn ≥ a ≤ 2 P Yn ≥ a . (8.73)  Dimostrazione Per semplicit`a di notazione, poniamo Mn = max Y1 , Y2 , . . . , Yn . Poich´e P (Mn ≥ a) = P (Mn ≥ a, Yn ≥ a) + P (Mn ≥ a, Yn < a) = P (Yn ≥ a) + P (Mn ≥ a, Yn < a),

(8.74)  per verificare la (8.73) e` sufficiente mostrare che risulta P (Mn ≥ a, Yn < a) ≤ P Yn ≥ a . Come gi`a visto nel Teorema 8.13, si ha: {ω ∈ Ω : Mn ≥ a} = Quindi, P (Mn ≥ a, Yn < a) = ≤ =

n X r=1

n X r=1

n X r=1

n [ 

r=1

ω ∈ Ω : Y1 < a, Y2 < a, . . . , Yr−1 < a, Yr ≥ a .

P (Y1 < a, Y2 < a, . . . , Yr−1 < a, Yr ≥ a, Yn < a)

 P Y1 < a, Y2 < a, . . . , Yr−1 < a, Yr ≥ a, Yn − Yr ≤ 0

  P Y1 < a, Y2 < a, . . . , Yr−1 < a, Yr ≥ a P Yn − Yr ≤ 0 , (8.75)

294

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

dove l’ultima uguaglianza segue dall’indipendenza di X1 , X2 , . . . , Xn . Poich´e per ipotesi ciascuna delle X simmetrica intorno all’asse x = 0, si ha  1 , X2 , . . . , Xn ha distribuzione  P Yn − Yr ≤ 0 = P Yn − Yr ≥ 0 , e quindi dalla (8.75) si ricava: P (Mn ≥ a, Yn < a) ≤ ≤

n X r=1

n X r=1

 P Y1 < a, Y2 < a, . . . , Yr−1 < a, Yr ≥ a, Yn − Yr ≥ 0

 P Y1 < a, Y2 < a, . . . , Yr−1 < a, Yr ≥ a, Yn ≥ a

 = P Mn ≥ a, Yn ≥ a = P Yn ≥ a),

(8.76)

dove l’ultima uguaglianza segue osservando che l’evento {Yn ≥ a} e` incluso in {Mn ≥ a}. Infine, utilizzando la (8.76) nella (8.74), si ottiene la (8.73).  Esempio 8.14 (Passeggiata aleatoria semplice simmetrica) Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti con funzione di probabilit`a   1/2, x = −1 P (Xi = x) = 1/2, x = 1 (i = 1, 2 . . . , n)  0, altrimenti

e sia Yr = X1 +X2 +. . .+Xr per r = 1, 2, . . . , n. Si noti che Yr pu`o descrivere la posizione occupata al tempo r da una particella che, a partire dalla posizione Y0 = 0, si muove su una retta compiendo passi unitari verso destra o verso sinistra con uguali probabilit`a. La successione di somme parziali Y0 , Y1 , . . . , con Y0 = 0, definisce allora una passeggiata aleatoria semplice simmetrica. Nella Figura 8.2 e` rappresentata una realizzazione di una siffatta passeggiata aleatoria; sull’asse delle ascisse sono riportati i tempi n = 1, 2, . . . , mentre sull’asse delle ordinate sono indicate le corrispondenti posizioni occupate dalla particella. 6 Yn 4 3 2 1

−1

r

Y1 r @ @r 1 @ 3 @r Y3

r

r 5

Y6 r @ @r Y7 7

r

Y9 r @ @r @

Y12 r @ @r @r

9

11

r

13

Figura 8.2 – Una particolare realizzazione di una passeggiata aleatoria semplice simmetrica.

r

n

Un primo corso in probabilit`a per scienze pure e applicate

295

Essendo ognuna delle X1 , X2 , . . . , Xn a distribuzione simmetrica intorno all’asse x = 0, e` possibile applicare la disuguaglianza di L´evy (8.73). Si noti che, facendo uso della (8.37), per k = 0, ±1, . . . , ±n si ha:    n 1 n P (Yn = k) = 2 (n − k)/2

se n − k e` un intero pari e P (Yn = k) = 0 altrimenti. Quindi per k = 0, ±1, . . . , ±n e` possibile calcolare 2 P (Yn ≥ k), ossia il secondo membro della (8.73). Inoltre, e` anche possibile determinare l’espressione esatta della probabilit`a presente al primo membro della (8.73). Infatti, seguendo la linea di dimostrazione del Teorema 8.14, se si pone Mn =  max Y1 , Y2 , . . . , Yn , si ha: P (Mn ≥ a) = P (Yn ≥ a) + P (Mn ≥ a, Yn < a),

(8.77)

essendo P (Mn ≥ k, Yn < k) =

n X r=1

P (Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr ≥ k, Yn < k),

(8.78)

dove l’addendo corrispondente ad r = n e` nullo. Per calcolare la (8.78) osserviamo che in una passeggiata aleatoria semplice simmetrica l’evento  Br = ω ∈ Ω : Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr ≥ k, Yn < k si realizza se e solo se

{Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr = k, Yn < k}. Quindi, poich´e le variabili X1 , X2 , . . . , Xn sono indipendenti e ognuna e` a distribuzione simmetrica rispetto allo zero, per r = 1, 2, . . . , n − 1 sussistono le seguenti uguaglianze: P (Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr ≥ k, Yn < k)

= P (Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr = k, Yn − Yr < 0) = P (Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr = k) P (Yn − Yr < 0) = P (Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr = k) P (Yn − Yr > 0) = P (Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr = k, Yn > k)

= P (Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr ≥ k, Yn > k). Queste permettono di riscrivere la (8.78) nel seguente modo: P (Mn ≥ k, Yn < k) =

n X r=1

P (Y1 < k, Y2 < k, . . . , Yr−1 < k, Yr ≥ k, Yn > k)

 = P Mn ≥ k, Yn > k = P Yn > k).

Ricordando la (8.77), per k = 1, 2, . . . , n si ha dunque: n o      P max Y1 , Y2 , . . . , Yn ≥ k = P Yn ≥ k +P Yn > k = 2 P Yn ≥ k −P Yn = k , (8.79)  che mostra che P (Mn ≥ k) si discosta di P Yn = k dal maggiorante presente nella disuguaglianza di L´evy (8.73). ♦

296

8.6

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Momenti di variabili aleatorie stocasticamente ordinate

Determineremo ora talune relazioni esistenti tra momenti di variabili aleatorie stocasticamente ordinate in distribuzione. Diamo anzitutto la seguente definizione. Definizione 8.1 Siano X e Y variabili aleatorie con rispettive funzioni di distribuzione FX (x) e FY (y). Si dice che X e` maggiore di Y in distribuzione se e solo se per ogni x ∈ R risulta FX (x) ≤ FY (x). Inoltre, X e` minore di Y in distribuzione se e solo se per ogni x ∈ R risulta FX (x) ≥ FY (x). Teorema 8.15 Siano X e Y variabili aleatorie positive tali che per un fissato indice k, con k = 1, 2, . . . , i loro momenti di ordine k siano finiti. Se X e` maggiore di Y in distribuzione, risulta E(X k ) ≥ E(Y k ). Inoltre se X e` minore di Y in distribuzione, si ha E(X k ) ≤ E(Y k ). Dimostrazione Se X e Y sono variabili aleatorie positive con momenti di ordine k finiti, allora dalla (5.42) si ricava:2 Z +∞ Z 0 Z +∞ E(X k ) = kxk−1 [1−FX (x)] dx− kxk−1 FX (x) dx = k xk−1 [1−FX (x)] dx. −∞

0

0

Quindi, se X e` maggiore di Y in distribuzione si ha 1 − FX (x) ≥ 1 − FY (x), cos`ı che dalla precedente relazione risulta: Z +∞ E(X k ) ≥ k xk−1 [1 − FY (x)] dx = E(Y k ), 0

mentre se X e` minore di Y in distribuzione si ricava E(X k ) ≤ E(Y k ).



Teorema 8.16 Siano X e Y variabili aleatorie tali che per un fissato intero dispari k, con k = 1, 3, . . . , i loro momenti di ordine k sono finiti. Se X e` maggiore di Y in distribuzione, risulta E(X k ) ≥ E(Y k ). Inoltre se X e` minore di Y in distribuzione, si ha E(X k ) ≤ E(Y k ). Dimostrazione Essendo k un intero dispari, per ogni x ∈ R si ha xk−1 ≥ 0. Quindi, se X e` maggiore di Y in distribuzione dalla (5.42) per k = 1, 3, . . . si ottiene: Z +∞ Z 0 E(X k ) = k xk−1 [1 − FX (x)] dx − k xk−1 FX (x) dx −∞ 0

0



Z

0

+∞

k xk−1 [1 − FY (x)] dx −

Z

k xk−1 FY (x) dx = E(Y k ),

−∞

mentre se X e` minore di Y in distribuzione si ottiene E(X k ) ≤ E(Y k ) per k = 1, 3, . . .



2 Si ricordi che la (5.42) consente di esprimere i momenti di variabili aleatorie di natura arbitraria in termini delle corrispondenti funzioni di distribuzione

Un primo corso in probabilit`a per scienze pure e applicate

297

Esempio 8.15 Siano X1 , X2 , . . . , Xn variabili aleatorie indipendenti, tutte definite nello stesso spazio di probabilit`a, e siano U = max(X1 , X2 , . . . , Xn ) e V = min(X1 , X2 , . . . , Xn ). Mostriamo che risulta: n o n o E(U ) ≥ max E(Xr ) , E(V ) ≤ min E(Xr ) . (8.80) 1≤r≤n

1≤r≤n

Invero, essendo X1 , X2 , . . . , Xn indipendenti, per r = 1, 2, . . . , n dalla (3.63) segue: FU (u) =

n Y

i=1

FXi (u) ≤ FXr (u),

∀ u ∈ R,

che implica, per la Definizione 8.1, che U e` maggiore di Xr in distribuzione. Dal Teorema 8.16 segue quindi E(U ) ≥ E(Xr ) qualunque sia r = 1, 2, . . . , n, che implica la prima delle (8.80). Inoltre, ricordando nuovamente che X1 , X2 , . . . , Xn sono indipendenti, dalla (3.64) segue: FV (v) = 1 −

n Y

[1 − FXi (v)] ≥ 1 − [1 − FXr (v)] = FXr (v),

i=1

∀ v ∈ R,

che comporta, per la Definizione 8.1, che V e` minore di Xr in distribuzione. Dal Teorema 8.16 si deduce quindi che risulta E(V ) ≤ E(Xr ) qualunque sia r = 1, 2, . . . , n, da cui deriva la seconda delle (8.80). Utilizzando il Teorema 8.15 oppure il Teorema 8.16, le relazioni (8.80) possono essere estese anche a momenti successivi al primo. Si noti che se ad esempio X1 , X2 , . . . , Xn rappresentano i tempi di corretto funzionamento di n componenti di un dispositivo collegati in parallelo, allora U rappresenta il tempo di corretto funzionamento dell’intero dispositivo. La prima delle (8.80) mostra quindi che il tempo medio di corretto funzionamento dell’intero dispositivo e` non inferiore al tempo medio di funzionamento di ognuno dei dispositivi posti in parallelo. Analogamente, se gli n dispositivi sono collegati in serie, allora V rappresenta il tempo di corretto funzionamento dell’intero dispositivo. Quindi la seconda delle (8.80) mostra che il tempo medio di corretto funzionamento dell’intero dispositivo e` inferiore del tempo di funzionamento di ognuno dei dispositivi posti in serie. ♦

Capitolo 9 Teoremi asintotici

9.1

Successioni di variabili aleatorie

Nei precedenti capitoli abbiamo esaminato alcuni semplici problemi riguardanti distribuzioni limite ottenute al divergere di un parametro. Ad esempio, nel Capitolo 4 abbiamo visto in quali condizioni la distribuzione ipergeometrica converge a una distribuzione binomiale (v. Paragrafo 4.2.3) ed abbiamo esaminato in quali condizioni la distribuzione binomiale converge alla distribuzione di Poisson (v. Paragrafo 4.2.7), mentre nel Paragrafo 7.5 abbiamo mostrato che la distribuzione di Student converge a quella normale all’aumentare del numero di gradi di libert`a. In questo capitolo vogliamo analizzare alcuni dei principali problemi asintotici, di rilevante interesse e applicabilit`a in statistica, coinvolgenti collezioni di un numero infinitamente grande di variabili aleatorie, ordinate in maniera da costituire delle successioni. Ricordiamo che quando prendiamo in esame pi`u variabili aleatorie, occorre supporre che esse siano definite in uno stesso spazio di probabilit`a (Ω, F , P ). Una successione di variabili aleatorie va quindi riguardata come una successione {Xn (ω); n = 1, 2, . . .} di funzioni misurabili da (Ω, F ) in (R, B). Ricordiamo inoltre (v. Paragrafo 3.8) che una successione di variabili aleatorie X1 , X2 , . . . , tutte definite in uno stesso spazio di probabilit`a, si dicono indipendenti se e solo se per ogni insieme finito di indici distinti i1 , i2 , . . . , ik le variabili Xi1 , Xi2 , . . . , Xik sono indipendenti. Discuteremo dapprima alcuni tipi di convergenza per successioni di variabili aleatorie e successivamente esporremo alcuni dei principali teoremi limite della probabilit`a. 9.2

Convergenza di variabili aleatorie

Ci proponiamo in questo paragrafo di analizzare il comportamento limite di successioni di variabili aleatorie mediante lo studio dei seguenti tipi di convergenza: convergenza quasi certa, convergenza in probabilit`a e convergenza in distribuzione. Sia X1 , X2 , . . . una successione di variabili aleatorie, tutte definite nello stesso spazio di probabilit`a (Ω, F , P ), e sia X una variabile aleatoria anch’essa ivi definita. Esistono

300

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

vari modi per introdurre il concetto di limite della successione, ossia per definire che cosa debba intendersi per convergenza della successione di variabili aleatorie X1 , X2 , . . . verso la variabile aleatoria X. Un criterio naturale di convergenza che emerge dalle familiari nozioni dell’analisi matematica e` la convergenza su Ω, cos`ı definita: per ogni ε > 0 e per ogni ω ∈ Ω esiste un intero positivo k = k(ε, ω) tale da aversi |Xn (ω) − X(ω)| < ε

per ogni n > k.

In altri termini, si richiede che la successione Xn (ω) converga ad X(ω) per ogni ω ∈ Ω. In un contesto di tipo probabilistico risulta per`o eccessivo richiedere che la convergenza sussista per ogni ω ∈ Ω; e` sufficiente che essa sussista per tutti i punti ω il cui insieme costituisce un evento di probabilit`a unitaria. Da ci`o scaturisce quindi la seguente definizione: Definizione 9.1 Una successione di variabili aleatorie X1 , X2 , . . . , tutte definite nello stesso spazio di probabilit`a (Ω, F , P ), converge quasi certamente ad una variabile aleatoria X, definita nello stesso spazio di probabilit`a, se risulta:   n o P lim Xn = X = P ω ∈ Ω : lim Xn (ω) = X(ω) n→+∞ n→+∞  = P {ω ∈ Ω : ∀ε > 0 ∃k : ∀n ≥ k |Xn (ω) − X(ω)| < ε} = 1. (9.1) q.c.

Tale convergenza, detta quasi certa, sar` n a denotata con Xn −→ X. Essa o pu`o essere cos`ı interpretata: la probabilit`a dell’evento ω ∈ Ω : lim Xn (ω) = X(ω) e` unitaria, ossia n→+∞

Xn al crescere di n tende a identificarsi con X con probabilit`a 1. E` poi possibile dimostrare il seguente teorema:

Teorema 9.1 La successione di variabili aleatorie X1 , X2 , . . . converge quasi certamente a X se e solo se per ogni ε > 0 si ha ! +∞ o \n lim P ω ∈ Ω : |Xk (ω) − X(ω)| < ε = 1. (9.2) n→+∞

k=n

q.c.

Questo teorema afferma che risulta Xn −→ X se e solo se tende a 1 la probabilit`a che tutte le variabili della successione da un certo indice in poi sono prossime a X quanto si vuole. Dalla (9.2) si evince che per mostrare che X1 , X2 , . . . converge quasi certamente a X occorre conoscere la distribuzione congiunta delle variabili aleatorie X, X1 , X2 , . . . . Esempio 9.1 Data una variabile aleatoria X consideriamo la successione X1 , X2 , . . . , con q.c. Xn = X + 1/n (n = 1, 2, . . .). Vogliamo dimostrare che risulta Xn −→ X. Poich´e per ogni ε > 0 si ha  !  0, n ≤ 1 ! +∞ +∞  o o \n \n 1 ε , k=n k=n ε q.c.

segue immediatamente che la (9.2) e` soddisfatta; quindi Xn −→ X in virt`u del Teorema 9.1. ♦

Un primo corso in probabilit`a per scienze pure e applicate

301

Introduciamo ora una ulteriore forma di convergenza, detta convergenza in probabilit`a, P che sar`a denotata con la scrittura Xn −→ X. Definizione 9.2 Date una successione di variabili aleatorie X1 , X2 , . . . ed una variabile aleatoria X, tutte definite nello stesso spazio di probabilit`a (Ω, F , P ), la successione X1 , X2 , . . . si dice convergere in probabilit`a a X se per ogni ε > 0 risulta:  lim P (|Xn − X| < ε) = lim P {ω ∈ Ω : |Xn (ω) − X(ω)| < ε} = 1. (9.3) n→+∞

n→+∞

La Definizione 9.2 comporta che la convergenza in probabilit`a dipende in maniera essenziale dalla distribuzione congiunta delle coppie (Xn , X). Ci`o e` sottolineato dall’esempio che segue. Esempio 9.2 Consideriamo la successione X1 , X2 , . . . e la variabile aleatoria X tali che la distribuzione congiunta di (Xn , X) per ogni intero positivo e` la seguente: P (Xn = 0, X = 1) = P (Xn = 1, X = 0) = pn , 1 P (Xn = 0, X = 0) = P (Xn = 1, X = 1) = − pn , 2

con 0 ≤ pn ≤ 1/2. Sia X che Xn hanno pertanto distribuzione di Bernoulli di parametro 1/2. Osserviamo poi che si ha:  1 − 2pn , se 0 < ε ≤ 1 P (|Xn − X| < ε) = 1, se ε > 1. Da ci`o discende che se risulta

P

lim pn = 0, allora Xn −→ X in virt`u della Definizio-

n→+∞

ne 9.2. Notiamo che se la successione delle pn non tende a 0, la successione X1 , X2 , . . . non converge in probabilit`a ad X, pur essendo tali variabili tutte identicamente distribuite. ♦

La convergenza quasi certa e` pi`u forte della convergenza in probabilit`a come affermato dal teorema che segue. Teorema 9.2 Date una successione di variabili aleatorie X1 , X2 , . . . ed una variabile aleatoria X, tutte definite nello stesso spazio di probabilit`a (Ω, F , P ), si ha: q.c.

P

Xn −→ X =⇒ Xn −→ X. Dimostrazione Per ogni ε > 0 risulta: +∞ \



k=n

 ω ∈ Ω : |Xk (ω) − X(ω)| < ε ⊂ ω ∈ Ω : |Xn (ω) − X(ω)| < ε

e quindi P

+∞ \



k=n

ω ∈ Ω : |Xk (ω) − X(ω)| < ε



!

≤P

  ω ∈ Ω : |Xn (ω) − X(ω)| < ε .

302

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi q.c.

Pertanto, dall’ipotesi Xn −→ X e dalla (9.2), per ogni ε > 0 si ricava:   lim P ω ∈ Ω : |Xn (ω) − X(ω)| < ε ≥ 1, n→+∞



da cui, ricordando la Definizione 9.2, segue la tesi.

Un altro tipo di convergenza e` la convergenza in distribuzione, che definiamo qui di seguito. Definizione 9.3 Date una successione di variabili aleatorie X1 , X2 , . . . con rispettive funzioni di distribuzione FX1 (x), FX2 (x), . . . ed una variabile aleatoria X con funzione di distribuzione FX (x), la successione X1 , X2 , . . . converge in distribuzione a X se lim FXn (x) = FX (x)

n→+∞

(9.4)

in tutti i punti x ∈ R in cui FX (x) e` continua. d

La scrittura Xn −→ X denota la convergenza in distribuzione ad X della successione X1 , X2 , . . . . E` opportuno sottolineare che il limite di una successione di funzioni di distribuzione non e` necessariamente una funzione di distribuzione. Per assicurare la convergenza in distribuzione della successione di variabili aleatorie X1 , X2 , . . . e` necessario verificare che la successione FX1 (x), FX2 (x), . . . delle funzioni di distribuzione converga ad una funzione limite ed inoltre occorre verificare che tale funzione limite sia effettivamente una funzione di distribuzione in ogni suo punto di continuit`a. Comunque, la conoscenza dei valori della funzione FX (x) nei suoi soli punti di continuit`a e` sufficiente per la sua completa individuazione. Infatti, i valori di una funzione di distribuzione nei punti di discontinuit`a possono essere ricavati ricorrendo alla propriet`a di continuit`a a destra delle funzioni di distribuzione. E` utile osservare che la convergenza in distribuzione e` un tipo di convergenza piuttosto debole, la cui utilit`a principale consiste nel poter approssimare nei calcoli, per n sufficientemente grande, FXn (x) con la funzione di distribuzione limite FX (x). Esempio 9.3 Siano X1 , X2 , . . . variabili aleatorie indipendenti, ognuna a distribuzione geometrica di parametro p. Per n = 1, 2, . . . sia poi Yn = min(X1 , X2 , . . . , Xn ). Desideriamo d mostrare che Yn −→ Y, dove Y e` una variabile aleatoria degenere che assume il valore 1 con probabilit`a unitaria. Per la Definizione 9.3, occorre quindi dimostrare che per ogni y ∈ R − {1} risulta:  0, y < 1 lim FYn (y) = 1, y > 1. n→+∞ Ricordando la (4.16), in virt`u della (3.64) si ha:  0, y 1, cos`ı che in definitiva risulta Yn −→ Y.



Un primo corso in probabilit`a per scienze pure e applicate

303

Esempio 9.4 Siano X1 , X2 , . . . variabili aleatorie indipendenti, con Xi ∼ U(0, 1). Consideriamo le successioni Y1 , Y2 , . . . e Z1 , Z2 , . . . con Yn = min(X1 , X2 , . . . , Xn ),

Zn = n Yn

(n = 1, 2, . . .).

d

Desideriamo mostrare che Yn −→ Y, dove Y e` una variabile aleatoria degenere che assume il d valore 0 con probabilit`a unitaria e inoltre che Zn −→ Z, con Z di distribuzione esponenziale di valore medio 1. Per la Definizione 9.3, occorre quindi dimostrare che per ogni y ∈ R − {0} risulta:  0, y < 0 lim FYn (y) = 1, y > 0, n→+∞ e che per ogni z ∈ R si ha: lim FZn (z) =

n→+∞



0, 1 − e−z ,

z a. n→+∞ P

Allo scopo di mostrare che Xn −→ X, notiamo che per ogni ε > 0 risulta: P (|Xn − X| < ε) = P (|Xn − a| < ε) = P (a − ε < Xn < a + ε)   ε ε = FXn a + − FXn (a − ε). ≥ P a − ε < Xn ≤ a + 2 2

Pertanto per ogni ε > 0 si ottiene:

 ε lim P (|Xn − X| < ε) ≥ lim FXn a + − lim FXn (a − ε) = 1. n→+∞ n→+∞ n→+∞ 2

Poich´e la probabilit`a di un evento non pu`o essere maggiore dell’unit`a, da qui segue che P Xn −→ X.  Esempio 9.6 Data una successione X1 , X2 , . . . di variabili aleatorie indipendenti, tali che Xi ∼ U(0, ϑ), si consideri la successione Y1 , Y2 , . . . con Yn = max(X1 , X2 , . . . , Xn ). d

Desideriamo mostrare che Yn −→ Y, con Y variabile aleatoria degenere che assume il valore ϑ con probabilit`a unitaria. Per il Teorema 9.3 ci`o e` equivalente a richiedere che la successione Y1 , Y2 , . . . converga in distribuzione alla variabile aleatoria degenere Y, ossia che per ogni y ∈ R − {ϑ} risulti  0, y < ϑ lim FYn (y) = n→+∞ 1, y > ϑ. Dall’ipotesi di indipendenza e identica distribuzione delle variabili X1 , X2 , . . . , Xn , in virt`u delle (3.63) e (4.31) si ha: ( 0, n y < 0 y/ϑ , 0 ≤ y < ϑ FYn (y) = 1, y ≥ ϑ, da cui si ricava immediatamente limn→+∞ FYn (y) = 0 per y < ϑ, e limn→+∞ FYn (y) = 1 d

P

per y > ϑ. Pertanto Yn −→ Y e, per il Teorema 9.3, Yn −→ Y.



Lo studio della convergenza in distribuzione di successioni di variabili aleatorie attraverso l’uso della Definizione 9.3 e` spesso eccessivamente complicato richiedendo la conoscenza di tutte le funzioni di distribuzione coinvolte. Una valida alternativa consiste nel far ricorso alle funzioni generatrici dei momenti che, se finite in un intorno dell’origine, individuano univocamente le funzioni di distribuzione. Se la funzione generatrice dei momenti non e` finita in un intorno dell’origine, si rende necessario ricorrere alla funzione caratteristica cui si e` accennato nel Paragrafo 5.8.1. Riportiamo ora gli enunciati di alcuni importanti teoremi la dimostrazione di alcuni dei quali eccede i limiti della presente trattazione.

306

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi d

Teorema 9.4 Se Xn −→ X e se si suppone che le funzioni generatrici dei momenti MXn (s) (n = 1, 2, . . .) e MX (s) sono finite in un intorno |s| < s0 , con s0 > 0, allora la successione MX1 (s), MX2 (s), . . . converge a MX (s) = E(es X ) per ogni s appartenente a tale intorno. Teorema 9.5 Se una successione MX1 (s), MX2 (s), . . . di funzioni generatrici dei momenti converge a una funzione limite M0 (s) continua in un intorno |s| < s0 , con s0 > 0, allora d

M0 (s) e` essa stessa una funzione generatrice dei momenti e Xn −→ X, dove X e` una variabile aleatoria di cui M0 (s) e` la funzione generatrice dei momenti.

Esempio 9.7 Sia X1 , X2 , . . . una successione di variabili aleatorie e si supponga che per n = 1, 2, . . . risulti: 1  , x = 0, 1 , 2 , . . . , n − 1 n n n pXn (x) = n  0, altrimenti.

In virt`u della (5.96), possiamo calcolare la funzione generatrice dei momenti di Xn : MXn (s) =

n−1 X k=0

es k/n

n−1 1 1 X  s/n k 1 1 − es = e = n n n 1 − es/n k=0

(n = 1, 2, . . .),

da cui, utilizzando la regola di De L’Hospital, si ottiene: M0 (s) = lim MXn (s) = n→+∞

es − 1 · s

Come mostrato nel Paragrafo 5.8.3, M0 (s) si riconosce essere la funzione generatrice dei d

momenti di una variabile aleatoria X ∼ U (0, 1). Dal Teorema 9.5 si trae quindi che Xn −→ X. ♦ Sussiste inoltre il seguente teorema, che ci limitiamo ad enunciare. Teorema 9.6 Date una successione di variabili aleatorie X1 , X2 , . . . ed una variabile alead toria X tutte definite nello stesso spazio di probabilit`a (Ω, F , P ), risulta Xn −→ X se e solo se lim E[g(Xn )] = E[g(X)] n→+∞

per ogni funzione g(x) continua e limitata. Il Teorema 9.6 prende in considerazione soltanto funzioni g limitate, cos`ı che quando questa d condizione non e` rispettata e Xn −→ X, non e` detto che lim E[g(Xn )] sia E[g(X)], n→+∞

come mostra il seguente esempio.

Esempio 9.8 Sia X1 , X2 , . . . una successione di variabili aleatorie con   1 − 1/n, x = 0 pXn (x) = 1/n, x=n  0, altrimenti

Un primo corso in probabilit`a per scienze pure e applicate

307

per n = 1, 2, . . . , cos`ı che Xn e` caratterizzata dalla seguente funzione di distribuzione:  x 0 si ha:

ovvero:

o n Y − E(Y ) n n lim P < ε = 1, n→+∞ n

(9.25)

Yn − E(Yn ) P −→ 0. n

Dimostrazione Utilizzando la disuguaglianza di Chebyshev (8.9), per ogni ε > 0 risulta: o Var(Y ) n Y − E(Y ) 1 Var(X1 ) + . . . + Var(Xn ) n n n P = 2 , ≥ε ≤ n n2 ε2 ε n2

dove l’uguaglianza segue dalla propriet`a additiva della varianza di somme di variabili aleatorie indipendenti. Pertanto: n Y − E(Y ) o o n Y − E(Y ) 1 σ 2 + . . . + σn2 n n n n P , 0 Yn − E(Yn ) P −→ 0. n Dimostrazione Basta osservare che se le varianze σ12 , σ22 , . . . sono uniformemente limitate, ossia se esiste un reale C > 0 tale che σk2 ≤ C per k = 1, 2, . . . , allora risulta: C σ12 + . . . + σn2 ≤ , 2 n n cos`ı che la condizione (9.24) e` sempre soddisfatta.



Si noti che se X1 , X2 , . . . e` una successione di variabili aleatorie indipendenti e identicamente distribuite con valore medio µ finito e varianza σ 2 finita, la legge debole dei grandi numeri di Chebyshev afferma che la media campionaria converge in probabilit`a a µ, ossia che P si ha X n −→ µ. In questo caso, e` possibile ottenere un risultato pi`u forte di quello fornito dalla legge debole dei grandi numeri di Chebyshev rilassando l’ipotesi della finitezza della varianza. Ci`o e` espresso nel seguente teorema, dovuto a Khintchin. Teorema 9.11 (Legge debole dei grandi numeri di Khintchin) Sia X1 , X2 , . . . una successione di variabili aleatorie indipendenti e identicamente distribuite, dotate di valore medio µ finito. Allora per ogni ε > 0 si ha:  (9.26) lim P X n − µ < ε = 1, n→+∞

P

ossia X n −→ µ.

Dimostrazione La dimostrazione si basa su di una tecnica usata per la prima volta da Markov nel 1907 e successivamente chiamata “metodo del troncamento”. Sia α > 0 fissato e per k = 1, 2, . . . , n si ponga:   Xk , |Xk | < α n 0, |Xk | < α n Yk = Zk = 0, |Xk | ≥ α n, Xk , |Xk | ≥ α n. Ovviamente, per k = 1, 2, . . . , n, si ha Xk = Yk + Zk . Inoltre, le variabili Y1 , Y2 , . . . , Yn (cos`ı come le variabili Z1 , Z2 , . . . , Zn ) sono indipendenti e identicamente distribuite. Indichiamo con Y n e Z n rispettivamente le medie campionarie di Y1 , Y2 , . . . , Yn e di Z1 , Z2 , . . . ,

314

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Zn . Denotato con µn e σn2 il valore medio e la varianza di ognuna delle Yk , per la legge delle alternative si ha: µn = E(Yk ) = E{Yk |Xk | < α n} P (|Xk | < α n) + E{Yk |Xk | ≥ α n} P (|Xk | ≥ α n) = E{Xk |Xk | < α n} P (|Xk | < α n), (9.27) σn2 = E(Yk2 ) − [E(Yk )]2 ≤ E(Yk2 ) = E{Yk2 |Xk | < α n} P (|Xk | < α n) + E{Yk2 |Xk | ≥ α n} P (|Xk | ≥ α n) = E{Xk2 |Xk | < α n} P (|Xk | < α n) ≤ α n E(|Xk |) = α n γ ,

(9.28)

dove si e` posto γ = E(|Xk |). Quando n → +∞, dalla (9.27) segue che limn→+∞ µn = E(Xk ) = µ. Quindi, per ogni ε > 0 esiste un reale n0 tale che per ogni n ≥ n0 risulta |µn − µ| < ε/2. Ci`o implica che sussistono le seguenti disuguaglianze: µ − ε < µn −

ε ε < µ < µn + < µ + ε. 2 2

Sfruttando queste, per n ≥ n0 segue: P (|Y n − µ| ≥ ε) = P (Y n ≥ µ + ε) + P (Y n ≤ µ − ε)    ε ε ε ≤ P Y n ≥ µn + + P Y n ≤ µn − = P |Y n − µn | ≥ . 2 2 2

(9.29)

Dalla disuguaglianza di Chebyshev (8.9), in virt`u delle (9.20) e (9.28), per n = 1, 2, . . . scaturisce poi:  4 σn2 4αγ ε  4 Var(Y n ) ≤ = ≤ 2 · P |Y n − µn | ≥ 2 2 2 ε nε ε

Quindi, dalla (9.29) per n ≥ n0 si ottiene:

P (|Y n − µ| ≥ ε) ≤

δ , 2

dove si e` posto δ = 8 α γ/ε2 . Osserviamo ora che    P |X n − µ| ≥ ε = P |X n − µ| ≥ ε, Z n = 0 + P |X n − µ| ≥ ε, Z n 6= 0   ≤ P |Y n − µ| ≥ ε + P Z n 6= 0 .

(9.30)

(9.31)

Una limitazione per il primo addendo nell’ultimo termine della (9.31) e` data dalle (9.30). Determiniamo ora una limitazione per l’ultimo addendo. Osserviamo a tal fine che risulta: n X   P Z n 6= 0 = P Zk 6= 0 k=1



n X

k=1

P (Zk 6= 0) =

n X

k=1

  P |Xk | ≥ α n = n P |X1 | ≥ α n .

(9.32)

Un primo corso in probabilit`a per scienze pure e applicate

315

Notiamo ora che ponendo A = {ω ∈ Ω : |X1 (ω)| ≥ α n},

IA (ω) =



0, ω ∈ A 1, ω ∈ A,

risulta |X1 | IA ≥ α n IA , da cui segue:   E |X1 | IA ≥ α n E(IA ) = α n P (|X1 | ≥ α n), ossia

P (|X1 | ≥ α n) ≤ Facendo uso della (9.33) nella (9.32), si ha poi:

  1 E |X1 | IA . αn

(9.33)

  1  P Z n 6= 0 ≤ E |X1 | IA . α   Per l’ipotesi di finitezza del valore medio, E |X1 | IA tende a zero per n → +∞, da cui  segue limn→+∞ P Z n 6= 0 = 0. Quindi, per ogni δ > 0 esiste un reale n1 tale che per ogni n ≥ n1 risulta:  δ P Z n 6= 0 ≤ · (9.34) 2 Utilizzando le (9.30) e (9.34) nella (9.31), possiamo pertanto concludere che per ogni ε > 0 esiste un reale n2 = max(n0 , n1 ) tale che P |X n − µ| ≥ ε ≤ δ per ogni n ≥ n2 , da cui segue la (9.26). La dimostrazione e` cos`ı completa.  In sintesi il teorema di Khintchin afferma che se X1 , X2 , . . . sono variabili aleatorie indipendenti e identicamente distribuite con valore medio finito, allora la media campionaria X n converge in probabilit`a al valore medio µ. Nel seguente esempio e` indicata un’applicazione della legge debole dei grandi numeri di Khintchin che trova anche applicazione nella stima di integrali definiti utilizzando metodi di simulazione di tipo Monte Carlo. Esempio 9.11 Siano X1 , X2 , . . . , Xn e Y1 , Y2 , . . . , Yn variabili aleatorie indipendenti distribuite uniformemente in (0, 1). Si definiscano poi le seguenti variabili aleatorie:  1 se Yi ≤ g(Xi ) Zi = (i = 1, 2, . . . , n), 0 se Yi > g(Xi ) dove g: (0, 1) → (0, 1) e` una funzione integrabile. Posto n

Zn =

1X Zi n i=1

(n = 1, 2, . . .),

analizziamo la convergenza in probabilit`a della successione {Z n ; n = 1, 2, . . .}. Notiamo che le variabili aleatorie Z1 , Z2 , . . . , Zn hanno distribuzione di Bernoulli, cos`ı che risulta: Z +∞ E(Zi ) = P (Zi = 1) = P [Yi ≤ g(Xi )] = P {Yi ≤ g(Xi ) | Xi = x} fXi (x) dx. −∞

316

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Dall’ipotesi che Xi e Yi hanno distribuzione uniforme in (0, 1), si ricava: E(Zi ) =

Z

0

1

P {Yi ≤ g(x)} dx =

Z

1

g(x) dx

(i = 1, 2, . . . , n),

0

e quindi E(Z n ) =

X  Z 1 n 1 E Zi = E(Zi ) = g(x) dx n 0 i=1

(n = 1, 2, . . .).

Poich´e Z1 , Z2 , . . . , Zn sono indipendenti e identicamente distribuite, in virt`u del Teorema 9.11 si trae: Z 1 P Z n −→ g(x) dx. (9.35) 0

Tale risultato e` alla base di un metodo di simulazione di tipo Monte Carlo per determinare una R1 stima dell’integrale 0 g(x) dx quando questo e` difficile da calcolare per via analitica. A tal fine si generano n punti, le coordinate (Xi , Yi ) di ciascuno dei quali sono coppie indipendenti di variabili uniformi in (0, 1) × (0, 1). Risulta quindi che Xi ∼ U(0, 1) e Yi ∼ U(0, 1) per i = 1, 2, . . . , n. Associamo a Zi il valore 0 se il punto cade al di sopra del grafico della funzione g(x) ed il valore 1 se il punto si presenta al di sotto o sul grafico stesso. La media campionaria Z n descrive quindi la frequenza relativa del numero di punti che cadono al di sotto del grafico o sul grafico. In virt`u della (9.35), Z n fornisce un’approssimazione dell’integrale considerato che ci si attende migliori al crescere del numero di punti generati. ♦ Abbiamo visto che nelle sue diverse formulazioni la legge debole dei grandi numeri coinvolge la convergenza in probabilit`a. E` possibile esprimere analoghi risultati mediante il criterio pi`u forte della convergenza quasi certa; in tal caso si parla di legge forte dei grandi numeri. Nel seguito di questo paragrafo ci limitiamo ad enunciarne due varianti omettendone peraltro le dimostrazioni. Teorema 9.12 (Prima legge forte dei grandi numeri) Sia X1 , X2 , . . . una successione di variabili aleatorie indipendenti aventi valori medi finiti e varianze σn2 = Var(Xn ) finite, e sia Yn = X1 + X2 + . . . + Xn . Se risulta σ12 + . . . + σn2 < +∞, n→+∞ n2 lim

allora si ha:

Yn − E(Yn ) q.c. −→ 0. n

(9.36)

Una conseguenza immediata del Teorema 9.12 e` il seguente Corollario 9.2 Sia X1 , X2 , . . . una successione di variabili aleatorie indipendenti aventi valori medi finiti e varianze σ12 , σ22 , . . . uniformemente limitate. Posto Yn = X1 + X2 + . . . + Xn , sussiste la (9.36).

Un primo corso in probabilit`a per scienze pure e applicate

317

Se X1 , X2 , . . . e` una successione di variabili aleatorie indipendenti e identicamente distribuite con valore medio µ finito e` possibile ottenere un risultato pi`u forte. Ci`o e` espresso dal seguente Teorema 9.13 (Seconda legge forte dei grandi numeri di Kolmogorov) Sia X1 , X2 , . . . una successione di variabili aleatorie indipendenti e identicamente distribuite con valore medio µ. La finitezza di µ e` condizione necessaria e sufficiente affinch´e risulti: q.c.

X n −→ µ.

(9.37)

Nel caso di una successione di variabili aleatorie indipendenti e identicamente distribuite con valore medio µ, la (9.37) mostra dunque che al crescere di n la media campionaria X n tende a µ con probabilit`a unitaria. 9.5

Convergenze di distribuzioni binomiali

Il teorema di convergenza e le leggi dei grandi numeri rivestono notevole interesse nel caso particolare in cui le variabili aleatorie X1 , X2 , . . . sono indipendenti con Xi ∼ B(1, p) per i = 1, 2, . . . . Come mostrato nella Proposizione 4.1, Yn = X1 + X2 + . . . + Xn ha in tal caso distribuzione binomiale di parametri n e p, ossia Yn ∼ B(n, p). Pertanto, per n = 0, 1, . . . si ha:     n px (1 − p)n−x , x = 0, 1, . . . , n x (9.38) pYn (x) =   0, altrimenti. Il calcolo delle probabilit`a (9.38) diviene rapidamente oneroso al crescere di n; a maggior ragione tale risulta il calcolo diretto della funzione di distribuzione  0, x 10 e per 5/n < p < 1 − 5/n. Dalle (9.40) e (9.41), per n grande si ricavano le seguenti approssimazioni: ! w − np P (Yn ≤ w) ≃ Φ p (w ∈ R), (9.42) n p (1 − p) ! ! a − np b − np −Φ p (a, b ∈ R, a < b). (9.43) P (a < Yn ≤ b) ≃ Φ p n p (1 − p) n p (1 − p)

Esempio 9.12 Un esperimento consiste nel ripetere 60 volte l’estrazione (con reinserimento) di una biglia da un’urna contenente 50 biglie, 15 delle quali sono bianche. Sia Y60 la variabile aleatoria che descrive il numero totale di biglie bianche estratte. Poich´e essa ha distribuzione binomiale di parametri n = 60 e p = 15/50 = 0.3, la probabilit`a che il numero di biglie bianche estratte sia compreso tra 11 e 30 e` : P (10 < Y60 ≤ 30) =

30   X 60 (0.3)k (0.7)n−k = 0.985758. k

k=11

Un’approssimazione di tale probabilit`a, in virt`u della (9.43), e` poi la seguente:     30 − 60 · 0.3 10 − 60 · 0.3 = 0.987532. P (10 < Y60 ≤ 30) ≃ Φ √ −Φ √ 60 · 0.3 · 0.7 60 · 0.3 · 0.7 Si noti come il valore approssimato appena ricavato non si discosta molto dal valore esatto differendo da questo soltanto dello 0.18%. ♦

Un primo corso in probabilit`a per scienze pure e applicate

319

Nel teorema di De Moivre-Laplace si e` supposto che la successione Y1 , Y2 , . . . sia costituita da variabili aleatorie a distribuzione binomiale con lo stesso parametro p, ossia che Yn ∼ B(n, p) per n = 0, 1, . . . . Vogliamo ora modificare questa ipotesi supponendo che la successione Y1 , Y2 , . . . sia costituita da variabili aleatorie tali che Yn ∼ B(n, pn ) per n = 0, 1, . . . , dove la probabilit`a pn e` tale che lim n pn = λ, con λ > 0. n→+∞

Teorema 9.15 Sia Y1 , Y2 , . . . una successione di variabili aleatorie tali che per n = 0, 1, . . . risulti Yn ∼ B(n, pn ). Se pn , al divergere di n, tende a zero in modo tale che n pn → λ, con λ > 0, allora la successione Y1 , Y2 , . . . converge in distribuzione alla variabile aleatoria di Poisson di parametro λ: d Yn −→ Y, con Y ∼ P(λ).

Dimostrazione Essendo Yn ∼ B(n, pn ), come mostrato nel Paragrafo 5.8.3 la sua funzione generatrice dei momenti e` :  n h n pn (es − 1) in . MYn (s) = 1 − pn + pn es = 1 + n

Poich´e per ipotesi n pn → λ, al limite per n → +∞ si ricava: n o lim MYn (s) = exp λ(es − 1) , n→+∞, pn →0 n pn →λ

che si riconosce essere la funzione generatrice dei momenti della variabile Y ∼ P(λ) (v. d

Paragrafo 5.8.3). Dal Teorema 9.5 segue quindi Yn −→ Y.



Si noti che abbiamo gi`a incontrato in precedenza la convergenza della distribuzione binomiale a quella di Poisson. Invero, nella Proposizione 4.7 abbiamo mostrato che se Y1 , Y2 , . . . e` una successione di variabili aleatorie tali che risulti Yn ∼ B(n, pn ) per n = 0, 1, . . . , e se pn al divergere di n tende a zero in modo tale che n pn → λ > 0, allora lim

n→+∞, pn →0 n pn →λ

pYn (k) =

λk −λ e k!

(k = 0, 1, . . .).

Dal Teorema 9.15, per n grande e posto λ = n p, si ottiene la seguente approssimazione: P (Yn ≤ x) ≃ P (Y ≤ x), dove Yn ∼ B(n, p) e Y ∼ P(n p). E` opportuno menzionare che la distribuzione di Poisson costituisce una buona approssimazione della distribuzione binomiale allorch´e n ≥ 20 e p ≤ 0.05; se poi e` n ≥ 100 e n p ≤ 10 l’approssimazione diviene eccellente.  Le Tabelle 9.1 e 9.2 riportano la funzione di distribuzione binomiale P Yn ≤ x , l’approssimazione (9.42) e la distribuzione di Poisson P Y ≤ x per alcune scelte di x. Nella Tabella 9.1 si e` scelto n = 20, p = 0.05 e λ = n p = 1. Si noti che essendo p piccolo e n grande, l’approssimazione di Poisson fornisce risultati migliori rispetto a quelli forniti dalla distribuzione normale.

320

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Tabella 9.1– Confronto tra la funzione di distribuzione binomiale, l’approssimazione fornita dalla (9.42) e la distribuzione di Poisson per x = 0, 1, . . . , 7 e per n = 20, p = 0.05 e λ = n p = 1.

p = 0.05, n = 20

« „ Normale x − np Φ p n p (1 − p) p = 0.05, n = 20

P (Y ≤ x)

x

Binomiale “ ” P Yn ≤ x

Poisson

0 1 2 3 4 5 6 7

0.3585 0.7359 0.9246 0.9842 0.9975 0.9997 1.0000 1.0000

0,1515 0.5000 0.8485 0.9798 0.9990 1.0000 1.0000 1.0000

0.3679 0.7358 0.9197 0.9810 0.9963 0.9994 0.9999 1.0000

λ=1

Nella Tabella 9.2 si e` invece scelto n = 20, p = 0.5 e λ = n p = 10; a differenza del precedente caso l’approssimazione normale fornisce risultati migliori rispetto all’approssimazione di Poisson. Osserviamo che se X1 , X2 , . . . sono indipendenti, con Xi ∼ B(1, p) per i = 1, 2, . . . , allora X1 + X2 + . . . + X n (n = 1, 2, . . .) (9.44) Fn = n rappresenta la frequenza relativa dei successi in n prove indipendenti di Bernoulli. Il ben noto Teorema di Jacques Bernoulli, pubblicato nella sua “Ars conjectandi” nel 1713, fornisce una relazione tra la frequenza (9.44) e la probabilit`a p di successo in ogni singola prova, come specificato dal teorema che segue. Teorema 9.16 (Teorema di Bernoulli) Sia X1 , X2 , . . . una successione di variabili aleatorie indipendenti aventi distribuzione di Bernoulli di parametro p, e sia Fn = (X1 + X2 + . . . + Xn )/n. Allora per ogni ε > 0 si ha:  lim P Fn − p < ε = 1, (9.45) n→+∞

P

ossia Fn −→ p.

Dimostrazione Essendo le variabili aleatorie X1 , X2 , . . . indipendenti con distribuzione di Bernoulli di parametro p, risulta E(Xi ) = p per i = 1, 2, . . . . In virt`u del Teorema 9.11 per ogni ε > 0 segue: n n X + . . . + X o 1 n lim P Fn − p < ε = lim P − p < ε = 1. n→+∞ n→+∞ n



Un primo corso in probabilit`a per scienze pure e applicate

321

Tabella 9.2– Confronto tra la funzione di distribuzione binomiale, l’approssimazione (9.42) e la distribuzione di Poisson per x = 10, 11, . . . , 18 e per n = 20, p = 0.5 e λ = n p = 10.

p = 0.5, n = 20

« „ Normale x − np Φ p n p (1 − p) p = 0.5, n = 20

P (Y ≤ x)

x

Binomiale “ ” P Yn ≤ x

Poisson

10 11 12 13 14 15 16 17 18

0.5881 0.7483 0.8684 0.9423 0.9793 0.9941 0.9987 0.9998 1.0000

0.5000 0.6736 0.8133 0.9099 0.9633 0.9875 0.9963 0.9991 1.0000

0.4580 0.5831 0.6968 0.7916 0.8645 0.9166 0.9513 0.9730 0.9858

λ = 10

Il Teorema di Bernoulli mostra che la frequenza relativa Fn dei successi quando il numero di prove tende all’infinito, converge in probabilit`a al valore p della probabilit`a di successo in ogni singola prova. Si noti che sussiste un’analogia tra il risultato del Teorema di Bernoulli e la legge empirica del caso, la quale afferma che in una successione di prove ripetute nelle stesse condizioni, la frequenza relativa di un evento si avvicina alla probabilit`a dell’evento stesso, con l’approssimazione che tende a migliorare all’aumentare del numero delle prove. Occorre per`o sottolineare che la legge empirica del caso e` un postulato di natura sperimentale che trae origine da fenomeni reali osservati, mentre il risultato espresso dal Teorema 9.16 e` una conseguenza del modello teorico ricavato a partire dall’assiomatizzazione della teoria della probabilit`a. Teorema 9.17 Sia X1 , X2 , . . . una successione di variabili aleatorie indipendenti di distribuzione di Bernoulli di parametro p e sia Yn = X1 + X2 + . . . + Xn . Allora per ogni ε > 0 si ha: n o lim P Yn − n p < ε = 0. (9.46) n→+∞

Dimostrazione Ragionando rapidamente, notiamo che facendo uso della (9.43), per ogni ε > 0 e pern grande si ricava: n o   P Yn − n p < ε = P n p − ε < Yn < n p + ε = P n p − ε < Yn ≤ ⌈n p + ε⌉ − 1 ! ! (n p − ε) − n p ⌈n p + ε⌉ − 1 − n p p ≃Φ −Φ p , n p (1 − p) n p (1 − p)

dove ⌈x⌉ denota il minimo intero maggiore o uguale a x. Per le propriet`a della funzione Φ(x), quando n → +∞ si ottiene pertanto la (9.46). 

322

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

Il Teorema 9.17 mostra che, per ogni arbitrario ε > 0, al crescere del numero delle prove tende a 0 la probabilit`a che il numero dei successi Yn e il numero medio di successi np differiscano per meno di ε. Ad esempio, nell’esperimento consistente nel lanciare un numero elevato di volte una moneta non truccata, il numero totale di uscite di Testa non e` necessariamente prossimo a n/2. Questo risultato e` tanto pi`u evidente quando si consideri un gioco d’azzardo consistente in una successione di partite tali che in ogni singola partita si lancia una moneta non truccata e si vince, ad esempio, 1 euro se esce Testa mentre si perde 1 euro se esce Croce. In base del Teorema 9.17, al crescere del numero delle partite ci si deve attendere una vincita o una perdita non necessariamente prossime a zero. Nel Teorema di Bernoulli si e` supposto implicitamente che le prove siano effettuate nelle medesime condizioni. Il seguente teorema considera il caso in cui le prove non sono effettuate nelle medesime condizioni e mostra che esiste una relazione tra la frequenza (9.44) e la media aritmetica delle probabilit`a di successo nelle singole prove. Teorema 9.18 (Teorema di Poisson) Sia X1 , X2 , . . . una successione di variabili aleatorie indipendenti tali che per i = 1, 2, . . . risulti Xi ∼ B(1, pi ) e sia Fn = (X1 + X2 + . . . + Xn )/n. Allora per ogni ε > 0 risulta: n o p1 + p2 + . . . + pn lim P Fn − (9.47) < ε = 1, n→+∞ n P

ossia Fn −→ (p1 + p2 + . . . + pn )/n.

Dimostrazione Essendo X1 , X2 , . . . indipendenti e tali che Xi ∼ B(1, pi ) per i = 1, 2, . . . , si ha: X + X + . . . + X  p + p + . . . + p 1 2 n 1 2 n E(Fn ) = E = n n n X + X + . . . + X  1 X 1 2 n = 2 pi (1 − pi ). Var(Fn ) = Var n n i=1 Poich´e pi (1 − pi ) ≤ 1/4, segue che Var(Fn ) ≤

1 n 1 1 = ≤ · n2 4 4n 4

Essendo soddisfatte le ipotesi del Teorema 9.10 di Chebyshev, dalla (9.25) segue immediatamente la (9.47).  L’interesse di questo teorema risiede nella circostanza che, a differenza del sopra riportato teorema di Bernoulli, esso non richiede che ci si riferisca a prove ripetute con probabilit`a costante di successo in ciascuna di esse, essendo previsto che ciascuna prova possa essere caratterizzata da una propria specifica probabilit`a di successo.

Appendice A Variabili aleatorie discrete

Qui sono riportate tabelle riassuntive relative a variabili aleatorie discrete. In particolare, nella Tabella A.1 sono elencate le funzioni di probabilit`a, nella Tabella A.2 sono riportati i valori medi, le varianze ed i coefficienti di variazione e nella Tabella A.3 sono indicate le funzioni generatrici di probabilit`a e dei momenti di tali variabili aleatorie. Infine, nella Tabella A.4 si considerano le funzioni di probabilit`a multinomiale e ipergeometrica multivariata. Tabella A.1 – Funzioni di probabilit`a di variabili aleatorie discrete. Distribuzione

Uniforme discreta

Bernoulli

Binomiale

Notazione

X ∼ Ud (n)

X ∼ B(1, p)

X ∼ B(n, p)

Funzione di probabilit`a 8 < 1, n pX (x) = : 0, pX (x) =

(

x = 1, 2, . . . , n

(n = 1, 2, . . .)

altrimenti

1 − p, x = 0 p, x=1 0, altrimenti

(0 < p < 1)

8 “n ” < px (1 − p)n−x , x pX (x) = : 0,

x = 0, 1, . . . , n altrimenti

(n = 1, 2, . . . ; 0 < p < 1)

Ipergeometrica

X ∼ I(n, m, N − m)

8“ ”“ m N − m” > > > > n−x < x , “N ” pX (x) = > > > n > : 0,

x ≥ max{0, n + m − N } x ≤ min{n, m} altrimenti

(N = 1, 2, . . . ; m = 0, 1, . . . , N ; n = 0, 1, . . . , N )

Geometrica

X ∼ BN (1, p)

pX (x) =

Binomiale negativa

X ∼ BN (n, p)

pX (x) =



p (1 − p)x−1 , 0,

x = 1, 2, . . . altrimenti

8“ ” < x − 1 pn (1 − p)x−n , n−1 : 0,

(0 < p < 1)

x = n, n + 1, . . . altrimenti

(n = 1, 2, . . . ; 0 < p < 1)

Poisson

X ∼ P(λ)

8 x < λ e−λ , x = 0, 1, . . . x! pX (x) = : 0, altrimenti

(λ > 0)

324

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi Tabella A.2 – Valori medi, varianze e coefficienti di variazione di variabili discrete. Distribuzione

Valore medio

Varianza

Coefficiente di variazione

E(X)

Var(X)

CX

Uniforme discreta

n+1 2

n2 − 1 12

Bernoulli

p

p(1 − p)

s

1−p p

Binomiale

np

np(1 − p)

s

1−p np

Ipergeometrica

nm N

nm(N − m)(N − n) N 2 (N − 1)

Geometrica

1 p

1−p p2



Binomiale negativa

n p

n(1 − p) p2

r

Poisson

λ

λ

s

s

n−1 3 (n + 1)

(N − m) (N − n) n m (N − 1) 1−p 1−p n 1 √ λ

Un primo corso in probabilit`a per scienze pure e applicate

325

Tabella A.3 – Funzioni generatrici di variabili discrete. Distribuzione

Uniforme discreta

Funzione generatrice di probabilit`a

Funzione generatrice dei momenti

GX (z)

MX (s)

z(1 − z n ) n(1 − z)

(z ∈ R)

Bernoulli

1 − p + pz

Binomiale

(1 − p + pz)n

Ipergeometrica

Geometrica

Binomiale negativa

Poisson

(z ∈ R) “

(z ∈ R)

es (1 − esn ) n(1 − es )

(s ∈ R)

1 − p + p es

(s ∈ R)

1 − p + p es

pz 1 − (1 − p) z



!n

eλ(z−1)

|z| < (1 − p)−1



p es 1 − (1 − p) es



|z| < (1 − p)−1

(z ∈ R)

(s ∈ R)

Polinomio in es

Polinomio in z pz 1 − (1 − p) z

”n



p es 1 − (1 − p) es e

(s < − ln(1 − p))

!n

λ(es −1)

(s < − ln(1 − p))

(s ∈ R)

326

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi Tabella A.4 – Funzioni di probabilit`a di alcuni vettori aleatori discreti. Funzione di probabilit`a di X = (X1 , X2 , . . . , Xk )

Distribuzione

Multinomiale

pX (x) =

8 > > > < > > > :

n! x x x p 1 p 2 · · · pkk , xi = 0, 1, . . . , n (i = 1, 2, . . . , k), x1 ! x2 ! · · · xk ! 1 2 x1 + x2 + . . . + xk = n 0,

altrimenti, (0 < pi < 1 per i = 1, 2, . . . , k; p1 + p2 + . . . + pk = 1)

....................................................................................... E(Xi ) = n pi ,

Var(Xi ) = n pi (1 − pi )

Cov(Xi , Xj ) = −n pi pj

Ipergeometrica multivariata

8 “ ”“ ” “N ” N1 N2 k > > ... > > < x1 x2 xk , “N ” pX (x) = > > > n > : 0,

(i = 1, 2, . . . , k)

(i, j = 1, 2, . . . , k; i 6= j)

0 ≤ xi ≤ Ni (i = 1, 2, . . . , k), x1 + x2 + . . . + xk = n altrimenti,

(n, N1 , N2 , . . . , Nk interi positivi, N = N1 + N2 + . . . + Nk )

Appendice B Variabili aleatorie continue Si riportano qui tabelle riassuntive relative a variabili aleatorie assolutamente continue. In particolare, nelle Tabelle B.1 e B.2 sono elencate le densit`a di probabilit`a, nella Tabella B.3 sono riportati i valori medi, le varianze ed i coefficienti di variazione e nella Tabella B.4 sono indicate le funzioni generatrici dei momenti di tali variabili aleatorie. Infine, la Tabella B.5 si riferisce alla densit`a di probabilit`a normale bivariata. Tabella B.1 – Densit`a di probabilit`a di variabili aleatorie continue. Distribuzione

Uniforme

Esponenziale

Erlang

Notazione

Funzione densit`a di probabilit`a

X ∼ U (a, b)

fX (x) =

X ∼ E(1, λ)

fX (x) =

X ∼ E(n, λ)

8 < :

1 , b−a

0,

8 < λ e−λ x , :

0,

a 0) altrimenti

8 n n−1 > 0 fX (x) = (n − 1)! > : 0, altrimenti (λ > 0, n = 1, 2, . . .)

Gamma

X ∼ G(ν, λ)

8 ν ν−1 >

: 0,

x>0 altrimenti

(λ > 0, ν > 0)

Iperesponenziale

8 n X > −λ x < ai λi e i , fX (x) = i=1 > : 0,

x>0 altrimenti

(λi > 0, ai ≥ 0, a1 + a2 + . . . + an = 1)

Weibull

fX (x) =

8 < α λ xα−1 exp{−λ xα }, x > 0 :

0,

(α > 0, λ > 0)

altrimenti

328

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi Tabella B.2 – Densit`a di probabilit`a di variabili aleatorie continue. Distribuzione

Normale

Notazione

X ∼ N (µ, σ)

Funzione densit`a di probabilit`a

fX (x) =

( ) 1 (x − µ)2 exp − , √ 2 σ2 σ 2π

x∈R

(µ ∈ R, σ > 0) fX (x) =

Laplace

) ( 1 |x − α| , exp − 2β β

x∈R

(α ∈ R, β > 0)

Chi-quadrato

2

X ∼ χ (n)

fX (x) =

8 > > > < > > > :

1 2n/2

n 2

Γ

! e−x/2 xn/2−1 ,

0,

x>0

altrimenti

(n = 1, 2, . . .)

Cauchy

X ∼ T (1)

fX (x) =

1 , π (1 + x2 )

Γ Student

X ∼ T (n)

fX (x) =



n+1 2

nπΓ

!

n 2

!

x∈R

1+

x2 n

!−(n+1)/2

,

x∈R

(n = 1, 2, . . .)

Beta

X ∼ Be(α, β)

8 < Γ(α + β) xα−1 (1 − x)β−1 , 0 < x < 1 fX (x) = Γ(α) Γ(β) : 0, altrimenti (α > 0, β > 0)

Un primo corso in probabilit`a per scienze pure e applicate

329

Un primo corso in probabilit`a per scienze pure e applicate

329

Tabella B.3 – Valori medi, varianze e coefficienti di variazione di variabili continue. Distribuzione

Valore medio

Varianza

Coefficiente di variazione

Distribuzione Uniforme

Valore a + b medio E(X) 2

Varianza (b − a)2 Var(X) 12

Coefficiente b −diavariazione √ CX 3 (a + b)

Uniforme Esponenziale

a 1+b λ2

(b −1 a)2 122 λ

Esponenziale Erlang

1 n λ

1 n λ2

1 √1 n

Erlang Gamma

n ν λ λ

n ν 2 λ λ2

1 1 √ √n ν

Gamma Iperesponenziale

ν n X λ aj λ j=1 j

32 ν2 n n X aj λ2 X aj 5 2 −4 λ2 λ j=1 j j=1 j

1 √ ν

Tabella B.3 – Valori medi, varianze e coefficienti di variazione di variabili continue. E(X) Var(X) CX

Iperesponenziale Weibull

n X aj “ 1” −1/α λ jΓ 1+ j=1 λ α −1/α

“ 1” Γ 1+ α



b−a 3 (a1 + b)

2 32 n n X X aj aj " # 4 2 “ 2 − “ 5 1” 2” −2/α 2 j j=1 j=1 Γ 1λ+ λ − Γ λj1 + α α −2/α

"

#

“ “ 2” 1” 2 Γ 1 + σ2 − Γ 1 + α α

σ µ

Weibull Normale

λ µ

Normale Laplace

µ α

σ2 2 β2

β

Laplace Chi-quadrato

α n

22βn2

r√ β 22 αn

Cauchy Chi-quadrato

non esiste n

Cauchy Student

non esiste 0

Student

λ

r

non esiste 2n +∞ n n−2 +∞

√ σ 2 µ α

2 n

se n = 2 non esiste se n = 3, 4, . . . se n = 2

0

Beta

α α+β

n seαnβ= 3, 4, . . . n−2 2 (α + β) (α + β + 1)

s

β (α + β) α (α + β + 1)

Beta

α α+β

αβ (α + β)2 (α + β + 1)

s

β (α + β) α (α + β + 1)

330

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

330

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi Tabella B.4 – Funzioni generatrici e momenti di variabili continue. Distribuzione Distribuzione Uniforme Uniforme Esponenziale Esponenziale Erlang Erlang Gamma Gamma Iperesponenziale Iperesponenziale

Weibull Weibull Normale Normale Laplace Laplace Chi-quadrato Chi-quadrato Cauchy

Tabella B.4 – Funzioni generatrici e momenti di variabili continue. Funzione generatrice dei momenti Momenti k MX (s)

Funzione generatrice dei momenti MX (s) esb − esa sa essb(b−−ea)

“ “

|s| < 1/β

1 − β 2 s2 “ ”−n/2 1−2s “ ”−n/2 1−2s

|s| < 1/β

(s < 1/2)



Student



Student



(s < 1/2)



Cauchy





µk µk µk µk µk µk µk µk µk

E(X k ) k+1

µk = E[(X − µ1 )k ]

µk = E[(X − µ1 )k ] − ak+1 b = k+1 (k + 1)(b a) − a− bk+1 = (k + 1)(b − a) k! = k λ k! = k λ n(n + 1) · · · (n + k − 1) = k n(n + 1) · ·λ· (n + k − 1) = λk Γ(ν + k) = k λ Γ(ν) Γ(ν + k) = k λ Γ(ν) n X aj = k! n λk X j=1 aj j = k! λk j=1 j

µk = µk

s (b − a) λ (s < λ) λ− λ s (s < λ) λ − s !n λ (s < λ) !n λ− λ s (s < λ) λ − s! ν λ (s < λ) !ν λ− λ s (s < λ) λ−s n X λi ai n λiλ− s X i=1 i “ ai λi − s ” i=1 s < min(λ1 , λ2 , . . . , λn ) “ ” s < min(λ1 , λ2 , . . . , λn! ) +∞ k X s k −k/α Γ 1+ ! λ +∞ k k! α X s k k=0 −k/α Γ 1+ λ k! α k=0 ( ) σ2 2 exp(µ s + s ) σ22 2 exp µ s + s 2 eαs 1 −eαs β 2 s2

µk = E(X )

Momenti

−k/α

Γ 1+

−k/α

Γ 1+

µk = λ µk = λ

k! σ2 µk = k/2 (k/2)! 2 k! σ2 µk = k/2 µk = 0(k/2)! 2 µk = 0 k µk = k! β µ k = µk = k! 0 β

k

! k ! α k α

se k e` pari se k e` pari se k e` dispari

se k e` dispari se k e` pari se se k k ee`` pari dispari

µk = 0 k se k e` dispari 2 Γ(n/2 + k) µk = Γ(n/2) + k) 2k Γ(n/2 µk = Γ(n/2) µk = +∞ se k e` pari µ k = ` dispari non+∞ esistesesek ke` epari µk ” µk non esiste se“k e` dispari B (k + 1)/2, (n − k)/2 k/2 “ ” µk = n B(1/2, B (k + 1)/2, n/2) (n − k)/2 k/2 µk = n B(1/2, se nn/2) > k e k pari n > k e k pari pari µk = +∞ se n ≤ k e k se

+∞ se n ≤ k e k pari µk = µ k = 0 se n > k e k dispari

= 0 se n > k e k dispari µ µk k non esiste se n ≤ k e k dispari Beta Beta

+∞ X

sk B(α + k, β) +∞ k k! B(α, β)β) X B(α + k, k=0 s k! B(α, β) k=0

µk non esiste se n ≤ k e k dispari B(α + k, β) µk = B(α, β)β) B(α + k, µk = B(α, β)

Un primo corso in probabilit`a per scienze pure e applicate

331

Un primo corso in probabilit`a per scienze pure e applicate

331

Tabella B.5 – Vettore aleatorio bidimensionale normale. Densit`a di probabilit`a normale bivariata 2 Tabella 1 B.5 – Vettore aleatorio 1 bidimensionale x − µXnormale. y − µY

(

"

!

!2

+ exp − p 2(1 − ̺2 ) σX σY 2πσX σY 1 − ̺2 Densit`a di probabilit`a normale bivariata ! !#) x − µX y − µY " !2 !2 (−2̺ σX 1 y − µY 1 σX x−µ Y + exp − fX,Y (x, y) = p 2(1 − ̺2 ) σX σY 2πσX σY 1 − ̺2 (x, y ∈ R; µX ∈ R, µY ∈ R, σX > 0, σY > 0, −1 < ̺ < 1) ! !#) x − µX y − µY −2̺ σX σY Densit`a di probabilit`a marginali fX,Y (x, y) =

8 9 ∈ R, µY ∈ R, σX > 0, σY > 0, −1 < ̺ < 1) (x, y ∈ R; µ ! > < 1 x − µX 2 > = X exp − fX (x) = (x ∈ R) > > 2 σ σX 2 π X : ; Densit`a di probabilit`a marginali ) 9 ( 8 1 (y − µY )2 !2 > > < = (y ∈ R) fY (y) = exp − √ 1 x− 1 2 µX 2 σY fX (x) = σY √2 π exp − (x ∈ R) > > 2 σ σX 2 π X : ; 1 √

) ( Densit`a di probabilit`a condizionate 1 (y − µY )2 (y ∈ R) " fY (y) = exp − √ #2 ) 2 ( 2 σY 2π σY 1 σX 1 x − µ − ̺ (y − µ ) fX|Y (x|y) = exp − p X Y 2 2 σX (1 − ̺2 ) σY σX 2 π (1 − ̺2 )

Densit`a di probabilit`a condizionate ( #2 ) " 1 1 "y − µY − ̺ σY (x − µX )#2 ) exp( − fY |X (y|x) = p 2 (1 σX 1 − ̺2 ) 2 σY σ 2 π1(1 − ̺2 ) x − µX − ̺ (y − µY ) fX|Y (x|y) = Y p exp − 2 (1 − ̺2 ) 2 σX σY σX 2 π (1 − ̺2 ) ( #2 ) " Valori medi e varianze 1 σY 1 exp − − ̺ (x − µ ) fY |X (y|x) = y − µ p Y X 2 (1 − ̺2 ) 2E(Y σY σ2X 2 π (1 = −σ ̺22), E(X) = µX , σY Var(X) ) = µY , Var(Y ) = σ X Y

Valori e varianze Medie medi e varianze condizionate σX 2 , E(X) µX Var(X) E(X|Y== y), = µX (yX− µY ), +̺ =σ σY σY Medie e varianze (x − µX ), E(Y |X = x) =condizionate µY + ̺ σX σX E(X|Y = y) = µX + ̺ (y − µY ), σY Covarianza e coefficiente di correlazione σY (x − µ ), E(Y |X = x) = µY + ̺ Cov(X, Y ) = σX σY ̺ , σX ̺(X, Y )X= ̺ Covarianza e coefficiente di correlazione Cov(X, Y ) = σX σY ̺ ,

̺(X, Y ) = ̺

2

2 ) = σY2 E(Y ) = µY ,= y) Var(Y Var(X|Y = σX (1 −̺ ) 2

2

Var(Y |X = x) = σY (1 − ̺ ) 2

2

Var(X|Y = y) = σX (1 − ̺ ) 2

2

Var(Y |X = x) = σY (1 − ̺ )

Appendice C Distribuzione normale standard

Tabella C.1 – Valori della funzione di distribuzione normale standard Φ(x).

x 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4

.00

.01

.02

.5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 .9995 .9997

.5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9987 .9991 .9993 .9995 .9997

.5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9994 .9995 .9997

Seconda cifra decimale .03 .04 .05 .5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9994 .9996 .9997

.5160 .5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9994 .9996 .9997

.5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .9878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9989 .9992 .9994 .9996 .9997

.06

.07

.08

.09

.5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9994 .9996 .9997

.5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9995 .9996 .9997

.5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 .9996 .9997

.5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995 .9997 .9998

Nella Tabella C.1 a doppia entrata sono riportati i valori della funzione di distribuzione normale standard Rx 2 Φ(x) = √12π −∞ e−z /2 dz. I valori di x si ottengono sommando quelli della prima colonna con quelli della prima riga. Ad esempio, 0.68 si ottiene sommando 0.6 della prima colonna con 0.08 della prima riga, e in corrispondenza si ottiene Φ(0.68) = 0.7517. Per valori negativi dell’argomento la funzione di distribuzione pu`o essere calcolata tramite la relazione Φ(−x) = 1 − Φ(x).

Appendice D Fattoriali e coefficienti binomiali

0! = 1, n! = n (n − 1)! (n = 1, 2, . . .) ! n n! = (n = 0, 1, . . . ; k = 0, 1, . . . , n) k k! (n − k)!

Tabella D.1 – Fattoriali. n

n!

n

0 1 2 3 4 5 6 7

1 1 2 6 24 120 720 5040

8 9 10 11 12 13 14 15

n! 40320 362880 3628800 39916800 479001600 6227020800 87178291200 1307674368000

Tabella D.2 – Coefficienti Binomiali. n

“n”

“n” 1

“n” 2

“n” 3

“n” 4

“n” 5

“n” 6

“n” 7

“n ”

“n ”

“n”

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

1 3 6 10 15 21 28 36 45 55 66 78 91 105 120 136 153 171 190

1 4 10 20 35 56 84 120 165 220 286 364 455 560 680 816 969 1140

1 5 15 35 70 126 210 330 495 715 1001 1365 1820 2380 3060 3876 4845

1 6 21 56 126 252 462 792 1287 2002 3003 4368 6188 8568 11628 15504

1 7 28 84 210 462 924 1716 3003 5005 8008 12376 18564 27132 38760

1 8 36 120 330 792 1716 3432 6435 11440 19448 31824 50388 77520

1 9 45 165 495 1287 3003 6435 12870 24310 43758 75582 125970

1 10 55 220 715 2002 5005 11440 24310 48620 92378 167960

1 11 66 286 1001 3003 8008 19448 43758 92378 184756

0

8

9

10

Appendice E Formule notevoli Questa appendice raccoglie alcune formule utilizzate nel testo riguardanti somme finite, serie, limiti notevoli e integrali definiti. Tabella E.1 – Somme finite. Binomio di Newton

(a + b)

n

=

n “ ” X n

n “ ” X n

r

r=0

Formula di Vandermonde

r

r=0

r

a b

n−r

(a, b ∈ R; n = 0, 1, . . .) n “ ” X n

n

=2 ,

r=0

min{n,m1 }

X

r=max{0,n−m2 }

r

r

(−1) = 0

(n = 0, 1, . . .)

“m ”“ m ” “m + m ” 1 2 1 2 = r n−r n

(n = 0, 1, . . . ; m1 = 0, 1, . . . ; m2 = 0, 1, . . . ; 0 ≤ n ≤ m1 + m2 ) n “ ” “2 n” X n 2 = (n = 0, 1, . . .) r n r=0

Formula multinomiale

Formula generalizzata di Vandermonde

n X

n1 =1,...,nk =1 n1 +...+nk =n

X

n1 ,...,nk n1 +...+nk =n

n! n n n n a 1 a2 2 · · · ak k = (a1 + a2 + . . . + ak ) n1 ! n2 ! · · · nk ! 1 (a1 , a2 , . . . , ak ∈ R; n = 1, 2, . . .) “N ” “N ” 1

2

n1

n2

...

“N ” k

nk

=

“N ” n

(n, N1 , N2 , . . . , Nk interi positivi, N = N1 + N2 + . . . + Nk ) Somme finite di potenze di interi

n X

r=

r=1 n X

3

r =

r=1

Formula geometrica

Formula aritmeticageometrica

n X

r

x =

r=0

n X

r=1

r

n X

n(n + 1) , 2 "

n(n + 1) 2

1 − xn+1 1−x

rx =

2

r =

r=1

#2

,

n X

r=1

4

r =

n(n + 1)(2n + 1) 6

(n = 1, 2, . . .)

n(n + 1)(2n + 1)(3n2 + 3n − 1) 30

(n = 0, 1, . . . ; x 6= 1)

[1 − (n + 1) xn + n xn+1 ] x (1 − x)2

(n = 1, 2, . . . ; x 6= 1)

(n = 1, 2, . . .)

338

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

338

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

338

Tabella E.2 A. – Serie. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi +∞ X

Serie geometrica

r

x =

r=0

Serie geometrica Serie

aritmeticaSerie geometrica geometrica Serie aritmeticageometrica Serie Serie binomiale aritmeticageometrica Serie binomiale Serie Serie esponenziale binomiale Serie esponenziale Serie Serie iperboliche esponenziale Serie iperboliche Serie iperboliche trigonometriche Serie trigonometriche Serie trigonometriche

+∞ X

Tabella E.2 – Serie.

1 1−x

(|x| < 1)

Tabella E.2 – Serie.

1 (|x| < 1) 1−x x r x = 1 (|x| < 1) r (1 − x)2 (|x| < 1) r=0 x = 1−x r=0 +∞ X x r rx = (|x| < 1) 2 (1 − +∞ r=0 X “r + k” r x) −k−1 +∞ x = (1 − x) , (|x| < 1; k = 0, 1, . . .) X x rk (|x| < 1) r=0 r x = 2 (1 − x) r=0 +∞ X “r + k” r −k−1 x = (1 − x) , (|x| < 1; k = 0, 1, . . .) +∞ k X r=0 xr x +∞ (x ∈ R) =ke” X “r + r −k−1 r! x = (1 − x) , (|x| < 1; k = 0, 1, . . .) r=0 k +∞ r=0 r X x x (x ∈ R) =e +∞ +∞ r! X x2r+1 X x2r r=0 ex − e−x ex + e−x +∞ sinh xr= = , cosh x = = X x x 2 (2 r + 1)! 2 (2 r)! (x ∈ R) =e r=0 r=0 r! +∞ +∞ r=0 2r+1 x −x x −x X X e −e x x2r e +e sinh x = = , cosh x = = 2 (2 r + 1)! 2 (2 r)! r=0 r=0 +∞ +∞ +∞ +∞ 2r+1 x2r −x 2r 2r+1 X X X X ex − e−x x + e x e x x r sinhxx== (−1)r = , = cosh x= = R) sin (−1) , cos x (x ∈ 2 (2 r + (2 r)! 1)!(2 r + 1)! (2 r)!2 r=0 r=0 r=0 r=0 r

x =

+∞ X r=0 +∞ Xr

sin x = sin x =

+∞ X

(−1)

r=0 +∞ X

(−1)

r=0

r

r

x2r+1 , (2 r + 1)!

cos x =

2r+1

x , (2 r + 1)!

cos x =

+∞ X

(−1)

r=0 +∞ X

(−1)

r=0

r

r

x2r (2 r)!

(x ∈ R) (x ∈ R) (x ∈ R)

(x ∈ R)

2r

x (2 r)!

(x ∈ R)

Tabella E.3 – Limiti. Limite di Eulero

Tabella E.3 – Limiti.

αn 1− Eulero n

!n

=e

αn Limite lim di Eulero 1− Caso particolare:n n→+∞

!n

=e lim

lim

Limite di n→+∞

−α

, dove α1 , Tabella α2 , . . . e`E.3 una–successione Limiti. di reali tali da aversi

lim

n→+∞

αn = α.

!n , dovexα1 , α2 , .−x . . e` una successione di reali tali da aversi lim αn = α. 1− =e (x ∈ R) n→+∞ n→+∞ n !n αn !n −α lim = e , dovexα1 , α2 , .−x . . e` una successione di reali tali da aversi lim αn = α. 1− n→+∞ n→+∞ 1− =e (x ∈ R) Caso particolare:n lim n→+∞ sin(αx) 1−n cos(αx) !n lim = α, lim =0 (α ∈ R) x→0 x→0 x xx −x 1− =e (x ∈ R) Caso particolare: lim n→+∞ sin(αx) 1 −n cos(αx) lim = α, lim =0 (α ∈ R) −α x x→0 1 −xe x→0 lim =α (α ∈ R) x x→0 x sin(αx) 1 − cos(αx) lim = α, lim =0 (α ∈ R) x→0 1 −xe−α x x→0 x lim =α (α ∈ R) x→0 x lim

x→0

1 − e−α x =α x

−α

(α ∈ R)

Un primo corso in probabilit`a per scienze pure e applicate

339

Tabella E.4 – Integrali definiti. Z

b

Z

+∞

Z

+∞

Z

+∞

Z

x

n

x

dx =

a

n

x

e

bn+1 − an+1 n+1

−λ x

n! λn+1

dx =

0

e

−z 2

dz =



(a, b ∈ R; a < b)

(λ > 0; n = 0, 1, . . .)

e

−z 2

dz =

0

−∞

e

−α z 2 +β z

dz =

−∞

0

+∞

Z

π,

r

) ( β2 π exp α 4α Z

sin z dz = 1 − cos x,



π 2

(α > 0, β ∈ R)

x

cos z dz = sin x

0

Tabella E.5 – Funzioni gamma e beta.

Funzione gamma di Eulero

Γ(ν) =

+∞

Z

ν−1

x

e

−x

dx

(ν > 0)

0

Propriet`a della funzione gamma

Γ(ν) = (ν − 1) Γ(ν − 1) Γ(n) = (n − 1)! !

=

Γ n+

1 2

Γ

Approssimazione di Stirling

1 2

Propriet`a della funzione beta

!

n e

B(α, β) =

Z

1 · 3 · 5 · · · (2n − 1) √ π 2n

=

z e

!n

B(α, β) =

(n = 1, 2, . . .)

π

Γ(z + 1) ∼ n! ∼

Funzione beta di Eulero



(ν > 1)



1

!z

α−1

(z → +∞)

2πz

(n → +∞)

2πn

x 0



(n = 1, 2, . . .)

(1 − x)

Γ(α) Γ(β) Γ(α + β)

β−1

dx

(α > 0, β > 0)

(α > 0, β > 0)

Appendice F Disuguaglianze Questa appendice contiene una sintesi di alcune disuguaglianze analitiche e probabilistiche. Tabella F.1 – Disuguaglianze analitiche.

Disuguaglianza di CauchySchwarz-Bunyakowsky

0 12 0 10 1 n n n X X X 2A @ 2A @ A @ xi yi ≤ xi yi , i=1

i=1

i=1

x1 , x2 , . . . , xn e y1 , y2 , . . . , yn arbitrari numeri reali.

g(x) convessa e continua in I = (a, b)

g[α x1 + (1 − α) x2 ] ≤ α g(x1 ) + (1 − α) g(x2 ),

0 < α < 1; x1 , x2 ∈ I, x1 < x2 .

g(x) concava e continua in I = (a, b)

g[α x1 + (1 − α) x2 ] ≥ α g(x1 ) + (1 − α) g(x2 ),

0 < α < 1; x1 , x2 ∈ I, x1 < x2 .

Disuguaglianza di Young

y1 y2 · · · y n ≤

n X

1/ϑr

ϑr yr

,

r=1

y1 , y2 , . . . , yn , ϑ1 , ϑ2 , . . . , ϑn reali positivi, ϑ1 + ϑ2 + . . . + ϑn = 1.

1−x≤e

−x

p (1 − p) ≤

(1 − p)

n



1 ≤ 1, 1+x



1 , 4

0 < p < 1.

1−p , 1 − p + np

x

1 − p + pe ≤ e cosh x ≤ e e

sx



x2 /2

x ≥ 0.

,

px

0 < p < 1; n = 0, 1, . . .

x

≤ exp{p (e − 1)},

0 ≤ p ≤ 1; x ≥ 0.

x ∈ R.

b − x sa x − a sb e + e , b−a b−a

s ∈ R; a ≤ x ≤ b.

342

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

342

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi Tabella F.2 – Disuguaglianze coinvolgenti probabilit`a. Disuguaglianza di Boole

P

+∞ [

An

!



+∞ X

A , A , . . . eventi di F .

P (A ),

n 1 2 Tabella F.2n=1 – Disuguaglianze coinvolgenti probabilit`a. n=1

Disuguaglianza di Boole

( !n +∞ ) +∞ n [ X X X P − exp A− ≤P (AiP) (A≤ A1i,), A2 , . .A. 1eventi 1 P (A , A2 ,di . .F . ,.An eventi indipendenti di F . n n ),

Disuguaglianze di Markov

( ) n n X X E(X) P (Xexp ≥ a)−≤ P (A,i ) ≤ XPnon 1− (Ainegativa, ), Aa1 ,>A0. 2 , . . . , An eventi indipendenti di F . a

Disuguaglianze di Markov Disuguaglianze di Markov generalizzata Disuguaglianze di Markov generalizzata Disuguaglianze di Chebyshev

Disuguaglianze di Chebyshev

Disuguaglianze di Chebyshev unilaterali Disuguaglianze di Chebyshev unilaterali

n=1

i=1 n=1

i=1

i=1

i=1

E(X) P (X < a) ≥ 1 − , E(X) a P (X ≥ a) ≤ , a

X non negativa, a > 0. X non negativa, a > 0.

ν E(|X| E(X)) P ,, a, νnegativa, reali positivi. P (|X| (X 0. aa h i E |X|ν P (|X| < a) ≥ 1 − , a, ν reali positivi. E(|X|νa)ν P (|X| ≥ a) ≤ , a, ν reali positivi. aν i ˛ n˛ oh Var(X) ν ˛ ˛ P ˛X − E(X)˛ ≥ εE |X| ≤ , ε > 0, E(X 2 ) finito. P (|X| < a) ≥ 1 − a, ν reali positivi. ε,2 ν a ˛ n˛ o Var(X) ˛ ˛ P ˛X − E(X)˛ < ε ≥ 1 − , ε > 0, E(X 2 ) finito. 2 ˛ n˛ o Var(X)ε ˛ ˛ P n˛˛X − E(X)˛˛ ≥ ε q≤ , ε > 0, E(X 2 ) finito. ε2 o 1 ˛ ˛ r > 0, E(X 2 ) finito. P ˛X − E(X)˛ < r Var(X) ≥ 1 − 2 , r ˛ n˛ o Var(X) ˛ ˛ P (˛ E(X)˛ ˛˛< ε )≥ 1 − , ε > 0, E(X 2 ) finito. ˛X 2 2 ˛ X− εX ) (C ˛ − E(X) ˛ , δ > 0, E(X) �= 0, E(X 2 ) finito. < δ ≥ 1 − P ˛ q o δ2 n˛˛ E(X) ˛ ˛˛ 1 ˛ ˛ r > 0, E(X 2 ) finito. P ˛X − E(X)˛ < r Var(X) ≥ 1 − 2 , r ˛ ) (˛ n 2 ˛ X − E(X) ˛ o Var(X) ) (C 2 X ˛ ≥ E(X) +˛ ε ≤ P ,, ε > 0,δE(X finito. �= 0, E(X 2 ) finito. > 0, )E(X) ≥1− P X ˛ < δ Var(X) ˛ +δε22 ˛ E(X) ˛

n o Var(X) , P X ≤ E(X) − ε ≤ n o Var(X) + ε2 Var(X) P X ≥ E(X) + ε ≤ , 2 Var(X) + ε n o 2 [E(X)] P (X ≥ − ε 2 ≤, P X> ≤ 0) E(X) E(X ) P (X = 0) ≤

P (X > 0) ≥

P (X = 0) ≤

Var(X) , E(X 2 )2 [E(X)] E(X 2 )

Var(X) , E(X 2 )

2

ε > 0, E(X ) finito.

Var(X) 2 X non negativa. , ε > 0, E(X ) finito. Var(X) + ε2 X non negativa.

,

2

ε > 0, E(X ) finito.

X non negativa. X non negativa.

Un primo corso in probabilit`a per scienze pure e applicate

343

Tabella F.3 – Disuguaglianze coinvolgenti funzioni generatrici dei momenti. Un primo corso in probabilit`a per scienze pure e applicate

343

Disuguaglianze di Chernoff

P (X ≥ a) ≤ e

−s a

P (X ≤ a) ≤ e

−s a

MX (s),

s ≥ 0, MX (s) finita in un intorno dell’origine.

Tabella F.3 – Disuguaglianze coinvolgenti funzioni generatrici dei momenti.

Disuguaglianze di Chernoff

MX (s),

s ≤ 0, MX (s) finita in un intorno dell’origine.

−s a

P (X ≥ a) ≤ e MX (s), s ≥ 0, MX (s) finita in un intorno dell’origine. E(X) Tabella funzioni generatrici dei momenti. MX (s)F.3 ≥–esDisuguaglianze , s ∈ coinvolgenti R, MX (s) finita. −s a

Disuguaglianze di Chernoff

P (X ≤ a) ≤ e MX (s), s ≤ 0, MX (s) finita in un intorno dell’origine. −s a a µ − a ssb≥ 0, M (s) finita in un intorno dell’origine. P (X ≥ a) b≤−eµ es M X (s), M + s,Xa, b ∈ R, E(X) = µ finito, P (a ≤ X ≤ b) = 1. e , X (s) ≤ b−a b−a MX (s) ≥ es E(X) , s ∈ R, MX (s) finita. −s a P (X ≤ a) ≤ e MX (s), s ≤ 0, MX (s) finita in un intorno dell’origine. MX (s) ≤ cosh(s c), c > 0, s ∈ R, E(X) = 0, P (|X| ≤ c) = 1. b − µ sa µ − a sb MX (s) ≤ s E(X)e + s, a, b ∈ R, E(X) = µ finito, P (a ≤ X ≤ b) = 1. e , MX (s) ≥ eb − a , sb∈ −R, a MX (s) finita. b − µ c), µc − MX (s) ≤ cosh(s > a0, ss b∈ R, E(X) = 0, P (|X| ≤ c) = 1. sa MX (s) ≤ + s, a, b ∈ R, E(X) = µ finito, P (a ≤ X ≤ b) = 1. e e , b−a b−a MX (s) ≤ cosh(s c),

c > 0, s ∈ R, E(X) = 0, P (|X| ≤ c) = 1.

Tabella F.4 – Disuguaglianze coinvolgenti momenti. E(X 2 ) ≥ [E(X)]2 , Disuguaglianza di Schwarz Disuguaglianze di Jensen Disuguaglianza di Schwarz Disuguaglianze di Jensen Disuguaglianza Schwarz older di Schwarz–H¨ Disuguaglianze di Jensen Disuguaglianza Disuguaglianza di Schwarz–H¨older di Minkowsky Disuguaglianza di Schwarz–H¨older Disuguaglianza di Minkowsky Disuguaglianza di Minkowsky

E(X) finito.

Tabella F.4 – Disuguaglianze coinvolgenti momenti. |E(XY )| ≤ 2

p E(X 2 ) E(Y 2 ), 2

E(X ) ≥ [E(X)] ,

E(X 2 ), E(Y 2 ) finiti.

E(X) finito.

Tabella F.4 – Disuguaglianze coinvolgenti momenti.

E[g(X)] ≥ g[E(X)],

E(X) finito, g funzione convessa e continua.

p 2 2 2 ) E(Y 2 ), |E(XY )| ≤g[E(X)], E(X E(X ), E(Y concava ) finiti.e continua. 2 E[g(X)] E(X)finito. finito, g funzione E(X 2 ) ≥≤[E(X)] , E(X) E[g(X)] ≥ g[E(X)], funzione convessa e continua. nE(X) “˛ h “ finito, g”i p ˛˛” Y 2 1/αr 2 ˛ α 2 ) E(Y 2 ), |E(XY )|2≤· · · X E(X E | r ), E(Y, ) finiti. E |XrE(X ˛X1 X n˛ ≤

finito, g funzione concava e continua. + α−1 + . . . + α−1 α1 , α2 , . . . , αn reali positivi, α−1 n = 1. 1 2 E[g(X)] ≥ g[E(X)], E(X) finito, g funzione convessa e continua. n h “ ˛” “˛ ”i1/αr Y ˛ ˛ αr n h “ ˛α h “˛ ”i1/α ”i1/α E · · Xn ˛ ≤ , concava ˛X r | gX ˛ 1 X2≤· g[E(X)], ˛ E |X α E[g(X)] finito, e continua. E ˛X1 + X2 + . . . + r=1 E |X , α > 1. XnE(X) ≤ funzione ˛ r| αn reali positivi, α−1 + α−1 + . . . + α−1 α1 , α2 , . . . , r=1 n = 1. 1 2 n h “ ˛” “˛ ”i1/αr Y ˛ ˛ α E ˛X1 X2 · · · Xn ˛ ≤ , E |Xr | r n h “ h “˛ ”i1/α ”i r=1˛ ˛ ˛α 1/α X α E ˛X1 + X2 + . . . + Xnα˛ 1 , α2 , . .≤ E |X , α−1 α> r| . , αn reali positivi, α−1 + + .1.. . + α−1 n = 1. 1 2 E[g(X)] ≤ g[E(X)],

r=1 E(X)

r=1

n h “ ˛α ”i1/α X h “˛ ”i1/α ˛ ˛ α E ˛X1 + X2 + . . . + Xn ˛ E |Xr | , ≤ r=1

α > 1.

A. Di Crescenzo, V. Giorno, A.G. Nobile, L.M. Ricciardi

344

Tabella F.5 – Disuguaglianze coinvolgenti somme di variabili aleatorie. Disuguaglianze di Hoeffding

9 = 2 c2 P {Y − E(Y ) ≥ c} ≤ exp − Pn , 2; : r=1 (br − ar ) 8
0, Y = X1 + X2 + . . . + Xn ,

X1 , X2 , . . . , Xn indipendenti, E(Xr ) finito, P {ar ≤ Xr ≤ br } = 1 (r = 1, 2 . . . , n).

Tabella F.5 – Disuguaglianze coinvolgenti somme di variabili aleatorie. Disuguaglianza di Kolmogorov Disuguaglianze di Hoeffding

n “˛ ” o E(Yn2 ) ˛ P max ˛Y1 |, |Y2 |, . . . , |Y8 ≤ , 9 a > 0, Yr = X1 + X2 + . . . + Xr n| ≥ a a2 = < 2 c2 P {Y − E(Y ) ≥ c} ≤ exp − Pn , c > 0, Y = X1 + X2 + . . . + Xn , 2 : (r = 1, 2, . . . , n), X1 , X2 , . . . , r=1 Xn (b indipendenti; E(Xi ) = 0, E(Xi2 ) finito (i = 1, 2, . . . , n). r − ar ) ;

9 8 = < 2 c2 ( ) , c > 0, Y = X1 + X2 + . . . + Xn , P {Y − E(Y n ˛ ) ≤ −c} ≤ exp:− P1n X 2; (b − a ) r r ˛ P max ˛Yr − E(Yr )| ≥ a ≤ r=1 Var(Xr ), a > 0, Yr = X1 + X2 + . . . + Xr 2 1≤r≤n a r=1 X1 , X2 , . . . , Xn indipendenti, E(Xr ) finito, P {ar ≤ Xr ≤ br } = 1 (r = 1, 2 . . . , n). (r = 1, 2, . . . , n), X1 , X2 , . . . , Xn indipendenti, E(Xi2 ) finito (i = 1, 2, . . . , n).

Disuguaglianza di Kolmogorov Disuguaglianza di L´evy

n “˛ ” o E(Yn2 ) ˛ P max ˛Y1 |, |Y2 |, . . . , |Yn | ≥ a ≤ , a > 0, Yr = X1 + X2 + . . . + Xr a2 ( ) “ ” ” “ 2 X1 + X2 + . . . + Xr P (rmax . . .X , Y1n, X2≥, .a. . , ≤ , a > 0, Yr = P Yn ≥ a E(X = 1, Y 2,1., .Y.2,,n), Xn2 indipendenti; i ) = 0, E(X i ) finito (i = 1, 2, . . . , n). (r = 1, 2, . . . , n), X1 , X2 , . . . , Xn indipendenti con funzioni di distribuzione simmetriche ( ) n ˛ 1 X ˛ zero. P intorno maxallo Var(Xr ), a > 0, Yr = X1 + X2 + . . . + Xr ˛Yr − E(Yr )| ≥ a ≤ 2 1≤r≤n a r=1 (r = 1, 2, . . . , n), X1 , X2 , . . . , Xn indipendenti, E(Xi2 ) finito (i = 1, 2, . . . , n).

Disuguaglianza di L´evy

P

(

)

“ ” max Y1 , Y2 , . . . , Yn ≥ a

” “ ≤ 2 P Yn ≥ a ,

a > 0, Yr = X1 + X2 + . . . + Xr

(r = 1, 2, . . . , n), X1 , X2 , . . . , Xn indipendenti con funzioni di distribuzione simmetriche intorno allo zero.

Un primo corso in probabilit`a per scienze pure e applicate

345

Un primo corso in probabilit`a per scienze pure e applicate

345

Tabella F.6 – Disuguaglianze per alcune distribuzioni di probabilit`a. X ∼ B(n, p)

np · x

P (X ≥ x) ≤

Tabella F.6 – Disuguaglianze per alcune distribuzioni di probabilit`a.

X ∼ B(n, p)

n p (1 − p) · 2 nnpp (1 − p) + (x − n p) P (X ≥ x) ≤ " · #x " #n x “ ” n (1 − p) p (n − x) P “X ≥ x” ≤ , n p ≤ x < n. n p) p (1 − p) n − x x (1 − · P X ≥x ≤ 2 n p (1 − p) + (x − n p) !x "np #x " #n x−np P (X “ ≥ x)”≤ −≤ p)x < n. p (n −e x) , n (1np P X ≥x ≤ x , n p ≤ x < n. x (1 − p) n−x “ ” np(1 − p) , c > 0. P |X − n p| ≥ c ! ≤x np c2 x−np e , np ≤ x < n. P (X ≥ x) ≤ x 2 P {X − n p ≥ c} ≤ e−2 c /n , c > 0. “ ” np(1 − p) 2 P |X−−nnpp|≤≥−c} c ≤ ≤ e−2 c 2/n , , c c>>0.0. P {X c “ ” P X ≥x ≤

“ ” c2 /n2 e−2 P {X |X−−nnpp|≥≥c}c ≤≤ 2 e−2 c , /n , c >c0.> 0. 2

X Y = con X ∼ B(n, p) n

Y =

X con X ∼ B(n, p) n

X ∼ P(λ)

X ∼ P(λ) Y = X1 + X2 + . . . + Xn , con ( 1/2, x = −1 P (Xr = x) = 1/2, x = 1 0, altrimenti per r = 1, 2 . . . , n Y = X1 + X2 + . . . + Xn , con ( 1/2, x = −1 P (Xr = x) = 1/2, x = 1 0, altrimenti per r = 1, 2 . . . , n

P {X − n p ≤ −c} ≤ e−2 c /n , “ ” p (1 − p) ε P “|Y − p| ≥ ε ” ≤ 2, 2 c /n , P |X − n p| ≥ c ≤ 2neε−2 “ ” 1 , ε> P |Y − p| ≥ ε ≤ 2 4 “ ” pn (1ε− p) , ε P |Y − p| ≥ ε ≤ n ε2 “ ” λ 1 P “X ≥ x ≤ ” · ,2 ε> P |Y − p| ≥ ελ + ≤ (x − λ) 4 n ε2 P (X “ ≥ x)”≤ P X ≥x ≤ P (X ≥ x) ≤ P (Y ≥ y) ≤

e

−λ

c > 0.

> 0. c > 0. 0. > 0. 0.

x

(λ e) , x ≥ λ. xx λ · λ + (x − λ)2

e−λ (λ e)x , n x x · n + y2

x ≥ λ.

1n !y/2 0 nn− y· n P (Y ≥ y) ≤ @p A , P (Y ≥ y) ≤ n + y 2 n+y (n − y)(n + y) ) ( 1n y!2y/2 0 , 0 ≤ yn < n. P (Y ≥ y) ≤ exp n −−y @p A , 2n P (Y ≥ y) ≤ n+y (n − y)(n + y) (

P (Y ≥ y) ≤ exp −

y2 2n

)

,

0 ≤ y < n.

0 ≤ y < n.

0 ≤ y < n.

Alcuni dei personaggi Indice nomi Bachelier, Louis (1870-1946) Bayes, Thomas (1702-1761) Bernoulli, Daniele (1700-1782) Bernoulli, Jacques (1654-1705) Bernstein, Sergei Natanovich (1880-1968) Bertrand, Joseph Louis Franc¸ois (1822-1900) Boole, George (1815-1864) ´ Borel, Emile (1871-1956) Born, Max (1882-1970) Bunyakovsky, Victor Jakowlewitsech (18041889) Cardano, Gerolamo (1501-1576) Carnap, Rudolf (1891-1970) Cauchy, Augustin-Louis (1789-1857) Chebyshev, Pafnuti Lvovich (1821-1894) Chernoff, Herman (1923-) de Fermat, Pierre (1601-1665) de Finetti, Bruno (1906-1985) de M´er´e, Cavaliere Antoine Gombaud (16071684) de Moivre, Abraham (1667-1754) De Morgan, Augustus (1806-1871) Deparcieux, Antoine (1703-1768) Erlang, Agner Krarup (1878 - 1929) Eulero, Leonhard (1707-1783) Feller, William (1906-1970) Fisher, Sir Ronald Aylmer (1890-1962) Fokker, Adriaan Daniel (1887-1972) Galilei, Galileo (1564-1642) Gauss, Karl Friedrich (1777-1855) Jensen, Johan Ludwig William Valdemar (1859-1925)

Hoeffding, Wassily (1914-1991) H¨older, Otto Ludwig (1859-1937) Huygens, Christian (1629-1695) Khinchin, Aleksandr Yakovlevich (1894-1959) Kolmogorov, Andrey Nikolaevich (1903-1987) L´evy, Paul (1886-1971) Laplace, Pierre-Simon (1749-1827) Lindeberg, Jarl Waldemar (1876-1932) Lyapunov, Aleksandr Mikhailovich (18571918) Markov, Andrei Andreyevich (1856-1922) Minkowsky, Hermann (1864-1909) Newton, Isaac (1643-1727) Pacioli, Luca (1445-1517) Pascal, Blaise (1623-1662) Planck, Max (1858-1947) Poincar´e, Jules-Henri (1854-1912) Poisson, Simeon Denis (1781-1840) Savage, Leonard Jimmie (1917-1971) Schwarz, Hermann (1843-1921) Slutsky, Evgeny Evgenievich (1880–1948) Stirling, James (1692-1770) Student, pseudonimo di William Sealy Gosset (1876-1937) Vandermonde, Alexandre-Th´eophile (17361796) Venn, John (1834-1923) von Mises, Richard (1883-1953) Weibull, Ernst Hjalmar Waloddi (1887-1979) Wiener, Norbert (1894-1964) Young, William Henry (1863-1942)

Indice analitico

additivit`a completa della probabilit`a, 31 finita della probabilit`a, 11, 13, 15, 32 affidabilit`a, 45 algebra σ-algebra, 26 σ-algebra generata, 27 approssimazione normale, 309 della distribuzione binomiale, 318 assenza di memoria, 117, 137 assiomi della probabilit`a, 31 binomio di Newton, 40, 109, 174, 177 classe di Borel, 28, 60, 79 coefficiente di correlazione, 193 di variazione, 179 combinazione con ripetizione, 19 senza ripetizione, 19 componenti collegati in parallelo, 95, 297 collegati in serie, 95, 138, 147, 297 soggetti a guasti, 110, 139 convergenza in distribuzione, 302 in probabilit`a , 301 quasi certa, 300 covarianza, 190, 201 curtosi, 180 densit`a di probabilit`a, 68 condizionata, 225, 228, 231 congiunta, 84, 88 marginale, 85, 88 deviazione standard, 179

diagrammi di Venn, 8 disposizione con ripetizione, 18 senza ripetizione, 18 distribuzione beta, 256 binomiale, 108, 200, 209 binomiale negativa, 119, 210 chi–quadrato, 260 degli eventi rari, 123 di Bernoulli, 107, 208 di Cauchy, 162, 268 di Erlang, 141, 213 di Fisher, 263 di Laplace, 217 di Pascal, 210 di Poisson, 122, 211 di Student, 267 di Weibull, 146, 215 esponenziale, 136, 184, 212 gamma, 144, 213 geometrica, 116, 209 iperesponenziale, 144, 214 ipergeometrica, 112, 198, 209 ipergeometrica multivariata, 130 multinomiale, 127, 201 normale, 149, 185, 215 normale bivariata, 249 normale standard, 150 simmetrica, 175, 180 uniforme, 133, 184, 212 uniforme discreta, 106, 183, 208 distribuzioni condizionate, 219 per variabili continue, 224 per variabili discrete, 219 per vettori aleatori misti, 228

350

disuguaglianza di Boole, 34 Cauchy-Schwarz-Bunyakowsky, 214 Chebyshev, 274 unilaterale, 278 Chernoff, 280 Hoeffding, 289 Jensen, 285 Kolmogorov, 291 L´evy, 293 Markov, 271 generalizzazione, 273 Minkowsky, 287 Schwarz, 193, 287 Schwarz–H¨older, 287 Young, 286 durata di funzionamento, 137 servizio, 143, 145 vita, 137, 138 vita residua, 137 esperimento casuale, 5 eventi, 6, 27 evento certo, 7 evento elementare, 6 evento impossibile, 7 evento quasi certo, 31 evento quasi impossibile, 31 incompatibili, 7 indipendenti, 40 mutuamente esclusivi, 7 expectation, 155 famiglia parametrica di distribuzioni, 105 formula di De Morgan, 10 inclusione-esclusione, 36 Stirling, 268 Vandermonde, 112 funzione indicatrice, 67 beta di Eulero, 256 gamma di Eulero, 144 funzione di distribuzione, 62

Indice analitico

condizionata, 220, 224, 225 congiunta, 80 marginale, 81 funzione di probabilit`a, 66 condizionata, 219, 228, 231 congiunta, 83, 87 marginale, 83, 87 funzione di ripartizione, 62 funzione generatrice dei momenti, 203 di probabilit`a, 205 indipendenza di eventi, 40 di variabili aleatorie, 89 insieme di alternative, 53 potenza, 27 legge delle alternative, 54, 236 delle alternative condizionate, 55 delle probabilit`a composte, 51 di Bayes, 56, 239 legge debole dei grandi numeri di Khintchin, 313 Chebyshev, 313 Markov, 312 legge empirica del caso, 2, 12, 321 legge forte dei grandi numeri, 316, 317 media aritmetica, 153 armonica, 288 campionaria, 216, 288, 311, 313, 315 condizionata, 240, 241 geometrica, 288 mediana, 181 moda, 183 momenti, 173, 174 centrali, 173, 199 condizionati, 241 misti, 189 misti centrali, 190 paradosso di

Indice analitico

Bertrand, 16 San Pietroburgo, 4 passeggiata aleatoria, 294 permutazione, 18 probabilit`a a posteriori, 57 a priori, 57 assiomatica, 31 classica, 10 condizionata, 47, 233, 234 frequentista, 12 geometrica, 15 soggettiva, 14 problema degli insiemi monocromatici, 35 dei compleanni, 24 del Cavaliere de M´er´e, 3, 44 delle concordanze, 38, 177 prove di Bernoulli, 107, 108 generalizzate di Bernoulli, 126 indipendenti, 198 non indipendenti, 198 regola del 3 σ, 152 moltiplicativa, 51 simulazione, 78, 135, 136, 310, 315, 316 sistema di servizio, 137, 138, 143, 145, 247 skewness, 180 spazio

351

campione, 6 di Bernoulli, 25 di probabilit`a, 31 probabilizzabile, 30 statistiche ordinate, 255 teorema centrale di convergenza, 307 di Bernoulli, 320 di De Moivre-Laplace, 317 di Poisson, 322 trasformazioni di variabili aleatorie, 72 vettori aleatori, 94 valore medio, 154, 158, 159, 163, 166, 186, 187 variabili aleatorie, 59, 60 identicamente distribuite, 62 indipendenti, 89 stocasticamente ordinate, 296 variabile assolutamente continua, 68 variabile degenere, 66 variabile discreta, 65 variabile mista, 71 variabile standardizzata, 179 varianza, 176, 196 condizionata, 242 vettore aleatorio, 78, 79 bidimensionale continuo, 84 bidimensionale discreto, 82 multidimensionale, 87

Indice delle abbreviazioni e dei simboli

Tabella F.7 – Abbreviazioni e simboli.

Ω ω Ø F R B P (Ω, F , P ) P (A) P (A|B) FX (x) pX (x) IA fX (x) P (X ∈ B) FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) pX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) P (X1∈B1 , X2∈B2 , . . . , Xn∈Bn ) E(X) E(X n ) µn E[(X − E(X))n ] µn µX Var(X) σX CX α3 α4 E(X i Y j ) µi,j

spazio campione. ω ∈ Ω, elemento dello spazio campione. evento impossibile. σ-algebra. insieme dei numeri reali. σ-algebra di Borel. misura di probabilit`a. spazio di probabilit`a. probabilit`a dell’evento A. probabilit`a dell’evento A condizionata dal verificarsi di B. funzione di distribuzione, o funzione di ripartizione, di X. funzione di probabilit`a di X discreta. funzione indicatrice dell’evento A. densit`a di probabilit`a di X assolutamente continua. probabilit`a che X assuma valori in B. funzione di distribuzione di X = (X1 , X2 , . . . , Xn ). funzione di probabilit`a congiunta di X = (X1 , X2 , . . . , Xn ). densit`a di probabilit`a congiunta di X = (X1 , X2 , . . . , Xn ). probabilit`a che X = (X1 , X2 , . . . , Xn ) assuma valori in B1 × B2 × · · · × Bn . valore medio di X. momento di ordine n di X. momento di ordine n. momento centrale di ordine n di X. momento centrale di ordine n. valore medio di X. varianza di X. deviazione standard di X. coefficiente di variazione di X. coefficiente di simmetria, o skewness, di X. curtosi di X. momento misto di ordine (i, j) di (X, Y ). momento misto di ordine (i, j).

353

354

Indice delle abbreviazioni e dei simboli

E[(X − E(X))i (Y − E(Y ))j ] µi,j Cov(X, Y ) µ1,1 ̺(X, Y ) MX (s) GX (z) FX|Y (x|y) pX|Y (x|y) fX|Y (x|y) P (X ∈ B | Y = y) E(X | Y = y) E(X n | Y = y) Var(X | Y = y) X B(α, β) Γ(ν) X∼F Ud (n) B(1, p) B(n, p) I(n, m, N − m) BN (1, p) BN (n, p) P(λ) M(n, p1 , p2 , . . . , pk ) I(n, N1 , N2 , . . . , Nk ) U(a, b) E(1, λ) E(n, λ) G(ν, λ) N (µ, σ) Φ(x) Be(α, β) χ2 (n) F (n1 , n2 ) T (n) q.c. Xn −→ X

momento misto centrale di ordine (i, j) di (X, Y ). momento misto centrale di ordine (i, j). covarianza di X e Y. covarianza. coefficiente di correlazione di X e Y. funzione generatrice dei momenti di X. funzione generatrice di probabilit`a di X. funzione di distribuzione condizionata di X dato Y = y. funzione di probabilit`a di X condizionata da Y = y. densit`a di probabilit`a condizionata di X dato Y = y. probabilit`a condizionata di {X ∈ B} dato Y = y. media condizionata di X dato Y = y. momento condizionato di ordine n di X dato Y = y. varianza condizionata di X dato Y = y. media campionaria. funzione beta di Eulero. funzione gamma di Eulero. X di distribuzione F. distribuzione uniforme discreta di parametro n. distribuzione di Bernoulli di parametro p. distribuzione binomiale di parametri n e p. distribuzione ipergeometrica di parametri n, m, N − m. distribuzione geometrica di parametro p. distribuzione binomiale negativa di parametri n e p. distribuzione di Poisson di parametro λ. distribuzione multinomiale di parametri n, p1 , p2 , . . . , pk . distribuzione ipergeometrica di parametri n, N1 , N2 , . . . , Nk . distribuzione uniforme in (a, b). distribuzione esponenziale di parametro λ. distribuzione di Erlang di parametri n e λ. distribuzione gamma di parametri ν e λ. distribuzione normale di parametri µ e σ. funzione di distribuzione normale standard. distribuzione beta di parametri α e β. distribuzione chi–quadrato con n gradi di libert`a. distribuzione di Fisher con n1 e n2 gradi di libert`a. distribuzione di Student con n gradi di libert`a. la successione X1 , X2 , . . . converge quasi certamente a X.

P

la successione X1 , X2 , . . . converge in probabilit`a a X.

d

la successione X1 , X2 , . . . converge in distribuzione a X.

Xn −→ X Xn −→ X