Calcolo delle probabilità e statistica teoria ed esercizi

Table of contents :
0. Introduzione
1. Statistica descrittiva
2. Probabilità
3. Variabili aleatorie e modelli probabilistici
4. Statistica inferenziale
Appendice A. Domande di verifica
Appendice B. Approfondimenti e riferimenti bibliografici
Appendice C. Divulgazione dell'informazione statistica
Tavole

Citation preview

Marco Bramanti

Calcólo delle Probabilitá e Statistica Teoría ed esercizi

P R O G e T T O M Í M LeO N ARD O BOLOGNA

Sommario Prefazione per il docente 0. Introduzione

V 1

1. Statistica descrittiva 5 1.1 Tipi di vanabili. Distnbuzioni di frequenza.......................................................... 5 1.2 Grafici di distribuzioni di frequenza...................................................................... 9 1.2.1 Istogrammi e diagrammi a barre...............................................................9 1.2.2 Grafici di frequenza cumulativa............................................................. 11 1.2.3 Diagrammi'' Stem and le a f .................................................................... 12 1.3 Indici di posizione, di dispersione e di forma......................................................13 1 4 Calcoto di media e varianza per dati raggruppati. Trasformazione lineare di dati...............................................................................18 1.5 Boxplots................................................................................................................. 21 Esercizi....................................................................................................................23 1.6 Analisi comparative, correlazione di variabili.................................................... 27 1.6.1 Correlazione di variabili. Scatterplots.................................................... 27 1.6.2 Método dei minimi quadrati. Regressione lineare...............................32 1.6.3 Cambiamenti di scala................................................................................37 1.6.4 Confronto fra gruppi, individuazionedi sottogruppi............................ 42 Esercizi....................................................................................................................47 2. Probabilita 49 2.1 Esperimenti aleatori, eventi elementan e spazio campionario......................... 49 2.2 Eventi e operazioni su eventi (per uno spaziocampionario discreto).............. 49 2.3 Probabilitá di eventi............................................................................................... 51 2.3.1 Come si opera con la probabilitá. La defínizione assiomatica............51 2.3.2 Come si assegnano le probabilitá. 1: La probabilitá classica..............54 2.3.3 Come si assegnano le probabilitá. 2: L'idea frequentista di probabilitá............................................................................................. 56 2 4 Probabilitá classica e problemi di conteggio: il calcólo combinatorio...........56 2.4.1 Lo schema delle scelte successive e il principio del prodotto delle possibilitá.............................................57 2.4.2 Lo schema delle scelte simultanee e i coefficienti binomiali...............60 2.4.3 Esempi di problemi combinatori; applicazioni del calcólo combinatorio alia probabilitá classica.....................................................64 Esercizi.................................................................................................................... 66 2.5 Probabilitá condizionata........................................................................................ 67 2.6 Indipendenza di eventi........................................................................................... 74 2.7 Añidabilitá di un sistema....................................................................................... 76 Esercizi di ricapitolazione sulla probabilitá ......................................................79 3. Variabili aleatoria e modelliprobabilistici 85 3 1 Variabili aleatoria discrete.................................................................................... 85 3.2 II processo di Bernoulli......................................................................................... 88 3.3 Le variabili aleatoria legateal processo di Bernoulli............................................ 89 3.3.1 II processo di Bernoulli con un numero finito di prove......................89 3 .3.2 II processo di Bernoulli illimitato........................................................... 92

3.4

3.5.

3 .6

3.7 3.8

3.9 3.10

3.11

3.12

Valore 3.4.1 3 .4.2 3 .4.3

atteso di una varíabíle aleatoria..............................................................97 La defmizione di valore atteso..............................................................97 Le propriété del valore atteso............................................................... 99 Calcólo del valore atteso per le v a. legate al processo di Bernoulli e applicazioni............................................................................................. 101 Esercizi................................................................................................................. 104 Campionamento, campionecasuale, prime nozioni di statistica inferenziale 106 3.5.1 Campionamento, campione casuale, modelli statistic!........................106 3.5.2 Stima di parametrí, stimatori................................................................. 108 Varianza e covarianza di variabili aleatorie.....................................................1 10 3.6.1 Varianza................................................................................................... 110 3.6.2 Valianza della media campionaria, legge dei grandinumeri, stimatori consistent!................................... 115 3.6.3 Covarianza e correlazione..................................................................... 117 Esercizi................................................................................................................. 119 Campionamento senza reimmissione. Legge ipergeometrica........................ 119 Esercizi................................................................................................................. 123 II processo di Poisson.......................................................................................... 123 3.8.1 La legge di Poisson come limite di leggi binomial!............................123 3.8.2 Secondo modo di dedurre la legge di Poisson................................... 128 Esempi ed esercizi di ricapitolazione salle variabili aleatoriediscrete .......131 Variabili aleatorie continue................................................................................. 136 Esercizi................................................................................................................. 146 Le variabili aleatorie legate al processo di Poisson.......................................... 146 3.10.1 La legge esponenziale e la legge gamma............................................ 146 Esercizi................................................................................................................. 152 3.10.2 Analogie tra il processo di Bernoulli e il processo di Poisson. Propriété di assenza di memoria........................................................... 154 3.10.3 Tempo di vita di un apparecchio.........................................................155 Esercizi................................................................................................................. 159 3.10.4 La ñmzione di istantaneous failure rate e le leggi di Weibull.........160 Esercizi................................................................................................................. 163 II modello normale............................................................................................... 163 3.11.1 La legge normale e le sue propriété......................................................163 3.11.2 Applicazioni della legge normale.......................................................... 167 Esercizi................................................................................................................. 170 3.11.3 Verifica della normalité dei dati. Normal-scores plot ........................ 171 3 .11.4 II teorema del limite centrale e l'approssimazione normale.............. 173 Esercizi................................................................................................................. 181 Moment! e indici di forma per variabili aleatorie..............................................182

187 4 . Statistica inferenziale 4.1 Stima puntúale..................................................................................................... 187 4.1.1 Stima della media................................................................................... 187 4 . 1.2 Stima della varianza. Varianza campionaria........................................189 Esercizi................................................................................................................. 193 4.2 Campionamento da una popolazione normale. Leggi chi-quadro, di Student, di Fisher............................................................. 194 4.3 Stima per intervalli.............................................................................................. 202 4.3.1 II concetto di intervallo di confidenza. Stima della media di una popolazione normale con varianza nota.. 202

4 .3.2

4.4

4.5

4.6

Stima della media di una popolazione normale con varianza incognita........................................................................... 207 4.3.3 Stima della media di una popolazione qualsiasi, per grandi campioni................................................................................208 4.3.4 Stima di una frequenza (o proporzione), per grandi campioni........209 Esempi................................................................................................................. 2 1 1 Esercizi..................................................................................................................215 Test di ipotesi....................................................................................................... 216 4.4.1 Le idee fondamentali sul test di ipotesi. Test sulla media di una popolazione normale, con varianza nota. . . 216 4.4.2 Test t sulla media di una popolazione normale con varianza incognita, o sulla media di una popolazione qualsiasi, per grandi campioni ... 224 4.4.3 Test su una frequenza, per grandi campioni........................................226 Esempi...................................................................................................................227 4.4.4 Test su due medie...................................................................................229 4.4.5 Test su due frequenze............................................................................ 234 Esempi...................................................................................................................235 Esercizi..................................................................................................................238 Inferenze sulle varianze di popolazioni normali................................................240 4.5.1 Inferenze su una varianza...................................................................... 240 4.5.2 Inferenze su due varianze...................................................................... 244 II test chi-quadro di adattamento e di indipendenza........................................ 248 4.6.1 II test chi-quadro di adattamento...........................................................248 4.6.2 II test chi-quadro di indipendenza........................................................ 264 Esercizi..................................................................................................................270 Esercizi di ricapitolazione sulla statistica inferenziale..................................271

A ppendici Appendice A: Domande di verifica............................................................................. 277 Appendice B: Approfondimenti e riferimenti bibliografici....................................... 282 Appendice C: Divulgazione dell'informazione statistica........................................... 285 Tavole............................................................................................................................. 287

Introduzione In questo corso tratteremo argomenti che appartengono a tre discipline distinte: • la Statistica Descrittiva; • il Calcolo delle Probabilitá; • la Statistica Inferenziale. Scopo di questa introduzione é dare una prima idea di cosa siano e che relazioni abbiano tra loro queste discipline. Tutti abbiamo un'idea di cosa sia un'indagine statistica, almeno in alcune applicazioni alia vita quotidiana o a problemi tecnico-scientifici. Si pensi ai seguenti esempi: il censimento decennale della popolazione italiana, da parte dell'ISTAT; i sondaggi d'opinione, le previsioni e proiezioni di risultati elettorali; I'ispezione di un campione di pezzi da un lotto numeroso, per avere un controllo della qualitá media di un prodotto; la registrazione sistemática di eventi abbastanza rari, come disastri naturali o casi di malattie, per fare qualche previsione sulla loro frequenza in futuro; la sperimentazione di un nuovo prodotto su un campione di "casi", per valutame le prestazioni (ed eventualmente confrontarle con quelle di un prodotto giá esistente). Ad esempio; si somministra un nuovo fármaco a un gruppo di volontarí; si prova un nuovo fertilizzante agricolo su un certo numero di appezzamenti di terreno; si prova un nuovo carburante su un campione di automezzi, ecc. Tenendo presenti questi e simili esempi, possiamo fare qualche prima riflessione su cosa sia la statistica. Seguendo Topinione di R. A. Fisher, uno dei grandi studiosi di statistica del nostro secolo, la statistica si puó vedere come * ( 1) lo studio delle popolazionr, ( 2) lo studio della variazione, (3) lo studio dei metodi di riduzione dei dati. ( 1) . II significato origínale della parola "Statistica" (studio delle "cose dello Stato") suggerisce che essa abbia a che fare con gli aspetti sociali. In realtá pero, le popolazioni di cui si occupa la statistica non sono solo le popolazioni umane, anzi: le popolazioni studiate sono sempre in un certo senso un'astrazione. Se noi abbiamo le registrazioni delle stature di 1000 studenti, é la popolazione delle stature piuttosto che quella degli studenti che prendiamo in esame. L'idea di popolazione non é applicata solo ad esseri viventi, o a individui materiali. Se un'osservazione, come una semplice misura, é ripetuta indefinitamente, l'aggregato dei risultati é una popolazione di misure. Tali popolazioni sono il particolare campo di studio della Teoría degli Errori, una dei piú antichi e vivad campi di indagine statistica. Ció non ostante, in un certo senso é corretto dire che la statistica é lo studio di popolazioni, o aggregati di individui, piuttosto che di individui singoli Questo va sempre tenuto presente, se non si vuole fraintendere qualunque conclusione tratta con argomenti statistic!. ( 2) . II concetto di statistica come studio della variazione é l'esito naturale del vedere questa disciplina come lo studio delle popolazioni; una popolazione di individui

* I prossimi paragrafi sono una libera sintesi di alcuni passi dcll'introduzionc del libro di R A Fi.sher:

"Statistical Methods fo r Research Workers". 13° ed., Oliver and Boyd, Bdinburgh, London, 1958

Introduzione

assolutamente identici sarebbe completamente descritta dalia descrizione di uno qualsiasi di quest! individui, e dal numero di individui. Le popolazíoni che sono oggetto di studio statistico, invece, mostrano sempre in qualche aspetto una variazione interna. II modo piú semplice che il buon senso suggerisce, per descrivere una grandezza che varia all'intemo di una popolazione, é quello di calcolame un valore medio. La media, pero, da sola non basta a descrivere o render ragione della variazione. La statistica, invece, si occupa proprio dello studio della variazione, osservandone l'entitá e le modalitá: queste infatti ci possono insegnare qualcosa di piú sulle caratteristiche del fenómeno in esame. Supponiamo, ad esempio, di misurare con precisione le dimension! di certi pezzi meccanici prodotti da due diverse macchine, A e B . I pezzi dovrebbero essere tutti identici, ma in realtá mostrano piccole variazioni. Puó darsi che le dimension! medie dei pezzi prodotti dalle due macchine coincidano; tuttavia, se i pezzi prodotti dalla macchina A presentano variazioni, rispetto ai valor! medi, maggiori di quelli prodotti dalla macchina B , noi diremo che la macchina B é piú accurata della A. Questo é solo un esempio per mostrare come in molti problem! la variazione sia l'aspetto rilevante. (3). II terzo aspetto sotto cui dobbiamo guardare alio scopo della statistica é introdotto dal bisogno pratico di ridurre il volume di ogni insieme di dati. Ogni ricercatore che abbia effettuato osservazioni metodiche ed estensive é familiäre con l'incalzante necessitá di ridurre i suoi risultati a un volume piú contenuto. Noi vogliamo esprimere tutta Yin/ormazione rilevante contenuta in una massa di dati per mezzo di un numero comparativamente piccolo di valor! numeric!. II numero di informazioni indipendenti fornite dai dati é sólitamente moho piú grande del numero di informazioni che si cercano, e di conseguenza la maggior parte dell'informazione contenuta in ogni corpo di dati é irrilevante. L'obiettivo dei process! statistic! impiegati nella riduzione dei dati é escludere questa informazione irrilevante, e isolare il nocciolo deirinformazione. ^

Sintetizzando: la statistica é lo studio di popolazioni di individui, non di individui singoli; la parola popolazione va intesa in un senso moho astratto, come "aggregato di individui". Una popolazione presenta sempre, dal punto di vista di ció che si vuole osservare, una certa variazione interna, che é significativo studiare. Infine, nella descrizione di una popolazione, abbiamo normalmente a che fare con una massa ingente di dati da cui é utile estrarre Yin/ormazione rilevante. Questo processo di sintesi, o riduzione dei dati, é pure tra gli scopi della statistica. Chiediamoci ora: qual é Yorigine della variabilitál Perché 1000 student! non hanno tutti la stessa statura? Perché se 10 sperimentatori eseguono una stessa misura fisica, troveranno probabilmente 10 valori leggermente diversi? Perché l'autobus non passa esattamente ogni 10 minuti, come dovrebbe? Spesso, all'origine della variabilitá, stanno fenom eni aleatori. "Aleatorio" é un fenómeno "govemato dal caso", ossia in cui qualche elemento di casualitá entra in modo essenziale. Questo significa che il fenómeno non é completamente prevedibile a priori, il che, si noti bene, non significa necessariamente che il fenómeno sia totalmente imprevedibile; se estraggo una pallina da un'urna che ne contiene 70 bianche e 30 nere, non sono certo del risultato, ma ho una certa aspettativa II concetto di probabilitá ha a che fare appunto con le opinion! che noi abbiamo circa l'esito dei fenomeni aleatori, incerti. II Calcólo delle Probabilitá, di cui parleremo, é una disciplina che storicamente prende le mosse dai problem! di giochi d'azzardo (ad esempio, quale sia il "prezzo equo" da pagare per una certa scommessa) Qui termina il riferimenlo al libro di Fisher

Introduzione

3

e arriva a dare una trattazione matemática dell'incertezza, ossia delle rególe con cui noi attribuiamo un certo grado di fiducia al realizzarsi di un dato evento. Vedremo come in molte situazioni concrete, con qualche ipotesi ragionevole sulla natura del fenómeno aleatorio e qualche informazione quantitativa, saremo in grado di formulare un mode lio probabilistico, in base al quale calcolare la probabilitá di un certo evento. Nell'esempio deH'uma con palline bianche e nere, impareremo come si calcóla la probabilitá che, estraendone 10, ne troviamo esattamente 6 bianche. Un problema in qualche modo inverso a questo é il seguente: se, intervistando un campione di 100 persone alia vigilia di un referendum, in 67 affermano che voteranno "Si", cosa possiamo dire circa la percentuale degli elettori italiani (che sono milioni, non solo i 100 intervistati!) che voteranno "Si"? A rigor di lógica, assolutamente nulla di certo. II problema tipico della Statistica Inferenziale é proprio questo: fare inferenze, cioé asserzioni motivate, circa la popolazione complessiva in esame, a partiré dalle osservazioni fatte su un campione estratto dalla popolazione stessa La statistica inferenziale riguarda dunque le conclusion! che si possono trarre quando si esegue wn'indagine campionaria su una popolazione (cioé osservando solo una parte, non tutti gli individui). Queste conclusion! non saranno "certezze", ma asserzioni formulate con il linguaggio e i metodi (precisi e quaníitativi) del calcólo delle probabilitá. La Statistica Descrittiva si occupa invece deW'analisi dei dati osservati, prescindendo sia da qualsiasi modello probabilistico che descriva il fenómeno soggiacente, sia dal fatto che l'insieme di dati provenga da un campione estratto da una popolazione piú vasta, o coincida invece con la popolazione intera. Obiettivi della statistica descrittiva sono: 1. Eífettuare quella riduzione dei dati di cui si é detto sopra. L'informazione rílevante contenuta nei dati puó essere espressa mediante opportuni grafici o indici numerici che descrivono la distribuzione di una variabile sul gruppo di individui considerati. 2. Eseguire indagini di tipo comparativo: a. confrontare i valor! che una stessa variabile assume su gruppi diversi di individui (es.: statura di maschi e femmine, all'interno di una popolazione fissata); b. cercare relazioni esistenti tra variabili diverse (es.: relazione tra statura e peso, per gli individui di una certa popolazione). 3. Verifícare l'adattamento dei dati empiric! a un modello teórico, o orientare nella formulazione del modello stesso. Le tre discipline a cui abbiamo accennato (calcólo delle probabilitá, statistica inferenziale, statistica descrittiva) hanno quindi strette relazioni reciproche In estrema sintesi, si puó dire che il loro scopo é quello di darci degli strumenti per prendere decisioni in situazioni di incertezza, o dare valutazioni quantitative precise del grado di certezza o incertezza che abbiamo.

Cap. 1. Statistica descrittiva

1.1. Típi di variabilí. Distríbuzioni di frequenza II punto di vista da cui ci mettiamo ora é: abbiamo un insieme di dati, e li vogiiamo descrívere, sintetizzare, se possibile conunentare, formulando qualche ipotesi su di essi. Non ci importa in questo momento se i dati provengano dalla popolazione intera o da un campione estratto da essa, né ci poniamo il problema di come sia stato scelto il campione I prossimi tre esempi costituiranno la guida per tutto il seguito del discorso Esempio 1. II numero di particelle cosmiche rilevate da un certo apparato di misurazione in 40 periodi consecutivi di un minuto sono stati registrati come segue;

0 , 2 , 1, 4 , 3 , 1, 2 , 3 , 8 , 2 , 5 . 2 , 1, 3 , 3 , 1, 3 , 2 , 2 ,5 , 4 ,4 ,4 ,2 ,3 ,5 ,5 ,1 ,1 ,2 ,4 ,4 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,2 . Esempio 2. I diametri di 20 sferette prodotte da una linea produttiva sono stati misurati. Le misure, espresse in cm, sono: 2.08, 1.72, 1.90, 2.11, 1.79, 1.86, 1.80, 1.91, 1.82, 1.84, 2.04, 1.86, 2.04, 1.80, 1.82, 2.08, 2.04, 1.85, 2.07, 2.03. Esempio 3. In uno stabilimento vengono registrati gli episodi di malíunzionamento di un tomio controllato dal Computer, insieme alie loro cause. I dati, relativi a una certa settimana, sono i seguenti;

fluttuazioni di tensione; instabilitá del sistema di controllo: errore dell'operatore: strumento consúmalo e non sostituito; altre cause; Totale:

6 22 13 2 5 48

In ciascuno dei tre esempi che abbiamo fatto si osserva una variabile che é, rispettivamente: 1. II numero di particelle cosmiche registrate in un intervallo di un minuto, 2. II diámetro di una sferetta prodotta; 3. La causa di un guasto accaduto. Di questa variabile noi abbiamo un insieme di n osservazioni registrate (n vale, rispettivamente, 40, 20, 48, nei tre esempi). Queste osservazioni costituíscono i dati che noi vogiiamo analizzare.

CapHoto 1: Statistica descrittiva

Defínizione 4. Le varíabili oggetto di osservazione statistica si classificano in 3 tipi, a seconda del tipo di valorí che esse assumono; numeriche varíabili < ^ categoríche

j discrete \ continue

( 1) ( 2) (3)

Una variabile si dice numérica se i valorí che essa assume sono numerí, categórica altrímenti; una variabile numérica si dice discreta se l'insieme dei valorí che essa a priori puó assumere é finito o numerabile, continua se l'insieme dei valori che essa a priori puó assumere é l'insieme R dei numerí reali o un intervallo / C R. Nei casi pió comuni, le varíabili aleatoríe discrete coníano il numero di oggetti, eventi, ecc., di un certo tipo, mentre le varíabili continue misurano il valore assunto da una grandezza física che varía con continuitá, come un tempo, una lunghezza, ecc. Esempi 5. Le varíabili degli esempi 1 e 2 sono numeriche, la variabile dell'esempio 3 é categórica. La variabile dell'esempio 1 é discreta, perché il numero di particelle osservate é sempre un numero intero > 0 , e l'insieme dei numerí interí é (infínito ma) numerabile. La variabile dell'esempio 2 é continua, perché il diámetro é una lunghezza, che come tale puó essere misurata da un numero reale positivo qualunque (in un intervallo ragionevole), físsata un'unitá di misura. Si osservi che per distinguere una variabile discreta da una continua occorre ragionare su quali sono i valorí che a priori la variabile puó assumere. E' chiaro infatti che in n osservazioni, i valori effeííivamente assunti saranno al piu n, e quindi sempre un numero finito! Per i dati dei tre esempi costruiamo ora la tabella (U distriburione di frequenza, cioé dividiamo l'insieme dei dati in un opportune numero di classi mostrando il numero di osservazioni che cadono in ciascuna classe. Caso A. Varíabili discrete. Nel primo esempio la variabile x osservata (numero di particelle) é una variabile numérica discreta, che puó assumere solo valori interí. E' naturale in questo caso scegliere come classi A* = {x,| x, = /c} con fc = 0 ,1 ,2 ,3 ,4 ,5 ,8 (e i = 1 , 2 , 3 , , 40). Ad esempio, A 2 é la classe che contiene tutte le osservazioni (10 in tutto) in cui sono state registrate esattamente due particelle. Consideríamo la seguente tabella di distríbuzione di frequenza: Classe (n° di part.) 0 1 2 3 4 5 8 Totale

Freq. ass. 1 6 10 12 6 4 1 40

Freq. reí. 0.025 0.15 0.25 0.3 0.15 0.1 0.025 1

Freq. perc. 2.5 15 25 30 15 10 2.5 100

Freq. cum. 2.5 17.50 42.50 72.50 87.50 97.50 100

Defínizíoní 6. La prima colonna indica la classe (numero di particelle); la seconda la frequenza assoluta (o semplicemente frequenza); numero di osservazioni che cadono in quella classe. La terza la frequenza relativa, cioé il rapporto tra frequenza assoluta e numero totale di osservazioni (in questo caso 40); la quarta é la frequenza

Capitolo 1: Statistica descrittiva

7

percentuale, cioé la frequenza relativa moltiplicata per 100. La quinta colonna indica la fre q u e n t (percentuale) cumulativa, ossia la frequenza percentuale delle osservazioni minori o uguali a /c; ad esempio, la penúltima riga indica che ¡I 97.5% delle osservazioni ha dato un numero di particelle < 5. In modo análogo si puó defínire la frequenza relativa cunutlativa (qui non riportata). Osservazioni 7. Controlli nella tabella di distribuzione di frequenza. Si osservino le seguenti proprietá dei numeri riportati nella tabella di distribuzione di frequenza: la frequenza assoluta é un numero intero compreso tra 0 e il numero totale di osservazioni; la frequenza relativa é un numero reale compreso tra 0 e 1; la frequenza percentuale e la frequenza percentuale cumulativa sono numeri reali compresi tra 0 e

100 La somma delle frequem e assolute dá il numero ¡oíale di osservazioni; la somma delle frequenze relative deve sempre dare l e la somma delle frequenze percentuali deve sempre dare 100; si tenga conto di questo quando si arrotondano i valori ottenuti .

come quozienti. La somma delle frequenze cumulative non ha alcun significato, visto che ognuna di esse é giá una somma: ad esempio, la frequenza cumulativa sulla terza riga é somma delle frequenze percentuali delle prime tre righe. Caso B. Variabili continue. Nel secondo esempio la variabile osservata (misura, in cm., del diámetro di una sferetta) é una variabile numérica continua, che puó assumere (a priori) tutti i valori compresi in un certo intervallo di numeri reali. In questo caso i valori assunti sono compresi tra 1.70 e 2 . 10, perció possiamo, ad esempio, suddividere questo intervallo in intervallini di ampiezza 0.05 e considerare come classi; {1.70 < X < 1.75}, (1.75 < X < 1.80), ecc. La distribuzione di frequenza é allora data dalla tabella seguente: Classi 1.70 - 1.75 1.75 - 1.80 1 .8 0 -1 .8 5 1.85 - 1.90 1.90 - 1.95 1.95 - 2.00 2.00 - 2.05 2.05 - 2.10 2 .1 0 -2 .1 5 Totale

Freq. assol. 1 3 3 4 1 0 4 3 1 20

Freq. reí. 0.05 0.15 0.15 0.20 0.05 0 0.20 0.15 0.05 1

Freq. perc. 5 15 15 20 5 0 20 15 5 100

Freq. cum. 5 20 35 55 60 60 80 95 100

Per evitare ambiguitá, bisogna precisare che la scrittura 2.00 - 2.05, ad esempio, significa (2 < X < 2.05} (perció un'osservazione uguale a 2 non cade in questa classe, ma nella precedente). L'ultima riga (frequenza cumulativa) si interpreta cosí; il valore scritto é la percentuale di osservazioni minori o uguali dell'estremo destro deH'intervallo considerato, ad es.; il 5% delle osservazioni sono < 1.75, il 20% sono < 1.8, ecc. II modo di scegliere le classi, nel caso di una variabile continua, non é univoco; l'ampiezza e il numero delle classi possono essere scelti in infíniti modi; l'ímportante é che ogni osservazíone appartenga ad una e una sola classe. Troppe classi rendono la tabella poco leggibile; troppo poche classi la rendono poco significativa: il numero giusto va scelto con buon senso.

8

CapHolo 1: Statistics descrittiva

Esercizio 1.1. Si riscriva la tabella precedente scegliendo le classi di ampiezza 0.1, quindi {1.7 < X < 1.8}, {1.8 < x < 1.9}, ecc. Si osservi che, rispetto ai dati riportati nel testo dell'esempio 2, la tavola di distribuzione di frequenza sacrifica parte deU'informazione: invece di conoscere I'esatto valore di un'osservazione, sappiamo solo che cade in un certo intervallo. Questo accade tutte le volte che si considera la distribuzione di frequenza di una variabile continua. D'altro canto il raggruppamento dei dati in classi opportune spesso mette in luce importanti caratteristiche dei dati, e il guadagno di leggibiliíá compensa la perdiía di informazione. * Invece, nella tabella di distribuzione di frequenza del primo esempio (variabile discreta) non vi é perdita di informazione, in quanto le classi tengono conto di ogni valore assunto. Talvolta tuttavia anche per una variabile discreta é conveniente utilizzare come classi gli insiemi di osservazioni che cadono in un dato intervallo, anziché distinguere tutti i valori assunti; questo accade quando i valori assunti sono molto numerosi. Si pensi ad esempio alia variabile "numero di abitanti della cittá", dove ogni osservazione corrisponde a un comune italiano: anche se la variabile é discreta, é ragionevole in questo caso raggruppare i dati per classi del tipo {x < 100 }, {100 < X < 1000}, {1000 < X < 5000}, ecc. (Si osservi, per inciso, che gli intervalli che defíniscono le classi non devono avere necessariamente la stessa ampiezza). In sostanza, in questo caso stiamo trattando una variabile discreta come se fosse continua. Anche in questo caso si avrá una perdita di informazione a vantaggio di una maggior leggibilitá dei dati (sintesi). I dati fomiti nel testo dell'esempio 1 e dell'esempio 2 vengono chiamati dati greta, mentre dati raggruppati sono quelli fomiti dalle corrispondenti tavole di frequenza. Possiamo riassumere le osservazioni fatte qui sopra dicendo che i dati grezzi sono piú voluminosi dei dati raggruppati e contengono, in generale, piú informazioni di questi. Queste informazioni in piú non sono pero molto rilevanti, se le classi sono state defínite in modo appropriato. Caso C. V ariabili categoriche. Nel terzo esempio abbiamo una variabile categórica: la variabile é "tipo di guasto verifícatosi". Nel testo dell'esempio, i dati sono giá raggruppati in classi. La tabella di distribuzione di frequenza é: Classe fluttuaz. instabilitá eiTore op. strumento altro Totale

Freq. assol. 6 22 13 2 5 48

Freq. reí. 0.125 0.458 0.271 0.042 0.104 1

Freq. perc. 12.5 45.8 27.1 4.2 10.4 100

Si noti che per una variabile categórica non ha senso parlare di distribuzione cumulativa. Ora che abbiamo introdotto i primi termini che riguardano le variabili statistiche, vedremo come costruire grafici (§1.2, 15) e calcolare indici (§ 1 3 , 1.4) che esprimano in modo sintético e signifícativo \'informazione contenuta nei dati. Tutto ció che diremo a questo riguardo richiede una precisazione. 11 modo in cui oggi abitualmente si * Si confronti con quanto detto nell'lntroduzione a proposito della statistica come studio dei metodi di

riduzione dei dati.

Capitolo 1: Statistica descríttiva

9

eseguono queste operazioni è quelle di utilizzare pacchetti software di tipo statistico. Questi consentono, una volta immessi i dati, di ottenere rápidamente grafici e indici, anche per insiemi numerosi di dati. Imparare a costruire grafici manualmente ha quindi soprattutto uno scope didattico; I'obiettivo è quelle di: • imparare a leggere e interpretare un gráfico (prodotto dal computer in base alie nostre istruzioni); • capire che tipo di gráfico puô essere intéressante produire, per analizzare un certo insieme di dati. Analoghe osservazioni valgono per il calcolo degli indici numerici.

1.2. Grafici di distribuzioni di frequenza 1.2.1. Istogrammi e diagrammi a barre Le informazioni contenute nella distribuzione di frequenza possono essere rappresentate gráficamente in modo espressivo. Nel caso di distribuzioni numeriche continue, un tipo di gráfico molto usato é Vistogramma. L'istogramma di una distribuzione di frequenza é costruito mediante rettangoli adiacenti, le cui basi sono gli intervalli che definiscono le classi (li supponiamo, per il momento, tutti di uguale ampiezza), e le altezze rappresentano le ftequenze (assolute o relative, dipende dalla scala scelta). Nell'esempio 2, l'istogramma corrispondente alia tabella sopra riportata é il seguente (in ordinate c'é la frequenza relativa);

Se cambiamo il numero di classi, cambiandone l'ampiezza, cambierá il numero delle barre. Ad esempio l'istogramma relativo alia suddivisione in 5 classi di questi stessi dati (si veda Esercizio 1.1) è il seguente:

TV La scelta del numero delle classi (o della loro ampiezza) non è indifferente: troppo poche classi appiattiscono il gráfico fino a renderlo insignificante; troppe classi

10

Capitolo 1: Statistica descrittiva

introducono tra le barre oscillazioni eccessive, che distruggono I'eventuale "regolarítá" deH'istogramma. Ancora nell'esempio 2, intervalli di ampiezza 0.2 oppure 0.02 producono, rispettivamente, i seguenti istogrammi:

n

rTTTTiTfcTa a H»¿I e a ¿ a *j

i - 1 ¿ 0. Perció i due whisker si prolungano fino a 0 e 5. L'unico outlier é 8.

22

Capitolo 1: Statistica desaittiva

In sostanza, il significato del boxplot é il seguente: la metá delle osservazioni cade sempre nel box, che evidenzia anche la mediana, e tutte o quasi tutte le altre cadono tra gli estremi dei due segmenti verticali. Dati anomali vengono messi in evidenza. Si osservi che la larghezza del rettangolo non ha alcun signifícato; vuole solo visualizzare il fatto che "il nocciolo" delle osservazioni cade li dentro, mentre le code della distribuzione si estendono sopra e sotto. L'uso di boxplots é particolarmente efficace per confrontare visivamente piú popolazioni simili, ow ero gruppi di dati, anziché un singólo gruppo di dati, come fínora abbiamo considéralo. Esempio 23. Esperimento; si conírontano le prestazioni di automobili con o senza un determinato additivo nel carburante. Osservazioni: 2 gruppi di 12 automobili ciascuno, un gruppo con e un gruppo senza additivo. $ Prestazione a e i r a u t o senza d dd $ Pnestazione dell'autü con aodit

Nel testo da cui sono tratti questi dati (reali) non e spiegato il significato dell'indice con cui sono state misurate le prestazioni. (Scala da 15 a 30). Si osserva che il gruppo "con additivo" mostra una certa superiorita di prestazioni, ma anche una maggior disuniformita; il secondo gruppo di osservazioni ha maggior dispersione del primo □

CapHoto 1: Statistica descrittiva

23

Esercizi 1.2.

Calcolare media, varianza e deviazione standard per i seguenti dati: 14, 12, 21, 28, 30, 63, 29, 63, 55, 19, 20.

1.3.

Si consideri la seguente tabella di frequenze;

0 < X < 10 10 < X < 15 15 < X < 20 20 < X < 25 25 < X < 35

8 14

Si calcoli, in base a questi dati, media, varianza e deviazione standard. 1.4. Si consideri la seguente tabella di distribuzione di frequenza; Età (anni) 20-24 25-29 30-34 35-39 40-80

Frequenza 13 17

12

a. Si completi la tabella riportando anche le frequenze relative, percentuali, cumulative. b. Si rappresentino i dati mediante istogramma (attenzione; I'ultimo intervallo ha ampiezza diversa dagli altri). 1.5. I seguenti dati fomiscono il numero di donne con un'occupazione professionale, nel 1986, negli U S. A. (dati in migliaia); A. Ingegneria / Informática B. Sanità C. Istruzione D. Area sociale e legale E. Arte / Sport F. Altro

347 1937 2833 698 901 355

Dopo aver determinato le frequenze relative e percentuali, costruire un diagramma a barre. 1.6. I seguenti dati mostrano il numero mensile di interventi di manutenzione e assistenza che si sono resi necessari per un certo macchinario Le osservazioni riguardano 25 mesi consecutivi (ad esclusione del mese di agosto).

1, 5 , 3 , 1, 3 , 2, 2 , 1, 2 , 5 , 3 , 0 , 1, 4 , 3 , 7 , 1, 3, 1, 7, 2 , 1, 2 , 4 , 8 . a. Costruire la tabella con le frequenze assolute, relative, cumulative di queste osservazioni. b. Disegnare un istogramma di questi dati. Come descrivereste la forma di questa distribuzione? c. Dire se la distribuzione é unimodale o plurimodale e, nel primo caso, determinare la

24

Cafxtoky 1: Statistica descrittiva

moda. d Calcolare la media e la mediana di questi dati. 1.7. Quelli che seguono sono i minuti che una persona ha dovuto aspettare per prendere I'autobus in 15 giomi lavorativi; 10, 1, 13, 9, 5, 9, 2, 19, 3, 8 , 6 , 17, 2, 10, 15. Determinare: la media, la varianza, la mediana, i quartili; tracciare un boxplot 1.8. Le precipitazioni, espresse in pollici, per alcune cittá U.S.A. nel mese di aprile di un certo anno, sono: 2.9, 3.7, 3.2, 4.0, 3.9, 2.1,

2.9, 2.9, 1.1, 0.4,3.0, 3.3,

3.2, 1.0, 2.2, 5.4, 3.5, 3.6,

4.0, 0.7, 2.8, 1.8,1.5, 2.7,

4.0, 4.0, 3.0, 2.2, 3.3, 3.8,2.6, 2.2, 4.2, 5.4, 4.8, 1.8. a. Costruire uno stem and leaf display, suddividendo ogni unitá in due classi. b. Costruire un istogramma aventi le stesse classi utilizzate nello stem and leaf display, e un altro aventi intervalli di ampiezza doppia. La distribuzione appare simmetrica o asimmetrica? Unimodale o plurimodale? In base all'istogramma, stimare (senza fare calcoli) la media delle osservazioni. Calcolarla poi analiticamente. c. Sapendo che Ipollice = 2.54cm., calcolare la media e la varianza in cm. 1.9. La distribuzione di irequenza cumulativa relativa per la profonditá dei pozzi petroliferi in una determinara regione é data dalla tabella: Profonditá (in metri) h < 300 ZOO < h < 600 900 < h < 1200 1500 < h < 1800 2100 < h < 2400 2700 < h < 3000 3300 < h < 3600 3900 < h < 4200

Freq. (relativa) cum. 0.09 0.35 0.72 0.88 0.95 0.98 0.99 1.00

In tutto, ci sono 700 pozzi petroliferi nella regione. a. Costruire la tavola della distribuzione di irequenza relativa. b. Costruire la tavola della distribuzione di irequenza assoluta. c. Costruire un istogramma della distribuzione di frequenza. 1.10. Per ciascuna delle seguenti distribuzioni, si dica se é possibile calcolare la media e/o la mediana con un'approssimazione ragionevole, spiegando il perché.

Capitolo 1: Statistica (íescríttiva

Voto 18-20 21-23 24-26 27-29 30

Frequenza 5 18 27 15 6 Peso 60 0 meno 61-65 65-70 71-75 76-80

IQ meno di 90 90-99 100-109 110-119 piú di 119

25

Frequenza 3 14 22 19 7

Frequenza 41 13 8 3 1

1.11. Per ciascuna delle seguenti popolazioni, si disegni un grafíco della distribuzione di frequenza, la cui forma sia ragionevole in base alia natura del fenómeno, si descriva tale forma con pochi aggettivi appropriati, e si spieghi il perché delle proprie scelte: a. Volume del liquido contenuto nelle bottiglie che escono da una macchina che le riempie automáticamente. b. Tempo di attesa tra due telefónate successive che arrivano a un centralino piuttosto "affollato" di telefónate. c. Punteggi (in trentesimi) totalizzati da 100 studenti in un test piuttosto facile. d. Punteggi (in trentesimi) totalizzati da 100 studenti in un test piuttosto difficile. e. Chilometri percorsi con un litro di benzina da una certa automobile, in tempi e situazioni diverse. 1.12. La distribuzione di frequenza degli intervalli di tempo tra due arrivi successivi di messaggi all'unitá céntrale di una rete time-sharing sono come segue; Tempo (in millisecondi) 0 < t < 5 5 < í < 10 10 < t < 15 15 < í < 20 20 < í < 25 25 < í < 30 30 < í < 35

№ di messaggi 152 84 56 31 14 6 2

a. Si calcolino le frequenze relative e cumulative delia distribuzione, e si tracci il grafíco della flinzione di distribuzione cumulativa. b. Si tracci un istogramma delia distribuzione di frequenza. c. Si calcolino la media e la mediana della distribuzione. 1.13. In una ditta che produce chips per computer, alcuni lotti di 100 chips vengono scelti a caso, e il numero di chips difettosi in ogni lotto viene registrato. La seguente tabella mostra i risultati dei controlli di 15 lotti per ciascuna di tre diverse linee

26

Capitolo 1: Statistica descrittiva

produttive, che chiamiamo A, B, C.

A B C

4 0 1

0 2 1

1 1 2

2 5 3

2 2 0

1 1 3

1 2 2

0 1 1 0 1 3

1 1 3

3 2 1

0 2 3

2 1 2

3 4 1

0 5 1

Si calcolino mediana e quartili di ciascuna popolazione, e si confrontino i boxplots delle tre popolazioni. Commentare. 1.14. Una macchina produce pezzi che devono avere caratteristiche specificate. II diámetro di 25 pezzi scelti a caso da quelli prodotti é stato misurato e i dati, espressi in mm., sono i seguenti; 1. 50.120 11.50.065 21. 49.927 2. 49.903 12.50.217 22.49.525 3. 50.276 13. 50.152 23. 50.013 4. 50.021 14.50.431 24. 50.037 5. 49.738 15.49.899 25.49.800 6 . 50.012 16.50.084 7. 50.338 17. 50.023 8 . 49.999 18.49.965 9. 50.253 19. 50.053 10.50.300 20.50.360 a. Si costruisca un diagranuna stem and leaf, in unitá 0 .001 , prendendo come "ramo la prima cifra decimale (quindi ogni "foglia" é fatta da due cifre). b. Osservando il diagramma stem and leaf, si raggruppino i dati in classi (almeno 5). Per questa suddivisione in classi si costruisca la tabella delle frequenze relative e assolute, e un istogramma. c. A partiré dai dati raggruppati (cioé in base alia tavola di frequenze presentara al punto precedente, e non in base ai dati grezzi) si calcolino la media, la varianza e la deviazione standard. d. Si calcolino la mediana i quartili delle osservazioni, e si disegni un boxplot. Utilizzare come estremi dei "baffi” il 5° e il 95® percentile. (Suggerimento: il diagramma stem and leaf giá costruito puo essere utile, se le foglie sono messe in ordine sui rami). e. Si descriva con pochi termini appropriati la forma della distribuzione dei dati, come emerge da tutta I'analisi precedente.

Capitoto 1: Statistica descrittiva

27

1.6. Analisi comparative, correlazione tra variabili Nei tre esempi che abbiamo utilizzato come guida fino a questo momento, consideravamo una sola variabile alia volta, e un solo gruppo di osservazioni. Si tratta di una situazione molto semplificata; piu spesso, nell'indagine statistica, si eseguono analisi di tipo comparativo. Questo puo signifícate due cose, basilarmente: • osservare una stessa variabile su piu gruppi di "individui"; • osservare simultáneamente piu variabili su un medesimo gruppo di "individui" (oppure entrambe le cose contemporáneamente). Un esempio del primo tipo é stato fatto nell'Esempio 22; la variabile "prestazioni dell'automobile" viene confrontara su due gruppi di osservazioni, effettuate su due gruppi di automobili che hanno súbito un "trattamento" diverso (in questo caso si trattava della presenza o meno di un additivo nel carburante). Altri esempi di confronto fra gruppi si sono incontrati negli esercizi precedenti. Ci occuperemo ora del secondo tipo di situazione, che finora non avevamo incontrato.

1.6.1. Correlazione tra variabili. Scatterplots Introduciamo mediante un esempio concreto alcuni concetti fondamentali, in modo intuitivo; puntualizzeremo piu tardi alcune definizioni precise. Esempio 23. Si consideri la seguente tabella di dati, relativi a 10 cittá degli USA *. cittá 1. Birmingham 2. Huntsville 3. Montgomery 4. Anchorage 5. Mesa 6. Phoenix 7. Tempe 8. Tucson 9. Little Rock 10. Anaheim

povertá 23.60 13.80 18.70 6.10 6.20 8.10 5.50 10.20 10.10 6.00

densitá 2887 1256 1386 101 2255 2437 2816 3346 1996 5259

vittime 27.07 11.37 14.51 8.48 3.15 11.30 4.12 7.32 18.93 5.38

regione South South South West West West West West South West

Legenda; Povertá = percentuale delle famiglie al di sotto della soglia di povertá; Densitá = numero di abitanti per miglio quadrato; Vittime = numero di vittime di omicidio, diviso 100, nel periodo '80-'84; Regione = regione geográfica degli Stati Uniti. Un po’ di terminologia. Ogni riga numerata da 1 a 10 é un'osservazione\ ogni colonna (tranne la prima, che é un'etichetta deH'osservazione) é una variabile, le variabili "povertá", "densitá", "vittime" sono numeriche, la variabile "regione" é ' Dati provenienti da un file dimostrativo acciuso al programma StataQuest 4.0.

28

Capitolo 1: Statistica descrittiva

categórica. Le tre variabili numeriche si possono considerare tutte continue, perché sono quozienti di numeri interi molto grandi (percio possono assumere approssimativamente qualsiasi valore, in un certo intervallo). Un tipico problema che ci si puó porre é; esiste una correlazione tra le variabili considerate? Ad esempio, c'é una correlazione tra povertá e numero di omicidi? O tra povertá e densitá di popolazione? Si puó indagare qualitativamente questo tipo di question! usando un tipo di gráfico detto diagramma di dispersione, o scatterplot. Si mette in ascissa una variabile, in ordinate un'altra, e si rappresentano con punti o cerchietti le singóle osservazioni. Se una relazione semplice tra le due variabili esiste, questa dovrebbe apparire. Ad esempio, tracciamo uno scatterplot delle variabili densitá/vittime:

2000

cens i ta'

4000

II gráfico non suggerisce che ci sia una correlazione tra le due variabili. Ad esempio, non é in generale vero che cittá con densitá elevata abbiano elevato numero di omicidi, o viceversa. I punti sono sparsi senza apparenti regolaritá. Tracciamo ora uno scatterplot delle variabili povertá/vittime;

Qui una certa regolaritá appare; punti con ascissa piccola hanno ordinata piccola, e punti con ascissa grande hanno ordinata grande: diciamo in questo caso che esiste una correlazione diretta tra povertá e numero di omicidi. Análogamente parliamo di correlazione inversa tra due variabili, quando al crescere di una l'altra decresce. In questo esempio i punti sono (grosso modo) disposti lungo una retta crescente: la relazione tra le grandezze è proprio lineare? Si puó tracciare la retta di regressione (retta che "pió si awicina a tutti i punti", vedremo poi come si calcóla):

Capitolo 1: Statistica descrittiva

vittime=

29

205031 ♦ 1 0 !l74poverta

Per quanto possa essere signifícativa un'indagine statistica fatta con sole dieci osservazioni, I'idea di una relazione lineare tra le due variabili sembra plausibile. I dati di questo esempio sono in reaitá estratti da un insieme di 146 osservazioni (ossia dati relativi a 146 cittá degli U S A ). Senza riportare (per brevitá) la tabella completa di questi dati, é interessante osservare lo scatterplot povertá/vittime prodotto dal computer per questo insieme piu ampio di dati.

La correlazione diretta é ancora evidente; un po' meno evidente il fatto che la correlazione sia lineare. Si osserva poi che i dati sono moho addensati vicino aH'orígine (piccoli valori di z e di y) e piú radi per grandi valorí delle varíabili. In questo caso puó essere utile, per meglio visualizzare la dipendenza delle variabili, eseguire una trasformazione di scala. Se consideriamo, anziché i numeri z e y, i numeri logz e logy, per le proprietá della flinzione logaritmo otteniamo l'effetto di distanziare i valori vicini aH'orígine e awicinare quelli lontani. Ne dovrebbe risultare, in questo caso, uno scatterplot piú "leggibile":

30

Capitolo 1: Statistica descrittiva

log(poverta')

Questa volta la dipendenza lineare tra le due variabili log(povertá) e log(vittime) é piii marcata. II calcolo (efTettuato dal computer) della retta di regressione dá una relazione; log(vittime) = - 0.724 + 1.27Iog(povertá) da cui si deduce, passando agli esponenziali e usando le proprietá dei logaritmi: vittime = e-°^24+1.27log(poverlá) ^ =

" = 0.48 • (povertá)'

In altre parole, una approssimazione ragionevole della relazione che lega vittime e povertá é una legge non lineare, la cui crescita é una potenza a esponente maggiore di 1. □ Puntualizziamo ora alcuni concetti emersi da questo esempio. Nel seguito di questo parágrafo ci occuperemo del concetto di correlazione tra variabili; nei prossimi parleremo della retta di regressione e dell'uso delle trasformazioni di scala. Defínizione 24. Supponiamo di avere n osservazioni congiunte di 2 variabiii: {(a?i. 1/1). (íC2.Í /2).•••. (^Tn.yn)}- Si dice covarianza delle due variabili z , y il numero: a^y

=

-

x)(yi

- y) = f

I - xy.

Si dice coefficiente di correiazione delle due variabili x, y il numero; Pxy —

'^xy

cioé la covarianza divisa per il prodotto delle deviazioni standard. L'uguaglianza tra le due diverse espressioni di a^y si dimostra fácilmente svolgendo le parentesi. Si noti anche che

Oxy — 0; si dice che sono inversamente correlate se a^y < 0; si dice che sono incorrelate se cfiy — 0. L'importanza del coefficiente di correlazione (rispetto alia covaríanza, che è un concetto simile) dipende dal seguente rísultato, che non dimostríamo: Proposizione 26. Supponiamo di avere n osservazioni congiunte di 2 variabili: {{x\ , yx), {x2, y‘i ), - - ,{xn,yn)]- Allora:

\Oxy\ < OiOy, owero - \ < Pxy < \ . In particolare, pj.y = ±1 se e solo se esistono due costanti a, b tali che yi = axi + b per i = 1 ,2 , . . . , n. In questo caso, il segno di pxy è il segno di a. In altre parole, il coefficiente di correlazione è un indice normalizzato, la cui grandezza ha quindi un significato assoluto. E' inoltre una grandezza adimensionale, ed è invariante per trasformazioni lineari delle variabili. In altre parole, se sostituiamo ai numeri Xi (o agli y,, o a entrambi) i numeri ax{ + b (con a, b costanti), il valore del coefficiente di correlazione non cambia. Infíne, nel caso in cui la correlazione tra le variabili x ,y è "massima" (cioè vale ±1), le osservazioni y¿ sono funzioni lineari delle X{. I prossimi graiici mostrano esempi di scatterplot di coppie di variabili aventi covaríanza positiva, negativa o nulla:

a xY > 0

32

Capitolo 1: Statistica descrittiva

axY < 0

axY = 0

1.6.2. Método deí miními quadrati. Regressione lineare Ci occuperemo ora proprío del problema di ricercare, ¡n generale, una relaúone lineare ira le variabili x, y . In base alia Proposizione 26, se it coeñiciente di correlazione non vale ± 1 , certamente le y, non sono esattamente funzioni lineari delle Xi. Tuttavia, possiamo ugualmente cercare una retta che passi "abbastanza vicino" a tutti i punti (z, ,y,). L'idea é questa. Abbiamo una "nuvola di punti" nel piano, ( x i,y i) , (x 2,y 2 ), •••. (a^ni Vn), e cerchiamo due numeri a, h per cui la retta y = ax -\-h passi il piú possibile vicino a questo punti. Consideriamo allora l'espressione; ^ ( y ¿ - (ax, +6)]^,

(7)

che dá, per a , 6 físsati, la somma dei quadrati delle distanze tra il punto (x ,,y i) e il punto di uguale ascissa che si trova sulla retta y = ax + b. Cerchiamo ora la coppia di numeri (a, 6) che rende minima questa espressione. Questo procedimento si chiama método dei m inim i quadrati, e la retta che troveremo, retta di regressione per gli n punti ( x j.y i) , (x 2,y 2), (xn.yn) Per minimizzare l'espressione (7), la vediamo come una ñmzione / ( a , 6) : —» R, e usiamo i metodi standard del calcólo differenziale per funzioni di due variabili. Calcoliamo perció: |^ ( a , 6 ) = - ^ 2 x , ( y , - (ax, + 6 )] 1 -1

Capitolo 1: Statistica descrittiva

33

| ^ ( a , 6) = - ¿ 2 ( y ¿ - {axi + b)] e rísolviamo il sistema

I

|i ( a , 6 ) = 0

%(a.b)=0.

Ripoitiamo i passaggi essenziali del calcolo. Dalla seconda equazione si ricava -

b =

(8)

a x i)

‘i=i che, sostituito nella prima equazione dà (adenzione a cambiare il nome dell'indice di sommatoria, nelle due sommatorie indipendenti!)

n E * . Vk

=

0.

k=\

Con raccoglimenti opporiuni troviamo: n

..

- ÿ) “ a ^ X k { X k - x ) = 0 k=\

k=\

da cui si ricava

a

=

È^kiVk - y) k^\________ n

Y ^ X k iX k - x )

*=1

Questa espressione puô essere scritta in modo più leggibile, osservando che n

n

k=\

/ 2

n ^

^Xfc(y* - ÿ) = '^XkVk -

n ^

=n k=\

\

®ÿ ) = k=\

J

Con ragionamento análogo si vede che il denominatore é uguate a n a l , perció

Ox)J oi e inñne, sostituendo quest'espressione nella (8).

II punto (a, b) trovato ¿ Túnico p u n to sta zio n a rio della ñmzione / in R^. Poiché questa ñinzione ¿ un polinomio (perció illimitata alTinfinito) ed ¿ positiva (per definizione), tale punto é necessariamente il punto di m ín im o a sso lu to di /. _______________

34

Capitolo 1: Statistica descrittiva

Conclusione: la retta di regressione, o retta dei m inim i quadrati, corrispondente alie osservazioni {(x 1, 2/ 1), (x 2, 2/2), • • •, (x „ , 2/„)}, ha equazione y = ax -\-b con —

a = — 5- ;

T

_

_

^ly

b = y - x - — 5T.

(9)

_

(Usiamo i simboli 3 ,6 per indicare i valori dei coefficienti a, 6 stimati in base ai dati). Notare che il coefficiente angolare della retta ha il segno di coerentemente alia defínizione data di correlazione diretta e inversa: se tra x e y c'é una correlazione diretta (o inversa), la retta di regressione, che in qualche modo approssima i punti (^i,yi), sará una retta crescente (rispettivamente, decrescente). Se x e 2/ sono incorrelate, la retta di regressione é la retta orizzontale y = y- Questo significa che nessuna previsione puo essere fatta su y in base al valore di x; che x sia grande o piccolo, y oscillerá in maniera casuale un po* sopra e un po' sotto la media y. Occorre ora rendersi conto di un fatto fondamentale:

aver determinato la retía di regressione per i punti ( x i, y i ), (x-2, ys), ■• •, (a^n. Vn) non significa qffatto che la variabile y sia (sia pur in modo approssimato) una funzione lineare di x. Per capire il senso di questa affermazione, apparentemente paradossale, si pensi al fatto che assegnati in qualunque modo n punti (x i,y i), (x 2,y 2), •••, (xu,yn) nel piano, le (9) fomiscono I'equazione della retta che passa "il piu possibile vicino" a tutti quest! punti. Se pero i punti non sono affatto allineati (neppure approssimativamente) é chiaro che la retta di regressione non sara di alcuna utilitá nella descrizione della relazione tra le variabili.

Le equazioni (9) servono a determinare I'equazione della retía di regressione, pariendo dal presupposto che una relazione lineare ira le variabili ci sia. Per capire se é ragionevole che sussista una relazione lineare tra le variabili abbiamo due strumenti; • il calcólo del coefficiente di correlazione (dev'essere vicino a ± 1); • la costruzione e l'esame visivo dello scatterplot delle due variabili. Se questi elementi suggeríscono l'esistenza di una relazione lineare tra le variabili, determiniamo la retta di regressione, e quindi ne disegnamo il gráfico sullo scatterplot, per controllare visivamente la bontá dell'approssimazione. Chiamiamo valori stimati i numeri

y i = 3x, + 6 che rappresentano, appunto, i valori della variabile y stimati dalla retta di regressione in corrispondenza delle osservazioni x,. Chiamiamo residui i numeri

r , = V i - y„ cioé le differenze tra i valori che corrispondono a x, sulla retta e quelli effettivamente

Capitolo 1: Statistica descrittiva

35

osservati. Se rappresentiamo in un gráfico i punti (x ,,r¿), dovremmo osservare, se la relazione tra x e y é lineare, dei punti che oscillano casualmente sopra e sotto il valore 0 Esistono molti metodi quantitativ! di valutare la bontá dell'adattamento della retta di regressione alle osservazioni, ma non ce ne occuperemo. Arrivati a questo punto, posto cioé che riteniamo significativa la retta di regressione nella descrizione della relazione tra le variabili x e y, possiamo utilizzarla per fare delle previsioni. Se y = ax + b é l'equazione della retta di regressione, dato un valore xq diverso dai valori x¿ giá osservati, il valore previsto di yo sará: yo = oxo + b. Naturalmente la previsione sará tanto piú affidabile quanto piú xq é vicino ai valori x, giá osservati. Esempio 27. Si considerino i seguenti dati campionari, raccolti per stimare il tempo che impiega un computer a processare dati: x é il numero di "dati" e y il tempo, in second!, impiegato dal computer per processarli. X 105 511 401 622 330 1. 2. 3. 4.

Si Si Si Si

y 44 214 193 299 143

trace! uno scatterplot dei dati. calcoli il coefñciente di correlazione tra le variabili. scriva l'equazione della retta di regressione e la si disegni sullo scatterplot. calcoli il tempo previsto per processare 200, 300, 400, 500 dati.

1. Rappresentiamo le osservazioni in uno scatterplot:

200

I punti sono allineati abbastanza bene. 2. Per calculare il coeficiente di correlazione, dobbiamo calculare la covarianza Oxy e le varianze Per eseguire manualmente questo calculo tenendo traccia dei passaggi intermedi (cosa sempre utile per controllare eventual! error!!) conviene costruirsi una tabella cosí:

36

Capitolo 1: Statistica desaittiva

i 1 2 3 4 5

X iy ,

105 511 401 622 330

Vi 44 214 193 299 143

4620 109354 77393 185978 47190

11025 261121 160801 386884 108900

y? 1936 45796 37249 89401 20449

1969

893

424535

928731

194831

393.8

178.6

84907

185746.2

38966.2

Xi

5

E

i= l 5 1=1

A questo punto si puó calcolare; 1 ^

= 84907 - 393.8 • 178.6 = 14574.32;

i=\ 5

al =

E i= l

- { x f = 185746.2 - 393.8^ = 30667.76;

1 a l = - Y '^ i - { y f = 38966.2 - 178.6^ = 7068.24; 8 ,= i

a^ = ^30667.76 = 175.12; ay = \/7068.24 = 84.07; axy a ,a y

Pxy = --- -- -

14574.32 175.12 • 84.07

0.99.

II rísultato trovato mostra quantitativamente che esiste una forte correlazione positiva tra le varíabili; infatti il coefficiente di correlazione é molto vicino a 1. 3. I due punti precedenti ci dicono che é significativo determinare la retta di regressione. Determiniamo quindi i coeñicienti: o =

b= y - x - ^

'xy

14574.32 30667.76

= 0.4752326;

= 178.6 - 393.8 ■0.4752326 = -8.54659.

La retta di regressione é;

y = 0.4752 X - 8.5466

Capitolo 1: Statistica descrittiva

37

e il suo gráfico, sullo scatterplot, è: s e e l: -8

4 7 5 2 3 3 o a ii

1

4. La retta di regressione permette di fare le seguenti prevision!: per per per per

x = X= X= X=

200,y 300,y 400,y 500,y

= = = =

0.4752 0.4752 0.4752 0.4752

• 200 • 300 ■400 • 500

-

8.5466 8.5466 8.5466 8.5466

= = = =

86.4834; 134.0134; 181.5334; 229.0534.

Dall'esempio appare chiara l'utilitá di utilizzare il computer per non fare manualmente i calcoli. Esercizio 1.14. Si risponda alie stesse domande dell'esempio precedente, utilizzando questa volta i seguenti dati; X

211 332 322 435 275

y 112 155 131 208 138

1.6.3. Cambiamenti di scala Puo accadere che, disegnate le osservazioni (x i.y i), (x 2,y 2), •••, (a?n,2/n) su uno scatterplot, appaia una correlazione (diretta o inversa) tra le variabili, ma non di tipo lineare In altre parole, i punti sembrano disposti piu su una curva che su una retta. Esistono metodi, analoghi al método dei minimi quadrati che abbiamo visto, ma piú complessi, per determinare una curva polinomiale, ad esempio, che passi "il meglio possibile" per questi punti, ma non ci oceuperemo di questi metodi. Invece, talvolta é possibile con un semplice cambiamento di scala suH'asse x e/o suH'asse y, ricondurre il problema della ricerca di una curva che passi vicino ai nostri punti al problema giá visto. Ragioniamo cosí. Supponiamo che la "relazione vera" che intercorre tra le variabili X e y sia del tipo:

38

Capitolo 1: Statistica descríttiva

y = ax . (Ossia y cresce proporzionalmente a una potenza di x). Prendendo i logaritmi di entrambi i membrí dell'equazione, troviamo; log y = log a + 6 • log X, il che signifíca che log y é fum ione lineare di logx. Se quindi eseguiamo il cambiamento di scala logarítmico su entrambi gli assi, ossia consideríamo i nuovi daíi (lo g X iJo g y i), (logX 2,lo g y 2), . . . . (IogX „,logy„), possiamo determinare la retta di regressione relativa a questi punti. Se questa si adatta bene alio scatterplot dei nuovi punti, vuol dire che le nostre osservazioni sono descrítte bene dalla relazione: logy = a ■logx + b, che si puó riscrívere, passando agli esponenziali, _ C -6 • X . y.. = Si noti che a, b sono i coefficienti della retta di regressione dei dati trasformati. In pratica, se le nostre osservazioni appaiono disposte lungo una curva, non possiamo sapere a priorí se questa curva sará una potenza o una ñmzione di altro tipo; quindi il cambiamento di scala illustrato é un tentativo che facciamo; é lo scatterplot dei dati trasformati, o il calcólo del coefficiente di correlazione dei dati trasformati, che ci deve dire se é corretto procederé per questa strada, e determinare la curva del tipo detto. Altrímenti, si potranno cercare altrí cambiamenti di scala. Si osservi, ad esempio, che se la "relazione vera" che intercorre tra le varíabili x e y é del tipo;

y = a -b^ (ossia y cresce proporzionalmente a un esponenziale di x), prendendo i logaritmi di entrambi i membrí dell'equazione, troviamo; logy = loga + X • logb, quindi in questo caso logy é funzione lineare di x. Dunque un cambiamento di scala logarítmico sul solo asse y mette in luce un'eventuale relazione esponenziale tra x e y. Análogamente, un cambiamento di scala logarítmico sul solo asse x mette in luce un'eventuale relazione logarítmica tra x e y. 1 cambiamenti di scala che abbiamo illustrato sono solo esempi particolarí, e non hanno alcuna pretesa di generalitá, tuttavia in certe situazioni possono essere suíficienti. L'utilitá dei cambiamenti di scala é anche quella di rendere piú leggibili gli scatterplot, quando i punti che rappresentano le osservazioni sono, ad esempio, troppo addensati (come visto neil'Esempio 23). Per scegliere il cambiamento di scala giusto occorre naturalmente ríflettere sulle propríetá matematiche della funzione che si intende utilizzare. Ad esempio il logaritmo allontana numeri compresi tra 0 e 1 e awicina punti maggiori di 1. Esempio 28. I seguenti dati si riferiscono all'area di contaminazione dell'acqua col passare del tempo, dovuto alia fuga di un agente chimico tossico L'area é misurata in

Capitolo 1: Statistica descrittiva

39

acri, il tempo in anni. Anni X 5.1 5.6 6.2 7.3 8.1

Acrí y 35.8 44.5 68.7 165.6 253.4

Rappresentiamo su uno scatterplot le osservazioni e la retta di regressione; y

= -366 5 0 0 W 4 3324*

(Non nportiamo i calcoli, che sono stati effettuati dal computer). L'adattamento sembra discreto, tuttavia si nota che i punti sono disposti lungo una specie di parabola, piuttosto che esattamente lungo la retta. Se tracciamo un gráfico dei residui, questo fatto é ancora piú evidente: V=-366 500*74 3324*

100

.vnat

200

Proviamo ad eseguire una trasformazione di scala di tipo logarítmico su entrambe le varíabili, cioé consideríamo i m ovi dati

40

Capitolo 1: Statistica descríttiva

logx 1.722767 1.824549 2.091864 1.629241 1.987874

logy 3.795489 4.229749 5.534969 3.577948 5.109575

Per questi dati si ottiene;

II gráfico dei residut é; logv =-3 763Bl*4 ii3b631oqx

La relazione logy = -3.76381 + 4.43663 logx SI n sen ve come:

y = 0.023195 • II gráfico mostra la stessa caratteristica di prima; i punti sembrano attraversare la retta in modo regolare piú che casuale. Proviamo ad eseguire un cambiamento di scala diverso, prendendo x e log y;

CapUolo 1: Statistica descríttiva

41

•ogy 3.795489 4.229749 5.534969 3.577948 5.109575

X

5.1 5.6 6.2 7.3 8.1 II grafíco che si ottiene é ora; logV= 030949f 603993X

II grafíco dei residui é; logvi

030949» 6B3993X

nz

-V h íi

i

iV

La relazione log y = 0.030949 + 0.68399 X SI nscnve come: y = 1.0314 • 1.98* ~ 2*. La relazione trovata é approssimativamente uguale alia legge esponenziale y = 2^, un risultato moho semplice (e che forse, riflettendo sul fenómeno, puó essere previsto a priori). □

42

Capitolo 1: Statistica desaittiva

1.6.4. Confronto tra gruppi, indlviduazione di sottogruppi In questo parágrafo, utilizzando esempi, accenniamo ad alcuni concetti che hanno a che fare con il confronto tra gmppi di osservazioni. Esempio 29. II numero di interventi di manutenzione richiesti in un anno da 30 macchine fotocopiatrici prodotte da una certa ditta é stato registrato, e la relativa distribuzione di frequenza é riportata nella seguente tabella; n*’ di guasti

Freq. assol.

10

11 12 13 14 15 Totale

Freq. perc. 3.33 3.33 3.33 6.67 13.33 6.67 10 10 13.33

10 6.67

10 3.33

100

30

Tracciamo un istogramma e un boxplot: 15 -

■^4; iV-: 6

7

8

9

10

t1

12

13

U

15

nunero 0i guflsti

Si puó calcolare; media = 9.56 mediana = 1 0 varianza = 10.5 La distribuzione mostra una spiccata variabilitá interna, ed é bimodale. Questo puó apparire strano, in relazione al problema reale in esame; il fatto che il numero di guasti annui abbia 2 picchi distinti, di 7 e 11, é puramente casuale o significa qualcosa? Se i dati descritti sono tutto ció che sappiamo sul fenómeno, é impossibile rispondere. Ma supponiamo di avere la seguente infbrmazione ulteriore. Le 30 macchine in questione provengono da due distinti lotti di produzione, nella misura di 15 per lotto.

Capitolo 1: Statistica descrittiva

43

Riconsideriamo questi dati tenendo conto della suddivisione delle osservazioni nei due lotti: n** di guasti 2 4 5 6 7 8 9 10 11 12 13 14 15 Totale

Freq. assoluta Lotto 1 Lotto 2 1 0 1 0 1 0 2 0 4 0 2 0 3 0 0 3 1 3 0 3 2 0 0 3 1 0 15 15

Totale 1 1 1 2 4 2 3 3 4 3 2 3 1 30

La situazione appare ora in una luce ben diversa; evidentemente il lotto 2 é piu difettoso del lotto 1. Confrontiamo i due lotti mediante boxplot e mediante istogramma; ^ rtunero a t g u a sti 15

44

Capitolo 1: Statistica descrittiva

varb==l

.1

-

.J D Q l, U (O c_

vBrl)==2

Q

I

T T T T T T T T 7 tm îïÇ Ï4 ^

I" T " I " I

I

I

I

I

I

I

I

r~

Total .3

-

2

-

.1

-

m q: I I t I j—I—I—I—I—I—I—I—I—1— 2 3 4 5 6 7 8 9 101112131415 varb

Histograms by lotto Questo tipo di confronto conferma I'ipotesi di maggior difettositá di un lotto rispetto all'altro. Si ha cosi un'interpretazione soddisfacente della natura bimodale della distribuzione complessiva. Questo é solo un esempio di come I'osservazione dei grafici e degli indici di sintesi possa essere il punto di partenza per un'analisi piu approfondita dei dati. □ II prossimo esempio riassume vari problemi visti in questo parágrafo Esempio 30. R endim ento dei fondi di investimento. Questi dati ^ descrivono il rendimento di 186 fondi di investimento U S A., dal 1988 al 1992. Per ogni fondo viene indicato: 1. Nome del fondo ("etichetta dell'osservazione"); 2. tipo di fondo (i fondi sono classificati in 7 tipi, numerati da 1 a 7); 3. rendimento nel quinquennio; 4. rendimento nell'ultimo anno. Non ci interessa qui descrivere il significato dei 7 tipi di fondo, né spiegare esattamente come sono misurati i rendimenti in 5 anni e 1 anno: basti tener presente che la variabile 3 é una misura nel rendimento a medio termine e la variabile 4 una misura del rendimento a breve termine (misurato con criteri e unitá di misura diversi). Le prime 5 osservazioni sono: Fondo COM Mutual Fidelity Balanced MainStay Total Ret. Kemper Inv. Tot. Ret. Pax World

Tipo 1 1 1 1 1

Rend. 5 anni 15600 14650 15001 15628 14222

Rend. 1 anno 6 8 4 4 1

Le variabili osservate sono quindi 3 (corrispondenti alie colonne 2 ,3 , 4 nella tabella). ^ Dati riportati da: S. Chatteijee, M S. Handcocic, J S SimonofT: A casebook fo r a first course in

statistics and data analysis, John Wiley & .sons, inc., 1995.

Capitolo 1: Statistica descrittiva

45

Utilizziamo la prima variabile (tipo di fondo), che é categórica, per raggruppare le osservazioni (cioé i fondi). Quindi abbiamo 7 gruppi di osservazioni, e per ogni osservaziorte, 2 variabili. E' naturale confrontare i rendimenti dei diversi tipi di fondo. Conírontiamo, ad esempio, i boxplots relativi ai rendimenti a 5 anni dei 7 tipi di fondo: ^

rendim ento

a

5

ar^ni

25000

20000

-

15000

-

:x ‘

10000

Si osserva che i gruppi di fondi con rendimenti medi maggiori hanno anche maggior variabilitá interna. Questo puó dipendere dal principio generale secondo il quale singoli fondi con rendimenti medi piú alti sono anche fondi con maggior variabilitá nel tempo; si puó pensare che, se un gruppo di fondi è caratterizzato dal falto che ogni fondo che vi appartiene ha un'alta variabilitá nel tempo, il gruppo stesso avrà un'alta variabilitá interna. Si osserva anche che vari gruppi hanno "outliers", ow ero contengono singoli fondi particolarmente buoni (moho al di sopra della media del gruppo); invece, i gruppi non contengono fondi moho al di sotto della media del gruppo. Si osserva anche che, con l'eccezione del gruppo 7, i rendimenti peggiori sono simili per tutti i gruppi, mentre i rendimenti medi e massimi sono moho diversi. Vediamo ora il confronto análogo tra tipi di fondo sui rendimenti a breve termine: ^ /1 0

-

20

-

1992

return

¡J O-

X

E

- 20

Si osserva che gruppi ad alta (bassa) variabilitá nel lungo periodo hanno anche alta (bassa) variabilitá nel breve. Pero, si osserva anche che le mediane dei vari gruppi sono (almeno per i primi 6 gruppi) paragonabili tra loro, nel breve periodo, mentre nel lungo erano moho piú diversifícate: nel breve periodo i tipi di fondo "ad alto rischio"

46

Capitolo 1: Statistica descríttiva

rendono mediamente come quelli a basso rischio; nel lungo período, invece, rendono mediamente di piú. Fin qui abbiamo confróntate la varíabile "rendimento a un anno" e "rendimento a 5 anni", separatamente, sui 7 gruppi. Studiamo ora, a prescindere dai gruppi, la relazione tra le due varíabili. Osserviamo, mediante uno scaííerplot, la relazione tra rendimento a breve e a medio termine: cinque=

1

3632+1 77 422return

Si nota una correlazione diretta tra rendimento a breve e a medio termine. II gráfico dei residui é; cinque= 10000

1 3632+1 77 4 2 2 r e t u r n

•----------- r----1 •

-

5000 -

*

o 0^0

0 ^8® 0

" >

"

§8«

o

:

8,o8o e «o

* e.

Oo°

*

-5000 10000

15000

20000

_vnat

Si puó cercare se esiste una relazione diversa da quella lineare, che si adatta con piú precisione. Ad esempio, se rappresentiamo il logaritmo del rendimento a 5 anni contro il rendimento a 1 anno, troviamo;

Capitolo 1: Statistica descrittiva

47

log_5an= 9.50463*»-012454return

e il gráfico dei residui è; log_5an:

9

50463*

0 12454return

•----------L-. I ■

Esercizi 1Л5. I seguenti dati sono stati ottenuti sottoponendo a sforzo delle sbarre fabbricate con una lega sperímentale; Deformazione Laterale

Deformaz. Longitudinale

cy 0.11 0.14 0.06 0.16 0.22

0.3 0.4 0.2 0.5 0.6

a. Disegnare uno scaíterplot delle precedent! osservazioni, disponendo rispettivamente, sull'asse x, y. b. Calcolare il coefficiente di correlazione delle variabili

48

Capitoto 1: Statistics descrittiva

c. In base ai punti a, b, é ragionevole supporre che sussista una relazione lineare tra le variabili d. Usare il método dei minimi quadrati per determinare la retta di regressione, e disegname il gráfico suilo scatterplot delle due variabili. e. Usare la retta di regressione trovata per predire la deformazione laterale corrispondente a una deformazione longitudinale pari a = 0.35, oppure a €x — 0.8. Quale delle due prevision! ritenete piu affidabile? Perché? 1.16. Si consider! la stessa situazione descritta nell'Esempio 28 (area di contaminazione dell'acqua col passare del tempo, dovuto alia fuga di un agente chimico tossico), con i seguenti dati: Anni X 1.3 2.4 4.4 0.5 3.6

Acrí y 4.8 5.3 19.7 1.5 10.1

Si studi che tipo di correlazione esiste tra le due variabili. 1.17. Un ingegnere industríale vuole stabilire la relazione tra il costo per la produzione in serie di laminati e le dimensión! del processo (cioé il numero di pezzi prodotti). Da produzioni passate sono noti i seguenti dati; Dimension! (n® di pezzi) X 1213 1518 3050 852 1550 1215 2120 2207 2175 1128

Costo (in migliaia di lire) Y 13474 16497 29349 11314 17224 14459 22186 23483 24095 15982

a. Disegnare uno scatterplot detle precedenti osservazioni. b. Usare il método dei minimi quadrati per determinare la retta di regressione. c. II costo ftsso di un processo produttivo é la componente del costo che non cambia con la quantitá di pezzi prodotta, mentre il costo variabile é il costo aggiuntivo per ogni unitá prodotta. In base al rísultato del punto (a), qual é il costo fisso e quale il costo variabile del processo produttivo? d. Per una produzione di 2000 unitá, usare la retta di regressione per predire: (/) il costo totale di produzione; (//) il costo medio per unitá prodotta.

Cap. 2. Probabilità

2.1. Esperimenti aleatori, eventi elementan e spazio campionario Esperimento aleatorio è un "esperimento" che a priori puô avéré diversi esiti possibili, e di cui I'esito effettivo non è prevedibile con certezza. Esempi: 1. Estraggo una pallina da un'uma che contiene 99 palline bianche e una пега, ed osservo il colore della pallina estratta. 2. Dopo aver mescolato un mazzo di 40 carte, le distribuisco coperte tra 4 giocatori (tra cui me stesso) e poi guardo che carte ho. 3. Lancio una moneta ripetutamente fínché esce testa, e conto quanti tentativi sono stati necessari. 4. Accendo una lampadina e la lascio accesa fín quando si brucia, cronometrando il suo tempo di vita. In ciascuno degli esempi fatti, I'esito dell'esperimento non è certo, a priori. In ogni caso pero, i possibili esiti si possono esplicitare a priori; nel primo esempio sono solo due (bianco/nero), nel secondo sono molto numerosi, nel terzo e nel quarto infiniti (il numero di tentativi è un numero intero positivo qualunque; il tempo di vita di una lampadina è espresso da un numero reale positivo qualunque). Defínizione 5. Chiamiamo eventi elementari tutti i possibili esiti di un esperimento aleatorio, e spazio campionario l'insieme di tutti gli eventi elementari. Nell'esempio 2, evento elementare è ogni insieme di 10 carte scelte da un mazzo di 40, nell'esempio 4 è ogni numero reale positivo. In altre parole, qualunque sia I'esito dell'esperimento aleatorio, uno e un solo evento elementare si realizza. Lo spazio campionario puô essere discreto, se i suoi elementi (cioé gli eventi elementari) sono un numero finito (come negli esempi 1,2) o un'infinitá numerabile’ (come nell'esempio 3), continuo se è più numeroso, ad esempio se consiste di tutti i numeri reali di un certo intervallo, come nell'esempio 4.

2.2. Eventi e operazioni su eventi (per uno spazio campionario discreto) In realtá gli eventi che interessano dal punto di vista del calcólo delle probabilitá non sono solo quelli elementari; ad esempio, possiamo chiederci (v. es. 2): "Qual é la probabilitá di avere in mano l'asso di picche?" L'evento "avere l'asso di picche" non é un evento elementare, perché ci sono molte "mani" diverse che contengono l'asso di ' Ricordiamo che un in siem e n u m e ra b ile é un insieme che si puó meliere in corrispondenza biunivoca con l'insieme degli interi positivi, owcro un insieme i cui elementi si possono ordinäre in una su c c e ssio n e ^ 1»^2) •• >rin»• ••

so

Capitok) 2: ProbabUHá

picche. Possiamo rappresentarlo come un insieme di eventi elementan. Análogamente, I'evento "il numero di lanci necessari per ottenere "testa" é maggiore di 5" (v. es. 3) é un insieme di (infíniti) eventi elementan (gli interi maggiori di 5), e I'evento "il tempo di vita della lampadina é compreso tra 1000 e 2000 ore" (v. es. 4) é pure un insieme di infíniti eventi elementan (tutti i numeri reali compres! fra 1000 e 2000). Poiché la trattazione matemática degli insiemi infíniti "molto numerosi" comporta certe diífícoitá tecniche (in cui non vogliamo entrare), da questo momento ci concentreremo sul caso in cui lo spazio campionario sia discreto. (Quindi puo essere infinito, ma "non troppo numeroso"). Recupereremo piu avanti, col concetto di variabile aleatoria continua, la possibilitá di trattare anche situazioni in cui lo spazio campionario sia continuo. Definizione 6, Sia íl uno spazio campionario discreto. Chiamiamo evento ogni sottoinsieme di Q. Perció la totalitá degli eventi possibili é rappresentata dalYinsieme delle parti di íl, V(p.), ow ero l'insieme che ha per element! tutti i sottoinsiemi di Cl. La rappresentazione insiemistica degli eventi é molto utile, in quanto consente di applicare le tecniche insiemistiche per descrivere operazioni logiche sugli eventi. Si osservi la seguente corrispondenza tra operazioni o relazioni logiche su eventi e operazioni o relazioni insiemistiche:

Linguaggio degli insiem i Í2, intero spazio campionario 0, insieme vuoto Insieme A Insieme A (complementare di A) j4 U B (A unione B ) A D B (A intersezione B ) A \ B (A meno B , cioé A D B ) A n B = 0 ( A e S sono disgiunti) B C A ( B incluso in A)

Linguaggio degli eventi "evento certo" (I) "evento impossibile" (2) "si verifica A ” "non si verifica A" "si verifica A o B (o entrambi)" "si verifícano A e B (simultáneamente)" "si verifica A e non si verifica B" "gli eventi A e B sono incompatibili" (3) "B implica A" (4)

Spiegazioni; (1) Qualunque evento elementare si realizzi, appartiene sempre a íl. (2) Qualunque evento elementare si realizzi, non appartiene mai a 0. (3) Nessun evento elementare realizza sia A che B. perció A e B non possono accadere simultáneamente. (4) Ogni evento elementare che appartiene a B (ossia realizza l'evento B), appartiene anche ad A (ossia realizza l'evento A). Ricordiamo anche le proprietá delle operazioni insiemistiche : Proposizione 7. Se A , B , C sono sottoinsiemi di fi, valgono le proprietá:

AU A = A; ADA = A; A U B = BuA; ADB = B n A A U (B U C) = (A U B) U C An(BnC) = (AnB)nC

(idempotenza di U ) (idempotenza di n ) (proprietá commutativa di U ) (proprietá commutativa di D ) (proprietá associativa di U ) (proprietá associativa di n )

51

Capitolo 2: Probabilità

AU{BnC) = {AöB)n{AuC) n ( S U C) = n ß ) U (>l n C) Audi = A > ln0 = 0 >lUfi =

(propr. distributiva di U rispetto a n ) (propr. distributiva di n rispetto a U )

.4 U A = i4 d 34 = 0 (AUB) = Ä n B ^ n ß ) = AUB

(legge di De Morgan) (legge di De Morgan)

(A) = A.

2.3. Probabilitá di eventi La probabilitá di un evento é un numero reale compreso tra 0 e 1 che misura il nostro grado di fiducia nel verificarsi di queH'evento.^ II Calcólo delle Probabilitá é la disciplina matemática che insegna a calcolare la probabilitá di certi eventi "complessi", conoscendo in partenza la probabilitá di altri eventi (che consideriamo "piú semplici"). Ci sono quindi due problemi; 1. Come si assegnano le probabilitá agli eventi "di partenza"? 2. Come (ossia, in base a quali rególe) si opera con la probabilitá? II primo problema esula in parte dal Calcólo delle Probabilitá inteso come disciplina matemática, in quanto coinvolge anche i nostri giudizi, le nostre opinion! sui fenomeni reali. Anche se da un punto di vista logico la domanda I si pone prima della 2, rispondere alia seconda getta un po' di luce anche sulla prima, e noi procederemo cosí.

2.3.1.

Come si opera con la probabilitá. La definizione assiomatica

Ci sono alcuni requisiti ragionevoli a cui devono obbedire le nostre affermazioni sulla probabilitá degli eventi. È ow io ad esempio attribuire probabilitá 1 all'evento certo fi, e probabilitá 0 all'evento impossibile 0. Cercando rególe meno banali, possiamo ad esempio dire che qualunque sia il motivo per cui affermiamo che un certo evento A ha probabilitá 0.2, da questo segue che A ha probabilitá 0.8. In generale; P (Â ) = 1 - P{A)

St A a B sono eventi incompatibili (insiemi disgiunti). la probabilitá che si verifichi Tunione dei due sarà la somma delle probabilitá: P { A U B) = P {A) ± P { B ) ^ purché A D S = 0. Ragionando su questi tipi di relazioni si è arrivati a stabilire alcuni assiomi "abbastanza ragionevoli", sufficient! a ricavare da essi tutte le proprietà che interessano.^ Dal punto di vista puramente matemático, si definisce "probabilitá" ogni legge che associ un numero a ciascun evento rispettando queste rególe formali; ^

N e l

s ig n ific a ^ K o lm

lin g u a g g io

p r o b a b ilit á

c o m u n e ,

d e l

L 'im p o s t a z io n e o g o r o v ,

e

r is a le

5 0 %

la

p r o b a b ilit á

( p r o b a b ilit á

a s s io m a tic a a l

1 9 3 3 .

d e l

p

=

é

e s p re s s a

s p e s s o

p r o b a b ilit á

c a lc ó lo

d e lle

d e l

ín

p e r c e n tu a le ;

1 0 0 p %

p r o b a b ilit á

é

a d

e s e m p io

p r o b a b ilit á

1 /2

) . d o v u ta

a l

m a te m á tic o

ru s s o

A .

N

52

CapHoto 2: Probabilità

Defínizione 8. Sia Q uno spazio campionario discreto. Si chiama probabilitá su Q una (qualsiasi) ílinzione

P : P{Q) ^ [0,1] (ossia una flinzione che ad ogni sottoinsieme di Q associa un numero reale compreso tra 0 e 1) tale che

0

= 1;

/7) vale la condizíone di numerabile additivitá: se {j4n}^=i è una successione di eventi a due a due disgiunti (cioé n i4j = 0 se i ^ j), allora A „) = ¿ P ( / U . n=l

(I)

La coppia (Q, P ) viene delta spazio di probabilitá (discreto). Si osservi la (I); é una generalizzazione della proprietá di additivitá (per due eventi) vista sopra. Si noti che gli eventi sono insiemi, perció se ne puó fare Vunione (non la somma!); questa unione é ancora un evento, e se ne puó calcolare la probabilitá (1° membro della (1)). Le probabilitá degli eventi An sono invece numeri, che si possono sommare tra loro; poiché sono infiniti (una successione), quella scritta al secondo membro della (1) é una serie, non una sommatoria finita. Da questi due soli assiomi si deducono molte proprietá di uso frequente; Teorema 9. (Proprietá della probabilitá). P (0 ) = 0;

P( A) = 1 - P(Ay, P ( A , [ J A 2 U . . . UAr,) = P(Ax) + P{A2) + ... + P ( A „ ) , parché gli eventi A i siano a due a due disgiunti; P {A U B ) = P{A) + P{ B) - P ( A n B) per ogni coppia di eventi A , B (anche non disgiunti). Le prime tre proprietá sono abbastanza owie. Dimostriamo invece l'ultima relazione scritta: P {A

U fl) =

P{A)

+ P(B) -

P{A

n

B).

L'idea è scrivere A l ) B come unione di due eventi d isg iu n ti, per poter calcolare la sua probabilitá come somma delle probabilitá di due eventi. Consideriamo perció le seguenti identitá insiemistiche. che possono essere facimente dimostrate utilizzando le proprietá enunciate nella Proposizione 7:

i4UB = i4U (BDÁ);

5 = (fínX)u(Bnl). In entrambe le identitá precedenti, a secondo membro c'é l'unione di due insiemi puó scrivere, per l'additivitá della probabilitá: P { A U B ) = P{A) + P {B nA )-,

d isg iu n ti.

Perció sí

Capitolo 2: Probabilitá

53

P(B) = P{B n A) + P{B n Á), e sottraendo membro a membro le ultime due equazioni si ha

P{A U S ) - S(B) = P{A) - P{B n A), e infíne

P{A U S) = P{A) + P{B) - P(A n S). Esempio 10. Supponiamo che i pezzi prodotti da una certa macchina possano avere due tipi di difetti, che chiamiamo a e b. E' noto che la probabilitá che un pezzo presenti il difetto a é 0.1, la probabilitá che non presenti il difetto b é 0.8, la probabilitá che presenti entrambi i difetti é 0.01. Sulla base di queste informazioni, si calcoli la probabilitá che un pezzo non presenti alcun difetto. Formalizziamo il problema indicando con A , B (rispettivamente) gli eventi "il pezzo presenta il difetto a", "il pezzo presenta il difetto b". Allora le informazioni note si traducono cosí; P ( A ) = 0.1; P (B ) = 0.8; P (i4 H B) = 0.01; vogliamo calcolare P {A fl B ). Utilizzando le propríetá delle operazioni insiemistiche e le propríetá della probabilitá abbiamo: A n B = ( i 4 u B ) ; perció

P (Á n B ) = P ( ( A U B ) ) = 1 - P (A U B ); P (A U B ) = P( A) + P{ B) - P { A n B ). Possiamo quindi calcolare; P (B ) = 1 - P ( B ) = 0.2;

P ( A U B ) = 0 . 1 + 0.2 - 0.01 = 0.29; P ( A n B ) = 1 - 0.29 = 0.71 = 71%. Osserviamo che, se íl = é uno spazio campionarío discreto, ogni evento puó vedersi come unione finita o numerabile di eventi formati da un solo evento elementare (e perció disgiunti); in base alia (I), perció, conoscere la probabilitá degli eventi elementan é sufficiente a calcolare la probabilitá di quasiasi evento, infatti, se A c Í2,

\u;/k€i4

/

Wk^A

Questo fatto si puó vedere anche da un altro punto di vista. Se assegnamo le probabilitá degli eventi elementarí, ponendo = Pk,

54

Capitolo 2: ProbabilHá

dove pk sono una successione di numen > 0 tali che 52 p* = 1, risulta completamente fc=i definita una probabilitá P su Q. Esempio I I . Sia O l'insieme degli interí positivi; se poniamo ^

perfc = 1 , 2 , 3 , . . .

C» poiché 1/2* > 0 e J ^ l/2 * = 1, rísulta defínita una probabilitá su Í2 Ad esempio, se k=\

volessimo calcolare la probabilitá dell'evento A = {numeri pan}, procederemmo cosí: OO

OO

-•

OO

1

P (A ) = ^ P ( 2 t ) = k=í

1

^

= *=1^

k = l^

*

4

^

(somma della serie geométrica di ragione 1/4, privata del primo termine). La defínizione di probabilitá data in quest'esempio soddisfa gli assiomí (e quindi le proprietá) di probabilitá; per il resto, potrebbe sembrare una defínizione totalmente arbitraría. Tuttavia, non é cosí: ímmaginiamo il seguente esperímento aleatorio, con cui vogliamo estrarre un intero positivo a caso. Lanciamo una moneta (non truccata!); se esce testa, il numero estratto é 1; se esce croce, la lanciamo di nuovo; se ora esce testa, il numero estratto é 2; altrímenti la lanciamo di nuovo, e cosí via. E' chiaro che ogni numero intero puó essere estratto; inoltre, la probabilitá con cui viene estratto k é proprío 1/2* (questo fatto potrá esser dimostrato piú avanti nel corso). Dunque la probabilitá che abbiamo defínito é quella adeguata a descrívere questo esperímento aleatorio; naturalmente, un diverso método di estrazione avrebbe ríchiesto una diversa defínizione di probabilitá. □ Esercizio 2.1. Dimostrare, utilizzando gli assiomi di probabilitá, che non é possi hile definiré una probabilitá suH'insieme Q dei numeri naturali 1 , 2 , 3 , . . . in modo tale che i numeri síano tutti equiprobabili. Questo fatto si puó interpretare dicendo che non é possibile "inventare" un esperímento aleatorio che abbia come esito l'estrazione di un numero naturale a caso, se si vuole che tutti i numeri siano estratti con ugual probabilitá. Si confronti con l'Esempio 11, in cui si descríve effettivamente un esperímento aleatorio per estrarre un numero naturale a caso, ma i numeri non sono equiprobabili.

2.3.2.

Come si assegnano le probabilitá; 1. La probabilitá classica

Vediamo ora come aver risposto alia domanda 2 (come si opera con la probabilitá) aiuti anche a rispondere alia domanda 1 (come si assegnano le probabilitá agli eventi "di partenza"). Consideríamo ora il caso in cui lo spazio campionario é finito. In molte situazioni, é ragionevole rítenere che gli eventi elementarí siano ugualmente probabili: ad esempio se lancio un dado (non truccato!), la simmetría del dado mi fa rítenere ugualmente probabili i 6 esíti possibili. In generale, se Q ha TV elementi uik (k = 1 , 2 , . . . , N ), se imponiamo che gli eventi elementarí siano equiprobabili, o w ero P({cjit}) = p per fc = 1 , 2 , . . . , TV, otteniamo

Capitolo 2: Probabilitá

1 = P{fl) = P^ \ ^ { u j k } ' ^ = Y ^ P ( { u k } ) = pN, Se ora

55

dacui p = l / N .

é un evento quaiunque, sará p(> i) =

= pi-^i = u^k^A

(indicando con |i4| il numero di elementi di A). / Quella che abbiamo ottenuto é la ben nota defínizione di probabilitá classica, secondo cui la probabilitá di un evento é il rapporto tra il numero dei casi favorevoli (all'evento che si considera) e il numero dei casi possibili. Questa defínizione, come si é visto, é conseguenza lógica di tre fatti: 1. l'ipotesi che lo spazio campionario sia fínito; 2 l'ipotesi che gli eventi elementan siano equiprobabili (il che non si dimostra, é una nostra valutazione), 3. gli assiomi di probabilitá. Esempio 12. Si calcoli la probabilitá di ottenere un 7 lanciando due dadi. Per rispondere dobbiamo prima di tutto chiarire qual é lo spazio campionario che si considera. Una scelta che puó sembrare naturale, visto il problema che ci interessa, é quella di considerare come eventi elementan i numeri 2 , 3 , 4 , . . . , 12. Potremmo applicare a questo spazio campionario la defínizione di probabilitá classica? In reaitá l'esperíenza e il ragionamento mostrano che il 2 é meno probabile del 7, quindi l'ipotesi di equiprobabilitá degli eventi elementan verrebbe meno. Infatti, il 7 é piú probabile del 2, perché puó ottenersi in molti modi, mentre il 2 esce solo se entrambi i dadi segnano 1. Allora é utile scegliere come spazio campionario l'insieme di tutti i possibili risultati dei due dadi (e non solo l'insieme delle loro somme!) ossia (1,1) (1,2), (2,1), ecc. Questi eventi elementan sono, ragionevolmente, equiprobabili, e quindi ora possiamo calcolare la probabilitá dell'evento "la somma dei punteggi é 7" (che non é piu un evento elementare) calcolando il rapporto tra casi favorevoli e casi possibili. I casi possibili sono tanti quante le coppie ordinate di due numeri da 1 a 6, quindi 6 X 6 = 36; i casi favorevoli sono (1,6), (2,5), (3,4), (4,3), (5,2), (6,1), perció 6. La probabilitá é allora 6 /3 6 = 1 / 6 . Se vogliamo porci altri problem! probabilistic! sulla sonuna dei punteggi di due dadi, puó essere utile procederé cosí; calcoliamo la probabilitá che la somma sia k, per ciascun k tra 2 e 12; defíniamo ora un nuovo spazio campionario, piu semplice, che contiene solo gli 11 numeri dal 2 al 12 (anziché le 36 coppie di numeri), e assegnamo ad ogni "evento elementare" del nuovo spazio campionario la probabilitá che abbiamo calcolato. Si trova; 11 12 4 10 2 3 5 6 8 9 7 3 /3 6 4/36 2 /3 6 1/36 1/36 2 /36 3 /36 4/3 6 6/3 6 5 /3 6 5/36 Pk Ecco un esempio naturale di spazio campionario hnito, con eventi elementari non equiprobabili. Questo e uno spazio di probability che obbedisce alia defmizione assiomatica che abbiamo dato, anche se non rientra nello schema della "probabilita classica": ad esempio, la probabilita di "fare 2 oppure 3" non e uguale a (casi favorevoli)/(casi possibili) = 2/11, ma e uguale a 1/36 + 2/3 6 = 1/12.

56

2.3.3.

Capitolo 2: Probabilità

Come sí assegnano le probabilità; 2. L'idea frequentista di probabilità

Esempio 13. Qual è la probabilità che un automobilista scelto a caso (ad esempio, tra tutti gli automobilisti milanesi in una certa fascia d'età) faccia un incidente nel corso dell'anno prossimo? (La domanda è intéressante dal punto di vista della compagnia assicurativa). Supponiamo di sapere dalle statistiche che, durante tutto l'anno scorso, il 4% degli automobilisti nella classe considerata ha avuto un incidente. In altre parole, p = 0.04 è la frequenza relativa con cui si è verificato l'evento 'Tautomobilista x ha avuto un incidente nell'anno passato", al variare di x nella classe considerata. In mancanza di altre informazioni, è ragionevole assumere questa frequenza relativa come stima della probabilità dell'evento "un automobilista scelto a caso fará un incidente nel corso dell'anno prossimo". Perché? In eífetti questa conclusione si basa sulla nostra idea intuitiva seconde cui, se riteniamo che ottenere "Testa" nel lancio di una moneta abbia probabilità 0.5, ci aspettiamo che lanciando un gran numero di volte la moneta, la frequenza relativa con cui effettivamente esce testa sia circa 0.5 (la cosiddetta "legge dei grandi numeri", di cui daremo piú avanti una formulazione precisa) Allora, in altre situazioni come quella dell'esempio degli automobilisti, rovesciamo questo punto di vista e usiamo la frequenza relativa per valutare la probabilità; in altre parole, usiamo l'esperíenza passata (frequenza relativa dedotta da statistiche) per farci delle opinioni sul futuro (probabilità di un evento futuro). Questo modo di pensare si chiama "punto di vista frequentista" e, come si puó giá intuiré da questo esempio, giocherá un ruolo importante nello studio della statistica. In questo caso non sarebbe possibile calcolare a priori la probabilità dell'evento che intéressa, mediante considerazione di casi possibili e casi favorevoli, e quindi lo schema della probabilità classica è inutilizzabile.

2.4. Probabílitá classica e problemi di conteggio: il calcólo combinatorio Ogni volta che calcoliamo la probabilitá di un evento secondo lo schema della probabilitá classica, dobbiamo conteggiare il numero di casi favorevoli e casi possibili; spesso i numeri in gioco sono tali da sconsigliare il procedimento che consiste nQW'elencare esplicitamente le possibilitá e poi contarle; piuttosto, occorre avere dei metodi per calcolare il numero di possibilitá. II calcólo combinatorio fornisce alcuni strumenti per calcolare il numero di casi possibili, il numero di elementi di un insieme, ecc., in certe situazioni tipiche, ed é utile anche indipendentemente dal calcólo delle probabilitá. Vediamo come si possono analizzare varíe situazioni combinatorio utilizzando poche idee fondamentali, che sono "schemi di ragionamento".

Capitolo 2: ProbabUHà

2.4.1.

57

Lo schema delle scelle successive e il principio del prodotto delle possibilità

Esempio 14. Una casa automobilistica produce una linea di vetture in 3 cilindrate diverse; per ogni cilindrata è disponibile una versione base ed una più accessoriata; infíne, ogni tipo di auto è disponibile in 4 colorí. Quanti tipi di vetture diverse compongono la linea? Ragioniamo secondo uno schema di scelle successive: per contare in quanti modi diversi potrei scegliere un'auto, pensiamo di scegliere per prima cosa il modello (base o accessoriato), per secondo il colore e poi la cilindrata. Rappresentiamo il procedimento di scelta con un diagramma ad albero: l “scelta; modello: 2 opzioni

2“ scelta; colore: 4 opzioni

3“ scelta: cilindrata: 3 opzioni

D ia g r a m m a a d a lb e ro p e r !'E se m p io 14.

II diagramma mostra visivamente come si calcóla il numero totale di possibilità: ad ogni "passo" del procedimento di scelte successive (i passi sono 3, in questo caso) il numero di opzioni viene moltiplicato per il numero di opzioni al passo precedente; in totale abbiamo quindi 2 ■4 • 3 = 24 possibilità. In generale: Proposizione 15. (Principio del prodotto delle possibilità). Supponiamo che ogni oggetto di un insieme A sia individuabile mediante una sequenza di k scelte successive, in modo taie che la prima scelta è tra r\ possibilità, la seconda scelta è tra T2 possibilità ,. ... la k-esima scelta è tra r* possibilità. (Owero: ad ogni sequenza di scelte corrisponde uno e un solo elemento, e viceversa ad ogni elemento corrisponde una e una sola sequenza di scelte). Allora l'insieme A ha T] X T2 X ... X Tfc elementi.

58

Capitolo 2: Probabilitá

I prossimí esempi mostrano alcune situazioni diverse che possono essere analizzate con un ragionamento simile, facendo uso del principio precedente. Esempío 16. Quanti sono gli "anagrammi" (anche privi di senso!) della parola "MATRICOLE"? Ogni anagranuna é una sequenza di 9 lettere scelte fra quelle di "MATRICOLE". Disponiamo le 9 lettere in 9 caselle. Per riempire la prima casella possiamo scegliere fra 9 possibilitá; per riempire la seconda casella possiamo scegliere fra 8 possibilitá (tutte tranne la lettera che abbiamo giá sistémate nella prima casella); per riempire la terza casella possiamo scegliere fra 7 possibilitá; .. .e cosí via, finché, per riempire la penúltima casella possiamo scegliere fra 2 possibilitá; per riempire l'ultima casella abbiamo una sola possibilitá. Per il principio del prodotto delle possibilitá, il numero totale di anagrammi é 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 = 362880. Astraendo dall'esempio precedente, diamo la seguente Defínizione 17. Una permuíazione di n oggetti é ogni allineamento di n oggetti (distinti) in n caselle. Con lo stesso ragionamento visto nell'esempio precedente si trova che: Proposizione 18. II numero totale di permutazioni di n oggetti é z= n! = n ( n — l ) ( n —2)... 3 • 2.

II símbolo n! si chiama n fattoriale, ed é defínito per n intero positivo; si pone anche, per defínizione, 0! = 1. Si osservino le seguenti proprietá, di immediata verifica; n! = ( n - 1)! n sem < n,

n

—^ = n ( n - l ) ( n - 2 ) . . . ( n - m - h 1).

m\

\

/: ;

Esempío 19. In una gara con 40 concorrenti, quante sono le possibili classifíche dei primi 5? Per il primo posto possiamo scegliere tra 40 possibilitá; per il secondo posto possiamo scegliere tra 39 ( = 40 — 1) possibilitá; ...e cosí via, finché... per il quinto posto possiamo scegliere tra 36 ( = 4 0 - 4) possibilitá. In tutto quindi ci sono 40 X 39 X 38 X 37 X 36 = 78 960960 classifíche possibili. In generale;

Capitolo 2: Probabilità

59

Definizione 20. Una disposizione di n oggetti in k posti (1 < k < n) é ogni allineamento di k oggetti scelti tra n oggetti (distinti), in k posti. Proposízione 21. // numero totale di disposizioni di n oggetti in k posti é Dn,k =

— 1 ) ( ^ - 2 ) . . . ( n — fc + 1).

Si osservi che Dn.k é il prodotto di k interi successivi, pariendo da n e decrescendo. In particolare, = n!, cioé le permutazioni sono un caso particolare di disposizioni (quando il numero dei posti é uguale al numero degli oggetti). Esempio 22. Quante diverse colonne si possono giocare al totocalcio? Abbiamo 13 caselle da ríempire con i 3 simboli 1,2, X (che possiamo ripetere). Per la prima casella possiamo scegliere tra 3 possibilitá; Per la seconda casella possiamo scegliere ancora tra 3 possibilitá; .. .e cosí via, fíno alia 13-esima. In tutto quindi ci sono 3

X

3

X ... X

3

X

3 = 3'^ = 1594323

13 volte colonne possibili. In generale; Defînizione 23. Una disposizione con ripetizione di n oggetti in k posti (A; > 1) è ogni allineamento di k oggetti scelti tra n oggetti e ripetibüi, in k posti. (Poiché gli oggetti possono essere ripetuti, in questo caso n pu 6 essere < k o > k). Proposizionc 24. Il numéro totale di disposizioni con ripetizione di n oggetti in k posti è

K

m

=

Esempio 25. La distríbuzione dei puntí di tre dadi. (Questo esempio é dovuto a Galileo, intorno al 1620). Lanciando tre dadi, si vede che il numero 9 e il numero 10 si possono ottenere entrambi in 6 modi diversi; eppure si osserva che il 10 esce con maggior frequenza del 9. Come mai? Enumeriamo i casi possibili e casi favorevoli. Va notato che i "sei modi" in cui si possono formare il 9 e il 10 sono sei terne di numeri, che pero vanno compútate tenendo conto delle permutazioni possibili, che sono 6 per tre cifre diverse, 3 per 2 uguali e 1 diversa, 1 per 3 uguali. 9 =6+2+1 5+3+1 5+2+2 4+4+1 4+3+2 3+3+3 totale

6 modi 6 modi 3 modi 3 modi 6 modi 1 modo 25 modi

10 =

6+3+1 6+ 2+2 5+4+1 5+3+2 4+4+2 4+3+3 totale

6 modi 3 modi 6 modi 6 modi 3 modi 3 modi 27 modi

60

Capitolo 2: ProbabilHá

I casi favorevoli ai due eventi "ottenere 9" e "ottenere 10" sono quindi, nspettivamente, 25 e 27, mentre i casi possibili sono sempre 6^ = 216. Le probabilitá dei due eventi sono, nspettivamente; — = 0.1157; — = 0.125. 216 216



Esempio 26. D problema dei compleanni. Se n studenti si ritrovano a caso in un'aula, qual é la probabilitá che almeno due di essi compiano gli anni lo stesso giomo? Sia A reventó "in un insieme di n persone, almeno due hanno lo stesso compleanno"; é piú facile ragionare sull'evento complementare A: "in un insieme di n persone, tutti compiono gli anni in giomi diversi". Calcoliamo P(A), contando casi possibili e casi favorevoli. Casi possibili: per ognuna delle n persone ci sono 365 possibili compleanni (per semplicitá non consideriamo gli anni bisestili), quindi in tutto ci sono 365" casi possibili. Casi favorevoli: afünché tutti abbiano compleanni diversi, il compleanno della persona n°l si puó scegliere in 365 modi, quello della persona n°2 si puó scegliere in 364 modi, ecc.; in tutto ci sono 365 364 • 363 ... • (365 - n + 1) casi favorevoli. Quindi

P{A) = 1 - P{A) = 1 -

365 3 6 4 - . . .

( 3 6 5 - n + l)

365"

Questo valore puó essere tabulato per vari valori di n. Si trova ad esempio; n = P (A ) =

10 23 20 30 50 366 40 60 70 0.117 0.411 0 .5 0 7 0.706 0.891 0.970 0.994 0.999 1

Si trova che il primo intero per cui P{A) > 0.5 é 23, mentre per n = 70 si ha p = 0.999. □

2.4.2.

Lo schema delie scelte simultanee e i coefTicientí binomíalí

Problema 27: Sia S un insieme di n elementi, e sia 0 < k < n . Quanti sono i sottoinsiemi di 5 aventi k elementi? Equivalentemente: in quanti modi si possono scegliere k oggetti tra n? In questo caso non possiamo usare lo schema delle scelte successive, perché la sequenza di scelte a, ¿>,c, poniamo, non individua un sottoinsieme diverso dalla sequenza di scelte 6, c, a (ad esempio); un insieme é determinato dai suoi elementi, a prescindere dall'ordine. In un certo senso, qui occorre pensare agli oggetti come scelti "simultáneamente".

Capitolo 2: Probabilità

61

Defínizione 28. Una combinazione di n oggetti di classe k (0 < k < n) è ogni sottoinsieme di k elementi deirinsietne di n oggetti. O w ero; ogni scelta di k oggetti tra n. Proposizione 29. Il numero totale di combinazioni di n oggetti di classe k è _ Dn,k _ n ( n - l ) ( n - 2 ) . . . ( n - fe -I-1)

~

Pk ~

k\

Dimostrazione. Proviamo che D^^k = C'n.fc Pk, ü che equivale alia tesi. Per fare questo, contiamo le disposizioni di n oggetti in k posti in un modo diverso da come abbiamo fatto in precedenza. Se abbiamo k caselle da riempire con k oggetti scelti ira n, procediamo in due tempi; prima scegliamo i k oggetti tra gli n, e questo si puó fare in Cn,k modi (per defínizione di poi scegliamo in che modo disporre i k oggetti scelti in k caselle, e questo si puó fare in Pk modi. II numero totale di disposizioni D„ c quindi parí al prodotto Cn,k • Pk, che é quanto volevamo dimostrare. □ Defínizione 30. Se n > 1 e 0 < A: < n , si defínisce il coefficiente binomiale n ( n — l ) ( n — 2 ) . . . ( n — fc + 1)

k\

( 2)

Si osserva che è anche;

0 =

n! fc!(n — k)\

(3)

Infatti, l'espressione (3) si puó semplifícare, ottenendo la (2) (si vedano le propríetá del fattoríale rícordate in precedenza). Perció per il calcólo eífettivo é piu comoda la (2). Dalla (3) si vede súbito la propríetá di simmetria dei coeffícienti binomiali:

(:)■ (.% ) Ad esempio, per calcolare ( *®) conviene procederé

flO \

/1 0 \

c o sí :

10-9-8

Si osservi anche che ( D

( o) ^ ( n) ^

P®*’

”•

Osservazione 31. Permutazioni di oggetti di due tipi. Supponiamo di voler disporre in n caselle, n palline di cui k bianche e (n - fc) nere (k < n). (Le palline dello stesso colore si considerano tra loro indistinguibíli) In quanti modi é possibile farlo? Ragioniamo co sí : una disposizione particolare é individúala completamente una volta scelte le caselle in cui mettere le palline bianche (perché, owiamente, tutte le

62

Capitolo 2: ProbabilUà

altre caselle andranno ríempite con quelle nere). In quanti modi posso scegliere k caselle tra n? La rísposta é, naturalmente, Cn,k = (*)• Abbiamo cosí un'altra utíle interpretazione del numero ()^), come il numero di modi in cui si possono disporre in n posti n oggetti di cui k uguali fra loro, e {n — k) uguali fra loro (e diversi dai precedenti). I coefíicienti binomiali devono il loro nome al noto Teorema 32. (Formula di Newton per lo svíluppo della potenza di un binomio).

*=0 per ogni infero positivo n, per ogni coppia di numeri reali a,b. Omettiamo la dimostrazione, che é un facile esercizio che sfrutta quanto osservato nel problema precedente. ♦♦♦♦♦♦ Problema 33. In quanti modi si possono distribuiré tra 5 persone 10 oggetti identici? Sia xi il numero di oggetti che spettano alia prima persona; sia X2 il numero di oggetti che spettano alia seconda persona; sia xs il numero di oggetti che spettano alia quinta persona. Dev'essere: x \ + X 2 + ■■■

+ Xs = 10, con Xi interi > 0.

Ragioniamo cosí. Disegnamo 10 oggetti identici, allineati, ad esempio; Per ripartirli tra 5 persone, mettiamo delie sbarrette vertical! tra loro, ad esempio la scrittura:

significa; ho dato 2 oggetti alia prima persona, 3 alia seconda, uno alia terza, nessuno alia quarta, 4 alia quinta. Per separare in S gruppi un allineamento di *, mi servono 4 sbarrette |. Perció ogni modo di distribuiré 10 oggetti identici tra 5 persone corrisponde a un allineamento di 10 + 4 oggetti. di cui 10 uguali tra loro e 4 uguali tra loro. Per quanto abbiamo visto nel problema precedente, in tutto le possibilitá sono; 1001.

Poiché vi sono varí tipi di problemi che possono trattarsi in modo simile, conviene enunciare un rísultato generale (che si dimostra con il ragionamento appena fatto). Definizíone 34. Si chiama c o m b in a z io n e c o n r ip e tíz io n e di k oggetti scelti fra n, ogni gruppo formato di k oggetti scelti fra n, che possono essere ripetuti. Indichiamo con il numero totale di tali combinazioni. P rop osizione

35. II numero

coincide con il numero deiie n-uple di interi non negativi Xn = k (k intero positivo assegnato), ed è

( xi , X2, . . . , Xn) soluzioni deii'equazione xi -h X2 -f ...

uguate a

Capitoto 2: Probabilitá

63

Esempio 36. Quanti sono gli anagrammi di ANAGRAMMA 7 In questo caso non si tratta delle permutazioni di 9 oggetti, perché alcune lettere sono ripetute (la A compare 4 volte, la M 2 volte). Posso disegnare 9 caselle e ragionare cosi: 1. Scelgo le 4 caselle in cui sistemare le A: ci sono (J) = 126 possibiliti; 2. tra le 9 - 4 = 5 caselle rimaste, scelgo le 2 in cui sistemare le M: ci sono ( j) = 10 possibilitá; 3. nelle 9 - 4 - 2 = 3 caselle rimaste, dcvo disporre 3 lettere distinte (N,G,R); ci sono 3! = 6 possibilitá; in tutto ci sono 126' 10' 6 = 7560 anagrammi possibili. (Molti meno dei 362880 che abbiamo calcolato in precedenza nel caso di 9 lettere distinte). L'esempio precedente é un caso particolare di una situazione piú generate: Defínizione 37. Si dice p e r m u ta tio n e c o n r ip e tíz io n e di n oggetti di cui A;i uguali tra loro, k 2 uguali tra loro (e diversi dai precedent!),..., K uguali tra loro (e diversi dai precedent!) (con k i + k 2 + . . . + kr = n ) ogni allineamento in n posti di n oggetti come specificato. Proposizione 38. II n u m e ro to ta le d e lle p e r m u ta z io n i c o n rip e tizio n e d i n o g g e tti c o m e n e lla d e fín iz io n e p r e c e d e n te é p :.

n! .... ki\k2\...krV

In p a r tic o la r e

= í^\ it!(rí-Ar)!

\kl'

Dimostrazione. Ragioniamo come nell'esempio precedente. 1. Scegliamo k \ caselle in cui dispoire i k i oggetti uguali tra loro: questo si puó fare in ( ) modi; 2. scegliamo, tra le (n - Ic]) caselle rimaste libere, k 2 caselle in ciñ disporre i k 2 oggetti uguali tra loro: questo si puó fare in ( ) modi; 3. scegliamo, tra le { n - k i - k 2 ) caselle rimaste libere, k i caselle in cui disporre i k j oggetti uguali tra loro: questo si puó fare in modi; ... e cosí via. In tutto le possibilitá saraimo

n! lti!(n-/ci)!

(n - fc, - k2)\ fc2!(n - fci - 1:2 )!

k 3 \( n - k \ - k2 - k i Y

semplificando

n! ki\k2\...krV

♦♦♦♦♦♦

64

2.4.3.

Capitolo 2: Probabilitá

Esempi di problem! combínatori; applícazioni del calcólo combinatorio alia probabilitá classica

I due schemi che abbíamo visto (I; scelte successive e prodotto delle possibilitá, 2: scelte simultanee e uso dei coeñicienti binomiali) si usano spesso congiuntamente per conteggiare insiemi in situazioni "miste". Si considerino attentamente i prossimi esempi. Esempi. Calcólo di probabilitá nel gioco del poker. Consideríamo una partita a poker tra 4 persone, in cui si usa un mazzo di 32 carte:

A, K , Q, J, 10, 9, 8 ,7, X 4 semi. Una "mano" é un insieme di 5 carte scelte dal mazzo. 39. Quante mani contengono un tris (ma non un gioco migliore, cioé full o poker)? Schematizziamo un tris come una combinazione del tipo ( X , X , X , Y , Z ) , ossia: 3 carte dello stesso valore e due carte di valore diverso, e diverse tra loro Schema di scelte successive: 1. Scegliamo il valore del tris (ad es. tris di K): ci sono 8 possibilitá; 2. scegliamo le 3 carte del tris, tra le 4 del valore fissato: ci sono ( 3) = 4 possibilitá; 3. dobbiamo ora scegliere le due "scartine" Y , Z . Cominciamo a scegliere i 2 valori che dovranno avere Y, Z (diversi ira loro e diversi da quello di X): perció dobbiamo scegliere 2 valori tra 7 (i 7 valori diversi da X), e questo si puó fare in ( 2 ) = 21 modi; 4. scegliamo ora Y tra le 4 carte di uno dei due valori estratti: 4 possibilitá; 5. facciamo lo stesso per Z: 4 possibilitá. In tutto abbiamo

8 • 4 - 2 1 - 4 - 4 = 10752 mani che contengono un tris. Poiché il numero totale di mani possibili é

(?)■ 201376, questo signifíca che la probabilitá di avere un tris "servito" é 10752 201376

= 0.05339 ~ 5.3%.

40. Quante mani contengono una coppia (ma non un gioco migliore)? Una coppia é una mano del tipo (X, X , Y, Z, W). Ragioniamo come prima: 1. Scegliamo il valore della coppia: 8 possibilitá; 2. le 2 caite della coppia si possono scegliere tra le 4 del valore fissato in ( 2 ) = 6 modi; 3. i valori delle 3 scartine si possono scegliere tra i 7 disponibili in ( 3 ) = 3 5 modi; 4. la prima scartina si puó scegliere ora in 4 modi, 5. lo stesso per la seconda; 6 . lo stesso per la terza. In tutto:

Capitolo 2: Probabilità

65

mani che contengono una coppia; la probabilità di aveme una servita è quindi 107520 = 0.5338 ~ 53.4% 201376 Un 1. 2. 3. 4.

41. Quante mani contengono un full ? full é una mano del tipo {X, X , X , Y, Y). II valore del tris si puó scegliere in 8 modi; II valore della coppia si puó scegliere ora in 7 modi; Le 3 carte del tris si possono scegliere in ( 3 ) = 4 modi; Le 2 carte della coppia si possono scegliere in ( 2 ) = 6 modi. In tutto ci sono

8 • 7 • 4 • 6 = 1344 mani che contengono un full, e la probabilitá di averne uno servito é 1344 = 0.006672 ~ 0.66% 201376

Esempio 42. Consideriamo una partita a scopa d'assi; 4 giocatori, 40 carte, distribuite 10 a testa. Calculare la probabilità, per un giocatore, di avere: l'asso di quadri, l'asso di quadri o l'asso di cuori; l'asso di quadri e nessun altro asso; almeno un asso; un asso e non di piü; 2 assi prefíssati; 2 assi prefissati e non di piü; 2 assi qualsiasi e non di piü, almeno 2 assi; esattamente due assi. II numero di mani possibili é ( | q). II numero di mani che contengono una carta prefissata é il numero di mani che contengono 2 carte prefissate é ( ^ ) , ecc. Perció

P{A^) = S ) o

39! 9! 30!

30! 10! = ^ = 0.25 40! 40

P ( A * UA¥) = P(A*) + P(.4*) - F(yt» rii4») =

= Í2i + Í21 _ (?) _ 1 + i _ (")

(“ )

(ÎS) ^

- 0 4423

eccetera... Esempio 43. Una giunta comunale formata da 20 persone deve scegliere al suo interno una commissione di 5 persone. La scelta dei membri è casuale, col vinculo pero che almeno 2 di essi siano del partito di maggioranza relativa (che ha 9 membri). Che probabilità ha un membro del partito di maggioranza di essere in commissione? Elenchiamo i casi possibili. Le commissioni contenenti almeno 2 persone del partito di maggioranza sono quelle che ne contengono 2, piü quelle che ne contengono 3, . . . ,

66

Capitolo 2: Probabilità

più quelle che ne contengono 5. Per formare una commissione con 2 persone scelte fra 9 e 3 scelte tra 11 ci sono /X

Ragionando allô stesso modo per 3,4,5, persone scelte tra i 9 del partito di maggioranza (e 2 , 1, 0 , rispettivamente, scelte tra gli altri 11) si vede che ci sono in tutto

0 { '.') * G ) ( ï) * ( : ) ( ‘;" '

t i ’ l.m T ,,

casi possibili. Ragioniamo in modo análogo per contare i casi favorevoli. Poiché ora una persona é físsata nel partito di maggioranza, le scelte sono

e la probabilità richiesta è 3546 = 0.2937. 12072



Esercizi Combinatoria 2.2. In quanti modi 8 persone possono sedersi attomo a un tavolo che ha 8 posti? 2.3. Come sopra, ma si considerano distinti 2 modi solo se varia la disposizione relativa delle persone attomo al tavolo (rotondo). (In altre parole, due disposizioni ottenute Tuna dall'altra mediante rotazione del tavolo si considerano uguali). 2.4. Idem, a un tavolo rotondo, ma con 4 uomini e 4 donne che devono sedersi in modo alterno. 2.5. Una ventiquattrore ha una combinazione di 6 cifre. Quante combinazioni ha? E se invece di cifre fossero lettere A, B, C, D? 2.6. In una gara di 40 concorrenti, di 8 nazioni diverse, 5 per nazione, quante possibili classifíche per nazioni ci sono, per i primi 5 posti? 2.7. Quante diagonali ha un poligono di n lati? 2.8. Quante diagonali ha un prisma avente base di n lati? (Per diagonale intendiamo un segmento congiungente due vertid che non stanno sulla stessa faccia del prisma) 2.9. In quanti modi 3 persone possono occupare 3 di 4 posti numerati? 2. 10. Se una fíla del cinema ha 15 posti e ci sono solo 8 persone, in quanti modi si possono disporre? 2. 11. Se voglio codificare 20 oggetti usando "parole" di lunghezza fissa composte usando solo 4 caratteri diversi, qual è la minima lunghezza della parola? 2.12. In quanti modi 10 automobili che arrivano a uno snodo autostradale possono distribuirsi in 3 direzioni diverse? Distinguere i 3 casi: a. le auto si considerano tutte uguali;

Capitolo 2: Probabilitá

67

b. le auto si considerano tutte diverse; c. le auto si raggruppano per cilindrata, e sono 5 di classe A, 3 di classe B, 2 di classe C.

Combinatoria e probabilitá classica Nota: Tutti gli esercizi sulla probabilitá classica, Ira quelli che seguono, possono svolgersi applicando la dejfiniziom (cioé conteggiando casi possibili e casi favorevoli), senza bisogno di applicare nozioni successive. 2.13. Una squadra di calcio schiera in ogni partita 1 poniere, 5 difensori e 5 attaccanti. La societá "Testa o Croce" sceglie in modo casuale i giocatori rispettivamente tra 2 portieri, 8 difensori e 12 attaccanti possibili. Quante sono le formazioni possibili? Se Franco e Paolo sono due attaccanti, quante sono le formazioni in cui giocano entrambi? Se Andrea é un difensore, qual é la probabilitá che Andrea e Paolo giochino entrambi? 2.14. A scommette con B che estrarrá 4 carte di 4 semi diversi da un mazzo di 40 carte (che ne contiene 10 per seme). Qual é la probabilitá che A vinca? {Questo problema é tratío dall'opera di Huygens, "De ratiociniis in ludo aleae", del 1657). 2.15. Cario lancia 2 volte una moneta e Mario 2 . Qual é la probabilitá che Mario ottenga piú teste di Cario? 2.16. In una partita di N articoli, K scelti a caso vengono sottoposti a collaudo. Se nella partita c'é un solo articolo difettoso, qual é la probabilitá che questo venga individúate? Se ce ne sono 2 difettosi, qual é la probabilitá che siano individuati entrambi? E che ne sia individúate almeno uno? 2.17. Tre persone si danno appuntamento in un bar nella piazza céntrale della cittá, poco pratici del luego, non sanno che in tale piazza ci sono 4 bar. Qual é la probabilitá che scelgano; tutti e 3 lo stesso bar; tutti e 3 bar diíFerenti? 2.18. Un'uma contiene 5 palline bianche, 6 nere, 4 rosse. Se ne estraggono 2. Calcolare la probabilitá che siano dello stesso colore. Distinguere il caso dell'estrazione simultanea delle 2 palline da quello in cui la prima viene rimessa neU'uma prima di estrarre la seconda.

2.5. Probabilitá condizionata Abbiamo detto che] la probabilitá di un eventó é un numero che misura il grado di fiducia che noi abbiamo circa il realizzarsi di questo evento. É naturale allora che la probabilitá di uno stesso evento possa cambiare, se cambiano le informazioni in nostro possesso: se a metá campionato una squadra che inizialmente era poco valutata si trova in testa alia classifíca, la probabilitá che conquisti lo scudetto sará ancora bassa come all'inizio? Certamente no. II concetto di probabilitá condizionata traduce formalmente l'idea intuitiva di "probabilitá di un evento, valutata sapendo che si é verifícato un altro evento".

68

Capitolo 2: Pmbabilità

Defínizione 44. Sia B un evento di probabilitá non nulla. Si chiama prohabilitá delVevento A , coneUúonata a B , il numero ^

P{AnB) p(B) ■

P{ A \ B) =

Illustríamo il signifícato di questa defínizione nella probabilitá classica. Sia Q uno spazio campionarío fínito, ad esempio con 9 eventi elementan equiprobabili, e i4 un evento che consiste di 5 eventi elementan; = □ □ □ □ □ □ □ □ □ Perció P{ A) = 5/9 . Supponiamo ora di sapere che si è verifícato l'evento B:

B

n =

□□□□□So3a

Qual è la probabilitá di A, sapendo che B si è w rificatol Poiché è certo che fî si è verifícato, i casi possibili ora non sono piCi 9, ma solo 3; i casi favorevoli (ad A ) non sono piú 5, ma solo 1 (quello che realizza sia A che B ), dunque la probabilitá cercata è

1

\AnB\

3

\ B \

|>ln fî|/|fil \

B

\

m

P{AnB) P{B)

\

che é proprio la defínizione che abbiamo dato di probabilitá condizionata. (In sostanza, é come considerare B come nuovo spazio campionarío, e calcolare la probabilitá di un evento A facendo ríferímento solo agli eventi elementarí che appartengono sia ad A che a B). Esempio 45. a. Qual é la probabilitá che, lanciando una moneta 10 volte, non esca mai "Testa"? b. Qual é la probabilitá di questo stesso evento supponendo ora di aver giá lanciato la moneta 9 volte, e aver ottenuto sempre "Croce"? a. Sia A l'evento "In 10 land non esce mai Testa". II numero di possibili sequenze di 10 lanci é c'e una sola sequenza con tutte "Croci", quindi

P{A) = l / 2 ‘° = 1/1024 = 0.000976. b. Sia B l'evento "Nei primi 9 lanci non é mai uscita Testa". Ragionando come sopra, si ha P{ B) = 1/2®. La probabilitá di A sapendo che si é verifícato B é P{AnB) P{ A\ B) = P{ B)

P{A) P{B)

1/2 10 1/29

1

2

(notare che A C B, perció A n B = A). Notare che, sapendo gia che i primi 9 lanci hanno dato primi 10 lanci diano Croce e semplicemente la probabilita Croce, e questa e owiamente 1/ 2 , qualunque sia la "storia parla di "assenza di memoria" per il processo dei lanci di

P{A

* \

S i

f a c c ia

B),

c h e

a t te n z io n e ra p p re s e n ta

a

n o n la

c o n fo n d e re

p r o b a b ilit é

la

s c r it t u r a

d e l l ’e v e n t o

"A

P{A\B) m e n o

B",

Croce, la probabilita che i che il prossimo lancio dia passata" della moneta. (Si monete). Si osservi come *

( p r o b a b ilit á c io è

AnB.

d i

A

c o n d iz io n a ta

a

D)

c o n

Capitolo 2: Probabilitá

69

I'informazione ulteríore in nostro possesso ha drásticamente cambiato la nostra valutazione della probabilitá di uno stesso evento. Esempio 46. II problem a delle tre carte. Supponiamo di avere 3 carte da gioco particolari, cosi fatte; una ha una faccia rossa e I'altra nera, una ha entrambe le facce rosse, la terza ha entrambe le facce nere. Si sceglie una carta a caso e la si mette sul tavolo. Se la faccia visibile é rossa, qua! é la probabilitá che la faccia coperta sia rossa? Sia Ri I'evento "la faccia visibile é rossa", e R 2 I'evento "la faccia coperta é rossa. Dobbiamo calcolare

P{R2\ R i ) =

П ill)

P(Ri)

'

L'evento R 2 П Ri coincide con I'evento "abbiamo scelto la carta con entrambe le facce rosse"; poiché le carte erano 3 e la scelta é stata fatta a caso, quest'evento ha probabilitá 1/3. Qual é invece la probabilitá dell'evento ili? La faccia visibile della carta sul tavolo é stata scelta a caso ira 6 possibili; le facce rosse (cioé i casi favorevoli a R \ ) sono in tutto 3, perció P{ R \ ) = 3 /6 = 1/ 2 . Quindi

II rísultato, trovato con procedimento rigoroso, non é a priori esempio, si trovi l'errare nel seguente ragionamento ingenuo:

cosí

intuitivo. Ad

"Poiché la faccia visibile é rossa, certamente la carta estratta non é quella con due facce nere, quindi puó essere, con ugual probabilitá, quella con 2 facce rosse o quella con una faccia nera e una rossa. Nel primo caso la faccia coperta é rossa, mentre nel secondo caso, poiché la faccia scoperta é rossa, quella coperta é nera. Dunque I'evento "la faccia coperta é rossa" ha probabilitá 1/2". (FALSO! La probabilitá é 1/3). Questi ragionamenti dovrebbero insegnare una certa cautela nel procederé.



Si osservi che, fissato B , la ñmzione P{ • [B), ossia quella che ad A associa P{A\ B) , é una probabilitá su 0 , con tutte le proprietá che ne conseguono. Ad esempio

P( Á\ B) = 1 - P{A\B). Questo si puó verificare in base alia defínizione di probabilitá condizionata. Invece, non é vero (ad esempio) che P{ A\ B) = 1 - P{A\B). (Attenzione a giustificare sempre i passaggü). Teorem a 47. (Teorem a delle probabilitá totali). Sia A un evento e {B^}"^, una partizione di íl. ossia una fam iglia di eventi tali che:

a. j=i b.

Bi n Bj = 0 p e r i Ф j;

70 ogni j. P(B) # 0per

C.

Allora Capitolo

P(A)

P(A|B;)

=

2: mumerabile, teorema

se B; vale anche Probabilità

i

Dimostrazione.

Per

sono

definizione

(4)

P(B,) con le

ovvie

modifiche.

un'infinità

di probabilità

A

condizionata

PANB.P(B,) =

PAJB,) P(B,) =2P(B) J=1

= P(AnB).

Poiché

i

B,

sono a

due

a

due disgiunti,

disgiunti (AnB,)n(ANB,) Perciò per la

(1) (assioma di

additività

=

anche eventi (ANB;)

An

(B, nB)

An0

=

=

sono a

due

a

duee

.

della probabilità)

n

PAn B)= P(UanB) \i=1

plan(U)-PAn

delle dove abbiamo usato le proprietà alla tesi. di uguaglianze scritte equivale

Il

operazioni

= P(A),

insiemistiche e

lipotesi

a.

La catena

di 2 è data da {B, B, dove B è più semplice esempio di partizione caso la (4) si scrive: evento di probabilità non nulla. In questo

un

qualunque

PA) = P{A|B)P(B) + P(A|B)P(B). L'utilità del teorema precedente sta nel fåtto che talvolta P(A) è difficile da

calcolare direttamente, mentre è più facile calcolare P(A|B,) (questo significa calcolare P(A) con un'informazione ulteriore), e quindi ricostruire P(A) dalla formula (4). Si consideri il prossimo: Esempio 48. Supponiamo di avere due urne, a e b, che contengono rispettivamente: 2 palline rosse e 1 nera, 3 palline rOsse e 2 nere. Scegliamo a caso un'urna, e poi estraiamo a caso una pallina dall'urna scelta. Qual e lad

probabilità di estrarre una pallina nera? Sia: A l'evento "E' stata scelta l'urna a"; B l'evento "E' stata scelta l'urna

",

Capitolo 2: Probabilità

71

Nl'evento "Ë' stata estratta una pallina nera"; R l'evento "E' stata estratta una pallina rossa"

Possiamo calcolare P(N) al modo seguente: P(N) = P(N\A)P(A) + P(N|B)P(B) Sappiamo che: P(A) = P(B) = 1/2. Inoltre: dalla composizione delle due urne segue che P(N|A) = 1/3; P(N|B) = 2/5.

Percio

1 1,2 1_11

PN)=+

=0,36.

Si osservi che la probabilità è diversa da quella che si avrebbe se tutte le palline fossero messe in un'unica urna: in questo caso la probabilità di estrarre una nera sarebbe 3/8 0.375. La differenza tra i due risultati dipende dal fatto che le due urne contengono un numero diverso di palline: una pallina dell'urna a non ha la stessa

probabilità di essere scelta di una pallina dell'urna b. Perciò il procedimento seguito è il più semplice che permette di calcolare correttamente P(N). Esempio 49. Poniamoci ora la seguente domanda, ancora sull'esempio precedente: se abbiamo estratto una pallina nera, qual è la probabilità di avere scelto l'urna a? Questa volta ci interessa calcolare P(A|N). Nell'esempio precedente abbiamo calcolato, tra l'altro, P(N|A). Che relazione c'è tra questi due numeri? In generale, dati due eventi

P(AB)

=

A, B, di probabilità diversa da zero,

P(ANB). P(B

P(B|A)

=

F{BnA)

P(A)

perció P(ANB) = P(A|B)P(B) = P(B|A)P(A)

(5)

e quindi anche P(BJA) = 4B)P(B)

P(A)

(6)

Sfruttando la relazione precedente, si può rispondere alla domanda posta nell'ultimo

esempio P(AJN) = FNA)P(A)

P(N)

-

30

=0,45.

(Abbiamo sfruttato le probabilità calcolate nel penultimo esempio). Sostituendo, nella (6), l'espressione di P(A) data dalla (4) si ottiene il seguente

importante risultato:

72

Capitolo 2: ProbabMé

Teorema 50. (Formula di Bayes). Sia A un evento di probabilitá non nulla, e B j una fam iglia di eventi che soddisfa le ipoíesi del Teorema 47. Allora:

P{Bk\A) =

P{A\B,)P{B,)

per ogni k.

■P{B,)

Mostriamo ora alcune applicazioni tipiche del teorema di Boyes. Esempio 51. (Test clinicí). In un test clínico, un individuo viene sottoposto a una certa analisi di laboratorio, per vedere se ha o non ha una data malattia. II test puó avere esito positivo (ad indicare la presenza della malattia) o negativo (ad indicare che l'indíviduo é sano). Ma, come in ogni indagine, c'é sempre una possibilitá di errore, ow ero; puó darsi che qualcuno degli individui risultatí positivi sia in reaitá sano {"falso positivo") e che qualcuno degli individui risultati negatívi sia in reaitá malato {"falso negativo"). Prima di applicare il test su larga scala, é opportuno quindi valutame la "bontá". Per far questo si puó sottoporre al test un campíone di persone di cui sappiamo giá se sono sane o malate, e vedere se la risposta del test é corretta. Se indíchiamo con M reventó 'Tindividuo é malato"; S reventó "l'indíviduo é sano". P os l'evento "il test dá esito positivo"; N eg l'evento "il test dá esito negativo"; possiamo calcolare, in base a queste prove preliminari, le probabilitá condizionate; P{ Pos IM ) che viene detta sensibilitá del test; P{ Neg\ S) che viene detta specificitá del test. In pratica, la probabilitá P{ Po s \ M) puó essere stimata sperimentalmente calcolando il rapporto tra il numero dei positivi tra tutti i malati sottoposti al test, e il numero dei malati sottoposti al test; análogamente P{Neg\ S) puó essere stimata sperimentalmente calcolando il rapporto tra il numero dei negativi tra tutti i sani sottoposti ai test, e il numero dei sani sottoposti al test. II test é tanto piú sensibile quanto piú é probabíle che un malato risulti positivo, ed é tanto piú specifíco, quanto piú é probabíle che un sano risulti negativo, o w ero che solo i malati risultino positivi. Un buon test é un test con sensibilitá e specifícitá moho vicine a 1. Supponiamo ora che il test venga eíTettivamente appiicato per scoprire se un individuo é malato o meno. La domanda interesssante ora é; Qual é la probabilitá che un individuo che é risultato positivo al test sia effettivamente malato? Questa probabilitá condizionata, P { M\ Po s ) viene detta valore predittivo del test. Per il Teorema di Bayes, questa si puó calcolare come;

P{ M\ Po s ) =

P{ P o s \ M) P { M) P { P o s \ M) P { M) + P{ Po s \ S ) P{ S ) ■

Si vede quindi che la specificitá e la sensibilitá di un test non bastano a calcolare il suo valore predittivo, occorre anche conoscere P{M), ow ero la frequem a relativa con cui la malattia colpisce lapopolazione complessiva. (Si noti che P{ S ) = 1 - P { M ) tP{Pos\S) = \-P {Neg\S)).

CapHolo 2: Probabilitá

73

Facciamo un esempio numérico.^ La sensibilitá del test "Elisa" per l'HIV é circa 0.993. La specifícitá del test é circa 0.9999. La frequenza relativa dell'HIV nella popolazione complessiva é circa 0.000025. La probabilitá che una persona risultata positiva a questo test sia eífettivamente malata é 0.993 • 0.000025 = 0.19888 ~ 20%. 0.993 • 0.000025 + (1 - 0.9999)(1 - 0.000025) Questo significa che solo il 20% di coloro che risultano positivi al test sono eífettivamente malati; ow ero 1'80% dei positivi sono "falsi positivi". II risultato, sorprendente, dipende dal falto che la malattia che si cerca é moho rara, sulla popolazione complessiva.^ Si osservi che la probabilitá che una persona sia malata, sapendo che é risultata positiva al test, é comunque moho maggiore della probabilitá che aveva prima di sottoporsi al test;

P{M\ Poa) P (A Í)

0.19888 = 7955.2 0.000025

(la probabilitá é cresciuta circa di un fattore 8000). II tipo di ragionamento illustrato nell'esempio precedente si trasporta parí parí in situazioni che non hanno niente a che vedere con l'ámbito sanitario: Esempio 52. (Test di collaudo in un processo produttivo). Un'impresa industríale ha installato un sistema automático per il controllo di qualitá, il quale garantisce che, se un pezzo é difettoso, esso viene eliminato con probabilitá 0.995. C'é una piccola probabilitá, parí a 0.001, che anche un pezzo non difettoso venga eliminato. Si sa anche che la probabilitá che un pezzo sia difettoso é 0.2. Si calcoli la probabilitá che un pezzo che non sia stato eliminato al controllo di qualitá sia difettoso. Sia E reventó "il pezzo viene eliminato" e D l'evento "il pezzo é difettoso". Sappiamo che;

P( E \ D) = 0.995; P{E\ D) = 0.001; P{D) = 0 .2 . Vogliamo calcolare:

P( E\ D) P{ D) P( D\ E) = - = _________ , ^ ' P{ E\ D) P{D) + P{ E\ D) P{ D) Osserviamo che

P( E \ D ) = 1 - P{E\ D) = 0.005; P( E\ D) = 1 - P( E\ D) = 0.999; P( D) = 1 - P{D) = 0.8.

^ 1 dati che qui vengono citati sono tratti da: S Chatterijee-M. S. Handcock-J. S. Simonoflf: "A John Wiley & Sons. New York 1995, pp. 37

c a se b o o k f o r a f i r s t co u rse in sta tistic s a n d d a ta a n a lysis",

sgg ^ Si osservi che si s(a supponendo di sottoporre al test persone di cui a priori non si sa nulla; se si applicasse il test a persone scelte in qualche "categoría a rischio", il numero P { M ) andrebbe sostituito con la frequenza relativa della malattia in quella classe di persone, e sarebbe pertanto piii elevato, risulterebbe di conseguenza piCi elevata anche la predittivitá del test.

74

Capitolo 2: Probabilitá

Perció possiamo calcolare

P{ D\ E) =

0.005 • 0.2 ~ 0.00125 ~ 0.125% 0.005 • 0.2 + 0.999 • 0.8



2.6. Indipendenza di eventi Defínizione 53. Due eventi A, B, di probabilitá non nulla si dicono indipendenti se soddisfano una delle seguenti tre condizioni equivalenti:

P { A n B ) = P{A)-P{B)\

(7)

P{A\ B) = P{A);

(8)

P( B\ A) = P{B).

(9)

II fatto che le tre condizioni siano equivalenti si vede súbito riscrivendo la ( 8) e la (9) per mezzo della defínizione di probabilitá condizionata; il fatto che A, B abbiano probabilitá non nulla é necessario perché la ( 8) e la (9) abbiano senso; d'altra parte, non ci interessa parlare dell'indipendenza o meno di eventi di probabilitá nulla. II significaío intuitivo del concetto di indipendenza di eventi é chiarito soprattutto dalle ultime due condizioni; la ( 8) ci dice che la probabilitá di A, sapendo che B si é verifícate, é uguate alia probabilitá di A a priori, ossia; sapere che B si é verifwato non altera la nostra opinione sulla probabilitá di A. Per l'equivalenza di ( 8) e (9), questo signifíca anche che; sapere che A si é verificato non altera la nostra opinione sulla probabilitá di B. In questo senso diciamo che gli eventi sono tra loro indipendenti. Infíne, la (7) é la relazione che, delle tre, risulta operativamente piú utile; infatti, possiamo usarla per verificare se due eventi sono indipendenti, oppure, se abbiamo motivo di ritenere a priori che A e B siano tra loro indipendenti, ci fornisce un modo semplice per calcolare la probabilitá á\ A f \ B . Esempio 54. Lanciamo un dado. Sia A l'evento "esce un numero parí" e B l'evento "esce un numero > 3". A e B sono tra loro indipendenti? A = {2,4,6}: B = {4,5,6}; > l n B = {4,6}.

P{ A) = P{ B) = 3 /6 = 1/ 2 ; P{ A) P{ B) = 1/4;

P { A D B) = 2 /6 = 1/3.

Dunque

P { A n B ) ^ P{A) P{B), e gli eventi non sono indipendenti. Detto altrímenti; sapere che il numero uscito é > 3 non lascia inalterata la nostra valutazione della probabilitá che il numero uscito sia parí; infatti

P{A) = 1/2 mentre P( A\ B) = 2/3.



Capitolo 2: Probabilitá

75

Esempio 55. Lanciamo due dadi. Sia: A ('evento "la somma dei punteggi é disparí"; B ('evento "il prímo dado fa 1"; C ('evento "la somma dei punteggi fa 7". Verífícare se gli eventi sono indipendenti, a due a due, o no. Consideríamo A e B.

P{ A\ B) = P (il 2° dado é parí) = 1/2 = P( A) , perció A e B sono indipendenti. Consideríamo A e C . Poiclié C C A,

P ( A n C ) = P{C) ^ P{A) ■P(C), perció A e C non sono indipendenti. Consideríamo B e C .

P{ C\ B) = P(i( 2° dado fa 6 ) = 1/6 = P (C ), perció B e C sono indipendenti.



La condizione puó essere generalizzata per definiré il concetto di fam iglia di n eventi indipendenti. Defínizione 56. Si dice clie n eventi A \ , A 2, . . . yAn costituiscono una fam iglia di eventi indipendenti se valgono le seguenti condizioni;

P{Ai n Aj) = P{Ai )P{Aj ) per ogni coppia di indici i ^ y, P{Ai n Aj n Ak) = P{Ai )P{Aj ) P{Ak) per ogni i , j , k diversi tra loro;

P{A, n

^ 2

n ... n

= P { A , ) P { A 2). .. P{An).

La definizione precedente si puó esprímere a parole dicendo: "n eventi sono indipendenti se per ogni sottofamiglia di r eventi (2 < r < n), la probabilitá dell'intersezione di questi r eventi é uguale al prodotto delle probabilitá di ciascuno di essi". Intuitivamente, n eventi sono una famiglia di eventi indipendenti se qualunque informazione sull'accadere o meno di uno o alcuni di essi non ci dice nulla in piú circa la probabilitá che accada qualche altro evento della famiglia: si pensi, ad esempio, a 10 lanci successivi di una moneta e ai 10 eventi "al /c-esimo lando é uscita Testa" (fe = 1 ,2 , . . . , 1 0 ). Si osservi che la definizione precedente non puó essere "semplificata": in particolare, sapere che n eventi sono indipendenti a due a due, o w ero che vale la;

P{Ai n Aj) = P{Ai )P{Aj ) per ogni coppia di indici i non basta a garantiré che essi siano una fam iglia di eventi indipendenti. Esempio 57. Nel gioco della roulette, le "púntate semplici" sono "Rosso" o "Ñero"; "Parí" o "Dispari";

j,

76

Capitolo 2: Probabilitá

"D airi al 18" o "Dal 19 al 36". Se supponiamo per semplicitá che la ruota della roulette non abbia lo zero (che nel gioco vero esiste appositamente per rendere il gioco iniquo a favore del banco), ognuno del 6 event! citati é realizzato da 18 numeri su 36, e quindi ha probabilitá 1/2. Inoltre, il tavolo da gioco della roulette é realizzato in modo che i numeri pari (e quindi i numeri dispari) siano 9 rossi e 9 neri, i numeri dall'l al 18 (e quindi i numeri dal 19 al 36) siano 9 rossi e 9 neri; infine é ow io che i numeri dall'l al 18 (e quindi i numeri dal 19 al 36) siano 9 pari e 9 dispari. Da questo segue che i 3 event! "Rosso", "Pari", "Dall'l al 18" sono a due a due indipendenti, in quanto, ad esempio: 9 1 P(R osso n Pari) = — = 36 4 18 P (R osso)P (P an) =

18

1 1 = 2 2

1 4

(e lo stesso si puó ripetere per le altre due coppie di eventi). Affinché i tre eventi costituiscano una famiglia di eventi indipendenti deve valere anche la condizione: P(R osso n Parí n D airi al 18) = P(R osso)P(Pari)P(D aU 'l al 18). II secondo membro di questa uguaglianza vale 2 ' 2 2 ~ ^ p r i m o membro invece vale n° di numeri rossi, parí, dall'l al 18 36 ’ e questa frazione non puó valere 1/8 (non c'é bisogno di guardare il tavolo da gioco della roulette per dirlo!) perché 36 non é múltiplo di 8 . Quindi abbiamo un esempio di 3 eventi non indipendenti, anche se sono a due a due indipendenti. □ Proposizione 58. Siano A \ , A 2, . . - , An una fam iglia di eventi indipendenti. Allora la nuova fam iglia che si ottiene da questa sostituendo qualche A{ (non importa quanti) col suo complementare A{ é ancora una fam iglia di eventi indipendenti. (Si verifica dalla definizione). Ad esempio; se sapere che il primo lancio di una moneta ha dato Testa non mi dice nulla in piú sulla probabilitá che il secondo lancio dia Testa, lo stesso vale se invece so che il primo lancio ha dato Croce.

2.7. Affíciabílítá di un sistema Vediamo ora un'applicazione notevole del concetto di indipendenza di eventi, che ha a che fare con varí tipi di problem! applicativi, ingegneristici e non: parliamo del concetto di affidabilitá. Consideríamo un'apparecchiatura, semplice o complessa (ad esempio: un microchip, oppure un computer). Vogliamo tradurre quantitativamente l'idea che esso fimzioni o meno in modo soddisfacente. Naturalmente, le stesse prestazioni possono essere giudicate soddisfacenti oppure no a seconda del tipo di impiego dell'apparecchio (si pensi a come viene utilizzato un computer in un uíficio comunale o in un centro di ricerca avanzata); inoltre, le

Capitolo 2: F^obabilitä

77

prestazioni possono dipendere dalle condizioni in cui I'apparecchio é utilizzato (gli stessi pneumatici non si comportano alio stesso modo se usati su una strada asfaltata o sterrata); infine, non ci si potranno aspettare, in genere, le stesse prestazioni da un apparecchio quasi nuovo e da uno giá usato a lungo. Definiremo quindi Xafjidabilita di un apparecchio come la probabilitá che esso dia prestazioni entro certi limiti specificati, almeno per un certo tempo specificato, se utilizzato in certe condizioni specificate. Nel seguito ci esprimeremo piCi brevemente parlando di "probabilitá che un apparecchio Junzioni”, ma occorre tener presente che quest'espressione ha un senso solo in relazione alia discussione precedente. Consideriamo ora un sistema costituito da piú componenti (ad esempio, un'apparecchiatura elettronica costituita da piü microchips). Si puó parlare di affidabilitá delle singóle componenti, e anche di affidabilitá del sistema. L'affidabilitá di componenti semplici si puó di solito stimare sperimentalmente, con opportuni test: ad esempio, si misurerá il tempo medio di buon ílmzionamento, per un campione casuale di componenti identici. Ci chiediamo: é possibile invece calcolare I'ajfidabilita del sistema, note le affidabilitá delle singóle componenti? Poiché le affidabilitá sono probabilitá, le rególe del calcólo delle probabilitá sono utili, in proposito. Per vedere come questo é possibile, occorre anzitutto fare qualche ipotesi su come il ñinzionamento del sistema dipenda dal ñinzionamento dei componenti. Anzitutto, supporremo sempre che i vari componenti siano tra loro indipendenti, ow ero, che le prestazioni di una qualunque parte del sistema non influenzino l'affidabilitá delle altre. Diamo ora una defínizione precisa; Defínízione 59. Sia S un sistema costituito da n componenti A{ indipendenti, ow ero; gli n eventi "II componente funziona correttamente" formano una famiglia di eventi indipendenti. Si dice che i componenti sono connessi in serie se il sistema ñmziona se e solo se funzionano tutti i componenti; si dice che i componenti sono connessi in parallelo se il sistema funziona se e solo se funziona almeno un componente. Proposizione 60. Sia S un sistema costituito da n componenti, di affidabilitá o i, 02, . . . o„. Allora: 1. Se i componenti sono connessi in serie, l'affidabilitá del sistema é

a = a\ • a 2-.. 2. Se i componenti sono connessi in parallelo, l'affidabilitá del sistema é o = 1 - (1 - 0 |) • (1 - 02)... (1 - 0 „).

Dimostrazione. 1. L'affidabilita di 5 e la probabilita che esso funzioni, quindi, per l'ipotesi di connessione in serie, la probabilita che tutti i componenti flinzionino, quindi, per l'ipotesi di indipendenza, il prodotto delle probabilita di flinzionamento dei componenti, ossia il prodotto delle afiidabilita. 2 . Calcoliamo (1 — o), ossia la probabilita che S non funzioni. Per l'ipotesi di connessione in parallelo, questa e uguale alla probabilita che tutti i componenti non flinzionino; per l'indipendenza dei componenti, questa e il prodotto delle probabilita che ciascuno non funzioni, ow ero il prodotto

78

Capitolo 2: Probabilitá

(1 - a i ) • (1 - a 2 ) . . . (1 - a „ ) .

Da questo segue la tesi. Abbiamo qui usato implicitamente il fatto che se gli eventi "II componente A, íunziona" sono indipendenti, per la Proposizione 58, anche gli eventi "II componente A{ non ñmziona" sono tra loro indipendenti □ Esem pío 61. Si calcoli l'aflidabilitá del sistema schematizzato in figura, supponendo che i componenti abbiano le seguenti affidabilitá:

A : 0.95; B : 0.99; C = 0.70; D = 0.70; E = 0.90.

II sistema costituito dai 2 componenti C, D ha affidabilitá a(c.¿) = 1 - (1 - 0.7)(1 - 0.7) = 0.91. II sistema puó vedersi come costituito da 4 componenti in serie; A, B , la coppia (C, D ), E , t quindi ha affidabilitá:

a = 0.95 • 0.99 • 0.91 • 0.9 ~ 0.77.



Si osservi che connettere piú componenti in serie diminuisce l'affidabilitá del sistema (rispetto a quella delle singóle componenti); viceversa connettere piú componenti in parallelo aumenta Taffidabilitá del sistema, rispetto a quella delle singóle componenti. II termine sistema non indica necessariamente un apparecchio, ma puó avere un signifícato moho ampio; conseguentemente la nozione di affidabilitá é applicabile in vari contesti. Esempío 62. In un ufficio lavorano 4 impiegati, un capufficio e un vicecapo; tutte e sei le persone sono spesso assenti. Ogni pratica puó essere sbrigata da uno qualunque degli impiegati (basta che sia presente in ufficio), dopodiché viene passata al capufficio per il controllo finale e la fírma; il vicecapo svolge la stessa ftmzione del capufficio, in sua assenza. Supponiamo che ogni impiegato abbia affidabilitá 0.6 (intesa come probabilitá che sia presente in ufficio nel momento in cui c'é una pratica da sbrigare), il capufficio abbia un'affidabilitá 0.5, e il vicecapo affidabilitá 0.7. a. Si rappresenti il sistema con uno schema di connessioni in serie o in parallelo, e si calcoli l'affidabilitá del sistema. b. Visto lo scarso rendimento, il capufficio decide di prendere prowedimenti, e ha due alternative; assumere un nuovo impiegato, di affidabilitá 0 .6 ; oppure promuovere uno dei 4 impiegati al ruolo di aiuto vicecapo (con lo stesso molo del vicecapo, e la stessa affidabilitá che l'impiegato aveva prima della promozione). Qual é la scelta piú conveniente?

Capitolo 2: Probabilitá

79

a. II sistema é schematizzabile come

L'affidabilitá del sottosistema degli impíegati é 1 - (1 - 0.6)^ = 0.9744; Taífidabilitá del sottosistema dei due capi é 1 - (1 - 0.5)(1 - 0.7) = 0.85; Taffidabilitá del sistema é 0.9744 • 0.85 = 0.82824 ~ 83%.

b. Ricalcoliamo l'affidabilitá nelle due ipotesi alternative. Con un impiegato in piú, il primo sottosistema ha affidabilitá 1 - (1 - 0.6)® = 0.98976, e l'affidabilitá del sistema é 0.98976 • 0.85 = 0.841296 ~ 84%. Nella seconda ipotesi invece, il sottosistema impiegati ha affidabilitá 1 - (1 - 0.6)® = 0.936, il sottositema dei tre capi ha affidabilitá 1 - (1 - 0.5)(1 - 0.7)(1 - 0.6) = 0.94, e l'affidabilitá del sistema é 0.936 • 0.94 = 0.87984 ~ 88%. Conviene quindi seguiré la seconda strada.



Esercizi di ricapitolazione sulla probabilitá 2.19. Calcolare la probabilitá che, lanciando due dadi, escaño: a. due 4; b. un 3 e un 5; c. due numeri parí; d. due numeri la cui somma sia 9; e. due numeri uguali. 2.20. Da un mazzo di 52 carte se ne estrae una. a. Calcolare la probabilitá che sia; una carta di picche o una figura di cuorí. b. Calcolare la probabilitá che sia; una figura o di una carta rossa. 2.21. Da un'uma che contiene 40 palline di cui 12 bianche, 11 rosse e 17 verdi si estraggono contemporáneamente sei palline. Calcolare la probabilitá che esse siano; 3 bianche, 2 rosse, 1 verde.

80

Capitolo 2: ProbabUñá

2. 22. In un esame clínico per la diagnosi di una certa malattia, il 6% di coloro che sono sottoposti al test risultano positivi (ma non tutti hanno la malattia), mentre il 5% ha in reaitá la malattia (ma non tutti risultano positivi). Si determini la probabilitá che una persona malata risulti positiva al test, sapendo che la probabilitá che una persona che risulta positiva al test sia malata é 0 .8 . 2.23. Calcolare la probabilitá che due persone, vissute in luoghi ed epoche diíFerenti: a. siano nate nello stesso giomo dello stesso mese; b. siano nate entrambe di mercoledí. 2.24. a. In quanti modi 8 persone possono sedersi in 5 posti? b. In quanti modi 5 persone possono sedersi in 8 posti? c. In quanti modi 3 amici possono sedersi in una fila di 15 posti, al cinema, stando vicini tra loro? 2.25. La probabilitá che uno studente scelto a caso tra glí íscritti al primo anno del Diploma in Ingegneria di una certa universitá, dopo la prima sessione non abbia ancora superato l'esame di "Matemática A" é 0.4; la probabilitá che abbia fatto il liceo scientifíco é 0.3; la probabilitá che abbia superato l'esame di Matemática A e abbia fatto il liceo scientifíco é 0.25. Qual é la probabilitá che non abbia fatto il liceo scientifíco e non abbia superato l'esame di Matemática A? 2.26. Siano A ,B due eventi indipendenti, con P ( A ) = 1/ 3 , P ( B ) = 3 /4 . Determinare la probabilitá p dell'evento (A D B ) u ( . 4 n B ) , 2.27. Una ditta produce un certo tipo di apparecchiature sofistícate; l'8% degli apparecchi prodotti, mediamente, presenta qualche tipo di malfunzionamento. Percíó la ditta ha messo a punto un test di collaudo, che tiene conto dei difetti piú frequenti, in modo tale che: il 90% degli apparecchi imperfetti non supera il test; 1'1% degli apparecchi "sani" non supera il test (per qualche errore nell'esecuzione del collaudo). Se vengono messi in commercio tutti e solí gli apparecchi che superano il test, qual é la probabilitá che uno di questí risulti difettoso? 2.28. Nella prima parte di questo esercizio si chiede di formalizzare, col linguaggio preciso e sintético del calcólo delle probabilitá, alcune informazioni espresse mediante il linguaggio comune. Sia A l'evento "Lo studente ha studiato bene" e B l'evento "Lo studente passa l'esame". Tradurre in simboli le seguenti affermazioni; a. La probabilitá che uno studente abbia studiato bene e passi l'esame é 0.4 b. La probabilitá che uno studente che ha studiato bene passi l'esame é 0.8 c. La probabilitá che uno studente che non ha studiato bene non passi l'esame é 0.9. d. La probabilitá che uno studente abbia studiato male ma passi ugualmente l'esame é 0.05. e. La probabilitá che uno studente che non ha passato l'esame non avesse studiato bene é 9/11. Supponiamo ora che le informazioni a, b, c, d, e siano tutte corrette. Sfruttando opportunamente queste informazioni, si calcoli: / P { A U B ) - g. P ( Á n f í ) ; h P ( A \ B ) ; /. P ( B \ A ) . 2.29. Un apparecchio é costituito da 3 sottosistemi posti in serie. A, B , C . A sua volta, A consiste di due componenti in parallelo, A i , A 2, mentre B consiste di 3 componenti in parallelo, B \ , B 2,Bz. £' noto che le affidabilitá di cíascun componente sono le seguenti: Al : 0.98; A 2 : 0.97; B i : 0.95; B 2 : 0.99; B 3 : 0.9 C : 0.97. a. Si rappresenti uno schema delle connessioni dell'apparecchio.

Capitolo 2: Probabilité

81

b. Si calcoli l'affidabilitá del sistema. c. Se il sistema si guasta, qual é la probabilitá che il componente che si é guastato sia C? 2.30. Si esaminano 50 pezzi prodotti da due macchine A , B , e si contano i pezzi difettosi. I rísultati sono i seguenti: Pezzi difettosi Pezzi non difettosi Tot.

Pezzi prodotti da A 4 16 20

Pezzi prodotti da B 6 24 30

Tot 10 40 50

a. Si calcoli la probabilitá che un pezzo scelto a caso tra questi 50 sia difettoso; b. Si calcoli la probabilitá che un pezzo a caso, scelto tra quelli difettosi, provenga dalla macchina B. c. Si dica se gli eventi "il pezzo é difettoso" e "il pezzo proviene dalla macchina A ” si possono ritenere indipendenti. d. Si puó concludere che una delle due macchine é preferibile all'altra? 2.31. Questo esercizio vuole verifícare la comprensione del linguaggio simbólico. Nella formula; P( A) = Y , P { u , t ) , il simbolo:

denota

a.



b.



c. P W k ) d. E P M



e. P



/



P( A )



A



h. k

□ Per ciascuna domanda, scegliere la risposta esatta tra quelle scritte qui sotto; A. Un numero intero; B. Un numero reale; C. Un evento elementare; D. Un evento; E. Nessuna delle precedent! risposte 2.32. Alberto, Barbara e Cario lavorano nello stesso ufficio, con un solo telefono Le telefónate arrívano in modo casuale nelle proporzioni di 2 /5 per Alberto, 2 /5 per Barbara, 1/5 per Cario. II loro lavoro richiede che essi lascino l'uñicio in moment! casual! e tra loro indipendenti, cosicché Alberto é íuori dall'ufficio per metá dell'orario di lavoro. Barbara e Cario ciascuno per un quarto dell'orario di lavoro. Calcolare la probabilitá che: a. Le prime 3 chiamate della gíomata siano per la stessa persona. b. Le prime 3 chiamate della giomata siano per 3 persone diverse. c. Nel momento in cui arriva la prima telefonata, non c'é nessuno a rispondere.

82

Capitolo 2: Probabilitá

d. Nel momento in cui arríva la príma telefonata, l'interessato é in ufficio. 2.33. In base a un'indagine sanitaria condotta suí lavoratori di una certa fabbrica, viene valutata pari a 0.07 la probabilitá che una persona che vi lavora da almeno 5 anni soñra di disturbi polmonari, 0.12 la probabilitá che soffra di cefalea, e 0.03 la probabilitá che so№a di entrambi. Qual é la probabilitá che una persona che vi lavora da almeno 5 anni sia sana? 2.34. Un'uma contiene 6 palline bianche e 4 nere; se ne estraggono 3 senza reimmissione. Qual é la probabilitá di estrarre B, N , N (in quest'ordine)? 2.35. In una partita a poker con un mazzo di 32 carte (ogni giocatore riceve 5 caite), qual é la probabilitá che un giocatore abbia in mano almeno due assi, sapendo che ha in mano almeno un asso? E se invece sappiamo che ha in mano almeno l'asso di cuori? 2.36. Una "roulette" semplifícata consiste di un tabellone con i soli numeri da 1 a 12, classifícati "rossi" o "neri" in base al seguente schema: R

R

N

N

R

N

8 R

N

N

10 N

11 R

12

R

Sia A reventó "esce un numero pari", B l'evento "esce un numero rosso", C l'evento "esce un numero < 6 ", D l'evento "esce un numero < 8 ". a. Stabilire se gli eventi A, B, C sono a due a due indipendenti. b. Stabilire se A, B, C sono una famiglia di eventi indipendenti. c. Stabilire se A, B, D sono una famiglia di eventi indipendenti. 2.37. Si consideri il sistema S costituito da 4 componenti elettrici C j , . . . , C 4 collegati tra loro come nel seguente schema:

I componenti si suppongono indipendenti e hanno ciascuno affidabilitá p = 0.9. a. Si calcoli la probabilitá 3 che il sistema S funzioni. b. Supponiamo ora che il componente C\ sia particolarmente sensibile alie variazioni di tensione. Sia T l'evento "é aw enuta una variazione di tensione", e supponiamo che la probabilitá che C\ si guasti, condizionata a T, sia 0.8. Si calcoli la probabilitá che S si guasti, condizionata a T. c. II sistema S' si é guastato per cause ignote. Sapendo che la probabilitá (a priori) di T é 0.05, si calcoli la probabilitá che T sia awenuto. 2.38. Si determini l'afíidabilitá del sistema schematizzato in figura 3, sapendo che ogni componente ha ugual affidabilitá p:



A 3 -----

A2 K A4

2.39. Un técnico é chiamato in una ditta per intervenire su una macchina che si sta rivelando inaffidabile. Infatti, produce 1 pezzo su 5 difettoso, mentre le altre 3

Capitolo 2: Probabilitá

83

macchine identiche che si trovano in quella ditta producono solo 1 pezzo su 100 difettoso. II técnico entra nella ditta, sceglie una macchina a caso tra ie 4 identiche, osserva un pezzo a caso prodotto da quella macchina, e nota che é difettoso. Qual é la probabilitá che abbia scelto la macchina inafíidabile? 2.40. Tutte le borse dei passeggeri che si imbarcano su un aereo vengono passate al metal detector, alio scopo di individuare eventuali ordigni. E' noto che: la probabilitá che una borsa che contiene una bomba faccia suonare Tallarme é 0.99; la probabilitá che una borsa che non contiene una bomba faccia suonare Tallarme é 0.05; una borsa ogni 5000 contiene una bomba. Sotto queste ipotesi: a. Qual é la frequenza relativa con cui ci aspettiamo che suoni Tallarme? b. Qual é la probabilitá che una borsa che ha fatto suonare Tallarme contenga una bomba? c. Se una borsa ha fatto suonare Tallarme, di quante volte é aumentata la probabilitá che contenga una bomba, rispetto a un momento prima che Tallarme suonasse? d. Se su un aereo si trovano 100 borse, e nessuna ha fatto suonare Tallarme, qual é la probabilitá che a bordo ci sia (almeno) una bomba? Si supponga che i 100 eventi "La borsa t-esima contiene una bomba" (i = 1, 2 , . . . , 100) siano indipendenti. (N.B.; I dati sono inventati; viaggiate pure tranquilli!) 2.41. In una partita a scopa, 40 carte vengono distribuite tra 4 giocatori, 10 a testa. Si calcoli la probabilitá che un giocatore abbia serviti, in una partita: a. almeno un sette; b. due sette (e non di piú); c. due sette (e non di piú), sapendo che ne ha almeno uno; d. il sette di quadri e un altro sette. 2.42. Gli eventi A , B , C sono indipendenti e hanno probabilitá, rispettivamente, 1 /3 ,1 /4 ,1 /3 . Si calcoli

P{{AnB)u{AnC)). 2.43. Un apparecchio é costituito da 5 componenti connessi tra loro secondo lo schema seguente:

Supponiamo che ciascun componente abbia affidabilitá p. a. Si calcoli, in flinzione di p, Taífidabilitá del sistema. b. Si calcoli Taífidabilitá del sistema per p = 0 .8 . c. Supponiamo di poter aggiungere al sistema un ulteriore componente di affidabilitá 0 .8 , alio scopo di aumentare Taífidabilitá del sistema. II sesto pezzo puó essere connesso ai precedenti in qualunque modo, mentre le connessioni tra i precedent! non possono essere cambiate. Come si deve posizionare questo componente affinché l'aífidabilitá del sistema sia la massima possibile? Si disegni lo schema del sistema modifícato nel modo ritenuto migliore, e si motivi la scelta, mediante calcoli o considerazioni teoriche.

Cap. 3. Variabili aleatorie e modelli probabilistici

3.1. Variablli aleatorie discrète Una variabile aleatoria é, come dicono le parole stesse, una quantité che puó assumere valori diversi, in dipendenza da qualche fenómeno casuale. Esempio 1. Se sto giocando alia roulette, e ho puntato 3000 lire sul "rosso", 1000 lire sul "15 ñero" e 2000 lire sul "dispari", la somma che mi verrá consegnata dopo l'uscita del prossimo numero è una variabile aleatoria, ii cui valore puó essere calcolato in modo univoco, in base alie rególe della roulette, in corríspondenza di ogni possibile numero uscito, dallo 0 al 36. In questo caso la variabile aleatoria (v a.) X = "somma che mi viene data all'uscita del prossimo numero" si puó vedere come una funzione defínita sullo spazio campionario Cl costituito dalle 37 caselle della roulette (0,1 rosso, 2 ñero,. . . , 36 rosso), a valori reali. Piú in generale, diamo la seguente: Definizione 2. Se Í7 è uno spazio campionario discreto, si chiama variabile aleatoria discreta una qualunque ftinzione X : fi —> R. Neglí esempi che incontreremo, i valori assunti da una variabile aleatoria discreta saranno spesso numeri interi. In generale potrebbero essere numeri reali qualsiasi; in ogni caso costituiranno una successione poiché lo spazio campionario Í 2 per defínizione è discreto. Di solito, quello che ci intéressa di una v. a. è calcolare la probabilitá che essa assuma certi valori. Nell'esempio precedente, ci puó interessare, ad esempio, calcolare la probabilité di ricevere almeno 6000 lire (cioè quel che ho puntato), in simboli: P {X > 6000). Notazione. In generale, se X è una v a., denotiamo coi simboli (X = a), (a < X < 6), (X € / ) , ecc. gli eventi: "X assume il valore a", "X assume valori compresi tra a e 6", "X assume valori appartenenti all'intervallo I" ecc. (dove o, h sono numeri reali, mentre / é un intervallo, o piú in generale un insieme di numeri reali) Esplicitamente, il símbolo (X € / ) ,

con / Ç R

è una abbreviazione di {w e í) ; X(w) € /} ed è pertanto un sottoinsieme di П, quindi un evento. Con la convenzione di scrittura che abbiamo indicate, lo spazio campionario viene lasciato sottointeso.

86

Capitolo 3: Varíabili aleatoríe e modelli probabilistici

Definízione 3. Chiamiamo iegge di una v.a. l'applicazione che associa ad ogni intervallo / C R il numero P (X 6 / ) = P{u> e ü : X{ ív) E I ). Conoscere la Iegge di una v.a. X significa quindi essere in grado di calcolare P { X e I) per ogni intervallo / C R. Useremo anche il termine distribuzione come sinónimo di Iegge. Defínizione 4. Sia X una v.a. discreta, e siano i valori che essa puó assumere. Si dice densitá (discreta) di X la funzione px che ad ogni valore assunto da X associa la probabilitá che X assuma quel valore: Px(xfc) = P {X = Xfc). una successione di numeri reali positivi che permette di calcolare la probabilitá di qualsiasi evento {X e l ) :

P ( X e /) = Y . P x M I»€/

(1)

Perció conoscere la densitá di una v.a. discreta equivale a conoscerne la Iegge. Se inñniti valori Xk appartengono ad I, quella scritta nella ( 1) non é una sommatoria, ma una serie (a termini positivi). In particolare, P (X e R) = 1 e quindi

Y^PxiXk)

=

1.

( 2)

fe=i Questa proprietá é caratteristica delle densitá discrete, nel senso che: Proposizione 5. Se {p*} é una qualunque successione di numeri reali positivi tale 00

che

= 1. ollora px{h) = Pk si puó considerare la densitá di una v.a.: quella k=\

che, per ogni intero positivo k, assume il valore k con probabilitá pk. Questo significa che, nella pratica, una v.a. viene spesso definita assegnandone la densitá discreta (che, come visto, é suíficiente a calcolare la probabilitá degli eventi che ci interessano), senza esplicitare lo spazio campionario Q "soggiacente". Esempío 6 . Sia X la v.a. che indica la somma dei punteggi di due dadi lanciati. In questo caso, quindi,

Í2 = {(1,1),(1,2),...,(6,6)}

X : f i - ^ R , X : ( h , k ) ^ h + k.

X é una v.a. discreta che puó assumere i valori interi compresi tra 2 e 12, con probabilitá che abbiamo calcolato in precedenza. Possiamo rappresentare quindi il gráfico della .sua densitá discreta:

CapUolo 3: Varíabili aleatoríe a modem probabttistici

87

D e n s ild d isc re ta d e lla v.a. "som m a d e i p u n ti di d u e d a d i"

Come per gli eventi, cosi per le v.a. é fondamentale, in probabilitá, la nozione di indipendenza, che si definisce in modo simile; Defínizione 7. Due v.a. X ,Y si dicono indipendenti se per ogni coppia di intervalli I , J C R , risulta

P { X e l , Y e J ) = P ( X e i ) • P { Y e J). Piu in generale, n v.a. X i , X 2, . . . , X „ si diranno indipendenti se scelti comunque n intervalli 7i C R si ha P ( X i e h , X 2 e h ....... e /„ ) = P{ X, e / , ) • . . . • F (X „ e /„ ).

Esempío 8. Lanciamo due dadi. Sia X il punteggio del primo dado, Y il punteggio del secondo, Z il punteggio totale. Allora X t Y sono indipendenti per ipotesi, in quanto assumiamo che conoscere il punteggio del primo dado non ci dia alcuna indicazione sul punteggio del secondo; invece X t Z non sono indipendenti, perché ad esempio:

P ( X = 1, Z = 12) = 0, mentre P { X = 1) • P { Z = 12) = ^ ¿ 7^ 0. 6 3o O sservazione defínizione di abbiamo dato richiedeva che

9. Indipendenza di n eventi e indipendenza di n v.a. Si confronti la indipendenza di n v.a. con quella di indipendenza di n eventi, che nel Cap.2 . Per l'indipendenza di 3 eventi A , B , C (ad esempio) si fosse

P { A r \ B D C ) = P{ A ) P( B) P( C) , ma anche

P ( A n B ) = P{ A) P{B); P { A n C) = P(A)P(C); P (5 n C) = P(P)P(C). La defínizione di indipendenza di 3 v.a. richiede una sola condizione;

P(X , e / i , X 2 e h , X 3 e h ) = P(X, e 7,)P(A'2 e 72)P(X3 € h). Si osservi, tuttavia, che questa deve valere per ogni scelta degli intervalli Ad esempio, se h — R. I'evento (X 3 € R) diventa l'evento certo, e la relazione precedente si riscrive:

88

Capitolo 3: Varíabili aleatoria e modem probabilistici

P (X , e h , X 2 e h ) = P{X, e h ) P { X 2 e h)Quindi, in reaitá, la condizione ríchiesta dalla defínízione di indipendenza di n v a ríassorbe in sé infinite condizioni, ed é l'esatto análogo della definizione di indipendenza di n eventi.

3.2. II Processo di Bernoulli II concetto di varíabile aleatoria ci permette di formulare modelli utili alio studio di molti fenomeni aleatori. Un primo fondamentale esempio di modello probabilisíico che ora introduciamo, é il processo di Bernoulli. Defínízione 10. Si dice esperimento hernoulliano o prova di Bernoulli un esperimento aleatorio che puó avere solo due esiti possibili, che chiamiamo convenzionalmente "successo" o "insuccesso", con probabilitá p, (1 —p), rispettivamente. p é un numero reale qualsiasi compreso tra 0 e 1, e si dice parametro della prova di Bernoulli. Esem pio 11. II lancio di una moneta é un esperimento bemoulliano, considerando ad es. "successo" l'uscita di "testa" e "insuccesso" l'uscita di "croce". In questo caso il valore ragionevole di p é 0.5. (Si tratta di una nostra valutazione a priori). Esempio 12. Se lancio due dadi e il mió obiettivo é fare 7, posso considerare "successo" reventó "la somma dei punti dei due dadi fa 7" e "insuccesso" l'evento complementare. In questo caso si calcóla che p vale 1/ 6 . Esem pio 13. Se é noto che, mediamente, il 3% dei pezzi prodotti da una certa linea produttiva sono difettosi, il collaudo di un pezzo scelto a caso tra quelli prodotti si puó vedere come un esperimento bemoulliano; se chiamiamo "successo" I'esito "il pezzo é difettoso" (!), si avrá p = 0.03. In questo caso il valore di p non é o w io a priori (come nell'Esempio 11) né si puó calcolare a priori (come nell'Esempio 12); piuttosto, il valore di p si deduce da dati statistici; é la frequenza relativa con cui in passato si é verificato un certo fenómeno. (Si tratta di una nostra valutazione a posteriori). Defínízione 14. Si dice processo di Bernoulli una sequenza di esperimenti di Bernoulli di uguale parametro p, tra loro indipendenti. Per sequenza di prove si intende la ripetizione di un numero finito n di prove oppure l'iterazione indefinita di prove. Le prove sono quindi un numero finito o una successione (infinité numerabile); in quest'ultimo caso, parleremo di processo di Bernoulli illimitato. L'indipendenza significa che, ad esempio, l'evento "alia terza prova si ha successo" é indipendente dall'evento "alia prima prova si ha insuccesso". In pratica, un processo di Bernoulli modellizza una situazione in cui un análogo esperimento Bemoulliano viene ripetuto piú volte con modalitá analoghe, ad esempio: si lanciano 10 volte due dadi, osservando quante volte si ottiene 7; si lancia una moneta finché esce "testa" (in questo caso l'iterazione é potenzialmente infinita: non

Capitolo 3; Variabili aleatoria e modelli probabilistici

89

sappiamo predire entro quanti lanci ció accadrá); si collaudano 100 pezzi prodotti e si registra il numero di pezzi difettosi, ecc.

3.3. Le variabili aleatorie legate al processo di Bernoulli Ci sono vari problemi tipici legati al processo di Bernoulli, per descrivere i quali si introducono alcune variabili aleatorie notevoli.

3.3.1. Processo di Bernoulli con un numero finito di prove Defínizione 15. Consideriamo una singóla prova di Bemoulli di parametro p. La v a. X che vale 1 in caso di successo e 0 in caso di insuccesso si chiama bernoulliana di parametro p, e si scrive X ~ B ( p ) . Sará quindi Pa:(1) = p :

px(0) = l - p .

Oppure, per indicare px con un'unica espressione analitica, scriviamo

Px{t) = p/{l}(í) + (1 - p)/{0}(í), dove il simbolo />i(í) denota la fünzione indicatrice dell'insieme A (in questo caso

/1 = {0} 0>1 = ( 1)): set e A set ^ A. Se abbiamo un processo di Bemoulli di parametro p di n prove, l'esito di ogni prova sará descritta da una v a. di legge B(p): avremo quindi n v a. di uguale legge, B (p), tra loro indipendenti (perché le prove di Bemoulli sono supposte indipendenti). Dette X i , X 2, . . . , X n queste va., l'indipendenza significa che, ad esempio P ( X , = 1 ,^ 2 = 0.X 3 = 1) = P { X , = 1)P{X2 = 0)P(X3 = 1) = = p (l-p )p = p2(l-p). Pió in generale, la probabilitá di ottenere, in n prove, una particolare sequenza di k successi e ( n - k) insuccessi sará p*'(l - p)"~*. Defínizione 16. Consideriamo un processo di Bemoulli di parametro p, di n prove. La v a. X che conta il numero complessivo di successi ottenuti nelle n prove si chiama binomiale di parametri n e p ,e si scrive X ^ B { n , p ) Per quanto osservato prima della definizione, si vede che una binomiale di parametri n ,p è somma di n v.a. bernoulliane di parametro p, tra loro indipendenti (quelle che contano i successi nelle singóle prove). Questo è il primo di una serie di importanti risultati che incontreremo, riguardanti la somma di n v.a. indipendenti e idénticamente distribuite (cioé con la stessa legge). Si noti anche che per n = 1 la binomiale coincide con la bernoulliana.

90

CapHolo 3: Varíabili aleatoria e modelli probabilistici

Proposizione n . Se X ~ B (n , p), X p u ó assumere i valori inferí compresi ira Oen , e ha densitá discreta: Px{k) =

- P )"

= 0 ,1 ,2 ,... ,n .

D im ostrazíone. Se X ~ B{n,p), l'evento { X = k) si realizza quando la sequenza degli n esiti delle prove di Bernoulli contiene k successi e {n - k) insuccessi. Abbiamo osservato poco sopra che la probabilitá di ciascuna sequenza di questo tipo é p ^ (l - p )” ~*. D'altra parte il numero di sequenze diverse di k successi e { n - k) insuccessi é (¿ ) (si veda il Problema 30, nel §2.4.2). Dunque

P(X = *) = (" )p ‘ d - p r *.



Iprossim i grafici mostrano le densita discrete della legge B{8, p), rispettivamente per p = 0 .2 , p = 0.5, p = 0.65. Si noti che per p = 0.5 la densita e simmetrica, mentre negli altri casi e "sbilanciata" verso 0 (se p < 0.5^ o l (se p > 0 .5 /

B ( 8 , 0 .2 )

B (8 ,0 .5 )

B (8 ,0 .6 5 )

91

Capitolo 3: Varíabili aleatoria e modelli probabilistici

O sservazione 18. Abbiamo visto che la somma di n v a. indipendenti di legge B{p) é una v a. di legge B{n,p). Non si dimentichi l'ipotesi essenziale di indipendenza. ad esempio, se sommiamo n copie della stessa v a. X ~ B{p) (e certamente X non é indipendente da se stessa!), troviamo la v a. n X , che vale 0 con probabilitá (1 - p) e n con probabilitá p; non si tratta dunque di una binomiale. Esempio 19. Un test consiste di 10 domande a risposta múltipla: 4 risposte possibili per ogni domanda, di cui una sola esatta. Per superare il test occorre rispondere esattamente ad almeno 8 domande. Che probabilitá c'é di superare il test rispondendo a caso alie domande? Ognuna delle 10 domande é un esperimento di Bernoulli con probabilitá di successo p = 1/4 = 0.25 (perché ci sono 4 risposte possibili e una sola esatta). II test é quindi un processo di Bernoulli di 10 prove, di parametro 0.25, e il numero di risposte esatte é una v a. X ~B (10,0.25). La probabilitá di superare il test é uguale a; 10

^«)=§(

= 1 !)». E' interessante anche calcolare, in ñinzione di p, qual é il minimo n per cui la probabilitá di almeno un successo in n prove é > 0 . 5 . Per esempio, quante volte devo lanciare due dadi perché la probabilitá di ottenere almeno un doppio sei sia > 0 . 5 ? 1 - (35/36)" > 0.5 Risolvendo in n si ha: (36/35)" > 2

n >

log 2 ~ 24.6 log(36/35)

Quindi n = 25 é il piú piccolo numero di tentativi che occorre fare affinché la probabilitá di almeno un successo sia > 0 . 5 . (Difatti, lanciando 24 volte i dadi non eravamo lontani dal valore 0.5). □

3.3.2. Processo di Bernoulli illimitato Defínizione 21 . Consideriamo un processo di Bernoulli di parametro p, illimitato (cioé con sequenza infínita di prove). La v.a. X che conía il numero di prove necessarie per ottenere il primo successo si chiama v.a. geométrica di parametro p, e si scrive X ~ G{ p ) . Proposizione 22. Se X

G{p), la densitá discreta di X é:

Px(*^) = p (l - p)*“ '

p e r fc = 1 , 2 , 3 , . . .

Infatti reventó "il primo successo si verifica alia /c-esima prova" coincide con l'evento "si verifica la sequenza ,0 0 0 ^.. 0 0 , 1" fc - 1 volte (indicando con 0 l'insuccesso e con 1 il successo), e questa sequenza ha proprio probabilitá p (l - p)*~*. □

’ Le due espressioni np e 1 - (1 - p)" assumono valorí numeríci quasi uguali quando p é molto piccolo rispetto ad n. Questa affermazione si puó giustifícare sviluppando la potenza (1 - p)" nella seconda espressione.

Capitok) 3: Varíabili aleatoria e modem probabilistici

93

Questo é il primo esempio che incontriamo di v a. discreta che puó assumere infiniti valori: infatti, fc é un qualunque intero positivo. Si noti, comunque, che la successione dei valori px{k) é decrescente, e tende rápidamente a zero, per cui in realtá solo i primi valori della successione saranno significativi.

D e n s itá d isc re ta d e lla le g g e g e o m é tr ic a di p a r a m e tr o p =

0.3

Se, una volta ottenuto il primo successo, proseguiamo le prove finché otteniamo un secondo successo, la v a. che conta il numero di prove necessarie per ottenere il secondo successo (a partiré dalla prova in cui abbiamo ottenuto il primo), che legge avrá? Un attimo di riflessione mostra che si tratta della stessa legge: infatti, nel calcolare la probabilitá di dover aspettare ancora k prove, a partiré da adesso, il passato non gioca alcun ruolo (per l'indipendenza delle prove). Quindi la legge geométrica conta anche il numero di prove necessarie per ottenere il prossimo successo, a partiré una prova qualsiasi. Talvolta si vuole contare il numero Y di insuccessi prima del primo successo: questa v a. assomiglia molto alia precedente, salvo che i suo valori sono "traslati" di una unitá, ow ero:

py(k) = p{l - p)'‘ per A: = 0 , 1, 2 , . . . Possiamo chiamare ancora legge geométrica di parametro p (traslata) questa legge, e indicarla con G'{p). Defínízíone 23. Consideriamo ancora un processo di Bernoulli illimitato di parametro p. La v a. X che, fissato un intero positivo n, conta il numero di insuccessi che si ottengono prima di ottenere n successi, si chiama binom i^e negativa di parametri — n , p , e si scrive X B{ — n,p). Si puó calcolare; perfc = 0 , 1, 2 , . . .

(3)

Inoltre, per il suo signihcato, si vede che la binomiale negativa B{ - n , p ) è somma di n v.a. indipendenti di legge geométrica (traslata) G'{p). Se ci intéressasse contare il numero Y di prove necessarie per ottenere n successi, basterebbe porre Y = A" + n (il numero di prove è uguale al numero di insuccessi piú il numero di successi), e calcolare

94

Capitolo 3: Varíabili aleatoria e modelli probabilistici

P ( Y = k) = P { X + n = k) = P { X ^ k - n ) =

^ (jb -

~ P)*" ">

= n ,n + l , n + 2 ,...

Esempío 24. Si lancia un dado piú volte, e si conta quante volte esce il 6 . a. Qual é la probabilitá che per ottenere un 6 occorra lanciarlo piú di 6 volte? b. Qual é la probabilitá che per ottenere 10 volte un 6 occorra lanciarlo piú di 60 volte? c. E qual é la probabilitá dello stesso evento considerato in b se ora si sa che, arrivati al 52° lancio, il 6 é giá uscito 9 volte? Si tratta di un processo di Bernoulli di parametro p = 1/6. a. Sia X il numero di lanci necessari per ottenere il primo 6 . X ~ G ( l / 6 ). Si chiede di calcolare

k=7

k=\ ^

b. Sia Y il numero di lanci necessari per ottenere 10 volte un 6 , e Z il numero di "insuccessi" necessari per ottenere 10 volte un 6 . Allora; Z ~ S ( - 10,1/6), y = Z + 10. Perció 50 P { Y > 60) = P ( Z > 50) = 1 - ^ p z ( f c ) = k=0

-

t

r

n

m

c. La probabilitá dell'evento considerato in c é uguate alia probabilitá dell'evento "per ottenere il primo successo occorre lanciare il dado piú di 8 volte". Posto quindi X G ( l / 6 ), occorre calcolare (ragionando come al punto a):



Esem pio 25. U paradosso della scimmia. Supponiamo che una scimmia scriva a caso co n una macchina da scrivere e che ogni tasto abbia la medesima probabilita di essere battuto, indipendentemente da tutte le altre volte. Sia A I'evento "la scimmia prima o

Capitolo 3: Variabili aleatoria e modelli probabilistici

95

poi scriverá I'Amleto". Dimostrare che P{A) = 1, sapendo che I'Amleto ha circa 200000 caratteri e la macchina 100 tasti. Lasciamo lavorare per un po' la scimmia e poi cominciamo ad osservare quello che ha scritto: si presenta come un'unica lunghissima sequenza di caratteri (spazi compresi), nella quale dobbiamo vedere se per caso si trova, a partiré da qualunque punto, una preassegnata sequenza di 200000 caratteri. Possiamo considerare questo come un processo di Bernoulli, al seguente modo. Quando la scimmia batte il primo tasto, ha probabilitá 1/100 di battere il primo carattere dell'Amleto; se fallisce, posso considerare la seconda battuta della scimmia come la prima battuta di un nuovo tentativo; se invece batte il primo carattere giusto, ora ha probabilitá 1/100 di battere il secondo carattere dell'Amleto, e cosí via. Un "tentativo" della scimmia é una sequenza (di lunghezza variabile) di battute, che si conclude o quando la scimmia scrive correttamente I'Amleto, oppure al primo errore; la probabilitá di successo in un "tentativo", per il ragionamento fatto, é 200000

■(¿)

= 10 -400000

Inoltre, é ragionevole supporre che i tentativi siano indipendenti, se la scimmia batte i tasti a caso. Ora il problema é ridotto a dimostrare che:

in un processo di Bernoulli illimitaío di parametro p (con p piccolo quanto si vuole ma diverso da zero) l'evento "il numero di prove necessario per ottenere il primo successo é finito" ha probabilitá 1. Equivalentemente: per ogni p 6 ( 0 , 1), la v.a. di legge G{p) assume solo valori interi (ossia: non vale mai infinito), con probabilitá 1. Sia X ~ G{p). Occorre dimostrare che P { X e N) = 1, ossia 00

^ p x (fc ) = 1 che é vero perché px(h) é una densitá discreta. (A rigore, avremmo dovuto verificarlo quando abbiamo definito la legge G{p)). Verifichiamolo ora: OO

OO

OO

^ P x { k ) = ^ p ( l - p)*'“* = pj]^(l - p)‘‘ = k= \

*=o

)t = l

(é la somma di una serie geométrica) = p

1 - (1 - p)

= 1.



La proprietá che abbiamo appena dímostrato per un genérico processo di Bernoulli illimitato (e che in eífetti ha aspetti paradossali) ha un'importanza che naturalmente va ben oltre quella delle creazioni letterarie delle scimmie. Esempío 26. II problem a del gioco interrotto. Due giocatori, A c B, decidono di giocare una serie di partite eque finché uno di essi non abbia vinto un numero s specificato di partite. A un certo punto del gioco, la situazione é la seguente: A ha vinto a partite e B ne ha vinte b( a, b < s). Qual é, in quel momento, la probabilitá deí due giocatori di vincere il gioco?

96

Capitolo 3: Varíabili aleatoria e modelli probabilistici

(Questo problema, in una formulazione equivalente, si trova citato per la prim a volta da Pacioli nel 1494; viene affrontato da Cardano nel 1539, Tartaglia nel 1556, Forestani nel 1603; é risolto da Pascal nel 1654). Ogni partita é una prova di Bernoulli di parametro 0.5 (questo significa "partita equa"). Nel momento in cui A ha vinto a partite e B ne ha vinte 6, la situazione é la seguente:

A vince il gioco se riesce a vincere (s —a) partite prima che B ne vinca (s — b), ossia prima che A ne perda (s - b). Sia X la v a. "numero di partite che A perde prima di vincerne (s - a)". Per defínizione di Binomiale negativa, si ha f í( - ( s - a ) ,0 .5 ) , e la probabilitá che A vinca il gioco é; 5-6- 1

P (X < 3 -6 )= ^ p x (k ) = it=0 3-a-\-k

(Si osservi che in questo caso p = 1 - p = 0.5). La formula scritta assegna, in ñinzione dei valori s, a, b (che non avevamo specifícato) la probabilitá che A vinca il gioco (la probabilitá che B vinca é quindi il complemento a 1 di questo numero). □ Esempio 27. In una linea produttiva, ogni pezzo prodotto ha la probabilitá 0.03 di essere difettoso, indipendentemente dagli altri. a. Qual é la probabilitá che, su 100 pezzi prodotti, non piú di 3 siano difettosi? b. Un addetto esamina una sequenza di pezzi prodotti. Qual é la probabilitá che il primo pezzo trovato difettoso sia il 15° pezzo ispezionato? c. Qual é la probabilitá che l'addetto trovi 100 pezzi sani prima di tróvame due difettosi? d. Qual é la probabilitá che l'addetto ispezioni esattamente 150 pezzi per tróvame 5 difettosi? La produzione di pezzi in sequenza puó vedersi come un processo di Bernoulli in cui la i-esima prova consiste nell'esaminare l'i-esimo pezzo prodotto. "Successo" significa qui "pezzo difettoso". Per ipotesi sappiamo che ogni prova ha la stessa probabilitá di successo, p = 0.03, e che gli eventi "all't-esima prova si ha successo" sono indipendenti. Per rispondere ai quesiti occorre definiré opportune v a. e riconosceme la legge. a. Sia X = "numero di pezzi difettosi, su 100 prodotti". Per quanto detto.

X ~ B(n, p) con n = 100, p = 0.03. Si chiede di calcolare

P ( X < 3) =

)0.03*^ 0.97'°®-'' ;t-oV ^ /

Capitolo 3: Variabili aleatone a modelli probabiUstici

= 0.97*”® + 100 • 0.03 • 0.97^^ + 100 • 99 • 98 Q

97

• 0.03^ • 0.97^® + Q

^ Q

6 b. Sia Y = "numero di pezzi da ispezionare per trovare il primo pezzo difettoso”. Allora Y ^ G{p) = G(0.03). Si chiede di calcolare

P { Y = 15) = 0.97'^ • 0.03 = 0.0196. c.

Sia Z = "numero di pezzi sani trovati prima di tróvame 2 difettosi" Allora 2,0.03).

Si chiede di calcolare P ( Z = 100) =

~ ^^0.03^ • 0.97'°® = 0.00432.

d. Sia W = "numero di pezzi ispezionati per tróvame 5 difettosi". Allora K = V T - 5 ~ B ( - 5,0.03),

P { W = 150) = P { V = 145) = ^

^ ^ • 0.03^ • 0.97'^^ =

= 0.0058.



3.4. Valore atteso di una variabile aleatoria 3.4.1. La definizione di valore atteso Nel Capitolo 1, abbiamo introdotto il concetto di media campionaria, che consiste semplicemente nella media aritmética di n valori assunti da una variabile (quantitativa); introduciamo ora un concetto in qualche modo simile, che riguarda le variabili aleatorie. Defínízione 28. Si chiama valore atteso, o media, o speranza matemática di una variabile aleatoria discreta X , il numero reale EX = ' ^ X k P x i x k ) ,

(4)

a condizione che la serie scritta converga. In caso contrario si dirá che X non ha valore atteso finito.

98

Capitolo 3: Varíabili aleatoríe e modelli probabilistici

La (4) è una somma finita o una sene, a seconda che X assuma un numero finito o una successione di valorí; notare che mentre sappiamo giá che la serie a termini positivi

converge e ha somma 1, nella (4) le probabilitá pxi ^k) sono moltiplicate per i valori Xk assunti da X (che possono essere numen reali di segno e grandezza qualunque): questo é il motivo per cui non é scontata la convergenza della serie. Se X é una v a. che assume solo un numero finito N di valori, equiprobabili (quindi di probabiliá 1 / N ciascuno), E X sará semplicemente la media aritmética dei valori assunti: N

k^\

1

1

■ TV =

^

■“ k^l

Se i valori assunti da X non sono equiprobabili, la (4) si puó vedere come una "media pesata" dei valorí assunti da X , in cui i valorí piú probabili pesano di piú. II valore atteso di X é quindi un numero che indica "dove é centrata X", attomo a quale valore "c¡ aspettiamo" che cadano i valorí di X , e cosí via. Naturalmente, come la media aritmética di n numerí puó non coincidere con nessuno di essi, cosí il valore atteso di X potrebbe non essere un valore effettivamente assunto da X (in questo senso non é corretto dire che é il valore piú probabile). Esempio 29. a. Se X é il punteggio di un dado, E X = 3.5 (media aritmética dei valori assunti; infatti i 6 valorí sono equiprobabili). b. Se X é la somma dei punteggi di due dadi, sfhittando il calcólo della densitá discreta di X fatto in precedenza, possiamo calcolare 12

E X = ¿ f c p x ( f c ) = 2 - ^ + 3 - ^ + 4 - ^ + ... + k=2

6 5 1 + 7 — + 8 — +... + 1 2 — =7. 36 36 36

Esempio 30. (Prezzo equo per partecípare a un gioco d'azzardo). In una lottería nazionale sono in palio i seguenti premi; 1° premio; 3 miliardi; 2° premio; 2 núliardi; 3“ premio; 1 miliardo; 5 premi da 100 milioni; 20 premi da 10 milioni 100 premi da un milione. Se vengono venduti 2 milioni di biglietti, qual é il valore atteso della vincita, per chi acquista un biglietto? Se il biglietto costa 5000 lire, conviene partecípare alia lottería?

Capitolo 3: Varíabili aleatoria в modelli probabilistici

99

Sia X la v.a. "denaro vinto con il biglietto che ho acquistato". La densità discreta di X è raffigurata nella tabella;

Xk 3 miliardi 2 miliardi 1 miliardo 100 milioni 10 milioni 1 milione

Px(Xk) 1/(2 milioni) 1/(2 milioni) 1/(2 milioni) 5/(2 milioni) 20/(2 milioni) 100/(2 milioni)

Quindi

E X = 3000000000

1 2 000000

+

2000000000 -

1 + 2000000

...

=

= 1500 + 1000 + 500 + 250 + 100 + 50 = 3400. II valore atteso della vincita, con un biglietto, é di £3400. Poiché il prezzo del biglietto é di £5 000 , il gioco é iniquo, a sfavore di chi compra biglietti. □ L'esempio precedente mostra una tipica applicazione del concetto di valore atteso, che é anche un modo per interpretare il signifícato del concetto di valore atteso. Sia X una v.a., e consideríamo un gioco d'azzardo in cui si paga una somma físsa s per partecipare, e si riceve una vincita varíabile X . II numero E X si puó pensare come il valore da assegnare ad s affinché il gioco sia equo. Nell'esempio precedente, 3 400 £ sarebbe il prezzo equo del biglietto della lotteria, ow ero il prezzo che rende la lotteria equa. Se s > E X , il gioco é iniquo a favore del "banco", se s < E X il gioco é iniquo a favore del giocatore. Esempío 31. (Polizze d'assicurazione). Una polizza d'assicurazione puó vedersi come un gioco d'azzardo, in cui l'assicurato paga un premio annuo s físso, per ricevere dalla compagnia d'assicurazione una somma aleatoria X (che dipende dal verifícarsi o meno dell'evento contro cui ci si assicura). La compagnia d'assicurazione deve quindi calcolare E X (in base a dati statistici e/o modelli probabilistici relativi al tipo di fenómeno in esame), dopo di che, per garantirsi, mediamente, un guadagno, fisserá il premio 3 superiore (poco o tanto) al valore EX. ^

3.4.2. Le propriété del valore atteso Vediamo ora alcuni teoremi che contengono proprietá del valore atieso. Anche se non li dimostreremo, è importante capire moho bene cosa affermano. Anzitutto, si verifica subito dalla definizione che: Proposizione 32. Se X è una v.a. discreta di valore atteso finito, e a, b sono numeri reali.

^ Assicurandoci, noi accettiamo quindi di giocare a un gioco d'azzardo in iq u o a n o stro sfa v o re , il motivo di ció é che preferiamo la certezza di un piccolo danno all'eventualitá di un danno catastrófico Quest'ultima considerazione esula peró dal concetto di g io c o e q u o

100

Capitolo 3: Variabili aleatoria e modem probabilistici

E{aX + b) = a(E X ) + 6. In pari ¡colare, il valore atieso di una costante (cioé della v.a. che assume un solo valore con probabilitá l) é la costante siessa. Vale anche la seguente propríetá, molto piú generale: Teorema 33. (Línearítá del valore atieso). Se X \ , X 2,... , X ^ sono n v.a. qualsiasi, con valore atieso finito, allora E ( A - , + X 2 + ... +A -„) = E X , + E X j + . . . E X „ . Si confronti questo enunciate col prossimo: Teorema 34. Se X \ , X 2y - , X n sono n v.a. indipendenti, con valore atieso finito, allora

E { X xX2 •. . . ■Xn) = EXi • EXa •. . . • EX^. Si osservi che qui é ríchiesta Xindipendenza delle v.a.; si noti anche l'analogia tra la formula precedente e la defínizione di indipendenza di n eventi o n v.a. Consideriamo ora il seguente problema. Sia / : R —>R una funzione, X una v a., e consideríamo la nuova v.a. /( X ) . Ad esempio se / ( t ) = í^, / ( X ) é la v.a. X^. Come potremmo calcolare il valore atteso di /(X ) ? In base alia defínizione, dovremmo prima calcolare la densitá di /( X ) , e poi calcolare: E /(^ ) = ^ykPf(X)iyk), k dove yk sono i valori assunti dalla v.a. /( X ) . Ora, il calcólo della densitá di una funzione di una v.a. puó presentare, in generale, notevoli difficoltá. Perció é utile il seguente; Teorema 35. (Valore atteso di una funzione di una v.a.). Sia X una v.a. e / : R —►R una funzione (continua). A llora il valore atteso di / ( X ) si puó calcolare c o s í:

E /(X ) = ' ^ f ( x k ) p x { x k ) ,

purché la serie scriíta converga. L'utilitá della formula precedente é che non richiede la conoscenza della densitá di /( X ) , ma solo di quella di X. Esempio 36. Sia X la somma dei punteggi di 2 dadi, Y il quadrato del punteggio di un dado, Z il prodotto dei punteggi di due dadi. Si calcoli il valore atteso di queste v.a. Siano X i , X 2 i punteggi di due dadi diversi. La v.a. X puó scriversi come somma X \ + X 2, perció E X = EX i + EX 2, per il Teorema 33. Abbiamo calcolato (Esempio 29a) che il valore atteso del punteggio di un dado é 3.5, perció E X = 7. Riotteniamo quindi, in modo piú semplice, il risultato dell'Esempio 29b. La v a. Y puó scriversi come X \, perció (per il Teorema 35, o per defínizione)

101

CapUolo 3: Variabili aleatoria e modem probabilistici

1

1

1

E Y = E (X ?) = 1* . + 2 ^ '* ' 6 6 +3'^ . 6 +■■■ + 6 “ ■Í6

6 = 15.16.

La v.a. Z puo scriversi come prodotto X 1X 2, con X i.X o come sopra. Poiché ríteníamo che gli esiti di due dadi diversi siano indipendenti, possiamo scrívere, per il Teorema 34, E Z = E { X xX 2) = EXi ■E X 2 = 3.5^ = 12.25. E' interessante osservare i valori diversi ottenuti per E Y e EZ: infatti, entrambe le v.a, Y yZ eprimono il prodotto dei punteggi di due dadi, ma per Z si tratta di due dadi diversi (quindi Z é prodotto di due v.a. indipendenti), per Y sí tratta delio stesso dado contato due volte (quindi Y é prodotto di due v.a. non indipendenti). II valore atteso del prodotto risente di questa dífTerenza. □

3.4.3. Calcólo del valore atteso per le v.a. legate al processo di Bernoulli e applicazioni Calcoliamo ora il valore atteso per le v.a. notevoli che abbiamo incontrato fínora. Per il calcólo, utilizzeremo la defmizione di valore atteso, oppure qualcuna delle sue proprietá, enunciate nel parágrafo precedente. Sia X i ~ B{p). Allora (xrc VA BTRNOUUi'

E ^ ^ = 1 • p + 0 • (1 - p ) = p .

11 valore atteso di una bemoulliana coincide col suo parametro. Sia X ~ B (n , p). Allora succeof^

VA . it=0 Questa sommatoria é un po' complicata da calcolare direttamente^; possiamo pero sfhittare il fatto che X puó vedersi come somma di n v.a bemoulliane di parametro p:

X = Xi+X2

+Xry

conX,~B(p),

perció, per la linearitá del valore atteso (Teorema 33), E fr]= ¿ E X i = 1^ . 1=1

2 ® /MQpt?

Esempio 37. (Continuazione deli'Esempio 19). In un test di 10 domande, ciascuna aventi 4 risposte possibili, di cui una sola esatta, uno studente risponde a caso alie domande. Qual é il numero atteso di risposte esatte?

X ~ B (10,0.25); 'll b. '

^

10 • 0.25 = 2.5.

m í e 1 (ogni tentativo dura almeno una battuta). Concludendo; per scrivere l'Amleto, la scimmia deve fare in media "tentativi"; ogni tentativo consiste almeno di una battuta, e quindi il numero medio di battute é almeno JQ400000. gg supponiamo ad esempio che la scimmia esegua 10 battute al secondo, troviamo che il tempo medio di attesa, espresso in secondi, é un numero maggiore o uguale a 1^400000

_ ,«399999 ■

10



il che é decisamente scoraggiante (come é giusto che sia)



Sia Z ~ ossia Z é una v a. geométrica "traslata", e rappresenta il numero di insuccessi prima del primo successo, in un processo di Bernoulli illimitato Allora Z = Y - \ , con F ~ G{p) (perché F rappresenta il numero di prove necessarie per ottenere il primo successo), quindi

1 P

1~ P P

E Z = E F - 1 = - - 1 = -----

Sia VF ~ —n, p). Abbiamo visto che, per il suo significato, una v a. binomiale negativa si puó scrivere come somma di n v a. geometriche traslate:

W = Z\

Z2

■ + Zn

con Z, ~ G'(p), perció per linearitá del valore atteso

EW =

Riassunúamo: il valore atteso delle v.a. legate al processo di Bernoulli é: X -B (p )^ = p ; I ' X ~ B{n, p) E ^ = np;

X ~ C (p) ^ ] = i l P 1-p ' X G\p) EX = P X ~ B { - n , p ) EX = n ( i - p )

^ l'e t á

II

te m p o

d 'a tie s a

d e ll'iin iv e r s o

é

c a lc o la lo

s tim a ta

é

d e ll'o r d in e

d e ll'o r d in e

d i

d i

g ra n d e z z a

g ra n d e z z a

d i

1 0 ^ ^

d i a n n i!

anni,

p e r

c o n fr o n to ,

s i

r ic o r d i

c h e

104

Capitolo 3: Variabili aleatoria e modem probabilistici

Esem pio 39. (11 collezionista di fîgurine). Calcolare il numero medio di figurine da comperare per completare una raccolta di n figurine (si assume che queste siano vendute in pacchetti da una sola figurina, e siano tutte equiprobabili). Supponiamo di avere giá k figurine diverse tra loro (oltre a un numero imprecisato di "doppie") e di essere alia ricerca della (fc + l)-esima figurina intéressante (0 < k < n - l). Ad ogni acquisto di una figurina, la probabilitá di tróvame una buona è n° di figurine mancanti _ n - k n° totale di figurine

n

e la sequenza di acquisti è un processo di Bernoulli di parametro p = {n — k ) / n (W parametro non cambia finché non trovo una figurina buona). Sia Xk il numero di figurine che occorre comprare per trovarla. Allora Xk ~ G ( ^ ) . Quando trovo la (A: + l)-esima buona, mi metto a cercare la (A; + 2)-esima, e occorreranno Xk+¡ acquisti, ecc. In tutto il numero di figurine da aquistare è n- 1

k=0

n-1 n-1 E x = 5 :E jf^ = ^ — k=0 fc=o”

n -• ^

k= l

Un esempio numérico: se n = 100, E X = 518.7. Occorrerá quindi, in media, comprare almeno 519 figurine. □

Esercizi 3.1. Dimostrare che la legge B { —n, p) ha eñettivamente densitá data dalla (3). Suggerimento: ragionare in modo simile a quello visto per la legge binomiale, determinando; 1. II tipo di sequenza che realizza l'evento (X = A:); 2 . La probabilitá di una singóla sequenza di questo tipo; 3 II numero di sequenze di questo tipo. 3.2. Una macchina per confezionare generi alimentari riempie meno del dovuto il 10% delle confezioni. Calcolare la probabilitá che su 5 confezioni il numero di quelle sottopeso sia; (a) esattamente 3; (b) esattamente 2; (c) zero; (d) almeno 1. 3.3. Calcolare (esplicitamente) la densitá discreta della legge binomiale B (5 ,0 .1 5 ) (arrotondando a 4 decimali le probabilitá). 3.4. In una linea produttiva la frequenza relativa con cui sono prodotti pezzi difettosi é 0 .2 . Consideriamo 10 pezzi prodotti consecutivamente. a. Qual é la probabilitá che tra questi ce ne siano esattamente 4 difettosi? b. Qual é il numero medio di pezzi difettosi prodotti? c. Qual é la probabilitá che il numero di pezzi difettosi non superi il numero medio di pezzi difettosi? d. Si vogliono ora modificare le modalitá produttive in modo che, con probabilitá del

Capitolo 3. Varíabili aleatoria в modelli probabilistici

105

95%, il numero di pezzi difettosi su ogni 10 prodotti non sia piú di uno. Qual é il massimo numero ammissibile per p? e. (Supponiamo di nuovo p = 0.2). Se la produzione continua finché non si sono ottenuti 10 pezzi non difettosi, qual é il numero medio di pezzi difettosi che saranno prodotti? E il numero totale di pezzi? 3.5. Indicare, per ciascuna delle seguenti situazioni, se le ipotesi del modello bernoulliano sono soddisfatte. Consideriamo la produzione industríale di pezzi che possono essere o non essere entro prefíssati limiti di tolleranza. a. Per evitare la noia, un opéralo al tomio passa, di tanto in tanto, da tipi di lavori "facili" ad altrí "difficili". b. Un altro opéralo lavora con un solo tipo di articolo, ma diventa moho trascurato dopo pranzo e poco prima dell'ora di uscita. c. Ogni macchinista neU'impianto verifica le dimensioni dei pezzi prodotti, e diventa piú attento se trova un pezzo fliori dai limiti di tolleranza. d Alcuni apparecchi hanno una taratura automática che gradualmente si allontana dal valore desiderato. 3.6. Se lando 2 dadi la probabilitá di fare 12 é 1/36: dunque mi aspetto che in 36 land esca un 12. Qual é la probabilitá che ció accada? Qual é il mínimo numero di land da fare affmché la probabilitá di uscita di un 12 sia almeno 0.5? 3.7. Un ispettore per il controllo di qualitá rífiuta una partita di schede a circuit! stampati se in un campione di 20 schede sottoposte a test vengono trovati 3 o piú pezzi difettosi. Determinare il numero atteso di pezzi difettosi e la probabilitá di rífiutare una partita se la proporzione di pezzi difettosi nell'intera partita é; (a) 0 .01 ; (A) 0.05; (c) 0 . 1; (í^ 0 .2 . 3.8. Un centralino telefónico é occupato per il 95% del tempo, per cui si puó rítenere che, telefonando in un istante a caso, la probabilitá di trovare la linea libera sia p = 0.05. Qual é il numero atteso di tentativi da fare per trovare la linea libera? E qual é il mínimo numero di tentativi da fare perché la probabilitá di trovare libera la linea sia piú del 50%? Se le ipotesi del modello utilizzato sono vere, c'é differenza tra fare i tentativi tutti di seguito o a intervalli di tempo? 3.9. Due giocatorí A, В dispongono di un'urna contenente r palline rosse e b palline bianche. Essi giocano una successione di partite, ciascuna delle quali consiste in un'estrazione (con rímessa) eseguita da Л e in un'analoga operazione eseguita da В . II gioco si arresta quando una partita dá rísultati diversi per i due giocatorí: vince allora il giocatore che in quella partita abbia estratto una pallina rossa. a. Calcolare la probabilitá p che in una singóla partita i giocatorí ottengano risultati diversi. b. Detto N il numero di partite dispútate perché il gioco abbia termine, si determini la legge d\ N e \\ suo valore atteso. Si tratta di una legge nota? c. A a В decidono di giocare 3 "giochi" consecutivi (dove per "gioco" si intende una sequenza di partite come nei punti precedent!). Si determini la densitá discreta della v a. M che conta il numero di partite da disputare (complessivamente) per concludere 3 giochi. 3. 10. Verificare, utilizzando le densitá discrete di queste v a., che le leggi B{p),

B{n, p) soddisfano la condizione YiPx{k) = 1. к 3.11. Un satellite é aliméntalo da 3 batteríe solari, che sono esposte al rischio di danneggiarsi in seguito a collisione con micrometeoriti. Solo una celia per volta é attiva, ed é esposta al rischio. Se questa viene danneggiata, la seconda entra in fiinzione al suo posto, e cosí via. Quando tutte e 3 le batteríe sono danneggiate, il

106

Capitolo 3: Varíabili aleatoria e modelli probabilistici

satellite é morto. Se ogni giomo la probabilitá di collisione é 0.05, qual é il numero atteso di giomi di vita del satellite? Qual é la probabilitá che il satellite soprawiva almeno 90 giomi? Per aumentare questa probabilitá, é meglio aggiungere una quarta batteria idéntica o manteneme 3 ma ridurre a 0.03, con opportune protezioni, la probabilitá quotidiana di danneggiamento? 3.12. a. Si considerí un esperimento aleatorio che ha i tre possibili esiti 1,2, X , di probabilitá a,b,c rispettivamente, e si considerí il gioco che consiste in una successione di esperímenti aleatorí di questo tipo, indipendenti. Appena esce un " 1" il giocatore vince; appena esce un "2" il giocatore perde; se esce "X" continua a giocare. Si dimostrí che la probabilitá di vittoría e a/ (a + b). b. Due giocatorí, A o B , s\ sfidano nel seguente gioco a dadi. I due giocatori lanciano, a tumo, un dado. A vince se ottiene 5 o 6, B vince se ottiene un numero parí; il giocatore A lancia per primo. II gioco é equo? (Suggerímento: sfhittare anche il rísultato citato al punto a).

3.5. Campionamento, campione casuale, prime nozíoni di statistica inferenziale In questo parágrafo introdurremo le prime nozioni di statistica inferenziale. Anche se lo studio dei problemi specifíci della statistica sará condotto nel Cap. 4, si vuole fin da ora presentare il linguaggio e il punto di vista statistico nello studio dei modelli probabilistici.

3.5.1. Campionamento, campione casuale, modelli statistici Consideríamo il seguente problema. Una macchina produce in serie componenti meccanici di dimensioni specifícate. Naturalmente, la macchina sará soggetta a piccole imprecisioni casuali, che faranno oscillare le dimensioni reali dei pezzi prodotti. Ció che conta é che esse pero si mantengano entro dei prefissati limiti di tolleranza. Al di íliori di questi limiti, il pezzo é inutilizzabile. Si pone dunque un problema di controllo di qualitá. II produttore, ad esempio, deve essere in grado di garantiré al cliente che, su un lotto di 1000 pezzi, poniamo, solo una frazione massima dello 0.5% sia costituito da pezzi difettosi. Per far ció, occorre anzitutto stimare qual é, attualmente, la frazione di pezzi difettosi prodotti, per intervenire sulla macchina, qualora questa frazione non ríentrasse entro i limiti desiderati. Modellizziamo la situazione. Supponiamo che per ogni pezzo che la macchina produce, ci sia una piccola probabilitá p che il pezzo rísulti difettoso, e che questo parametro p sia costante (ad esempio, la macchina non ha maggiore "difettositá" in certe ore del giomo). Supponiamo pure che il fatto che un pezzo sia difettoso non renda né piú né meno probabile che il pezzo successivo lo sia. Sotto queste ipotesi (ossia nei limiti in cui queste ipotesi sono ragionevoli) il fenómeno in esame puó essere rappresentato come un processo di Bernoulli di parametro p. Se pensiamo all'esperimento aleatorio "prendi un pezzo a caso tra quelli prodotti e controlla se é difettoso", la v a. che vale 1 se la risposta é "si, é difettoso" e 0 altrimenti, ha legge B (p). II punto fondamentale é che il parametro p é l'incognita del problema.

Capitok) 3: Varíabili aleatoria e modem probabilistici

107

Abbiamo una popolazione (in questo caso illimitata), quella deí pezzi via via prodotti; questa popolazione é distribuita secondo una legge di tipo noto, B{p), ma contenente un parametro incognito: p. Per stimare il valore vero del parametro p, il modo naturale di procederé é estrarre un campione casuale dalla popolazione: scegliamo a caso n pezzi prodotti, e guardiamo se sono difettosi. L'esito di questa ispezione é descritto da una n-upla di v a. X | , X 2, . . . , (X , = 1 l'i-esimo pezzo é difettoso). Naturalmente X , ~ B{p) e le X¿ sono indipendenti, per le ipotesi fatte. Fissiamo ora le idee emerse da questo esempio in qualche defmizione di carattere generale. Defínizíone 40. Un modello statistico é una famiglia di leggi di v a., dipendenti da uno o piú parametrí incogniti;

{Px(^;É) indica un vettore di parametri, quindi uno o piú parametrí, che variano in un insieme / di R o R ^ ). Un campione casuale di ampiezza n estratto da una popolazione di densitá pxix't'O) é una n-upla di va. indipendenti e idénticamente distríbuite, ( X i , X 2, . . . , X „ ), ciascuna avente legge px (x ; ¿ ) . Prima di procederé oltre nell'esempio del controllo di qualitá, illustríamo le defínizioni generali che abbiamo dato. Pensiamo di avere una popolazione, su cui si vuole osservare una certa variabile. La popolazione puó essere fin ita (es.: gli elettorí italiani, in un giomo specificato) o illimitata (es.; la popolazione delie ripetizioni indefinite di una prova di Bernoulli, come la produzione di un pezzo difettoso o no, nell'esempio precedente). Nel caso di una popolazione finita, composta da N individui, la legge p x ( ^ ;^ ) rappresenta la frequenza relativa con cui, sugli individui della popolazione, la variabile X assume il valore x. Pensiamo ora di estrarre a caso un individuo della popolazione (in modo che tutti gli individui abbiano la stessa probabilitá 1 /N di essere scelti): la variabile X assumerá il valore x con probabilitá px{x\Ú.) Se scegliamo n individui, eseguendo un'estrazione "con reimmissione", ossia tale che ad ogni estrazione ogni individuo puó essere scelto (e quindi le n scelte sono indipendenti) avremo proprio n v a. indipendenti e idénticamente distríbuite, ciascuna di legge p x ( ^ ;¿ ) Questo spiega la definizione data di campione casuale: nel caso di una popolazione finita, un "campione casuale" (nel senso della definizione) é proprio un campione "scelto a caso", con estrazioni con reimmissione ed individui equiprobabili. Invece, nel caso della popolazione illimitata, non ha senso parlare di estrazione tra infiniti oggetti (si pensi all'esempio dei pezzi prodotti, che sono solo potenzialmente infiniti); pero, se le modalitá con cui eífettuiamo la scelta di n individui sono tali da farci rítenere le scelte indipendenti e rappresentative della distríbuzione della popolazione complessiva, parleremo ancora di campione casuale.

Riassumendo: II problema fondamentale della statistica inferenziale é quello di scopríre la vera distríbuzione della popolazione, a partiré dalle informazioni contenute in un campione casuale estratto da essa. Spesso la natura del problema ci consente di formulare un modello statistico, per cui la distríbuzione della popolazione non é completamente incognita, ma piuttosto é di un tipo noto, ma ha parametri incogniti. Quindi il primo problema della statistica inferenziale é quello di stimare il valore vero del parametro

108

Capitolo 3: Varíabili aleatoria e modelli probabilistici

(o dei parametri) a partiré dal campione casuale. Questa operazione prende il nome di stim a puntúale dei param etri} O sservazione 41. C am pionam ento di una popolazione finita. Fermiamoci un momento a riflettere su come si potrebbe realizzare efFettivamente l'estrazione di un campione casuale da una popolazione finita. La cosa é meno scontata di quanto sembri; come faremmo, ad esempio, a estrarre un campione casuale di 100 abitanti di una cittá, da intervistare su un certo tema? Per soddisfare i requisiti della defínizione di "campione casuale" sono essenziali i seguenti passi; 1. Definiré con precisione la popolazione obiettivo dell'indagine. Nell'esempio in esame, l'insieme degli "abitanti della cittá" é definito in modo un po' vago: consideriamo solo i resident! o anche chi transita per la cittá? Consideriamo le persone in quale fascia di etá? Ecc. 2 . Associare (biunivocamente) un numero da 1 a agli individui della popolazione cosí definita. 3. Estrarre, "con reimmissione", n numeri da 1 a N (ad esempio, utilizzando un computer per generare numeri casuali), e selezionare gli individui corrispondenti; se un numero é estratto due volte, l'osservazione fatta sull'individuo corrispondente sará contata due volte. Senza addentrarcí in ulterior! dettagli, si noti comunque che la messa a punto di un procedimento di selezione del campione é un'operazione delicata e importante per la validitá delle conclusioni che sí vogliono trarre dal campionamento: un campione casuale é tutt'altro che un insieme di individui "sceití a casaccio"

3.5.2. Stima di parametri, stimatori Tomiamo ora all'esempio del controllo di qualitá. II nostro obiettivo é stimare il parametro p delia popolazione bemoulliana da cui estraiamo un campione casuale (X i Xn). Si rícordi che, essendo X{ ~ B{p), EÍ^ü = p (per i = 1, 2 , . . . , n ) ossía il "valore vero" del parametro p coincide con il valore atteso delle v a. X{. Siano ora (xi , X 2, . . . ,Xn) i valori effettivameníe osservati sul campione casuale. Si noti la differenza; prima di eseguire il campionamento, "campione casuale" é una n-upla di v a., ( X i , . ^ 2, . . . , X „); dopo aver eseguito il campionamento, cioé l’estrazione degli n individui, le n v a . assumono valori numeric! ( x i , z 2, . . . ,Xn) Tenendo presente l'analogia tra media campíonaria di n numeri e valore atteso di una v a., é naturale scegliere x„ come stima del valore di p. Scriveremo: p = Xn per indicare che il valore stimato di p é il valore (numérico!) della media campíonaria. Naturalmente, potremmo essere stati sfortunati, e aver selezionato, per caso, un campione di pezzí su cui la media campíonaria x„ é lontana dal valore vero del parametro p. Per ora, a conforto della scelta fatta, possiamo osservare che se ^ Puó anche accadere che la dísthbuzione della popolazione sia c o m p le ta m e n te incognita. In questo caso occorre detenninare non un parametro, ma una iunzione: la densitá. Si chiamano m e to d i n o n p a ra m e tric i i metodi statistici volti a questo scopo. Di questa blanca della statistics inferenziale non ci occuperemo in questo corso. ^ Per cogliere bene la differenza tra questi due concetti, che sará fondamentale nel seguito, si pensi anche al seguente esempio. Gli stessi 10 biglietti di una lottería sono oggetti ben diversi p r im a e d o p o l'estrazione dei biglietti vincenti: p r im a sono "possibilitá di vincere una cifra varíabile", d o p o sono una somma di denaro oppure carta straccia

CapHolo 3: Varíabili aleatoria e modelli probabilistici

109

consideríamo la vañabile aleatoria "media campionaria" ^

abbiamo: e :a :„

=

e

( - Y

x

^] =

= ^ n p = p,

ossia; /7 valore atieso della v.a. é /7 va/ore vero del parametro p. Questo é il motivo (o meglio, é un motivo) per cui scegliamo il valore x„, calcolato dopo il campionamento, come stima del parametro p. Per quanto la sfortuna possa giocare a nostro sfavore, é ragionevole aspettarsi che la media x„ risenta tanto meno delle oscillazioni casuali, quanto piú grande é n Quest'ultimo fatto sará motivato in modo rigoroso nel prossimo parágrafo. Per ora, físsiamo ancora qualche defínizione generale; Definizione 42. Sia ( X i , X 2, . . . , un campione casuale di ampiezza n estratto da una popolazione di legge p x ( x , ^ ) . Si chiama juna qualsiasi v.a. T che sia funzione del campione casuale. ossia T = f { X i , X 2 , . . . , X n ) (con / : R" —♦ R íunzione continua). Si chiama \^m a to re[ del parametro ■0 una statistica che viene usata per stimare il valore del parametro r?. II valore numérico 1? = / ( x i , X 2, . . . ,x„), calcolato a campionamento eseguito, viene dettofslimd del parametro ■0. Uno stimatore T di 1? si dice \co rretÍo ^ non d isto rt^ se = ‘d , altrimenti si dice Esempío 43. Se { X \ , X 2,... , Xn) é un campione casuale estratto da una popolazione di legge B ( p ) , T = é una statistica. Infatti, defínendo / : R" —> R come /(Xi,X2,...,Xn) =

1 " - Y ^ t T i *'

^

t= 1

si ha r = / ( X , , X 2, . . . , X „ ) . Questa statistica é uno stimatore non distorto di p, perché risulta Anche ¿ X .; i=l

Y X I,

= p.

(X ,+X „-3)

¿=1

sono statistiche, anche se a nessuno verrebbe in mente di usarli come stimatori di p. Invece, ad esempio, p X j + (1 - p)X 2

Si noti che numero.

p r im a

di eseguire il campionamento, questa media campionaria é una v.a., non un

110

Capitolo 3: Varíabili aleatoria e modem probabilistici

non è una statistica, perché non dípende solo dal campione ( X i , X 2, . . . , X „ ) , ma anche da p (che, si rícordi, è incognito). Ricapitoliamo. Per stimare il "valore vero" del parametro incógnito di una distríbuzione a partiré da un campione casuale, si costruisce un opportuno síimaíore T , ossia una v a. che é funzione del campione casuale. A campionamento eseguito, il valore assunto da T viene preso come stima del valore del parametro incógnito, ü n primo criterio visto per valutare la bontá di uno stimatore é la correttezza, espressa dalla relazione E ^ = t9. Nel §3.6.2 ne vedremo un altro e, nello studio delle distribuzioni notevoli che incontreremo, individueremo volta per volta degii stimatori "naturali" dei parametrí incogniti.

3.6. Varíanza e covaríanza di varíabili aleatoria 3.6.1. Varianza Defínizione 44. Sia X una v a. discreta avente valore atteso finito. Si defínisce varianza di X il numero VarX = E ( ( A ' - EX )2), purché questo valore atteso sia fínito. Altrimenti diremo che X non ha varianza finita. Si noti l'analogia tra il concetto di varianza di una v.a. e quello di varianza campionaria, introdotta nel Capitolo 1

Varianza campionaria

Varianza

Si considera una n-upla di numeri ( x j , X2, . . . , x„);

Si considera una variabile aleatoria X ,

si calcóla la media campionaria x„;

si calcóla il valore atteso E X ,

si considera la nuova n-upla: ((xi - X n ) ^ , . . . , ( x „ - x „ ) 2);

si considera la nuova v.a.: (X-EXf-

si calcóla la media campionaria della nuova n-upla e si trova la varianza campionaria:

si calcóla il valore atteso della nuova v.a. e si trova la varianza:

i ¿ ( X f c -Xn)^ k=\

E((A' - EX)2)

In base all'analogia, la varianza di una v.a. rappresenterá una misura della sua dispersione rispetto al valore E ^ i su cui é "centrata". Proposizione 45. (P roprietá della varianza). Sia X una v.a. discreta dotata di varianza finita. A llora:

Capitolo 3: Varíabili aleatoria e modelli probabilistici

1. 2. 3. 4.

111

V a rX ^ O VarX = E ( X ^ ) - ( E X f Var(c) = O per ogni costante c V ar(aX + b) = a^WarX per ogni coppia di costanti a, 6 e R

5. V arX =

- E X f p x M = Í E 4 pxM )

~ (EXf.

6 . Se X i , X 2...... X„ sono v.a. indipendenti, allora V ar(X , + X 2 + ... + X „) = VarX, + VarX 2 + ... + VarX„.

Dim ostrazione. La (1) é ow ia dalla defínizione; la (2) si dimostra sviluppando il quadrato (X —EX )^, e poi calcolandone il valore atieso, sfhittando la linearítá di questo; E ((X - E X f ) = E(X ^ - 2X • E X + (EX)^) = = E ( x 2) - 2 e x • e x + (EX)^ = E(X ^) - (E X )^ La (3) é o w ia perché se X = c, X —E X = 0. La (4) segue dalla linearítá del valore atieso: ((a X + 6) - E (aX + b ) f = (aX - aEX )^ = a^ ( X - E X f , e prendendo il valore atieso di ambo i membrí si ha la (4). La (5) segue dal teorema sul calcólo del valore atieso di una funzione di una v.a.; se poniamo

f{t) = {t — EX)^, vediamo che V arX = E ( /(X )) =

- E X ) V ;t( it) .

k

k

La seconda uguaglianza della (S) segue da questo stesso ragionamento, usando anche la (2), giá dimostrata. Rimandiamo la dimostrazione della ( 6) al parágrafo sulla covarlanza (v. §3.6.3). □ O sservazione 46. L'ipotesi di indipendenza delle v.a. é necessaría per poter calculare la varíanza della somma come somma delle varíanze. Si considerí infatti questo esempio: V ar(X + X ) = Var(2X ) = 4VarX, per il punto (4) della Proposizione 45; invece se valesse l'additivitá, si dovrebbe ottenere 2VarX. II punto é che X non é indipendente da se stessa. Defínizione 47. Si dice deviazione standard, o scarto quadratico medio di una v.a., la radice quadrata della sua varíanza. Si usano spesso i simboli:

Ox = VarX;

= \/V a rX .

Si noti che, se la varíabile X é espressa in una certa unitá di misura, dimensione, mentre la varíanza a \ ha le dimension! di un quadrato.

ha la sua stessa

112

CapHolo 3: Varíabili aleatoria e modelli probabilistici

Deflnizione 48. Se X e una v.a. dotata di media fix c varianza a \ finite, si dice standantizzato di X la v.a.

X-fix Ox

Questa nuova v.a. ha media 0 e varianza 1 (segue dal punto (4) della Proposizione 45). Vediamo ora qualche esempio concrete. Cominciamo dal seguente schema:

Valore atieso e varianza delle v.a. legate alprocesso di Bernoulli X ~ B (p) X ~ B (n , p)

eM

= p; E ^ = np:

V a iM = p ( l - p ) ; Vai(X]= n p ( l - p);

X ~ G{p)

EX=

VarX =

X ~ G '(p)

EX=

P 1 —p

r VarX =

r

p

X ~ B { —n, p)

EX = n (

^

);

VarX = n ( l ^ ) .

Calcoliamo ad esempio la varianza della bemoulliana: se X ~ B{p), p, e VarX = E ((X - p f ) = { l - p f - p + { 0 - p f • (1 - p) = = (1 - p ) . p . (1 - p + p) = p (l - p). Se ora X ~ B (n , p), per calcolame la varianza basta ricordare che essa e somma di n v.a. bemoulliane di parámetro p, indipendenti. Percio per il punto ( 6 ) della Proposizione 45, VarX = nV arX i = n p (l - p), dove si é indicata con X \ una v.a. B (p). Eseguiamo ora il calcolo della varianza di una v.a. di legge X rsj G{P) Occorre sommare la serie:

^*-l - p)*

E(A-2) =

*=1 Anzitutto, sfruttando la serie notevole £*^* ' = 7 7 "^ *=i (1 “ t.)

perognit€ (-1 ,1 ),

(5)

giá utilizzata per il calcolo del valore atieso di X , ne calcoliamo un'altra simile; '

(1 - t ) -

perogni Í € (-1,1).

( 6)

Capitolo 3: Variabili aleatone e modelli probabilistici

113

Per provare la (6) consideriamo le seguenti identitá, ottcnute derivando serie di potenze termine a termine; _

kt per la (S)

■i 0. \ ¡ h 1 " 0-^ 1 P (\X -^x\> 6ax)< j¡

(7)

owero P( \X - px\
1 —^ •

(8)

í) Si osservi che la ( 8) é conseguenza immediata della (7), ed entrambe sono significative quando ¿ > 1 (se ¿ < 1, la (7) dice che la probabilitá di un certo evento é < di un numero > 1, il che é ow io, e la ( 8) dice che la probabilitá di un certo evento é > di un numero < 0, il che é pure owio). II teorema si puó leggere in due modi. Fissata la deviazione standard < j x , al crescere di 6 la disuguagiianza (7) dice che la probabilitá che X si discosti dalla sua media per una quantitá via via piü grande, é via via piú piccola. Oppure, fissato 6, la disuguagiianza ( 8) dice che i valori assunti da X cadono, con probabilitá maggiore di
5)
(la somma estesa a tutti gli indici k ë maggiore, essendo ciascun addendo positivo, della somma estesa ai soli indici k per cui risulta lyj^l > S)

(poich¿

> 5^, e (5* non dipende da k)

> (ricordando chc P ( Y

€ ! ) = '£

P {Y =

= i'*) = y*)) =

6 ^ P { \ Y \ > 6).

Leggendo allora dal primo all'ultimo terminc la catena di uguaglianze e disuguaglianze abbiamo

52F(|y| > 6) < 1 ossia 1 P (\Y \> 6)< y,.

Esempio 50. Lanciamo due dadi e chiediamoci quando otterremo per la prima volta un 7. Il numero di tiri necessari é X ^ G(p) c o n p = 1/ 6 . In questo caso si ha

/ I Z f = 5.477 p = - = 6 -, -' t t v

izc^pixorvh T e C V a r^ 4 = - , ■* n

^

ci C c \ i y r p , o > r a ' X i i \

Questo signifíca che la media campionaría sará piú concéntrala attorno al suo valore atieso (che é p ) quanto piú ampio é il campione; intuitivamente, ripetendo molte osservazioni le oscillazioni casualmente molto lontane dalla media tendono ad elidersi, e la media campionaria diventa uno stimatore piú significativo. Questo falto, unito alia disuguaglianza di Cebicev, ha una conseguenza notevole: Teorema 53. Legge dei grandi numeri. Sia (X ], X 2 , . . . , X„) un campione casuale estratto da una popolazione di legge px{x,'d). Supponiamo che esistano fm iíi = p e VarX-í = a^. Allora per ogni numero e > Osi ha che oe

X ai e y C t ¿ e f y i c i c y > ' c P { \ X ^ -

p \>

e} -^ 0

p e r n ^

00.

■Á Questo fa tto si esprime dicendo che la successione di v.a. probabilitá a p, per n —* 00.

^ tende in

Dimostrazione. Basta applicare la disuguaglianza di Cebicev alia v.a. X „, ricordando che \ ,Xj. =

P-

VarXn =

n

La (7) diventa allora;

P ^|X n - p \ > 6 ^

j < ^

per ogni ¿ > 0 .

Scegliendo 6 = e .\fñ ¡o si ha; p p , - M i > < ) < e^n ¿ Per e > 0 fissato e n —♦ 00, si ottiene la tesi.

( 10)



Nell'esempio del campionamento da una popolazione bemoulliana, questo Teorema da una giustificazione in piú del perché la media campionaria sia un "buono stimatore" di p; la probabilitá che la media campionaría si discosti di una quantitá ( qualsiasi dal valore vero di p é sempre piú piccola, quando l'ampiezza del campione cresce. A questo fatto si deve il nome di legge dei grandi numeri dato al Teorema. Si rícordi sempre che "evento di probabilitá piccola" non significa "evento che non puó veríficarsi"! Al solito, a partiré da ipotesi sulla probabilitá di certi eventi possiamo dedurre solo altre probabilitá. Esempío 54. Lando di una moneta n volte e legge dei grandi numeri per campioni bernoulliani. Supponiamo di lanciare una moneta molte volte e di registrare quante volte esce Testa. Se I'esito di ogni lando é rappresentato da una v.a. di legge B(Q.5). I'insieme degli esiti di n land é un campione casude d^i ampiezza n estratíQ-da-una-DODolazione B i v ) . II numero totale di teste é

Capitolo 3: Varíabili aleatoria e modelli probabilistici

117

mentre la media campionariajXn rappresenta la frequenza relativa con cui, in n prove, é uscita "Testa” Per la (10), la probabilitá che questa frequenza relativa si discosti dal valore atieso 0.5 per piú di e é

P(|X„-0.5| >6) < 4 - = Ad esempio, in 10000 land, la probabilitá che la frequenza relativa si discosti da 0.5 per piú di 1/50 é < 0.0625. Si noti che questa probabilitá non é moho piccola; Tesperímento del lando di una moneta é veramente molto aleatorio (si ricordi che per p = 0.5 la varianza della bemoulliana é massima). Concettualmente pero, pur di scegliere n abbastanza grande, questa probabilitá diventa piccola quanto si vuole. □ Concludiamo con la seguente definizione che riguarda gli síimaíorí. Definizione 55. Sia ( X i , X 2, . . . , un campione casuale estratto da una popolazione di legge px(x,i9). Sia T„ uno stimaíore corretto di t? (dipendente dall'ampiezza n del campione). Diciamo che T„ é consistente se Var Tn —* 0 per n —> 00 .

Ad esempio, per quanto appena visto, nel caso di una popolazione bemoulliana la media campionaria é uno stimaíore corretto e consistente del parametro p. La consistenza é un'altra proprietá, come la correttezza, che é indice della bontá di uno stimatore.

3.6.3. Covarianza e correlazione In questo parágrafo introduciamo, per v a., concetti analoghi a quelli visti nella statistica descrittiva a proposito della relazione tra piú varíabili (v. § 1.6). Defínizíone 56. Se X , Y sono due v a. aventi varianza finita, si definisce la covarianza di X e Y come: Cov(X,V') = E ((X - EX ) • (Y - EK)).

Proposízione 57. (Proprietá della covarianza). Siano X , Y , Z v.a. dótate di varianza finita, allora: 1. C ov(X , Y ) = E{ XY ) - EX • EY2. C o v (X ,X ) = VarX; 3. C ov(X , c) = 0 per ogni costante c; 4. La covarianza é commutativa: C o v ( X ,r ) = C o v (r,X ):

118

CapHolo 3: Variabili aleatoria e modelli probabilistici

5. La covarianza è bilineare:

Cov{X + Y , Z ) = Cov{X, Z) + C o v (r, Z); Cov(X, Y + Z ) = Cow{X, Y) + 6 ov(X , Z); C o v (a X .y ) = o C o v (X ,y ); C o v (A '.ay ) = aC ov(A ',y ): 6 . V ar(X + Y) = VarX + V ar^ + 2Cov(X, Y); 7. Vale la disuguaglianza di Cauchy-Schwartz: \Cov{X,Y)\ < v/V arX • VarF. In paríicolare, se X , Y ham o varianza finita, certamente esiste la loro covarianza. D ím ostrazione. Le propríetá da (1) a (5) sono conseguenze immediate delle defmizioni di varianza e covarianza, e della propríetá di linearítá del valore atteso: lo studente é invitato a svolgerle come esercizio. La ( 6 ) si dimostra síhittando la ( 2) e la (5); V ar(X + Y ) = Cov(X ^ Y , X + Y ) =

= C ov(X , X ) + Cov(X, Y ) + C ov(y, X ) + C o v (y , Y ) = = VarX + V ary + 2Cov(X, Y ). Omettiamo la dimostrazione della (7).



Defínizione 58. Due v a. X ,Y aventi varianza fínita si dicono incorrelate se C o v (X ,y ) = 0. Osserviamo che, se due v a. X ,Y sono indipendenti, per il Teorema 34 é E (X Y ) = E X • E y . Perció la (I) della Proposizione 57 implica che X ,Y sono incorrelate. Quindi; se due v.a. X , Y sono indipendenti, allora sono incorrelate. (II viceversa non é vero, in generale). Osserviamo anche che, per la ( 6) della Proposizione 57, se X , Y sono incorrelate (e quindi in particolare se sono indipendenti), vale l'identitá V ar(X + y ) = VarX + V ary. Questa relazione si generalizza alia somma di n v.a. incorrelate, per cui otteniamo una dimostrazione della propríetá, enunciata nella Proposizione 45, secondo cui la varianza della somma di v.a. indipendenti é uguale alia somma delle varianze. Ricordiamo che questa propríetá ci é servita per calcolare fácilmente la varianza di alcune v.a. notevoli (binomiale, binomiale negativa) e ci servirá ancora in tal senso. Poiché due v.a. con covarianza diversa da zero sono dipendenti, la covarianzapuó essere presa come una misura del grado di dipendenza di due v.a. Questo índice puó essere opportunamente normalizzato, al modo seguente. Per la (7) della Proposizione 57.

Capitolo 3: Variabili aleatoria e modelli probabilistici

|C ov(X ,K )|

119

< 1.

v/V arX • V ary Questo vuol dire che il coefficiente di correlazione di X , Y , definite da axK PX.Y =

_

C o v (X ,F )

\ / Va r X ■V a ry ’

soddisfa le disuguaglianze - 1
) Calcolare le probabilitá con l'approssimazione binomiale.

3.8. II processo di Poisson 3.8.1. La legge di Poisson come limite di leggi binomiali Esempio 65. Sia A il numero medio di persone che transitano dalla Stazione Centrale di Milano in un giorno (feríale) qualsiasi, e sia X il numero effettivo di persone che transiterá dalla stazione martedi prossimo. (X è una v a ). Supponendo A noto, è possibile calcolare la probabilitá che X assuma un certo valore k l Proviamo a modellizzare questo problema, introducendo opportune ipotesi. Possiamo ragionare cosí; supponiamo che esista un numero N moho grande di persone che sono "potenziali utenti" della Stazione Centrale; ognuno di essi ha una piccola probabilitá p di passare effettivamente dalla stazione in un giomo qualsiasi. (In sostanza, stiamo semplifícando la situazione supponendo che, invece di esserci, ad esempio, i pendolarí che passano ogni giomo e gli utenti occasionali che passano di rado, tutti gli utenti potenziali abbiano la stessa frequenza media di transito dalla stazione). Supponiamo inoltre che gli eventi "Tizio passa dalla stazione il tal giorno", "Caio passa dalla stazione il tal giomo", ecc., siano tra loro indipendenti (le scelte di ogni persona non dipendono dai comportamenti aitmi). Sotto queste ipotesi, si puo schematizzare il fenómeno come un processo di Bernoulli: ogni utente potenziale è un esperimento di Bernoulli di parametro p, in cui "successo" vuol dire "L'utente passa dalla stazione"; il numero X di persone che effettivamente transita dalla stazione è il numero di successi in un processo di Bernoulli di N prove di parametro p, perció

X^B{N,p). Siamo cosí arrivati a una formalizzazione precisa. II problema è che né N né p, sono fácilmente noti (o calcolabili); ció che conosciamo è A. Poiché E X = N p e A è il numero medio di persone che transita ogni giomo, è naturale porre N p = A. Calcoliamo ora P (X

-■ C )

P*^(l - p)"^-* =

( 11)

124

Capitoto 3; Variabili aleatoria e rriodelli probabilistici

N -k



m

n

-

i

)

dove abbiamo posto p = X / N . La probabilità P { X = k) nsulta quindi espressa in funzione di un único paramentro incognito, N (che si suppone molto grande), mentre A è noto. Se nella (11) facciamo tendere N a infinito (e quindi p = X / N tende a zéro) troviamo N -k

lim P { X = k) = \ m ( ^ ) ( ^ ) N^oo ^ N^co\kJ\Nj

\

N

= e -A

k\

Per dimostrare Tultima uguaglianza occorre un po' di Analisi Matemática. Si osservi che;

- A ,;.-!)...

k\ inoltre, per

Af*

►oo, (ricordare che A e fc sono fissati)

N ( N - l ) - . . . ( N - k + l) ffk

1;

.-A.

0-^r

1.

II rísultato trovato é interessante in quanto é espresso in funzione del parámetro A e dell'intero k, che sono noti; abbiamo quindi calcolato eifettivamente la probabilitá dell'evento che ci interessava. □ Notiamo che quella che abbiamo calcolato, é la dem itá discreta di una nuova v.a. Y (infatti, abbiamo eseguito un'operazione di limite sulla X da cui eravamo partiti, per cui la legge trovata non é piú quella di X):

M k)

^

per fc = 0 , 1, 2 , . . .

( 12)

Verifichiamo che, per ogni A > 0, la (12) é eífettivamente una densitá discreta. E' o w io che per A > 0 é pv'(fc) > 0 per ogni fc = 0 ,1 ,2 ,__ Inoltre

k=0

k\

= e -X fc=o

dove si é sfhittata la somma della serie esponenziale. Dunque le proprietá caratteriStiche delle densitá discrete sono verifícate, ed é giustificata la seguente Definizione 66 . Si dice legge di Poisson di parametro A > 0 , la legge di una v.a. discreta Y la cui densitá é data dalla (12), e si scrive Y P q{X).

Capitolo 3: Varíabili aleatoria e modelli probabilistici

125

Notiamo che il parametro A é, per defínizione, íl valore atieso della binomiale X , che, tramite un passaggio al limite, ci ha permesso di defínire la v a. Y , di Poisson. É ragionevole aspettarsi che sia anche il valore atieso della Y. Verifíchiamolo: 00 EK =

Jt=0

OO

»fc

00

= E * " ’ * Y' = k=0

00

\fc-l

vit =

k=\ oo \it



‘E n

-

Quanto vale invece la varianza di Y1 Ricordiamo che la varianza della binomiale X da cui siamo partit! è VarX = N p {\ - p), e ^ • p ( l- p ) = A ^l -

^ A,

per N

oo.

Si puo verificare, calcolando la varianza di Y in base alia defínizione, usando la densitá discreta p k , che eíFettivamente VarV = A. Dunque;

la legge di Poisson Pq{X) ha valore atieso e varianza uguali a A. / prossimi grafici mostrano l'andamento delle densitá discrete di Poisson, rispettivameníe per A = 2; A = 5; A = 10. Anche se, teóricamente, la v.a. di Poisson puó assumere tutti i valori interi non negativi, si vede che in pratica la densitá tende rápidamente a zero per fc —> +oo, per cui in realtà solo i primi valori della successione px{k) sono signiftcativi. Si noti anche che quanto piii grande è A, tanto piú la densitá discreta assume un aspeito simmetrico, rispetto al valor medio.

A= 2

A= 5

126

CapHoío 3: Variabili aleatoria e modelli probabilistici

A = 10

Riassumendo: abbiamo defínito una nuova v a. discreta, la cui densitá è data dalla (12); si trova che questa legge, detta legge di Poisson di parametro A, ha media e varianza uguali a A. II procedimento con cui siamo arrívati alia densitá di Poisson consiste nello scrivere la densitá binomiale B { N , p ) e passare al limite per N tendente a infinito e p tendente a zero, tenendo fissato il prodotto N p = A. Esplicitiamo ulteriormente il significato di questo procedimento di passaggio al limite nelle prossime due osservazioni, ehe sono tra loro complementari. O sservazione 67. Utilizzo délia legge di Poisson per approssim are leggi binom iali. Se abbiamo una v a. X B ( N , p ) con N molto grande e p molto piccolo, la probabilità di { X = k) sarà approssimata dalla probabilité di {Y = k), con Y ~ Pq{ N p ). Esempio 68 . In una linea produttiva la frequenza relativa con cui sono prodotti pezzi difettosi é 0.01. Qual é la probabilitá che su 1000 pezzi prodotti ce ne siano esattamente 4 difettosi? Schematizziamo il fenómeno come un processo di Bemoulli di TV = 1000 prove, di parametro p = 0.01. II numero di pezzi difettosi (numero di "successi") é X ~ S ( 1000, 0 .01 ), e

p{x =

4) = ^^^^^^o.oi'*

~ o.oise.

Sfhittando l'approssimazione della binomiale con la Poisson Y A = 1000 • 0.01 = 10, troveremmo:

di parametro

10^ P i X = 4) ~ P { Y = 4) = e “ '" — ~ 0.0189, 4! un'approssimazione accettabile. Inoltre, i numeri che si maneggiano nel secondo caso sono piú "trattabili". □

I prossimi due grqfici mosírano un esempio di approssimazione della legge binomiale con la legge di Poisson. In quesío caso A = n p = 2; nel primo gráfico n = 10 e p = 0.2; nel secondo, n = 20 e p = O.I.- l'approssimazione migliora.

Capitolo 3; Varíabili aleatoria e modelli probabilistici

127

Q R)Í880n

■ Binomiale

□ Fbisson ■ Binomaie

■H---- ¥--- 1 O

T

-

(

N

|

f

0

^

i

n

(

O

N

.

O

O

O

)

0

Osservazione 69. Utilizzo della legge di Poísson per modellizzare certe classi di fenomeni. La legge di Poísson, tuttavia, non serve solo per eseguire calcoli approssimati con v a. binomiali di parametri N grande e p piccolo. La sua importanza modellistica é quella di permetterci di descrívere quantitativamente situazioni in cui non abbiamo accesso ai valori di N e p, ma possediamo un'unica informazione numérica: il parametro A, "numero medio di arrivi". Si considerino i seguenti esempi:

1. il numero di telefónate che arrivano a un centralino in un'ora di punta; 2 . il numero di automobili che passa da un certo casello autostradale in una certa fascía oraría di un giomo feríale qualsiasi, 3. il numero di íncidenti automobilistici che si verifícano in un certo tratto di autostrada in un lunedi qualsiasi; 4. il numero di persone che si reca in un certo uificio pubblico in un giorno feríale; 5. il numero di "guasti" che si verifícano in un impianto molto complesso un giorno lavorativo qualsiasi; 6 . il numero di difetti che si riscontrano su una certa lunghezza di fílo che viene prodotto da una macchina tessile (ad esempio, un segmento di Im scelto a caso); 7. il numero di bombe che nell'arco della seconda guerra mondiale sono cadute su una piccola area della cittá di Londra (ad esempio, un quadrato di lato lOOm, scelto a caso). Si provi, per ciascuno degli esempi precedenti, a ripetere il tipo di ragionamento che abbiamo svolto nell'Esempio 65, per convincersi che, sotto ipotesi ragionevoli (o per lo meno: talvolta ragionevoli!), la legge di Poísson puó essere una buona rappresentazione del fenómeno in esame. Ad esempio, per (I), si puó pensare che ci siano tantissime persone che possono telefonare al centralino, ognuna con un piccola probabilitá di farlo effettivamcnte; inoltre, le persone scelgono indipendentemente le une dalle altre se telefonare o no; di conseguenza il numero di telefónate é

128

Capitolo 3: Variabili aleatorio e modem probabilistici

rappresentabile da una v.a. Poisson, in cui il parámetro A rappresenta il numero medio di telefónate, nella fascia oraría considerata. Si noti che la variabile "tempo" puo essere talvolta sostituita da un'altra variabile: negli esempi 6,7, lunghezza e area, rispettivamente, giocano il ruolo che negli altri esempi é proprio del tempo La legge di Poisson é detta talvolta "legge degli arrivi casuaii" o "legge degli event! rari". notare che, stando ancora all'esempio ( 1), \'evento raro non é che arrivi una telefonata al centralino, ma che una certapersona chiami il centralino. Naturalmente, ogni volta che utilizziamo un modello, dobbiamo valutare críticamente se le ipotesi che esso ríchiede sono ragionevolmente verifícate nel fenómeno reale in esame. Nel seguito rítomeremo su questo punto, illustrandolo con opportuni esempi. Osserviamo ora un'importante propríetá che ríguarda la somma di piti v.a. di Poisson, indipendenti: Proposizione 70. Siano X \ , X 2, . . . , X n v.a. indipendenti, e supponiamo che Xi ~ Pq{\) (cioé le v.a. abbiano tutte legge di Poisson, di parametri anche diversi tra loro). Allora

X \ + X 2 + ... + Xn ~ -Fb(Ai + A2 + ... + A„). II contenuto di questa proposizione, che non dimostríamo, é abbastanza intuitivo se si pensa al modello degli arrívi casuali: se in un certo intervallo di tempo transitano dalla Stazione Céntrale di Milano X\ pendolarí, X 2 turísti stranierí, X% turisti italiani, ecc., e ciascuna di queste variabili segue una legge di Poisson con un suo valor medio, se si suppongono indipendenti queste variabili si puó concludere che il numero totale X di persone che transitano segua pure una legge di Poisson. E' chiaro inoltre che il numero medio di persone transitanti sará la somma dei numerí medi dei vari gruppi, e quindi il parametro A della legge di X sará semplicemente la somma dei parametri delle leggi delle X^.

3.8.2. Secondo modo di dedurre la legge di Poisson La legge di Poisson puó essere ottenuta come limite di binomiali anche con un altro tipo di ragionamento, che illustríamo su un esempio, e che servirá a mettere in luce ulterior! propríetá di questa legge. Esempio 71. Supponiamo che una certa apparecchiatura complessa sia soggetta a un numero medio A di guasti ogni giomo o, in generale, in un dato intervallo di tempo [0, t]. Suddividiamo [0, t] in un numero N molto grande (rispetto a A) di intervallini di ugual durata, e supponiamo che; 1. In ogni intervallino di tempo / , la probabilitá che aw enga un guasto ép( j >é\ o stesso per tutti gli intervallini); 2. In ogni intervallino di tempo / , la probabilitá che aw enga piú di un guasto é trascurabile rispetto a p (in pratica, la supporremo zero). 3. Gli eventi "in / accade (non accade) un guasto" formano (ai variare di I) una famiglia di eventi indipendenti, ossia; sapere che in un intervallo di tempo I é capitato un guasto non dice nulla sul fatto che in un intervallo / ', disgiunto da / , capiti o no un altro guasto.

Capitolo 3: Varíabili aleatoria e modelli probabilistici

129

Si osservi che p = \ / N \ se abbiamo scelto N moho grande, p é moho piccolo, e questo rende ragionevole l'ipotesi 2. II numero totale di guasti che accadono in [0, t] sará X ~ B { N , p ) = B { N , X / N ) . Se calcoliamo ii limite per TV —►oo di P { X = k) troviamo ancora la legge di Poisson Pq{X). In generale;

Ogni volía che possiamo supporre valide le ipoíesi 1,2,3, la v.a. X = numero di guasti in (0, t] é una v.a. di Poisson di parametro X = numero medio di guasti in [O.í]. Osservazione 72. Relazione tra ii primo e il secondo modo di dedurre lo schema di Poisson. Nello schema di Bernoulli dell'Esempio 65, le "prove" sono gli elementi della "popolazione di utenti potenziali", in quello dell'Esempio 71 sono gli "intervallini di tempo"; nel primo caso non si fa alcuna ipotesi su guando gli utenti arrivano, aU'intemo di [0, i\: si dice solo che ció "accade" o "non accade"; nel secondo caso si introduce invece l'idea che, se un guasto accade in qualche momento di [0 , t], questo aw iene con ugual probabilitá in un qualunque intervallino. In altre parole, la probabilitá che un certo guasto si verifichi é uniformemente distribuita sull'intervallo di tempo [0 , t], e la probabilitá che in un intervallino di ampiezza A i si verifichi un arrivo é proporzionale a A i. Da questo fatto segue che, se A é il numero medio di "arrivi" in (0 , i], potremo definiré v = X¡t = numero medio di arrivi per unitá di tempo. Allora il numero medio di arrivi in un altro intervallo di tempo, di ampiezza i', sará A' = v i'. Riassumiamo la discussione precedente in una definizione precisa: Defínizione 73. Consideriamo un fenómeno schematizzabile come "registrazione, nel tempo, degli arrivi casuali di individui indipendenti (oppure; guasti accidentan dovuíi a cause indipendenti)". Supponiamo che; la probabilitá che in un intervallino di tempo A t ci sia un arrivo é uguale a v ■A i, la probabilitá che in un intervallino di tempo A t ci sia piCi di un arrivo é trascurabile; il fatto che in un intervallino di tempo A t ci sia un arfivo é indipendente dal fatto che ce ne sia uno in un altro intervallo di tempo. Allora il numero X di arrivi nell'intervallo di tempo [0, t] ha legge di Poisson Pq(X), con X = V ■t. La famiglia di v.a. che rappresentano il numero di arrivi negli intervalli [0, í], e hanno legge Xt ~ Fo(i/t) si dice processo di Poisson di intensiíá u. II numero v rappresenta il numero medio di arrivi nell'uniíá di tempo. II lettore é invitato a questo punto a rileggere gli esempi dell'Osservazione 69 e a valutare, per ciascuno di questi, l'applicabilitá della defínizione appena data. Si osservi che i termini "arrivi", "guasti", ecc. sono puramente convenzionali, e lo stesso uso di intervallini di tempo puó essere sostituito con quello di intervallini di spazio (nell'es. 6 , lunghezza; nell'es. 7, area). Esempio 74. Se il numero medio di telefónate che arrivano a un certo centralino é 30 all'ora: a. qual é la probabilitá che in un periodo di 3 minuti non arrivi nessuna telefonata? b. qual é la probabilitá che in un periodo di 5 minuti arrivino piú di 5 telefónate? Se il numero di "utenti potenziali" del centralino é moho alto, la probabilitá che ciascuno telefoni é moho bassa, e i comportamenti degli utenti sono indipendenti.

130

Capitolo 3: Vahabili aleatone e modelli probabilistici

possiamo rappresentare il numero di persone che telefonano in un'ora come una v a. X ~ Po(A), con A = 30. Abbiamo applicato il primo modo di ragionare, illustrato nel parágrafo precedente. Per rispondere alie domande del problema, pero, questo non basta; cosa sappiamo sul numero di telefónate che arriva in un intervallo di 3 o 5 minuti? Se facciamo Vulíeriore ipotesi che la probabilitá d'arrivo delle telefónate sia uniforme nel tempo, possiamo chiamare i/ = 30 telefonate/ora l'intensitá del processo di Poisson, e affermare che il numero di telefónate Xf, in arrívo in un intervallo di = 3 minuti (cioé 3 /6 0 di ora) è Ai = vt\ = 30 • 3/60 = 1.5. Allora P (A ’i, = 0) = e (Questo risponde ad A2 = 30 • 5 /6 0 = 2.5, e

á).

= 0.223.

Análogamente

se

=b

minuti = 5 /6 0

ore,

> 5) = 1 - P{Xt, < 5) =

□ ik=0

Osservazione 75. Utílita e limiti di applicabilità del modello. L'esempio precedente mostra l'utilità del secondo approccio alio schema di Poisson, che abbiamo discusso in questo parágrafo: permette di calcolare probabilité di eventi che accadono in un certo intervallo di tempo, diverso da quello su cui abbiamo informazioni di partenza. D'altro canto, questo fatto suggerísce anche la cautela con cui va usato questo modello. Ad esempio, siamo sicuri che il numero medio di telefónate in arrívo in un intervallo di 12 ore sia 12 volte il numero medio di telefónate in arrívo in un'ora? Siamo sicuri che abbia senso parlare di "numero medio di telefónate in arrívo in un'ora" senza precisare di quale ora si parla? Sta al buon senso di chi applica il modello teórico porsi queste domande e dare delle risposte oneste e sensate, prima di procederé. Puó darsi che, cosí facendo, c¡ si renda conta ad esempio che / dati in nostro possesso non sono sufficienti a calcolare la probabilitá che ci intéressa, e ci si dovrà allora procurare l'informazione mancante. Processo di Poisson. Riassumendo: Sia X t il numéro di arrivi casuaii nell'intervallo di tempo [0, i], assumendo valide le ipotesi elencate nella Definizione 73. Sia u l'intensità del processo, ossia il numéro medio di arrivi nell'unità di tempo. Allora:

X t ~ Po{ut)\

P ( X , = *) = e - ' EXt =

per fc = 0 , 1, 2 , . . . ; V arXt =

ut.

Capitolo 3: Varíabili aleatoríe e modelli probabilistici

131

Esempi ed esercízí di ricapítolazíone sulle varíabili aleatoríe discrete A questo punto lo studente conosce i principal! modelli probabilistici discreti. il processo di Bernoulli, con le leggi notevoli ad esso legate (bemoulliana, binomiale, geométrica, binomiale negativa); la legge ipergeometrica; la legge di Poisson. Queste ultime due, come abbiamo visto, sono "imparentate", ciascuna a modo suo, con la legge binomiale. E' utile che, prima di proseguiré oltre, lo studente provi a fare il punto della situazione, riesaminando queste leggi (defmizioni, proprietá, relazioni reciproche, signifícato modeilistico). L'obiettivo é imparare a riconoscere quale sia il modello piú appropriate per descrivere una data situazione concreta. I prossimi esempi, e i successivi esercizi di ricapitolazione, hanno soprattutto questo scopo. Esempío 76. In un certo ufíicio di una ditta arrivano, via fax, gli ordini da parte dei clienti, al ritmo medio di 10 ordini al giomo. Di tutti gli ordini che arrivano, una frazione del 2% non puó essere soddisfatta in quanto si riferisce ad articoli da tempo fuori produzione. a. Quale tra le distribuzioni che conosciamo puó essere appropriata per la v a. che conta il numero di ordini arrivati in un giomo a caso? Sotto quali ipotesi? Calcolare la probabilitá che in un giomo arrivino non piú di 3 ordini. b. Quale tra le distribuzioni che conosciamo puó essere appropriata per la v a. che conta il numero di ordini che non possono essere soddisfatti, su 100 ordini arrivati? Sotto quali ipotesi? Calcolare la probabilitá che, su 100 ordini arrivati, almeno 2 non possano essere soddisfatti. Calcolare poi la stessa probabilitá, facendo uso di una opportuna approssimazione.

a. Se ad esempio supponiamo che la ditta abbia un gran numero di "clienti potenziali", ciascuno con una piccola probabilitá di spedire un ordine alia ditta in un giomo prefissato, e i comportamenti dei vari clienti sono indipendenti, il numero X di ordini arrivati in un giomo a caso sará una v a. di Poisson Po(-^) H valore di A é il numero medio di ordini giomalieri, perció X ~ Po(lO). (Si osservi che in questo caso é appropriato ragionare come nel primo modo di dedurre la legge di Poisson, senza far riferimento agli "intervallini di tempo": in realtá non sappiamo se la probabilitá con cui arrivano fax nell'arco della giomata sia uniforme, ma questo non é rilevante per il problema in esame). 10 *

P ( X < 3) = e “ ' ° X l T r = j r» ^ • k=0 b. Ogni ordine ha probabilita p = 0.02 di non poter essere soddisfatto (se stimiamo la probabilita con la frequenza relativa). Se supponiamo che gli ordini siano tra loro indipendenti (quanto al fatto di potere o non poter essere soddisfatti), siamo nelle ipotesi del modello bemoulliano. Il numero di ordini Y che non possono essere soddisfatti, su 100 ordini arrivati, e una v.a. binomiale, y ~ B (100,0.02).

P {Y > 2) = 1 - {P{Y = 0) + P { Y = 1)) =

132

CapHolo 3: Varíabili aleatoria e modelli probabilistici

= 1 - (0.98‘°° + 100 • 0.98^^ • 0.02) = 0.5967. D'altro canto la legge binomiale B (1 0 0 ,0.02) puó essere approssimata con una legge di Poisson di parámetro 100 ■0.02 = 2; B ( 100, 0 .02 ) ~ Po( 2 ). Con l'approssimazione di Poisson si troverebbe:

P { Y > 2) ~ 1 - (e 2 + €~H) = 0.594.



Esempio 77. Da un casello autostradale transitano veicoli al ritmo di 200 veicoli all'ora. Si supponga che l'l% di tutti i veicoli sia costituito da T.I.R. a. Qual é la distribuzione appropriata per calcolare la probabilitá di avere esattamente 5 T.I.R. su 100 veicoli in transito? Determinare questo valore. b. Qual é la distribuzione appropriata per calcolare la probabilitá che transitino esattamente 5 veicoli nel prossimo intervallo di un minuto? Determinare questo valore. c. Qual é la distribuzione appropriata per calcolare la probabilitá che transitino almeno 100 veicoli prima del prossimo T.I.R? Determinare questo valore. d. Qual é la distribuzione appropriata per calcolare la probabilitá che transitino esattamente 100 veicoli prima del passaggio del terzo T.I.R ? Determinare questo valore. e. Determinare il numero atteso di T.I.R. su 100 veicoli in transito. / Determinare il numero atteso di veicoli in transito in un minuto. g. Determinare il numero atteso di veicoli in transito prima che passi un T.I.R. h . Qual é il minimo numero di veicoli in transito necessari perché la probabilitá di osservare almeno un T.I.R. sia > 0.5?

a. La sequenza di veicoli in transito "T.I.R. o altro veicolo" é un processo di Bemoulli di parametro p = 0.01 (con "successo" = "il veicolo é un T.I.R "). Sia X = numero di T.I.R. su 100 veicoli in transito. X ~ B (1 0 0 ,p ) = B (1 0 0 ,0 .0 1 ).

P{X

= » - ( T ) 0.01^ • 0.99^^ = 0.0029.

Si poteva anche calcolare questo valore con l'approssimazione di Poisson:

X ~ Po(100 • 0.01) = Fo(l): 1 P ( X = 5) ~ c “ ‘ - = 0 .0 0 3 . 5!

b. II transito dei veicoli nel tempo si puó vedere come un processo di Poisson di intensitá u = 200/ora. Stiamo supponendo che la probabilitá che in un breve intervallo di tempo transiti un veicolo dal casello sia proporzionale all'ampiezza dell'intervallo, che in un breve intervallo di tempo non possano transitare due o piü veicoli, e che l'awenire o meno del transito di un veicolo in intervallini di tempo disgiunti siano eventi indipendenti. Detto allora Xi ~ Po(í^Q = Po(200í) il numero di veicoli in transito neU'intervallo di tempo [0 , (misurato in ore), il numero di veicoli in transito

CapUolo 3: Varíabili aleatoria e modelli probabilistici

133

in un minuto e

X,/6o ~ Po(200/60) = Po(10/3) e la probabilitá ríchiesta é P № ,6 0 = 5) = e - " > '= ( y ) i = 0 . 1 2 2 . c. Sia Y = numero di veicoli in transito prima del primo T.I.R. E' il numero di insuccessi prima del primo successo in un processo di Bernoulli di parametro p = 0.01 (v. punto a), perció

Y ~ G'(O.Ol),

99

99

c

P { Y > 100) = 1 - ^ P ( Y = k) = l - J^O .99* • 0.01 = k=0 k=0 ilOO 1 __ n QQl = 1 ---------- ■0 01 = o.99‘°® = 0.366. 1 - 0.99

d

Sia Z = numero di veicoli in transito prima del terzo T.I.R. Allora Z ~ B ( - 3,0.01), e

P { Z = 100) =

~ ^^0.01^ • 0.99’”® = 0.001885.

e. Per il punto a, si tratta di calcolare E X con X ~ 5 (1 0 0 ,0 .0 1 ), perció E X = 1. /

Per il punto b, si tratta di calcolare EXi/eo con Xi/so ~ Po(10/3), perció EXi/60 = 10/3 = 3.3.

g. Per il punto c, si tratta di calcolare E y con Y ~ G'(O.Ol), perció 1 0.01 E y = —— — = 99. 0.01 -

h. II numero di T.I.R. su n veicoli in transito é W osservare almeno un T.I.R. su n veicoli é

B{n, 0.01). La probabilitá di

P ( W > 1) = 1 - P { W = 0) = 1 - 0.99" > 0.5 se 0.99" < 0.5, nlogO.99 < logO.5,

134

Capitolo 3: Variabili aleatoria e modelli probabilistici

n >

logO.5 = 68.97 logO.99

Per n > 69 la probabilitá di osservare almeno un T I R. su n veicoli in transito é > 0.5. □ Lo studente é invitato ad aífrontare i prossimi esercizi seguendo il tipo di ragionamento illustrato negli esempi precedenti: prima di tutto defmire la v a. di cui si vuole calcolare qualcosa (ad esempio; Sia Y = "numero di veicoli in transito prima del primo T.I.R."); quindi hconoscerne la legge (ad esempio: Y ~ G'(O.Ol)), esplicitando le ipoíesi che si fanno sul fenómeno in esame (ad esempio: "il fatto che veicoli diversi siano T.I.R. oppure no sono eventi indipendenti"); infine, calcolare la probabilitá dell'evento richiesto, utilizzando le densitá opportune (ad esempio. P { Y > 100) = ...) . 3.17. A un casello autostradale arriva un numero medio di 240 automobili all'ora. Questa media é calcolata in base alie osservazioni effettuate nei giomi feriali, dalle 10 del mattino alie 16. a. Sotto ipotesi ragionevoli, si puó calcolare la probabilitá che dalle 11.05 alie 11.06 di martedí prossimo passino al massimo due automobili? b. Sotto ipotesi ragionevoli, si puó calcolare la probabilitá che dalle 23.05 alie 23.06 di martedí prossimo passino al massimo due automobili? In caso aliermativo, dire esplicitamente la legge utilizzata e calcolare la probabilitá richiesta. 3.18. II 35% dell'elettorato é a favore del candidato Finco Pallino. In una sezione elettorale votano 200 persone ("scelte a caso") e X é il numero di quelle che sono a suo favore. a. Determinare la probabilitá che X sia maggiore di 75 (scrivere la formula esplicita che assegna questa probabilitá, senza eseguire il calcólo numérico). b. A votazione conclusa, lo scrutatore inizia lo spoglio delle schede. Determinare la probabilitá che il nome di Finco Pallino compaia per la prima volta alia quarta scheda scnjtinata. (Fomire anche il risultato numérico). Determinare il valore atteso del numero di schede da scrutinare per trovare per la prima volta il nome di Finco Pallino. c. Determinare la probabilitá che ¡1 nome di Finco Pallino compaia per la terza volta alia decima scheda scrutinata. (Fomire anche il risultato numérico). d Lo scrutinio é terminato: Finco Pallino ha ricevuto 60 voti Se ora si scelgono a caso 10 schede tra le 200, qual é la probabilitá che tra esse ce ne siano esattamente 3 per Finco Pallino? Scrivere l'espressione esatta che assegna questa probabilitá, e se possibile fomire il risultato numérico. e. Eseguire ora il calcólo della probabilitá richiesta al punto precedente, usando una opportuna approssimazione, mediante un'altra legge notevole, e fomire il risultato numérico. Spiegare il procedimento. 3.19. I pezzi prodotti da una certa linea produttiva sono difettosi nello 0.2% dei casi Se ne ispezionano 400. Qual é la probabilitá che se ne trovi piu di uno difettoso? a. Fomire il risultato esatto, usando l'opportuna distribuzione. b. Fomire un risultato approssimato, usando un'opportuna distribuzione (In entrambe le risposte, arrivare fino al quarto decimale). 3.20. In una certa isola del Giappone si verificano in media 4 terremoti all'anno. Nell'ipotesi che i terremoti si susseguano nel tempo secondo un processo di Poisson: a. Qual é la probabilitá che si verifichino almeno 3 terremoti nella prima metá del

CapHoto 3: Varíabili aleatoríe e modelli probabilistici

135

2015? b. Qual é la probabilitá che non si verifichi alcun terremoto nel prossimo mese di agosto? 3.21. In una rete di telecomunicazioni, le interruzioni della linea si verificano con una media di una al giomo. Calculare la probabilitá che nella rete si verífichi; a. nessuna interruzione per 5 giomi; b. esattamente 2 interruzioni in 3 giomi; c. almeno un'intermzione in 4 giomi, d. almeno 2 interruzioni in 5 giomi. 3.22. L'influenza ha colpito, loi scorso invernó, il 3% degli studenti di una grande Universitá. Un ispettore sanitario vuole fare un'indagine sulla salute degli studenti di Diploma (che sono in tutto 2000) e chiama, in ordine alfabético, i 150 studenti della sezione A del Diploma chiedendo a ciascuno di dichiarare se ha avuto almeno un episodio di influenza nei mesi da gennaio a marzo. (La risposta alia domanda é dunque "si" o "no"). a. Qual é la probabilitá che il primo studente "intervistato" risponda di si? b. Qual é la probabilitá che il primo studente che rísponde di si sia il numero 5? c. Qual é la probabilitá che il terzo studente che rísponde di si sia il numero 15? d. Qual é il valore atteso della variabiie aleatoria che conta il numero totale degli studenti "influenzati" (cioé coloro che hanno risposto "si") nella sezione A? e. Qual é la probabilitá che il numero totale degli studenti influenzati nella sezione A sia minore del valore atteso (calcolato al punto precedente)? (Scrívere la formula esplicita che assegna questa probabilitá, senza eseguire il calculo numérico) f. Supponiamo ora di sapere che il numero totale di studenti influenzati nella sezione A é 5. Qual é la probabilitá che, su 50 studenti scelti a caso tra i 150 della sezione A ce ne siano esattamente due influenzati? (Scrívere la formula esplicita che assegna questa probabilitá, senza eseguire il calculo numérico). 3.23. Un monitoraggio del trafüco in una via céntrale di una cittá ha dato i seguenti rísultati, nei giomi e negli orarí specificati;

n° di auto ore di osservaz.

h. 8-9 giorno feríale 750 5

h. 8-9 domenica 40 1

h. 14-15 giomo feríale 200 4

h. 10-12 sabato 300 3

a. Si determini il numero medio di auto all'ora in ciascuna delle 4 situazioni. b. Assumendo che all'intemo di ciascuno dei 4 intervalli temporali il traffico segua il modello di Poisson con parametro uguale alia media calcolata al punto a, calculare, in ciascuno dei 4 casi; il numero atteso di auto in un período di 3 minuti; la probabilitá che passino esattamente 5 auto in un período di 3 minuti. 3.24. II numero di guasti settimanali di un certo macchinarío é stato registrato per 15 settimane; i dati sono i seguenti; 5 ,4 ,4 ,2 , 8 ,2 ,4 ,2 ,5 ,3 ,4 ,2 ,3 ,2 , 6 .

a. Tracciare un istogramma della distríbuzione osservata b. Calculare media e varíanza campionaría. c. In base a quanto osservato e calcolato, sembra plausibile che il fenómeno sia descrítto da una legge di Poisson? In caso affermativo, qual é il valore stimato del parametro, in base al campione osservato?

136

CapUolo 3: Variabili aleatoria e modelli probabiUstici

d. Su un'altra macchina sono stati osservati invece i seguenti dati: 6 ,5 ,7 , 6 , 4 ,5 , 8 , 6 ,4 ,4 ,5 , 8 , 7 , 6 , 6 . Rispondere alie stesse domande.

3.9. Variabili aleatoria continue Per proseguiré il nostro discorso sui modelli probabilistici occorre a questo punto arricchire in modo significativo I'insieme degli oggetti matematici che utilizziamo per descrivere i fenomeni aleatori. Finora, ricordiamolo, tutti i fenomeni aleatori che abbiamo considerato erano descrivibili usando la matemática del discreto: lo spazio campionario Cl era un insieme finito o numerabile (Cap. 2); le variabili aleatorie (discrete) erano individuate da successioni di valori {x/^} e successioni di probabilitá Px(^k) (Cap. 3); il calcolo della probabilitá di un evento si riconduceva a problemi di conteggio oppure a calcoli con sonunatorie o serie. Tutto ció é sufficiente per descrivere una certa classe di fenomeni, giá abbastanza ricca da illustrare alcune delle idee centrali del Calcolo delle Probabilitá, ma assolutamente insufficiente per modellizzare molti fenomeni reali interessanti: il tempo di vita di un apparecchio soggetto a guasti imprevedibili; il peso o le dimension! effettive di oggetti prodotti in serie e soggetti a variazioni casual!, sono esempi di variabili aleatorie continue. Spazio e tempo sono continui, e ogni misura fisica che abbia le dimension! di una lunghezza, un volume, una velocita (ma non solo!) sará rappresentata da una variabile continua. Non appena poi, per ragioni teoriche o sperimentali, si introducá un fattore di incertezza nella misura di tali grandezze, avremo variabili aleatorie continue. Come abbiamo accennato nel Cap. 2, la definizione di probabilitá nel continuo é piú delicata che nel discreto, e noi aggireremo questo problema evitando di definiré esplicitamente lo spazio di probabilitá su cui é definita una v a. continua. * Ricordiamo che una v a. discreta é definita come una funzione X : Í2 —> R, dove n é lo spazio campionario su cui é definita una probabilitá P : V{ d ) —►[0,1]. In realtá, parlando di v a., raramente abbiamo sfhittato lo spazio campionario fí; in sostanza, per operare con la v a. X, é sufficiente conosceme la legge, ossia l'applicazione / t-> P ( X e I)

per ogni intervallo / C R.

Per introdurre le v a. continue adotteremo proprio quest'ultimo punto di vista Definizione 78. Una v.o. continua X é definita assegnando una funzione / x : R —^ R, detta densitá (continua) della v a. X , con le seguenti proprietá;

f x ( t ) > 0 per ogni t € R;

/ f x { t ) dt = 1.

La densitá f x determina la legge della v a. X al seguente modo;

P { X e /) = ^ / x ( f ) dt

per ogni intervallo / C R.

Affinché la definizione abbia senso, é sufficiente che la funzione f x sia Riemann

* d e i

II

d is c o r s o

c o n c e tti

e

d e l

c h e

s e g u e

lo r o

a s p e tto

n o n

s a rá .

o p e r a tiv o

p e r c ió , n o n

c o m p le t a m e n t e

d o v r e b b e

r is u lt a m

r ig o r o s o e

T u tta v ia

d a n n e g g ia ta .

la

c o m p r e n s io n e

in tu itiv a

Capitolo 3: Variabili aleatoria e modem probabilistici

137

integrabile in senso generalizzato su R. Invece, corne vedremo con gli esempi, non dev'essere necessanamente una funzione continua ^ Esempio 79. La densité uniform e. Per o , 6 e R, a < 6, definiamo la densità uniforme suH'intervalIo {a, b): fx { i)

= 7---- - i ( a . b ) { t ) -

0 —a

(Il simbolo /(o.b)(0 denota la funzione indicatrice dell'intervallo (a, 6), che vale 1 per t e {a, b) e 0 altrimenti). Significa che X assume tutti e soli i valori dell'intervallo (a, b), con probabilité uniforme.

P ( X e J ) = f ^ /( „ .6 ) ( i) d i = - ^ - | ( Q , 6 ) n J | . JJ 0— a O— a La probabilité che X assuma valori in un intervallo J è il rapporto tra la lunghezza di |( a , 6) n J | e la lunghezza di (a, f>). Questo è un esempio in cui la funzione / x ( i ) è discontinua.

L a d e n sità u n ifo rm e s u

(2,4)

Esempio 80. La densità di Cauchy. Sia; fxit) =

1 7t(1 + ¿2)

In questo caso la densità ha una primitiva elementare, e si puô calcolare, per ogni intervallo (a, f>).

P(a< X< b) = Í

dt

Ja 7 r ( l+ í^ )

= - [arctan 7T

= -( a rc ta n 6 - arctan a). TT



Esempio 81. La densità normale standard. Sia;

fx{t) =

.-í*/2

s fïit

^ L'espressione "densità continua" non deve quindi traire in inganno: è una abbreviazione di d e n sità e non significa che la d en sità stessa sia una fiinzione continua.

u n a v a. co n tin u a ,

di

138

CapHolo 3: Variabili aleatone e modelli probabilistici

Si tratta della famosa "curva a campana" di Gauss, o curva degli errori, di cui ci occuperemo piú ampiamente in seguito (v. §3 11). Si dimostra che questa funzione é integrabile su R con integrale 1. La sua primitiva non é pero una ílinzione elementare, perció non é possibile mediante calcoli elementan determinare esplicitamente il valore del suo integrale su un intervallo {a,b) qualunque. In ogni caso é perfettamente sensato scrivere che

ñh *1 F (o < A -< 6 )= /

Ja

v

27T

Vedremo in seguito come calcolare con approssimazione questo integrale.



Osservazione 82. Densità continue e densità discrete. Eventi di pro b ab ilità nulla. Per definizione, ja probabilità che una v a. continua assuma valori in un intervallo I è uguale all'integrale della densità su / , se l'intervallo si riduce a un solo punto l'integrale è nullo. Perciô, se X è una v.a. continua, la probabilità che essa assuma un valore prefissato è sempre zero:

P { X = i) = 0 per ogni i 6 R. E' importante riflettere su questo fatto per varie ragioni

CapHolo 3: Varíabili aleatorio e modelli probabilistici

139

1. Anzitutto, questo significa che, nel continuo, I'espressione "evento di probabilitá nulla" non é sinónimo di "evento impossibile" (come invece era nel discreto). Se X é una v a . uniforme su ( 0 , 1), ad esempio, qualunque valore t e ( 0 , 1) é un valore che X puó assumere, ma P { X = í) = 0 . In sostanza, é significativo solo calcolare la probabilitá che X assuma valori in un intervallo di ampiezza positiva. Questa é una prima fundaméntale differenza tra v a. discrete e continue. 2. In particolare, questo signifíca che, se X é una v a. continua,

P { X < a ) = P { X R, E ( 9 ( X ,) ) =

f

purché l'integrale scrítto esista finito. Una volta defínito il valore atteso di una v.a. continua, i concetti di varianza e covarianza si introducono in modo naturale anche per v.a. continue;

VarX = E { { X - E X f ) ; C o v (X ,y ) = E ((X - EX ) { Y - EK)). Essendo identiche, nel caso discreto e continuo, le propríetá formali del valore atteso (v. Proposizione precedente), ed essendo formalmente identiche nei due casi le defínizioni di varianza e covarianza (che sono espresse in termini di valore atteso), saranno identiche, nel caso continuo e discreto, anche le propríetá form ali della varianza e della covarianza (y. Proposizione 43 e Proposizione 55, nel §3.6). Non é quindi nemmeno il caso di rípeterle; le useremo all'occorrenza. Quello che occorre notare, invece, é come si calcóla la varianza nel caso continuo; l'espressione VarX = E(X ^) - (EX)^ si valuterá calcolando E X mediante la (16), e, in base alia 4 della Proposizione precedente.

E(X") = f i‘fx{t)dt. t/R

143

Capitolo 3: Varíabili aleatoria e modem probabilistici

Esempio 87. Calcólo di media e varíanza della normale standard. Sia:

f x{ t ) =

1

,- 1

( j - T + f)

se —1 < í < 1.

G rá fic o d i F x ( t )

1

3 1 3

145

CapHolo 3: Varíabili aleatoria e modelli probabilistici

Si osservi che la flinzione

Fx è

continua, anche se

fx

non lo è

Osservazione 89. Richíami di calcólo integrale. Le defínizioni che abbíamo dato ríguardo alie v.a. continue coinvolgono vahe nozioni di c a lc ó lo in te g ra le , che forse non è inutile ríchiamare. II valore atteso di una v.a. continua è espresso da

EX che ¿ un in te g ra le

d e fin ito ,

j^tfxit)dt,

=

e perianto (se esiste) è un numero (cioc una costante). Análogamente,

fx(t)dt

L

è un integrale defmito, che vale 1 per defínizione di densitá di v.a. continua. Invece la fu n z io n e

di

r ip a r tiz io n e ^x{t)

= í

fx(y)dy

J -0 0

¿ una fu n z io n e in teg ra te : ad ogni valore reale t associa il valore dell'integrale deñnito della densitá suH'intervallo ( - 0 0 , t] (perianto e una funzione). Qaesío valore rappresenta Tarea sottesa al gráfico della densitá, da - 0 0 a 1. Si osservi Tuso dei d u e simboli di vanabile nella formula precedente: la vanabile "esterna” ¿ la t, che é la vanabile indipendente di Fx, e coincide con Testremo vanabile dell'integrale; la y ¿ la vanabile d'integrazione, o "vanabile muta". Possiamo cambiare in qualunque modo i nomi delle due vahabili, ma non possiamo confonderli tra loro. Ad esempio

Fx{u)=

í

fx{x)dx

J -00

é

una schttura corretta, che ha esattamente lo stesso signiñcato delTespressione precedente, mentre

Fx(t)= f

J -00

fx{t)dt

é una schttura scorretta. Se g { y ) é una p r im itiv a di fxiv). ossia una funzione tale che y'(y) possiamo calcolare la funzione di hpahizione al modo seguente: /

J-oo

fx {y ) dy

= b(y)l-oo =

dove o(-oo) va inteso nel senso dei limiti, ossia

9 (0

=

/x(y).

- y(-oo).

= lim g {y). Viceversa, se conosciamo giá y-»-oo Tespressione analitica di Fx{t), possiamo calcolare la densitá di X semplicemente dehvando Fx : F x it)

(nei punti in cui che la schttura

fx

g(-oo)

=

fx{t)

¿ continua), per il teorema fondamentale del calcólo intégrale. Si osservi infme

/

fx{y) dy

indica V in teg ra le in d e fin ito di f x , owero Tinsieme delle phmitive di f x (perció c un simbolo che indica una fa m ig U a d i in fin ite fu n z io n i) \ in panicolare, n o n é equivalente alia schttura J [ ^ f x { y ) d y , che indica u n a p a r tic o la r e funzione. □

146

CapUolo 3: Varíabili aleatoríe e modelli probabilistici

Esercizi 3.25. 3.26. 3.27.

Calcolare media e varianza della distribuzione uniforme sull'intervalio (a, &). Dimostrare che la legge di Cauchy (v. Esempio 80) non ha valore atteso finito Sia X la v a. continua avente densitá;

f x{ t )

_ íie-‘ " \o

per í > 0 per t < 0

a. Calcolare il valore atteso di X b. Calcolare la funzione di ripartizione Fx{x). c. Disegnare il gráfico di f x e di Fx3.28. Calcolare il valore atteso della v a. X avente funzione di ripartizione: Fx{t) =

1

-

per í > 0 per í < 0

(suggerimento; calcolare prima la densitá). 3.29. Sia X una v a. continua di densitá. f x { i ) = CÍ(1 - t f l( 0 .l){t).

a. Determinare il valore della costante c in modo tale che f x (t) risulti una densitá (cioé il suo intégrale esteso a R si uguale a l ) . b. Calcolare il valore atteso di X. c. Calcolare l'espressione analítica della funzione di ripartizione Fx{t).

3.10.

Le varíabili aleatoríe continue legate al processo di Poisson

3.10.1. La legge esponenzíale e la legge gamma Dopo aver introdotto il concetto di v a. continua, tomiamo ora a considerare il processo di Poisson e, come abbiamo fatto per il processo di Bernoulli, introduciamo alcune v a. legate a questo processo. Defínizione 90. Sia Xt un processo di Poisson di intensitá > 0. Si dice v.o. esponenúale di parametro u la v a. Y (continua) che misura l'istante del primo arrivo in questo processo di Poisson Si scrive Y Esp( v). Esempio 91. Se X t rappresenta il numero di guasti di un'apparecchiatura nell'intervallo di tempo [0, t] e i/ é il numero medio di guasti nell'unitá di tempo, la v a. Y = "istante in cui aw iene il primo guasto" é un'esponenziale di parametro u.

Capitolo 3: Varíabili aleatoria e modelli probabilistici

147

Proposizione 92. Sia Y ~ Esp(i/). Allora:

1. La f.d r . di Y é Fyit) = 1 -

per í > 0, 0 per í < 0;

2. ¡M densiíá continua di Y é f y{t ) = ue~''^ per í > 0, 0 per í < 0; 3. II valore atieso d i Y é l ¡ v \ 4. La varianza d i Y é l ¡v^. Dimostrazione. Calcoliamo P i y > t) per í > 0. Se ~ P{¡/t) é il numero di arrivi nell'intervallo di tempo [0, í], l'evento ( Y > t) =■ "il primo arrivo aw iene dopo l'istante í" coincide con l'evento (Xt = 0) = "il numero di arrivi fino all'istante t é 0". Perció

P ( Y > t ) = P( Xt = 0 ) = e - u t e quindi

Fyit) = P { Y < í) = 1 - P { Y > t ) = \ - e “*'' per t > 0, mentre per í < 0 é owiamente Fvit) = 0. Calcolando la derivata della f.d.r. troviamo la densitá di Y, uguale a

f y i t ) = i/c""* per í > 0, 0 per í < 0. II valore atteso si calcóla ora in base alia definizione;

EY= [ tfy{t)dt= í

Jtt

Jo

tue~^Ut =

(integrando per parti) r+00

r-l-oo

= [-í'-Ío*" + / «/o

t»-\

e-" dí= / «/o

1

u

Análogamente, E (y 2 )= f t ^ f y ( t ) d t = í Jk

i^ve~''^dt =

Jo

integrando per parti, e sfhittando il calcólo precedente di EV, r-\-oo

9

r-\-oo

= [ - t V - r + / Perció V a r r = E(Y^) - ( E Y f = l/u^.

9

148

Capitolo 3: Variabili aleatoria e modem probabilistici

L a d e n sità e sp o n e n zia le

Exp(2)

L a f.d .r . d e ll'e sp o n e n zia le

Exp(2)

O sservazione 93. L'esponenziale come legge delle lacune tra due arrivi. Sia Xt un processo di Poisson di intensità u, e supponiamo che all'istante T si verifíchi il primo "arrivo". Sia Y2 il tempo che dobbiamo attendere ora per il secondo arrivo. La v a. "numero di arrivi nell'intervallo di tempo [T, T + 0, 0 per t < 0;

3. II valore atieso di Y é n f v . 4. La varianza di Y è n/u^. Dim ostrazione. Calcoliamo P { Y > t) per i > 0. Se ~ e il numero di arrivi nell'intervallo di tempo [0, t), I'evento (Y > t) = "I'n-esimo guasto aw iene dopo I'istante i" coincide con I'evento {Xt < n - 1) = "¡1 numero di guasti fino all'istante t e < n - 1". Percio n-1

P { Y > t) = P{Xt < n - 1) = 2_^e k=0

-l/t

k\

da cui segue la 1. Calculando la derivata di questa sommatoria e semplificando opportunamente I'espressione trovata, si trova la 2 (si lascia questo calcolo come esercizio). La 3 e la 4 seguono dal fatto che la K é sonuna di n v.a. esponenziali di parámetro u, indipendenti, per cui media e varianza sono n volte la media e la varianza dell'esponenziale. □ Si noti che per calculare la probabilitá di (a < V < 6) con Y ~ F (n , u), non c'é bisogno di calculare I'integrale della densitá sull'intervallo (a, b), in quanto disponiamo di un'espressione esplicita della f d.r.

150

Capitolo 3: Varíabili aleatoria e modem probabilistici

n = 5 n = 4 n = 3 n = 2 G rá fic o d e lle le g g i

r(n , 1) p e r rj = 2,3,4,5.

Esempio 98. Un apparecchio è soggetto a guasti casuali ehe si realizzano, nel tempo, seconde un processo di Poisson. Il tempo medio tra due guasti è 3 giomi. a. Quai è la probabilité ehe il primo guasto aw enga dopo meno di 3 giomi? b. Quai è la probabilité ehe il quarto guasto aw enga dopo più di 15 giomi? c. Quai è la probabilité ehe in 5 giomi si realizzino esattamente 2 guasti? d. Quai è la probabilité ehe in 5 giomi si verifichino almeno 2 guasti? a. Il numéro di guasti ehe si realizzano nel tempo è un processo di Poisson di intensité 1/ = 1/3. La v a. X = "istante in cui si realizza il primo guasto" ha legge Esp(i^) = E sp (l/3 ). Fx{t) = 1 (p é ri > 0), perciô

P ( X < 3) = 1 -

= 1 - e " ‘ = 0.632.

b. La v a. Y = "istante in cui si realizza il quarto guasto" segue una legge r ( 4 , 1/3). Perciô t/3

Fri t ) = 1 -

k\

it=0

P(y > 15) =

(t/3)‘

^+ f

+

La v a. Z = "numero di guasti che si realizzano in 5 giomi" ha legge di Poisson, Z ~ Po(5/3), perciô C.

P { Z = 2) =

(5 /3 )'

= 0.2623.

d. Quai è la probabilité che in 5 giomi si verifíchino almeno 2 guasti? P ( Z > 2) = 1 - (P (Z = 0) + P ( Z = 1)) =

=

1-

=

0 ,496.

Capitolo 3: Varíabili aleatoria e modelli probabilistici

151

Defínizione 99. Se r, u sono numen reali positivi qualunque, si definisce legge gamma di parametri r, v la legge di una v a Y di densitá /v '(í) = Cj. ¡, f

’e “*"' per í > 0, 0 per í < 0,

e si scrive Y ~ r ( r , i / ) . (II valore della costante Cr^t, é definito implicitamente dal fatto che la densitá deve avere intégrale 1). La definizione precedente generalizza quella di legge Gamma di parametro n intero. Le proprietá matematiche della legge gamma di parametro intero o non intero sono simili; la diíferenza fondamentale é che, se r non é intero, la v a. Y non si puó vedere come somma di v a. esponenziali indipendenti, e non ha il significato intuitivo di "istante dell'r-esimo arrivo". Questo significa che, per esempio, l'espressione del valore atteso e della varianza vanno calcolate in base alia definizione, non potendosi dedurre immediatamente da quelle della densitá esponenziale. II risultato che si trova, comunque, é quella che ognuno si aspetta; Se y ~ r ( r , I/), E y = r/i/, Vary = r/i/^. Inoltre, non c'é un'espressione esplicita della f.d.r. che non coinvolga integral!. Tra le densitá Gamma con parametro r non intero, vedremo in seguito che avranno particolare importanza quelle con parametro r semiintero (r = n /2 ) e = 1/2. la legge r ( n / 2 , 1/2) viene chiamata anche legge chi-quadro a n gradi di libertá, ed é moho importante nella statistica inferenziale (v. Cap.4). O sservazione 100. Stima del param etro \ di una legge esponenziale. La legge F ci permette di rísolvere il seguente problema statistico. Supponiamo di estrarre un campione casuale da una popolazione di densitá esponenziale, con parametro incógnito, e di voler stimare tale parametro. Sappiamo che, se X ~ Esp(A), é

perció la media campionaria X „ é uno síimatore non distarío di 1/A (si veda il §3.6 2). Per stimare A, sembra quindi naturale considerare lo stimatore j, 1 ^ -* — — “ñ



i=\ Questo sará uno síimatore non distaría di A? Si noti che questo non é ovvio, perché in generale non é vero che sia E (l/y ) = 1/Ey. Perció il calcólo di E T non é banale. Questo calcólo si puó eseguire sfhittando; il fatto che E -^» ~ ^“(71, A); í=i • la formula per il calcólo del valore atteso di una ílinzione di una v a. (Proposizione 86, punto 4).

152

CapHolo 3: Varíabili aleatoria e modelli probabilistici

Infalti: posto Y

=

~ r(n , A), calcoliamo:

i=I

ET = n E ( i ) = n ^ i / v ( t ) d í =

=

n

i

yo t

dt

CnC-*^

= n -^ C n -1

ncn r ^ - ' ^ yo

=

í " '*

dt

=

r C n .ie - ^ r -^ d t = n - ^ . ^Jo

^

C rx -l

= 1 L'ultimo intégrale scritlo vale 1 perché é l'integrale di una densitá r(n - 1. 1/). Basta ora ricordarsi l'esatta espressione della costante Cn'. ^ = Q u in d i T

— 7T:\ pcrció (n -l)!’

~

„ ET

=

I/'' (n - 2)! n _ ; = ----- r • (n - 1)! !/"-• n -l

n - ----- —

é u n o s tim a to r e d isto rto d e l p a r á m e tr o v .

Per avere uno stimatore corretto, occorre

considerare

"

EJÍ¡ i=l

Conclusione: se ( X i, X 2, . . . , X „) é un campione casuale estratto da una popolazione di legge Esp(i/), uno stimatore non distorto di u basato sul campione é

n —1 U = ”ñ ' E ^. A campionamento eseguito, stimeremo 1/ con

u=

n -l E^. t=l

Esercizi 3.30. Una folla di persone aspetta in fíla indiana il taxi, alia stazione céntrale. Sia X il numero di taxi che passa in un'ora e TV il numero medio di taxi che passano in un'ora (N é noto). a. Sotto quali ipotesi sul fenómeno si puó assumere che X sia una v.a. di Poisson? b. Ci si metta d'ora in poi nelle ipotesi del punto a. S t N = 20, qual é la probabilitá che nella prossima mezz'ora passino non piú di 5 taxi? c. Sia Y il tempo di attesa, espresso in ore, perché arrivi il primo taxi. Riconoscere la legge di Y . Qual é la probabilitá che il primo taxi arrivi in meno di un minuto? d Se io sono il quinto della fíla, e ogni taxi carica una persona, quanto dovró aspettare in media per prendere il taxi? e. Qual é la probabilitá che io debba aspettare piú del doppio del tempo medio

Capitolo 3; Varíabili aleatoríe e modelli probabilistici

153

calcolato in ef? 3.31. Un apparecchio elettronico produce mediamente N impuisi al secondo. Sapendo che il numero di impuisi segue una legge di Poisson, stabilire la probabilitá; a. che in 1000 secondi si veriíichino almeno 2500 impuisi; b. che il primo impulso si verifíchi dopo almeno 2 secondi; c. che si debba attendere piü di 3 secondi per avere K impuisi. Citare esplicitamente le distribuzioni notevoli che si utilizzano per rispondere alie domande. Owiamente, per le probabilitá é richiesta una formula, non un risultato numérico. 3.32. Sia A il numero medio di meteoriti che ogni anno raggiunge l'atmosfera terrestre. Solo una frazione p di queste raggiunge la superficie terrestre; infine, solo una frazione q della superficie terrestre é abitata. a. Qual é la probabilitá che in un mese almeno due meteoriti cadano su una zona abitata? Si giustifichi il modello utilizzato per rispondere, esplicitando le ipotesi fatte. Si dia poi un risultato numérico supponendo A = 10^, p = 3 • 10 q = 0.1. b. Sia Y il tempo, espresso in mesi, che occorre aspettare prima che 3 meteoriti cadano su qualche zona abitata. Dopo aver riconosciuto la legge di Y , si caicoli la probabilitá che questo tempo sia < 2 mesi (sfhittando i valori per A, p, q dati nel punto precedente). c. Nella "notte di S. Lorenzo" (10 agosto) si osserva un numero particolarmente elevato di meteoriti in arrivo nell'atmosfera terrestre. Se questo é vero, qualcuna delle ipotesi fatte nel punto a va rivista? Come e perché? Si discutano i limiti di validitá delle conclusion! tratte ai punti a e b . 3.33. Un ospedale ha un generatore elettrico d'emergenza connesso ai circuit! ausiliari che fomiscono energia ad alcune aree critiche; in caso di black-out, l'unitá prow ede energia elettrica alie sale operatorie e ad alcuni impianti. II tempo medio tra due guasti del generatore d'emergenza é 100 ore. a. Calcolare la probabilitá che il generatore si guasti durante un black-out di 10 ore. b. Supponiamo che un secondo generatore d'emergenza idéntico operi in parallelo. II sistema si blocca solo se, durante un black-out, entrambi i generator! si guastano. Calcolare la probabilitá di questo evento durante un black-out di 10 ore. 3.34. Siano p, (7 la media e la deviazione standard di una v.a. X ^ Esp(A). Calcolare

P ( \ X - p \ < ka) per A: = 1 ,2 ,3 . Si confrontino i valori ottenuti con le corrispondenti stime fornite dalla disuguaglianza di Cebicev (Teorema 49, §3.6.1). 3.35. Un implanto ha registrato, nelle ultime ore di lavoro, guasti alie ore: 7 ,8 ,2 3 ,2 4 ,2 5 ,2 7 ,4 4 ,4 9 ,5 2 ,5 8 ,8 2 ,9 2 ,1 2 3 ,1 2 5 ,1 3 4 .

a. Assumendo che il tempo tra due guasti successivi segua legge esponenziale, si stimi il parametro A. b. Si traed un istogramma delle osservazioni relative alia variabile T = tempo fra due guasti. c. Assumendo che il valore stimato per A sia il valore vero, si caicoli la varianza della v.a. T = tempo fra due guasti. Si confront! poi la varianza calcolata cosí con la varianza campionaria, calcolata dalle osservazioni. II confronto tende a conformare o smentíre il fatto che il modello di Poisson sí applichi?

154

Capitolo 3: Variabili aleatoria e modem probabilistici

3.10.2. Analogie tra processo di Bernoulli e processo di Poisson. Propriété di assenza di memoria I due process! che abbiamo incontrato finora, di Bernoulli e di Poisson, hanno profonde analogie fra loro. Usando il linguaggio degli "arrivi" possiamo dire che il processo di Poisson descrive gli "arrivi casuali" che si verificano in un tempo "continuo" (I'airivo puo accadere in qualsiasi istante t > 0), mentre il processo di Bernoulli descrive gii "arrivi casuali" che si verificano in un tempo "discreto" (gli "istanti" sono ora le prove di Bernoulli, e "successo alia prova fc-esima" vuol dire "al A;-esimo istante c'è un arrivo"). Questa terminologia permette di illustrare le analogie tra le v a. legate ai due process!: Nel processo di...

Bernoulli di paramétra p

Poisson di intensità v

it tempo è...

discreto

continuo

II n° di arrivi in...

n

è una v.a....

binomiale B { n , p )

prove...

un intervallo (0, t]... di Poisson

L'istante del 1° arrivo è una v.a.... geométrica G (p)

esponenziale Esp( v )

L'istante dell'n-esimo arrivo, a partiré daH'(n - l)-esimo è una v.a.... geométrica (7(p)

esponenziale Esp(z/)

Il tempo medio di attesa del 1° arrivo è... 1/p

\/u

Il tempo di attesa prima del 1° arrivo è una v.a.... geométrica traslata G'(p)

esponenziale Esp(i/)

... e prima dell'n-esimo arrivo (nel discreto, n° di insuccessi) è una v.a.... binomiale negativa B { - n ,

p)

gamma r(n ,

¡/)

... ed è somma di n v.a. indipendenti di legge... geométrica traslata G ' { p )

esponenziale Esp(t')

Le v.a. "numero di arrivi" sono owiamente discrete; le v.a. "istante del primo (o dell'n-esimo) arrivo" sono continue se il tempo é continuo, discrete se il tempo é discreto. In entrambi i process! la v.a. "tempo di attesa per l'n-esimo arrivo" é somma di n v.a. indipendenti del tipo "istante del primo arrivo" (nel caso discreto, il tempo di attesa é misurato dal numero di insuccessi). Infatti, in entrambi i process!, la legge della v.a. "tempo di attesa per il primo arrivo" é anche la legge del "tempo di attesa tra due arrivi successivi". Quest'ultimo fatto é legato alia cosiddetta proprieíá di assenza di memoria dei due process!, che significa quanto segue. Se stiamo aspettando il primo arrivo, e dopo un tempo T non si é ancora verificato, qual é la proprietá di dover aspettare ancora per un tempo t (e quindi, in totale, di dover aspettare T + ¿)? E uguale alia probabilitá che avevamo, all'inizio, di dover aspettare almeno t. In altre parole; ad ogni istante il processo azzera la propria memoria del passato, e il fatto che Tarrivo non sia finora accaduto non altera la probabilitá di dover attendere tanto o poco perché si realizzi.

Capitolo 3: Ve^abili aleatoria e modelli probabilistici

155

Formalizziamo questo discorso. Sia Y la v.a. "istante del primo arrivo". Assenza di memoria significa;

P (Y > T + t \ Y > T ) = P {Y > t).

(17)

II primo membro é uguale a

P {Y > T - h t , Y > T ) P ( Y > T + t) P(Y >T) ~ P { Y > T) ' quindi la proprietá di assenza di memoria si esprime cosí:

P { Y > T + í) = P { Y > t) ■P { Y > T).

(18)

É facile ora dimostrare che il processo di Bernoulli e di Poisson hanno questa proprietá. La v.a. "tempo d'attesa per il primo arrivo" é, nei due processi, una v.a. geométrica (traslata) e una esponenziale. Se K ~ Esp(i/),

P {Y > t ) = e “"', e la (18) segue per la proprietá delle potenze. Se Y r\j

P ( Y > k ) = { l - p )^ e la proprietá

P { Y > K + k) = P ( Y > k) ■P {Y > K) , di nuovo, segue immediatamente. La cosa notevole che si puó dimostrare é che questa proprietá di assenza di memoria é caratteristica delle due v.a. considerate, ow ero: Proposizione 101. Se Y é una v.a. che soddisfa la (18), allora: se Y é una v.a. continua, necessariamente ha legge esponenziale; se Y é una v.a. discreta, necessariamente ha legge geométrica traslata.

3.10.3. Tempo di vita di un apparecchio Vediamo ora una delle possibili applicazioni concrete della proprietá di "assenza di memoria" (del processo di Poisson), che abbiamo discusso in astratto nel parágrafo precedente. Sia Y la v.a. (continua) che rappresenta il tempo di vita di un apparecchio soggetto a guasti imprevedibili, e consideriamo ancora la ( i 7). Questa proprietá esprime il fatto che la probabilitá che un apparecchio che ha giá vissuto un tempo T viva ancora per un tempo t é uguale alia probabilitá che l'apparecchio, da nuovo, viva almeno per un tempo t. Questo significa che l'apparecchio "non é soggetto a usura", ossia; l'apparecchio non invecchia, il passare del tempo di per sé non rende piú probabile (o meno probabile) il suo guastarsi. Molti component! semplici (ad es. in elettronica) hanno effettivamente questa proprietá: la loro "morte" aw iene per guasti casual!, indipendentemente dal passare del tempo. Per quanto abbiamo visto nel parágrafo precedente, se abbiamo motivo di ritenere a priori che l'apparecchio sia "non soggetto a usura" (nel senso ora precisato) allora necessariamente il suo tempo di vita .tara una v.a. di legge esponenziale.

156

CapUolo 3: Varíabili aleatoria e modelli probabilistici

Questo falto illustra il signifícalo modellistico della v.a. esponenziale: é l'unico modello adeguato a rappresentare il tempo di vita di un apparecchio non soggetto a usura. Tullo il discorso precedente si puó parafrasare sostituendo "tempo di vita" con "tempo di ñinzionamento senza guasti" (in altre parole, si sta ora supponendo che dopo ogni guasto l'apparecchio sia rimesso in ñmzione). In questo caso "assenza di usura" signifíca che, non appena si é riparato un guasto, l'apparecchio riprende a funzionare "come nuovo", ossia senza una maggior (né minore) propensione di prima a guastarsi nuovamente. Naturalmente molti apparecchi sono invece soggetti ad usura, nel senso che "invecchiano". Questo si puó esprimere formalmente dicendo che

P { Y > T + t \ Y > T ) < P {Y >t ) .

(19)

(La probabilitá che un apparecchio che ha gia vissuto per un tempo T viva ancora per un tempo t é minore della probabilitá che un apparecchio nuovo viva almeno per un tempo t : il tempo aumenta la propensione al guasto). Inline, si puó ipotizzare che esistano apparecchi che sono "meglio usati che nuovi", ossia tali che

P ( Y > T + t \ Y > T ) > P { Y > t).

(20)

Nella descrizione dei tempi di vita di apparecchi, si cercheranno quindi v.a. che soddisfíno, tra le tre proprietá (17), (19), (20), quella che meglio traduce le caratteristiche dell'apparecchio in esame. Mentre peró esiste una sola legge che soddisfa la (17) (e questo é ció che rende cosí importante la legge esponenziale), ce ne sono infinite che soddisfano la (19) o la (20). Gli esempi che seguono illustreranno queste idee. Esempio 102. Sistema costituíto da componenti non soggetti a usura, disposti in sene o in parallelo. a. Si calcoli il tempo di vita di un sistema costituito da tre elementi identici posti in serie, se ciascuno di essi ha tempo di vita di legge Esp{\ i ) (i = 1 ,2 ,3 ), e le tre "vite" sono indipendenti. Si calcoli poi il tempo medio di vita del sistema, in funzíone dei tempi medi di vita dei componenti. b. Lo stesso problema nel caso di tre elementi in parallelo. c. Le v.a. tróvate sono note? Si dica, in ciascuno dei due casi, se il sistema cosí ottenuto é soggetto o no a usura. Sia Ti il tempo di vita del componente r-esimo (t = 1 ,2 ,3 ) e sia T il tempo di vita del sistema. Caso a. I tre componenti sono disposti in serie. Allora appena se ne guasta uno, si guasta il sistema, perció

T = tmn(Ti,T2,T^). Come si calcóla la legge del mínimo tra v.a. note? Questo é un problema il cui interesse va oltre questo esempio. E' utile ragionare cosí. Per definizione di minimo,

P {T > t) = P{Ti > t , T 2 > í.T s > í) = per l'índipendenza delle v.a.

Capitolo 3: Varíabili aleatoria e modelli probabilistici

157

= P (T , > t) ■P{T2 > t) • F (T 3 > í) = nel nostro caso, essendo le v a. esponenziali, se í > 0 _

+'^2+’^3)í

Perció

Frit) = 1 - P { T > t ) = \ da cui si riconosce súbito che T é una v a. di legge Esp(Ai + A2 + A3 ). Quindi il sistema non é soggetto a usura. Si poteva prevedere questo rísultato col seguente ragionamento. Supponiamo di osservare l'apparecchio dopo un certo tempo T ; se esso flinziona ancora, significa che íutíi e tre i componenti funzionano ancora; ciascuno dei tre componenti non é soggetto a usura, e dunque anche il sistema non presenta usura II tempo medio di vita del sistema é ET =

1 Al + A2 + A3

1 -ti + — ± )

=

P(^

P{x > 2 /3 ) - P{X >

< X < 1) > -fe)

~

1)

> 2 /3 )

usando I'espressione (21) ed eseguendo esplicitamente i calcoli, (con calcolatrice o computer): = 0.101082. Quindi con probabilitá circa del 10.1%, un apparecchio che é "soprawissuto" per 8 mesi si guasterá entro i 4 successivi. Per confronto, calcoliamo la probabilitá che un apparecchio nuovo si guasti nei primi 4 mesi;

ow ero solo lo 0.49%. Il confronto mostra quindi che I'apparecchio é soggetto a usura.

Esercizi 3.36. Un computer é costituito da 4 sottosistemi in serie, ciascuno dei quali si puo guastare, indipendentemente dagli altri, causando il blocco del computer. Supponendo che il tempo di buon ftinzionamento di ciascun sottosistema sia una v.a. esponenziale di parámetro A, determinare: a. la distribuzione della v.a. "istante in cui si blocca il computer"; b. il valore atteso del tempo prima del blocco del computer, sapendo che il valore atteso del tempo prima della rottura di un sottosistema é di 2000 ore; c. la probabilitá che il tempo di flinzionamento del computer superi le 100 ore. 3.37. La durata X di un componente elettronico segue una legge esponenziale con durata media 12 mesi. a. Determinare la probabilitá che un componente che é giá durato per 3 mesi duri, complessivamente, per piú di 12 mesi. b. Quando si guasta un componente, questo viene sostituito con uno nuovo dello

160

Capitolo 3: Varíabili aleatoria e modelli probabilistici

stesso tipo. Calcolare la probabilitá che una scorta di 4 componenti (compreso il primo che viene posto in funzione) sia suñiciente a garantiré una durata complessiva di almeno 36 mesi. Calcolare il valore atteso e la deviazione standard della durata complessiva fomita dai 4 componenti. c. Qual é il mínimo numero di componenti da avere aflfinché con probabilitá almeno del 95% la durata complessiva sia di almeno 12 mesi?

3.10.4. La funzione di i s t a n t a n e o u s e le leggi di Weibull

fa ilu r e r a te

Per descrivere il diverso comportamento di apparecchi soggetti o non soggetti a usura, invece di utilizzare le 3 relazioni (17), (19), (20), si puo introdurre un'unica funzione che descriva la propensione istantanea al guasto, al seguente modo. Sia Y una v.a. che misura il tempo di vita di un apparecchio; supponiamo per semplicita (per ora) che Y sia discreta (ad esempio, il tempo di vita e misurato in giomi, senza decimali). Sia

Z{k) = P { Y = k \ Y > k). La v.a. Z rappresenta la probabilita che I'apparecchio si guasti esattamente all'istante k, sapendo che ha funzionato fino a quei momento. Per definizione di probabilita condizionata, si puo riscrivere come

Z{k) =

P{Y = k , Y > k ) P { Y > k)

P ( Y = k) P(Y>k)

pY(k) P(Y>k)

Se ora Y é una v.a. continua (come é piú naturale supporre quando Y rappresenta un tempo), non ha piú senso calcolare P { Y = t\ Y > t), perché P ( Y = t) = 0 . Tuttavia ha senso considerare, per analogia, la funzione

Z{t) =

frit) P{Y> t)

frit) 1 - F k (í ) ’

che rappresenterá ancora il tasso istantaneo di "mortalitá" o propensione istantanea al guasto dell'apparecchio ("istantaneous failure rate"). Questa funzione é utilizzata spesso nello studio deiraffidabilitá e del tempo di vita di un apparecchio. Una tipica curva Z(t) presenta un gráfico all'incirca costante per valori medi di í, crescente per t grande e decrescente per t piccolo, a significare che, mediamente, tra gli apparecchi nuovi c'é una certa probabilitá di avere guasti quasi súbito (per difetti di fabbricazione); superata la prima fase critica, la propensione al guasto si assesta su valori circa costanti, fin quando I'apparecchio non invecchia, e questa ricomincia a salire:

Esempio di funzione Z(t)

Capitolo 3: Vahabili aleatoria e modelli probabilistlci

161

Esempio 105. htantaneous failure rate per la legge esponenziale. Se y ^ Esp(t^), possiamo calcolare;

m

=

fvit)

-i/t

^

e -i/t

1 - Fri t )

= u per ogni Í > 0.

La propensione istantanea al guasto é costante, e coincide con il numero medio di guasti nell'unitá di tempo. Esempio 106. htantaneous failure rate per la legge gam m a. Se K possiamo calcolare;

F (n , v),

Z(i) = frit) k=0 tn =

1

Cr,

k=0 Si osservi che il denominatore é un polinomio di grado n — 1 in t, e vale 1 per í = 0. Perció la ñinzione Z( t ) si annulla per í = 0 e tende a un valore positivo finito per í +00 (asintoto orizzontale); anzi, questo limite é proprio u (basta scrivere il valore esatto di Cn e fare il calcólo). Si puó anche verificare che la flinzione é monotona (crescente). Questo studio ci dice che la legge gamma descrive il tempo di vita di un apparecchio la cui propensione al guasto cresce col tempo, fin o al limite u (che é quello che avrebbe se il tempo di vita fosse esponenziale). Questo significa che, se ¡'apparecchio riesce a Junzionare per un tempo abbastanza tungo, diventa indistinguibile da un apparecchio non soggetto a usura, cioé con legge di vita Esp(i^). La flinzione Z{ t ) dá anche modo di costruire nuovi modelli per rappresentare il tempo di vita di un apparecchio. Consideriamo ad esempio una semplice ftmzione del tipo Z( t )

= ct^, per í > 0 (y9 e R)

e chiediamoci: esiste una densitá / k (í ) {"failure time distribution’') di cui questa é la corrisponente flinzione di isíantaneous failure rate? Per ríspondere, riscriviamo la defínizione di Z{t) frit)

1 - Frit)

= m .

e vediamola ora come un'equazione in cui Z(í) ¿ assegnata e f y , F y sono incognite. Ricordando che ^ ( 0 = f r i t ) , posto Ry{t) = 1 - Fy(t),

si ha Ry(t) = - f y { t ) ,

e l'equazione si riscrive come

162

Capitolo 3: Variabili aleatoríe e modem pnbabilistici

R'yit) ^rit)

-Z (t)

ossia

~ i \ o g R y { t ) = Z{t).

dt‘

Si tratta di un'cquazione diffcrcnziale elementare in Ry{t), le cui soluzioni sono: fly-(i) = ke-JizMdu

Se K é una v.a. positiva. Ry{0) = 1, perció )fe = 1 c üy(í) = e'io2(ti)du

Dairuitima relazione scritta si ricava infine;

F y H) = 1 - e

(per f > o).

Nel caso Z { t ) = ct ^, si trova

Fy(_t) = l-e -« ‘"no* -l;

fy(t) =

Si osservi Che scelti comunque O 0,/? > - i , quella trovata e efTettivamente una density la cui funzione di istantaneous failure rate e la Z (i) assegnata. Si tratta di una famiglia notevole di densita, note col nome di densitd di Weibull. Questa famiglia di densita e piuttosto versatile in quanto per ^ > o la funzione Z{t) e crescente (apparecchio "che invecchia"), per - 1 < /3 < o la Z (i) e decrescente (apparecchio "meglio da vecchio che da nuovo"); per /3 = 0 si ritrova la legge esponenziale.

D e n sitá d i W e ib u ll p e r c = \ e ( 3 =

F u n zio n e Z { t ) p e r le le g g i d i W e ib u ll c o n

-0.5; 0.5; 1.5; 2.5

c = 1 e /3 = -0.5; 0.5; 1.5; 2.5

163

Capitolo 3: Varíabili aleatoria e modelli probabilistici

Esercizi 3.38. Si scriva esplicitamente la flinzione Z{t) per una v.a. di legge r ( 2 ,i/), e se ne tracci il grafico. 3.39. II tempo di vita Y di un apparecchio, espresso in anni, e descritto da una legge di Weibull con c = /5 = 1. Calcolare; a. ¡1 tempo io per cui si ha P ( Y > to) = 0.5. b. la probabilita ehe un apparecchio ehe ha giä vissuto un anno, viva ancora per un tempo almeno to3.40. Determinare la densita della v.a. "tempo di vita" per un apparecchio costituito da due componenti identici e indipendenti, ciascuno con tempo di vita descritto da una legge di Weibull con c = ß = 1, disposti; (a) in Serie; (b) in parallelo. (Suggerimento: ragionare come nell'Esempio 102).

3.11. II modello normale 3.11.1. La legge normale e le sue propriété Abbiamo già incontrato (§3.9) la legge normale standard iV (0,1). Ricordiamo che

Z ~ N { 0 , 1) significa che Z ha; densità;

f z{t ) = v /^

f.d.r:

Fz{t) =

b !z ^

, - ‘V2 = = v^(0:

r y/27rJ-oo

= k) = a; (c) P (|Z 1 > fc) = q ; (d) P{\Z\ < k) = a. Risolviamo perció una volta per tutte questi problemi. (a) . Per defínizione di quantile, sará

P { Z < Za) = Q, con

Za

quantile a-esim o della legge normale standard.

(b) P ( Z > k) = a equivale a P ( Z < k) = 1 — a, perció

P { Z > 2,_„) = a . (c) Per la simmetria di Z, P{\Z\ > A:) = 2 P{ Z > k) = a per P { Z > k) = a/ 2. Per il punto (b), allora,

P(\Z\ >

Zx-a/2 )

= OL

(d) P{\ Z\ < k) = a equivale a P {\Z \ > A:) = 1 —q , perció per il punto precedente =

^ 1-( 1- q )/2 =

2 ( \ + o )1 2

:

P{\Z\ < 2( 1+o)/2) = a .

Riassumendo: P { Z < Zq) = a P{\Z\ > 21- 0/ 2) = o

P { Z > 2i_o) = 0 P{\Z\ < 2(n_o)/2) = 0



CapUoto 3; Variabili aleatone e modetti probabilistici

165

Queste formule sono utili insieme a una tabella dei quantili di Z, almeno per i piú comuni valori di a: a ■2a

0.90 1.2816

0.95 1.6449

0.975 1.96

0.99 2.3263

0.995 2.5758

0.999 3.0902

0.9995 3.2905

Tabella dei quantili della legge normale standard Esempío 108. Si trovi k tale che P{\Z\ < k) = 0.95.

fy

Poiché Q = 0.95, k = Z(\+q)/2 = 20.975 = 1-96. A partiré dalla legge 7V(0,1) si introduce la famiglia delle leggi normali, al modo seguente; Teorem a e defínizione 109. Sia Z ~ ÍV (0,1), /i € R, cr > 0, e sia X = Allora la v.a. X ha densitá y ¡¡'t '

^

\

^

/

v27Tcr

aZ+fi. (23)

funzione di ripartizione

Fx{t) media E X = p, varianza WarX = a^. Una v.a. continua X avente densità (23) si dice avéré legge normale (o gaussiana) di media p e varianza e si scrive X Se X 7V(/i, g^), allora la v.a. Z = (X — p ) f a ha legge normale standard. Dim ostrazionc. Dal fatto che X = a Z

p segue subito che

E X = crEZ + P = P (perché E Z = 0), e VarX = a^V arZ = a^ (perché V arZ = 1). Inoltre;

Fx(t) = P ( X < t ) = P { a Z + p < t) =

Infine,

166

Capitolo 3: Varíabili aleatoria e modelli probabilistici

\ í t —p a dt \ a

^ (t-nf/2a^

= Í^ (1 Z £ )

P ( X < p ) = P { X > p ) = 0.5

(qualunque sia la varianza a^).

Capitolo 3: Variabili aleatone a modelli probabilistici

167

G ra fic i d e lle d e n sitá di a lc u n e le g g i n o rm a ti

Si puo anche dimostrare il seguente risultato: Teorem a 111. Siano X \ siano a, 6 6 R. AIlora

Xi + X2 ~

rsj

rsJ

p>2i

N {p 2ya\), v.a. normali indipendenti, e

"I" 10. Nel prossimo esempio illustreremo questa awertenza.

CapHolo 3: Varíabili aleatoríe a modelliprobabilistici

Esempio 121. Approssimazione normale délia Binomiale

B{n,p).

111

Sia

con P e (0,1) e n "grande". Ricordiamo che si pu6 scrivere

i=\ r

'

P

con X i v a. i.i.d. di legge B{p). Inoltre E ^ i,= p, Var;X,j= p (l - p). Ne segue che

Y ~ N{ np, np{ l — p)). o w ero

t — np \/n p (F ^ che è il modo che si usa comunemente per calcolare la f.d.r. de||a binomiale, quando n ¿grande. La densità binomiale è simmetrica per p = 0.5, ed è tanto più asimmetrica quanto più p è vicino a 0 O 1. Tenendo conto di questo fatto e dell'osservazione precedente, una buona norma è quella di applicare l'approssimazione normale della binomiale B{n, p) solo se sono verifícate le condizioni; n p > 5; n ( l - p) > 5.

(25)

Si ricordi che, se n è grande e p è piccolo, la binomiale puô essere approssimata anche dalla legge di Poisson Po(np). Se p invece di essere piccolo è prossimo a 1, si puô contare il numero di insuccessi invece di quello dei successi, ed avéré un processo di Bernoulli di parámetro p' = (1 - p) piccolo; la legge B (n , (1 - p)) puô allora essere approssimata dalla Poisson Po{n{l - p)). Se n è grande ma p non è né piccolo né prossimo a 1, l'approssimazione di Poisson non é adatta, mentre l'approssimazione normale funziona bene, perché le condizioni (25) saranno fácilmente verifícate. □ Per usare correttamente l'approssimazione normale della binomiale occorre ancora una precisazione; Osservazione 122. Correzione di continuita. Quello che ora diremo nel caso della legge binomiale vale, più in generale, ogni volta che si usa l'approssimazione normale per una v a. discreta, che assume valori interi. Sia Y ~ B{n, p), e consideriamo ancora l'uguaglianza approssimata:

P { Y < Í) ~ $ I

t — np \/n p (r^ ^

Questa relazione vale per ogni t G R. In realtà perô, mentre la fùnzione a secondo membro é una flinzione continua e strettamente crescente, la fùnzione P ( Y < t) è costante per t G [ k , k + l), quando k é intero (k = 0 , 1 , 2 , . . . ,n). Dunque per approssimare P ( Y < k), che é uguale a P { Y < k + 6), per ogni ¿ e [0,1), é altrettanto lecito usare

178

Capitolo 3: Varíabili aleatoria e modelli probabilistici

k + 6 — np y/np{l - p)

per qualsiasi 6 e [0 ,1).

Poiché $ è crescente, è ragionevole aliora scegliere un valore intermedio di 6, tipicamente 6 = 0.5. Perció riscriviamo l'approssimazione normale della binomiale c o s í;

P { Y < fc) ~ $ I

Al + 0.5 —np

y/np{\ - p )

per fc = 0 , 1 , 2 , . . . , n.

(26)

Questa approssimazione è più precisa della precedente, che non tiene conto del fatto che la f.d.r. della binomiale è costante a tratti. L'introduzione del termine " + 0.5" nella formula precedente prende il nome di correzione di continuità, ed è opportuna ogni volta che si usa la normale per approssimare una legge discreta. Il prossimo gráfico illustra visivamente come la correzione di continuité migliori l'approssimazione normale;

G rá fic o d e lla f.d .r . d e lla le g g e B ( 1 7 , 0.3) e d e lla s u a a p p ro ssim a zio n e n o rm a le N(5.1,3.57)

In questo caso, n = 17, p = 0.3, 1 —p = 0.7, perciô n ( l — p) > np = 5.1 > 5. Perciô siamo nelle condizioni di applicabilité dell'approssimazione normale. Si osserva che la linea continua (fd.r. della normale) taglia ciascun "gradino orizzontale" (f d.r. della binomiale) circa a meté, ossia (circa) nei punti di ascissa k + 0.5. Questo spiega perché la correzione di continuité migliori l'approssimazione; nel punto x = 2.5, ad esempio, i due grafíci sono moho più vicini tra loro che nei punti x = 2 e x = 3. Un altro modo di visualizzare la correzione di continuité consiste nel ragionare sulle densità della binomiale e della normale, anziché sulle fd.r.. Corne gié segnalato, densité discreta e densité continua non sono oggetti matematici omogenei tra loro (la prima indica una probabilité, la seconda una densité di probabilité). Nel caso di una v.a. Y ~ B{ n, p) (o di un'altra v a. discreta che assuma valori inferí) c'è un semplice espediente, pero, che permette di trasfoimare la densité discreta in una densité continua, per poi potería confrontare, su un gráfico, con la densité della normale E' sufficiente considerare la funzione "a gradini" che su ogni intervallo del tipo (A: - 0.5, À; + 0.5) assume il valore costante P { Y = k). Poiché l'intervallo

CapHolo 3: Varíabili aleatoria e modelli probabilistici

179

{k - 0.5, k + 0.5) ha ampiezza 1, Tarea sottesa al gráfico della funzione a gradini su quest'intervallo é uguale a P { Y — k). E' come se avessimo sostituito la v a. discreta Y con una v a. continua X , con la proprietá che P { k - 0 . 5 < X < k + 0.5) = P { Y = k). Consideriamo ad esempio una v a. Y ~ B (20,0.4), e tracciamo il gráfico della curva a gradini costruita nel modo spiegato. Poiché np = 8, n ( l — p) = 12, Tapprossimazione nórmale é applicabile. Tracciamo sullo stesso gráfico la densitá della legge W ~ N( np, np( l —p)) = N{S, 4.8). La figura evidenzia il fatto che:

P { Y = k ) c : i P { k - 0 . 5 < W < k + 0.5). La differenza tra le due probabilitá, infatti, é la differenza tra Tarea sottesa alia curva, sulTintervallo {k - 0.5, k + 0.5), e Tarea del rettangolino. Ad esempio, P { Y = 7) é Tarea del rettangolo sopra il punto 7, parí a (^°)0.4^ • 0.6’^ = 0.1659; Tarea sottesa alia curva sulTintervallo (6.5,7.5) é parí a

~

= 0 1 630, e

differisce da questo valore per una quantitá parí alia differenza tra le aree delle due region! tratteggiate in figura;

Ripetendo il discorso per ogni rettangolino avremo

P {Y < fc) ~ P {W < k + o w ero ritroviamo, per un'altra via, la motivazione ad adottare la correzione di continuità.

Riassumendo: s e Y B{n, p), con n abbastanza grande (in dipendenza da p), ossia np > b, n (l — p) > b, la legge di Y si puà approssimare mediante la legge normale, tenendo conto délia correzione di contirmità, con la (26). L'approssimazione normale délia binomiale è molto utile in problemi di campionamento:

180

Capitolo 3: Varíabili aleatoria e modelli probabilistici

Esempio 123. II partito politico A ha avuto il 18% dei voti in una tom ata elettorale. Una société ha eífettuato un sondaggio exit-poll, chiedendo a un campione casuale di 1000 elettori, all'uscita del seggio elettorale, per che partito avessero votato, e stimando da questo campione le percentuali di voti dei vari partiti. Qual è la probabilité che, in base al proprio campione, la société abbia dichiarato, per il partito A, una percentuale sbagliata di almeno un punto percentuale? II numero X di persone del campione che hanno votato per il partito A è una v a. X ~ 5 (1 0 0 0 ,0 .1 8 ). La percentuale dichiarata saré > 19% se X > 190, e saré < 17% se X < 170. Quindi la probabilité di errore di almeno un punto percentuale è

P (X > 190) + P (X < 170). Calcoliamo queste probabilité usando l'approssimazione normale, con la correzione di continuité.

np = 180; np( l - p) = 1000 • 0.18 • 0.82 = 147.6, perció

P ( X < 170)

P ( X > 190) ~ 1 - $

170 -I- 0.5 - 180 v /l4 7 .6 189 + 0.5 - 180

= 1 - 4>(0.782) = 0.2177

= 1 - $(0.782) = 0.2177.

x /IIre

Si osservi che, anche se la binomiale non é simmetrica, la legge nórmale, che usiamo per il calcólo, é simmetrica ríspetto alia media 180. Perció P ( X > 190) = P ( X < 170). La probabilité di errore é quindi uguale circa a 2 ■0.2177 = 0.4354, cioé di ben il 43%. Si osservi che il calcólo esatto della probabilité portava ad esempio a;

P ( X < 170) =

0.82’°®® *,

un calcólo proibitivo. E' istruttivo vedere come cambia il risultato numérico aumentando di moho il campione. Se invece di 1000 persone fossero state 10000, avremmo trovato una probabilité di commettere un errore di almeno un punto percentuale di circa 0.01 (cioé delll%). II lettore verifichi questo fatto per esercizio. □ Esem pio 124. Un ingegnere ha progettato un robot per eseguire saldature, modificando un tipo gié esistente. II nuovo modello saré considéralo buono se esegue male solo 1'1% delle saldature, e scarso se esegue male almeno il 5% delle saldature. Si esegue un test di 100 saldature. II nuovo progetto saré accettato se il numero di errori saré < 2, rifíutato altrimenti. a. Qual é la probabilité che un buon progetto sia scartato? b. Qual é la probabilité che un cattivo progetto sia accettato? II test si puó schematizzare come un processo di Bernoulli di 100 prove con parametro p incognito. Sia X il numero di saldature eseguite male su 100, X ~ 5 (1 0 0 , p). Se il progetto é buono, p < 0.01. II progetto é scartato se X > 2. La probabilité che il progetto sia scartato, P ( X > 2), é tanto maggiore quanto maggiore

Capitolo 3: Varíabili aleatoria e modelli probabilistici

181

é p. Perció se il progetto é buono la probabilitá che sia scartato é minore o uguale della probabilitá P ( X > 2) calcolata nell'ipotesi p = 0.01. n p = 1, n p (l — p) = 0.99

Pp=o.oi(X > 2) ~ 1

^Q^QQ

1 " ^ (1 51) = 0.0655 = 6.6%.

Análogamente, la probabilitá che un cattivo progetto sia accettato é minore o uguale di

Pp=0.05ÍX < 2) ~ $ ( ^

^ 4

^

1

-

1

-

^ (1 1 5 ) = 0.1251 = 12.5%.

Abbiamo applicato l'approssimazione normale anche se in reaitá le condizioni (25) non erano verifícate; se p = 0.01, n p = 1 < 5. Vediamo di quanto abbiamo sbagliato. Pp=o.o\{X > 2) = 1 -

jO.Ol* • 0.99*°®” * = 0.0794 = 7.9% .

2 /

Pp=0MÍX < 2) = ¿

(

V

)0.05* • 0.95'®®“* = 0.118 = 11.8%.

Si noti che nel secondo caso, in cui n p = 5, l'approssimazione è moho migliore che nel primo. □

Esercízi 3.49. Consideriamo la popolazione degli individui adulti di sesso maschile residenti in un certo comune. E' noto che; la statura media di questa popolazione é 174cm; il 99% degli individui della popolazione ha statura compresa tra 154cm e 194cm; la statura degli individui della popolazione é normalmente distribuita. a. In base a questi dati, determinare la deviazione standard della statura. b. Calcolare la probabilitá che un individuo scelto a caso dalla popolazione abbia statura compresa tra 165cm e 170cm. c. Consideriamo ora un campione casuale di 20 individui scelti da questa popolazione. Calcolare la probabilitá che la media campionaria delle stature degli individui di questo campione sia compresa tra 165cm e 170cm. 3.50. Due dadi vengono lanciati per 60 volte consecutive. Qual é la probabilitá di ottenere 7 almeno 10 volte? Per rispondere; si determini la legge seguita dalla v a. "numero di volte in cui si ottiene 7, lanciando 60 volte due dadi" e si scriva la formula esatta che assegna la probabilitá dell'evento cercato; si calcoli poi la stessa probabilitá facendo uso di una opportuna approssimazione. 3.51. II numero giomaliero di passeggeri sui treni da Milano a Firenze é una variabile aleatoria di distribuzione incognita. Supponendo che il valore atteso sia pari a 3000 e la deviazione standard pari a 1000, si calcoli approssimativamente la probabilitá che in 30 giomi il numero complessivo di viaggiatori sia almeno 100000. 3.52. Un libro ha 400 pagine. Supponiamo che la probabilitá che una pagina sia priva

182

Capitoio 3: Vañabili aleatoríe e modelli probabilistici

di errorí sia 0.98 e che la presenza o meno di erron in pagine diverse siano eventi indipendenti. Sia X il numero di pagine che richiedono correzioni. a. Riconoscere la legge di X. b. Calcolare la probabilitá che sia X > 4, facendo uso dell'approssimazione nórmale. c. La probabilitá calcolata in b potrebbe essere approssimata anche facendo uso di una v a. notevole diversa dalla nórmale; quale? Si esegua il calcólo approssimato della probabilitá che sia X > 4 facendo uso di questo secondo método. 3.53. I traghetti da Bellagio per Varenna partono ogni 10 minuti. II signor Rossi é in vacanza a Bellagio per 6 giomi, ed ogni giomo sceglie a caso un istante in cui recarsi al molo d'imbarco. Lo stesso fa anche il signor Brambilla, che invece trascorre a Bellagio un periodo di 30 giomi. a. Calcolare la probabilitá p che, in un dato giomo, il signor Rossi attenda piú di 7 minuti. b. Sia X la v a. che denota il numero dei giomi in cui il signor Rossi attende il traghetto per piú di 7 minuti. Qual é la distribuzione di X I Calcolare E X e VarX. c. Sia Y la v a. che denota il numero di giomi in cui il signor Brambilla attende il traghetto per piú di 7 minuti. Qual é la distribuzione di Y? Calcolare E Y e V arF. d. Utilizzando l'approssimazione nórmale, calcolare le seguenti probabilitá; P { Y < 5); P { Y > 15); P (6 < F < 12). 3.54. La statura X di un ragazzo di 18 anni scelto a caso tra coloro che si presentano alia visita di leva é una v.a. di legge nórmale, 7V(175,30). Un addetto misura le stature in modo piuttosto inaccurato, cosicché la statura che viene registrata é F = X + W , dove W é l'errore commesso. Supponendo che W ~ N { —2 , 6) si calcoli; a. la probabilitá che la statura registrata sia inferióte a 180 cm.; b. un intervallo che contiene il 99% delle misure effettuate; c. la probabilitá che un ragazzo alto 178 cm. sia registrato come inferióte a 175 cm.

3.12.

Momenti e indici di forma per variabílí aleatoríe

Defínizione 125. Sia X una v.a. discreta o continua. Si dice momento r-esimo di X (r = 1 , 2 , 3 , . . . ) il numero = E(X^), se questo esiste finito; si dice momento r-esimo centrato di X (r = 1 , 2 , 3 , . . . ) il numero p , = E ((X - EX)^), se questo esiste finito. Ad esempio, = EX , p 2 = VarX. Si puó dimostrare che se una v.a. X ha momento r-esimo finito allora esistono finiti tutti i momenti di ordine inferióte (cioé p j , P 2. • • • 1 A *r-i) Inoltre, p r c finito se e solo se p ' é finito. Si osservi anche che, in base alie proprietá del valore atteso studiate nel §3.4.2 (variabili discrete) e nel §3.9 (variabili continue) valgono le seguenti formule di calcólo;

Capitolo 3: Variabili aleatoria e modelli probabilistici

J2^kP x i^ k ) = E(x') =

183

se X é discreta

k

^ / r ^'^/x ( x ) d x

se X é continua

^ (x fe - p Y px{xk)

fir = E ( ( X - E X y ) = {

s t X è discreta

k

“ p y f x ( x ) dx

, /r

se X è continua

dove si é posto p = EX. Siamo ora in grado di definiré, per una v a. dotata di alcuni momenti finiti, certi indici di form a, analoghi a quelli introdotti in statistica descrittiva per un numero finito di dati (v. §1.3). Defínizione 126. Si dice coefjficiente di asimmetria, o skewness, di una v a. X dotata di momento terzo finito, il numero

s k { X) = - % = E pY con p = EX, = VarX. Si dice coefjficiente di curtosi di una v.a. X dotata di momento quarto finito, il numero

curt(X) = ^ = E /^2 con p = EX,

= VarX.

II significato di questi indici é análogo a quello visto in statistica descrittiva: s k { X) misura Tasimmetria di X rispetto al suo valore atteso; é zero per una distribuzione simmetrica, positivo (negativo) per una distribuzione che presenta una coda a destra (sinistra); curt ( X) misura invece quanto la densitá di X sia "appuntita". Naturalmente queste misure acquistano un Interesse quando si conosca il valore che assumono nel caso delle principal! distribuzioni notevoli: é allora possibile utilizzare gli indici per confrontare la forma della distribuzione in esame con altre note. Esempio 127. Indici di forma per la distribuzione normale. Sia X Allora X - p

= Z - N(0, 1)

da cui si vede subito che, per simmetria, afc(X) = E (Z ^) = 0;

curt(X) = E(Z*) = v

integrando per parti

l — [ x*e~^^^^dx = 27t7 r

N(ß. 0.5 (p < 0.5), e zero per p = 0.5, in accordo con il fatto che la densitá binomiale é simmetrica per p = 0.5, e ha un coda a destra (o sinistra) per p < 0.5 (rispettivamente, per p > 0.5). La curtosi puó essere maggiore, minore o uguale a 3; é interessante pero notare che, per n —> oo, tende a 3 (questa é una conseguenza del teorema del limite céntrale). La densitá di Poisson ha skewness sempre positiva (asimmetrica con coda a destra); Tasimmetria decresce al crescere del parametro (abbiamo giá osservato che la densitá di Poisson é tanto piú simmetrica quanto maggiore é il parametro); la curtosi é sempre maggiore di 3, e tende a 3 per A —> oo. O sservazione 130. Utilizzo degli índici di form a nell'analisi statistica dei dati. Supponiamo di analizzare dei dati campionari provenienti da una certa popolazione, e di voler verificare se un dato modello statistico é adatto alia descrizione del fenómeno in esame. Ad esempio, abbiamo un insieme di osservazioni circa i tempi di vita di certi componenti, e vogliamo sapere se il modello esponenziale é adeguato. Oltre ai metodi grafíci, consistenti nel rappresentare Tistogramma della distribuzione empírica e confrontarla con il grañco della densitá esponenziale, e ai metodi della statistica inferenziale, di cui parleremo nel prossimo Cap. 4 (in particolare, i test di adattamento) possiamo calcolare le varíe síaíistiche campionarie (media, varíanza, skewness, curtosi, come descrítte nel Cap. 1), e poi confróntame i valorí con i corrispondenti momenti (media, varianza, skewnwss e curtosi della legge relativa al modello teórico considerato). Ad esempio, la legge esponenziale ha skewness 2 e curtosi 9, indipendentemente dal valore del parametro; inoltre, la sua media uguaglia la deviazione standard, per ogni valore del parametro. Con simili argomenti si puó avere un riscontro quantitativo della bontá dell'adattamento dei dati campionari a un certo modello teórico. Come si vede, Tutilizzo degli indici di forma é uno strumento in piu per questo tipo di analisi.

Cap. 4. Statistica inferenziale

4.1. Stima puntúale 4.1.1. stima della media I prími concetti della statistica inferenziale sono stati introdotti nel Cap.3 (§3.S). Poiché, nel frattempo, abbiamo studiato un certo numero di modelli (processo di Bernoulli, processo di Poisson, modello normale), è utile riprendere, brevemente, questi concetti, che possiamo ora illustrare con una maggior varietà di esempi. Inoltre, cosí facendo, fisseremo il linguaggio che sarà usato d'ora in poi. Ricordiamo che un modello statistico è una famiglia di leggi di v.a. (discrete o continue) dipendenti da uno o piu parametri che possono variare in opportuni insiemi. In simboli: { / ( l i S ) t ó e e ) ,

dove

denota in generale un vettore di parametri.

Esempi 1. a. Modello di Bernoulli*;

{p (x ;7t) = 7r/{,}(x) + (l-7r)/{0}(x)|7re (0,1)}. b. Modello esponenziale; { / ( x ; A) = A

e 7(0,00) ( x ) |A € (0, + o o ) } .

c. Modello normale: /( x ; ( p , a ) )

{

1

,-(x-^i)/2a | ( ^ , a ) € R x ( 0 , + O O )

\p 2 ^ a

)

d. Modello gamma: { /(x ; ( r , A ) ) = CA.rx’’“ ‘e “ ''^7(0.oo)(x) | ( r , A ) G (0, + o o ) x (0, + o o ) } . Nei primi due esempi c'è un solo parametro t?, nel terzo ^

quarto

¿=(r,A).

Un campione casuale di ampiezza n estratto da una popolazione di densitá /( x ; 'd) è una n-upla di v.a. indipendenti, ... ,Xn), ciascuna di legge /( x ; ¿). Una statistica è una v.a.

T = g ( X i , X 2, . . . , X J ,

' II parámetro dclla bemoulliana é stato qui indicato con tt, anziché con p come di consueto, per non confonderlo con il símbolo p che indica la densitá discreta

188

Capitolo 4: Statistica inferenziale

ossia una íunzione delle osservazioni del campione. (Perció anche la legge di T dipende dal parametro ^). Occorre rendersi conto del fatto che quando si scrivono espressioni del tipo > 3), P (1 < X¡ + X q + ... + X^ < 4), ecc., il valore della probabilitá che si calcóla dipende anch'esso dal valore del parametro Per sottolineare questo fatto, scriveremo talvolta F ^ (X n > 3), ecc. Esempío 2. Sia { X i , X 2, ... ,Xio) un campione casuale estratto da una popolazione bemoulliana di parametro tt. Allora 10

^X .-B aO .T rX e i=l

La scrittura

ad esempio, significa; "La probabilitá che Xio sia uguale a 3/10, nell'ipotesi che il valore vero del parametro TTsia 0.5, é 0.117". □ Análogo signiíicato ha la scrittura E^T, se T é una statistica. Se r(i?) é una íunzione del parametro (o dei parametri), cioé r : 0 —> R, uno síimatore di r (¿ ) é una statistica T che viene usata per stimare il valore vero di r (^ ). Lo stimatore T si dice non disíorío se E - r = r ( ¿ ) per ogni

G 0.

Uno stimatore non distorto si dice consistente se, quando l'ampiezza n del campione tende a oo, Var^ T -> 0. Esempío 3. La media campionaria come stimatore del valore atteso. Se { X \ , X i , . . . , Xn) é un campione casuale estratto da una popolazione di densitá f { x \ ¿), dotata di valore atteso p, e varianza finiti, si ha (sempre): E^X„ = p- Var^Xn = - a \ n

Capitolo 4: Statistics inferenziale

189

D'altro canto il valore atteso e la varianza saranno flinzioni dei parametri:

p =

cr^ = h{^).

Le relazioni scritte dicono che é uno stimaíore corretío e consistente di g{'d). Negli Esempí 1, a-d, questo signiñca, esplicitamente, che: a. X n é uno stimatore corretto e consistente di g{-n) = tt; b. X n é uno stimatore corretto e consistente di g {\) = 1/A; c. X n é uno stimatore corretto e consistente di g{p, a) = p; d. Xn é uno stimatore corretto e consistente di g{r, X) = r/X. Abbiamo osservato che la proprietá di correttezza é piuttosto "instabile" rispetto alia composizione di ñmzioni: ad esempio, nel caso c, é uno stimatore corretto di 1/A , ma l / X n non é uno stimatore corretto di A. (Si veda l'Osservazione 100 nel §3.10.1). O sservazione 4. Stim a puntúale e stim a per intervalli. L'utilizzo di opportune statistiche per stimare il valore di un parametro prende il nome di stima puntuóle, ad indicare che, a campionamento eseguito, viene fomito un único valore numérico ("un punto", in un certo senso) come stima del parametro incognito. Ad esempio, se estraendo un campione di 20 pezzi da un lotto numeroso troviamo che 3 pezzi sono difettosi, stimeremo parí a 3/20 = 0.15 la proporzione di pezzi difettosi nel lotto. Naturalmente, per quanto "rappresentativo" sia il campione, sarebbe eccessivamente ottimistico pensare di aver "indovinato" il valore vero del parametro con precisione assoluta: quello che pensiamo é piuttosto che il valore vero del parametro sará abbastanza vicino a 0.15. Un modo piú preciso per esprímere questo fatto é fomire un intervallo del tipo 0.15 ±0.001, ad esempio, a cui ríteniamo che il parametro appartenga. Questo é il punto di vista adottato in quella branca della statistica inferenziale che é la stim a per intervalli, di cui parleremo nel §4.3. Nel prossimo §4.1.2 completeremo invece questi cenni alia stima puntúale.

4.1.2. Stima delta varianza. Varianza campionaria Un problema che sorge in modo naturale negli esempi c e d e quello di trovare uno stimatore corretto e consistente di = h^O). Supponiamo ad esempio di voler stimare la varianza di una popolazione di legge normale N { p , a ^ ) in base alle osservazioni. In statistica descrittiva, abbiamo introdotto la varianza campionaria

1= 1

Percio sembra naturale stinaare

con lo stimatore

" fti Si osservi che, quando si ha a che fare con una legge che dipende da due parametri incogniti (t?i, 1^2)> la stima di i9i é un problema diverso a seconda che si conosca giá il valore dell'altro parametro, oppure no. Ad esempio, T\ permette di stimare senza conoscere nemmeno p (implicitamente, p viene stimato da X „) Se pero conoscessimo il valore vero di p, potremmo utilizzare la statistica;

190

CapHolo 4: Statistica inferenziale

che, intuitivamente, dovrebbe daré una stima migliore di a^, visto che utilizza un'informazione in piú (il valore vero di n). Si noti che se /u é incógnito, non é una statistica, ed é perció inutilizzabile come stimatore. Vediamo ora se gli stimatori proposti sono corretti e consistenti. Proposizíone 5. Sia ( X i , X 2, ... ,X„) un campione casuaie esíratto da una popolazione di densitá f ( x \ ú ) , dotata di valore atieso ¡j, e varianza Jini ti, e sia = h(‘0 ). Allora: E ^ r, =

n

Se inoltre esiste fin ito per ogni d anche E ^(X ‘*), allora Var- Ti —> 0 per n —> oo,

e lo stesso vale per 7 a . Questo significa che Ti é uno stimatore disíorto di corretto, occorre considerare lo stimatore ; ^ T i , cioé

= h(fi). Per aveme uno

t= l

La statistica é quella piú comunemente usaía per stimare la varianza di una popolazione (guando la media é incognita), e la chiameremo varianza campionaria. é uno stimatore corretto e consistente di purché sia verificata l'ipotesi di esistenza del momento quarto, cioé E -(X ‘‘). (Si noti che negli esempi c e d l'ipotesi vale). A campionamento effettuato il valore di 5^ é = \2

4 = ^

t=l

Se ad esempio campioniamo una popolazione normale con media e varianza incognite, useremo le stime:

I

p = Xn ''2 = 3Í. 2

Nel caso in cui la media della popolazione sia giá nota, invece, lo stimatore piú naturale della varianza é Ta, che pure risulta corretto e consistente. Si osservi che l'espressione di differisce da quella della varianza campionaria, introdotta nel C ap.l, per un fattore n / ( n - 1). Le formule di calcólo viste nel Cap.l vanno quindi modificate di conseguenza. Ad esempio, poiché

CapHolo 4: Statistica inferenziale

191

moltiplicando per n / ( n — 1) ambo i membri deH'uguaglianza si trova: /

1

n



\

n ( ¿ X ? ) - ( E x. ) ‘

Comunque, per n grande, il fattore n / ( n — 1) é all'incirca uguale a 1. Dimostriamo ora la Proposizione S. Supponiamo prima che la popoiazione abbia media ^ = 0 e varianza = 1. In questo caso valgono le rdazioni; VarA-i = EÍA-,*) = 1; Var^n = e ( a -*) = Ta = - ¿ X ? , V / n n.^j Calcoliamo prima E T 2 .

’t=i Per il calcólo di VarTj. utilizziamo il fatto che le v.a. X f sono indipendenti. Perció la varianza della loro sonuna é la sonuna delle varianze, e si puó scrivere; VarTí = ¿ ¿ V a r(A -? ) = iv aríX ^); t=l

Var(^2) ^

- (E(A-*)) = E(A^) - 1.

Se E(A’^) esiste fínito, la quantitá Var(A’^) é una costante, e perció VarT2 —» 0 per n —►0 0 . Veniamo al calcólo di E7i. ET, =

- Xr^f

^ i=l =

"i=i

=

-

' íi=l

2E(XiXr,)

+ e ( a -"„)] =

- 2Cov(Xi.X„) + i | = 1 + i - ^ ¿ C o v ( ^ i , A„). ” " ti

Per le proprietá di bilinearitá della covarianza; Cov(J>fi.A-„) = =

^

" ti perché, per l'indipendenza dell v.a.

Xi,

c»v№.jr,) = { ; Perció

ET, = l + i - í = n n

^ n

= ^ » ’. n

Infine, il calcólo di VarTi é análogo, ma piú complicato, del calcólo di VaiTa, e lo tralasciamo. II risultato, simile, prova che se EÍJf^) esiste ñnito, VarTi —*0 per n —» 0 0 . Ora che abbiamo dimostrato il teorema nel caso ^ = 0, = 1, veniamo al caso generale. E'

192

Capitolo 4: Statistica inferenziale

sufliciente applicare il caso precedente alie v a. standardizzate vananza unitaria.

che hanno media nulla e

Esempio 6 . Stima dei parametrí della densitá gamma. Método dei momenti. Consideríamo quest'altro esempio di stima, che permette di illustrare un'idea di carattere generale. Supponiamo di campionare una popolazione di legge F (r, A). Ricordiamo che, se X ~ F (r, A), è E X = r/A e VarX = r/A ^. Dunque in questo caso X n è uno stimatore corretto e consistente di r/A e 5^ è uno stimatore corretto e consistente di r/A ^. (Si noti che in questo caso sia la media che la varíanza sono funzioni di entrambi i parametrí). A campionamento eseguito, porremo;

= «nIn reaitá a noi intéressa stimare i parametrí r e A, e non solo le loro ñinzioni r/A , r/A ^. Perció rísolviamo il sistema

I

r

A

= Xr,

e otteniamo

Si noti che in questo procedimento, implicitamente abbiamo posto

( 0 - F (0 ) - í Gli stimatorí di r, A cosí ottenuti, sono stimatorí costruiti a partiré da stimatori corretti di r/A , r/A ^, ma non abbiamo alcuna garanzia che siano stimatorí corretti di r, A. II método illustrato in questo esempio é un caso particolare del cosiddetto método dei momenti. dovendo stimare contemporáneamente due parametrí, si calcolano media e varíanza campionaría, si uguagliano queste alia media e alia varíanza della popolazione (che sono ñinzioni dei parametrí), e si rísolve il sistema di due equazioni in due incogníte cosí ottenuto. In generale, non c'é garanzia che gli stimatorí cosí ottenuti siano corretti. □

Capitolo 4: Statistica inferenziale

193

Esercizi 4.1.

Dato il campione, proveniente da una distribuzione discreta { 1 ,1 ,7 ,2 ,2 ,3 ,3 ,1 ,3 ,1 ,3 ,5 }

a. Tracciare un istogramma di frequenza e calcolare Xn,s^, skewness e curtosi. In base al gráfico e a queste statistiche, é verosimile che i dati provengano da una distribuzione di di Poisson Po(A)? (Cfr. con §3.12). b. Stimare il valore del parámetro A, in base al campione. c. Calcolare, in base al valore stimato del parámetro, p x (^ ) per Ar = 0 , 1 , 2 , . . . , 7, e confrontare queste probabilitá con le frequenze relative osservate nel campione. C'é un buon adattamento dei dati empirici al modello teorico? 4.2. Dato il campione, proveniente da una distribuzione continua: {0.53,7.58,0.94,2.63,0.01,2.47,4.19,2.80,1.04,1.87,0.68,0.22}.

a. Tracciare un istogramma di frequenza (raggruppando i dati in almeno 4 classi) e calcolare skewness e curtosi (a partiré dai dati grezzi). In base al grafíco e a queste statistiche, é verosimile che i dati provengano da una distribuzione esponenziale Esp(i^)? (Cfr. con §3.12). b. Stimare il valore del parámetro i/, in base al campione. (Utilizzare uno stimatore corretto). 4.3.

Dato il campione, proveniente da una distribuzione nórmale N{p.,a^): {0.39,0.68,0.82,1.35,1.38,1.62,1.70,1.71,1.85,2.14,2.89,3.69}.

a. Calcolare Xn, skewness e curtosi. b. Stimare il valore dei parametri //, a, in base al campione. c. Raggruppare i dati grezzi in 4 classi (0,1), (1,2), ecc., e calcolare le frequenze assolute e relative di queste classi. d. In base al valore dei parametri stimati al punto 5, calcolare le probabilitá che X appartenga a ciascuna delle classi costruite al punto c, e confrontare con le frequenze relative. C'é un buon adattamento dei dati empirici al modello teorico? e. 11 valore di skewness e curtosi conferma o smentisce I'adattamento dei dati empirici al modello teorico? 4.4. Si consideri la famiglia di densitá continue, dipendenti dal parámetro a > 0: /(x

(1 - x )

per X € (0,1) altrimenti.

a. Determinare il valore della costante per cui questa é una densitá. b. Calcolare, in dipendenza da a , il valore atteso della legge. c. Costruire uno stimatore del parametro a , in base a un campione casuale di ampiezza n. d. Stimare q , utilizzando lo stimatore precedente, nel caso in cui i dati campionari fomiscano x„ = 0.52.

194

Capitolo 4: Statistica inferenziale

4.2. Campionamento da una popolazione normale. Leggi chi quadro, di Student e di Fisher Introduciamo ora alcune distribuzioni continue ehe giocano un ruolo fondamentale nella statistica inferenziale, in particolare (ma non solo) in situazioni in cui si campiona una popolazione normale. Definizione 7. Si dice kg g e chi quadro con n gradi di libertä, la legge di una v.a. ^

¿=1

dove X i , X 2, . . . ,X n sono v.a. indipendenti, ciascuna di legge Y ~ x = (n ) .

Si scrive

Proposizione 8. La legge chi quadro a n gradi di libertä coincide con la legge r ( | , 5 ). Percid s e Y si ha:

frit) =

p e r t > 0 , = Oper t < 0 ; E y = n; V a rr = 2n.

S eY \ ~

^ ~ X^(^ 2)i ^ Y \ , Y 2 sono indipendenti, allora

y\ + Y2 ~X^-(^i + ^ 2)Infine, per I'approssimazione normale, s e ñ é grande x ^(^ )

N{ n, 2n).

Non dimostriamo il fatto che la legge x^(^) sia una legge r ( n / 2 , 1/2). Si noti che da questo fatto seguono tutte le altre affeimazioni della Proposizione, per le proprietá della legge F. Osservare che per n = 2 la legge x^ coincide con la legge Esp(O.S) Indichiamo i quantili della legge x ^ ( n ) col simboloXo(^). definito dalla relazione

a = P (Y < x l( n )) , se r ~ X^(«),

q

6 (0,1)

I valori dei quantili di x^(^) sono tabulati, per i primi valori di n e qualche valore tipico di a. Si ricordi che per n grande (diciamo n > 30) si puo usare I'approssimazione normale, e calcolare

da cui si ricava anche la relazione tra i quantili della legge x'^(^) ® standard, per n grande:

y/2n

- , ow ero Xû(^) -

+ n.

normale

Capitolo 4: Statistica inferenziale

195

Esempio 4.9. Sia X ~ x^(50). a. Determinare a tale che P { X < a) = 0.9. b. Determinare b tale che P { X > b) = 0.95. o = Xo.9(50)

b = Xo.05(50)

2o, 9 V ^ + 50 = 1.2816 • 10 + 50 = 62.816. 2o.05\/ÍÓO + 50 = - 1.6449 • 10 + 50 = 33.551.

n- 5 n- 4 n =3 n^2 n =1 Densitá delle leggi x^(^) per n = 1 , 2 , 3 ,4 ,5 . Per n = \ la densitá é iliimitata, per n = 2 é l'esponenziale Esp{0.b)

Approssimazione nórmale della legge x^(^) per n grande: qui si mostra la densitá della legge X^(30) e la sua approssimazione nórmale, con la densitá N{ ZQ, 60).

Un problema típico che si pone nei calcoli con i quantili della legge X '(n ), é il seguente: data una v a. Y ~ x ^(^) e un numero q G (0,1), determinare un intervallo (a, b) tale che

P { a < Y 0. (In altre parole, I'intervallo non sará un intervallp simmetrico, ( - 6 , 6 ) ) ^ ¡ pone il problema di decidere un criterio con cui sceglierp un intervjülo (a^b), tra gli infiniti che soddisfáno la relazione precedente. Sólitamente, si cerca un intervallo che abbia^cot/e uguafí) ossia tale che sia

196

Capitolo 4: Statistica inferenziale

P {Y < a ) = P (Y > b) ! oltre che P { a < Y < b ) = a. Risulta ailora:

P { Y < a ) = P { Y > 6) = j r

1 —a

da cui a = Xizoin), b = 2

X i± o (« )2

Quindi otteniamo la relazione: ^ ( x L ( n ) < Y < Xi±o(n)) = a

(1)

che dá un iníervallo con code uguali, a cui una v.a. di legge probabilitá a.

appartiene con

Ad esempio, un intervallo con code uguali a cui una v.a. di legge x^(20) appartiene con probabilita del 95%, e ( xo.o25(20).X o.t o (20)) = (9.59,34.17). La prossima proposizione mostra I'importanza campionamento da una popolazione normale. Proposizione 10. Sia X i , X 2,.. . ,Xn popolazione di legge N { p , a “ ^). Ailora:

della

legge

x ^(^ )

>^cl

un campione casuale estratto da una

1. x^(n): 2. Se X n é la media campionaria, ^

\

2

S (^ ) 3. Se Sn =

(A’i —

X ^ ( ^ - !)•

é la varianza campionaria,

•=i (n - l ) S l 4. Le v.a.

e

~ X ^ ( « - !)•

(2)

sono fra loro indipendenti.

II punto (1) segue dalla definizione di legge X^(n), perché le v.a. sono normal! standard indipendenti. II punto (2) é piú delicato, e non lo dimostriamo: si affeima che se la media p viene sostituita con la media campionaria la v.a. trovata ha ancora legge x^, ma con un grado di liberté in meno. Intuitivamente, ció é dovuto al fatto che le n v.a. - X „) non sono piú indipendenti, perché soddisfano una relazione; la loro somma é nulla. Questa relazione ira le v.a. "fa perdere un grado di liberté" alia somma dei loro quadrati. La (3) é una riscrittura della (2), che abbiamo

Capitolo 4: Statistica inferenziale

197

messo in evidenza perché si usa spesso in questa forma. Infine, l'indipendenza di 5^ e X n, che utilizzeremo in seguito (v. Proposizione IS) è una propriété di cui omettiamo la dimostrazione, non semplice. Si osservi che questa propriété di indipendenza è vera perché la popolazione è normale, e non vale per una legge qualsiasi. □ Esem pio 11. Una casa costruttrice di lenti deve acquistare vetro corne materia prima. Dall'esperienza passata è noto che la varianza dell'indice di rifrazione di questo tipo di vetro è 1 .2 6 - 10~^. Data l'importanza del fatto che i vari pezzi di vetro abbiano all'incirca lo stesso indice di rifrazione, la ditta scarta una partita di vetro se la varianza campionaria di 20 pezzi sceiti a caso supera 2 • 10 . Assumendo che la distribuzione da cui si campiona sia normale, quai è la probabilité che una partita sia scartata anche se ha cr2 = 1.26 -1 0 ““? In base alla (2), con n = 20 e a^ = 1.26 • lO’ “*, si ha che 19SJ

x"(19),

1.26 -10-*

perciô la probabilité che la partita sia scartata è

=p(y >

P { S i > 2 • 10

19 • 2 • 10-“* 1.26 - 10

= P ( Y > 30.16)

con V ~

0.05

(in base aile tavole). Defînizione 12. Si dice legge t di Student a n gradi di libertà, la legge di una v a.

T =

^

. ................... .2. dove Z ~ N (0 ,1 ), y ~ x ^ (^ ),

,

Z , y , v.a. indipendenti. Si scrive T ~ t ( n ) . Proposizione 13. La legge t di Student a frit)

Per n-*

gradi di liberté ha densité:

n

= c„ i 1 + - j

p e r i € R.

oo, la legge t di Student tende alla legge normale standard.

Il fatto che sia

-(n+l)/2 =

lim ( l + - )

n-»oo

\

n/

è un facile esercizio sui limit! notevoli legati al numero Proposizione, occorrerebbe mostrare che lim Cn =

e.

Per concludere la dimostrazione della

1

sß n '

cosa che non facciamo (l'espressione delle costantí Cn è un po* complicata).

198

Capitolo 4: Statistica inferenziale

Si osservi che per n = 1 la i(n ) coincide con la legge di Cauchy, incontrata nel §3.9. La densitá di t{n) é una íunzione simmetrica pari, perció il valore atteso é 0 (tranne per n = 1, per cui non esiste finito). La varianza é una quantitá > 1 che dipende da n, e tende a 1 per n —^ oo. II gráfico della densitá é una curva a campana simile alia A^(0 , 1), ma tendente a zero piú lentamente (come una potenza, invece che come un'esponenziale).

Graftci delle densitá t di Student con n = 1,2,.... 30 gradi di libertó; per n crescente si awicinano alia densitá normale standard (la curva "piú alta" in x = 0 é la densitá della normale standard).

Indichiamo i quantili delia legge t { n ) col simbolo¿a(n)> definito dalla relazione

Q = P { T < taiji)), se T ~ í(n ), Q e (0,1). Poiché la densitá di í(n ) è una flmzione simmetrica parí, con ragionamenti analoghi a quelli fatti per la densitá normale standard si dimostra che, per T t(n ).

P { T < < i-a(n)) = Q

P{\T\ > 2.33, a conferma del fatto che

k), mentre, in realtá, é p < 150ppm (significa che siamo stati troppo severí nel fissare la soglia, o sfortunati neU’estrarre il campione); 2. Considerare il processo "sotto controllo" (perché x„ < k), mentre, in realtá, é p > ISOppm (significa che siamo stati troppo indulgenti nel fissare la soglia, o sfortunati neU'estrarre il campione). Occorre rendersi conto di due fatti: 1. Ciascuno dei due errori puó portare ad un danno: sia fermare gli impianti per niente (perdendo tempo e denaro) sia non fermarli quando occorrerebbe (ottenendo un prodotto finale insoddisfacente, che non puó essere venduto). 2. Scegliere una soglia k piu alta (rispettivamente, piú bassa) rende piú improbabile il primo errore, ma piú probabile il secondo (e viceversa). Supponiamo ad esempio che il processo sia sotto controllo, ow ero sia p < 150. La probabilitá di ritenerlo (erróneamente) fiiori controllo é allora P*^{Xn > k). Osserviamo che

P ^ (X n > k ) < P ^ ^ \ X n > k) (perché stiamo supponendo p < 150, e piú piccolo é il valore vero di p, meno probabile é che assuma valori grandi); a sua volta, > k) decresce quando k cresce. Perció aumentando k diminuisce la massima probabilitá di commetiere il prim o errore. Supponiamo ora che il processo sia fuori controllo, cioé /x > 150. La probabilitá di ritenerlo (erróneamente) sotto controllo é adesso P*^{Xn < k ) , e

P^ i Xn < k )


k).

Se ora scegliamo k in modo tale che, ad esempio, risulti

> k ) = 0.05,

(6)

avremo che la probabilitá di commettere il primo errore é < 0 .0 5 (un margine che in molti casi viene ritenuto accettabile). II numero k si puó ricavare dall'identitá (6) ricordando che per ipotesi é a = 20, per cui, per p = 150, si ha

Xn - 150 2 0 /y ñ

N(0,1).

Supponiamo che l'ampiezza del campione sia 10 (ossia, vogliamo esaminare 10 ampolle del prodotto fínale); allora > ^.95 I - P | x „ > perció k = 1.645 • 2 0 / v ^ + 150

20 v/ÏÔ

20.95 + 150

160.4. Stabiliamo quindi la regola di decisione;

"Si consideri il processo fuori controllo se

> 160.4".

In questo modo possiamo aífermare che, a priori, la probabilitá di ritenere il processo íliori controllo quando questo é in reaitá sotto controllo, non supera 0.05. Quindi, se i nostri dati campionari fomiscono un valore > 160.4, siamo abbastanza tranquilli di non sbagliare ritenendo il processo fuori controllo, ed esprimiamo questo fatto dicendo; "I dati campionari consentono di rifiutare l'ipotesi che il processo sia sotto controllo, al Uve¡lo di significativitá 0.05". Se, viceversa, otteniamo ad esempio un valore Xn = 154, decidiamo di non fermare il processo. Tuttavia, in questo caso, non siamo altrettanto sicuri che il processo non sia, in reaitá, fiiorí controllo. In situazioni come queste, si usa esprimersi c o sí ; "Non rifiutiamo l'ipotesi che il processo sia sotto controllo". Si preferisce cioé non fare l'afFermazione, piú impegnativa, "Accettiamo l'ipotesi che il processo sia sotto controllo". □ Dopo aver introdotto le idee fondamentali del test di ipotesi su un esempio, fissiamo ora alcune defínizioni di portata generale Defínizione 34. (Ipotesi statistiche e tipi di errorí). Viriipotesi statístíca é un'asserzione sul valore vero di un parametro incógnito. Ad esempio, se /x é un parametro incógnito, sono ipotesi statistiche le seguenti; /i = 0.5; p >

fj. < —2; p ^ 0.

Piú in generale, un'ipotesi statistica sará un'asserzione del tipo ¿ 6 0 o , dove ^ é il parametro (o il vettore di parametri) incógnito, e 0 q un opportuno insieme numérico. Un'ipotesi si dice semplice se é del tipo /x = 0.5 (cioé specifíca completamente il valore del parametro), composta altrimenti. (Ad esempio, ^ > 3 é un'ipotesi composta). Per fare un test statistico, per prima cosa si stabilisce Yipotesi nulla H q, ossia l'ipotesi che si ritiene vera "fino a prova contraria"; in altre parole, rifiuteremo H q solo se i dati campionari forniranno una forte evidenza statistica contro di essa. Si

Capitolo 4: Statistica inferenziale

219

chiama ipotesi alternativa l'ipotesi H i che é vera se e solo se Hq é falsa. Ad esempio, potremmo avere

Hq : p < 150 e H\ : p > 150; oppure H q : p = 0 e H\ : p ^ 0 . Pili ¡n generale, sará; H q : d e Qo e íf i : ¿ ^ 0o- Un test statístico é una procedura con cui, a partiré dai dati campionarí, si decide se rifíutare H q o non rífíutaria. Le possibüitá di errore sono schematizzate nella seguente tabella;

Errore del I tipo

Se H q è falsa... Decisione corretta

Decisione corretta

Errore del II tipo

Se i/o è vera... e noí rifíutiamo Hq. e noí non rifíutiamo Hq.

L'errore del I tipo è quello consideratopiü grave. Quesío significa che l'ipotesi H q va formulata in modo che quello che noi riteniamo l'errore piü grave coincida con l'errore di I specie. Detto in altrí termini, l'ipotesi nulla è quella che noí vogliamo rifíutare solo di fronte a "prove schiaccianti". Una analogia che puó chiarire le idee precedent! è quella del processo a un imputato. Se una persona viene processata, è perché qualcuno pensa che sia colpevole; tuttavia, il diritto vuole che la persona sia ritenuta innocente fino a prova contraria. L'ipotesi nulla è dunque H q : "L'imputato è innocente", l'ipotesi alternativa è H\ : "L'imputato è colpevole". L'errore del primo tipo è condannare un innocente; l'errore del secondo tipo è assolvere un colpevole. II presupposto garantista è che l'imputato sia condannato solo in presenza di forti prove a suo carico; altrimenti, va assolto. "Non rifíutare l'ipotesi" è l'analogo di "assolvere l'imputato per insufficienza di prove"; non implica che noi siamo fortemente convinti della sua innocenza. Scegliere come ipotesi nulla la H q ; "L'imputato è innocente" significa ritenere che condannare un innocente sia un errore piú grave che assolvere un colpevole. Se l'imputato è innocente... Se l'imputato è colpevole... . . .e noi lo condanniamo; Errore del I tipo Decisione corretta ...e noi lo assolviamo; Errore del II tipo Decisione corretta Esempio 35. (C riterio di scelta dell'ipotesi nulla). Formalizzare le seguenti situazioni scegliendo l'ipotesi nulla, l'ipotesi alternativa e il tipo di test. a. II contenuto dichiarato delle bottiglíe di acqua minerale di una certa marca é 990ml. Un'associazione consumatori sostiene che, in realtá, le bottiglie contengono, in media, una quantitá inferiere d'acqua. b. Due amici giocano a testa o croce; uno dei due, pero, ha il sospetto che la moneta sia truccata, e decide di registrare un gran numero di esiti di lanci per verificare questa sua convinzione. c. Un ingegnere suggerisce alcune modifíche che sí potrebbero apportare a una linea produttiva per aumentare il numero di pezzi prodotti giomalmente. Si decide di sperimentare queste modifíche su una macchina; se i risultati saranno buoni, si applicheranno le modifíche anche alie altre. (Lo studente é invitato a riflettere per proprio conto e proporre la propria soluzione, prima di proseguiré la lettura).

220

Capüolo 4: Statistica inferenziale

a. Supponiamo che X = "volume d'acqua contenuta ¡n una bottiglia scelta a caso" sia una v a. N { n , a ^ ) . Dobbíamo eseguire un test sulla media fi. II críterío é quello "ínnocentista"; ci vuole una forte evidenza statistica per poter acensare il produttore di vendere bottiglie irregolari. Quindi l'ipotesi nulla é H q : ¡ j , > 990ml (che significa: il produttore non imbroglia), e l'ipotesi alternativa t H \ : y, < 990ml. Notare che H q e H\ sono Tuna complementare all'altra: vale H\ se e solo se é falsa H q . II test sará del tipo: "Si rifíuti H q se X n < k". b. Qui la v.a. X = "esito di un lancio" é una bemoulliana di parametro p. L'ipotesi "Ínnocentista" é che la moneta sia equa, quindi: H q : p = 0.5, H \ : 0.5. II test sará del tipo: "Si rifíuti H q se |X „ —0.5| > k". c. Supponiamo che il numero di pezzi prodotti giomalmente dalla macchina modifícata sia una v.a. X ~ N ( y , a ^ ) , con incogniti, mentre per la macchina prima della modifíca é y = pq. L'idea é che, poiché ogni cambiamento ha un costo, si seguirá il suggerimento dell'ingegnere solo se i dati sperimentali fomiscono una forte evidenza del fatto che la macchina modifícata sia piú produttiva di quella originaria. Perció sceglieremo H q . y < pq, H\ : y > pq (l'ipotesi nulla significa: la nuova macchina non é meglio della vecchia), e il test sará del tipo: "Si rifíuti H q se X„ > k ”. Defínizione 36. (Regíone di rífíuto e ampiezza del test). Fissata l'ipotesi nulla H q :^ e Q o e l'ipotesi alternativa, occorre scegliere una statistica T{X\ , X 2, . . . , Xn) e stabilire una regola di decisione, del tipo: "Si rifíuti H q se T (X \ , X2, ..., X„) € /", dove / é un intervallo o un insieme numérico. L'insieme R dei possibili risultati campionari che portano a rifíutare H q é detta regione critica, o regione di rijiuto, del test:

R = { ( i i , X 2, . . . , x „ ) : T ( x i , x 2, . . . , x „ ) e /} . Nell'Esempio 33, era T = X „, I — (160.4, + 00 ) e ü = {( x i , X21... 1

^ (160.4, “hoo)}.

La probabilitá di rifíutare l'ipotesi nulla, calcolata prima di eseguire il campionamento, é:

P^( T( XuX2, . . . . X „ ) e l ) . Se H q é un'ipotesi semplice, ossia del tipo ^ = i2o> del primo tipo é

probabilitá di commettere l'errore

pá»(T(X,,X2,...,X„)€/). Se pero H q é un'ipotesi composta, cioé H q : ^ e Q Q con 0 o non ridotto a un punto, non ha senso parlare deiia probabilitá di rifíutare l'ipotesi se questa é vera: infatti, per ogni ^ € & o (per cui H q é vera) c'é una probabilitá diversa di rifíutare H q. Si definisce ampiezza del test la quantitá a=

sup P \ T { X u X 2, . . . , X r , ) e I ) , 00

che rappresenta la massima probabilitá di rifíutare l'ipotesi nulla, quando questa é vera. L'ampiezza del test é anche detto livello di significativitá: piú é piccolo, piú siamo tranquilli di non sbagliare, se la regola di decisione ci porta a rifíutare l'ipotesi nulla. II livello di signifícativitá va stabilito da noi a priori, cioé prima di eseguire il

Capitolo 4: Statistics infereniiaie

221

campionamento. Valori tipici per ¡I livello di signifícativitá sono o = 0 . 1, a = 0.05, a = 0 .01 .

Ricapitoliamo i passi in cui si articola un test statistico: 1. Si scelgono I'ipotesi nulla e I'ipotesi alternativa (questo comporta un giudizio su quale delle due ipotesi sia quella da rifiutare solo in caso di forte evidema), 2. Si sceglie una statistica per stimare il parámetro su cui si esegue il test, e si stabilisce la forma che deve avere la regione critica (ad esempio: "Si rifiuti H q se X„ > k ”, dove k, pero, é ancora da determinare); 3. Si sceglie il livello di signifícativitá a a cui si vuole eseguire il test (piú é piccolo, piú diífícilmente rifíuteremo I'ipotesi nulla, e piú certi saremo di non sbagliare, quando la rifíutiamo); 4. In dipendenza dal valore a scelto, si determina ora esattamente la regione di rifíuto (ad esempio: "Si rifíuti H q se > 160.4"). Tomeremo in seguito su questo punto, con maggior dettaglio. 5. Si esegue ora il campionamento, si calcóla la statistica coinvolta nel test e si vede se appartiene o meno alia regione di rifíuto. 6 . Si prende la decisione; rifíutare o non rifíutare I’ipotesi nulla, al livello di signifícativitá stabilito. O sservazione 37. Test z sulla media di una popolazione nórm ale di varíanza nota. Ricapitoliamo il procedimento che si segue per eseguire un test in questo caso. L'ipotesi nulla e I'ipotesi alternativa saranno in genere del tipo;

Hq p = po p < no n > no

Hx n > Po n < Po

dove po é un valore físsato (es. po = 0). Nei 3 casi detti, il test sará, rispettivamente, del tipo: Si rifíuti i/o se jXn - /xo| > Si rifíuti H q se Xn > k] Si rifíuti H q se Xn < k. Nel primo caso il test si dice bilatero, o a due code, negli altri due casi si dice unilaiero, o a una coda (per via della forma che ha l'insieme I: unione di intervalli, oppure un intervallo solo). Fissato il livello di signifícativitá a, si determinare k, nell'ipotesi che sia X ~ N {y,,a^) con a nota. Si trova, nei tre rispettivamente,

k

— ■2’1—o / 2

r~ y ^ y jn



ÍM) ”1” ^1—o

7^ y /n

i

™— t^O

^ 1 —0

Per determinare k a partiré da q , abbiamo usato le relazioni note;

P {Z
Zx-di) = Q

P (Z > z\-a) = a P{\Z\ < 2( i +q)/2) = Q-

r~‘ y /n

test due puó casi

222

CapUolo 4: Statistica inferenziale

P{\Z\ > zx. 0/2) = û

P{\Z\ < ¿(,+o)/2) = O

Questo tipo di test si chiama test z, perché coinvolge la legge normale standard.

Riassumendo. Supponiamo di voler eseguire un test sulla media di una popolazione normale di varianza nota, estraendo un campione casuale di ampiezza n. Se poniamo Z=

Xn - Pq a/y/n ’

possiamo esprimere la regola di decisione del test, in dipendenza dall'ipotesi nulla e dal livello di significativita che abbiamo scelto, al modo seguente:

Ho P = Po

Hx

P < Po p>Po

p > Po p < Po

Po

Rifíutare H q se \z\ > Zx-a/2 2 > Zx-a Z < -Zx-Q

Esem pio 38. Da una popolazione nórmale di media incognita e deviazione standard a = 2 si estrae un campione di ampiezza 10, per sottoporre a test I'ipotesi nulla H q : p, = 20. a. Si dica qual é la regione critica, al livello deH'1%, 5%, 10%, per questo test. b. Supponendo di aver estratto un campione per cui é = 18.58, si tragga una conclusione, a ciascuno dei 3 livelli di signifícativitá.

a. La regione critica del test é;

con

2^1- 0 / 2

' 2.5758 = ^ 1-96 1.6449

per a = 0.01 p e ro = 0.05 per a = 0.1.

b. Se x„ = 18.58, 2 = |x„ - 20| = 2.2452, e la conclusione che si trae, in ciascuno dei tre casi, é; 1. I dati campionari non consentono di rifiutare I'ipotesi nulla, al livello di signifícativitá deiri% . 2. I dati campionari consentono di rifíutare I'ipotesi nulla, al livello di signifícativitá del 5%. 3. I dati campionari consentono di rifíutare I'ipotesi nulla, al livello di signifícativitá del 10%. Come si vede, la decisione che si prende non dipende solo dai dati campionari, ma anche dal livello di signifícativitá físsato. In questo caso, la discrepanza tra la media campionaria (18.58) e il valore ipotizzato del parametro ( 20) viene ritenuto statisticamente signifícativo al livello del 5% e del 10%, ma non al livello dell'l%. Questo significa che se il valore vero del parametro é 20, la probabilitá di ottenere, per effetto delle oscillazioni casuali, uno scostamento della media campionaria dal

Capitolo 4: Statistica inferanziale

223

valore 20 pari almeno a quello che abbiamo osservato, é inferiore al h%, ma superiore all'\% . □ La conclusione dell'esempio precedente introduce la prossima osservazione. Ogni test di ipotesi conduce a confrontare tra loro due numeri: uno che puó essere calcolato in base ai dati campionari (nell'esempio, é la quantita 2 = |x„ —p Q\ y / n / a \ e un altro che invece dipende dal livello di signifícativitá fissato (nell'esempio, é il quantile -^1- 0/ 2) Se, tra i due numeri, vale una certa disuguaglianza, si rifluta I'ipotesi, altrimenti non si rifíuta. Poiché, come abbiamo visto nell'esempio, un livello a diverso puó portare a una decisione diversa (rifíutare/non rifíutare) risulta interessante determinare qual é il valore o che fa da "spartiacque" tra le due diverse conclusioni. Nell'esempio precedente, questo significa chiedersi; fissaíi i dati campionari, e quindi il valore z, qual é il minimo a per cui si rifiuta l'ipotesil Passando ai numeri,

z = \xn — p o \-\/ñ /a = 2.2452. Qual é il minimo a per cui risulta 2.2452 > zx-a/i^ Per continuitá, questo valore si troverá risolvendo l'equazione 2.2452 = z\-.^i2. ossia a 1 - - = P {Z < 2.2452) = 0.9876, /é da cui

Q = 0.0248. (II numero P {Z < 2.2452) é stato calcolato col computer). Questo significa che il livello di significativitá del 2.48% é quello che, con i dati campionari che abbiamo ottenuto, fa da spartiacque tra la decisione di rifiutare I'ipotesi e quella di non rifiutarla. E' il piú piccolo livello a cui i dati consentono di rifiutare I'ipotesi. In altre parole, 0.0248 é la probabilitá, calcolata prima di eseguire il campionamento, che, nell'ipotesi che sia p = 20 , si osservi, per efíetto del caso, una discrepanza tra la media campionaria e il suo valore ipotizzato maggiore o uguale a quello che abbiamo effettivamente riscontrato. Questo valore si chiama p-value. Defínízione 39. In un test di ipotesi, dopo che si é effettuato il campionamento e si é calcolato il valore della statistica necessaria ad eseguire il test, si dice p-value il numero parí al minimo livello di significativitá a cui i dati campionari consentono di rifiutare I'ipotesi nulla. Questo numero si puó interpretare anche come la probabilitá, calcolata prima di eseguire il campionamento, che, supponendo vera I'ipotesi nulla, i dati campionari fomiscano una discrepanza dal loro valore ipotizzato parí almeno a quello che abbiamo osservato nel campionamento. Un p-value quasi uguale a zero significa che siamo praticamente certi di non sbagliare rifiutando I'ipotesi; un p-value dell'ordine dei consueti livelli di significativitá (cioé 0.01, 0 .0 5 ...) é "imbarazzante", in quanto indica che la decisione se rifiutare o no I'ipotesi é crítica; difatti, dipende in modo cruciale dalla scelta del livello di significativitá. Un p-value vicino a 1 indica invece che, se scegliessimo come ipotesi nulla quella che abbiamo scelto come ipotesi alternativa, il test porterebbe a rifiutare la

224

CapUolo 4: Statistica inferenziale

nuova ipotesi nulla, cioé la vecchia ipotesi alternativa; in questo caso quindi il test ci consente di ritenere, con una buona fiducia, che I'ipolesi nulla vada accettata. ■ II p-value puo essere difficile da calcolarsi con precisione usando le tavole, ma viene di consueto fomito dai programmi statistici. Anzi, sólitamente i pacchetti software statistici non chiedono, tra i dati, quale livello di significativitá si sceglie, ma fomiscono il p-value, che permette di trarre la conclusione (rifiutare/non rifiutare) qualunque sia il livello scelto. Questo non ci esime pero dal fissare a priori il livello a che intendiamo usare. Diversamente, potremmo "far dire al test", a posteriori, quello che vogliamo! Dopo aver illustrate le idee fondamentali sui test di ipotesi servendoci di quest'unico esempio (il test sulla media di una popolazione nórmale con varianza nota), nei prossimi paragrafi illustreremo brevemente vari altri tipi di test di ipotesi di uso comune. Passeremo in rassegna i seguenti test: I test sulla media di una popolazione (nórmale o qualsiasi); 2 . test sulla frequenza, per una popolazione bemoulliana; 3. test sulla differenza tra le medie di due popolazioni normali; 4. test sulla differenza tra le ftequenze di due popolazioni bemoulliane; 5. test sulla varianza di una popolazione nórmale; 6 . test sul rapporto tra le varianze di due popolazioni normali. II lettore é invitato a non perdersi nella casistica complessa che si puo ottenere (test unilatero, bilatero...) ma a fissare alcune idee uniftcanti. Lo schema di lavoro che abbiamo tracciato nel caso del test su una media, rimane valido in generale: 1. Scegliere I'ipotesi nulla e I'ipotesi alternativa; solo la riflessione sul problema concreto in esame puo guidare in questo. 2 . Scegliere la statistica per stimare il parámetro su cui si esegue il test, e decidere la forma della regione critica. La scelta della statistica é molto naturale; per stimare una media o una frequenza si userá per stimare una varianza si userá 5^, vedremo poi come procederé per la differenza tra due medie o il rapporto tra due varianze. La forma della regione critica segue poi naturalmente dalla statistica usata e dall'ipotesi nulla scelta. 3. Scegliere il livello di signifícativitá. 4. Determinare la regione critica. Questo é il punto piú "técnico"; occorre infatti costruire, mediante la statistica utilizzata come stimatore ed eventualmente altre statistiche o parametri noti, una v a. la cui legge sia nota. Solo cosí dal livello a si puó risalire alia regione critica. Ripercorreremo qui alcuni ragionamenti giá visti nel calcólo degli intervalli di confídenza. 5. Eseguire il campíonamento. 6 . Prendere la decisione, eventualmente corredando la decisione presa con l'indicazione del p-value, che ne chiarisce il grado di affidabilitá.

4.4.2.

Test t sulla media di una popolazione normale con varianza incognita, o sulla media di una popolazione qualsiasi, per grandi campioni

Volendo eseguire un test sulla media di una popolazione normale con varianza incognita, seguiremo la stessa idea generale che nel caso della varianza nota; se ad esempio è

H q : p < po,

Capitolo 4: Statistica inferenziale

225

il test Sara del tipo "Si rifiuti Ho se Xn > k". con k da determinarsi. Fissato quindi il livello di signiñcativitá a , per determinare k useremo questa volta il fatto che, sc fi = po

'

- P-o ~ i(n - 1). S J ^

Allora, se Ho c vera, ossia p < po,

P ^(X „ > k ) < P '^

> k) = a

purché

k = p o + i l -a(n - 1) — y/ n In altre parole, questa volta occorre calcolare in base ai dati campionari la quantité

t =

Xn

PO

e confrontarla con il quantile t i -a(n — 1). Il p-value in questo caso é il numero a per cui risulta t = ti-a(Ti —1), ossia a = P { T > t), dove T ~ t{n - 1) e i é il valore calcolato dai dati. Nel caso di ipotesi nulla del tipo Ho : p = po o p > po il procedimento va naturalmente ritoccato, tenendo conto delle osservazioni giá fatte a proposito dei calcoli coi quantili della legge t di Student. Questo tipo di test sulla media si chiama Utesi, in quanto coinvolge la legge t di Student, mentre il test sulla media descritto al parágrafo precedente viene detto z^test, per ricordare che coinvolge la legge nórmale standard.

Riassumendo. Supponiamo di voler eseguire un test sulla media di una popolazione nórmale di varianza incognita, estraendo un campione casuale di ampiezza n. Se poniamo t =

Po

possiamo esprimere la regola di decisione del test, in dipendenza dall'ipotesi nulla e dal livello di signihcativita che abbiamo scelto, al modo seguente;

Ho P = Po pPo

Hx M ^ Mo P > Po P U - a / 2 { n - 1) t > ii-o (n - 1) t < - 1)

Il p-value corrispondente al valore t osservato dai dati si ottiene in ogni caso risolvendo rispetto ad a I'equazione corrispondente alia disequazione che porta al rifiuto. Ad esempio, se Ho : p = po, risolvendo rispetto ad a I'equazione

226

CapHoto 4: Statistica inferenziale

|í| = íi_Q/2(n — 1) si trova a = 2 P ( T > |í|), con T ~ í(n - 1) (questo valore si puó calcolare mediante Computer). Nel caso di un campione numeroso (n > 30) estratto da una popolazione qualsiasi (anche non nórmale), come giá visto nel caso degli intervalli di confídenza, possiamo ancora considerare la relazione

Xn - p o SJy/^

t{n — 1)

come approssimativamente vera, quando /i = /íq . Perció si puó ripetere il procedimento appena descritto, per eseguire un test sulla media p, della popolazione. Se inoltre n > 120, si puó identificare la legge t(n — 1) con la legge nórmale standard.

4.4.3.

Test su una frequenza, per grandi campioni

Possiamo ripetere per il test di ipotesi gran parte dei ragionamenti visti nel §4.3.4 per il calcólo degli intervalli di confidenza per la frequenza di una popolazione bemoulliana. Volendo sottoporre a test l'ipotesi nulla

H o : p = po\ Ho-P p o , utilizzeremo il fatto che, per l'approssimazione nórmale, se il campione é numeroso e la distribuzione non é troppo asinunetrica. *^n ~ \/p o (l

Po

-Po)/n

quando p = po. Percio calcoleremo questa quantita in base ai dati del campione e la confronteremo con I'opportuno quantile della legge normale standard. Per la verifica delle condizioni di applicabilita dell'approssimazione normale, rimandiamo a quanto detto nel §4.3.4 e ai prossimi esempi.

Riassumendo. Supponiamo di voler eseguire un test sulla frequenza p di una popolazione bemoulliana, estraendo un campione casuale di ampiezza n. Se poniamo z =

Xn-Po y/poi^ - P o ) /n '

possiamo esprimere la regola di decisione del test, in dipendenza dall'ipotesi nulla e dal livello di significativita che abbiamo scelto, al modo seguente;

Ho P = P0 PPo

H, p ¥^ po P>Po P -21- 0/2 2 > Zi_o 2 < - 2,-0

Questa procedura è valida purché risulti nx„ > 5 e n ( l —Xn) > 5; altrimenti il campione estratto non è sufficientemente numeroso per giustificare l'approssimazione normale.

Capitoto 4: Statistica inferenziale

227

Esempi Esempio 40. II contenuto nomínale delle bottiglie di una certa bibita é di 330ml. Scegliendo un campíone casuale di 20 bottiglie, si riscontra un contenuto medio di 328ml, con una deviazione standard di 3.2ml. In base a questi dati, si puo ritenere che si tratti di una frode deliberata? Assumiamo che la quantitá contenuta in una bottiglietta segua una distribuzione nórmale. Si tratta di eseguire un test, al livello del 5% (ad esempio) sull'ipotesi nulla;

H q \ n > 330. (II presupposto é che il produttore va ritenuto innocente finché i dati non fomiscono una forte evidenza statistica contraria). II test sará del tipo "Si rifiuti H q se x „ < k ”. Poiché la varianza non é nota, si tratta di un test t. Calcoliamo la quantitá

t =

Xn - po s „ /v / ñ

328 - 330

3.2/y/^

= -2.7951.

Per T ~ f(19), é 0.05 = P { T < ío.05(19)), perció confrontiamo t con il quantile ^0.05( 19) = — 5; n ( l - Xn) = 91 > 5. Calcoliamo dunque la quantitá

228

Capitolo 4: Statistica inferenziale

z =

Xn - PO \/p t)(l - Pt»)/n

0.09 - 0.08

= 0.3686.

x/Ó ^Ó TÓ W ÍÓ O

Poiché 0.05 = P { Z > 20.95), confrontiamo z col quantile 20.95 = 1 645. Poiché z < 20.95, i dati non consentono di rifiutare, al livello del 5%, I'ipotesi nulla: il lotto non va puo essere rígettato. Si osservi che, se ci fossimo posti "dal punto di vista dell'acquirente", il test sarebbe stato del tipo "Si rifiuti H q se x„ < fc", con k opportuno, ma certamente minore di 0.08. Perció, con un dato campionarío x„ = 0.09, non avremmo rifmtato I'ipotesi di inaccettabilítá: perció avremmo rígettato il lotto. Si vede quindi come nei casi crítici, in cui mancano "prove schiaccianti" sia a favore sia contro un'ipotesi, diventa determinante, nella decisione che si prende, il presupposto da cui si é partiti, ossia la scelta fra H q e H\ . ribadiamo ancora una volta quindi, che nella formalizzazione di un problema, la scelta di quale ipotesi chiamare H q e quale chiamare H\ non é puramente fórmale, ma comporta un nostro giudizio sul problema in esame. Calcoliamo il p-value, nel test eseguito dal punto di vista del produttore: Q

= P { Z > 0.3686) = 0.3562.

Signifíca che, assumendo p < 0.08, c'é una probabilitá del 35.6% di trovare, su un campione casuale di 100 pezzi, almeno 9 pezzi difettosi (come a noi é capitato): siamo quindi in un caso crítico in cui non possiamo rífíutare I'ipotesi che il lotto sia "buono", ma rímane comunque il sospetto che non lo sia. Con gli stessi dati, il p-value, nel test eseguito dal punto di vista dell'acquirente é; Q = P { Z < 0.3686) = 1 - 0.3562 = 0.6438.



Esempio 42. Dall'esperienza passata é noto che il numero di rapine che ogni settimana aw engono in una certa cittá segue una legge di Poisson di parametro 1. Se nel corso dell'anno passato ci sono state 85 rapine (1 anno = 52 settimane), si puó affermare che l'entitá del fenómeno é cresciuta in modo significativo? Per ríspondere, si faccia un test, al livello dell'l%, sull'ipotesi nulla che il parametro non sia cresciuto. Sia X il numero di rapine settimanali nella cittá. Si suppone X sottoporre a test I'ipotesi nulla

P q{X), e si vuole

Hq : X < 1 . (O w ero, ci interessa vedere se é possibile affermare con sicurezza che il parametro sia > 1). Le osservazioni fatte su 52 settimane danno una media campionaria pari a x„ = 85/52. Non é nota la varíanza campionaria ma, se X segue la legge di Poisson Po(A), la sua varíanza é X. Perció, nel caso estremo dell'ipotesi nulla, A = 1, si ha

X n-l ~ iV ( 0 ,l) . y /ÍJ ñ Calcoliamo

Capitolo 4: Statistica inferenziale

229

II test, al livello deH'1%, é; "Si rifiuti I'ipotesi se 2 > 20.99". Poiché 20.99 = 2.3263, si puo affermare, al livello di confidenza deH'1%, che il numero medio settimanale di rapine é effettivamente aumentato. Calcoliamo il p-value; a = P {Z > 4.576) = 0.0000. La probabilitá di osservare un numero di rapine cosí elevato, se il numero medio non fosse aumentato, é inferiore a 1/ 10000. □ Escmpio 43. Consideriamo lo stesso problema posto nell'esercizio precedente, con queste dííferenze. Dall'esperienza passata é noto che il numero di rapine che ogni settimana aw engono in una certa cittá ha media 1 (ma non supponiamo di conosceme la legge). Nel corso dell'anno passato ci sono state 85 rapine, quindi una media di 85/52 alia settimana, con una deviazione standard di 1.5 rapine alia settimana. Si puó affermare che l'entitá del fenómeno é cresciuta in modo significativo? Per rispondere, si faccia un test, al livello deH'1%, sull'ipotesi nulla che il parametro non sia cresciuto. Questa volta abbiamo un campione numeroso estratto da una popolazione non nórmale (di legge sconosciuta). L'ipotesi nulla é H q : fj, < 1. Possiamo fare un test t, calculando

v /íI 7 ñ

v /O V W

I gradi di libertá sono 51, il livello di sígnificativitá 0.01, perció la regola di decisione é: si rifiuti H q se í > ¿0.99(51 ). Per interpolazione lineare tra ¿o.99(40) = 2.4233 e ¿0.99(60 ) = 2.3902 troviamo: 3.05), con T ^ ¿(51). Si trova Q = 0.0018. Rispetto all'esercizio precedente, l'ipotesi qui viene rifiutata "con prove meno schiaccianti" (il p-value qui é piú alto). Si noti che in questo esercízio abbiamo una informazione in meno (non conosciamo la legge di X ), compensata (in parte) da un'informazione in piú (la varianza campionaria). □

4.4.4.

Test su due medie

Consideriamo ora un problema leggermente diverso daí precedenti. Supponiamo di voler confrontare le medie di due popolazioni diverse, estraendo un campione casuale da ciascuna di esse. Questa situazione si puó verificare in molte indagini comparative: si vuole confrontare la produttivitá di una macchina con quella di un'altra; si vuole sapere se la popolazione di una certa cittá ha reddíto medio superiore a quella di un'altra cittá, ecc. Cominciamo a considerare il caso di due popolazioni normaii indipendenti, X ~ Y Af(/iy,c 7y). Supponiamo di estrarre da ciascuna popolazione un campione casuale; i due campioni possono anche non avere la stessa ampiezza:

230

Capitolo 4: Statistica inferenziale

(A ',,X 2, . . . . X „ ) ,

(YuY2,...,Y,n)-

Vogliamo confrontare le medie delle due popolazioni. L'ipotesi nulla di solito é una delle seguenti: H q : p x = y-Y\ Ho : p x ^

H q : p x < Mv-

Piú in generale, potrebbe essere del tipo;

Ho . p x —

H q : fix ^ t^Y +

H q : p x ^ tJ'Y +

con ¿ 6 R costante físsata. Poiché lo stimatore naturale di una media é la media camptonaría, é ragionevole considerare la statistica

X n-Y^ per stimare la différenza p x — t^Y- Ad esempio, se H q : p x = f^Y, ü test sará del tipo "Si rifíuti H q se |X „ - Yjn\ > A;"; se invece H q : p x > P y , ü test sará del tipo "Si rifiuti Ho se X n - Ym < k '\ ecc. II problema é costruire mediante - Ym una v a. di legge nota. Si noti che non abbiamo ancora fatto alcuna ipotesi sulle varíame delle due popolazioni; abbiamo quindi 4 parametri incogniti, fínora. Tratteremo solo due situazioni particolarí: a. Le varianze , o \ sono note; b. Le varianze a \ , cry sono incognite ma uguali tra loro. Ritomeremo poi sulla discussione del significato di queste ipotesi. Caso a. Ragioniamo, per fissare le idee, nel caso in cui l'ipotesi nulla é H q : P x = P y + Se a \ , ay sono note, possiamo scrivere 2

n

2

); y ^ ^ n í p y , ^ ) , T7l

da cui ricaviamo, se é vera l'ipotesi nulla

X ^ - Y m - 6 ^ N ( o ,á r + i ) , \ n m ) ow ero - 5 n

'

^ ( 0 , 1).

m

Conclusione. Supponiamo di estrarre due campioni casuaii di ampiezza n , m, rispettivamente, da due popolazioni normali indipendenti, con varíame , Oy note, e di voler eseguire un test sulla differenza tra le medie delle due popolazioni. Se poniamo z =

X„ - Y , ^ - 6

possiamo esprimere la regola di decisione del test, in dipendenza dall'ipotesi nulla e dal livello di significativita che abbiamo scelto, al modo seguente:

CapHoto 4: Statistica inferenziale

Ho

Hx

ß x = f^Y ßX < ßY

ßx

Rifíutare H q se \z\ > Zx-a / 2 Z > Zx-a Z < -Zx-a

ßY

> ßY ßx < ß Y + ^ ßx

ßX > ß Y + 6

231

(Molto spesso la costante 6 è zéro). Caso b. Stiamo ora supponendo = ay = ancora dire che, se è vera l'ipotesi nulla H q : n x =

X r,-Y ^~ 6 lo^

\ n

,

(ma o incognito). Possiamo + b.

N{QA).

7

< »

m

Ora pero la quantitá a primo membro contiene l'incognita a. La stimiamo usando la varianza campionaria dei due campioni. Piú precisamente, se ^

1

^

1

i



defíniamo la varianza campionaria pesaía TI

5" =

__

n + m —2

rt

T7l

fy

n + m —2

Questa grandezza è una media pesata delle varianze campionarie dei due campioni, ed è la quantité ehe è più naturale introduire per stimare a^ tenendo conto delle informazioni contenute in entrambi i campioni. Ricordando ehe, essendo i campioni estratti da popolazioni normali, è (n-l)5^ 2/ ----- ^2----- ~ X

ly { m -l)S y 2/ -|\ - 1), ----- ^2------ ~ X (»Tl - 1),

si ha anche, per le propriété delle leggi chi quadro,

(n + m - 2 ) S ^

2/

_

ox

----------- Ö--------- ~ X (»I + »M — 2).

Allora, ricordando la defínizione di legge t di Student, otteniamo che

Xr^-Ÿm -è loJ_ ,oJ_ y n m X ^-Y m -à /1

I

/ (n -l)5 l+ (m -l)^ T\ ' TTx\j n4-m-2

=

rsj t(n + m —2 ).

1

Abbiamo ottenuto quindi una quantité che si puô calculare dai dati campionari ed ha legge nota.

232

Capitolo 4: Statistica inferenziala

Si noti che, net caso particolare in cui i campioni hanno uguate ampiezza (n = m ), la varianza campionaria pesata assume I'espressione piu semplice

Conclusione. Supponiamo di estrarre due campioni casuali di ampiezza n , m, rispettivamente, da due popoiazioni normali indipendenti, con varianze incognite ma uguali, e di voter eseguire un test sulla differenza delle medie delle popoiazioni; se poniamo t =

Xn-Yr, / 1 , 1

y n ^ my

/ (n -l)5 |+ (m -l)^ n + m -2

possiamo esprimere la regola di decisione del test, in dipendenza dall'ipotesi nulla e dal livello di significativitá che abbiamo see Ito, al modo seguente: Ha i^X — i^Y + ^

Hi

Px > P Y + ^ Px < P y + 6

Rifíutare H q se |¿| > ti-a/2{n + m - 2 ) t > t\-a{n -f m —2) t < —¿ 1- 0(71 + TTx —2 )

(Motto spesso la costante 6 é zero). Osservazione 44. Ipotesi di applicabiliti dei test sulla diflerenza di due medie. Abbiamo visto, fin qui, come si esegue un test sulla differenza delle medie di due popoiazioni normali indipendenti, in due casi particolari: a. Le varianze Oy sono note; b. Le varianze a ^ , Oy sono incognite ma uguali tra loro. Vediamo ora di renderci conto, brevemente, di quale sia il significato concreto di queste ipotesi. a. Oltre al caso in cui le varianze siano effettivamente note (in base a studi precedenti), si tratta in questo modo anche il caso in cui i campioni sono entrambi numerosi (n, m > 30). In questo caso é prassi comune usare le varianze campionarie come se fossero i valori esatti delle varianze. b. Questa seconda ipotesi puo essere sensata quando le due popoiazioni in esame sono, in qualche senso, entrambe parte di una popolazione piu vasta, per cui possiamo pensare che condividano la varianza della popolazione piu vasta, pur avendo, magari, medie diverse. Ad esempio, se X e y rappresentano la statura di un individuo adulto scelto a caso da due diverse region! italiane, potranno avere medie diverse, ma avranno varianze approssimativamente uguali. Va detto inoltre che il test descritto non é molto sensibile a piccole differenze tra le varianze. Un criterio pratico fomito da alcuni test! é quello di non utilizzare questo test quando una varianza é (almeno) 4 volte raltra. Se le varianze campionarie sono ragionevolmente vicine, questa condizione sará probabilmente verifícata. Si osservi che, per quanto sopra osservato riguardo al caso a, il test t su due campioni si riserva sólitamente al caso in cui almeno uno dei campioni é piccolo (altrimenti trattiamo le varianze come note) II fatto che le varianze di due popoiazioni normali siano uguali puo, a sua volta, essere oggetto di un test statistico (il test F , che discuteremo nel §4.5.2). Percio, volendo eseguire un test sulla differenza di due medie nel caso in cui le varianze siano incognite e i campioni piccoli, I'indagine puo procederé in due tempi: prima si verifica

Capitolo 4: Statistíca inferenziale

233

I'ipotesi di uguaglianza delle vananze; poi, se I'uguaglianza é verífícata, si applica il test t sui due campioni. Naturalmente, puo anche presentarsi il caso in cui le varianze sono incognite, apparentemente diverse tra loro, e i campioni sono piccoli. In questo caso nessuna delle procedure che abbiamo descritto é adeguata. Esiste un altro tipo di test adatto a questo scopo, chiamato test di Smith-Saiterthwaite, che non illustriamo: il lettore tenga comunque presente che questo test puo essere fácilmente eseguito mediante un software statistico. □ Abbiamo ftn qui considerato il caso in cui si estraggono due campioni casuali da due popolazioni normali indipendenti. Talvolta cápita di avere a che fare con due gruppi di n osservazioni, estratti da popolazioni normali, che per il loro signifícato risultano naturalmente "accoppiate"; ad esempio, le temperature minime e massime di n cittá in un dato giomo, piu che rappresentare due n-uple di osservazioni indipendenti, rappresentano t/na n-upla di coppie di osservazioni. Lo stesso si puo dire per i pesi di n persone prima e dopo una cura dimagrante, la produttivitá di n macchine prima e dopo una certa modifica, ecc. In questo caso parliamo di due popolazioni norm ali accoppiate (anziché indipendenti). Formalmente, questo significa che invece di considerare due campioni indipendenti:

{XuX2,...,Xn),

( y , , r 2, . . . , r „ ) ,

consideriamo un campione di coppie;

(Si badi che é fondamentale Yordine in cui accoppiamo le X i con le Vi; con riferimento agli esempi fatti, (X i, Yi) possono essere le temperature massima e minima della stessa cittá, il peso di una stessa persona prima e dopo una cura dimagrante, ecc.). In questo caso il problema naturale non é confrontare la media della popolazione X con la media della popolazione Y , ma piuttosto studiare la media delle differenze . ( ( y , - X , ) , ( V 2 - X 2) , . . . , ( y '„ - X „ ) ) .

Y ~ N { p y , 5). Questo consente di stabilire un criterio di decisione per

t=i j= i un test di ipotesi (o anche di determinare un intervailo di confidenza per la differenza tra le medie).

Conclusione. Supponiamo di estrarre due campioni casuali di ampiezza n , m, rispettivamente, da due popolazioni bemoulliane indipendenti X r\j Y ^ B (p 2): seponiam o z =

Xn-Vn

con p =

^ K i-p )(J + i)

n Xn + my„ n +m

possiamo esprimere la regola di decisione del test, in dipendenza daWipotesi nulla e dal livello di significativita che abbiamo scelto, al modo seguente: H, Ho Pi = P2 Pi 7^P2 Pi < P 2 Pi > P2 Pi > P2 Pi < P2

Riflutare H q se \z\ > ¿ 1- 0/2 2 > ¿ 1-0 2 < - ¿ 1-0

n m Laprocedura è valida se risulta Y^Xi > 5; Y V i > ^ i^i j=i

Esempi Esempio 45. Da due popolazioni normali si estraggono i campioni: {8 , 11, 7, 3, 9}

{6 , 5, 10, 3, 2, 4}.

Si verifíchi, al livello del 5%, I'ipotesi di uguaglianza della media. Le varianze non sono note, e i campioni sono piccoli. Calcoliamo anzitutto: x„ = 7.6; 3^ = 8 .8 ; y„, = 5; Sy = 8 ; n = 5; m = 6 . Le varianze campionarie tróvate hanno rapporto s ^ /s y = 1 1 , il che consente di applicare il test t su due campioni (possiamo ritenere soddisfatta, cioe, I'ipotesi di varianze incognite ma uguali). La varianza campionaria pesata é;

2 _ (n - 1)3^ + (m - 1 ) 4 _ 4 - 8 .8 + 5 -8 n Tn ~ 2 5 "I" 6 —2

8.355.

236

CapUolo 4: Statistica inferenziale

t =

Xn - y„

7 .6 - 5

= 1.4854.

I gradi di libertá sono n + m —2 = 5 + 6 - 2 = 9. II test, al livello del 5%, é: si rifiuti I'ipotesi H q : fix = fiy se |¿| > ¿0.975(9) = 2.2622. Percio i dati non consentono di rifiutare I'ipotesi di uguaglianza della media. Calcoliamo il p-value. Per T ^ ¿(9), si ha: Q = P{\T\ > 1.4584) = 0.1787.



Esempio 46. Un gruppo di 6 pazienti si sono sottoposti ad una cura dimagrante. All'inizio della cura pesavano kg. 77, 87, 104, 98, 91, 78. Dopo tre mesi: kg. 75, 88, 97, 99, 83, 70, rispettivamente. a. Si puo affermare, ad un livello a = 0.05, che la cura é stata efficace (cioé che, mediamente, c'é stato un calo di peso)? b. Se la cura prometteva un calo di almeno 5kg, si puó dire che é stata efficace? a. Si tratta di due campioni accoppiati, consíderiamo il campione delle differenze (peso finale — peso iniziale): - 2 ; 1; - 7 ; 1; - 8 ; - 8 . Supponendo che il peso degli individui, prima e dopo la cura, sia normalmente distribuito, possiamo applicare un test t su questo campione (la varianza é incognita). L'ipotesi nulla sará H q : f i > 0 (che significa: la cura é stata inutile). Calcoliamo: 2„ = -3 .8 3 3 ; si = 18.967; 2 =

-3 .8 3 3 ^ 1 8 .9 6 7 /6

= -2 .1 5 6 .

1 gradi di libertà sono 5; il test al livello del 5% è: si rifiuti Ho se 2 < —¿0.95( 5 ) = —2.015. Perciô il test consente di rifiutare I'ipotesi, a questo livello di significativité: la cura è stata efficace. b. In questo caso I'ipotesi nulla è H q : p > - 5 (ossia, il calo medio è stato minore di 5kg).

2—

-3 .8 3 3 + 5 ^ 1 8 .9 6 7 /6

= 0.656.

Il test è: si rifiuti i/o se 2 < —¿0.95(5 ) = —2.015: non è possibile rifiutare I'ipotesi. Non si puô quindi affermare, in questo caso, che la cura sia stata efficace. Chiediamoci: si puô affermare che la cura è stata inefficace? Ossia: se fissiamo ora come ipotesi nulla H q : P < —5, si puô rifiutare quest'ipotesi, con gli stessi dati? 11 test è ora: rifiutare H q se 2 > 2.015. Nemmeno questo è possibile (2 = 0.656). □ Esempio 47. L'osservazione dei guasti occorsi a due tipi di macchine fotocopiatrici ha mostrato che: 71 guasti della macchina A hanno richiesto un tempo medio di riparazione di 83.2 minuti, con una deviazione standard di 19.3 minuti, mentre 75 guasti della macchina B hanno richiesto un tempo medio di riparazione di 90.8 minuti.

Caf^olo 4: Statistica inferenziale

237

con una deviazione standard di 21.4 minuti. Si esegua un test, al livello del 5%, sull'ipotesi nulla di uguaglianza tra i tempi medi di riparazione. Supponiamo che i tempi di riparazione abbiano legge normale. Abbiamo: — 83.2{

3^

— 1 9 . Ti



71i

y„ = 90.8; sy = 21.4; m = 75. Possiamo procederé in due modi. Poiché i campioni sono numerosi, si possono considerare le varianze note (sostituendo a a x la sua stima sx, e análogamente per Y ) e applicare il test z; in questo caso, calcoliamo z =

83.2 - 90.8

Xn-Vn /

4

I

4

/ 1 9 . 3 *

= -2 .2 5 5 6 .

, 2 1 . 4 ’

Vn +m

+ ^

II test, al livello del 5%, é: si rifiuti H q se \z\ > 20.975 = 1-96. Poiché 2.2556 > 1.96, si puó rifíutare l'ipotesi. II secondo modo di procederé é questo. Poiché le varianze campionarie hanno rapporto S y / s ^ x — 21.4^/19.3^ = 1.23 < 4, possiamo ritenere le varianze (incognite ma) uguali, e applicare il test t. In questo caso, calcoliamo

t = .h

Xn-Vn \ ^ ■/'(» -0 4 + (^ -i)4

Y n ' mY

n + m -2

83.2 - 90.8 / i V 71

, J . / 70-19.3*+74-21.4* 75V 71+75-2

= -2 .2 4 9 .

II test, al livello del 5%, e: si rifiuti H q se |i| > io.975(144) ~ 20.975 = 1-96 (poiche i gradi di liberta sono piu di 120, i quantili della t si approssimano con quelli della 2). Poiche 2.249 > 1.96, si pud rifiutare I'ipotesi. La conclusione, con entrambi i procedimenti, e che le medie sono diverse. Possiamo costruire un intervailo di confidema per la differenza delle medie 6 = p x - f^Y Sfhittando il fatto che

Z =

'y —Y — i) r " ~ 7NT(0.1), / 19.3*

V ~

■ 21.4*

+ ^

possiamo scnvere:

Xr^-Y^-6 < 1.96 / 19.3* I 21.4* V 71 75

= 0.95,

da cui ricaviamo un intervallo di confidenza al livello del 95%, per 5; 1-7.6 - ¿I < 1.96 • 3.369 = 6.604. Percio

S = -7 .6 ± 6 .6 0 4 = (-1 3 .6 6 4 , -0 .9 9 6 ).

238

Capitolo 4: Statistica inferenziale

Con una confidenza del 95% possiamo affermare che il tempo medio di riparazione richiesto dalla macchina B e da 1 a 14 minuti circa maggiore del tempo medio di riparazione richiesto dalla macchina A. □ Esempio 48. Un ufficio studi di una certa assicurazione ha constatato che nella localita A, dove conta 25 automobili assicurate, vi sono stati 5 flirti d'auto; nella localita B, a fronte di 45 auto assicurate, vi sono stati 8 flirti d'auto. L'ufficio studi pud concludere che le due localita siano ugualmente pericolose? In caso contrario, qual e la piu pericolosa? Si tratta di eseguire un test sull'uguaglianza di due frequenze. Si ha: _

5

_

8

5+ 8

P=

z =

25 + 45

5. 25

80’

i. 45

/13 67 M , J_\ V 8O80I 25 ■'■45/

= 0.2415.

Un test al livello del 5% sull'ipotesi di uguaglianza delle frequenze è: "Si rifiuti I'ipotesi se 2 > ¿0.975 = 1.96". Perciô i nostri dati non consentono di rifiutare I'ipotesi di uguaglianza delle medie. II p-value corrispondente a z = 0.2415 è a = 0.8092, il che significa che possiamo acceitare I'ipotesi di uguaglianza delle frequenze con una buona fiducia. □

Esercizi 4.14. Un'associazione di consumatori decide di controllare se le confezioni di spaghetti di una certa marca contengono effettivamente il peso dichiarato. Su 51 scatole di spaghetti da 500g si è trovata una media campionaria di x = 492g., con una varianza campionaria = 220g^. a. Supponendo che la quantité di spaghetti contenuta in una confezione si possa modellizzare con una v.a. normale, un opportuno test statistico permette di concludere, al livello a = 0.05, che in media le confezioni contengono meno di quanto dichiarato? Per rispondere si espliciti I'ipotesi nulla, la statistica e la regola di decisione utilizzata. b. L'ipotesi che la distribuzione sia normale è indispensabile per giustificare il procedimento seguito? 4.15. La precisione di una macchina che produce componenti di dimensioni specificate viene tenuta sotto controllo con verifiche campionarie; la dimensione specificata è /i = 3.5 mm. Se, su 150 pezziprodotti, si è riscontrata una media campionaria pari a 3.42 mm., e una varianza campionaria pari a 0.2209 mm^, il processo va considerato "sotto controllo" o "fiiori controllo"? Rispondere poi alia stessa domanda, supponendo che le stesse statistiche siano state rilevate su un campione di ampiezza 60. 4.16. Una ditta acquista componenti semplici da un'altra ditta, in lotti da 5000 pezzi, e vuole avere la garanzia che al massimo il 4% di questi pezzi siano difettosi Prima di

Capitolo 4: Statistica inferenziale

239

utilizzare questi componenti, percio, da ogni lotto di 5000 viene selezionato un campione di 150 pezzi che vengono sottoposti a collaudo Se al massimo k dei pezzi collaudati non flinzionano, la partita viene accettata, altrimenti verrá respinta al fomitore. a. Come si deve scegliere k afíinché la probabilitá di accettare un lotto con almeno il 4% dei pezzi difettosi sia inferiore al 5%? Per rispondere, si imposti il problema come un test di ipotesi, scegliendo opportunamente I'ipotesi nulla, I'ipotesi alternativa e il criterio di decisione. (La scelta dev'essere conforme al punto di vista espresso nel problema). Spiegare le eventual! approssimazioni fatte. b. Supponiamo di aver scelto fc = 2. Con questo criterio di decisione, qual é la massima probabilitá di scartare un lotto con meno del 4% dei pezzi difettosi? 4.17. II 32% degli student! di una certa Universitá abita fuori dal Comune in cui é situata rUniversitá stessa. Tra i 600 student! del Corso di Diploma di quell'Universitá, si seleziona un campione casuale di 30 student!; di questi, 14 risultano abitare fuori cittá. Si puó concludere, da questi dati, che il Diploma richiami student! da fuori cittá piú della Laurea? Per rispondere si esegua un opportuno test statistico, al livello di signifícativitá 0.05, spiegando il procedimento seguito, I'ipotesi nulla, e formulando una conclusione in modo corretto. 4.18. In una grande azienda multinazionale, ad ogni dipendente é assegnato un "coefficiente di produttivitá", in una scala da 1 a 100. Un campione casuale di 5 dipendenti del reparto A ha i seguenti coefficient!; {87,92,94,89,90}. Un secondo campione casuale di 9 dipendenti del reparto B ha i seguenti coefficient!: {88,8 5 ,9 3 ,9 6 ,9 0 ,9 1 ,8 9 ,9 3 ,9 5 }. Si puó affermare che un reparto sia piú produttivo dell'altro? Per rispondere, si imposti il problema mediante un opportuno test statistico, esplicitando le ipotesi che occorre fare, le statistiche che si utilizzano, I'ipotesi nulla, il livello di signifícativitá scelto, e si esprima con un linguaggio appropriato la conclusione a cui si é giunti dall'analisi di questi dati statistic!. 4.19. Da due popolazioni normal! indipendenti X ,Y si sono estratti due campion! di ampiezza, rispettivamente, n = 40 e m = 50. Si é trovato; x„ = 2.91; sx = 9.3;

= 1.98; Sy = 2.1.

In base a questi dati si puó affermare, al livello di signifícativitá del 5%, che p x > 4.20. Quattro macchine selezionate a caso tra tutte quelle di una certa officina, hanno prodotto, in un'ora, 1 2 ,8 ,1 0 ,9 pezzi. Le stesse macchine, dopo una certa modifica, hanno prodotto, rispettivamente, 14,10,13,8 pezzi, sempre in un'ora. a. Si puó affermare che la modifica abbia innalzato il numero medio di pezzi prodotti? Per rispondere, si esegua un test al livello del 5% sull'ipotesi che la media non sia cresciuta. b. Si risponda alia stessa domanda supponendo ora che le 4 macchine dopo la modifica abbiano prodotto, rispettivamente, 8 ,1 0 ,1 3 ,1 4 pezzi in un'ora.

240

Capitolo 4: Statistica inferenziale

4.5. Inferenze sulle varianze di popolazioni normali Nei paragrafí 4.3 e 4.4 abbiamo introdotto i due concetti fondamentali della statistica inferenziale; intervalli di confidenza e test di ipotesi. Abbiamo esemplifícato questi concetti sui problemi di inferenza su medie o frequenze. Non ci siamo invece occupati della vahanza. In questo parágrafo vedremo appunto come eseguire un test di ipotesi o determinare un intervallo di conñdenza per la varianza di una popolazione nórmale, o eseguire un test di ipotesi sul rapporto tra due varianze. II discorso non presenta particolari difficoltá, una volta compresi questi concetti nel caso della media e della frequenza. Come vedremo, un ruolo simile a quello giocato dalla legge i di Student nelle inferenze sulle medie, sará qui giocato dalla legge (chi-quadro) e dalla legge F di Fisher, introdotte nel §4.2. Si presti attenzione al fatto che le densitá di queste leggi, a differenza della 2 e della t, non sono funzioni simmetriche, poiché descrivono v.a. sempre positive; alcune relazioni che coinvolgono i loro quantili sono quindi formalmente diverse da quelle delle leggi z t i .

4.5.1.

Inferenze su una varianza

Supponiamo di estrarre un campione casuale di ampiezza n da una popolazione X ~ 7V(/i, a^), e voler eseguire un test sulla varianza a^. Sappiamo che -------2---------X

- !)■

Sia, ad esempio, H q . < Oq. Allora il test sará del tipo; "Si rifiuti H q se > fc", con k opportuno. Fissiamo il livello di signifícativitá q . Se H q é vera, la probabilitá di rifíutare l'ipotesi é

> k).

p(/i. fc)
xí_„(n - d )

otteniamo

k =

(n -1 )

X ? - a ( ^ - !)•

Ragionando análogamente si possono discútete le ipotesi nulle di altro tipo.

Conclusione. Supponiamo di estrarre un campione casuale di ampiezza n da una popolazione normale (di media incognita). Se poniamo 2 _ (n - 1)3^ X



_2

possiamo esprimere la regola di decisione del test, in dipendenza dall'ipotesi nulla e

Capitok) 4: Statistica inferenziala

241

dal livello di significatività che abbiamo scelto, ai modo seguente:

Rifiutare H q se

Hx

Ho = al

/ al

X^ > X?-a/2(” - 1) O

< al a'^ > a l

> al

X^ > X l-a (^ - 1) X^ < x l { n - 1)

< al

< X ^2(^ “ 1)

Análogamente ci comportiamo volendo determinare l'intervallo di coníidenza, al livello 100a% , per Sfhittando la (1) del §4.2, possiamo scrivere che o =

-1 )
x l a / 2 ( ” - 1)

X^ hi", con fci < 1 < ^2 costanti opportune. Dal §4.2 sappiamo che, sotto I'ipotesi di normalitá delle popolazioni, rísulta 9

e quindi anche

X

1)»

9

X^(m-l);

Capitolo 4: Statistica inferenziale

^ xXI/ ° X ~ S y I oy

245

1 . ^ - 1).

dove F{n — l , m — 1) e la legge di Fisher con n — l , m — 1 gradi di liberta. In particolare, se a \ = CY, si ha che F ~ F ( n — l , m — 1). Questa osservazione permette di eseguire un test di ipotesi sulle due varianze;

Supportiamo di estrarre due campiorti casuali di ampiezza n,Tn da due popolazioni normali irtdipendenti X , Y ( d i media incognita). Se poniamo F - ^

possiamo esprimere la regoia di decisione del test, in dipendenza dall'ipotesi nulla e dal livello di significativitd che abbiamo scelto, al modo seguente:

Hi

Rifiutare H q se

a \= a \

H

a\ < a\ 4 a\> a\r 4

oF
F i_ ^ (n -l,m H < F ,_ ^ (n -l,m

> 4 < 4

F ^ (n -l,m -l)

-l) -l)

Tenendo conto della relazione (dimostrata nel §4.2) "CW ttÍ~ttT Fa{Tn,n) si puo dare un'altra forma alia regola di decisione nel caso H q \ a \ = ay,. Posto «L x = m a x ( 4 . 4 ) . s L n = e detti rim, tim le ampiezze dei campioni corrispondenti a a L n ’ « L z 3^ > Sy poniamo rim = n , n M = rn), le relazioni

F

esempio, se

oF < F ^ (n -l,m -l)

sono equivalent! a s2 3min > F ,_ q'/2(^AÍ -

- !)•

Questa forma é quella utile per usare le tavole, che riportano i quantili Fp solo per /3 grande; ad esempio per a = 0.05, ci interessano i quantili Fo,975(nM - 1, - 1). Con ragionamenti analoghi si puo determinare I'intervallo di confidenza, al livello 100 q %, per ilrapporto delle varianze a \ ! a \ . Dall'identitá a = \

^ Y /^ Y

< Fu^(n-l,m -l)) ^ /

246

Capitolo 4: Statistica inferenziale

ricaviamo che, con probabilita a , risulta

1

Sx

cr^x

Sy ^ a \ ^

1

5^

F ¡^ (n -l,m -l)



Conclusione. L'intervallo di confidenza, al livello 100a%, per o \ l a \ , calcolato dal campione, é 1

fly

1

s‘

Esempio 53. Due macchine diverse producono fílo di rame che deve avere diámetro costante. Per controllare la qualitá del processo, vengono eseguite misure precise del diámetro in punti casuali del fílo prodotto dall'una e dall'altra macchina. Le osservazioni cosí ottenute possono ritenersi provenire da una legge nórmale di media e varianza incognita. 13 misure effettuate sulla prima macchina hanno fomito una varianza campionaria s \ = 0.001225, mentre 11 misure effettuate sulla seconda macchina hanno fomito una varianza campionaria Sy = 0.003844. Si puó ritenere che le due macchine abbíano la stessa accuratezza? In caso contrario, quale é piú accurata? Per rispondere alie domande; a. si sottoponga a test l'ipotesi di uguaglianza delle varianze; b. si esegua un test sull'ipotesi nulla che c. si calcoli un intervallo di confidenza, al livello del 95%, per il rapporto delle varianze.

a. Si tratta di eseguire un test sull'ipotesi di uguaglianza delle varianze a y. Se non risulteranno uguali, potremo affermare che la prima macchina (che ha varianza campionaria inferiore) ha varianza inferiore, e quindi é piú accurata della seconda macchina. Nel nostro caso é 3 ^ = m ax(sx,Sy.) = 3^ = 0.003844, = mi n( sx, 3^) = s x = 0.001225;

~ 111

“ 13

(sí rícordi che é l'ampiezza del campione che ha varianza campionaria massima, in questo caso il campione V , di ampiezza 11; análogamente n„, = 13). Si rifíuta l'ipotesi, al livello del 5%, se o2 “7 ^ > Fx-ajiijlM - l,n„j - 1). ^min Ora:

0.001225 mentre

CapHoto 4: Statistica infeœnziale

247

P\-a/2iP'M - l.^ m - 1) = -^0.975( 10, 12) = 3.62. Al livello del 5%, quindi, non possiamo rifiutare l'ipotesi di uguaglianza delle varianze: i dati non sono statisticamente significativi del fatto che la prima macchina sia più accurata délia seconda. b. In questo caso consideriamo F= ^

=

0.001225 = 0.31868. 0.003844

II test prescríve di rífíutare l'ipotesi quando

F < F ,_ J 1 2 ,1 0 ) = Fo.95(12.10). II quantile F q 95( 12,10) non compare nelle tavole; per interpolazione lineare tra F o.95(12,8) = 2.85 e Fo.95( 12, 12) = 2.69 troviamo Fo.95( 12, 10) ~ 2.77. Perció, in base ai nostri dati, non possiamo rífíutare l'ipotesi, e quindi non possiamo affermare che sia c. L'intervallo di confídenza per o \ ! a \ , al livello del 95%, é dato da:

F ¡^ (n -l,m -l)

a\ ' F | ^ ( n - l , m

-l)

s\

— 0.31868, -=— 0-31868 ’ F o.o5(12,10) ^•^ 0.975(^ 2 , 10)

)

Ora calcoliamo dalle tavole:

1 F o.o5(12,10)

= Fo.975(10,12) = 3.62.

Nelle tavole non compare F q 975( 12,10); per interpolazione lineare tra Fo.975(12,8)= 3.51 e

Fo.975(12,12)= 3.28 troviamo F o.975(12, 10)

3.395.

Perció l'intervallo di confídenza è

( 3.395

31868,3.62 • 0.31868

= (0.0938,1.154)

) -

Esercizio 4.21. Nel §4.4.4 si é fomita la seguente "regola pratica" per valutare se le varianze di due popolazioni normali si possano rítenere uguali: ríteniamo diverse le varianze quando una varíanza campionaría é almeno 4 volte l'altra. Vogliamo ora sottoporre questa regola pratica ad una crítica piú rigorosa. Supponiamo di eseguire un test F , al livello del 5%, sull'uguaglianza di 2 varianze; supponiamo di aver trovato ^moi/^mtn = 3.95 (perció, in base alia regola pratica, non dovremmo rífíutare l'ipotesi di uguaglianza tra le varianze); usando le tavole della distribuzione F , si dica se i dati consentono di rífíutare l'ipotesi nei seguenti casi:

248

Capitolo 4: Statistica interenziale

^Af — — 5, c) — 20 . (Si noti che la regola pratica fomita era fínalizzata solo a garantiré la validità approssimata del test t suH'uguaglianza delle medie, mentre non è uno strumento preciso per valutare l'uguaglianza delle varianze. Questo esercizio vuole anche insegnare a non avéré una fíducia assoluta nelle "rególe pratiche" troppo semplici per poter essere rigorosamente valide in tutti i casi).

4.6. II test chí-quadro di adattamento e di indipendenza 4.6.1.

II test chi-quadro di adattamento

Ci occupiamo ora di una importante procedura statistica che ha lo scopo di verificare se certi dati empirici si adattino bene ad una distribuzione teórica assegnata. II signifícate di questo problema sará illustrate dai prossimi esempi, che costituiranno la guida del discorso successive. Esem pío 54. Alie ultime elezioni amministrative, in un certo comune si presentavano 4 partiti, che hanno ottenuto le seguenti percentuali; Partito Percentuale di voti

Al 32%

A2 27%

^3 16%

A4 25%

Totale 100%

In una certa sezione elettorale di quel comune, su 320 voti validi, i voti sono risultati cosí ripartiti; Partito N® voti Percentuale di voti

Al 118 36.9%

A2 71 22 .2%

A4 69 21.5%

^3 62 19.4%

Totale 320 100%

Si puó ritenere che i risultati elettorali di questa sezione si adattino bene ai risultati complessivi, oppure le discrepanze sono statisticamente signifícative? Esempio 55. In base a una ricerca condotta due anni fa, si puó ritenere che il numero di incidenti automobilistici per settimana, in un certo tratto di autostrada, segua una legge di Poisson di parametro A = 0.4. Se nelle ultime 85 settimane si sono rilevati i seguenti dati N° di incidenti per settimana N° di settimane in cui si è verifícate

0 50

1 32

2 3

3 O piú 0

Totale 85

si puó affermare che il modello è ancora applicabile alia descrizione del fenómeno, o qualcosa è cambiato? Esempio 56. Si dispone delle seguenti osservazioni circa i soldati dell'antico esercito prussiano uccisi da un calcio di cavallo, ín un anno, in un battaglione:

Capitolo 4: Statistica inferenziale

n° di morti in un anno in un battaglione n*’ di casi in cui si è verifícate questo

0 109

1 65

2 22

3 3

4 1

249

Totale 200

E' ragionevole ritenere che il numero di morti in un anno in un battaglione segua una legge di Poisson? Esempio 57. I tempi di vita di 100 lampadine estratte casualmente da un lotto sono stati misurati, e i dati raggruppati come segue; Tempo di vita (in mesi) meno di 1 da 1 a 2 da2 a 3 da 3 a 4 da 4 a 5 da 5 a 10 più di 10 Totale

N‘^ di lampadine 24 16

20 14 10 16

0 100

In base a questi dati, si puo affermare che il tempo di vita di una lampadina segue una legge esponenziale? Per arrivare a rispondere a questi problemi, cominciamo a descrivere la situazione generale di cui quelle precedent! sono esemplifícazioni concrete. Supponiamo di avere una tabella che rappresenta n osservazioni (di una sola variabile) raggruppate in k classL Le class! possono rappresentare; a. caratteristiche qualitative (in altre parole; valori assunti da una variabile categórica), come nell'Esempio 54 (in cui la classe è il partito votato); b. valori assunti da una variabile discreta; ogni classe raggruppa tutte le osservazioni che assumono un singolo valore, come nell'Esempio 56; eventualmente, una o due class! raggruppano le "code", come nell'Esempio 55, dove I'ultima classe (vuota) è "3 o più"; c. intervalli di valori assunti da una variabile continua, come nell'Esempio 57 (ogni classe contiene tutte le osservazioni che cadono in un certo intervallo); in questo caso la tabella contiene meno informazioni di quelle che si avrebbero conoscendo i dati grezzi (ossia i valori esatti di tutte le n osservazioni). In altre parole; la tabella rappresenta la tavola delle frequenze (assolute) di una variabile categórica o di una variabile numérica, discreta o continua. Per ciascuna classe A i ( i = l , 2 , . . . , k ) supponiamo di avere, oltre alia "frequenza osservata", una '^freguenra atiesa", con cui vogliamo confrontare la frequenza osservata Discutiamo, nei vari esempi, il signifícate di questa frequenza attesa

Esempio 54. Le frequenze attese sono quelle che si osserverebbero, sui 320 voti della sezione, se questi fossero distribuiti esattamente seconde le percentuali di tutto l'elettorato. Per ottenerle dobbiamo trasformare le percentuali attese in frequenze relative attese, e moltiplicare queste per il numero di osservazioni (cioé di voti valid! della sezione); otteniamo una tabella cosí;

250

Capitolo 4: Statistica inferenziale

Partito Percentuale atiesa Freq. relativa atiesa pi Freq. assoluta attesa npi (n = 320) Freq. assoluta osservata N{

A^ 32% 0.32 102.4 118

M 27% 0.27 86.4 71

A3 16% 0.16 51.2 62

A4 25% 0.25 80 69

Totale 100% 1 320 320

Valutare se i dati osservati si adattano alia distribuzione atiesa signifíca ora trovare un criterio quantitativo per valutare se le discrepanze tra i valori delle ultime due righe, nella tabella precedente, sono statisticamente signifícative.

Esempio 55. La distribuzione teórica con cui si vogliono confrontare i dati é la legge di Poisson Po(0-4). Se X ^ Po(0.4), possiamo calcolare la probabilitá degli eventi {X = 0}; {X = 1}; {X = 2 }; {X > 3}, che costituiscono le classi. Troviamo: P { X = 0} = e “®'• = 0.67; P { X = 1} = c'® ‘‘ • 0.4 = 0.268; P { X = 2} = c -0.4

0.42

= 0.054;

P { X > 3} = 1 - (0.67 -h 0.268 + 0.054) = 0.008. Queste sono le probabilitá con cui X appartiene alie 4 classi, e quindi sono le frequenze relative atiese; le frequenze assolute atiese si ottengono moltiplicando queste per il numero di osservazioni, in questo caso 85. La tabella che si trova é; {X = 0 ) Classe Freq. reí. attesa Pi 0.67 Freq. ass. attesa npj (n = 85) 56.95 Freq. ass. osservata 50

{ J C = 1} 0.268 22.78 32

{A- = 2 } 0.054 4.59 3

(JC>3) 0.008 0.68 0

Tot. 1 85 85

Esempio 56. La distribuzione teórica con cui si vogliono confrontare i dati é la legge di Poisson, ma in questo caso il valore del parametro non é noto a priori. II ragionamento da fare é; se i nostri dati sono realmente distribuiti secondo una legge P q(A), quanto vale A? II primo passo é quindi stimare il valore del parametro A dai dati del nostro campione. Poiché A é il valore atieso della legge di Poisson, porremo A = x„. Occorre quindi calcolare

dai nostri dati;

= ^ ( 1 0 9 • 0 + 65 • 1 -h 22 • 2 + 3 • 3 + 1 • 4)

122 = 0.61. 200

Quindi il valore stimato é A = 0.61. A questo punto il problema diventa simile a quello dell'Esempio 55: per valutare se i

Capitolo 4: Statistica inferenziale

251

nostri dati si adattano alia distnbuzione P q(0.61), calcoliamo, per X r\j Po(0.61),

P {X = 0) =

= 0.543;

P (X = 1) =

• 0.61 = 0.331;

P {X = 2) =

= 0.101;

P {X = 3) =

= 0.021;

P (X = 4) = C-® ®*

4!

= 0.003.

Anche se nelle nostre osservazioni la classe {X > 5} é vuota, la frequenza relativa attesa di questa classe non é zero, ma é;

P {X > 5) = 1 - (0.543 + 0.331 + 0.101 + 0.021 + 0.003) = 0.001. Ora possiamo compilare la tabella; Classe { Jí = 0} { X = l} { X = 2) { X = 3} {X = 4 ) {X>5) Tot.

Freq. reí. attesa pi Freq. ass. attesa np¿ = 200p¿ Freq. ass. osservata N{ 109 108.6 0.543 65 66.2 0.331 22 0.101 20.2 3 0.021 4.2 1 0.6 0.003 0 0.2 0.001 200 1 200

I dati di quest'esempio sono storici; si noti che l'adattamento alia legge di Poisson é impressionante! Riassumendo; la novitá di quest'esempio, rispetto al precedente, é che vogliamo verificare l'adattamento dei dati osservati a una distribuzione teórica che non é completamente specificata a priori; /7 valore di un certo parametro é stimato dai dati di questo stesso campione.

Esempio 57. La situazione é simile a quella dell'esempio precedente; si vuole verificare l'adattamento dei nostri dati a una legge Esp(i/), ma u non é specificato a priori; va stimato dai dati del campione. Per una v.a. X ~ Esp(i/) sappiamo che E X = l/i/, perció la stima naturale d\ u é: n P =



=

i=l oppure (se vogliamo usare uno stimatore non distorto, v. Osservazione 100, §3,10.1),

252

Capitok) 4: Statística inferenziale

u=

n —1

n - 1 1 n

Ex.

Xr

Anzitutto quindi occorre calcolare x^. Si noti che in questo caso non disponiamo dei dati grezzi, ma solo dei dati raggruppati in classi; poiché la varíabile in esame é continua, nel raggruppare i dati in classi parte deH'informazione é andata perduta. Abbiamo visto nel §1.4 come si calcóla la media campionaría approssimata in un caso come questo; classe Ai (0,1) (1.2) (2,3) (3,4) (4,5) (5,10) (1 0 ,oo)

punto medio x* 0.5 1.5 2.5 3.5 4.5 7.5 ?

freq. ass. / , 24 16 20 14 10 16 0

x*/¿ 12 24 50 49 45 120 0

100

300

7

E ¿=1

x„ =

Ex*/i Ex*/, 1=1

1=1

n

300

100

= 3.

E /. i=l

^ n -1 1 99 1 „„„ u = ----------- --- ----------- = 0.33. n x„ 100 3 Ora calcoliamo le frequenze relative attese. Supponendo X ~ Esp(0.33) sará

Fx{t) = 1 Quindi;

P { X < 1) = 1 -

= 0.2811

P ( l < X < 2) = e"® ^ -

^ 0.2021

P (2 < X < 3) = e"° “ 2 - e “®-^^ = 0.1453 P (3 < X < 4) =

^ - e"®^"* = 0.1044

P ( 4 < X < 5 ) = c “®“ " - e “®^

= 0.0751

CafMoto 4: Statistica inferenziale

P ( b < X < 10) =

253

'® = 0.1552

P { X > 10) = e

-0.33 10

= 0.0369.

Otteniamo quindi la tabella; classe Ai freq. reí. attesa pi 0.2811 ( 0, 1) 0.2021 ( 1, 2 ) 0.1453 (2,3) 0.1044 (3,4) 0.0751 (4,5) 0.1552 (5,10) (10, oo) 0.0369

freq. ass. attesa npi freq. ass. osservata N, 28.10(5) 24 20.21 16 14.53 20 10.44 14 10 7.51 15.52 16 3.69 0

7

E

1.0001

100

100

II confronto visivo tra le ultime due colonne suggerisce che ci sia un buon adattamento tra i dati; vedremo poi corne effettuare una verifica quantitativa. Ricapitoliamo; in quest'esempio, oltre a dover stimare un parámetro incognito dai dati del campione (corne nell'esempio precedente), abbiamo l'ulteriore complicazione dovuta al fatto che la variabile è continua, per cui i dati raggruppati in classi non consentono di determinare la media campionaria in modo esatto, ma solo approssimato. □ Veniamo ora al punto fondamentale: corne si valuta, quantitativamente, la bontà dell'adattamento delle Jrequenze assolute osservate aile frequem e assolute áltese? Supponiamo di avéré, in generale, n osservazioni raggruppate in k classi siano P i,P 2, •• • ,Pit le frequenze relative attese di queste classi, rispettivamente; siano n p \ , n p i , . . . , npk le frequenze assolute attese, e siano N\,N k ", con k opportuno. Infatti, se H q è vera, Q dovrebbe essere piccola. Il risultato fondamentale che permette, físsato il livello di significativité a , di determinare la costante k, è il seguente; Teorem a 58. Supponiamo di estrarre un campione casuale di ampiezza n da una popolazione ripartita in k classi A i , A 2, - . . , A k di frequenze relative, rispettivamente, pi , P 2 ,--- ,Pk- Inum eri pi sono costantipositive qualsiasi assegnate, con somma 1. Siano iVj, ÍV2, . . . , Nk, rispettivamente, il numero di osservazioni del campione che appartengono alla classe A i, A2, . . . , Ak, e sia