Teoria delle probabilità. Sintesi introduttiva con appendice critica [Vol. 2]

Table of contents :
bdFb001......Page 1
bdFb003_1L......Page 2
bdFb003_2R......Page 3
bdFb004_1L......Page 4
bdFb004_2R......Page 5
bdFb005_1L......Page 6
bdFb005_2R......Page 7
bdFb006_1L......Page 8
bdFb006_2R......Page 9
bdFb007_1L......Page 10
bdFb007_2R......Page 11
bdFb008_1L......Page 12
bdFb008_2R......Page 13
bdFb009_1L......Page 14
bdFb009_2R......Page 15
bdFb010_1L......Page 16
bdFb010_2R......Page 17
bdFb011_1L......Page 18
bdFb011_2R......Page 19
bdFb012_1L......Page 20
bdFb012_2R......Page 21
bdFb013_1L......Page 22
bdFb013_2R......Page 23
bdFb014_1L......Page 24
bdFb014_2R......Page 25
bdFb015_1L......Page 26
bdFb015_2R......Page 27
bdFb016_1L......Page 28
bdFb016_2R......Page 29
bdFb017_1L......Page 30
bdFb017_2R......Page 31
bdFb018_1L......Page 32
bdFb018_2R......Page 33
bdFb019_1L......Page 34
bdFb019_2R......Page 35
bdFb020_1L......Page 36
bdFb020_2R......Page 37
bdFb021_1L......Page 38
bdFb021_2R......Page 39
bdFb022_1L......Page 40
bdFb022_2R......Page 41
bdFb023_1L......Page 42
bdFb023_2R......Page 43
bdFb024_1L......Page 44
bdFb024_2R......Page 45
bdFb025_1L......Page 46
bdFb025_2R......Page 47
bdFb026_1L......Page 48
bdFb026_2R......Page 49
bdFb027_1L......Page 50
bdFb027_2R......Page 51
bdFb028_1L......Page 52
bdFb028_2R......Page 53
bdFb029_1L......Page 54
bdFb029_2R......Page 55
bdFb030_1L......Page 56
bdFb030_2R......Page 57
bdFb031_1L......Page 58
bdFb031_2R......Page 59
bdFb032_1L......Page 60
bdFb032_2R......Page 61
bdFb033_1L......Page 62
bdFb033_2R......Page 63
bdFb034_1L......Page 64
bdFb034_2R......Page 65
bdFb035_1L......Page 66
bdFb035_2R......Page 67
bdFb036_1L......Page 68
bdFb036_2R......Page 69
bdFb037_1L......Page 70
bdFb037_2R......Page 71
bdFb038_1L......Page 72
bdFb038_2R......Page 73
bdFb039_1L......Page 74
bdFb039_2R......Page 75
bdFb040_1L......Page 76
bdFb040_2R......Page 77
bdFb041_1L......Page 78
bdFb041_2R......Page 79
bdFb042_1L......Page 80
bdFb042_2R......Page 81
bdFb043_1L......Page 82
bdFb043_2R......Page 83
bdFb044_1L......Page 84
bdFb044_2R......Page 85
bdFb045_1L......Page 86
bdFb045_2R......Page 87
bdFb046_1L......Page 88
bdFb046_2R......Page 89
bdFb047_1L......Page 90
bdFb047_2R......Page 91
bdFb048_1L......Page 92
bdFb048_2R......Page 93
bdFb049_1L......Page 94
bdFb049_2R......Page 95
bdFb050_1L......Page 96
bdFb050_2R......Page 97
bdFb051_1L......Page 98
bdFb051_2R......Page 99
bdFb052_1L......Page 100
bdFb052_2R......Page 101
bdFb053_1L......Page 102
bdFb053_2R......Page 103
bdFb054_1L......Page 104
bdFb054_2R......Page 105
bdFb055_1L......Page 106
bdFb055_2R......Page 107
bdFb056_1L......Page 108
bdFb056_2R......Page 109
bdFb057_1L......Page 110
bdFb057_2R......Page 111
bdFb058_1L......Page 112
bdFb058_2R......Page 113
bdFb059_1L......Page 114
bdFb059_2R......Page 115
bdFb060_1L......Page 116
bdFb060_2R......Page 117
bdFb061_1L......Page 118
bdFb061_2R......Page 119
bdFb062_1L......Page 120
bdFb062_2R......Page 121
bdFb063_1L......Page 122
bdFb063_2R......Page 123
bdFb064_1L......Page 124
bdFb064_2R......Page 125
bdFb065_1L......Page 126
bdFb065_2R......Page 127
bdFb066_1L......Page 128
bdFb066_2R......Page 129
bdFb067_1L......Page 130
bdFb067_2R......Page 131
bdFb068_1L......Page 132
bdFb068_2R......Page 133
bdFb069_1L......Page 134
bdFb069_2R......Page 135
bdFb070_1L......Page 136
bdFb070_2R......Page 137
bdFb071_1L......Page 138
bdFb071_2R......Page 139
bdFb072_1L......Page 140
bdFb072_2R......Page 141
bdFb073_1L......Page 142
bdFb073_2R......Page 143
bdFb074_1L......Page 144
bdFb074_2R......Page 145
bdFb075_1L......Page 146
bdFb075_2R......Page 147
bdFb076_1L......Page 148
bdFb076_2R......Page 149
bdFb077_1L......Page 150
bdFb077_2R......Page 151
bdFb078_1L......Page 152
bdFb078_2R......Page 153
bdFb079_1L......Page 154
bdFb079_2R......Page 155
bdFb080_1L......Page 156
bdFb080_2R......Page 157
bdFb081_1L......Page 158
bdFb081_2R......Page 159
bdFb082_1L......Page 160
bdFb082_2R......Page 161
bdFb083_1L......Page 162
bdFb083_2R......Page 163
bdFb084_1L......Page 164
bdFb084_2R......Page 165
bdFb085_1L......Page 166
bdFb085_2R......Page 167
bdFb086_1L......Page 168
bdFb086_2R......Page 169
bdFb087_1L......Page 170
bdFb087_2R......Page 171
bdFb088_1L......Page 172
bdFb088_2R......Page 173
bdFb089_1L......Page 174
bdFb089_2R......Page 175
bdFb090_1L......Page 176
bdFb090_2R......Page 177
bdFb091_1L......Page 178
bdFb091_2R......Page 179
bdFb092_1L......Page 180
bdFb092_2R......Page 181
bdFb093_1L......Page 182
bdFb093_2R......Page 183
bdFb094_1L......Page 184
bdFb094_2R......Page 185
bdFb095_1L......Page 186
bdFb095_2R......Page 187
bdFb096_1L......Page 188
bdFb096_2R......Page 189
bdFb097_1L......Page 190
bdFb097_2R......Page 191
bdFb098_1L......Page 192
bdFb098_2R......Page 193
bdFb099_1L......Page 194
bdFb099_2R......Page 195
bdFb100_1L......Page 196
bdFb100_2R......Page 197
bdFb101_1L......Page 198
bdFb101_2R......Page 199
bdFb102_1L......Page 200
bdFb102_2R......Page 201
bdFb103_1L......Page 202
bdFb103_2R......Page 203
bdFb104_1L......Page 204
bdFb104_2R......Page 205
bdFb105_1L......Page 206
bdFb105_2R......Page 207
bdFb106_1L......Page 208
bdFb106_2R......Page 209
bdFb107_1L......Page 210
bdFb107_2R......Page 211
bdFb108_1L......Page 212
bdFb108_2R......Page 213
bdFb109_1L......Page 214
bdFb109_2R......Page 215
bdFb110_1L......Page 216
bdFb110_2R......Page 217
bdFb111_1L......Page 218
bdFb111_2R......Page 219
bdFb112_1L......Page 220
bdFb112_2R......Page 221
bdFb113_1L......Page 222
bdFb113_2R......Page 223
bdFb114_1L......Page 224
bdFb114_2R......Page 225
bdFb115_1L......Page 226
bdFb115_2R......Page 227
bdFb116_1L......Page 228
bdFb116_2R......Page 229
bdFb117_1L......Page 230
bdFb117_2R......Page 231
bdFb118_1L......Page 232
bdFb118_2R......Page 233
bdFb119_1L......Page 234
bdFb119_2R......Page 235
bdFb120_1L......Page 236
bdFb120_2R......Page 237
bdFb121_1L......Page 238
bdFb121_2R......Page 239
bdFb122_1L......Page 240
bdFb122_2R......Page 241
bdFb123_1L......Page 242
bdFb123_2R......Page 243
bdFb124_1L......Page 244
bdFb124_2R......Page 245
bdFb125_1L......Page 246
bdFb125_2R......Page 247
bdFb126_1L......Page 248
bdFb126_2R......Page 249
bdFb127_1L......Page 250
bdFb127_2R......Page 251
bdFb128_1L......Page 252
bdFb128_2R......Page 253
bdFb129_1L......Page 254
bdFb129_2R......Page 255
bdFb130_1L......Page 256
bdFb130_2R......Page 257
bdFb131_1L......Page 258
bdFb131_2R......Page 259
bdFb132_1L......Page 260
bdFb132_2R......Page 261
bdFb133_1L......Page 262
bdFb133_2R......Page 263
bdFb134_1L......Page 264
bdFb134_2R......Page 265
bdFb135_1L......Page 266
bdFb135_2R......Page 267
bdFb136_1L......Page 268
bdFb136_2R......Page 269
bdFb137_1L......Page 270
bdFb137_2R......Page 271
bdFb138_1L......Page 272
bdFb138_2R......Page 273
bdFb139_1L......Page 274
bdFb139_2R......Page 275
bdFb140_1L......Page 276
bdFb140_2R......Page 277
bdFb141_1L......Page 278
bdFb141_2R......Page 279
bdFb142_1L......Page 280
bdFb142_2R......Page 281
bdFb143_1L......Page 282
bdFb143_2R......Page 283
bdFb144_1L......Page 284
bdFb144_2R......Page 285
bdFb145_1L......Page 286
bdFb145_2R......Page 287
bdFb146_1L......Page 288
bdFb146_2R......Page 289
bdFb147_1L......Page 290
bdFb147_2R......Page 291
bdFb148_1L......Page 292
bdFb148_2R......Page 293
bdFb149_1L......Page 294
bdFb149_2R......Page 295
bdFb150_1L......Page 296
bdFb150_2R......Page 297
bdFb151_1L......Page 298
bdFb151_2R......Page 299
bdFb152_1L......Page 300
bdFb152_2R......Page 301
bdFb153_1L......Page 302
bdFb153_2R......Page 303
bdFb154_1L......Page 304
bdFb154_2R......Page 305
bdFb155_1L......Page 306
bdFb155_2R......Page 307
bdFb156_1L......Page 308
bdFb156_2R......Page 309
bdFb157_1L......Page 310
bdFb157_2R......Page 311
bdFb158_1L......Page 312
bdFb158_2R......Page 313
bdFb159_1L......Page 314
bdFb159_2R......Page 315
bdFb160_1L......Page 316
bdFb160_2R......Page 317
bdFb161_1L......Page 318
bdFb161_2R......Page 319
bdFb162_1L......Page 320
bdFb162_2R......Page 321
bdFb163_1L......Page 322
bdFb163_2R......Page 323
bdFb164_1L......Page 324
bdFb164_2R......Page 325
bdFb165_1L......Page 326
bdFb165_2R......Page 327
bdFb166_1L......Page 328
bdFb166_2R......Page 329
bdFb167_1L......Page 330
bdFb167_2R......Page 331
bdFb168_1L......Page 332
bdFb168_2R......Page 333
bdFb169_1L......Page 334
bdFb169_2R......Page 335
bdFb170_1L......Page 336
bdFb170_2R......Page 337
bdFb171_1L......Page 338
bdFb171_2R......Page 339
bdFb172_1L......Page 340
bdFb172_2R......Page 341
bdFb173_1L......Page 342
bdFb173_2R......Page 343
bdFb174_1L......Page 344
bdFb174_2R......Page 345
bdFb175_1L......Page 346
bdFb175_2R......Page 347
bdFb176_1L......Page 348
bdFb176_2R......Page 349
bdFb177_1L......Page 350
bdFb177_2R......Page 351
bdFb178_1L......Page 352
bdFb178_2R......Page 353
bdFb179_1L......Page 354
bdFb179_2R......Page 355
bdFb180_1L......Page 356
bdFb180_2R......Page 357
bdFb181_1L......Page 358
bdFb181_2R......Page 359
bdFb182_1L......Page 360
bdFb182_2R......Page 361
bdFb183_1L......Page 362
bdFb183_2R......Page 363
bdFb184_1L......Page 364
bdFb184_2R......Page 365
bdFb185_1L......Page 366
bdFb185_2R......Page 367
bdFb186_1L......Page 368
bdFb186_2R......Page 369
bdFb187_1L......Page 370
bdFb187_2R......Page 371
bdFb188_1L......Page 372
bdFb188_2R......Page 373
bdFb189_1L......Page 374
bdFb189_2R......Page 375
bdFb190_1L......Page 376
bdFb190_2R......Page 377
bdFb191_1L......Page 378
bdFb191_2R......Page 379
bdFb192_1L......Page 380
bdFb192_2R......Page 381
bdFb193_1L......Page 382
bdFb193_2R......Page 383
bdFb194_1L......Page 384
bdFb194_2R......Page 385
bdFb195_1L......Page 386
bdFb195_2R......Page 387
bdFb196_1L......Page 388
bdFb196_2R......Page 389
bdFb197_1L......Page 390
bdFb197_2R......Page 391
bdFb198_1L......Page 392
bdFb198_2R......Page 393
bdFb199_1L......Page 394
bdFb199_2R......Page 395
bdFb200_1L......Page 396
bdFb200_2R......Page 397
bdFb201_1L......Page 398
bdFb201_2R......Page 399
bdFb202_1L......Page 400
bdFb202_2R......Page 401
bdFb203_1L......Page 402
bdFb203_2R......Page 403
bdFb204_1L......Page 404
bdFb204_2R......Page 405
bdFb205_1L......Page 406
bdFb205_2R......Page 407
bdFb206_1L......Page 408
bdFb206_2R......Page 409
bdFb207_1L......Page 410
bdFb207_2R......Page 411
bdFb208_1L......Page 412
bdFb208_2R......Page 413
bdFb209_1L......Page 414
bdFb209_2R......Page 415
bdFb210_1L......Page 416
bdFb210_2R......Page 417
bdFb211_1L......Page 418
bdFb211_2R......Page 419
bdFb212_1L......Page 420
bdFb212_2R......Page 421
bdFb213_1L......Page 422
bdFb213_2R......Page 423
bdFb214_1L......Page 424
bdFb214_2R......Page 425
bdFb215_1L......Page 426
bdFb215_2R......Page 427
bdFb216_1L......Page 428
bdFb216_2R......Page 429
bdFb217_1L......Page 430
bdFb217_2R......Page 431
bdFb218......Page 432

Citation preview

Copyright © 1970 Giulio Einaudi editore s. p. a., Torino

Bruno de Finetti

TEORIA DELLE PROBABILITÀ SINTESIINTRODUTTIVA CON APPENDICE CRITICA

Volume secondo

Giulio Einaudi editore

Indice

Volume secondo VII. Sguardo d'insieme preliminare . p. 349

lo

351

362 371

3. Testa e Croce: il processo aleatorio

383

395 416

425

Il

«teorema centrale »; distribuzione normale

I.

Cenni introduttivi

2. Il caso generale; il caso asintoticamente normale 3·



Il

processo di Wiener-Lévy

Distribuzioni stabili e altri casi notevoli

) . Comportamento e comportamento asintotico

6. Probabilità di rovina e previsione di durata

7. Problemi di scrutinio; Zeri, Lacci

8. 9.

Chiarimenti su presunti paradossi Proprietà del processo di Wiener-Lévy

IX. Cenni su altri casi di processi stocastici I.

2.

.531

543

6.

VIII. Processi aleatori a incrementi indipendenti

469

53 5 538

Alcune distribuzioni

7. Dimostrazione del teorema centrale

449 455 465

527

4.

). Leggi «dei grandi numeri»

433

482 500 513

Perché uno sguardo d'insieme ora

2. Testa e Croce: considerazioni preliminari

x.

Processi markoviani Processi stazionari

Problemi in piu dimensioni I.

2.

Generali tà Caratteristiche di

2"

ordine e distribuzione normale

3· Alcune distribuzioni; caso discreto

VIII

Indice p . .548 .5.54

4. Alcune distribuzioni; caso continuo

.5. Il caso di simmetria sferica

XI. Ragionamento induttivo; inferenza statistica .559 .566 .574

.581

I.

Del ragionamento induttivo

2. Impostazione e chiarimenti preliminari 3· Il caso d'indipendenza e i casi di interdipendenza 4. La scambiabilità

XII. Statistica matematica .593

l.

.59 4

2 . Alcune considerazioni preliminari

603

3. Esempi sulla distribuzione normale

609

4. Principio della verosimiglianza e riassunti esaustivi

Scopo e limiti della trattazione

612

.5. Delle «stime» e dei «test»: interpretazione bayesiana

614

6. Delle «stime» e dei «test»: interpretazioni diverse

621

7. Nesso con la teoria delle decisioni

Appendice 629

I.

638

2. Gli eventi (Vero, Falso, e... )

Diversi aspetti delle diversità d'impostazione

642

3. Gli eventi in un campo senza restrizioni

6.52

4. Questioni sulla «possibilità»

6.56

.5. La verificabilità e il fattore tempo

661

6. La verificabilità e

666 676 681 688 693 702 707 716

il

8. Continuazione: caso di piu (o infinite) dimensioni

9. La verificabilità e la «indeterminazione» IO. II.

La verificabilità e la «complementarità» Qualche nozione occorrente per l'esame del caso quantistico

12. Relazione con le «logiche trivalenti»

13. La verificabilità e i fattori perturbativi

14. Dalla «possibilità» alla «probabilità»

718

1.5. Gli assiomi {" e 2"

721

16. L'assioma 3"

724

fattore operativo

7. La verificabilità e il fattore precisione

Il. Nessi con aspetti interpretativi

727

18. Questioni su aspetti matematici

748

19. Questioni su formulazioni qualitative

7.58

20. Conclusione (?)

76r

Indice analitico

Teoria delle probabilità Sintesi introduttiva con appendice critica Volume secondo

Capitolo settimo Sguardo d'insieme preliminare

lo

Perché uno sguardo d'insieme ora. I. I.

Si è già visto, attraverso le riflessioni richieste per l'impostazio­ ne concettuale della teoria delle probabilità, quanto ne sia vasto il campo d'applicazione : il campo dell'incertezza che si annida dovunque. Ma è ricca anche la gamma di problemi che vi si pongono, svariati per natura e complessità, e, corrispondentemente, il corredo di strumenti e sviluppi matematici richiesti per afferrarli e trattarne, e che costituiscono il cal­ colo delle probabilità. Anche questo aspetto è opportuno venga prelimi­ narmente illustrato, e per diverse ragioni : esporle e raccomandare di te­ nerle presenti gioverà a richiamare l'attenzione sui punti che maggior-o mente la meritano e richiedono. Anzitutto, forse in ogni disciplina ma certo e soprattutto nella teoria delle probabilità, ogni singolo argomento acquista il suo effettivo signi­ ficato e valore soltanto attraverso i suoi nessi con tutto il resto. Per esplo­ rare una regione, prima di accingersi - come pur sarà necessario - a per­ correrla passo a passo, occorre acquisirne una conoscenza sia pur orien­ tativa se si vuole che le successive informazioni si colleghino e collochi­ no secondo una giusta prospettiva. Fuori di metafora, nel nostro caso, si darebbe una visione non solo incompleta ma falsata e difficilmente poi correggibile anche dei problemi piu semplici se dovessimo esporli tacen­ do, in ogni istante, di quanto riguarda aspetti la cui trattazione sistemati­ ca verrà dopo ( tacendo ad es. dei nessi con le « leggi dei grandi numeri », con « processi aleatori », col « ragionamento induttivo » ). Né risulta ra­ gionevole ( né in genere, né qui in particolare) pretendere e supporre che ogni capitolo venga letto dopo tutti i precedenti e ricordando esattamen­ te tutto ciò che in essi è stato trattato, mentre per una prima compren­ sione occorre e basta una conoscenza preliminare chiara ma assai meno dettagliata e approfondita su questioni e nozioni essenziali. E non è de]

3.50

VII.

Sguardo d'insieme preliminare

resto difficile evitare tale inconveniente : basta imparare subito ad in­ tendere in cosa tali problemi e nozioni consistano, in modo elementare e sommario ma chiaro e concreto, sulla base di pochi esempi semplici ma istruttivi e di un minimo di commenti e indicazioni complementari. 1 .2 . Si può dire che a tale scopo, nel presente sguardo d'insieme pre­ liminare, servirà da falsariga il solo esempio di Testa e Croce, sia pure « cotto in tutte le salse » ; altre varianti saranno introdotte di quando in quando piu per confronto e per variare che per necessità. Tali esempi semplici mettono bene in evidenza gli aspetti salienti di molte questioni anche complesse ed elevate, ciò che rende agevole il compito di approfon­ dimenti successivi : questi appaiono infatti come aggiustamenti per l'e­ stensione di risultati noti e intuitivi a casi analoghi, mostrando l'inessen­ zialità a tal fine di complicazioncelle che li distinguono dai casi semplici. Altro motivo: le principali difficoltà che i problemi di calcolo delle probabilità presentano a tutti (ai profani di matematica, ai matematici meno familiarizzati con l'argomento, agli stessi cultori di calcolo delle probabilità per poco che indulgano alla disattenzione o alla fretta (1» ) stanno forse nelle insidie di conclusioni apparentemente ovvie ma errate e di altre corrette e agevoli a dimostrarsi ma a patto di vedere il problema nel modo piu adeguato (che non è il piu spontaneo fino a quando non lo si è scoperto : come 1'« uovo di Colombo» ) . Gli esempi elementari sono i piu adatti per osservazioni e raccomandazioni in tal senso (utili a farsi, benché sempre insufficienti se non insegnano a farne di sempre nuove da sé, caso per caso). Molte delle osservazioni hanno però un fine che va molto oltre quello di evitare errori o farraginosità nei ragionamenti e calcoli su singoli casi : in genere si tratta - al di là dell'esempio che forni­ sce il pretesto - di osservazioni intese a chiarire anche aspetti concettuali e a sottolinearne l'importanza per evitare fraintendimenti e perplessità. (1) Il Feller rimarca ripetutamente, ad es., come certi risultati anche solo relativi al gioco di Testa e Croce (lunghezza dei periodi in cui un giocatore è in vantaggio : VIII, 7.7) appaiano sorpren­ denti e « paradossali ,. ( O ), ossia che corrispondono a frequenze h/n non comprese tra P ±E, hanno complessivamente proba­ bilità inferiore a rr(X)/(m)2 = npp/( m)2 = pp/m2 (e tale limitazione è an­ cor molto lontana dalla realtà, come mostrano valutazioni asintotiche che incontreremo presto, formo ( 2 0 ) in 5 .4). Osservazioni: Le Ph si possono ottenere come coefficienti dello svin

n

o

o

luppo (p+pt)n = "i.h Ph t = "i.h W (� ) t (come conviene scrivere per evitare ambiguità nella seguente considerazione). Basta notare che il numero n

_

aleatorio IIi ( Ei+tE; ) è la somma dei costituenti moltiplicati per th es­ t

sendo h il numero dei fattori affermativi (che dànno luogo ad Sn = h ), e n

pertanto vale "i.h (Sn = h )th = t8ft; la sua previsione - ossia la f. caro q>(u) - è o

Generalizzazione : Anzi, si vede cOSI che la regola vale anche se gli Ei (sempre stocasticamente indipendenti) hanno probabilità Pi diverse tra loro, nel qual caso le w� ) sono date da (6)

n

n

O

t

"i.h wc:) t = IIi(Pi+Pi t ) . ( I ) Come fatto estesamente, ai fini di un'esposizione elementare, in B. DE FINETTI Cfr. un cenno piu avanti (6.3 ).

La matematica per le applicazioni economiche, cap . IV.

F_ MINI SOLA ,

3 74

VII .

Sguardo d'insieme preliminare

Ciò non esprime del resto se non il fatto ovvio che w C: ) è la somma dei prodotti di h fattori P i ed n-h complementari Pio In particolare si noti che è a2 (Sn) = "'1.i PiPi, e che tale formula (come del resto la npp di cui è ovvia generalizzazione) vale anche se si ha sol­ tanto indipendenza due a due (mentre ciò non basta per le altre conclu­ sioni sulla distribuzione). 4 -3 - Distribuzione ipergeometrica. È (come prima) quella di X = Sn ( od anche = Yn = 2Sn - n, o = SJn , che non ne differiscono che per

alterazioni di scala), ma subordinatamente all'ipotesi di sapere che (per un certo N > n ) risulterà SN = H. Per avere la distribuzione che c'interessa basta che ci appaiano ugual­ mente probabili gli (�) percorsi da O ad [N, H]. Possiamo quindi pensare indifferentemente al caso di Testa e Croce (dove inizialmente tutti i 2 N percorsi erano ugualmente probabili, e lo rimangono gli (�) compatibili con l'ipotesi), o di eventi che (prima dell'ipotesi) erano giudicati indipen­ denti e di uguale probabilità p ;06 t (ché anche in tal caso inizialmente tutti quegli (�) percorsi avevano ugual probabilità pH pN-H e rimangono ugual­ mente probabili). Anziché tali interpretazioni (utili piu che altro per mostrare il nesso con altri problemi già visti) giova tenerne presenti altre piu pertinenti, come estrazioni senza reimbussolamento (da un'urna contenente N pal­ line di cui H bianche, od N voti di cui H a favore di un dato candidato, ecc.), o collocazione in un dato ordine di N oggetti di cui H di una certa sottospecie ( ordinamento di un mazzo di N carte tra cui H « cuori», gra­ duatoria di N concorrenti tra cui H femmine, ecc. ) purché si giudichino ugualmente probabili le N! permutazioni (o, per lo meno, gli (�) modi in cui gli oggetti delle due specie possono alternarsi : sono essi che corri­ spondono agli (�) percorsi ove si alternano H passi ascendenti con N-H discendenti). Nelle presenti condizioni (o informazioni} ogni evento Bi (i � N) ha probabilità P(Bi ) = H/N (I), e porremo H/N = q ; tali eventi non sono in­ dipendenti (ma, come vedremo, correlati negativamente). ( I ) Dato che supponiamo già inclusa nelle nostre conoscenze o informazioni l'ipotesi SN - H, scrivendo P (E) intendiamo già P (E SN - H); in tale situazione gli Ei non sono stocasticamente in-

I



Alcune distribuzioni

3 75

Notare come, in seguito a particolari cambiamenti dello stato d'informazio­ ne, problemi diversi possono divenire uguali, l'uguale probabilità, oppure l'in­ dipendenza, cessare di sussistere (o, in altri casi, subentrare), ecc.; ciò è ovvio per chi sia entrato nello spirito della presente esposizione, ma non può non ap­ parire strano e ingenerare perplessità quando uno si sia fatto l'idea (per man­ canza o distorsione di spiegazioni avute al riguardo) che proprietà come l'indi­ pendenza (stocastica) abbiano un significato oggettivo, assoluto, inerente ai fe­ nomeni stessi.

ta distribuzione che ci interessa (numero di palle bianche sulle pri­ me n, o equivalente in altre interpretazioni) è diversa per ogni tema n, N, H (oppure n, N, q); per q = t (ossia per H = N-H = -!-N) la distribu­ zione è simmetrica (P(Sn = h) = P(Sn = n-h») . I valori possibili sono gli interi xh := h con O v H-(N-n) s h s n 1\ H (oppure xh = a+hb, per es. = 2h-n o = h/n). Le probabilità ( come già visto in 3 .4 ) sono

(;) (z=;) (;)

Ph = w(�) "" --H(H-I ) (H- 2 ) ... (H- h + l ) (N-H) (N-H- I ) (N-H-2) ... (N-H-( n - h ) + l) = ( nh ) N (N- ) (N-2) ... (N- + 1 ) I

( 7IV)

= ( ; ) qh qn - h

n

h ] n- h - I ] _2_ ) 1_ ) ( [( 1 --1.) H ( 1 -1.. H ) . . . ( 1 _ H- l ) . [( 1 __ N-H 1 _ N-H . . . ( 1 - N-H ) ________________________________

n-I ( 1 -1..N ) ( 1 -1.) N ... (l _ N )

Ecco l'interpretazione delle quattro diverse forme. La prima forma (come sappiamo) conta i percorsi. La seconda conta quante fra le ( �) n-uple estraibili dagli N eventi contengano h degli H ed n -h degli N - H. La terza (deducibile dalle precedenti) si può interpretare direttamen­ te osservando che la probabilità di avere dapprima h successi e poi n-h dipendehti ed hanno probabilità q - H/N (anche se sono colpi a Testa e Croce, o con un dado, ecc., che come tali, prima dell'informazione circa la frequenza sugli N colpi, erano giudicati indipendenti e di probabilità p - 1/2 o P - 1/6). In particolare, quando scriveremo Ph - w(:> - P (S. - h) per questo caso s'intenderà ciò che nel caso precedente si sarebbe scritto P (S. - h I SN - H).

376

VII.

Sguardo d'insieme preliminare

insuccessi è data dal prodotto delle percentuali (di palle bianche, e poi di palle nere ) prima di ciascuna estrazione : !!. . H-I . H-2 N N-I N-2

• •. • •

H - h+ 1 . N -H . N-H-I . N-H-2 N-h+ 1 N-h N-h-I N-h-2

. ..• •

N-H-(n-h)+ 1 N-n+ !

E questa stessa è la probabilità anche per ogni altra delle disposizioni (che in tutto sono ( : )), perché, anche se le percentuali variano, si tratta solo di permutazioni fra i numeratori dei singoli fattori, cosicché il risul­ tato non varia. Ciò mostra già che ( se n è piccolo rispetto ad N, H, N-H) tutte le percentuali si scostano poco da q (le estrazioni fatte non alterano sensi­ bilmente la· composizione dell'urna) e il risultato non differirà sensibil­ mente da quello del caso bernoulliano (estrazioni dalla medesima urna con reimbussolamento). La quarta (ed ultima) forma precisa tale confronto mettendo in evi­ denza il fattore correttivo. L'andamento delle P h in questo caso è pure analogo a quello del caso bernoulliano e si può studiare nello stesso modo ( rapporti P h +t!Ph) : il massimo si ha per l'ultimo h s. nq[1 -2/{N+2 )J-{H-3 )/(N+2 ) (verifica­ re ! ), e allontanandosene da ambo le parti le Ph decrescono. In confronto al caso bernoulliano, risulta che qui i termini intorno al massimo sono maggiori e quelli lontani minori; ne dà un'idea il fattore correttivo della quarta formula (I) . Per la previsione è naturalmente P{X) = nq = nH/N; lo scarto stan­ dard a {X) è invece un po' minore di vnqq {come sarebbe nel caso d'in( I ) Per tale fattore correttivo la variante (30) della formula di Stirling (28) che sarà indicata in (6.3) dà come valore approssimato (per n 4G. N)

{ [

]}

2 (n-! ) n (1;-1])' - ! � 1+ (1;-1]) N . 1] ( 1 -1]) 1] ( 1 -1]) dove si è posto 1] - H/N e I; - h/n (cioè rispettivamente percentuale di palle bianche nell'urna e fre­ quenza nell'estrazione di n). Se, in particolare, 1] - ! (H ! N: palle metà bianche e metà nere), exp

_ __

-

l'espressione si semplifica molto: è

exp {-! ! [1 -4n (I;-!)'l}.

N

In base a ciò risuita (approssimativamente) che si ha aumento rispetto alla distribuzione ber­ nouIliana per h tra n1] ±vn1] (l -1]) (ossia tra m±cr), con massimo in n1], e diminuzione all'esterno di tale intervallo.

4.

Alcune distribuzioni

377

dipendenza), e precisamente si ha cr(X) = nqq [ 1-(n-1 )/(N -1 )]. Calco­ lando infatti il coefficiente di correlazione r fra due eventi (r = r (E; , Ej), i � ;) si trova r = -1/(N-1 ): infatti da cui

P (E;Ej) = (H/N) ( H-1 )/(N-1 )) = l ( 1 - 1/H) ( 1 - 1/N) r = [P(E;E)-P(E; )P(Ej)]/a(E;)a(Ej) = = _q2 [(N+H -1 )/N(N-1 )]/qq = -1/(N-1 );

ma si possono evitare i fastidiosi passaggi omessi osservando, sintetica­ mente (con ragionamento già visto in IV, 1 7 . 5 ), che cr (Sn) = nqq+2( � )rqq = nqq( 1+( n-1 ) r) ; ma per

n=N

è

a(SN} = O

perché è

(SN = H} = certo,

quindi

1 +(N-1 ) r = 0, r = -1/(N-1 ).

(8)

Osservazioni: Notare : l'utilità di tener presente l'identità di proble­ mi esteriormente diversi; l'utilità di ricavare diverse espressioni per cer­ ti risultati, di trovare per ciascuna l'interpretazione probabilistica, di sa­ per riconoscere e applicare quella piu semplice e significativa caso per caso; di rilevare la pratica assimilabilità di un caso meno semplice ad al­ tro piu semplice, sia mediante considerazioni euristiche che - poi - at­ traverso accurate precisazioni analitiche, vuoi esatte od anche appros­ simate. Si osservi poi che in questo caso, per il significato stesso, è w(�) = w( Z = ; ), ossia : per dati N, H, le distribuzioni di ordine complementare n ed N-n sono uguali salvo inversione di h = 0, 1 , . . , H in H, . . . , 1 , ° ( an­ che la formula ne dà verifica a vista). Perciò, tra l'altro, si noterà che quanto detto valido « per n piccolo» è altrettanto valido « per n gran­ de » ( cioè : vicino ad N); dove l'approssimazione non va è nel tratto centrale (n tN), e si noti in particolare che per n tra H ed N-H non tutti i valori h = 0, 1 , . . . , n sono possibili ( dovendo essi stessi esser com­ presi tra h ed n-h). .

....

4 . 4 . Distribuzione di Pascal. È quella di X = « numero di prove a Testa e Croce fino a ottenere l'r-esimo successo », od analogo per eventi indipendenti di probabilità p costante qualunque ; in formule, X tale che

37 8

VII.

Sguardo d'insieme preliminare

S = r > S Naturalmente potremo anche considerare, con alterazioni di scala, X' = a+bX; in questo caso si usa a volte considerare X' = X- r = x

x_ I .

« numero di insuccessi prima dell'r-esimo successo » (mentre non ha sen­ so l'analogo delle varianti dei casi precedenti). Abbiamo una novità: la distribuzione è illimitata essendo valori pos­ sibili gli Xh = h = r, r+1 , r+2 , . . . (fino all'infinito, ed anzi oltre agli infi­ niti valori interi va aggiunto come valore possibile anche +00 corrispon­ dente al caso in cui su tutta l'infinità di prove si presentino meno di r successi). Conformemente al già detto, eviteremo questioni critiche pen­ sando che se l'r-esimo successo non si otterrà entro un massimo di N colpi (con N molto grande rispetto ai valori che interessano) porremo comunque X= N (cioè, a rigore, consideriamo X'= X " N anziché X). Se considerassimo X' = X-r i valori possibili sarebbero 0, 1 , 2, . . . (ed è que­ sta una delle ragioni della preferenza spesso accordatale; ne vedremo poi un'altra nelle osservazioni, formula ( 15 »). Naturalmente, abbiamo distribuzioni diverse per ogni r e p ; le pro­ babilità sono Infatti (come visto in ( F), ( 2 .4 ), per il caso particolare p = t) occorre, af­ finché sia X= h, che nelle prime h-l prove i successi siano r-1 e che l'h-esima sia un successo; sullo schema del processo aleatorio, si trat­ ta della distribuzione di probabilità per l'attraversamento della retta y = 2r-x (o, volendo, della massa che vi si arresta se la retta funge da barriera assorbente). Si noti che la serie !.hPh vale 1 ; dato il significato non poteva che convergere con somma s 1 ; il fatto che sia = 1 e non < 1 assicura che al crescere di n la probabilità che sia X>n tende a zero ( ed in particolare è = O la probabilità che sia X = 00). Quanto all'andamento, anche qui le Ph crescono fino ad un massimo per l'ultimo h s r/p (ossia, con formulazione piu intuitiva: finché la pre­ visione di successi, P(Sh ) = hp, non supera il numero r di successi richie­ sto); poi decrescono tendendo a zero ( asintoticamente, come una pro­ gressione geometrica di ragione fi).

4.

Alcune distribuzioni

37 9

Distribuzione geometrica. In particolare, per r = 1 , abbiamo la distribuzione geometrica, con le ( IO)

in progressione geometrica (PI = p, ragione p = l -p). Essa fornisce ad es. la probabilità di eliminazione all' h-esimo colpo se essa ha luogo al primo insuccesso e la probabilità d'insuccesso ad ogni ' colpo è p ( attenzione : per questa particolare interpretazione scambiamo qui momentaneamen­ te il significato dei termini « insuccesso» e « successo »). In particolare è la probabilità che un oggetto si rompa all' h-esima utilizzazione, che un atomo radioattivo si disintegri nell' h-esimo anno da ora, ecc. pensando che ogni" volta la probabilità sia p ( e ciò varrebbe anche per il decesso di un individuo, sempre nell'h-esimo anno da ora, se le probabilità di morte si giudicassero costanti anziché crescenti con l'età). Questa circostanza (di rimanere invariata, indipendentemente dal trascorrere del tempo e da ripetizioni del fenomeno in passato) è pro­ pria della distribuzione geometrica e si dice mancanza di memoria. Il ritardo nell'uscita di un dato numero al lotto ha, nelle solite ipotesi, distribuzione geometrica (ragione: p = IYIs = 94 , 44 % , per una ruota, p = eYIs) lo = 5 6 % per l'insieme delle l O ruote), il che conferma, se ce ne fosse bisogno, come sia assurdo ritenere pili probabile l'estrazione di nu­ meri « arretrati ». Pili precisamente : sono assurdi i sofismi di chi, dall'improbabilità di lunghi ritardi calcolata secondo le ipotesi usuali ed espressa dalla pro­ gressione geometrica ( o dalla loro rarità statisticamente constatata in accordo con essa), volesse concludere un ragionamento basato sull'indi­ pendenza contraddicendo tale ipotesi di partenza, che è proprio la man­ canza di memoria. Se invece valutasse coerentemente tutte le probabi­ lità in modo diverso, difficilmente lo giudicheremmo ragionevole, ma sarebbe questione di opinioni. Scriviamo ancora esplicitamente l'espressione per r = 2 (per es. eli­ minazione come sopra ma al secondo insuccesso) : è Ph = ( h _ l )p2 ph-2 .

VII .

380

Sguardo d'insieme preliminare

Previsione e scarto standard. Per calcolare P(X) e a (X) limitiamoci dapprima al caso r = 1 : si ha

P(X) = P''!h hph- I = p/( 1_p)2 = 1/p, -

(II)

(12)

1

P(X2 ) = P''!h h2 ph - I =PP !h h (h-l }ph-2 + P'' !h hph-I = I -

-

-

I

1

Per r qualunque basta ora moltiplicare per r: ( 14 )

P(X) = r/p,

perché (come già visto per P(X) nel caso p = -! in (M), n. 2 ) si può consi­ derare X come somma di r addendi X1 +X2 + " ,+Xr stocasticamente indi­ pendenti del tipo r = 1 (Xi = numero di prove dopo 1' (i-1 )-esimo succes­ so fino all'i-esimo). Osservazioni: Quest'interpretazione sarà utile anche in seguito ; si noti che vale anche per la variante X' = X-r, essendo allora gli r addendi

X�= Xi-1 .

Riferendosi a tale variante (ossia: cambiando h in h+r) le Ph diven­ tano ( 15)

Ph = (h;��l)pr ph = e+�-I )pr ph = {-1 )h (--,;) pr ph

( 16)

PO s 1-r!hph/h = 1-r 10g( 1/p).

ove si estenda la definizione (:) = x ( x- 1 ) . . . {x-h+1 )/h ! a qualunque x reale ( non necessariamente intero, né positivo). Ma allora la distribuzione ha senso anche per ogni r > O reale ; tale ge­ neralizzazione della distribuzione di Pascal (con r intero) si chiama di­ stribuzione binomiale negativa (semplicemente per riferimento alla scrittura ( �r »). Per r = O la distribuzione si concentra nell'origine (po = 1 ; Ph = O, h 7" O ); per r- O è ph s rph/h (h 7" O ) (distribuzione logaritmica; cfr. VI, 1 1 .2 ) e quindi -

1

4.

Alcune distribuzioni

381

Vedremo piu avanti (cap. VIII, 4 . 7 ), anche utilizzando tale osservazio­ ne, il senso dell'estensione ad r non intero. Quanto alla previsione, in questa variante è ovviamente ( I7)

P(X' ) = P(X)-r = rpfp,

mentre rimane invariato lo scarto standard, vrp/p; e ciò vale anche per r non intero.

Una variante. Abbiamo già visto (n. 3 ) che lo stesso problema (posizione, h, del­ l'r-esimo successo), se si suppone noto che SN = H, conduce ( anziché a quella di Pascal) alla distribuzione ( 18) Ph e�) (�=,/(Z); -=

essa dà ad es. la probabilità che in un'elezione o votazione in cui occorra raggiungere un « quorum » r, se sugli N voti quelli favorevoli ( a un can­ didato, a una tesi) sono H � r, il raggiungimento del successo si riveli allo scrutinio dell'h-esimo voto, oppure (con N = 90, H = r = 1 5 ) la probabi­ lità di far « tombola » con una cartella all'h-esimo estratto, ecc. Di tale distribuzione (lasciandone lo studio generale come esercizio) ci limiteremo a studiare il caso particolarissimo e banale, ma tuttavia im­ portante, in cui H = r = 1 . Evidentemente ( anche senza verificarlo sulla formula) è Ph = 1/N per h = 1 , 2 , . . . , N: se su N colpi si è avuto un solo successo ( o se nell'urna c'è un solo voto favorevole, una sola pallina bian­ ca, una sola col numero « 90 » ) c'è la stessa probabilità di trovarlo al pri­ mo, secondo, . . . , N-esimo (ultimo) posto.

Distribuzione uniforme discreta. Diciamo uniforme discreta la distribuzione di una X avente un numero finito n di valori possibili e­ quidistanti ugualmente probabili, per es. xh = h (h = 1 , 2, . . . , n ) (oppu­ re = a+bh ) ; tutte le Ph sono = 1/n . Esempi : dado (n 6 ), roulette (n =37 ), tombola (n = 90). Si ha P(X) = t ( n+1 ), P(X2 ) = ( 1 2 +2 2 + ... +n2 )/n = (4n 2 + 6n+2 )/12 da cui (togliendo [-! (n+1 )]2 = (3 n2 + 6 n +3 )/ 1 2 ) rr ( X) = (n 2+1 )/1 2 , rr (X) = ( n/-{f2 ) v 1+1 /n2 s n/v'U . 4.5.

=

3 82

VII .

Sguardo d'insieme preliminare

Un processo aleatorio (Bayes-Laplace, P6Iya) . Basandoci su questa distribuzione possiamo sviluppare un esempio di processo aleatorio simile a quello che conduceva alla distribuzione ipergeometrica. Pensiamo infatti ad estrazioni successive ( senza reim­ bussolamento) da un'urna contenente N palline di cui le bianche possa­ no essere 0. 1 . 2 • . . . • N con uguale probabilità l/(N+l ) (per es. : l'urna è stata scelta fra N+l di tutte queste composizioni. e non abbiamo ele­ menti per attribuire diverse probabilità alla scelta di una o dell'altra). Comunque, supponiamo cioè w = l/(N+l ) (H = 0, 1 , 2 , . . . , N). e sup­ poniamo che (come nel caso di composizione nota, H/N) siano ugual­ mente probabili tutte le permutazioni in cui le N palline potranno usci­ re e quindi tutte le disposizioni di H bianche ed N-H nere ( ossia: tutti i percorsi da O ad un medesimo punto finale [N, H) . Ognuno di tali per­ corsi avrà quindi probabilità l/(Z) (N+l ). Mostriamo che. in tali condizioni, la distribuzione è uniforme anche per ogni Sn ( n < N), come l'abbiamo supposto per SN È cioè w(�> = l/( n+l ) ( h = O, 1 . 2 . . . . n ). Si può verificare pedestremente che

.

'

1

N

�H (:) (Z=:) (Z) (N+l )

1 n+l

(probabilità dei percorsi terminanti in [N, H] per il numero di quelli tra essi che passano per [n, h], e somma rispetto ad H), ma è piu semplice e istruttiva la dimostrazione per induzione (da N ad N-l , N-2 , ecc.). E basta mostrare il passaggio da N ad N- l . La probabilità W�N- I >, che sia SN- I = h, si ottiene osservando che ciò può aver luogo soltanto se H = h e l'ultima palla è nera oppure H = h+l e l'ultima palla è bianca; ciascuna delle due ipotesi ha probabilità l/(N+l ) e le probabilità di palla nera nella prima e di palla bianca nella seconda sono (N-h )/N e ( h+l )/N; quindi h+l 1 _ N-h (N ll = � c.v.d . + ( 19) W - = N+l N h N N' _

(

)

In parole: se tutte le composizioni sono ugu.almente probabili lo so­ no anche tutte le frequenze per ogni istante intermedio. Tale proprietà

5.

Leggi « dei grandi numeri »

3 83

(w�} = l/(n+ l ») potrà anche valere per tutti gli n ( senza limitarli supe­ riormente a un N assegnato): sarà questo l'importante schema di La­ place-Bayes di cui tratteremo in (XI, 4 . 3 ) od anche (con altra interpreta­ zione) lo schema di P61ya col quale lo metteremo a raffronto (X, 4 .4 ).



Leggi «dei grandi numeri». 5 . 1 . Ritorniamo ora al processo aleatorio di Testa e Croce (inclu­ dendo varianti meno particolari ) per studiare un primo aspetto di ciò che avviene per « un gran numero » di prove. Questo primo aspetto si limita a fatti qualitativi circa l'ordine di grandezza degli scarti: in certo senso, a corollari semplici ma importanti del fatto già visto che tale ordine di grandezza cresce come la radice di n (numero delle prove). Nel caso di Testa e Croce ( p = t ) il guadagno Yn è nullo in previsio­ ne (processo equo: P(Yn) = O) e il suo scarto standard a(Yn ) (che misura in certo senso d'ordine di grandezza) di IYn i ) vale ...;n . Riferendoci al numero di successi (Testa), Sn , esso è in previsione ! n, con scarto da esso ( ordine di grandezza, misurato da a) tVn. Per la frequenza di successi, Sn/n , previsione e scarto sono gli stessi divisi per n, cioè ! e t/Vn; analo­ gamente si potrebbe considerare il guadagno medio (per colpo), YJn, e si avrebbe O e l/Vn. Il fatto che si esprime dicendo che la freq uenza converge quadraticamente verso t, e a maggior ragione vi converge in probabilità (cfr. VI, 8 .3 ). Analoga­ mente : il guadagno medio converge ( quadraticamente e in probabilità) verso O . L a convergenza in probabilità significa - rammentiamo - che, per E e e positivi (comunque piccoli), è sempre, da un certo n = N in poi,

3 84

VII.

Sguardo d'insieme preliminare

la normale applicazione della disuguaglianza di Cebysev dice che tale probabilità nel nostro caso è < a2/E2 = l/4m2• 5 .2 . Per esprimere questo risultato si usa dire, informalmente, che, su un gran numero di prove, è praticamente certo che la frequenza coin­ cide praticamente con la probabilità, od anche che « gli scarti hanno ten­ denza a compensarsi». Occorre però fare attenzione a non dare a tale ri­ sultato interpretazioni eccessive e manifestamente assurde (come pur ac­ cade): non si pensi ad es. che tale avvicinamento alla probabilità si possa attendere in quanto debbano piu facilmente prodursi, in futuro, scosta­ menti in senso opposto a quello esistente per « compensarlo », né che la conclusione si applichi agli scostamenti assoluti. Giocare poche volte (per es. IO volte 1 000 L. a Testa e Croce) non è piu ma meno rischioso che ripetere la stessa scommessa molte volte (per es. 1 000 : ciò è IO volte piu rischioso, l O = "';1 00071 0 ) mentre sarebbe meno rischioso gio­ care 1 000 volte IO L. E se a un certo momento uno è in perdita di, per es . , 7200 L., la legge dei grandi numeri non giustifica alcuna speranza che debba « rifarsi » ( I ) : in previsione, la perdita rimane eternamente inal­ terata, 7200 L., ma il guadagno successivo (positivo o negativo), in pre­ visione nullo, avrà ordine di grandezza, proseguendo, tanto grande da rendere trascurabile tale perdita acquisita, irrimediabilmente acquisita. È in questo senso, e soltanto in questo senso, che il termine « compensa­ zione » può venire accettato sfuggendo a suggestioni ingannevoli che esso ha il difetto di evocare. Si osservi una volta di piu come sarebbe a priori assurdo immaginare una correlazione come conseguenza di leggi e risultati dedotti dall'am­ missione di indipendenza! 5 . 3 . Si badi inoltre che quella dimostrata è una proprietà che riguar­ da la probabilità di scarto > E tra probabilità e frequenza per un solo n (sia pure uno qualunque degli n � N)j ciò non implica (ovviamente, ma è fa(I) L'illusorietà e perniciosità di tale fiducia nel « rifarsi ,. appare sancita anche in una battuta popolare (sembra siciliana), notevole perché in genere le preferenze popolari sembra vadano alla tesi sbagliata. Si tratta della risposta di una donna a un'amica che le aveva chiesto se era vero che suo figlio aveva perduto una forte somma al gioco: « Si, ma questo è niente: il peggio è che vuole ri­

farsi! .

5 . Leggi « dei grandi numeri »

3 85

cile sfugga } che sia piccola anche la probabilità che uno scarto « eccezio­ naie » si presenti almeno per un n tra N ed un N + K maggiore di N. È facile che ciò sfugga specialmente se s 'indulge a dire « impossibili » eventi di probabilità piccola ( o, peggio, se ad un siffatto malvezzo si dà parvenza di legittimità con epiteti come il « principio di Cournot » ; cfr. V , 1 0 . 9 ). Se infatti una « eccezione » fosse impossibile in ogni singolo caso di n � N sarebbe senz' altro impossibile avere anche una sola ecce­ zione tra gli infiniti casi da n = N in poi . Chi volesse usare qui il termine « impossibile » senza tali equivoci dovrebbe precisare che esso va adottato con l'avvertenza di non inten­ derlo nel senso di « impossibile » ma di. . . « poco probabile » . Ma chi asse­ risse che « i cavalli sono patate » coll'avvertenza che quando ci si rife­ risce ai cavalli il senso di « patata » non è veramente quello di « patata » ( bensl quello di « cavallo » ), farebbe forse meglio a non creare confu­ sioni inutili con terminologie che per non riuscir dannose devono venir seguite da avvertenze che le annullino. Riprendendo il nostro argomento, se a Testa e Croce la probabilità di uno scarto

I �n

- �\ maggiore di E fosse effettivamente l/4m2 (essendo la

serie '! l /n divergente, e la somma tra N ed N+K all'incirca 10g { l +K/N)), dopo qualunque N, in un intervallo da N ad N+K sufficientemente am­ pio, la previsione del numero di « eccezioni » ( scarti > E) sarebbe arbitra­ riamente grande (circa ( l /4E2) 10g { l+K/N»). In effetti ( come vedremo ) sussiste invece anche la proprietà in oggetto ( non essa è in difetto, ben SI l'approssimazione data dalla disuguaglianza di Cebysev, tanto potente in rapporto alla sua semplicità ma non sufficiente per questa conclusione piu delicata). In formule, è, per E e 8 positivi arbitrari,

p( \Sn max

�s • •

N+K

n

_ !\> E) < 8

2

purché N sia sufficientemente grande ( e quale che sia K ) ( I l . Tale forma di convergenza stocastica si dice convergenza (stocastica) forte e tale enunciato « legge forte dei grandi numeri». Per contrapposto la conver( I ) Se non fosse per gli scrupoli finitisti (cfr. cap. VI, 8.3, Oss., ed altrove) si potrebbe (come è piu abituale) sopprimere K scrivendo sup (n .. N) (anziché max(N :s n :s N+K» e dicendo che è «quasi certamente .. (con probabilità - 1 ) lim (S./n) - 1/2 (nel senso certo).

3 86

VII.

Sguardo d'insieme preliminare

genza in probabilità e la legge dei grandi numeri ( nella forma precedente) si dicono deboli. ' .4 . Per fissare le idee ci siamo riferiti a Testa e Croce. Naturalmen­ te i risultati valgono anche per p � ! ( salvo scrivere in generale rr = pp , che è < t salvo per p = t ), ed anche nel caso di P i = P(Ei) variabili da even­ to ad evento ( purché ! PiPi diverga, il che potrebbe non avvenire se i Pi si avvicinassero agli estremi O e 1 ) ; naturalmente, in questo caso si potreb­ be dire in genere soltanto che tende a zero ( quadraticamente e in proba­ bilità ) lo scarto tra la frequenza SJn sulle prime n prove e la media aritmetica delle loro probabilità (Pl+P2+ . . . +Pn )/n . Soltanto se tale me­ dia tende ad un limite p ( nel senso dell'analisi; ossia, come si dice, se le Pi sono una successione convergente a p nel senso di Cesàro ), il prece­ dente enunciato vale per lo scarto da un valore fisso, che è tale p. Ma possiamo anche dire subito molto di piu, senza bisogno di nuove dimostrazioni. Avendo sfruttato soltanto la previsione e lo scarto stan­ dard dei guadagni delle singole scommesse (2 Ei - 1 ) e loro somme (Yn) è facile persuadersi che la conclusione ( convergenza debole ) richiede sol­ tanto, per la sua validità, di considerare guadagni Xi (i = 1 , 2, . . . ) indi­

pendenti o anche solo noncorrelati (due a due) , di scarto standard fi­ nito e costante (f (od anche variabile, (f(Xi ) = (fi , in tal caso (fi limitate e

! �I divergente), e diciamo per comodità di enunciato a previsione nulla: allora

YJn = (X1 +X2 + . . . + Xn )/n

-'+

O

( e quindi � O ).

A parole : la legge ( debole) dei grandi numeri vale per somme di nu­ meri aleatori noncorrelati sotto condizioni molto ampie, nel senso che

la loro media aritmetica Yn/n ha previsione quadratica -+ 0 e probabilità -+ O di avere valore assoluto > E (positivo prefissato arbitrario) . Anche la legge forte dei grandi numeri è valida sotto condizioni mol­ to larghe. Già il ragionamento che ne assicura la validità se è convergente la somma delle probabilità Ph di « eccezioni » ( scarti IY hlhl > E) risulta suf­ ficiente se tali probabilità vengono valutate mediante la distribuzione normale, ciò che vale esattamente se supponiamo che gli Xh abbiano di­ stribuzione normale ridotta (m = O, (f = 1 ) e siano indioenrlenti . Ma, asin-

5.

Leggi « dei grandi numeri »

387

toticamente, ciò vale anche nel caso di Testa e Croce e in ogni altro caso di Xh ugualmente distribuiti e con varianza finita ( sia (f = l ) ( I ) . Ci limite­ remo alla dimostrazione basata, come detto, sulla convergenza di ! Ph, accennando poi alla possibilità di varianti che rendono il procedimento assai piu potente. Poiché la funzione di ripartizione della distribuzione normale ( e rife­ riamoci a quella ridotta) non è esprimibile in termini finiti occorre, in problemi del genere, ricorrere a una formula asintotica (facilmente verifi­ cabile, ad es. , con la regola de L'Hospital) :

1

l - ;-iZ2 l_ e -I%2 l -F(X) = dz (per x -+ +oo ) . V21c x V27t % __

Pertanto, poiché Yh ha scarto standard Vb, IYh/hl > E significa IY JYh I > E Vh (= E Vh x scarto ridotto) e quindi

Ma la serie geometrica ! e -eh è convergente, e a maggior ragione ! Ph coi termini divisi per Vb; il resto oltre un opportuno N è inferiore ad un prefissato S, il che significa che è < S la probabilità di anche un solo « scar­ to eccezionale», IY Jhl > E, per tutti gli h tra N ed un qualsiasi N+M (e si direbbe semplicemente « per tutti gli h � N » se si ammettesse l'additività completa). È facile rinforzare la conclusione osservando che la convergenza con­ tinua a sussistere anche sostituendo alla E costante una E ( h ) decrescente con h, per esempio E(h) = V2alogh/Vh ,

con a > l ;

(1 ) Che spesso emerga la distribuzione normale è un fatto ben noto (sia pure confusamente od erroneamente) anche ai profani. Il caso cui ora ci riferiamo sarà trattato nel presente cap . VII, n. 6, e risparmiamo qui anticipazioni piu precise.

3 M !!

VII .

Sguardo d'insieme preliminare

allora è hé = 2alogh, e (K!V2alog h ) e -a IOg h = ( . . . )h - a . Ma il termine ( . . . ) tende a zero, la serie ! h-a ( a > 1 ) converge e a maggior ragione quindi la ! Ph. Ciò significa che, al di là di un certo N, è (infor­ malmente) : « quasi certo che Yh rimarrà compreso tra ± cV2h log h » , per c > l . Il seguente ragionamento è un esempio dei metodi atti a migliorare ulteriormente le conclusioni, ed anzi vedremo proprio come si giunga al­ la conclusione in certo senso ottima ( = Ph s ( 2/Viz) !n (xh) s (2/Viz} ! (Xh) = Y2/,rcn exp

[- 2� (2h-nYl

In particolare, per x = O, abbiamo il termine massimo, quello centrale (h in se n = pari, o ciascuno dei due h = t (n ± 1 ) se n = dispari), che in­ dicheremo sempre con un simbolo speciale, Un, e la formula trovata ci dà l'espressione asintotica un � y271tn, in cifre un � O, 8/Vn; il che ci dà il si­ gnificato (importante da tener presente) del coefficiente Vi]1r.. Infatti la probabilità Un (massima probabilità tra le w� > di Testa e Croce) interver==

(1) t exp {- ! (x- I;)'} exp (-! x') exp (- x!;)exp (- H2), ma resta solo il 2° fattore perché il l° è costante (risp. a 1;) e s'incorpora in K e il )o è = 1 (per I; piccolo). _

40 1

6. Il « teorema centrale» ; distribuzione normale

rà in molte questioni (di cui si vedrà un parziale riepilogo in VIII, 7 .4 ) . Intanto indichiamone alcune prime proprietà. È

(26)

Un = U2m = P( Yn = O ) = w(:! Un = U2m - 1 = P( Yn = l ) = P ( Yn = -l ) = n) = w(mn ) = w(m_1 = u2m

per n = 2m

=

pari,

per n = 2m-l = dispari.

L'uguaglianza delle Un per valori successivi in coppia (ogni dispari col successivo pari) è ovvia per il significato : perché il guadagno dopo 2m colpi sia nullo occorre che un colpo prima fosse ± 1 e che l'ultimo colpo abbia l'esito dovuto per portarlo a O ; entrambe queste modalità hanno probabilità U2m - l . t , e la loro somma dà U2m = 2 ( tU2m - I ) = U2m - l . Lo stesso ragionamento si può fare sui coefficienti binomiali applicando la formu­ la di Stiefel : il termine centrale, e:;:) , per n = 2m = pari, è la somma dei due sovrastanti che sono uguali, e:=�) = (2m,; I) , quindi doppia; per avere le probabilità occorre però dividere per 22m anziché per 2 2m-1 e COSI U2m = U2m - l . Abbiamo dunque

(2m

)! _ � 2m 1_ r:: U2m -I = U2m = (2m)1 m 2 = 2 2m (m ! )2 - v 2J'rcn � 0, 8 vn.

6 .4 . Si vede di qui che il fattore v2/rr., presentatocisi finora come fattore di normalizzazione per la distribuzione normale ridotta, ha an­ che un nesso col calcolo combinatorio. Tale nesso è dato dalla formula di Stirling che fornisce un'espressione asintotica per il fattoriale e che permette di giungere per altra via, piu laboriosa ma usata spesso e co­ munque utile a conoscersi, al teorema centrale per il caso delle distribu­ zioni bernoulliane. La formula di Stirling esprime n ! nel modo seguente:

.

.

1 Un

(1» ) ( En- O , plU, preCIsamente O < En < -- .

( I ) S i noti che, trascurando E., l a formula d i Stirling dà n ! con errore relativo sempre piu pico colo ma con errore assoluto sempre piu grande (cioè: tende ad l il rapporto, ma tende a +00 la diffe­ renza, tra n ! ed il valore approssimativo). In termini pratici: per n .. lOt abbiamo n! con circa k+l cifre iniziali esatte, ma n! (per k grande) è un numero eli circa k . 10t cifre e l'errore ne ha in propor-

VII.

4 02

Sguardo d'insieme preliminare

Dato che è spesso utile indichiamone una rapida dimostrazione. È ( 29 )

log n ! = log 2 + log 3 + . . . + l og n � S��l/Z logx dx = [xlogx - x]�� 1/2 = � (n+t ) logn-n+cost.

Notiamo anzitutto che la differenza tra la somma e l'integrale converge ( lo si vede subito osservando che, sostituendo logn con S:�:�� logx dx, si fa un errore dell'ordine di 1/n2 ); con ciò si vede (come già De Moivre) che n ! � Knn + l/2 e-n ; che sia K = V27t ( come trovò Stirling, 1 7 3 0 ) conten­ tiamoci qui di considerarlo euristicamente provato dal fatto che, lascian­ dolo indeterminato, il calcolo del limite delle In (x) condurrebbe a I(x) = ( 1/K) e-ix2 e già sappiamo che ivi il fattore moltiplicativo dev'essere 1/V2it. Limitiamoci a ricalcolare per tale via Un (n pari: n = 2m) 2 2m m2m e-2m v'2i?fiii 2 2m [mm e-m y27tmI Per passare al calcolo di

(2m)!

( m ! )2

w{ n) m (m-k)! (m+k)!

è pi6. comodo servirsi di una variante della formula di Stirling che risul­ terà utilizzabile vantaggiosamente in molti altri casi. Si tratta di calcolare prodotti del tipo ( 1 +a) ( 1 +2a) . . . ( 1 +ka), con k grande e ka = c piccolo; nel caso presente [m!/(m- k )! ]/[(m+k)!/m ! ] si può scrivere (dividendo entrambi i rapporti per m k e ponendo l/m = a)

[l . ( 1 -a)( 1 -2a) . . . (1 -(k-1 ) a)J/[( l +a) ( 1 +2a) . . . ( l +ka)]. Passando

ai

logaritmi abbiamo

" k 1 1 10gIIh ( l +ah ) = !h log( l +ah) � - S� logxdx = [( l + À ) 10g ( 1 + À )- À] a l a I -

zione poche di meno. Comunque, nelle applicazioni che se ne fanno è sempre l'approssimazione re­ lativa che conta, ed essa è buona anche per valori piccoli.

6. Il «teorema centrale »; distribuzione normale

403

con À = (k+t )a (I ) . Sviluppando in serie si ha

(

À2 À À2 À3 Àn 10g IIh ( l +ah) = - 1 --+---+ ... ± + ... st t (k+t)2 a. 3 6 lO 2a t(n+1 )(n+2 ) k

l

)

Quindi

( 3 0)

( l +a) { 1 +2a) . . . ( l +ka) st eH k +! )'" st eiak2 ;

nel nostro caso, con a = ±l/m, i due prodotti valgono e Hak2 = e ± k2/2m e il loro rapporto risulta

e-k2/2m/ _k2/2m = e - k2lm = e-(h-m )2Im = e -(2h - n)2/2n t:

(perché k = h-m e m = t n) , ottenendo COSI il risultato già noto. 6 .5 . Nesso col problema della diffusione. Ed ecco un suggestivo ragionamento puramente euristico (dovuto a P61ya), che è anche istrutti­ vo in vista di considerazioni ed estensioni ulteriori. Il nesso tra processi aleatori del genere ora esemplificato su Testa e Croce e processi di diffu­ sione, che ora accenniamo, darà luogo infatti ad effettive possibilità d'in­ terpretazione se non addirittura di identificazione. Il processo di Wie­ ner-Lévy (cfr. cap. VIII ), che, con riferimento al presente cenno, si può immaginare come un processo a Testa e Croce con un enorme numero di giocate con importo piccolissimo in ogni tempuscolo apprezzabile, viene anche detto (da Paul Lévy) processo del moto browniano, perché adatto ( sia pure per solo certi aspetti) alla rappresentazione e studio di detto fenomeno, che è, come si sa, un fenomeno di diffusione. Il processo di Testa e Croce si può pensare come un processo di dif­ fusione in cui una massa (unitaria, inizialmente, t = O, concentrata nel­ l'origine) procede col tempo t lungo il reticolo della fig. 3 dividendosi a metà ad ogni crocevia (incontrato ad ogni istante t = intero); la massa (che rappresenterebbe la probabilità) si dividerebbe, in tale interpreta(I ) Porre piu semplicemente À. ka è praticamente equivalente agli effetti di una valutazione singola; nel caso di prodotti o rapporti di piu espressioni del genere può avvenire però (e cosi è nel­ l'esempio in 4.3) che proprio i contributi derivanti dal «+1/2» siano determinanti perché quelli principali si elidono. _

404

VII .

Sguardo d'insieme preliminare

zione, in modo certo (deterministico) e formalmente tutto va e andrà bene (anzi la cosa sarà anche piu semplice). Tuttavia, un'interpretazione piu significativa, piu aderente ai nostri scopi, consiste nel considerare un processo aleatorio di tipo statistico. Supponiamo che inizialmente siano concentrate nell'origine un grandissimo numero N di parti­ celle che si muovono con velocità uguale e costante sul reticolo verso destra, in­ contrando ad ogni istante t intero un crocevia dove ciascuna per proprio conto (indipendentemente dalle altre) sceglie la propria strada. Equivalentemente, si può pensare che esse si spostino sull'asse y con velocità costante ma di verso scelto a caso ad ogni istante t intero ( ossia ad ogni raggiungimento di un punto di ascissa y intero); oppure stando in quiete, ma ad ogni t intero facendo un salto ± 1 . Prendendo 1 la massa totale, quella che passerà per un dato punto non sarà piu determinata con certezza: se nel caso deterministico era w, ora si potrà solo dire che vale w in previsione, che il numero di particelle sarà in previsione Nw, ma potrà assumere qualunque valore h da O ad N con probabilità (:} wh ( l -wt-h. Volendo dare un'idea grossolana della situazione, potremo dire che (indicando la previsione ± lo scarto standard) il numero di particelle sarà Nw±vNw ( l -w) (st Nw±VNW per w piccolo; approssimazione poissoniana). È questa l'immagine che interessa, di ottenimento di una distribuzione nor­ male come risultato di un processo statistico di diffusione. =

-

=

-

=

=

Per la trattazione matematica, comunque la si interpreti, la massa che attraversa il punto (crocevia) ( t, y ) ( t e y interi ed entrambi o pari o dispari) è la solita P(Y1 = y ) = W(I) = w ( t" y ) (l+y)/2 data da metà di quella che ha attraversato ( t-l , y -l ) o ( t-l , y +l ): w ( t, y ) = Hw ( t -l , y - l )+w ( t- l , y +l )] .

La notazione w (t, y ) è stata introdotta per consentire di pensare tale funzione definita (con non importa quale specie d'interpolazione) anche nei punti ove non ha significato per il problema effettivo, e in partico­ lare per t e y interi ma con t+ y dispari, come w ( t-l , y ). Togliendo tale valore da entrambi i membri la precedente relazione diviene e, al limite,

(32 )

6. Il « teorema centrale »; distribuzione normale

40'

se (pensando le unità di t e di y molto piccole) si ritiene lecito passare dal discreto al continuo. Limitiamoci a constatare che anche per tale via si giunge alla solu­ zione corretta. Infatti, la soluzione fondamentale dell' equazione del ca­ lore (come sopra scritta) è come è ben noto e come si può verificare immediatamente. 6. 6 . La forma della distribuzione normale è ben nota ed è illustrata qui dalla fig. 7 (diagramma della densità, y = !(x)) e dalla tabella che for­ nisce parecchi valori numerici ( sia per la densità che per la funzione di ripartizione (probabilità di appartenenza a date semirette o intervalli). Limitiamoci a richiamare l'attenzione su alcune circostanze utili a ricordarsi. Il diagramma della densità ha un massimo nell'origine e andamento decrescente ( simmetrico) allontanandosene nell'uno o l'altro verso. � convesso (verso l'alto) nell'intervallo (- 1 , + 1) e concavo nei tratti ester­ ni che si avvicinano asintoticamente all'asse delle ascisse per x-+±oo; tale avvicinamento è rapidissimo (le « code » sono « affusolatissime » ) co­ me già rilevato in ( 6 .3 ) : infatti la sottotangente (che - in valore asso­ luto - cresce indefinitamente al crescere di Ixl se !(x) tende a O come una potenza, Ixl-n con n comunque grande, ed è costante se decresce espo­ nenzialmente) nel nostro caso decresce come l/Ixl . Il diagramma ha due flessi in ±l (ovviamente, per il passaggio da convessità a concavità già notato) ; l'ordinata ivi è circa 0,6 di quella massima (0,60652 dice la tabella, ma sarebbe bene ricordare dati tondi approssimati per evitare, anche in disegni a mano, come schizzi alla la­ vagna, alterazioni troppo notevoli e troppo consuete). La sottotangente è +1 , cioè la pendenza tale che le tangenti taglino l'asse x nei punti ±2. Dato che l e code sono « affusolatissime», è chiaro che per l a realizza­ zione di valori al di là di un certo x si abbiano, nel caso della distribu­ zione normale, probabilità minori che per tutte le altre piu consuete (per lo piu : densità decrescenti come potenze o come esponenziali), e pertanto di molto inferiori a quelle date dalla disuguaglianza di Cebysev, valida nelle ipotesi peggiori.

VII .

406

Sguardo d'insieme preliminare

Ecco alcuni dati di raffronto tra le probabilità che IXI superi k� (o semplicemente k nel caso ridotto, � = 1 ), per k = 1 , 2 , 3 e 31:

� valore assoluto superiore a: distr. normale: 3 1 ,74 % probab·l· l l ta d·lsug. Cebysev: � 1 00 0 / ,- - / 0

,{

y

2�

3�

3 !�

4 , 55 % 0 , 27 % 0 , 05 % 0/ 5 2 :::; ; 1 , 1 1 % :::;; 8 , 1 6 % 1 :::;; ,-- / 0

� .----+----, �

"

Figura 7. Distribuzione normale ridotta ( m - O, a - l ) : curva della densità. Le suddivisioni indicate (O, ± 1, ±2, ± 3 ) corrispondono a a, 2a, 3a; in ± 1 si hanno due flessi, tra i quali la densità è conveasa. Il rettangolo di altezza ! mostra, per confronto, la distribuzione uniforme sul tratto (-1 , 1) (che può esser opportuno chiamare nucleo della distribuzione; motivi cfr. X, 2 .4); attenzione: la scala verticale è quadruplicata per evitare che la curva appaia (com'è) molto appiattita, con andamento poco percettibile. Vedasi la tabella di fronte, non solo per farne uso in applicazioni numeriche, ma anche per fissare in mente alcuni dati significativi (per es. ordinate e piu ancora aree relative alle ascisse 1, 2 e 3, ossia a, 2a e 3a).

Si rivedano la ( 2 0 ) in ( ' .4 ) e l'Osservazione in ( 6 .3 ) per le espressioni asintotiche di tali probabilità (r;;;r, Ke-i"'/x , K = 1/V21t = 0 , 08 (I » e del­ l'ordine di grandezza di un eventuale sorpasso (previsione r;;;r, l/x). Poiché la distribuzione binomiale (e molte altre) in date condizioni ( crescere di n, o simili) si approssimano a quella normale, la tavola di tale distribuzione si può spesso usare anche per tali altre ( con le precauzioni del caso (1» . Spesso si usano anche per distribuzioni empiriche ( statisti­ che) confidando che esse debbano avere ( almeno grossolanamente) un andamento normale ( ed è facile che tale fiducia sia spesso eccessiva : cfr. 6.9 ). ( I ) S i h a una limitazione esatta scrivendo, anziché K, K ( 1 + 8/"' ), con O � 8 � 1 (ed è 8 - 1 - 3/"') . ( 1 ) Si potrebbe concludere ad es., mancando di precauzione, che la probabilità di ottenere Testa pi6 di n volte in n colpi ( I ) (e altrettanto per Croce) è piccolissima ma non nulla (circa 2,4 . 10-23 per n - 100; circa 10-- 1173 per n - lO ODO).

6. Il « teorema centrale » ; distribuzione normale Tabella di valori relativi alla curva della distribuzione normale (o gaussiana) ridotta . Aree (Jf (x)dx) in %

Ordinate (densità)

1

Ascisse !(x) - e - i%2 x

_

(1)

V2i (2)

id. in % dell'ordinata centrale (3)

100,-

da x a + 00 (4)

nei singoli intervalli indicati (, )

doppia

19,15

38,30

14,98

29,96

9,19

18,38

4,405

8,810

2,140

4,280

0,135

0,270

id.

(6 )

50,-

0,-

0,398942

0,1 0,2 0,3 0,4

0,396952 0,391043 0,381388 0,368270

99,50 98,02 95,60 92,3 1

46,0 172 42,0740 38,2089 34,4978

0,5

0,352065

88,25

30,8538

0 �6 0,7 0,8 0,9

0,333225 0,3 12254 0,289692 0,266085

83,53 78,27 72,61 66,70

27,4253 24,1964 21,1855 18,4060

1 ,-

0,24 1971

60,652

15,8654

1,1 1 ,2 1 ,3 1 ,4

0,217852 0,194186 0,171369 0,149727

54,61 48,68 42,% 37,53

13,5666 1 1 ,5070 9,6800 8,0756

1 ,5

0,129518

32,47

6,6807

1 ,6 1 ,7 1 ,8 1 ,9

0,1 1092 1 0,094049 0,078950 0,065616

27,80 23,57 19,79 16,45

5,4799 4,4565 3,5930 2,87 17

2,-

0,053991

13,53

2,2750

2,5

0,017528

4,39

0,6210

3,-

0,004432

1,11

0,1350

3,5

0,0008727

0,22

0,02326

00

0,-

O

0,-

l )

4°7

4 08

VII .

Sguardo d'insieme preliminare

6.7 . Altre considerazioni istruttive e necessarie riguardo alla distri­ buzione normale richiedono di riferirsi anche al caso di piu dimensioni ( o solo due, caso piano, od n qualunque, o addirittura casi asintotici, per n -.+ oo ) . Basterà limitarsi al caso di simmetria sferica di densità f ( Xt, X2, . . . , x,) ... K exp (-! p2 ), p2 = X:+X;+ . . . +x!; ciò corrisponde a supporre gli Xh ridotti (m = 0, (J' = 1 ) e stocasticamente indipendenti (per il che, nel caso di normalità, basta la noncorrelazione). Del J;'esto il caso generale si riconduce a questo pur di effettuare su Sr la trasformazione affine consistente nell'assumere come « sfera » l'ellissoide di covarianza (cfr. cap. IV, 1 7 .5 ), ossia cambiando il riferimento dalle Xh a delle Yk (loro combinazioni lineari) ridotte e noncorrelate. Di piu in seguito (cap. X, 2 .4 ). Intanto possiamo ricavare il valore (già indicato, K = 1/v'2i) della costante di normalizzilzione della distribuzione normale ridotta. Inte­ grando su tutto il piano (I) si ha

SS e - Ix> e-l>" dxdy S e-Ip2 pdpS de = 21t, ma anche = [S e - Ix> dX]2; =

quindi K = 1/21t nel piano ( r 2 ), K = ( 21ttl nel caso lineare ( r = 1 ), e in generale K = ( 21t ti' per r qualunque ( I ) . Piu interessanti sono due questioni sostanziali : l'esame di due con­ dizioni - strettamente collegate tra loro - ciascuna delle quali atta a ca­ ratterizzare significativamente la distribuzione normale. Occorre e basta (in entrambi i casi) riferirsi al caso piano. Il primo problema conduce a dimostrare che : la sola distribuzione piana a simmetria circolare in cui l'ascissa X e l'ordinata Y (ortogonali) siano stocasticamente indipendenti si ha se X e Y hanno distribuzione normale con uguale varianza (e previsione nulla, se la simmetria ha da essere intorno all'origine). La seconda riguarda la già rilevata stabilità ( cap. VI, 1 1 .3 ) che, aggiungendo la condizione di varian1.a finita, risulta proprietà esclusiva della distribuzione normale. =

( I ) Precisiamo pure (perché è usuale, benché fin troppo ovvio) che !'integrale di una funzione positiva esteso al piano non dipende dal modo di passaggio al limite (per cerchi, p < R, o per qua­ drati, Ixlvl"l < R, o altrimenti): è sempre semplicemente l'estremo superiore de'i valori relativi a campi limitati qualsivoglia.

6. Il « teorema centrale »; distribuzione normale

409

Il primo problema consiste nel vedere per quali funzioni (densità) f(x) avvenga che f(x) f(y) sia funzione di p = YX2+y2 Ponendo f(x)/f ( O ) = � (x2) (lecito per ovvia simmetria), la condizione si scrive � ( p2) = �( X2+i) = �(x2) . � (y2), equazione funzionale che, passando ai logaritmi, si riconduce a quella dell'additività : (I).

questa, sotto condizioni pochissimo restrittive qui ampiamente soddi­ sfatte (per es ., basta che � debba essere nonnegativa nell'intorno di un punto, e qui lo è su tutto il semiasse positivo), implica la linearità : quin­ di 10g�(x2) = kx2, �(x2) = é"" f(x) = f( O ) ekX1 (che k = -1/2r:i ed f( O ) = l/v'b. (f scende per normalizzazione). Con ciò la proprietà è di­ mostrata, Essa basta, in certi casi, a provare la plausibilità della distribuzione normale. Esempio celebre: distribuzione della velocità delle particelle nella teoria cine­ tica dei gas ( secondo Maxwell). Se si ammette : a) l'isotropia (uguale distribu· zione per la componente in qualsiasi direzione), e h ) l'indipendenza stocastica fra componenti su direzioni ortogonali, la distribuzione di ogni componente è normale (con previsione nulla e varianza uguale), ossia quella del vettore velo­ cità è normale a simmetria sferica (densità Ke-ip1/0'1). Accettate le ammissioni, questa è, matematicamente, una dimostrazione; se queste (od altre) ammissioni, comunque necessarie come punto di partenza, deb­ bano o possano prendersi per buone o per piu o meno plausibili, è un fatto ri­ guardante un po' la Fisica e un po ' la psicologia di ogni Autore.

Il secondo problema si riconduce al primo. Dobbiamo porre la restri­ zione di varianza finita ( altrimenti sappiamo già che l'asserto non è vero ; cfr. distribuzione stabile di Cauchy, VI, I ! . 3 , in fine), e tanto vale sup­ porla unitaria; sia dunque f(x) la densità di una tale distribuzione (con m = O , (f = 1 ) e siano X e Y due numeri aleatori stocasticamente indipen­ denti che la seguono. Se si ha stabilità, Z = aX +b Y ha per definizione la stessa distribu­ zione salvo l'alterazione di scala avendosi � = rl+b 2 ; se si fa S1 che ( ' ) Non occorre porre il problema per l, (x) /l (Y) perché è immediato che necessariamente 1, (x) /l (y) - /l (x)/, (y ) e quindi sostanzialmente l, - Il; né è limitativo considerare densità dato che masse concentrate (o con densità infinita) creerebbero analoghe perturbazioni su rette parallele agli assi escludendo la possibilità di simmetria circolare. Parimenti si esclude che 1 (0) - o.

410

VII.

Sguardo d'insieme preliminare

d + b2 = 1 , prendendo Z = Xcos a+Y sin a, si evita ogni alterazione di scala e si conclude che dev'essere uguale la proiezione della distribu­ zione piana, f(x, y) = f(x)f(y), su tutte le direzioni. Si deve avere cioè simmetria circolare agli effetti delle proiezioni, e si può dimostrare che a tal fine è necessaria (oltre che, ovviamente, sufficiente) la simmetria cir­ colare per le densità (considerata per il primo problemarl ) . La conclusione è quindi la stessa: la proprietà appartiene esclusiva­ mente alla distribuzione normale. In tale risultato è già implicita una giustificazione (o, meglio, semi­ giustificazione) del « teorema centrale» . Infatti, se la distribuzione ( ri­ dotta : 0' = 1 ) del guadagno su un gran numero di colpi ( a Testa e Croce, o altri casi di guadagni stocasticamente indipendenti da colpo a colpo) segue, praticamente, una certa distribuzione limite, questa deve essere stabile. Basta osservare che, se Y' ed Y" sono entrambi guadagni su un gran numero di colpi, n ' ed n", a maggior ragione lo è Y = Y' +Y" che è il guadagno su n = n' +n" colpi; insieme a due addendi indipendenti ap­ partenenti al tipo della distribuzione limite vi deve appartenere anche la loro somma, e ciò significa stabilità. Si tratta di una semigiustificazione, perché tale ragionamento non consente di dire se e in quali casi (neppure per Testa e Croce) sussiste la tendenza a una distribuzione limite; permette però di dire che, se esiste ( e se ha scarto standard finito, e il processo è additivo con addendi indi· pendenti : tutte cose palesi), essa è necessariamente la distribuzione nor­

male.

6 . 8 . Interpretazione iperspaziale. È istruttivo tener presente, co­ me immagine euristica ma significativa, una interpretazione iperspazia­ le. In confronto al ragionamento precedente essa costituisce ancor meno una « semigiustificazione » del comparire della distribuzione normale nelle ipotesi del teorema centrale ( somme di numeri aleatori indipen­ denti), ma, in compenso, fa intravvedere come il risultato sia spesso il medesimo sotto condizioni anche assai diverse. Cominciamo col considerare la distribuzione uniforme entro la sfera ( I) Ciò è abbastanza «evidente,. intuitivamente; la dimostrazione, piuttosto riposta per via diretta, scende automaticamente in base alle proprietà delle funzioni caratteristiche in due variabili (cap. X, I .2}.

6. Il « teorema centrale » ; distribuzione normale

4I I

(ipersfera) di raggio unitario in S" e la proiezione di tale distribuzione sul diametro, -1 s x s+l . La sezione in x ha raggio vl-,c , « area» ( V l-x2 y- l , e quindi la densità è !(x) = K( 1 _ x2 )(r-ll/2 (34) (in particolare: Kvl -x2 per r = 2 , proiezione dell'area del cerchio; K( l-,c) per r = 3 , proiezione del volume della sfera, ecc.). Al crescere di r l a distribuzione s i va concentrando intorno all'origine (come avveniva per le frequenze a Testa e Croce) ; per evitare ciò e ve­ dere quale sia, asintoticamente, la « forma » della distribuzione occorre (proprio come in quel caso) allargarla nel rapporto da 1 a W ( sostituendo cioè x con x/W ). E abbiamo allora 2 (r- l/2 l X f (x) = K 1- -;:� K e-i"z .

( )

Al limite si ha la distribuzione normale, senza che sussista nessuna delle circostanze ipotizzate nel teorema centrale. Ma ancor piu sorprendente è che la stessa conclusione continua a sussistere anche in circostanze ancor meno simili a quelle consuete : per esempio se si considera una sfera cava ( solo uno straterello tra i raggi l -E e 1 ( E > O qualunque). Basta o'sservare che la massa nella sfera minore è la frazione ( l -E Y della massa totale; essa tende a O al crescere di r, e diviene trascurabile perciò anche il suo contributo nel determinare la forma di f(x). Orbene: anche il teorema centrale rientra come caso particolare in questa specie, per cosi dire, di tendenza di qualsiasi distribuzione a molte dimensioni ad avere come proiezione su una retta una distribu­ zione normale. Il caso di Testa e Croce mostra che si ha la stessa proiezione ( asinto­ ticamente, per n grande) proiettando una distribuzione di masse uguali ( t )n sui 2 n vertici di un ipercubo ad n dimensioni (proiezione secondo una diagonale). Ma lo stesso vale per proiezioni anche su qualunque al­ tro asse ( purché non appartenente o quasi ad una faccia a poche dimen­ sioni in confronto ad n), ed anche pensando il cubo solido (massa unifor­ memente distribuitavi all'interno) oppure con distribuzione uniforme sulla superficie, ecc. In una parola, questa interpretazione iperspaziale vale in tutti i casi in cui vale il teorema centrale (pur se non può aiutare

41 2

VII.

Sguardo d'insieme preliminare

a individuarli, salvo a volte grazie a ragionamenti euristici per analogia con casi noti). Pi6 utile e specifica è la conclusione che si può trarre in senso inver­ so : la tendenza al presentarsi della distribuzione normale si esplica in molti pi6 casi che non nei già moltissimi che rientrano nel problema di somme di numeri aleatori indipendenti di cui ora (cominciando dall'e­ sempio di Testa e Croce) ci stiamo occupando. Il cubo solido rientra in tale interpretazione ( addendi scelti indipendentemente e con distribu­ zione uniforme tra ±l ), ma quello con distribuzione sulla superficie (o spigoli, o facce m-dimensionali ) no, e tanto meno i casi dell'ipersfera ( solida, o superficie). Una larga generalizzazione del teorema centrale è quella datane da R. von Mises C I > , secondo la quale è asintoticamente normale anche la di­ stribuzione di « funzioni statistiche » non lineari ( sotto condizioni in pra­ tica poco restrittive). Esempi di funzioni statistiche non lineari dei valori osservati XI ) X2 , . . . , Xn sono le medie ( tranne quella aritmetica) di essi (o dei loro scostamenti dalla media aritmetica �Xh/n ), i momenti e le funzioni di momenti (per es. IJ.�IJ.� e ( 1J.4/1J.�)- 3 , ove i IJ.h sono i momenti rispetto alla media, espressioni usate rispettivamente come indici di asim­ metria e di « kurtosis » ; cfr. VI, 6 . 5 ), il coefficiente di concentrazione ( di Gini; cfr. VI , 6 .3 in fine), ecc. In generale, sono le funzioni interpretabili come funzionali della Fn (X) = ( 1/n) � (Xh s. X) ( salto l/n per x = XI) X2 , . . . , Xn), cioè della distribuzione statistica, sotto condizioni analoghe alla differenziabilità, ossia di « linearità in piccolo» . In forma sintetica (la formulazione effettiva è abbastanza complicata e richiederebbe lunghe spiegazioni preliminari già per le notazioni), si richiede che la derivata prima (nel senso di Volterra, per « fonctions de ligne » ) soddisfi le condi­ zioni per la validità del « teorema centrale» nel caso lineare, e che una condizione complementare sia soddisfatta dalla derivata seconda. Questa generalizzazione, per quanto ampia, non contiene però i casi considerati nell'interpretazione iperspaziale, e ciò mostra ancor pi6 quan­ to largamente sembri penetrare in ogni dove la « tendenza » a far scatu­ rire la distribuzione normale da qualsiasi situazione di « caos ». (I )

R . VON MISES , Selectea Papers, Providence 1 964, voI . II; cfr. ivi diversi lavori, fra cui (pp. ,88-94 ) le lezioni tenute a Roma ( 1st. Alta Matematica) dànno una delle esposizioni piu aggior­ nate ( altra piu esemplificativa a pp. 246-70).

6 . Il « teorema centrale » ; distribuzione normale

413

6 . 9 . L'ordine nel caos. Rinviamo al prossimo n. 7 quella che consideriamo la vera dimostrazione del teorema centrale (in quanto ma­ tematicamente pili potente), e soffermiamoci un momento sull'idea di « un ordine generato dal caos », spesso prospettata con riferimento alla distribuzione normale (oltre che per molti altri casi). L'osservazione generica che qui è opportuno fare (come del resto pili o meno in diversi altri punti) riguarda il fenomeno che spesso si verifica nel calcolo delle probabilità : che cioè si hanno delle conclusioni abba­ stanza precise e stabili nel senso che valgono immutate anche partendo da situazioni od opinioni largamente diverse. È l'opposto di ciò che av­ viene in genere negli altri campi della matematica e nelle sue applicazioni, dove gli errori si accumulano e ingigantiscono rischiando di inficiare del tutto i risultati per quanta precisione si procuri di attingere nel valutare i dati di partenza e nello sviluppare i calcoli. È questa la particolarità con­ trobilanciante lo svantaggio di cui il calcolo delle probabilità soffre per la natura soggettiva e spesso vaga dei dati di partenza; si deve a tale parti­ colarità - in certo senso miracolosa e in certo senso, a ragion veduta, na­ turale - se molte conclusioni giungono ad apparire accettabili a tutti indi­ pendentemente da inevitabili divergenze in valutazioni e opinioni di par­ tenza. È una circostanza molto positiva (nonostante l'inconveniente cui dà luogo la sua interpretazione troppo indiscriminata che induce a scam­ biare per oggettive le cose aventi radici soggettive non vistosamente esi­ bite). Al riguardo prospettiamo un esempio banale ma istruttivo (perché il meccanismo ne è palese, mentre non lo è altrettanto quello del teorema centrale), riprendendo il caso (E) in ( 2 . 2 ) : probabilità di un numero di successi dispari su n eventi Eh E2 , , En . Supponendoli stocasticamente indipendenti e di probabilità Ph P2' . . . , pn , detta probabilità risulta • • •

n

qn = t- IIh ( 1 - 2 Ph) 1

(lo si verifichi per induzione ); al crescere di n la differenza di qn da 1 de­ cresce (in valore assoluto), ossia, se interessa averla prossima ad 1, con­ viene sempre aggiungere eventi in pili ( stocasticamente indipendenti) qualunque ne sia la probabilità Ph perché detta differenza viene molti­ plicata per 2 (t - Ph) , � 1 in valore assoluto e tanto pili piccolo quanto pili

VII.

414

Sguardo d'insieme preliminare

Ph

è prossimo ad ! ; se Ph = ! la differenza si annulla (come già detto a suo tempo). Pensiamo ora di avere un cubo o un parallelepipedo e di vo­ lerIo dividere con la massima cura in due parti uguali : potremmo ricor­ rere all'identico schema eseguendo, anziché un solo taglio (parallelo a una faccia) tre tagli (paralleli alle tre coppie di faccie) e formando una metà coi 4 pezzi che soddisfano una o tutte ( e l'altra con i 4 che soddi­ sfano due o nessuna) delle tre condizioni di trovarsi « sopra», « davan­ ti », « a sinistra » . A che scopo queste divagazioni ? Per mostrare che fe­ nomeni del genere non derivano (e si direbbe allora : « miracolosamen­ te » ) da principi o premesse di teoria delle probabilità : di per sé possono presentarsi in qualunque tipo di applicazioni. Il fatto è che lo sfrutta­ mento e lo studio di metodi basati sul disordine è pio frequente e « per­ tinente » nella teoria delle probabilità che non altrove. Ciò dà un'idea della facilità ( e in certo senso anche dei motivi) per cui in situazioni complesse ove prevale un qualche « disordine » appare spesso un qualcosa che ha un aspetto di « ordine » . Una circostanza ulteriore atta a « giustificare » come mai tale « ordine gene­ rato dal caos » prenda spesso l'aspetto della distribuzione normale sta nel fatto che essa (a parità di varianza) ha massima entropia ( ossia minima quantità d'in­ formazione) . Fra le distribuzioni discrete con assegnati i valori possibili Xh e la previsione Ph Xh m), quelle che rendono massima I Phllogphl a parità di I Ph :l,. (nonché I ( di I Ph Xh e di I Ph 1 ) si ottengono annullando le a I a Ph di I Ph {I log phl + Q (X )}, con Q (x) - polinomio di 2° grado, ossia scrivendo - logph + Q (x) 0, da cui Ph = exp (- Q (x)) K exp{-!(x-m)'}. Se prendiamo le Xh equidistanti e ne fac­ ciamo tendere la distanza a zero si ha la distribuzione normale. Avendo appena accennato, senza approfondirle, alle nozioni circa l'infor­ mazione (in III, 8 . 5 ) non possiamo addentrarci in spiegazioni significative. Li­ mitiamoci a osservare che la «parità di varianza », pensando alla distribuzione delle velocità (nella teoria cinetica dei gas), significa « mantenendosi costante l'energia cinetica » (il che può far intuire nuovi nessi con la conclusione di Maxwell; qui in 6 . 7 ). �

=

=

=

Appare cOSI sempre pili inesauribile la varietà di modi in cui si mani­ festa la tendenza a far apparire dovunque la distribuzione normale ( I ) . ( l ) Una analoga « tendenza,. a far scaturire l a distribuzione normale opera i n altro modo per effetto dell'arricchimento dell'esperienza nei problemi di inferenza statistica. Ne diamo qui notizia per completare la rassegna in argomento, senza tentare anticipazioni di quanto si dirà a suo luogo (cap. XI, 4 .6-7, e cap. XII, 6 ., ).

6. Il « teorema centrale » ; distribuzione normale

4 I .5

La meraviglia, l'entusiasmo, ed anche una certa esagerazione nella fiducia in un'universale validità di tale distribuzione, sono ben compren­ sibili in coloro che per primi la videro presentarsi in numerosi esempi di distribuzioni statistiche (per es. di caratteri vari in specie animali, ecc. ) . Espressione tipica di tale stato d'animo è i l seguente passaggio di Francis Galton, del 1 889, in Natural Inheritance (capitolo « Order in Apparent Chaos » ) p. 66 (riprodotto da E. S. Pearson in uno dei suoi Studi sulla storia della probabilità e statistica, con molte citazioni e no­ tizie interessanti e insospettate; cfr. Biometrika ( 1 965 ), pp. 3-1 8 ): Difficilmente saprei indicare cosa alcuna altrettanto adatta a colpire l'im­ maginazione quanto la meravigliosa forma dell'ordine cosmico espressa dalla « Legge di frequenza degli errori ». Questa legge sarebbe stata personificata dai Greci, e deificata, se ne avessero avuto conoscenza. Essa regna con serenità ed in completa indifferenza tra la confusione pili sel­ vaggia. Pili è immensa la folla, pili è grande l'apparente anarchia, e pili è perfetto il suo governo. È la suprema legge dell'Assenza di Ragione. Ogni qualvolta un grande campione di elementi caotici viene preso in mano e disposto in ordine di grandezza, una insospettata e pili bella forma di regolarità mostra di esser stata ivi latente. Le teste della riga ordinata formano una curva che scorre con pro­ porzioni invariabili, ed ogni elemento, quando vien messo a posto, trova, come se cosi fosse, una nicchia predisposta, accuratamente preparata a contenerlo. Se si conoscono le misure in due qualsiasi specificati gradini della riga, quelle che si troveranno in tutti gli altri gradini, eccetto verso le estremità, possono essere stimate nel modo già spiegato e con molta precisione.

Sono accettabili simili espressioni ? Direi che si può rispondere SI e no: dipende pili da sfumature d'interpretazione che dalle grandi linee se tali affermazioni appaiono corrette o meno. L'idea che tutti i caratteri in natura debbano essere distribuiti nor­ malmente è senz'altro superata : è un fatto empirico che ciò accada o no (I). Ma quel che importa, per queste osservazioni di commento (non solo al passaggio citato ma a molte affermazioni pili o meno consimili lette o sentite un po' ovunque), è l'atteggiamento di fronte al « parados­ so » di una « legge » che regola 1'« accidentale » che non ha regola. (1 ) Non si cada nell'esagerazione (tuttora diffusa, e piu in passato) di ritenere che tutte o quasi le distribuzioni statistiche siano normali. Verso il 1900 osservava argutamente il Poincaré che «tutti vi credono, gli sperimentatori ritenendola un teorema di matematica, i matematici ritenendola una verità sperimentale,. .

VII.

416

Sguardo d'insieme preliminare

E, forse, la circostanza difIerenziatrice e rivelatrice tra gli atteggia­ menti cui attribuirei rispettivamente le qualifiche di « corretto» e « svi­ sato» può condensarsi in queste due frasi : a) esistono fenomeni accidentali che sono abbastanza addomesticati, in quanto seguono le « leggi dei fenomeni açcidentali », ed altri che sono ancor piu e peggio accidentali, irregolari, imprevedibili, che avvengono « a casaccio» senza neppure obbedire alle « leggi dei fenomeni acciden­ tali » ; b) i fenomeni accidentali, completamente accidentali, quelli mag­ giormente imprevedibili, irregolari, che avvengono « a casaccio», sono proprio quelli che prevedibilmente « obbediscono alle leggi dei fenome­ ni accidentali ». Leggi che esprimono proprio questo; esprimono quel che ci si può attendere in mancanza di ogni elemento che renda maggior­ mente prevedibile qualcosa che non rientri in quei casi che costituisco­ no la stragrande maggioranza nell'immenso numero delle possibili si­ tuazioni di caos. Anche cosi (e difficilmente si potrebbe evitarlo; comunque non son riuscito) le due frasi hanno un senso molto vago, ma bastano forse a diminuire la vaghezza della citazione di Galton facendo vedere qual è l'ambiguità di fondo da superare. E, posto ciò, non mi rimane che dichiarare che considero svisata la prima interpretazione (a), ed esatta la seconda interpretazione (b). I motivi sono quelli presentati a piu riprese con riferimenti a pro­ blemi concreti e non è il caso di ripeterli né di aggiungere altre spiega­ zioni o commenti generici che temo rimarrebbero inevitabilmente nel vago. 7·

Dimostrazione del teorema centrale. 7 . I . E veniamo infine alla dimostrazione. Ricorrendo al metodo della funzione caratteristica, la dimostrazione del teorema centrale è mol­ to rapida (benché abbia il difetto di operare su entità analitiche estranee alla visione intuitiva del problema). Ma ha soprattutto il vantaggio che la dimostrazione semplicissima relativa al caso di Testa e Croce (che

7.

Dimostrazione del teorema centrale

417

servirà a confermare una volta di pili ciò che già avevamo provato in vari modi) risulterà atta, quasi senza aggiunger altro, ad estendere la di­ mostrazione a casi assai pili generali. Per il guadagno singolo del gioco di Testa e Croce, Xi = ±l con pi = -! ' la funzione caratteristica è per la somma, Yn , di n di tali addendi stocasticamente indipendenti, è (cos u )n ; per il guadagno ridotto, Y,Jvn, sarà [cos ( u/vn)]n , ed il suo lo­ garitmo, quindi, n logcos { u/vn ) . Essendo 10gcosx = - i x2 [1 H{x)] (con E{X)-+ O per x-+ O), risulta n

logcos { u/vn ) = - -! n {u/vn)2[1 + E{U/vn)]

==

- -! u2 [1 + E{u/vn)] -+ _-! u2 ,

ossia, tornando dai logaritmi alle funzioni caratteristiche,

[cos ( u/vn }]'

-+

e-luI per n-+oo.

Ma questa è appunto la funzione caratteristica della distribuzione normale ridotta, e con ciò il teorema è dimostrato. E non soltanto per il caso di Testa e Croce. Ciò che ci è servito nella dimostrazione non è il fatto che la funzione caratteristica del singolo gua­ dagno fosse proprio cp ( u) = cos u, ma soltanto che il suo comportamen­ to qualitativo in prossimità dell'origine fosse 10g cp { u) = - -! u2[1 +E { u )]. E ciò significa soltanto che la varianza deve essere finita (che il valore sia 1 è solo per la convenzione fatta). Quindi : il teorema centrale vale per somme di numeri aleatori indi­

pendenti aventi uguale distribuzione se la varianza è finita (\).

:È chiaro però che la conclusione non richiede l'uguaglianza delle di-

( 1) Se la varianza è infinita il teorema centrale può valere soltanto in un senso, per cosi dire, anomalo (cioè non dividendo Y. per -In, secondo la regola propria per la distribuzione normale, bens! caso mai con altro procedimento di standardizzazione (Y. - A.)(B., con A e B opportune fun­ zioni di n. Ciò vale (Lévy, Addition, p. I I 3 ) per le distribuzioni in cui la massa esterna a ±x, suppo­ sta concentrata in tali punti, ha, rispetto all'origine, un momento d'inerzia trascurabile rispetto 8 quello delle masse entro ±x (cioè : il rapporto tende a zero per x ... .. ). Queste distribuzioni si ag­ giungono a quelle a varianza finita per costituire il « dominio di attrazione ,. della distribuzione nor­ male. Esistono altre distribuzioni stabili (a varianza infinita) ciascuna col proprio dominio di attra­ zione. (Cfr. cap. VIII, 4).

VII.

41 8

Sguardo d'insieme preliminare

stribuzioni, e neppure delle varianze: dato il carattere qualitativo delle circostanze che assicurano il comportamento asintotico desiderato, sa­ ranno sufficienti restrizioni qualitative. È forse opportuno fare un passo per volta, per fissare l'attenzione se­ paratamente sui due diversi aspetti. E cominciamo precisamente col sup­ porre variabili da prova a prova soltanto le varianze ma non la distribu­ zione (meglio, non il tipo di distribuzione, né la previsione, che conti­ nuiamo per semplicità ad assumere nulla). Continuiamo cioè a considerare gli Xi indipendenti, aventi uguale distribuzione e standardizzati (P (Xi ) = O , P(XD = l), ma gli addendi del nostro problema siano non gli stessi Xi bens{ f1iXi ( con f1j> O , variabili con i). Consideriamo cioè le somme

Sia ancora cp( u ) la funzione caratteristica degli Xi , ed E(U) il termine correttivo definito da log cp ( u ) = - -! u2 [ 1 + E( u)]. La funzione caratteristi­ ca di f1i Xj è allora CP (f1i U ), con

log cp ( f1i u ) = -t u2 [�+� E( f1i u)] , e, facendo il prodotto delle cp, rispettivamente la somma dei logaritmi, si ottiene per la somma Yn (36)

n

n

n

n

l

l

I

l

log IIi cp (f1j u ) = �i logcp ( f1i U) = -t u2 [�i � +�i � E(f1i U )] =

s!. = P ( y! ) = fi � .

dove si è indicata con s! la varianza di Yn ,

n

Per la Yn standardizzata, Y,JSn , si ha ( sostituendo U con U/Sn )

[

( )] ,

n � f1i U -21 U2 l + �i - E 1

s:

Sn

e pertanto la validità del teorema centrale dipenderà dal fatto che il « ter­ mine correttivo» dato dalla sommatoria tenda a ° per n --+ oo. Si tratta di una media (media aritmetica ponderata coi pesi � ) delle

7.

Dimostrazione del teorema centrale

419

E ( a'i ujSn ) Ciascun termine tende a O al crescere di n se Sn--+ OO, essendo al­ lora ( a'i ujSn ) --+ O ; ciò significa divergenza della serie delle varianze, � ( e questa sarà una prima condizione). Ma non basta: pensando ad es. di prendere ogni a'i molto piu grande dei precedenti potremmo rendere i rapporti a'n/Sn comunque prossimi ad 1 , e tendenti ad 1 , e il termine cor­ rettivo sarebbe E ( U ) , cioè non risentirebbe alcun beneficio dalla divisio­ ne di u per Sn. E questo stesso inconveniente accade se tutti i detti rap­ porti, o anche solo un'infinità tra essi, sono maggiori di un certo nume­ ro positivo. Occorre dunque, per assicurare la tendenza a O del termine correttivo, che a'Jsn --+ O , e ciò è anche sufficiente (I ) ( sarà questa la secon­ da condizione). In conclusione: il teorema centrale vale per somme di numeri alea­ '

tori indipendenti, aventi distribuzione uguale salvo per la varianza (2), se la varianza complessiva diverge (sn --+oo) ma il rapporto a'JSn--+ O (se cioè, in certo senso, il contributo di ogni termine diviene trascurabile rispetto a quello del complesso dei precedenti).

Ciò vale in particolare per scommesse a Testa e Croce (oppure su dadi od altro, prove con probabilità p # -!- ) facendo variare le puntate Si da prova a prova. I singoli guadagni aleatori sono Si(Ei-p), la varianza è a'i = Si...fjifi, il numero aleatorio standardizzato è Xi = (Ei-p )/...fjifi (per p = -!- , a'i = -!- S; , Xi = 2 (Ei- ! } = 2Ei-1 , come sempre usato per Testa e Croce). Possiamo svolgere su tale caso, per fissare le idee, le considerazioni di validità generale a chiarimento del risultato stabilito. Si ricordi che le a'i sono la stessa cosa delle S;, salvo cambiamento di unità di misura. Se la somma delle � convergesse, sarebbe come avere una somma di un numero finito di termini (ci si potrebbe arrestare dove il « resto » di­ viene trascurabile nel modificare la distribuzione ottenuta). E non solo cade il ragionamento per dimostrare che tale distribuzione è normale, ma un diverso ragionamento permette addirittura di escluderlo (salvo 7.2.

( I ) È cosa intuitiva, ma forse è opportuno dare la dimostrazione perché è un po' meno imme­ diata di come forse parrebbe a prima vista. Fissato un E > O , sarà UnISn < E per tutti gli n al di là di un certo N; ogni Ui sarà quindi Ui < ESi < ESn per n > i > N, e Ui 0"2 , , O"m , in modo da rendere di quando in quando ( e indefinitamente) maggiore di 1- (per es. ) il rapporto O"../Sn; una regola potrebb'essere questa: dopo 1 00 termini, se il successivo ( 0"101 ) è troppo piccolo per dare �OJ�O > 1- , inserire fra il 1 000 e il 1 0 10 posto il I primo dei O" successivi che sia > S IOI . Vi. ; proseguire per altri 1 00 termi­ ni e ripetere l'operazione; e cosi di seguito ( 2 ) . Quindi : soltanto la condizione piu restrittiva di varianza limitata (O"i tutte '5.K) assicura il teorema centrale se si ha un'infinità numera­ bile di addendi senza ordine stabilito ( gli indici sono gli interi, ma ser­ vono solo a distinguerli convenzionalmente). Se invece l'ordine ha un significato, per es. cronologico, la cosa cambia, e la conclusione preceden­ te (sn -+oo, O"n/Sn-+ O ) è realmente valida e meno restrittiva ( 3 ) . Se, in particolare, si vuoI considerare il caso in cui le puntate ( quin­ di le varianze) siano crescenti, la condizione viene a significare che le O"n devono crescere piu lentamente di qualsiasi progressione geometrica (beninteso, « definitivamente », ossia almeno da un certo punto in poi). Il motivo di tali limitazioni è pure chiaramente intuibile : se infatti sopravviene una scommessa molto forte, essa da sola influisce sulla forma della distribuzione in modo tale da distruggere l'effetto di avvi­ cinamento alla distribuzione normale cui eventualmente il complesso delle scommesse precedenti avesse condotto. Rimane ora a vedere cosa avviene se si considera il caso in cui non • • •

• • •

( I ) Per la proprietà ( teorema di Cramèr) riportata in cap. VI, 12. 100 era inessenziale; per fare l'esempio sembrava meglio non prenderlo né troppo pico

(2) Dire

colo né troppo grande. Ciò che è essenziale è soltanto che la regola deve garantire l'accesso nella suc­ cessione riordinata di tutti i termini di quella originaria (che potrebbero rimanere in parte esclusi per sempre se ad ogni posto si scegliesse un termine in base ad esigenze di grandezza o d'altro). ( 3 ) Distinguere i due casi sembra importante, sia concettualmente che praticamente. In genere, tuttavia (ed anzi sempre, per quanto mi consta) sembra si pensi soltanto al caso di successioni or­ dinate. Occorre sempre chiedersi se, dietro i simboli, c'è o no un senso reale.

7.

Dimostrazione del teorema centrale

42 I

solo variano le Ui ma anche le distribuzioni ( standardizzate) delle Xi . Tutte le formule scritte per il caso precedente rimangono immutate, salvo che, in luogo di CP (Ui U} e di E(Ui U), dovremo ora scrivere CPi (Ui U) ed Ei(Ui U }, dato che l a distribuzione (e quindi le cP e d E) cambiano con i. Basta allora osservare il « termine correttivo» nell'espressione fi­ nale: avremo delle E i al posto di un'unica E, e, per poter trarre la stessa conclusione, basterà richiedere alle Ei(U) di tendere egualmente a O per u-+O, ossia che esista una E(U) positiva e tendente a O per u-+ O maggiorante per le Ei(U): !Ei(U)! O ) (massa tutta concentrata nell'origine), ossia O è il limite (in senso debole) di Yn/n, ossia Yn/n40, c.v.d. Se le distribuzioni delle Xi non sono uguali, avranno diverse le CPi( U) e quindi le Ei(U); per Ynln il log. della f. caro sarà allora ( u/n )' !. Ei(u/n) = u x media aritmetica (semplice) delle Ei(u/n). Anche qui basterà supporre le Ei(U) ugualmente tendenti a zero, cioè per tutti gli i sia IEi(U)1 E ( E > O ) deve rima­ nere finita, divergendo solo, e non troppo rapidamente, per E--' O. I processi di Poisson, composti e generalizzati, esauriscono i possibili casi per la componente a salti Ys (t). Resta a considerare la componente continua, Yd t). In ogni caso Y(t) si può considerare come la somma di N (N arbitrario ) incrementi relativi agli N intervallini di lunghezza t/N in cui si può suddividere l'intervallo (O, tl . Precisando il modo in cui si separano gli incrementi « grandi » (in valore assoluto) corrispondenti ai salti, quelli restanti ( x o < -x decresce proporzional­ mente ad x-"(x > O, 0 < (1 < 2 ) ; si ha tendenza a un tipo stabile se il pro­ cesso, in certo senso, soddisfa approssimativamente detta condizione. Con riferimento a un'avvertenza precedentemente accennata, soggiun­ giamo che la « somma dei salti » può esser fatta senza « compensazione » per (1 < 1 , ma invece la richiede per (1 > 1 « (1 = 1 è un caso a sé); ne segue che le distribuzioni stabili generate dai soli salti positivi (negativi) si e­ stendono sui soli valori positivi ( negativi) se è (1 < 1 , mentre si estendono su tutti i valori positivi e negativi se (1 � 1 . Un caso semplice e notevole è quello dei processi « reticolari » ( Lattice processes) nei quali Y(t) può assumere solo valori interi (o, con variante inessenziale, i valori di una generica progressione aritmetica) : natural­ mente, non possono essere che processi di Poisson composti, ma non per questo non possono tendere a una distribuzione stabile (continua) al cre­ scere di t; anzi, se la varianza è finita, tendono necessariamente alla di­ stribuzione normale (come già visto per i processi discreti, a cominciare da Testa e Croce). 1 .6 . Studiare come varia, con t, la distribuzione di Y( t), non signi­ fica ancora occuparsi veramente del processo Y(t), ossia della funzione Y(t): è del suo andamento che occorre soprattutto esaminare le caratte­ ristiche che interessano, e l'andamento non si può studiare che conside­ rando simultaneamente e confrontando i valori di Y(t) in diversi ( e pos­ sibilmente molti o infiniti) istanti t.

43 2

VIII.

Processi aleatori a incrementi indipendenti

A proposito di questa parola, « infiniti », soggiungiamo subito che il senso dovrà essere « in numero comunque grande, ma finito » ( a meno di non aggiungere ipotesi addizionali, per es. la validità dell'additività com­ pleta, o precisazioni sulla sua non-validità, nel caso in oggetto ). Ma, per non appesantire troppo l'esposizione con sottili disquisizioni critiche, non sempre eviteremo locuzioni intuitive ( e relative giustificazioni « pra­ tiche » ). Problemi già visti (per il caso di tempo discreto), come quello sul com­ portamento asintotico di Y(t)/t (t-+oo) cui dà risposta la legge forte dei grandi numeri, si ripropongono ed hanno in genere soluzioni analoghe anche nel tempo continuo; ivi in genere si pongono problemi, in certo senso reciproci, per t-+ O (comportamento « locale », tipo « continuità » ecc., nell'origine, e quindi in un punto qualunque nel caso omogeneo). Nel processo di Wiener-Lévy i due problemi si corrispondono esattamen­ te per reciprocità. E, finché ci si limita a considerazioni basate sulla disuguaglianza di Cebysev, le conclusioni valgono per ogni processo a incr. ind. omog. purché a varianza finita: un tale processo, infatti, guardandolo « in gran­ de » (rispetto a unità di tempo e di ordinata grandi) in modo da rendere impercettibili i salti e gli eventuali tratti orizzontali, è un processo di Wiener-Lévy. Tanto vero che Lévy lo chiama processo del moto brownia­ no, il che può corrispondere solo alla percezione di un osservatore che non è in grado di discernere i moltissimi e piccolissimi urti che in ogni impercettibile tempuscolo alterano bruscamente il moto della particella osservata. E avvertiamo subito, piu in generale, che anche nel caso di processi aleatori qualunque (purché a varianza finita) molti problemi possono ave­ re una risposta, sia pure in genere qualitativa, basandosi soltanto sulle caratteristiche di second'ordine (come nel caso di uno o piu numeri alea­ tori). Qui i numeri aleatori da considerare sono i valori Y(t), e le carat­ teristiche su cui basarsi sono le previsioni, varianze e covarianze (o, il che fa lo stesso, P[Y(t)], P[y2 (t)), P[Y( tI )Y(t2 )]). Nel nostro caso ciò è ba­ nale : valutate in t = O, previsione e varianza di Y(t) sono, come sappia­ mo, mt e rrt, e la covarianza di Y(tl) e Y(t2 ) è a2 tl ( se tl :;;. t2 ) (quindi il coefficiente di correlazione è r(t" t2 ) = ri-tl/rrY"h . rrVt;. = vtl/t2 ) (basta osser­ vare che Y(t2 ) = Y(tl )+[Y(t2 )-Y(tl)), e i due addendi sono indipendenti).

2.

Il caso generale; il caso asintoticamente normale

433

Ma altri problemi (e gli stessi volendo conclusioni quantitativamente piu precise e piu specificamente riferite al particolare processo in esame) richiedono di tener conto di tutte le caratteristiche e di ricorrere a nuovi modi d'impostazione. E il concetto che serve per svariate questioni con­ siste nell'introdurre delle barriere (delle linee sul piano (t, y) ove pensia­ mo rappresentato il processo mediante il diagramma y = Y(t» per osser­ vare quando esse vengono raggiunte, per la prima volta o successivamen­ te, oppure immaginando che esse modifichino il processo (barriera assor­ bente, ove esso cessa; o riflettente, ecc . ). Il caso piu classico, e d'interpretazione piu immediata, è quello della « rovina di un giocatore » ( rovina che si ha quando il suo guadagno rag­ giunge il livello -c con c = capitale iniziale); sono ovvie le varianti se si pensa il capitale variabile (barriere qualunque anziché retta orizzontale y = -c), se si pensa a due giocatori entrambi con capitale iniziale limitato (oppure anche qui capitali variabili), e via di seguito. A parte questa ed altre interpretazioni e applicazioni pratiche, que­ stioni del genere servono per studiare sotto vari aspetti l'andamento del­ la funzione Y(t); in particolare - ed è una delle questioni piu studiate ­ per precisare l'andamento asintotico, indicando quali funzioni w(t) ten­ dano a zero troppo o non troppo rapidamente per maggiorare (con cer­ tezza pratica) Y(t)/t da un certo t = T in poi ( e questione analoga per

t-+ O ).

Barriere riflettenti e d'altro tipo modificano il processo e ciò fa uscire dall'ambito del presente cap. VIII; tuttavia in certo senso entreranno nelle considerazioni come strumento istruttivo e conclusivo, soprattutto per impiegare l'elegante e potente ragionamento di Desiré André (ed al­ tri, basati su simmetrie). 2.

Il caso generalej il caso asintoticamente normale. Vediamo ora anzitutto di precisare, in forma analitica, ciò che è stato descrittivamente illustrato circa la struttura e le proprietà del piu generale processo a incrementi indipendenti omogeneo. Quando l'intensità dei salti, (l, e la varianza, rr, sono finite, il processo 2.1.

434

VIII.

Processi aleatori a incrementi indipendenti

è normale ( se il = O ) o asintoticamente normale ( come risulta dal già visto teorema centrale), cioè o è il processo di Wiener-Lévy oppure lo appros­ sima asintoticamente. Non che le restrizioni poste siano necessarie per as­ sicurare tale comportamento: la il < 00 non ha alcuna diretta rilevanza e quella rr < oo potrebbe venire un po' attenuata ( cfr. VII, 7 . 3 ). Ma, per il nostro scopo immediato, è piu opportuno concentrare l'attenzione sul caso piu semplice, evitando complicazioni che disturbano senza nulla ag­ giungere. Il nostro scopo immediato - dopo inquadrata l'impostazione analitica generale - consisterà nell'imparare a vedere come e in qual senso ogni processo del genere ( asintoticamente normale) possa considerarsi come un'approssimazione, in opportuna scala, di un processo di Wiener-Lévy, e viceversa. In tal modo ogni conclusione stabilita per un caso partico­ lare, ad es . per Testa e Croce, risulta necessariamente valida (nell'appro­ priata versione asintotica) per il caso generale. Ciò permette tra l'altro - si noti - di stabilire proprietà del processo di Wiener-Lévy da elemen­ tari metodi combinatori applicabili di per sé al solo caso di Testa e Croce, oppure, viceversa, di ricavare proprietà inadatte alla trattazione diretta (per es. , sull'andamento asintotico per Testa e Croce ed ogni altro esem­ pio analogo) appoggiandosi a impostazioni, spesso piu facili, relative al caso-limite di Wiener-Lévy (basate sulla distribuzione normale). È uno dei molti casi, e uno dei piu significativi, dove si può trarre vantaggio, a seconda dei problemi, passando dalle schematizzazioni di tipo discreto a quelle di tipo continuo, o viceversa. 2 . 2 . Il processo di Wiener-Lévy si può ottenere come caso-limite dal processo di Testa e Croce (nel tempo discreto). Si supponga infatti di cambiare la scala, effettuando dei colpi a inter­ valli di tempo piu brevi ma anche con posta in gioco piu piccola, in modo che rimanga invariata la varianza per unità di tempo. A tal fine, se la po­ sta si prende N volte piu piccola (a = l/N) il numero di colpi per unità di tempo si deve prendere = N (intervalli 't = I/N2 ) : la varianza per inter­ vallino 't è infatti d = ( l/NY , e, affinché risulti = l per unità di tempo, dev'essere N il numero degli intervallini per cui va moltiplicata. Prendendo N sufficientemente grande si può far SI che l'incremento per un'unità di tempo abbia distribuzione prossima quanto si vuole a

2 . Il caso generale; il caso asintoticamente normale

435

quella normale ridotta; prendendolo ancora piu grande si può far SI che l'analoga proprietà sussista anche per intervalli piu piccoli (la distribu­ zione di Y (t )/Vi sia prossima, nel grado prefisso, a quella normale ridotta per ogni t superiore a un t scelto ad arbitrio). Ciò può esprimersi dicendo che il processo di Testa e Croce si può assimilare (con adeguato cambia­ mento di scala) a un processo nel tempo discreto con salti aventi distri­ buzione normale, e (con cambiamento di scala piu spinto) al processo di Wiener-Lévy (beninteso: purché si ritenga priva di senso la pretesa di considerare - o almeno di poter osservare - la validità dello schema per gli incrementi in tempuscoli piccoli oltre ogni limite). Mediante la funzione caratteristica, queste considerazioni si riduco­ no, nel primo caso, alla semplice ovvia osservazione che, sostituendo cos u con e-"", la [cos ( u/Vn)]n � e-U' diviene l'identità [e - < uNii )'] n = e -u" mentre, nel secondo, non fanno che ripetere il procedimento usato in VII, 7 . 1 : nel processo di Testa e Croce Y (t) ha funzione caratteristica q>t ( u ) = (cos u)l ( t = intero); col cambiamento di scala indicato essa diven­ ta [cos ( U/N)JN2 ( t = intero/N2 ); al limite (N �oo) diventa e - tu' (t qualun­ que). 2 . 3 . Il processo di Wiener-Lévy si può anche ottenere, analogamen­ te, come caso-limite del processo di Testa e Croce poissoniano (processo di Poisson composto, con intensità di salti � = 1 , e con salti ± 1 con pro­ babilità ! e !). La differenza è che, invece di avere con certezza un colpo ad ogni unità di tempo, i colpi si verificano casualmente, ed in previsione uno per unità di tempo (probabilità dt in ogni tempuscolo dt). Alternati­ vamente (come già accennato in 1 .3 ) si può dire che è Y(t)= Y1 ( t)-Y2 (t) dove Y1 e Y2 sono il numero dei guadagni + 1 e rispettivamente delle per­ dite - 1 , verificanti si entrambi casualmente e indipendentemente con in­ tensità ! ciascuno. La distribuzione di Y(t), in tale processo, è la mistura poissoniana delle distribuzioni di Testa e Croce. Riferendosi alla funzione caratteristi­ ca q>t ( u ) è la mistura poissoniana ( cioè : con « pesi » le probabilità e-t tn/n ! di n salti in (0, t) ) delle (cos ut (f. caro per la somma di n salti, ossia per Y (t) supposto che i salti fino a t siano n) :

VIII.

43 6

Processi aleatori a incrementi indipendenti

Anche in questo caso il medesimo cambiamento di scala (salti ridotti ad l/N ed intensità aumentata ad N2 ) conduce al processo di Wiener-Lévy : infatti, per N-+oo, la funzione caratteristica exp{tN2 [cos ( u/N)-lJ} tende ad e - t..2 . Si ha cosI la conclusione detta, ed è opportuno riflettere sul suo signi­ ficato: la distribuzione del guadagno nel gioco di Testa e Croce, dopo un tempo sufficientemente lungo, è praticamente la stessa sia nello schema rigido (un colpo ad ogni unità di tempo) che in quello casuale (poisso­ niano, con in previsione un colpo per unità di tempo). 2 .4 . Questi che abbiamo voluto presentare subito sono i tre modi piu semplici per ottenere immagini approssimate del processo di Wiener­ Lévy, ed è utile tenerli sempre presenti : il processo di Testa e Croce nel­ lo schema discreto e in quello poissoniano, e il processo a salti con distri­ buzione normale nel tempo discreto. Si potrebbe senz'altro aggiungere, come quarto, il medesimo in schema poissoniano : si avrebbe

Ma, a rigore, prescindendo cioè da questo fine psicologico, tutto ciò era perfettamente superfluo: non abbiamo fatto che anticipare alcuni ca­ si particolari di ciò che con altrettanta facilità si potrà subito vedere in generale. Iniziamo perciò ora lo studio sistematico del caso generale partendo dal processo di Poisson e poi da quello di Poisson composto. Il processo di Poisson ( semplice) dà il numero N(t) di ripeti­ zioni di un certo fenomeno nel tempo (0, t) , ossia conta i salti, tutti uni­ tari (come un contatore che scatta di uno ogni volta che deve registrare un fenomeno : inizio di una conversazione telefonica, arrivo di una par­ ticella, ingresso di un visitatore in un museo o di un viaggiatore in una stazione della metropolitana, ecc. ). Le condizioni dette in ( 1 .3 ) significano soltanto che deve trattarsi di un processo a incrementi indipendenti e omogeneo, con salti tutti ugua­ li ad l ; da esse ricaviamo ex novo, perché è istruttivo pensarle con rife­ rimento al presente caso, la derivazione delle probabilità Ph(t) della di2 .5 .

2.

Il caso generale; il caso asintoticamente normale

437

stribuzione poissoniana, sia nel modo già incontrato (VI, 1 1 .2 ) che in altri due nuovi. Prima via. Sia a(a = p.t) la previsione del numero di salti in un inter­ vallo dato (di lunghezza t, essendo p. l'intensità). Se dividiamo l'interval­ lo in un numero n di parti uguali (n grande, di modo che a/n sia piccolo rispetto ad 1 ; diciamo a/n < E avendo prefissato un E > O), a/n è la previ­ sione del numero di salti in ciascun intervallino, ed è anche (a/n ) = q" m " con q" = probabilità che in un intervallino t/n ci sia almeno un salto, ed m " = previsione del numero dei salti negli intervallini contenenti almeno un salto. Ma dev'essere m,,-+ l (n-+oo) perché altrimenti vorrebbe dire che ogni punto di discontinuità ha probabilità positiva di averne altri in un suo intorno comunque piccolo, ossia, praticamente, di essere un salto multiplo contro l'ipotesi che tutti i salti siano = 1 (I) . La probabilità che, degli n intervallini, h contengano delle disconti­ nuità ed n-h no, è ( �) q=( 1 _q,,)" - h ; per n-+oo diviene trascurabile la pro­ babilità che vi siano intervallini contenenti piu di un salto ( sicché h è il numero dei salti); d'altra parte è anche q" s a/n, e pertanto

( )( ;;a )h ( a)"-h

n Ph(t) = lim h

1-�

;

ci si riconduce cosi all'impostazione e al procedimento già visti (VI, I I . 2 ) per i cosiddetti « eventi rari» (come indubbiamente sono le presenze di salti in intervalli molto piccoli). Seconda via. Si può stabilire subito che Po(t), probabilità di nessun salto in un tempo t, dev'essere esponenziale, e-kt (perché deve essere

Po(t' + t") = Po(t' ) Po ( t" ), data l'indipendenza, e tale proprietà è caratteristica delle funzioni espo­ nenziali). La probabilità che il tempo di attesa, TI > fino al primo salto, sia � t è F ( t) = l - Po(t) = l _ e-kt ( è lo stesso che dire che non è vero che non 1; certamente piu sbrigativo presentare come condizione addizionale che la probabilità di avere due o pia salti in un intervallo di lunghezza t sia un infÌnitesimo di ordine supetiore al IO (e cosf si legge in molte trattazioni). In tal modo può però rimanete l'impres. sione etronea che si tratti di una restrizione ulteriore senza la quale potrebbeto aversi altri processi compatibili colle premesse iniziali.

(I)

p* (t) - l -Po(l)-P I (I)

43 8

VIII .

Processi aleatori a incrementi indipendenti

ci sia stato nessun salto tra O e t); dalla funzione di ripartizione F(t) si ricava, volendo, la densità, f( t ) = k e kt ; la f. caro sappiamo che è -

rp ( u ) = 1/{ l -ku). Ricordiamo (e del resto scende subito da quanto ora detto) che per con­ voluzione si ottengono le funzioni gamma : [rp ( u )J" = ( 1- k u t\

Fh * = 1 _ e- kt

r*= K,t-l e- kt ( x � O ),

[1 + kt1 ! + (kt)2 ! 2 + . . + ( khlt)h ] '.

quella ottenuta è pertanto la distribuzione di Sh, istante in cui avviene l'h-esimo salto, dato dalla somma dei primi h tempi di attesa :

Sh = T1 +T2 + . . . +Th (indipendenti e con distribuzione esponenziale ). Cfr. fig. I . y 6

__________________ _______________________

5

------------------------------

4

- - - - - - -- - - - - - - - - - - - - -

3

-----------------

1

-----

o

Figura I . Processo di Poisson semplice.

y - N( t )

,...----1

,...---4

t,

Questo modo di considerare il problema è, in certo senso, inverso di quello da cui siamo partiti, e al quale possiamo pertanto arrivare osser­ vando che N(t) '5. h equivale ad Sh > t ( O c'è, oltre ad esso, -ilPh(t)dt, anche quello in entrata, ilPh- l ( t)dt. Il sistema di equazioni (ricorrente) è quindi : .

con le condizioni iniziali po( O ) = l , Ph( O ) = O (h T' O ). La prima dà subito po(t) = e-Ilo!, dopo di che la seconda dà subito

Pl (t) = ilte-lIo! , e cOSI via. I calcoli sono quasi eliminati se (intuendo, o constatando sui primi termini, che conviene mettere in evidenza come fattore e-Ilo! ) po-

VIII .

44 0

Processi aleatori a incrementi indipendenti

niamo Ph(t) = e-p.t gh (t) (con go(t) = l , e gh( O ) = O per h '& O). La relazione ricorrente nelle gh(t) si riduce alla forma semplicissima g�( t) = IJ.gh-l(t), COSI che gh(t) = (lJ.t)h/h l 2 .6 . La funzione caratteristica della distribuzione di Poisson si ot­ tiene, oltre che come si è visto (VI, 1 1 . 2 ) , da un calcolo immediato : Piu istruttivo e significativo, con riferimento al processo aleatorio, riesce osservare che, per t-+ O, è asintoticamente

cp t (u) = 1 +lJ.t(eiU- I ) = ( 1 -IJ.t)+lJ.teiu ( probabilità l -lJ.t in O e IJ.t in l ).

È questa la « trasformazione infinitesima » da cui deriva il processo; lo si

vede forse nel modo piu semplice osservando che è

cp t ( u ) = lim[l + � lJ.t( eiU-1 )]". n � oo

n

Anche il processo di Poisson (come è ovvio, avendo varianza finita) tende al tipo normale, ossia si approssima asintoticamente al processo di Wiener-Lévy; però con previsione non piu nulla bensl uguale, come la varianza, a IJ.t. Per rendere nulla la previsione, cioè per avere un proces­ so equo, occorre togliere un termine lineare considerando il processo N(t)-lJ.t; anziché il numero dei salti si considera l'eccesso (positivo o ne­ gativo) di tale numero sulla sua previsione. L'andamento di

Y(t) = N (t)-lJ.t è quello a sega della fig. 4 salti tutti di +1 e, tra l'uno e l'altro, tratti rettilinei di pendenza -IJ.. Introducendo tale termine correttivo -lJ.t la funzione caratteristica (moltiplicandola per e-ip.tU) diviene (I):

(6) Era ovvio: nella log. caro deve scomparire il termine lineare in (E( U )-+ O per u-+ O ), (I)

Collocata piu avanti (4.3 ) dove serve assieme alla fig. ' .

U;

ora è

2.

Il caso generale; il caso asintoticamente normale

44 1

e, ponendo ulV!ii al posto di u per passare alla distribuzione ridotta si ha exp {llt [ t (ulV!ii fJ [ 1 H (ulV!ii m � e -!U2. -

Abbiamo ottenuto cOSI, se vogliamo, un quinto schema semplice atto ad approssimare il processo di Wiener-Lévy. Ci siamo dilungati su que­ sto esempio, non perché non sia ovvio, ma perché il concetto di compen­ sare (in media) i salti con un termine lineare certo (cioè di considerare i salti rispetto a una retta inclinata anziché orizzontale) risulta indispen­ sabile in casi che incontreremo tra poco ( 2 .7 e 2 .9 ) per ottenere che certi procedimenti convergano. 2 .7 . Secondo le stesse linee seguite per il processo di Poisson ( sem­ plice) si può prospettare il caso dei processi di Poisson composti, e quin­ di affrontare la ricerca del caso piu generale riconoscendo che è dato dai processi di Poisson generalizzati. Per un processo di Poisson composto, con intensità Il e distribuzione per ogni salto X avente funzione di ripartizione F ( x) e funzione caratte­ ristica X(u ) = P ( eiUX ) , la funzione caratteristica cpt ( u ) si ottiene esatta­ mente come nel caso del processo di Poisson semplice sostituendo x(u) al posto di eiu (che è la x (u) per quel caso, dove X è certamente =1 , os­ sia la distribuzione F (x) consiste di un'unica massa concentrata nel punto

x = l).

Ciò risulta immediato, sia osservando che la « trasformazione infini­ tesima » è ora l+ Ilt[X (u)-l]= ( 1-llt)+ lltX (U) (probabilità l-Ilt in O e probabilità Ilt distribuita secondo la distribuzione di un salto), da cui

e sia osservando che la funzione caratteristica è Xh(U ) subordinatamente all'ipotesi che i salti siano N (t)= h, e quindi cpt (u) è la mistura di queste prendendo per pesi le probabilità dei singoli h, ossia

(8)

-

-

o

o

cp t ( u ) = Ih [e-",t ( llt)hfh ! ] Xh(U ) = e-",t Ih [lltX (U )Jh/h !

che è lo sviluppo in serie della ( 7 ). Anche qui, naturalmente, non si tratta che della ( 5 ) con X(u) al posto di eiu •

VIII. Processi aleatori a incrementi indipendenti

44 2

Volendola esprimere mediante la funzione di ripartizione F{x) dei salti, la funzione caratteristica risulta

e possiamo anche scriverla ( IO)

cl{u) = exp { t f { éUX- l ) dM { x)}

ponendo M (x) = (LF (x), oppure (disponendo in modo piu opportuno del­ l'arbitrarietà di una costante additiva), (II)

per x < O, M{ x ) = (LF(x) M(x) = (L[F(x )- l] = -(L[1-F(x)] per x > O,

cosicché, per chiarire il significato a parole, è M(x) = intensità dei salti dello stesso segno di x e maggiori di x in valore assoluto, presa col segno opposto a quello di x. In tal modo M(x")-M(x/ ) è sempre l'intensità di salti di ampiezza compresa tra x' e x" se sono dello stesso segno e x" > x' ; per x = O la M (x) ha un salto M ( +O )-M(-O ) = -(L, essendo precisamente M(- O ) = inten­ sità di salti negativi ed M{+O ) = (con segno meno) intensità di salti posi­ tivi; l'intensità di salti tra un x' < O e un x" > O è M(x")-M{x' )+(L (ma, usualmente, serve considerare separatamente i salti dei due opposti se­ gni). Osservazione. Si può sempre supporre ( e cOSt faremo, salvo menzione con­ traria) che non esista una probabilità concentrata in x - O (ossia: si possa par­ lare di F ( O ) senza distinguere « +0 » e « - O », come s'è fatto tacitamente per dire che M(+O) -M(-O} - -(L[l -F (O)]-!J.F ( O ) - -!J.). Infatti un « salto di ampiezza x � O » o « nessun salto » è, agli effetti del processo, la stessa cosa, e, dal punto di vista matematico, un incremento della F (e quindi della M) in x = O dà un con­ tributo nullo all'integrale (9 ) annullandosi ivi la funzione integranda. Tut­ tavia, può anche convenire talvolta di contare, come N (t}, le ripetizioni di un fenomeno « suscettibile di dar luogo ad un salto », anche se il salto non si pro­ duce, o, volendo dir COSt, è nullo. Ad esempio, nel caso dell'assicurazione auto­ veicoli, sarà naturale (pio comodo, pio significativo) contare tutti gli incidenti (o, pio tecnicamente, tutte le denuncie di sinistri) senza discriminare ed esclu­ dere volta a volta quelli per cui risulta nullo l'indennizzo, o il numero di morti,

2.

Il caso generale; il caso asintoticamente normale

443

di feriti, di persone che hanno subito danni materiali, ecc., se il processo Y(/) che interessa è l'ammontare totale degli indennizzi per incidenti avvenuti fino al tempo I, o rispettivamente il numero di morti, di feriti, di danneggiati, e via dicendo. Formalmente, in tal caso non si farebbe che sostituire lJ. (intensità di salti) con lJ.+!J.o (!J.o = intensità del fenomeno con « salto nullo » ) includendo in M(x) un salto lJ.o in x = O e alterando conseguentemente F(x) e la f. caro X ( u ) che ver­ rebbe sostituita con la mistura di X ( u ) ed 1 con pesi lJ. e lJ.o. E ciò sarebbe (come doveva essere) irrilevante, dato che rimane invariato il prodotto lJ.[X ( u ) -l] che è ciò che conta. Si rammenti (VI, I r .6, formula ( 6 9 » che, per ottenere espressioni nella for­ ma normale (!J.o = O) occorre e basta che sia ( 1/2a ) S� a X ( u ) du -+ O (per a-+oo); se il limite fosse invece c .. O (necessariamente > O ) basterebbe depurarne X ( u ) sostituendolo con [X ( u ) - cJl( l -c).

Nel caso di un processo composto di un numero finito di processi sem­ plici ( quale considerato in I . 3 ; e faremo uso delle stesse notazioni) : - i dM(x) sono le masse (intensità) lJ.k concentrate nei valori Xk; - M(x) è la somma delle lJ.k relative agli Xk tra x e +co se x > O e a quelli tra -co ed x se x < O (in tal caso, cambiata di segno; - F (x) è la stessa somma, ma estesa sempre da - co ad x e normalizzata (divisa per lJ. = lJ.l +ll2 + +lln); - la f. car. dei salti è X (u ) = Ik eiU%k llJll; e quella del processo è • • •

(12) che, com'è ovvio, si ottiene anche come prodotto delle f. caro relative ai processi semplici da sovrapporre, cioè delle exp {tllk ( eiU%k - l )}. La formula ( I O ) ha il medesimo significato nel caso di un processo di Poisson composto qualsiasi : mostra che è una mistura di processi sem­ plici, non piu necessariamente in numero finito. Si noti infine che la previsione P[Y(t)] e la varianza a2 [y(t)] esistono e sono determinate dalla distribuzione (rispettivamente, nel senso stretto e in quello di P, cfr. VI, 5 . 7 ) se lo sono per i salti, X, cioè se esistono rispettivamente ( nel medesimo senso) P(X) e a2 (X). Allora è

P[Y(t)] = lltP(X), cr2[Y( t)] = llt a2 (X)

( sempre intendendo o P o P in entrambi i membri).

444

VIII. Processi aleatori a incrementi indipendenti

Se ha senso la previsione, ha senso anche considerare il processo de­ purato dalla previsione, ossia alterato detraendone la funzione lineare certa lltP(X) in modo da ottenere un processo a previsione nulla (ossia, equo). In altre parole, si considera Y(t)-lltP(X), eccesso di Y(t) rispet­ to alla previsione, come nel caso semplice ( 6 ). E si ha anche qui, ana­ logamente, come f. car.,

( 1 3 ) cpt (u) = exp {llt S ( eiux - l -iux )dF (x)} = exp{t S (eiUX - l -iux )dM (x l}. 2 . 8 . Possiamo ora individuare il piti generale processo aleatorio a incrementi indipendenti e omogeneo, il che equivale a dire la piti gene­ rale distribuzione indefinitamente scomponibile (cfr. VI, 1 1 .3 e 1 2 ); si tratta infatti, secondo entrambe le formulazioni, di individuare le f. caro cp(u) tali che [cp (u»)' sia una f. caro per qualsiasi t > O ( I ) . Abbiamo incontrato una vasta categoria di f. caro indefinitamente scomponibili : le cp(u) = exp{a[x ( u)- lJ} con x ( u ) f. caro (che sono le cp t ( u ) dei processi poissoniani composti); una funzione che sia limite (nel solito senso : convergenza uniforme in ogni intervallo limitato) di f. caro di detto tipo è ancora una f. caro indefinitamente scomponibile: il limite di una f. caro è una f. caro e se delle CPn ( u ), cp,,-+ cp, sono indef. scomp., Cp� è f. car., Cp �-+ cp t , quindi cp t è f. car. (per ogni t > O ), ossia cp è indef. scomp. Inversamente, si può dimostrare che una f. caro indef. scomp. è necessa­ riamente del tipo « poissoniano composto » oppure caso limite, ossia che

['insieme delle f. caro indefinitamente scomponibili coincide con l'aderen­ za dell'insieme delle funzioni caratteristiche del tipo cp(u) = exp{a[x ( u )- lJ} con x ( u ) = f. caro Per dimostrarlo basta osservare che se [cp (u)]t è f. caro per ogni t = l/n, è una f. caro anche CPn( u ) = exp{n [[cp ( u )]1 /n - l]} che è del tipo poissoniano composto e tende a cp ( u ) (che n ( xl /n - l )-+ log x è uno dei ben noti limiti ( I ) Per un t < O ciò è impossibile (salvo nel caso pleonastico cp (u) - e'w in cui !cp(u)! .. l; altri­ menti per qualche u è !cp (u)! < 1 e ivi, per t < O, sarebbe !cp(u)! ' > l). Basta anche verificare la condi­ zione (anziché per tutti i t) per i t - l/n (o altra successione tendente a O); essa vale infatti per tutti i multipli, quindi per un insieme di valori ovunque denso, e pertanto (per continuità; cfr. VI, 10.3 ) per tutti i t > O.

2.

Il caso generale; il caso asintoticamente normale

44 5

fondamentali). Il processo q>t(u} viene cOSI approssimato mediante i pro­ cessi q>� (u) aventi (magari apparentemente; cfr. Osso in 2 . 7 ) intensità n !J.n = n e distribuzione dei salti Xn(u) = [ q> ( u )Jl ; precisamente, ciò vale « apparentemente » nei casi già noti (poissoniani composti) ed effettiva­ mente nei casi limite nuovi che cerchiamo di individuare. Infatti, nei casi poissoniani composti, con intensità � finita, la probabilità Pt ( 0 ) = P [Y(t) = 0] = lim( 1/2a) Ja q>t(u)du (per a-+oo) -a (massa concentrata in O nella distribuzione di f. caro q>t(u») è � e - I't ( che è la probabilità di nessun salto fino al tempo t (I ) . In tal caso tutte le Xn (u) = q> lln (u) contengono un termine costante almeno = e-l'ln (corri­ spondente alla massa in O ) e l'intensità effettiva, anziché essere �n = n, è al piu = n ( l -e-l'ln } .-. � ( e si verifica facilmente che essa tende in effetti a �, come era ovvio presumere). I casi nuovi si ottengono dunque quando Y (t) = O ha probabilità nulla per ogni t > O, per quanto piccolo, ossia quando è nulla la probabilità che y(t) rimanga immutato durante un tempuscolo per quanto piccolo. Do­ vrà aversi o una variazione continua o una variazione con salti ovunque densi, ossia con intensità infinita. Nell'approssimazione considerata, le �n saranno effettivamente tutte = n. Le presenti considerazioni e la susseguente trattazione saranno al­ quanto informali; sugli aspetti critici ci soffermeremo spesso alquanto piu avanti ; per svolgimenti matematicamente piu rigorosi si vedano altri trattati (per es. Feller, II, cap. XVII, 2 ) o un eventuale seguito del pre­ sente volume. 2 .9 . Per affrontare lo studio del caso generale, cominciamo con l'e­ stendere ad esso la considerazione della distribuzione d'intensità dei salli) 1!: p, ( O ) > e-" se e solo se vi sono dei valori aventi probabilità non nulla per i salti (masse concentmte nella distribuzione di f. caro x ( u » , e qualche somma di essi vale O. Ad es ., nel caso di Testa e Croce, valori ± 1 , si ha 1 + (- 1 ) - O ( si può tornare in O con due salti ); se, nello stesso caso, i guadagni fossero fissati in +2 e - 3 , il ritorno in O sarebbe possibile con 5 salti ( 2 + 2 + 2 - 3 - 3 - O),

ecc. In generale :

p , (O) - !" P [N ( t) - hJ ,

P (X I + X, + ... + Xh - O ), dove

P (XI + . . . +Xh - O ) è la massa concentrata in

P [N (t) - h] - e-" ( lltl"/h !

O per la distribuzione di f. caro [x ( u)]".

e

44 6

VIII. Processi aleatori a incrementi indipendenti

ti, M(x), quale definita (in 2 .7 ) per il caso poissoniano composto. Una definizione che (precisando le considerazioni precedenti) si dimostrereb­ be equivalente, e che si applica senz'altro anche nel caso piu generale, è la seguente: M(x) (presa col segno + o - oppostamente al segno di x) è la previsione del numero di incrementi del segno di x e maggiori di x in valore assoluto che si hanno in un intervallo di tempo unitario suddi­ viso in un gran numero di intervallini molto piccoli. Piu semplicemente e concretamente, ci limiteremo a considerare la suddivisione in n interval­ lini uguali, di lunghezza l/n, passando al limite per n�oo. L'incremento di Y(t) in uno qualunque di tali intervallini,

Y(t+ 1/n)-Y(t), ha funzione di ripartizione F'ln (y) (dr. 1 . 3 ); la probabilità che esso supe­ ri un x positivo è 1 -pl/n (x) e la previsione del numero di incrementi su­ peranti x è n[1 -pl/n (x)], o, se si preferisce, [l -P(x)J/t; analogamente, per incrementi « superanti » un x negativo (dicendo 1;>revemente « supe­ ranti » per negativi e in valore assoluto maggiori di), probabilità e previ­ sione sono P(x) ed P(x)/t ( t = l/n ). E definiamo M(x), come limite (per t = l/n� O ) di -[l -P(x»)/t per x positivi, e di P(x)/t per x negativi; dato per vero (come è) che tale limite esiste, possiamo dire che in prima ap­ prossimazione per t - O è P(x) = l +tM(x) (per x > O ) ed = tM(x) (per x < O ), ossia (in forma unificata)

P(x) = P(x ) +tM(x), dove P(x) ( caso limite per t = O) rappresenta la distribuzione concentrata nell'origine (.P'(x) = O per x < O ed = 1 per x > O). Ciò si accorda intuitivamente coll'idea che M(x) significhi intensità di salti « superanti » x, e in particolare, nel caso poissoniano composto, sia M(x) = p.[P(x)-P(x)]; nel caso generale il significato è il medesimo, sal­ vo che M(-O) ed M(+ O ) possono diventare infiniti (M(-O ) = +oo, o M(+ O ) = -00, o entrambi), come mostra la fig. 2 . Ciò significa che si possono avere processi con « infiniti salti molto piccoli in ogni intervallo», benché debba sempre rimanere limitata l'in-

2.

Il caso generale; il caso asintoticamente normale

447

tensità di salti di ampiezza (in valore assoluto) maggiore di un E positivo arbitrario. Il passaggio al limite che consente di ottenere i processi poissoniani generalizzati si riduce pertanto (ci limitiamo a rilevare come ciò sia plau­ sibile, e a informare che cOSI è ) a costruire le cpt( u) in base alle formule ( I O ) e ( 1 3 ) di ( 2 . 7 ) consentendo alla funzione M(x) di divenire infinita per x-+±O con le opportune restrizioni affinché l'espressione converga e il processo che deve rappresentare abbia senso . • •

M(-O ) - +­

il

l /

M(--) - O

"

o

M(+O) s O (finito)

,i

/

l

M(+ O ) - -- '

Figura 2. Distribuzione dell'intensità dei salti.

2 . 1 0 . Una nuova formula, intermedia tra le due precedenti in quan­ to provvede alla compensazione soltanto dei salti piccoli, si presta meglio ad una esposizione unitaria: è la ( 14 ), che va costruita (con larga arbitra­ rietà) in modo che risulti equivalente alla ( 1 3 ) in prossimità di x = ±O e d alla ( I O ) i n prossimità di X = ±oo: ( 14 )

cpt( u ) = exp{t J[eiux -l -iux . 't' ( x )] dM(x )},

dove 't'(x) è una qualunque funzione limitata che tenda ad 1 per x-+ O e a O per x-+±oo.

VIII. Processi aleatori a incrementi indipendenti

44 8

Si può prendere ad es.

't' (x) = ( Ixl < 1 )

( ossia = 1 in (- 1 , 1 ) ed = O altrove) (P. Lévy),

oppure

't'(x) = l/( l +,x2) (Chincin), oppure

't'(x) = sin x/x

(Feller) ( I ) .

La condizione necessaria e sufficiente perché l'espressione ( 14 ), con qualunque variante per 't' (x), abbia senso come funzione caratteristica di un processo aleatorio - e in tal modo fornisca tutte le distribuzioni inde­ finitamente scomponibili tranne quella normale, che ne deriva come caso­ limite - è che sia finito il contributo alla varianza dato dai « salti piccoli » : dev'essere cioè S ,x2dM(x) < 00 (integrale esteso, per es., su (- 1 , 1) ; è indif­ ferente riferirsi a un qualunque intervallo purché finito e contenente l'o­ rigine) ( ' ) . Si noti che, nel caso piu regolare in cui l'intensità ammetta una densità, M'(x), e per essa abbia senso parlare di « ordine di infinito» nel tendere a O (da sinistra, da destra), la condizione necessaria e sufficiente è che tale ordine (per entrambi i versi) sia < 2 : se M' (x) - 1/x"'(a. < 2 ) va bene, se M' (x) - l/,x2 non piu. Ciò posto, è facile precisare quando e perché la ( 14 ) può essere sosti­ tuita con l'una o l'altra delle due formule piu semplici precedentemente date, e che si possono far rientrare come casi speciali nella ( 14 ) in cui la 't' (x) (anziché soddisfare le condizioni ad essa imposte) sia posta = O per la ( I O ) ( termine in iux omesso) ed = 1 per la ( 1 3 ) (termine iux sempre presente). Il termine iux è innocuo (non produce se non l'aggiunta a Y(t) di una funzione lineare certa et) finché lo si applica a salti né grandi né piccoli ( ad es. per E < Ixl < l/E, con E > O comunque piccolo); applicandolo in un intorno di x = O è o innocuo o utile; applicandolo in un intorno di 00 (ad es. per l/lxl < E) è o innocuo o dannoso. È utile, anzi indispensabile, ( I ) Alcuni Autori preferiscono assumere come differenziale per l'integrazione, anziché dM (x), varianti come dK (x) - (x'/( 1 +X' )] dM (x) (Chincin) o dH (x) - x' dM (x) (Feller) per vantaggi formali notevoli ma che non mi sembra tuttavia compensino la perdita del significato diretto (cfr. Feller, II, p. '36 e passim, e P. Lévy ( I96, ), p. I4I). (') Cfr. P. Lévy e Feller, opere e luoghi (circa) come indicati nella nota precedente.

3.

Il processo di Wiener-Lévy

44 9

quando i piccoli salti, se non « compensati », non dànno luogo a conver­ genza, e ciò avviene se S lxl dM(x) diverge su (-1 , 1 ) (o, equivalentemen­ te, su un qualunque intorno di O ). È dannoso, in quanto la «compensa­ zione » dei grandi salti distrugge la convergenza, se essi dànno un contri­ buto troppo sensibile, e ciò avviene, precisamente, quando il precedente integrale diverge su Ixl � 1 . E ciò, si badi, può ben avvenire anche in un processo di Poisson composto (IJ. finita) : basta che la distribuzione dei salti non ammetta « valor medio » ( come ad es . quella di Cauchy); al pro­ cesso non ne deriva nessun danno, ma il tentativo di un passaggio al li­ mite sui salti « compensati » anziché agevolare la convergenza la distrug­ gerebbe. Concludendo: la condizione Sx2dM(x) < 00 su (- 1 , 1) è necessaria e sufficiente, e la ( 14 ), se essa è soddisfatta, vale sempre ; si possono usare entrambe ie forme semplificate ( I O ) e ( 1 3 ) se è S lxldM(x) < oo su (-00, +00) (e si noti che tale condizione implica quella generale, ed è quindi di per sé sufficiente); se invece tale integrale diverge occorre distinguere se ciò avviene per colpa dei contributi intorno all'origine o intorno a ±oo, perché nel primo caso si esclude la ( I O ) , nel secondo la ( 1 3 ) ( ed entrambe se il guaio avviene sia all'origine che all'infinito). 3 ··

Il processo di Wiener-Lévy. 3 . I . Esaminiamo ora la « parte continua » di un processo aleatorio (a incrementi indipendenti e omogeneo) che, come detto già in I .3 , è il processo di Wiener-Lévy. I pochi cenni già dati ivi e qualche ulteriore semplice osservazione basteranno qui per una conoscenza preliminare del processo, sufficiente come base per le considerazioni che nel seguito avre­ mo da sviluppare. Premettiamo una precisazione sul senso in cui il processo si dice « con­ tinuo » : significa dire che, fissato comunque un E > O, e considerando gli incrementi di Y (t) in O s; t s; 1 suddiviso in N intervalli uguali, la proba­ bilità che anche un solo di essi sia (in valore assoluto) maggiore di E, IY(t+1/N)-Y(t)I > E per un t = h/N < l , tende a O facendo crescere N. Si tratta, insomma, di « ciò che sfugge al precedente crivello per la cernita

VIII. Processi aleatori a incrementi indipendenti

45 0

dei salti » . Non succede nulla di male se, come immagine semplicista, si pensa che ciò equivalga al dover essere continua la funzione Y(t), ma concettualmente ciò costituirebbe una distorsione, come risulta da qual­ che considerazione critica già fatta e da altre che faremo in modo un po' piu sistematico seppure succinto (dr. per es. 9 . 1 2 , e in particolare l'ul­ timo capoverso). Ci riferiremo abitualmente al processo di Wiener-Lévy ridotto, con previsione nulla, m ( t) = O, e varianza unitaria per unità di tempo, til(t) = t, con la condizione iniziale Y ( O ) = O. I n tal caso l a densità r (y ) e la funzione caratteristica cp ' (u) (al tempo t) sono

( 16) Il caso generale (Y ( O ) = Yo, m(t) = mt, cr2 (t) = ttil) si può ricondurre al pre­ cedente scrivendolo a+mt+crY(t) con Y(t) ridotto; volendo considerarlo esplicitamente avremo invece : It (y ) = Krl e- l [< y-yo -mtl/rr]'/t

(K = 1/v'2iccr),

(ove, per maggiore chiarezza, sono indicati separatamente il termine di­ pendente dal valore iniziale, Yo, e quello dipendente dal processo, ossia da t). 3 .2 .

Per i problemi che riguardano proprio il processo aleatorio e il suo andamento, e non un solo valore isolatamente, vale la stessa impo­ stazione. Anche la distribuzione congiunta dei valori di Y(t) in un nu­ mero qualunque n di istanti tI , t2 , , tn è infatti una distribuzione nor­ male, di densità (I) • • •

I(yh Y2 ,

...,

- K e- 1Q(Y " Y" Yn ) I

...•

y.)

P[Y(ti) Y(tj)] = cricrj rij ( se i = j, rii = l , covar. = varianza = cr�). Si è già visto ( 1 .6 ) che ( se ti "S. tj) la covarianza è � e quindi r j = Vt;/tj, e ciò completa i

con Q forma quadratica definita positiva determinata dalle covarianze i

dati occorrenti per ogni applicazione.

( I ) Supponiamo m - O, rt - l (caso ridotto); cambiamenti banali altrimenti.

3 . Il processo di Wiener-Lévy

45 1

� tuttavia piu elementare e pratico osservare che tutte le Y(t;) si pos­ sono esprimere come somme di incrementi A; = Y(t;)-Y(t;_ I ), successivi e indipendenti : Y(t;) = AI+A2 + . . . +A;; ma A; è normale centrata e con va­ rianza (t;-t; - I ), e Q, in funzione delle variabili ( Y ;- Y;_ I ) è una somma di quadrati ( q)

Applichiamo tale procedimento per ricavare alcune semplici conclu­ sioni che ci occorrono. Quello che finora abbiamo considerato è, piu precisamente, il pro­ cesso di Wiener-Lévy sulla semiretta t � O dato Y ( O ) = O. Identico è il caso t � to dato Y(to) = Yo (o per t :S: O, risp. t s. to ( I » . Per considerare il caso in cui siano dati piu valori (in t = tI , t2 , . ) ba­ sta considerare il problema entro uno degli intervalli (finiti; per i due illimitati vale quanto sopra). Consideriamo dunque ora il processo in un intervallo (tI , t2) dati i valori negli estremi: Y(tl ) = YI e Y(t2 ) = Y2 . Per ca­ ratterizzarlo completamente basterà anche qui determinare previsione (non piu necessariamente nulla! ) e varianza di Y(t) per ogni ti s. t s. t2 e la covarianza (o il coefficiente di correlazione) tra Y(t') ed Y(t" ) per ogni coppia di istanti ti S. t' s. t" s. t2 . Scomponiamo Y(t) nella somma della parte lineare certa (retta per i due punti dati) e nello scostamento da essa: .

.

Y(t ) = YI +[(t-tl )/(t2 -tl )] ( Y2 - YI )+YO (t), dove Yo(t) corrisponde allo stesso problema con YI Y2 O, e consideria­ mo le due parti come se gli estremi non fossero ancora fissati, cosicché gli incrementi AI Y -YI e A2 = Y2 -Y sono indipendenti e di scarto stan­ dard 0'1 = vt-tl e 0'2 = Vt2 -t. La parte lineare è allora il numero aleatorio =

==

=

[1/( t2 -tl )] [( t2 -t)YI + (t-tl ) Y;z] , ed Yo(t), per differenza, è

Yo(t) [ 1/( t2 - tl )] [( t2 -t)A I -(t-tl )A;z] ; =

( I ) Se il processo si suppone aver senso anche nel passato, e se effettivamente nessuna conoscen· za del passato induce a adottare previsioni diverse (ipotesi in genere poco realistiche).

45 2

VIII. Processi aleatori a incrementi indipendenti

ne risulta tosto che Yo(t) ha previsione nulla ( come era ovvio) e scarto standard ( 18) e che è noncorrelato ( e quindi, per la normalità, indipendente) dalla parte lineare YI +[( t-tl}/( t2 -tl )] (AI +A2 ). Infatti: covarianza = K[(t-tl ) ( t2 - t)P(A�)-(t-tl )2 P(A�)] =

= K[(t2 -t) �-(t-tl } �] = O.

S i può osservare (per controprova, e per rendersi conto della differenza con Vt-tl che si avrebbe in assenza della condizione nel secondo estre­ mo) che lo scarto standard della parte lineare è (considerando fisso il va­ lore nel primo estremo, YI )

[(t-tl)/(t2 -tl)] YP (A I +A2 )2 = Vt-tl . v (t-tl )I(t2-tl);

sommando i quadrati degli scarti standard dei due addenti si ha, come doveva essere, il quadrato di 0"1 = vt-tl. Giova osservare, come mostra la fig. 3 , che lo scarto standard ( 1 8 ) di Y(t), dati i valori in ti e t2 , è rap­ presentato dal ( semi)cerchio che si appoggia sul segmento (tI > t2) (se in opportuna scala : segmento t2 -tl sull'asse t uguale all'unità di misura sul­ l'asse y ; il che è del resto irrilevante salvo per comodità di disegno e di descrizione). Se consideriamo le parabole che rappresentano analogamen­ te O"(t) dato soltanto YI (cioè : y = vt-tl) o soltanto Y2 ( cioè : y = vt2-t) si vede che il prodotto di queste due funzioni è rappresentato dal nostro cerchio che è pertanto osculatore (negli estremi) alle due parabole, dato che dove uno dei due fattori si annulla l'altro vale 1 . Analogamente determiniamo la covarianza tra Y(t') e Y(t" ), ti s, t' s, t" s,t2 . Indichiamo i tre successivi incrementi indipendenti con

AI = Y(t'}-Y(tl ), A2 = Y( t"}-Y(t'), A3 = Y(t2 )-Y(t"); la Yo(t) sarà la stessa di prima, ma scrivendo Y2 - YI = AI +AàA3 , T = t2 -tl e supponendo (per mera semplicità di scrittura) ti = O e YI = O, avremo Yo(t') = AI -t' (AI +A2 + A3 ) = ( T -t'}AI -t'A2 -t'A3 Yo(t") = AI+A2 -t" ( AI +A2 + A3 ) = ( T -t")AI +(T -t")A2 -t" A3

3.

Il processo di Wiener-Lévy

453

e quindi Yo(t') Yo (t" ) = (T -t' ) (T -t")a�-t' (T -t")a�+t' t" a!+ + termini rettangoli ( in ai aj, i '" ;, con previsione nulla).

Prendendo la previsione si ha, tenendo presente che quella dei a� e rlspettlvamente CT....1.2 = t' , CT....Z.2 = t" -t' , C13 .....2 = T -t" , Covar( t', t") (T -t') (T -t") t' -t'(T -t") ( t" -t' )+ t' t" (T - t") = = t' (T - t" ) [(T -t')-(t" - t' } + t"] = t' (T - t")T. ,





y - m (t)±cr(t)

t.

Figura 3 . Interpolazione del processo d i Wiener-Uvy tra due punti noti ( retta e semiellissi : diagram. mi di previsione e previsione ± scarto standard). In basso : andamento dello scarto standard dato il punto origine o quello finale od en­ trambi.

4.54

VIII .

Processi aleatori a incrementi indipendenti

Dividendo per (J"' = vt' (T -t')fT e coefficiente di correlazione

r ( t' , t" ) =

"

(J"

= vt" (T t" )/T si ha finalmente il

�t = ( - )

(T -t')t"

-

(t' - td (t2 -t") (t2 -t') (t" -tI )

ritornando cOSI alle notazioni iniziali. 3 -3 - Non parrà certo strano che, per t2 = 00, si ricada nei risultati relativi ad un'unica condizione in tI ; ma tale osservazione è un caso par­ ticolare di una circostanza notevole posta in luce da P. Lévy, utile spesso per invertire la conclusione riconducendo casi generali (con due valori fissati) al caso limite particolare ( con un solo). Si tratta della invarianza proiettiva dei problemi riguardanti processi del genere (I) , proprietà deri­ vante dal fatto che il radicando nell'espressione di r(t', t" ) è il birapporto dei quattro istanti. Esso perciò rimane invariato per ogni sostituzione omografica sul tempo t, purché all'intervallo (tI , t2) finito non faccia cor­ rispondere il complementare di un intervallo finito (ma ancora un inter­ vallo finito, oppure una semiretta; in altre parole, le disuguaglianze tI � t' � t" � t2 devono esser tutte conservate o tutte invertite). Di conse­ guenza, rimane invariata la natura stocastica della funzione Y(t) a pre­ scindere dalla moltiplicazione per una funzione certa arbitraria; l'inva­ rianza sussiste per ogni funzione aleatoria del tipo Z(t) = g(t)Y(t), o in particolare del processo ridotto (con sempre (J" = l) ottenibile prendendo

g(t) = l/a [Y(t)) = l/W. Questo accorgimento servirà tra l'altro a ricondurre lo studio del com­ portamento asintotico di Y(t) in prossimità dell'origine (per O < t < E, E-+ O ) a quello all'infinito (per t > T, T -+oo) (cfr. 9 . I I ). Le principali proprietà del processo di Wiener-Lévy verranno rica­ vate in seguito, al punto in cui esse risponderanno ad effettivi problemi di cui avremo ad interessarci. (I) Tale significato appare nel modo piu chiaro introducendo la coordinata proiettiva "I"

- "I" (t) - (t-t') ( t" - t,)/(t" - t ) ( t, - t'),

'

ossia (come riesce evidente) quella che porta l ' , t" t" in 0, 1 , DG : "1" - "I" ( t') - 0, "1", - "I" (t,) - 1 , " "1" - "I" ( t") - DG; allora r - v:r; , ove "1". - "I" (t.) è l'ascissa del punto t. dopo effettuata detta trasforma­ zione proiettiva.

4 . Distribuzioni stabili e altri casi notevoli

455



Distribuzioni stabili e altri casi notevoli. 4 . 1 . Abbiamo incontrato due casi di distribuzioni stabili nel cap. VI ( 1 1 .3 ) : quella normale (che, in VII, 6.7, abbiamo riconosciuto come l'unica distribuzione stabile con varianza finita) e quella di Cauchy (con varianza infinita). Siamo ora in grado di determinare tutte le distribuzioni stabili. È chiaro - e tosto vedremo - che devono essere indefinitamente scompo­ nibili, e la ricerca va quindi limitata all'ambito delle dette distribuzioni per le quali conosciamo l'espressione esplicita della funzione caratteri­ stica. Sarà agevole, cOSI, individuarle. La conoscenza di queste nuove distribuzioni stabili gioverà poi a chia­ rire le diverse condizioni che occorrono e circostanze che si presentano nello studio del comportamento asintotico di un processo aleatorio. Cominciamo con l'osservare che la convoluzione di due distribuzioni poissoniane generalizzate (e in particolare anche composte), rappresen­ tate dalle distribuzioni d'intensità dei salti, M 1 (x) ed M2 (x), si ottiene facendone la somma, M(x) = M1 (x)+M2 (x): infatti la M(x) determina linearmente il logaritmo caratteristico, e la somma su di esso corrispon­ de al prodotto sulla funzione caratteristica, ossia alla convoluzione. Con ciò risulta chiara, inversamente, la condizione affinché una di­ stribuzione indef. scomp. risulti fattore di scomposizione per un'altra ( anch'essa indef. scomp. ) : la distribuzione definita da M1 (x ) « divide » quella definita da M (x) se e solo se anche la differenza

M2 (x) = M(x)-M1 (x) è una funzione di ripartizione di intensità. Essa dev'essere cioè mai de­ crescente, per dare ad ogni intervallo una massa positiva (o al piu nulla), e ciò significa, in modo semplice e intuitivo, che M1 (x) deve avere in ogni intervallo (del semiasse positivo o di quello negativo) incremento non superiore a quello di M(x). In particolare, deve avere non maggiori, pun­ to per punto ( se esistono), le masse concentrate e la densità. Se si vuole includere nell'enunciato il caso in cui esista una componente normale ( e si ha allora la piu generale distribuzione indef. scomp. ), basta dire che

4.5 6

VIII.

Processi aleatori a incrementi indipendenti

anche per essa dev'essere non superiore, nel fattore, tale componente {e come misura s i può prendere la varianza} (I) . Per provare che la stabilità implica l'indefinita scomponibilità basta notare che la somma di n numeri aleatori indipendenti, aventi una stessa distribuzione, ha allora la stessa distribuzione {a meno di un cambia­ mento di scala}; pertanto è essa stessa prodotto di convoluzione di un numero n arbitrario di fattori uguali, e quindi indefinitamente scompo­ nibile. Se, per ogni fattore, la distribuzione d'intensità dei salti è M{x}, per la convoluzione di n fattori essa è nM{x}. Affinché valga la stabilità occorre e basta che la distribuzione definita da nM{x} appartenga al medesimo tipo di quella definita da M{x), ossia non ne differisca che per un fattore di scala (positivo) À. { n } : sia cioè nM{x) = M (À. { n )x). Ne segue senz'altro che

knM{x) = kM O.. {n )x) = M(}. {k) À.{n )x) = M(À.{kn )x), ossia À. { k) À. { n ) = À. { kn) per k ed n interi ; la stessa relazione vale anche per i razionali ponendo À.{ l/n } = lfì.. { n ) e quindi À.{m/n ) = À.{m)/À.{n); per continuità s i ha quindi À.{v) per tutti i v reali positivi. L'equazione funzionale À.{V I }À. {V2 ) = À.{V I V2 ) è caratteristica delle potenze, per cui ri­ sulta l'espressione precisa per À.: {2 I }

À. (v) = v-I/.. , in particolare À. {n ) = n-I/...

Abbiamo indicato l'esponente con -l/a. perché è il suo reciproco, -a., che figura come esponente nell'espressione di piu diretto impiego che ora daremo per M{x); perciò a. viene chiamato « esponente caratteristico» di una distribuzione per la quale sia

nM{x } = M {n-I/Ilx} (e in generale vM{x) = M{v- ' /"x), O < v < +oo). Ma da ciò deriva subito l'espressione esplicita di tale M{x). Scrivendo la precedente espressione per x = l , vM( 1 ) = M{v- ' /Il), e ponendo poi x = v-I/.. , risulta M{x} = -Kx-Il, con -K = M{ 1 ) costante, e per tutti gli x positivi (che si ottengono, nell'ordine da O a +00, al variare di v nel senso inverso, da +00 a O). Ponendo inizialmente x = -l ( anziché = +1 ) si sareb-

{22}

(I) Si badi che quanto sopra si riferisce alla scomponibiIità entro il gruppo delle distribuzioni indef. scomp . ; ma possono esistere fattori non scomponibili di distribuzioni indef. scomp. (nonché, ovviamente, il viceversa) come già accennato (cap. VI, 12).

4.

Distribuzioni stabili e altri casi notevoli

4.57

be trovata la stessa conclusione per x negativi, salvo la necessità di scri­ vere Ixl-" anziché x.... ; la costante K poteva poi avere valori diversi sul semiasse positivo e quello negativo, cosicché in definitiva dovrà essere :

( 23 )

M(x) = -K+ l x l -"(x > O) + K- l x l -"(x < O ) = K ± lxl -".

K+ e K- sono indicate col segno opportuno preposto in modo che esse abbiano ad essere positive (affinché M(x) sia crescente, secondo le indi­ cazioni in ( 2 .9 » ; la scrittura Ixl dove x è positivo è ovviamente superflua, ma la si è usata per sottolineare l'identità delle espressioni per le due se­ mirette; K± può indicare sinteticamente -K + o +K- per x � O (e si potreb­ be scrivere K± = K- (x < O )-K+ (x > O » . Resta a vedere quali valori siano ammissibili per l'esponente carat­ teristico, e si conclude subito che lo sono i valori 0 < a. !5: 2 , con circostan­ ze che obbligano a tener distinti i quattro sottocasi 0 < a. < 1 , a. = 1 , 1 < a. < 2 , a. = 2 . Il caso divisorio ( e un po' singolare) a. = 1 è dato dalla distribuzione di Cauchy (già incontrata in VI, I 1 .3 , e lo dimostra la proprietà ivi rilevata per la f. caro (59 l).

4.2. Per a. = 2 il procedimento sopra esposto in realtà non è appli­ cabile ( l'espressione per la funzione caratteristica divergerebbe), ma lo si può considerare come caso limite ( o includere con accorgimenti del tipo di cui alla nota I in 2 . 1 0 ). E tale caso limite è quello ben noto ed ormai familiare della distribuzione normale. Esso corrisponde infatti all'esponente caratteristico a. = 2 (e ad 1/a. = ! ) perché il fattore di scala, che in tal caso può essere lo scarto standard, nella somma Y" di n addendi di uguale distribuzione, viene moltiplicato per Vn , ossia n l/2 (e quindi, nella media Y,./n, per n -1 /2 ) . Pili in generale, anche per il caso di addendi con distribuzione del medesimo tipo ma con fattori di scala diversi, vale, per la distribuzione normale, la nota formula dello scarto standard (per somme di addendi indipendenti) : O" ( 24 ) ( � + � + .. . + 0: )1/2 -=

45 8

VIII. Processi aleatori a incrementi indipendenti

e questa formula vale per tutte le distribuzioni stabili adattandola al ri­ spettivo esponente caratteristico a.. Esplicitamente, se Xh X2 , , Xn sono numeri aleatori aventi la stessa distribuzione ( stabile, esp. caro = a.), ed ah a2 , .. . , an sono fattori di scala, la somma aX = aJ Xl+a2 X2 + . . . +anXn sarà ancora un numero aleatorio con distribuzione dello stesso tipo e fattore di scala •• •

e in particolare

a = nl/fI. ( se tutti gli ai sono = 1 ). Tale relazione è immediata conseguenza dell'espressione ( 2 3 ) per M(x): dalla 'VM(x) = M('V - '/"x),

posto 'V = 'V 1 +'V2 , si ha I 1 / ,/fl. M ('V- "x) = M ('V x )+ M ('V; I/"X).

Abbiamo cominciato dal caso a. = 2 non solo perché già noto ed im­ portante ma anche perché esso consente subito la conclusione annunciata, che valori a. > 2 sono inammissibili. E non solo perché, a maggior ragione che per a. = 2 , l'integrale divergerebbe, ma per un motivo elementare o almeno familiare ( che tuttavia ci limitiamo ad accennare) : se la varianza è finita vale la regola degli scarti standard dove a. = 2 , se è infinita deve risultare a. :s: 2 perché vale a. = 2 per ogni parte limitata della distribuzio­ ne ( ossia ad es . considerando le Xh troncate, -K v Xh A K). V a rilevata una circostanza concettualmente e praticamente importante, in nesso alle idee sulla compensazione (ad es., di errori di misura) grazie alle (ma­ giche? ) virtu della media aritmetica. Beninteso, è una proprietà matematica che occorreva comunque rilevare per conoscere un aspetto notevole del comporta­ mento della media Y./n di n addendi seguenti una distribuzione stabile con un dato a.. La ( 2 6 ) dice che, rispetto ai singoli addendi, Y. ha fattore di scala n""j per­ tanto, per la media aritmetica Y /n, tale fattore di scala è nO/oH• .

Ad es., per a. il fattore risulta e ad es. per n - 2 : e per n - IO :

2 n- l/2 0,707 0,3 16

3/2 n - I/l 0,793 0,464

4/3 n-1/4 0,841 0,68 1

1 1 1 1

3/4 n l /4 1 , 1 89 1 ,779

1/2

1/4

2 lO

8 1000

n

4 . Distribuzioni stabili e altri casi notevoli

45 9

La « compensazione » nella misura consueta, cioè l'aumento di precisione nel rapporto l : Yn prendendo la media di n valori, si ha soltanto per ex. = 2 ; in mi­ sura via via piu attenuata si ha per gli ex. tra 2 ed 1 ; per ex. 1 ( distribuzione di Cauchy) il prendere la media di piu valori non dà alcun vantaggio (né svantag­ gio) rispetto al prenderne uno solo; per ex. < 1 la situazione si inverte e peggiora rapidissimamente avvicinandosi allo . zero (valore limite escluso, ove varrebbe 00 ! ). I pochi valori sopra riportati bastano a dare una sensazione numerica con­ creta di quel che accade. La conclusione non è tuttavia (come potrebbe pensare chi identificasse l'u­ tilizzazione di osservazioni ripetute coll'impiego della media, facendosene un paraocchi) che in tali casi la numerosità delle informazioni non dà alcun van­ taggio. Il vantaggio c'è sempre (l'informazione è maggiore ! ), ma per conseguirlo bisogna porre il problema correttamente e corrispondentemente alle circostanze caso per caso. A ciò risponde, in siffatte questioni di statistica matematica, l'im­ postazione bayesiana ( cfr. capp. XI e XII). -

4 .3 . Per a. < 2 si ha effettivamente una distribuzione poissoniana ge­ neralizzata, con M(x) come funzione di ripartizione per l'intensità dei salti. Anzi, essendo M(x) = K+ . lxi-IO, esiste la densità È piu semplice e chiaro ( salvo per un caso d'eccezione che s'incontrerà

per a. = 1 ) considerare separatamente la distribuzione generata dai salti positivi (e l'altra è simmetrica). Allora abbiamo (prendendo K+ = -1/a. onde avere la densità nella scrittura piu semplice) M { x ) = -( l/a.}x-", M' (x) = x-("+ !> , dM(x) = dx/x"+ ! . ( 27') Qui si presenta la circostanza che obbliga a distinguere i due casi di a. minore o maggiore di 1 ( e vedremo poi quello a. = 1 ), perché nel primo caso si ha convergenza senza usare il termine correttivo iux nella ( 1 3 ), mentre nel secondo esso occorre. La ragione (detta alla buona) è che eiU% -1 - iux è infinitesimo di primo ordine in x per x - O ; moltiplicato per dM(x} = dx/x.. +l dà dx/x", e l'integrale converge o diverge per x- O a seconda che a. < 1 o a. > 1 . Ma non si tratta di una mera questione anali­ tica, bensl di un fatto sostanziale: per a. < 1 ha senso il processo aleatorio poissoniano generalizz ato prodotto soltanto dai salti positivi di distribu­ zione d'intensità M(x) = Kx-a. (e quindi sempre crescente), mentre per a. > 1 ha senso soltanto la somma compensata dei salti. Con riferimento

VIII. Processi aleatori a incrementi indipendenti

4 60

alle figg. 4 e 5 (1) si può dare un'idea di tale comportamento dicendo che (man mano che si aggiungono i moltissimi salti piccolissimi) la somma dei salti (per unità di tempo) diventa infinita, ma anche la retta inclinata da cui si parte diviene infinitamente inclinata verso il basso. Il processo y

5

......

4 ... ...

... ...

...

...

...

...

...

... ... ...

...

...

...

3 .......... ...

2

...

...

....

.... .....

...

... ... ...

...

..... ..... .......... .....

....

....

...

.....

.... .....

..........

.....

....

.... .... .....

.....

....

.....

.....

.....

.....

.....

...

...

....

...

....

...

... ...

...

...

...

... ...

.....

...

..... ...... .... ..... .... ... ... ....

....

o

Figura 4. Processo di Poisson semplice compensato (previsione

-

O).

non può, in tali condizioni, avere un andamento monotono (in nèssun intervallo per quanto breve). ( 1 ) Nella fig. 4 è rappresentato i l processo d i Poisson semplice depurato della sua previsione (cfr. 2.6); nella fig. , si vede cosa avviene in processi composti ottenuti sovrapponendo successiva­ mente al precedente altri processi semplici con salto minore. Pensando di ripetere, dopo i primi tre disegnati, un quarto, quinto, . . . passo, con pendenza indefinitamente crescente della retta della pre­ visione, si può avete un'idea del processo di Poisson genetalizzato con salti solo positivi. Si noti che, pet non rendet confuso il disegno, lo si è fatto come se ogni processo aggiuntivo si annullasse negli istanti dei salti precedenti (il che è del tutto inverosimile ma non falsifica l'impres­ sione visiva: basta avvertire solo che chi si accorgesse di tale accorgimento non ritenga . che esso rispecchi una effettiva proprietà dei processi illustrati).

4 . Distribuzioni stabili e altri casi notevoli

46 I

4 .4 . Nonostante queste diversità di comportamento sia dal punto di vista matematico che sostanziale, nessuna differenza sussiste quanto alla forma della funzione caratteristica. Basta.no semplici considerazioni qua­ y

Figura , . Processo d i Poisson composto con somme successive d i processi semplici compensati.

litative per vedere che devono avere la forma exp(CjuICl) (con C da mu­ tarsi in C*, complesso coniugato, per u negativo). Il calcolo (cfr. per es. P. Lévy ( 1 965 ), p. 1 63) mostra che l'espressione per salti positivi è la seguente (28)

cp(u) = exp{_ eHi-luICl} col segno ± conforme ad u

mentre per salti negativi vanno scambiati i segni + nell'esponente della costante, e per il caso generale basta porre in tale esponente, al posto di ex. o -ex., un valore intermedio, in particolare O nel caso simmetrico. Per ex. = 1 si ha, nel caso simmetrico, la distribuzione di Cauchy, che

VIII. Processi aleatori a incrementi indipendenti

4 62

può pertanto pensarsi generata da un processo poissoniano generalizzato in cui la distribuzione d'intensità dei salti sia M ( x ) = ±1/x , densità M' (x) = 1/x'l. In questo caso, però, la convergenza si assicura soltanto ri­ correndo alla formula ( 1 4 ), perché il termine iux è necessario nell'in­ torno dell'origine ma disturba all'infinito; cOSI facendo, però, si effettua una parziale compensazione dei salti, e ciò introduce una costante addi­ tiva certa e arbitraria che impedisce alla distribuzione di essere stabile (è, secondo Lévy, quasi-stabile : la convoluzione comporta non un solo cambiamento di scala ma anche una traslazione). Nel caso simmetrico si ha la stabilità compensando col medesimo criterio i contributi dei salti dei due segni (oppure facendo implicitamente la compensazione coll'in­ tegrazione tra ±a, poi a -+ oo ) . All'infuori dei casi 11 = 2 (distr. normale) ed 11 = 1 (distr. di Cauchy) le distribuzioni stabili non hanno espressioni semplici per le densità (che pure esistono e sono regolari). Fa eccezione il caso Il = t cui corrisponde, come processo crescente ( salti positivi : x > O ), una

M(x) = _ 2X- I/2 , M' (x) = X- 3/2 , dM(x) = dx/R ,

e la densità

f(x) = KX- 3/2 e I /2 -

".

Per terminare, menzioniamo ancora il caso Il = 3 /2 , che è notevole per una interpretazione data da Holtsmark in relazione a un problema astro­ nomico ( anche per il fatto che è anteriore alla conoscenza del problema da parte dei matematici) ; un'analogia (per un mondo a 4 dimensioni) in­ terpreta il caso 11 = 4/3 . Cfr. Feller, II, pp. 1 70, 2 1 5 . 4 .5 . Altri casi notevoli di processi di tipo poissoniano sono il pro­ cesso gamma (e derivati) e quelli di Bessel e Pascal. La distribuzione gamma (formule ( 5 5 ) e ( 5 6 ) in VI, l l .3) ha

( 3 0) f(x) = Kxt - l e-" (x � O ), K = 1/r( t), ( 3 1 ) cpt ( u ) = l /( l -iu) l ; per t-+ O si ha f ( x )/t -+ e "/x e pertanto il processo gamma, in cui Y(t) ha distribuzione gamma con esponente t, deriva da salti con distribuzione -

d'intensità

4 . Distribuzioni stabili e altri casi notevoli

463

Come interpretazione, va notato il nesso col processo di Poisson : la

F(x), per t = h intero, dà la distribuzione del tempo Th dell'h-esima ripe­ tizione del fenomeno. Ciò risulta anche ragionando sulle Ph(t) ( 2 . 5 ), ma ora balza agli occhi per il fatto che per h = 1 si ha la distribuzione espo­ nenziale (per TI , e per ogni tempo di attesa Th-Th - h indipendenti), e per h intero qualunque si ha la convoluzione, corrispondente alla somma Th degli h tempi di attesa parziali. È interessante notare una possibile interpretazione di questo proces­ so gamma come inverso di quello di Poisson ( semplice). A tale scopo scambiamo le lettere, scrivendo t = T(y) questo processo come inverso dell'altro cui riserviamo le lettere usuali, y = Y ( t). La funzione inversa y = T- l (t) (che non dà, naturalmente, un processo a incrementi indipen­ denti), considerandola però solo nei punti ove y = intero (oppure pren­ dendo Y(t) = parte intera di y = T- l (t») dà proprio il processo di Poisson semplice ( con (1. = 1 ). Osservazione. Un'interpretazione completa si ha pensando ad es. che rappresenti il numero di giri (e frazione) di un punto che si muove a scatti su una circonferenza; la situazione poissoniana usuale è quella di chi può solo osservare i passaggi a un dato traguardo. Non è detto però che la possibilità matematica di pensare questa « spiega­ zione » tramite un « meccanismo nascosto » autorizzi arzigogoli metafisici per asserirne l'« esistenza » (mentre può utilmente far esplorare tale possibilità se per qualche motivo concreto appare plausibile). Vi sono parecchi casi (non esat­ tamente questo, per quanto mi consta) in cui certe interpretazioni di siffatto tipo metafisico ( o, almeno, che tali mi sembrano) vengono accettate o discusse prendendole sul serio. y - T -I ( t)

Piu in generale, cambiando scala e intensità, si ottiene

inoltre si può anche ribaltare la distribuzione sul semiasse negativo :

F(x) invariata ma scrivere Ixl anziché x ed (x < O ), f. caro

Mediante convoluzione possiamo costruire altri processi, corrispon­ denti a somme di processi gamma. Il caso piu notevole è quello che se ne

VIII.

4 64

Processi aleatori a incrementi indipendenti

ottiene per simmetrizzazione (cfr. formule ( 5 7 ) e ( 5 9 ) in VI, 1 1 .3 ), e che, per t = l , dà la distribuzione esponenziale bilatera. Il caso generale si ottiene con prodotti del tipo

q/ (u) = ( 1 - iu{ì..l )1'-1 t ( 1-iu{ì..2 tl . . . ( l-iu/À.n)l'-·t ( ove i segni potranno essere - o +; eventualmente si può dire che i À.h potranno essere positivi o negativi); caso simmetrico se i fattori sono due a due uguali salvo il segno, ossia

cpt( U ) = ( l Hl/À.�t1 t

. • .

( l+u2/À.; )I'-.t.

4 . 6 . Il processo di Bessel si chiama cosi solo perché la densità si esprime mediante una funzione di Bessel, la It ( x) (su x > O ) : (36)

!, (x) = ( e-"/x ) tlt (x), con I, (x ) = };o k k

k1

(�\2k+t;

! r( +t+l ) 2 )

la funzione caratteristica è Merita menzione perché ha il medesimo significato. trovato in prece­ denza per il processo di Poisson semplice, ma riferito invece al processo poissoniano di Testa e Croce (ogni ripetizione del fenomeno poissoniano consiste in un colpo a Testa e Croce che dà un guadagno ±1 ). Usando le stesse notazioni, t = T(y), e, per la funzione inversa, y = T- 1 (t), possiamo dire che i punti ove y = intero corrispondono agli istanti in cui per la pri­ ma volta il guadagno y(t) raggiunge il livello y (oppure che « parte inte­ ra di y T- I (t) » è il massimo in (O, t) di Y ( t), essendo Y(t) un processo poissoniano di Testa e Croce). =

4 . 7 . Diciamo processo di Pascal quello in cui Y (t), in t 1, ha distri­ buzione geometrica, per t intero una distribuzione di Pascal, e quindi per ogni t una distribuzione binomiale negativa (cfr. cap. VII, 4 .4 ). L'os­ servazione già fatta ivi mostra che si tratta di un processo di Poisson com­ posto, con distribuzione dei salti logaritmica (VI, 1 1 .2 ) (valori possibili : tutti gli interi positivi), e intensità IJ. 1 . Si ha un'interpretazione analoga a quella dei due casi precedenti, con =

=

=

5 . Comportamento e comportamento asintotico

465

la variante che qui non si ha una densità bensl masse concentrate (valori interi). Per t = intero, Y(t) è il numero di insuccessi (in un processo ber­ noulliano di probabilità p, se p è la ragione della distribuzione geometri­ ca per t = l ) ottenuti prima del t-esimo successo. In ogni intervallo unita­ rio (da t a Hl ) l'incremento ha quella distribuzione geometrica; qui essa viene pensata come generata da salti con distribuzione logaritmica, in media uno per intervallo. Volendo, un t non intero si potrebbe interpre­ tarlo come « numero dei successi avvenuti piu la frazione maturata del prossimo », e Y(t) sarebbe il numero di insuccessi effettivamente avve­ nuto fino allora. Naturalmente, l'osservazione fatta per il processo gamma ( 4 . 5 ) si applica ugualmente a questi altri due ( 4 .6 e 4 . 7 ). ,.

Comportamento e comportamento asintotico. , . r . Passiamo ora a studiare le probabilità di fatti riguardanti l'an­ damento della funzione Y(t); come accennato già in ( 1 .6 ) sono queste le questioni pio importanti. Potranno riguardare l'andamento, o com­ portamento, di Y(t) nell'intorno di un istante t (proprietà locali), o in un intervallo (tI , t� , o nell'intorno di t = oo (proprietà asintotiche). Ad esempio, si potrà chiedersi se in un dato intervallo Y(t) si annulla (o quante volte), s e rimane superiore a un certo valore Mi o inferiore ad un altro M2 (oppure, anziché a costanti, a funzioni Mi (t) ed Mit»), ecc . ; asintoticamente s i potrà chiedere s e queste od altre circostanze saranno verificate da un certo istante in poi, oppure localmente, se lo saranno nel­ l'intorno di un istante dato. Frasi del genere andranno interpretate con le cautele appropriate, specie volendo evitare l'ammissione dell'additività completa; si avrà cura di esprimerle sempre con riferimento a un numero finito di istanti (che possa rendersi grande a piacere) e non ad una infinità. Un esempio tipico di questioni del genere lo abbiamo già visto (VII, ' .3 ) : la legge forte dei grandi numeri, che ( con riferimento a un pro­ cesso discreto) consisteva nello studio della validità asintotica di una di­ suguaglianza del tipo Cl 5, Y(t)/t s C2 , ossia Ci t 5, Y(tb!� C2 t. Vedremo

4 66

VIII. Processi aleatori a incrementi indipendenti

ora come questo problema, e sue generalizzazioni, ed altri del genere, pos­ sano meglio venir compresi e impostati e studiati ponendosi nell'ambito piu generale dei processi aleatori. Nei casi piu semplici e maggiormente studiati serve poi proprio il riferimento ai processi di cui ora ci occupia­ mo, a incrementi indipendenti ed omogenei, o addirittura al processo di Wiener-Lévy ( sotto le condizioni in cui vale come approssimazione asin­ totica). Interessante e istruttivo è vedere e apprendere come la simbiosi delle due forme di presentazione e impostazione giova a mostrare connessioni concettuali altrimenti difficili a scoprire e a far usare volta a volta gli schemi e gli strumenti piu adatti. In modo particolare, nel seguito del capitolo in cui ci limiteremo necessariamente ai casi piu semplici, vedre­ mo come lo studio del processo di Testa e Croce ( sviluppato direttamen­ te con metodo combinatorio) e quello del processo di Wiener-Lévy (che si può portare aventi con svariate impostazioni) si integrino a vicenda consentendo volta per volta di appoggiarsi al piu idoneo o di abbinarli. 5 . 2 . Ci soffermeremo ora su due gruppi di questioni, collegate tra loro, e ciascuno dei quali riunirà in forma unitaria problemi diversi e su­ scettibili di svariate interpretazioni e applicazioni sia pratiche che teo­ riche. Nel primo gruppo avremo problemi che si traducono nell'uscita della linea y = Y(t) da una certa regione (striscia CI � y � C2 oppure CI (t) � y � C2 ( t), una delle limitazioni potendo cadere: Cl = -00 oppu­ re C2 = +00), ossia nell'attraversamento di una certa barriera. In questo tipo di problemi interessa in genere se tale uscita avviene, e quando per la prima volta, come se allora il processo si arrestasse: si ha, come si dice, una barriera assorbente. È in genere utile tuttavia ragionare come se il processo continuasse. Un' analisi di questo genere servirà a precisare la legge forte dei grandi numeri esaminando quale rapidità di convergenza sia da attendersi (il senso andrà precisato! ). Dal punto di vista applicativo si avranno mol­ teplici interpretazioni : rovina di un giocatore (o di un'azienda assicu­ rativa, ecc. ), termine di un processo sequenziale di decisione per raggiun­ gimento di sufficiente informazione, o di una passeggiata a caso - ad es.

5 . Comportamento e comportamento asintotico

46 7

moto di una particella - per l'arrivo ad una barriera assorbente, e via dicendo. Nel secondo gruppo avremo problemi che presentano un carattere ricorrente, dipendendo dal ripetersi di certe situazioni (ritorno al punto di partenza, raggiungimento di certi traguardi, ecc. ) j il processo risulterà suddiviso in segmenti, e potrà interessare studiarne la lunghezza ed altre caratteristiche. Si mettono in luce cOSI ulteriori aspetti, che possono por­ tar luce in tutti i problemi dei tipi menzionati. In ciascun caso interesserà anzitutto considerare il processo di Testa e Croce e quello di Wiener-Lévy, con estensione ai processi asintotica­ mente normali; talvolta si farà cenno di altri casi (processo bernoulliano con P ;>Io ! ; processi stabili con a. < 2 ; processo di Poisson), piu che altro per avere l'opportunità di presentare eventuali osservazioni significative ( spiegazioni di comportamenti difformi, segnalazioni di fatti inattesi, ecc.). 5 . 3 . Sarà istruttivo tener presente che i primi tre casi che prende­ remo in considerazione - il confronto di IY(t)1 con y = C, y = Ct, y = C....rt (C > O ) - sono tre assaggi per giungere poi alla determinazione del preve­ dibile ordine di crescenza di Y(t), anche se ci soffermeremo ogni volta su eventuali interpretazioni applicative con sviluppi collaterali da esse richiesti. Ciò vale soprattutto per il primo caso, del confronto con una costan­ te, che risponde al problema della rovina di giocatori nell'ipotesi piu semplice, di capitale costante ( cioè : senza aumenti o diminuzioni tranne che per effetto del gioco). Affrontiamo il complesso di questioni che si pongono al riguardo cominciando dalle piu semplici. Cominciamo con l'osservare che la probabilità per Y(t) di essere com­ preso tra ±C ( anche considerata per un solo t) tende a zero almeno come K/Vi ( come K/Vi con K = 2C/(v'21r.(J') se Y(t) ha varianza finita fil per unità di tempo; piu che come K/W qualunque sia K se il processo ha va­ rianza infinita). Per (J' = 1 , e in forma numerica (cfr. VI, 6.3 ), K = O,8 C (e, per semplicità di scrittura, ci riferiremo abitualmente a questo ca­ so: limitazione 0,8 C/w, con � se varianza finita prendendo (J' = l , con < se (J' = co). Lo stesso vale per ogni intervallo (a-C, a+C) di lunghezza

2 C.

4 68

VIII. Processi aleatori a incrementi indipendenti Infatti: Nel caso di Testa e Croce la probabilità massima è Un = 0,8/Vn ; fra ±C esistono 2C interi (con eventuale scarto di ± l ( . » ; per t - n ecc. Nel caso nor­ male (Wiener-Lévy) la densità massima è l/[v'21t O'(t}), O' ( t ) -..[i . Nel caso gene­ rale, con 0' < 00 (e prendiamo 0' = 1 ), asintoticamente si ha questo stesso processo. Se 0' - 00 la limitazione corrispondente a un a finito qualunque è a maggior ragione soddisfatta definitivamente. Sia a > ° qualunque, purché P ( IXhl < a) = = p > 0, e separiamo gli incrementi Xh = Y ( h ) Y ( h l ) a seconda che siano, in valore assoluto, < a o > a; Y ( n ) - :I Xh contiene circa np addendi < a (distribu­ zione troncata, con a < a, finito) la cui somma è già praticamente normale con densità < l/[v'21t O'-..[i) ; aggiungendo la somma degli altri termini la circostanza sussiste a maggior ragione (teorema dell'aumento della dispersione, cfr. VI, 9 .8 ). =

-

-

Piu che il risultato quantitativo importa ora soprattutto la conclusione qualitativa: comunque grande si fissi C, la probabilità che IY( t)1 ( o !Yn l ) superi C differisce da 1 per meno di un qualunque assegnato e > O pur di prendere t ( n ) sufficientemente grande (e precisamente da circa t = n = (2/1t)C/e2 in poi). A maggior ragione, tende ad 1 (piu rapidamente) la probabilita che si abbia (!y(>r)1 > C( o Yh > C) per almeno un -.; 5. t od h '5. n = t). In termini di « rovina dei giocatori», tende ad 1 la probabilità che in un gioco (for­ mato di partite uguali e indipendenti) fra due giocatori aventi capitale iniziale finito termini, prolungandone la durata, con la rovina di uno dei due. Equivalentemente, è nulla la probabilità che il gioco possa prolun­ garsi indefinitamente. 5 ·4 · Riflessione (contro le interpretazioni superstiziose della « legge dei gran­ di numeri »). Non soltanto è vero che gli scarti assoluti, ossia i guadagni e perdite (all'opposto di quelli relativi, ossia guadagni medi per colpo), hanno tendenza non a compensarsi benst a crescere indefinitamente in previsione quadratica, ma addirittura « è praticamente certo che per n grande saranno grandi» (il che, senza queste considerazioni, non era finora accertato). Attenzione però a non esagerare rendendolo falso e superstizioso neppure il senso della presente affermazione. Essa è valida per ogni singolo istante t (o numero di colpi n) non per molti simultaneamente. Non si esclude infatti (e vedremo anzi che è ancora praticamente certo) che si ripetano di quando in quando ( sia pure sempre piu raramente ma senza mai aver termine) i ritorni al­ l'equilibrio (e quindi tratti in cui IY(t)1 < C). ( I ) Naturalmente, affinché tale scarto sia irrilevante, occorre che C sia grande rispetto ad l ; in generale, nel caso di distribuzioni reticolari o prossime ad esse, occorre che C sia abbastanza grande per diluire in «densitb le masse concentrate.

6 . Probabilità di rovina e previsione di durata

46 9

6.

Probabilità di rovina e previsione di durata. 6 . 1 . Useremo le notazioni Ph e qn, probabilità di rovina all'h­ esimo colpo o risp. entro l'n-esimo (qn = P I +P2 + . . . +Pn, Ph = qh-qh -I ) ; nel caso di due giocatori, l ° e 2 ° , indicheremo con p;' e p�, risp. q;' e q�, quelle di rovina di l ° o 2 ° (Ph = P;' + p'h, qn = q�+r/�), e con c' e c" i loro capitali iniziali. Le notazioni si riferiscono al processo discreto ( anzitutto Testa e Croce), ma le conclusioni in genere valgono anche nel caso con­ tinuo con t al posto di n (ciò sarà abitualmente sottinteso, salvo sottoli­ nearne la validità o non validità quando possano sorgere dubbi). Con q' e q" (o q'.. e q:= ) indicheremo le probabilità di rovina in un tempo infinito, intese come limiti per n -+ oo ; nelle ipotesi di ( 5 .3 ) è q�+r/:-+ l e quindi q' +q" = l . La probabilità di rovina, in un gioco equo, discende subito dalla con­ dizione di equità : si equilibrano le previsioni di guadagno dei due gio­ catori, q' c" = q" c', da cui q' = K/c', q" = K/c", (K = c' c"/(c' +c"» ossia le probabilità di rovina sono inversamente proporzionali ai capitali. Piu esplicitamente:

q' = c"/(c' +c"), q" =c'/(é +c"). Osservazioni. Per gioco equo, a questi effetti, si potrebbe intendere anche un processo non omogeneo od anche a incrementi non indipendenti purché a pre­ visione nulla subordinatamente a qualsiasi andamento passato ( tali processi si dicono martingale) ; si pensi ad es. al gioco di Testa e Croce con puntate fatte dipendere in modo qualunque dai risultati precedenti. In tali ipotesi è sempre equo ogni modo di partecipare al gioco (decidendo di sospenderlo a capriccio o al verificarsi di una qualsiasi circostanza quale la rovina, od anche di interrom­ perlo, di alterare le poste, ecc.). La relazione q' c" q" c' è esatta se la rovina comporta solo la perdita del capitale iniziale senza lasciare possibili residui insoluti; altrimenti occorrerebbe tenerne conto in aggiunta. Se, ad es., i salti in sfavore di IO o 2 ° non possono superare 1:1' e 1:1", c' va sostituito con un certo c' + a' 1:1' ( 0 :s a' :s 1 ) (e cosi c"); l'errore è trascurabile se lo sono i probabili residui rispetto al capitale. Le conclusioni valgono quindi esattamente per il processo di Wiener-Lévy -

VIII. Processi aleatori a incrementi indipendenti

47 0

(Y( t), variando con continuità, non può oltrepassare c' o c" saltandoli) e di Testa e Croce, anche in versione poissoniana, se c' e c" sono interi (con salti ± 1 , impossibile saltarli). '

È chiaro - specie scrivendo, in altra forma, q = l - l/[l +(c"/c' )] - che

la probabilità di rovina di I O tende ad 1 se il competitore dispone di un capitale sempre maggiore rispetto al suo. Giocando contro un compe­ titore con capitale infinito la probabilità di rovinarsi è quindi q' = 1 (e a tale situazione si espone chi gioca contro il pubblico, che non può rovi­ narsi). È questo il teorema della rovina dei giocatori (per giochi equi). Il caso di giochi non equi s i riconduce al precedente con u n artificio che ri­ sale a De Moivre. In luogo del processo Y(t) consideriamo Z (t} = exp[À. Y(t)] ; s e s i sceglie À. tale che l a previsione d i Z ( t ) sia costante (= 1 ), i l processo Z ( t ) è equo, e l a rovina (partendo d a Z ( O ) = 1 corrispondente a d Y ( O ) = O ) s i h a scen­ dendo di è' 1 -exp (-À. c') o salendo di c" - exp ( À. c") - l . Le probabilità di ro­ vina sono pertanto inversamente proporzionali a c' e c" . Resta a dire come si determina À.: si noti che exp[À.Y( t)] = q>' (-iÀ.); sull'asse immaginario la q> (se esiste; cfr. VI, 10. 4 ) è reale e concava, e assume il valore 1 (oltre che nell'origi­ ne) in un sol punto u = - iÀ. con À. positivo se il gioco è sfavorevole (P[Y( t)] < O). Esempio. Testa e Croce distorto (cioè: con p "" !), sempre guadagni ± l . � exp [À. Y ( l )] pe'+pe-' - l , ossia (posto x = e') px'- x+( 1 -p) = O per x = 1 e x p/p ; x = e' = 1 darebbe À. - O (insignificante), quindi prendiamo e' = pfp, e-k' = (pfpt"', e'"'' (pfp),,', da cui: =

-

=

=

( pfp t" - 1 q

"=

(p/p t" - (pfp te' .

Se si gioca contro un avversario infinitamente ricco, il passaggio al limite per c" -+ 00 fornisce due risultati diversi a seconda che il gioco è favorevole, (pfp) < 1, o sfavorevole, (p/p) > 1 ; nell'ultimo caso q' = 1 (ossia, come era ovvio a fortiori, la rovina è praticamente certa come nel caso equo) ; se invece il gioco è favorevole la probabilità di rovina è q' = (pfp Y' ed l - q' = l - (pfp t è la pro­ babilità che il gioco abbia a durare indefinitamente.

6.2 . Anche la previsione P(T) della durata T del gioco fino alla ro­ vina si determina elementarmente per il gioco di Testa e Croce (anche distorto), e si trasporta al processo di Wiener-Lévy. Anziché la sola P(T) (al partire da Y ( O ) = O) conviene determinare la previsione della durata futura per ogni possibile valore iniziale y (-c' � y � c") valendosi di un ragionamento per ricorrenza; la indi-

6 . Probabilità di rovina e previsione di durata

47 I

cheremo Py (T). Ovviamente Py (T) = O negli estremi ( y = -c', y = c" ) per­ ché ivi la rovina è già raggiunta; per y fra tali estremi abbiamo invece la relazione Py (T) = l+t[Py - l (T)+Py + 1 (T)] (perché un primo colpo è sem­ pre possibile, e la previsione della durata ulteriore si ottiene pensando che essa partirà con probabilità t e t da y±l ). L'andamento è parabolico (differenza seconda costante! ), con zeri negli estremi, e precisamente è

(40)

Py (T) = -(y+c' ) (y-c"), quindi P(T) = Po( t) = c' c".

Al crescere di c", P(T) tende ad 00 quale che sia c' > O : ne segue che P(T) = oo nel gioco contro un avversario infinitamente ricco; benché la rovina sia praticamente certa (q' = l ), la durata prevista è infinita. Anche per c' e c" finiti, la durata prevista, benché finita, è molto piu lunga di quaIito presumibilmente a prima vista tutti penseremmo. Ad es. : durata pre­ vista è colpi nel caso simmetrico ( c' - c" = c) : 100 colpi iniziando con lO e lO lire, 40 000 iniziando con 200 e 200, 25 milioni iniziando con 5000 e 5000 ; du­ rata prevista c nel caso piu asimmetrico ( c' - 1, c" - c) : 1000 colpi iniziando con 1 lira contro 1000, un milione iniziando con una lira contro un milione. È tuttavia da notare, in questo caso asimmetrico, che chi comincia con una lira ha sempre la stessa ed alta probabilità di rovinarsi subito ( per es. 75 % di rovinarsi entro lO colpi, 92 % entro 100; in generale l - u. = 1 -0,8/vn) quale che sia il capitale iniziale dell'avversario, infinito o finito, purché sufficiente ad escluderne la rovina entro pochi colpi (negli esempi: almeno lO lire, almeno 100). Ma an­ che l'avversario ha una probabilità, sia pur piccola, di rovinarsi (circa l/c: un millesimo se c - 1000), e perché ciò avvenga occorrerà che chi parte da una lira raggiunga senza prima rovinarsi la situazione di parità (circa 500 contro 500), dopodiché occorreranno in previsione 5002 - 250 000 colpi per la rovina, con probabilità uguali, dell'uno o dell'altro. C'è quindi una probabilità di 2 mille­ simi di giungere alla parità, ma in questo caso la durata ulteriore è quasi certa­ mente molto lunga. Come sempre: riflettiamo che previsione non è predizione.

Per il processo di Wiener-Lévy, pensandolo come caso limite di Testa e Croce, si vede subito che la conclusione sussiste invariata. Basta notare che il cambiamento di scala ( l/N per le puntate, l/N per gli intervalli tra i colpi) lascia invariato il tempo: capitali Nc' ed Nc", durata N2 c' c" in unità l/N. Piu in generale, si può dire che la conclusione vale, approssi­ mativamente, per tutti i processi a varianza finita ( (J" = l per unità di tem­ po; altrimenti P(T)=c' c"/�), purché c' e c" siano abbastanza grandi da render poco probabile la rovina dopo pochi salti grandi.

47 2

VIII. Processi aleatori a incrementi indipendenti Nel caso di giochi non equi si può applicare il medesimo ragionamento ma il risultato è diverso. Per Testa e Croce distorto (con p .. ! ) la relazione

Py( T) - 1 + ( 1 -p ) PY-l (T)+ PPY + l (T) si riconduce all'equazione caratteristica py'-y+( l -p) - O con radici 1 e ( l -p)/p che dà A+B(fi/p)Y come soluzione dell'eq. omog.; una soluzione particolare della completa è y/( 1 - 2p) (o y/{P-p)); tenuto conto di P, (T) - O per y - - c' ed y - c" risulta l _ ( pfp)'+c' Py (T) - -- (y+c') - {c' +c" ) . 1 -2p l - {pfp)·· + ··

1 [

]

Per l'estensione al caso di Wiener-Lévy ( e, approssimativamente nel senso detto, a quelli che asintoticamente vi si approssimano) basta osservare che nel caso studiato è m - 2 p - 1 , rr - l - m', da cui p - ! +!m/Ym2+rr. Dati 111 e (1 per un processo di Wiener-Lévy (o generale) basta calcolare p nel modo indicato. Giocando contro un avversario infinitamente ricco (c" - 00 ) è P (T) - 00 se il gioco è vantaggioso (p > 1) dato che, con probabilità non nulla, può durare inde­ finitamente. Se è svantaggioso (p < ! ) resta solo il IO termine:

P(T) - c'/{ 1 -2p).

6 .3 . Le probabilità di rovina entro un termine determinato ( entro un tempo t o un numero di colpi n = t) dànno al problema la risposta piu dettagliata. Consideriamo per ora il caso di limitazione unilaterale (c' = c, c" = 00) e cominciamo col gioco di Testa e Croce cercando come si possa determinare la probabilità qn di rovina entro n colpi, ossia la probabilità di avere Yh = -c per almeno un h � n. L a risposta è data dal celebre ed elegante ragionamento di Desiré An­ dré, che, per Testa e Croce, si esprime aritmeticamente contando come segue quante delle 2 n traiettorie ( tra O ed n ) raggiungono il livello y = -c: anzitutto, vi sono tutte quelle che al termine sono al di l à di tale livello : Y{ n ) < -c; quelle con Y{n» -c sono altrettante, dato che ciascuna si ottiene in uno e un sol modo da una dalle precedenti ribaltandone (ri­ spetto alla retta y = -c ) il tratto dall'istante t = k del primo raggiungi­ mento del livello y = -c fino al termine, ossia col ribaltamento Y*(t) = -c-(Y{t)+c) (in k � t � n);

e infine vi sono ( solo s e n-c è pari) traiettorie con Y{n ) = -c. I n termini di probabilità (numero di traiettorie / 2" ), le prime dànno ovviamente

6. Probabilità di rovina e previsione di durata

473

P(Y,, < -c), le seconde ( grazie alla simmetria segnalata da Desiré André) altrettanto, le ultime P(Y,, = -c); pertanto (è forse comoda la scrittura equivalente con c anziché -c) (43 )

q,, = 2P(Y,, > c)+P(Y" = c) = P ( IY" I > c)+-! P( IY" I = c).

Il c�ncetto informatore è chiaramente illustrato nella figura, dove si vede co­ me una traiettoria che, dopo raggiunto il livello y -c, finisce per trovarsi in t - n al di sopra, corrisponda per simmetria ad altra che termina sotto (ed anzi, se la prima termina in - c+d, la seconda termina in - c-d: s'interpreti anche ciò). Sostanzialmente, si può anche dire che il ribaltamento consiste nello scam=

y

..,

l ' A'

• • • •

2e

• •

l\ I ,..... '.l

,,'"", I.

I



I

e ��--------�---'-*�------------r---

Figura 6. Ragionamento di Desiré André nel caso di una barriera. Le traiettorie che, dopo toccato il livello c, ne sono al di sotto alla fine dell'intervallo che interessa (punto A) corrispondono biunivocamente per simmetria a quelle che terminano in A' ( simmetrico rispetto alla barriera y - c). Di qui (in un processo simmetrico) l'ugual pro­ babilità di terminare in A' o terminare in A dopo toccato il livello c, ed anche, di terminare a un livello > c, oppure ad un livello inferiore ma avendo toccato il livello c. Il punto 2c sull'asse y è indicato in quanto « sorgente fredda » nel metodo di Lord Kelvin ( 6.7).

VIII. Processi aleatori a incrementi indipendenti

474

biare il significato di Testa con Croce (dall'istante della rovina in poi), con arti­ ficio già utilizzato (es. (D) in VII, 2 . 2) . Menzioniamo poi un altro principio analogo a quello di Desiré André, intro­ dotto da Feller ( I , p. 7 0) col nome di principio di dualità (che preferiamo sosti­ tuire con principio di rovesciamento perché l'altro suggerisce accostamenti in­ sussistenti). Consiste nel rovesciare il verso del tempo, ossia l'ordine degli eventi E, . . . E. in E E" ponendo El E.- I + ; il guadagno rovesciato sarà I • ...



Y* ( h ) = Y ( n ) - Y ( n - h ) ;

la traiettoria viene rovesciata (ossia: ruotata d i 1 80° ) intorno al punto centrale (in, iY ( n ) .

Il ragionamento e il risultato hanno validità molto piu generale. Si utilizza infatti solo la simmetria per la distribuzione degli incrementi (Y(to+t)-Y(to) ha ugual probabilità di essere > a o < -a, in particolare � O) e il fatto che il livello y = - c sia un passaggio obbligato (non si possa oltrepassarlo « saltandolo»). Ciò vale per Testa e Croce se c = intero (I) e per il processo di Wiener-Lévy (dato che è continuo) per c qualunque. Per altri casi si potrà avere validità approssimata o asintotica, come per ( 6 . 1 , Oss. ), se i salti nella direzione in cui scavalcare il livello fissato sono piccoli, o almeno quelli grandi siano abbastanza rari (basti questo cenno, senza complicarlo con precisazioni fuori luogo). Usiamo anche descrizioni e notazioni piu generali e idonee per espri­ mere problemi e risultati. Indichiamo con v Yn (come abbreviazione per Yt v Y2 V V Yn ( 2 ) nel tempo discreto, e con v Y( t) nel teinpo continuo, il massimo di Y{-t-) in 0 < "t :S: t ( 3 ), ed analogamente con A Yn e A Y(t) il minimo; I A Y (t)1 = -A Y ( t) = V (-Y(t») è il minimo preso in valore asso­ luto, e lo diremo lminimol . Con tali notazioni le qn (o, piu compiutamente, qn(C)) della (43 ) de• • •

( I ) Dànno passaggi obbligati: o tutti i c (o positivi, o negativi, o entrambi) se Y (t) varia solo con continuità (nel crescere, nel decrescere, in ambo i sensi); o tutti i multipli di un k (o positivi, o ne­ gativi, o entrambi) se i salti positivi sono - k e quelli negativi multipli di k (o viceversa, o sono tut­ ti - ±k); o nessuno (altrimenti). ( 2 ) L'omissione di Y. è irrilevante salvo in quanto serve a distinguere due casi che altrimenti da­ rebbero entrambi vY. - O ( tutti Y. s O); con la convenzione adottata si ha invece vY. - - 1 se Y. è - l ed i successivi tutti s- l (o in generale, fuori dell'es. di Testa e Croce, vY. può essere un valore negativo qualsiasi ). (3) È detto O < "I: per coerenza col caso discreto (benché la distinzione perda significato nel conti­ nuo); importante invece è sottolineare che "I: - t va incluso, ed anzi precisando che per Y (t) si deve intendere Y ( t + O ) (tenendo conto, cioè, dell'eventuale salto esattamente in I).

6 . Probabilità di rovina e previsione di durata

475

terminano la distribuzione di probabilità di v Yn ( e di I A Yn l : è la stessa per simmetria) :

qn{C) = P{ A Yn S -C) = P{ v Yn � C); per differenza si ottengono le probabilità

P{ I A Ynl = c) = P{ v Yn = C) = qn(c)-qn(c- l ) = = P{Yn = c}+P{Yn = c+l )

(43')

( dei due addendi ne resta sempre uno solo : il l ° o il 2 ° a seconda che n e c hanno somma pari o dispari); in definitiva, è

w�n ) = { = ) 2 - n con 2h-n = c oppure = c +1 . Importa notare in particolare i casi A Y" = O e A Yn = - 1 . Essi non rientrano nel caso generale (basato sull'ipotesi c > O ), ma vi si ricon­ ducono facilmente. Per c = 1 si ha P{ v Y,, < l ) = u n (cioè P{Yn = O ) o tP{ IYnl = l ) a seconda che n è pari o dispari), e i due casi v Yn = O e vYn = -l sono ugualmente probabili se n è pari (e poco diversi se è di­ spari). Esattamente, P{ v Yn = -l ) = tun -l (primo passo -1 , poi non sa­ lire di +1 ), e, per differenza, P{ v Yn = O ) = Un-!Un - l (un = Un- l se n è pari, altrimenti Un -l = Un n/{ n-l }). A parole (per n pari ) : Un è anche la proba­ bilità che Yh in O < t S n si conservi nonnegativo (e analogamente per nonpositivo ) Notiamo anche il significato (interessante) della (43') : C'è la stessa probabilità di toccare y = c (c > O ) come livello massimo per t S n e di toccare lo stesso livello c (o c+l , a seconda di pari o dispari) in t = n ( non, in genere, come livello massimo); detto diversamente : La probabilità 2w�n ) che IYnl assuma il valore c = 2h-n (h > n/2 ) si divide a metà per v Yn : metà resta iIi c e metà in c-l . Se tale spostamen­ to parziale di un'unità è trascurabile per un dato problema (e comunque asintoticamente) si può dire che le distribuzioni del valore assoluto, IY n l , del massimo, vYn, e del lminimol , IA Y" I , sono uguali. Come è evidente, il massimo e il I minimo I sono funzioni mai decrescenti, e possiamo quindi definirne l'inversa. Indichiamo con T(y) ( y � O ) l'inversa di v Y{t) e con T{ -y) l'inversa di v ( -Y{t» (esse hanno la stessa distribuzione di proba­ bilità anche come processi; tuttavia T(y) per y � O non va inteso come .

VIII.

47 6

Processi aleatori a incrementi indipendenti

unico processo per -00 < y < +00 bensl come notazione unificata per due processi simmetrici ma distinti) : T(y) = minimo dei t per cui è

v Y(t) � y(y > O), oppure v ( -Y(t») � -y(y < O ) cosicché

(T(y) � t) = (v Y( t) � y) (y > O ) v ( v ( -Y(t » � -y) (y < O ). Per ogni y, T(y) è il numero aleatorio che esprime l'istante (o, equiva­

lentemente, il tempo d'attesa) fino alla rovina, o al primo passaggio al livello ( o punto) y, o all'assorbimento di una particella da parte di un'e­ ventuale barriera assorbente in y, ecc. ecc. Con queste nozioni e notazioni possiamo indicare in modo espressivo le probabilità di rovina (o di assorbimento, ecc.) quali ricavate nella (43 ) dal ragionamento di Desiré André : ( 44 ) P(v Y(t) � y) = P ( A Y(t) � -y) = P (T(y) � t) = P(T(-y) � t) =

= 2P(Y( t ) > c)+P(Y(t) = c) = P(!Y(t)!> c)+tP(!Y(t)! = c).

Ometteremo il termine relativo a Y(t) = c, necessario solo per formu­ le esatte nel caso di Testa e Croce, ma nullo o trascurabile per formule generali (esatte per il processo di Wiener-Lévy, asintotiche per Testa e Croce ed altri casi). Dette F (y) ed f'(y) la f. di riparto e ( se esiste) la den­ sità di Y(t) (I), la f. di riparto e la densità di !Y(t)! , e quindi (esattamente o approssimativamente) di v Y(t) e di v (-Y(t»), sono

(45 )

2Pt (y)_1 (in O � y < oo), 2f'(y) (in O � y < oo).

6 . 4 . Ponendo, nella ( 44 ) o (45 ), le espressioni esatte per Testa e Croce si avrebbe q,, = ( t ),,-I :Ih ( � ) [O � h < ! (n-c)]+( -!-)" « ,, -:)/2 ) ( se n-c = pari). ( 46 ) Pili interessante è l'espressione approssimata data dalla distribuzione normale, che sarà esatta per il processo di Wiener-Lévy e varrà asintoti(I) Ciò varrebbe anche per processi non a incrementi indipendenti e omogenei (con le condizio­ ni dette per il ragionamento di Desiré André) dove le notazioni F' ed " sono meno giustificate; in effetti però non ci occuperemo di casi del genere.

6. Probabilità di rovina e previsione di durata

47 7

camente per il caso di Testa e Croce ed ogni altro a varianza finita ( e sup­ porremo sempre unitaria per unità di tempo). Avremo (y > O )

(47 )

qy (t) = Pt (y) = P(v Y(t) � y) = P(T(y) � t) = r = 2P (Y(t) � y) = V2f7r. e""- i"2 dx (I )

Jy�Vi

Come si vede, la (47 ), interpretandola come funzione di y (con t p�­ rametro), o, viceversa, come funzione di t (con y parametro), fornisce la funzione di ripartizione di IY( t)1 e v Y(t» e quella di T(y) e T( -y). Ab­ biamo introdotto la doppia notazione con q e p perché serve spesso di poter sottintendere l'uno o l'altro parametro, e con essa designeremo P(v Y(t ) � y) in ogni caso ( anche Testa e Croce, ecc. ). La distribuzione del massimo (o Iminimo! ) v Y( t) (o " Y(t»), e di IY(t)I, è evidentemente la distribuzione metà-normale (distribuzione normale limitata al semiasse positivo) di densità

f ( x) = Kri e- i,,2It (x � O ), K = V2f7r. 0,8.

(48 )

So

S i tratta della metà della distribuzione normale con ifz O e az t; per essa è m = � a (2) e (1 - V1-2/1t rt; numericamente, m = 0,8a e (1 = 0,6rt. (non si confonda! ). -

-

La distribuzione di T (y) (o T (-y») risulta invece di densità

f ( t) = Kyr 3/2 e - iy2It ( t � O ), K = 1/v'21r. 0,4 .

(49 )

So

S i tratta della distribuzione stabile d i esponente caratteristico ex. - i (accen­ nata in 4 . 4 ), cioè con salti x la cui densità d'intensità è x - V 2 • Essa (essendo ex. < 1 ) ha previsione infinita (conformemente a quanto stabilito direttamente in 6.2). Si sarebbe potuto concludere direttamente anche il fatto che T ( y ) deve se­ guire la distribuzione stabile con ex. - ! per il fatto che T(YI +Y2) = T ( y ,) +[T( y ' +Y2 ) -T ( y , )] - T(YI ) +T(Y2 ). Il tempo per raggiungere il livello yl + y2 è infatti quello occorrente per raggiun­ gere y l pi6 quello per proseguire fino ad y l + y2 ; ma, dato che per la continuità del processo di Wiener-Lévy il livello yl in T(YI ) viene raggiunto e non scavaI-

( I ) Per y grande (rispetto a Vi) si può utilizzare la approssimazione della ( 20) (cap. VII , ' .4) che darebbe :

(47')

(2)

q, (t) _ p, (y) = K (v'i/y) e-,'/2', m

_

a

K - V2Tic = o,8

(2/V'Ei) S;x exp (-!xZ) dx, S - l , come è facile stabilire e calcolare.

VIII .

47 8

Processi aleatori a incrementi indipendenti

cato con un salto, si tratta di salire di y2 nelle stesse condizioni che all'inizio. Inoltre, per ragioni di omogeneità, la distribuzione non poteva che dipendere da ilt (e la densità rispetto a t risultare pertanto, come è, una funzione di ilt di­ visa per t).

Ritorneremo sulle espressioni esatte relative al caso di Testa e Croce (in 7.9 ), dopo incontrato un argomento (problemi di scrutini; 7 . 1 sgg. ) che vi conduce in modo semplice e significativo. Nel caso di due giocatori ( capitali iniziali c' e c"; e poniamo c' +c" = c*) si può applicare ancora il ragionamento di Desiré André, ma, naturalmente, in modo piu complicato. Se indichiamo con A e B un pas­ saggio per il livello c' e c", una traiettoria i cui successivi passaggi siano ABABAB . . . (primo A, poi B ed A non importa quante volte e non im­ porta se in fine v'è un A o un B ; successivi passaggi per il medesimo li­ vello non si contano : ad es. ABBAAABAABB = ABABAB ) comporta la rovina di l°, e COSI per 2° se la sigla inizia per B. Il ragionamento di De­ siré André (quale applicato nel caso unilaterale) non permette diretta­ mente di contare le traiettorie {A} che significano rovina di l°, {B} che significano rovina di 2°, {O} che significano non rovina ( sempre tra le 2 n dell'intervallo (O, n) ). Però permette di contare quelle del « tipo (A)>>, « tipo (B)>>, « tipo (AB)>>, « tipo (BA) >>, « tipo (ABA)>>, ecc. intendendo quelle che contengono nella sigla il gruppo di lettere indicato, preceduto e seguito eventualmente da non importa quante lettere. Tutto si riconduce allora al caso precedente, di un solo giocatore, ossia alla Pt ( Y ) = p( Y ) = P[ v Yn � Y] 6 .5 .

La probabilità delle traiettorie di « tipo (A) >> è infatti p(c'), di quel­ le di « tipo (AB ) >> è p(é +c* ) (perché raggiungere -c' e quindi c" im­ plica un cammino a zig-zag lungo c' + (c' +c"); ciò significa ribaltare la traiettoria rispetto ad Y = -c' da quando lo raggiunge fino a quando rag­ giunge Y = é') , e COSI per « tipo (ABA ) >> è p(c' +2c*), ecc. ; analogamente, per i « tipi » (B ), (BA), (BAB), ... p(c"), p(c"+c*), p(c"+2c*), . . . ; e con ciò si arriva alla conclusione. Le traiettorie {A} sono infatti

(A)-(BA)+(ABA) -(BABA)+(ABABA)- . . .

6. Probabilità di rovina e previsione di durata

A 1°

B 2°

A 3°

479

B 4°

Figura 7. Ragionamento di Desiré André nel caso di due barriere. Le barriere sono le rette che delimitano la striscia bianca contenente l'origine O; le altre strisce ne sono le immagini dritte (bianche) e rovesciate (retinate) con le rispettive sorgenti calde (nere) e fredde (bianche) (secondo il metodo di Lord Kelvin, 6.7 ). La traiettoria effettiva è indicata con tratto nero pieno; sono indicati i suoi quattro succes­ sivi attraversamenti di A ( l°), B (?), A ( 3°) e B (4°) (attraversamenti ripetuti consecutivi di A o di B non contano). L'immagine definitiva della traiettoria (data da applicazione ripetuta del ribaltamento di Desiré André) è indicata con tratteggiata marcata; è data dalla traiettoria stessa fino ad A ( l°), poi dal ribaltamento ( I ) di essa rispetto al livello l°, poi, dopo B (2°), dal ribalta­ mento ( I I ) della ( I ) rispetto al livello 2°, e cosi di seguito. I proseguimenti delle traiettorie ribaltate ( dopo il tratto in cui costituiscono l'immagine definitiva) sono indicate con linea tratteggiata. Le traiettode immagini che raggiungono il livello 1°, 2°, 3°, ecc. corrispondono alle traietto­ rie del tipo A, AB, ABA, ecc . ( istante per istante); lo stesso in senso inverso ( livelli 1°, 2., 3°, ecc. nel semipiano negativo) per le traiettorie del tipo B, BA, BAB, ecc.

4 80

VIII .

Processi aleatori a incrementi indipendenti

(cioè : quelle che raggiungono -c', escludendo però quelle che prima rag­ giungono c", ma cOSI abbiamo escluso anche quelle che prima ancora raggiungono -c', e cOSI di seguito). Idem per {B}; le {O} sono le residue ( né {A} né {B}). Pertanto, le probabilità di rovina entro n colpi sono, per l ° , (50) q: = p ( c' )- p ( c" + c* )+p(c' +2c*)-p(c" +3c*)+ ... , ovvero (mediante c" ) ( 5 0' ) p (c* -c")-p(c* +c")+ p( 3c* -c")-p ( 3c* +c") + ... I termini sono in numero finito perché p(y) = O quando y > n . Le probabilità q; ( di rovina per 2 ° ) sono espresse evidentemente dalle stesse formule salvo scambiare c' e c". In particolare, nel caso simmetrico, c' = c" = c, è (5 1 ) q: = q; = p(c)- p ( 3c)+p(5c)-p( 7c) + ... 6. 6 . Per i l processo di Wiener-Lévy ( e, asintoticamente, per Testa e Croce e per i processi asintoticamente normali) limitiamoci, per mera semplicità di scrittura e brevità di esposizione, al caso simmetrico, che ci fornisce la distribuzione di v IY(t)I, massimo del valore assoluto di Y in (O, tl : la rovina di uno dei due giocatori entro il tempo t significa infatti che Y raggiunge ivi ±t, ossia che IYI raggiunge t. Nel caso di Testa e Croce è

(52)

P ( vIY(t) 1 � y) = q:+q� = 2 };h(-1 )h p[(2h+l )y]

( termini in realtà in numero finito: cfr. sopra); nel caso di Wiener-Lévy

p(y) è dato dalla (47 ) in ( 6 .4 ) e quindi -

P ( v I Y(t)l � y) = 2� };h (-1 )h S� +l )y/Vi e - I,,2 dx. h Derivando rispetto ad y abbiamo la densità ( 54 ) f(y) = K };h( _ 1 )h (2h+l ) e -W 2h + 1 )YJ2/t = = K( e - y2/2t _ e -C 3y )2/2t +e - CSy )2/2t _ e -C 7y )2/2 t + . . . ), K = 2V2/1tt. (53 )

o

o

6.7. È istruttivo e suggestivo l'accostamento delle presenti consi­ derazioni, basate sul ragionamento di Desiré André, a quelle - sostan-

6 . Probabilità di rovina e previsione di durata

48 1

zialmente identiche - del metodo delle immagini di Lord Kelvin che si applicano ai problemi di diffusione. Si è già visto (cap. VII, 6 .5 ) come il processo di Testa e Croce si possa euristicamente avvicinare a un proces­ so di diffusione, e come l'analogia si tramuti in identità con quel passag­ gio al limite che trasforma il processo di Testa e Croce nel processo di Wiener-Lévy. Per impostare secondo tale metodo il problema della rovina di un giocatore (che avviene quando sia raggiunto il livello y = c), basta trovare la soluzione dell'equazione di diffusione (la ( 3 2 ) di VII, 6 .5) in y 5. c ( supponiamo c > O ), sempre con la condizione iniziale di concentrazione nell'origine, e con la condizione di annullarsi su y = c. Per ovvie ragioni di simmetria (l'equivalente fisico di quelle di Desiré André) basta collo­ care inizialmente nel punto y = 2c una massa uguale e contraria a quella nell'origine ( O ), il principio di ri­ flessione (Désiré André) - mostra subito che le traiettorie che toccano tale barriera (per O � t � N ' attraversandola o no) sono (�) come quelle che finiscono nel punto di ordinata (2H-N)+2c(= 2 (H+c)-N), simmetrico y

Figura 8. Ragionamento di Desiré André: problema dello scrutinio (ossia : distribuzione ipergeo­ metrica). Le traiettorie da O ad A con primo passo discendente corrispondono biunivocamente (per simmetria del tratto fino al primo raggiungimento dell'asse t) a quelle con primo passo ascendente che però toccano l'asse t.

del punto finale dato rispetto alla barriera: si ottengono infatti da esse (biunivocamente) ribaltando rispetto alla barriera il tratto dal primo rag­ giungimento ( sia per t = h : Yh = YN+C) in poi. La probabilità Se di raggiungere (ed eventualmente oltrepassare) il li­ vello y = YN+C (oppure y = -c) è quindi (61 )

(N-H) (N-H-I) ( N- H- 2 ) . . . (N-H-c+ I ) (H+ I ) (H+ 2 ) (H+3) . . . (H+e)

4 86

VIII.

Processi aleatori a incrementi indipendenti

La forma esplicita è particolarmente comoda per c piccolo (notare, ad es., che per c = l è SI = (N-H)/(H+l )) , e istruttiva perché mostra come i suc­ cessivi rapporti (N-H-c+l )/(H+c) indichino la probabilità di raggiun­ gere il livello indicato (YN+C) qualora si sappia che viene raggiunto quel­ lo immediatamente inferiore (YN+c-l ); la probabilità opposta è

( 2H-N+2c-l )/(H+c), e quindi basta sostituire nella formula che dà Se l'ultimo fattore

(N-H-c+l ) con ( 2H-N+2c-l ) per ottenere la probabilità re - I che il massimo livello raggiunto sia YN+c-l ( oppure il minimo sia -(c-l ); del resto è lo stesso che fare la differenza re - I = Se_ I -S.), Si noti che Sc = O per c � N-H+l (perché ? ). (C) Caso di due barriere. Nel caso di due barriere, ai livelli y = -c' ed y = YN+C" (c' e c" positivi), operando successive riflessioni come nel caso precedente si ottengono le traiettorie che finiscono nei punti-imma­ gine del punto finale dato (YN = 2H-N) rispetto alle due barriere (pen­ sate come specchi paralleli: le immagini sono infinite, ma solo quelle di ordinata tra ±N sono raggiungibili) : posto c* = YN+C' +c" (distanza tra le barriere, come in 5 .9 ), le ordinate delle immagini sono

(2k+l ) c*-c'±c". (Si noti : per k = O abbiamo c* -c' -c" = YN = 2H-N, punto dato, e c*-c' +c" = YN + 2c" = 2 (H+c" )-N, immagine unica di quando avevamo la sola barriera y = YN+C"; allora anziché c" scrivevamo c). Perciò la probabilità di raggiungere, per prima, la barriera inferiore è ( ragionamento come in 5 .9 ) : ( 62 )

q� = ( l /( Z )) [( H�c' )-( H�C*)+( H+;+C' ) -( H�C* ) + . . .];

analogamente per q� (con c" al posto di c'); la somma qN = q�+q� dà la probabilità di raggiungimento di una barriera ( non importa quale, o qua­ le per prima), ed l -qN quella di non-raggiungimento.

7 . Problemi di scrutinio; Zeri, Lacci

48 7

7 . 2 . Per studiare un processo aleatorio è spesso istruttivo conside­ rarlo suddiviso nei successivi lacci, COSI chiamando le parti in cui esso conserva il medesimo segno, ossia, nel nostro caso ( I) , le parti separate da successivi zeri, Yt = O, e necessariamente di lunghezza pari (perché Yt può annullarsi solo per t pari). Avremo lacci positivi e negativi ( traietto­ ria nel semipiano positivo o negativo, ossia Yt > O o < O, con precisazione cfr. VII, 3 . 2 , p. 3 6 5 , nota I )j tra due lacci la traiettoria ha uno zero in cui tocca l'asse t o l 'attraversa a seconda che i due lacci hanno segni ugua­ li od opposti. Pensando ai guadagni, all'eccedenza di successi, lo zero è un ritorno all'equilibrio (parità tra successi e insuccessi, guadagno nullo), e il laccio è un periodo di stretta permanenza in vantaggio per il giocatore (o per l'antagonista) mentre ( omettendo « stretta») diremo permanenza in van­ taggio quella che ammette anche zeri (ossia riunione di piu lacci consecu­ tivi del medesimo segno). E può anche interessare sapere quanto tempo, su una certa durata t = N , è stato in vantaggio l'uno o l'altro giocatore. Pensando alla passeggiata aleatoria, lo zero è un ritorno all'origine, il laccio la parte di passeggiata fra due ritorni. Le considerazioni e i risultati che abbiamo visti ci conducono di­ rettamente ad entrare in quest'ordine di considerazioni, naturalmente con riferimento al caso particolare di Testa e Croce oppure a quello di scrutinio ( che vi si riconduce, pensando noto YN = 2H N ) -

.

7.3 . Problema dello scrutinio nel caso di parità: YN = O ossia voti favorevoli e sfavorevoli H = N - H = N/2 ,. qual è la probabilità che uno dei due candidati sia rimasto sempre in vantaggio? Ciò vuoI dire (nel nuovo linguaggio) che si sia avuto un solo laccio, ossia nessuno zero (se poi ci si riferisce a uno assegnato dei due candidati, il laccio dovrà essere di dato segno, e la probabilità sarà metà). Ci si riconduce con estrema facilità al caso (A) visto in ( 7 . I } j per colui che è in testa al penultimo istante è necessariamente YN -l = 1 (poi( I) Di processo con salti ± 1 , cioè con traiettoria sul solito reticolo e (conveniamo sempre) con inizio nell'origine: Y. - O; in caso diverso si potrebbe avere cambiamento di segno senza passaggio per lo zero (e, nel tempo continuo, per un processo Y (t) discontinuo, potremmo avere anche intero valli in cui nell'intorno di ogni punto la Y (t) assume valori sia positivi che negativi).

VIII. Processi aleatori a incrementi indipendenti

4 88

ché con l'ultimo colpo si sa che il vantaggio cade a YN = O ), e in tale con­ dizione la probabilità cercata, di non-annullamento, è

YN-J(N-l } =I/(N-I ). Questa è la probabilità che uno (non importa quale) dei due candidati rimanga sempre strettamente in vantaggio; che lo sia uno prestabilito è 1 /2 ( N -I ) .

Qual è la probabilità che, nel processo di Testa e Croce (o, piu in generale, in un qualunque processo bernoulliano) il primo zero (ri­ torno all'equilibrio, passaggio per l'origine) si verifichi all'istante t = n (naturalmente, n pari) ? Perché ciò avvenga occorre anzitutto che ri­ sulti Yn = O ; ciò posto, il problema è quello in ( 7 . 3 ), e pertanto la pro­ babilità che, se si ha uno zero, sia il primo, vale l/(n-l ). La probabilità di avere in t = n il primo zero è quindi P(Yn = O )/(n-I ). In altri termini, è questa la probabilità che il primo laccio ( e quindi uno qualunque, dato ·che il processo ricomincia uguale dopo ogni zero) abbia lunghezza = n. (A) Nel çaso di Testa e Croce è P ( Yn = 0 ) = un, e quindi la probabi­ lità di primo zero in t = n è uJ( n - 1 ) � ( 0,8/Vn)/n = 0,8 n - 3/2 • La probabi­ lità che il laccio abbia lunghezza n e sia di un dato segno (in favore di un dato giocatore) è la metà. Esattamente, è (posto n = 2m ) 7 ·4 ·

Un

U

Un

n = e;;: )/2 2m ( 2 m- I ), ed è anche = -2 Un-2 - Un ; n-l n n- I si verifica subito infatti che Un = un_ 2 (n- 1 )/n poiché : 4 (n-l) ( ) = (2m)! = 2m (2m-I) (2m-2) ! = 4 (n-l) ( 2m -2 ) 2 n -2 un . 2 n = 2m m- l m = -n- Un-2 • mImI m . m . (m - I ) ! (m- I ) ! n Con ciò rimangono dimostrate alcune conclusioni importanti : a) Un è anche la probabilità di nessuno zero fino a t = n incluso (vero per u2 = 1 /2, e quindi per induzione essendo Un-2- Un la probabilità del primo zero in t = n ) ( 1 ) ,

( I) Pertanto è un/2 la probabilità che Y, (O < t :s; n ) sia sempre positiva (oppure: sempre nega­ tiva). Volendo invece soltanto che: (a' ) sia nonnegativa (oppure: non positiva) la probabilità si raddoppia, ossia vale ancora Un (co­

me visto in 6.3, casi particolari della (43')

per c - O e c - -1).

7.

Problemi di scrutinio; Zeri, Lacci

489

a') [proprietà analoga già vista (cfr. nota precedente)], b) quindi, poiché un -+ O, tende ad I la probabilità che (prolungando il processo) si abbia almeno un ritorno all' equilibrio ( e quindi anche due, tre, un numero k qualunque), c) la forma un -Jn dice che l/n è la probabilità che il laccio termini (divenendo Y" = O ) in t = n supposto non sia terminato prima (essendo un _ 2 la probabilità che Yt 7" O per t = 1 , 2 . . . , n-2 e necessariamente lo è anche per t = n-l = dispari), d ) da ciò si può ricavare per Un l'espressione

ossia : Un + 2 =

u,, ( l n+2l _) (Un nn+2+ l) __

=

(come prodotto delle probabilità opposte; analogia demografica : proba­ bilità di sopravvivere all'età n come prodotto delle probabilità di non morire a ciascuna età precedente ), e) altra espressione significativa per U,,: Un = !.k !!!:.. U" _ k

k- l

( somma estesa ai k pari � n ) ;

si noti come ogni addendo esprima infatti la probabilità che il primo zero sia in t = k e successivamente se ne abbia un altro in t = n (cioè : dopo un tempo n-k); per k = n (ultimo addendo) si deve intendere 110 = 1 , e quindi un/{n-l ), termine che portato al primo membro dà esplicitamente Un = ({n-l )/(n-2 »)!.' {!.' = stessa somma senza il termine in k = n); - altre proprietà e significati di Un e d u,./{n-l ) s i vedranno i n seguito. (B) Nel caso generale (bernoulliano, ma con p "" 1/2 ) è invece la probabilità di primo zero in t = n è pertanto

[u"/{n-l )] ( 2 VPfi )" < un/{n-l ), (n pari) e la somma di tali probabilità è quindi < 1 .

VIII. Processi aleatori a incrementi indipendenti

49 0

Non ci soffermiamo ora su questo caso; era opportuno menzionarlo per constatare, in tal modo, che la proprietà ( b ) sussiste soltanto nel caso di Testa e Croce ( se cioè esattamente p = 1/2 ). Altrimenti non è affatto asintoticamente certo che abbia luogo un ritorno all'equilibrio ( e meno che mai che ciò si ripeta un numero comunque grande di volte), bensl al contrario è asintoticamente certo che il giocatore favorito (p > 1/2 ) man­ tenga indefinitamente il vantaggio da un certo istante in poi. Osservazione. Abbiamo introdotto la locuzione « asintoticamente certo » per dire che un certo fatto ( ad es., nel caso in oggetto, il verificarsi di un ritorno all'equilibrio, o quello di k ritorni all'equilibrio) ha proba­ bilità tendente ad 1 di verificarsi, in un processo aleatorio, quando la sua durata si faccia crescere indefinitamente ( cioè, se PN è la probabilità che esso si verifìchi entro il tempo t = N, ciò significa che PN"-+ l per N-+oo). Si noti che, se un fatto è asintoticamente certo, è anche asintotica­ mente certo il suo verificarsi k volte (k qualunque) quando (come nel nostro caso) ogni volta che esso si verifica ci si ritrova nelle stesse condi­ zioni iniziali ( I ) ; senza questa condizione ( sottaciuta ivi per brevità come ovvia) la conclusione ( « e quindi . . . ») del punto (b) non sarebbe necessa­ riamente vera. Si noti inoltre che « asintoticamente certo» non significa affatto « cer­ to» (logicamente) per durata infinita ( sia pur supponendo ipoteticamen­ te di poter esaminare il processo come totalmente acquisito, ponendosi al di là della fine del tempo); piu ancora si badi come, per il fatto che sia asintoticamente certo il verificarsi di esso k volte (con k comunque gran­ de) non si possa dire che, per durata infinita, il suo verificarsi infinite vol­ te sia certo ( necessario), e neppure che abbia probabilità = 1 , e neppure che sia probabile o anche solo possibile : si può soltanto dire che tale nu­ mero di ripetizioni N ( ammesso abbia senso parlarne) è un numero alea­ torio (intero 0 +00) che ha probabilità = O di assumere ogni singolo valore finito e quindi di appartenere ad ogni assegnato sottoinsieme finito di in­ teri come quelli inferiori ad un dato intero k arbitrariamente prefissato; tuttavia potrebbe essere anche certamente finito, come un « intero scelto a caso» (cfr. cap. IV, 1 8 .3 ). (I )

Si tratta cioè di eventi formanti una successione ricorrente (cfr. 7 . 1 ) .

7.

Problemi di scrutinio; Zeri, Lacci

49 I

7 .5 . Qual è la previsione della lunghezza L di un laccio, ossia della durata t = L fino al primo zero? Nel caso di Testa e Croce si vede subito che P(L) è infinita: infatti n ( un Jn ) = Un-2, il contributo alla previsione per L = n, tende a zero appena come n- I /2 e la somma diverge. Nel caso p � 1/2 ciò non avviene pili ( grazie al fattore in progressione geometrica di ragione 2 vpp < 1 ) : i lacci (finiti ) hanno lunghezza, in pre­ _

visione, finita. Essa diviene però, naturalmente, infinita (ma, se si di­ stinguono i due giocatori, soltanto in favore di quello favorito : il l° se P > 1/2 ) se si tien conto del fatto che ogni laccio può essere quello finale, di lunghezza infinita ( I ) . Osservazione. Il risultato che c'interessa ( caso di Testa e Croce) conviene esprimerlo nella forma seguente, anche per trame occasione per un'osservazione di carattere generale. Ogni laccio si compone, in previ­ sione, di 1/2 laccio di lunghezza 2, di 1/8 di laccio di lunghezza 4, . . . , della frazione un/( n-l ) di laccio di lunghezza n, . . . ; in previsione di lunghezza si compone invece per una lunghezza 2/2 = 1 di lacci di lunghezza 2 , per una lunghezza 4/8 = 1/2 di lacci di lunghezza 4, . . . , per una lunghezza n ( un_Jn) di lacci di lunghezza n, . . . ; in particolare, si noti che, in un laccio, la pre­ visione di lacci lunghi è trascurabile (cioè : la previsione di lacci > n è minore di un E > O comunque prefissato pur di prendere n sufficientemen­ te grande), mentre all'opposto, nella previsione della lunghezza ( che è in­ finita) è trascurabile la previsione di lunghezza di lacci corti, cioè inferiori ad un n assegnato comunque grande (che è finita). È indifferente dire la stessa cosa moltiplicando per 1 000 ( o un milione, ecc. ) : « su 1 000 lacci, in previsione 500 hanno lunghezza 2 e la loro lunghezza complessiva vale, in previsione, 1 000 », e cOSI via; per solito si dice « in media » : vedremo inconvenienti (in 8 .4 ).

7 . 6 . Nel problema dello scrutinio b� caso di parità, qual è la proba­ bilità che uno dei due candidati sia rimasto sempre in vantaggio o in pa­ rità? È la stessa questione di ( 7 .3 ), salvo che si pretende un po ' meno :

nel corso dello scrutinio si ammette che il vantaggio possa anche toccare

( I ) Sembra inopportuno complicare qui tali espressioni per renderle conformi a preoccupazioni critiche analoghe a quelle accennate nella precedente .. Osservazione.. (ad (B) .

49 2

VIII.

Processi aleatori a incrementi indipendenti

lo zero; basta non diventi negativo, ossia non tocchi il livello y = -l . Co­ me ivi si deve supporre YN - I = 1 ; siamo allora nel caso (B) di ( 7 . 1 ) e ap­ plichiamo la Se per c = 1 già esplicitamente indicata se = (N-H)/(H+1 ) nella quale dobbiamo porre N- l al posto di N ed N/2 al posto di H (es­ sendoYN_I = 2H-(N-1 }= 1); si trova quindi (N- 2 )/(N+2 ) = 1 -4/(N+ 2 ) per la probabilità che il livello y = -l venga raggiunto e 4/(N+ 2 ) per la probabilità cercata. Riferendosi ad uno prestabilito dei due candidati, la probabilità che il fatto si verifichi a suo favore è la metà, ossia 2/(N+2 ). Poiché la probabilità di vantaggio sempre positivo (caso (A) in 7 . 1 ) vale 1/2 (N - 1 ), per differenza si ha la probabilità che il vantaggio sia sem­ pre nonnegativo ma talvolta nullo, che è la precedente moltiplicata per 3 (N- 2 )/(N+2 ); in altra forma, supposto che il vantaggio sia sempre nonnegativo, la pro­ babilità che sia sempre positivo è (N+ 2 )/4 (N-1 ) e quella che si annulli è 3 (N-2 )/4 (N-1 ) ( ossia, per N grande, praticamente 1/4 e 3/4 ) . Osservazione. Abbiamo visto che l a probabilità che u n dato candi­ dato sia stato in vantaggio (anche non strettamente) sempre o mai (ossia in N o in O passi : traiettoria tutta nel semipiano positivo o in quello ne­ gativo) vale 2/(N+ 2 ) . I valori possibili per il numero di passi in vantaggio ( di tratti nel semipiano positivo) sono O, 2 , 4, . . . , N -2 , N, e quindi in nu­ mero di (N+2 )/2 ; le loro probabilità, in media, devono quindi valere 2/(N+ 2 ). Ma tale è la probabilità nei due casi estremi veduti, e inoltre per ovvia simmetria le probabilità per h ed N-h sono uguali : ne segue che o sono tutte uguali, o dovrebbero avere un andamento inesplicabil­ mente sinuoso (con almeno tre fra massimi e minimi). Effettivamente sono uguali, ossia abbiamo} per le permanenze in vantaggio} una distri­ buzione uniforme discreta; la dimostrazione è un po' meno semplice del­ l'enunciazione, e sarà omessa (I) per non appesantire e interrompere il di­ scorso, tanto piu che le considerazioni precedenti rendono di già alta­ mente plausibile la conclusione. ( I ) Diciamo solo che discende dalla (64) in (7.4e), e che i ragionamenti sono analoghi a quelli commentati in (7.IO) (per la distribuzione arcoseno).

7.

Problemi di scrutinio; Zeri, Lacci

493

7 . 7 . Qual è la probabilità che, nel processo di Testa e Croce (o, pia in generale, in un qualunque processo bernoulliano) il primo attraver­ samento di y = O (cioè il primo zero in cui la traiettoria non si limiti a toccare l'asse y = O) si verifichi all'istante t = n (naturalmente, n pari) ? In altri termini, si chiede la probabilità che sia n la durata del periodo iniziale in cui si ha permanenza in vantaggio di un medesimo giocatore,

ossia la somma delle lunghezze dei lacci iniziali consecutivi aventi il me­ desimo segno del primo. Perché ciò avvenga, occorre anzitutto che risulti Yn = O e che per t < n non si siano avuti attraversamenti, ed infine occorre che il primo colpo dopo t = n (cioè l'( n+1 }-esimo) abbia segno opposto a quello del colpo iniziale ( e quindi dei lacci già ottenuti). La probabilità cercata è pertanto P ( Yn = 0 ) . [4/( n + 2 )] . 2pjj, essendo 4/(n+2 ) la proba­ bilità di non-attraversamento determinata in 7.6 e 2pjj la probabilità che il I O e l'( n+1 )-esimo colpo abbiano risultati opposti. Nel caso di Testa e Croce, p = jj = 1/2 , ci si riduce a 2uj(n+2 ) ( uj(n+2) se si specifica quale dei due deve avere inizialmente il vantaggio). Nel caso generale (p � 1/2 ) le probabilità ( per ogni n finito) sono minori, ma si ha la residua proba­ bilità di permanenza in vantaggio indefinitamente (soltanto a favore del giocatore favorito, come per i lacci). Salvo per tale osservazione a scopo di raffronto, ci limiteremo al caso di Testa e Croce. Confrontando i risultati raggiunti per la lunghezza L di un laccio e quella, diciamola V, di una permanenza in vantaggio,

P(L = n ) =

U n - in ,

P(V = n ) = 2uj(n+2 ),

balza agli occhi che è

P(V = n } = 2 P ( L = n + 2 ),

e quindi P(V � n ) = 2 P ( L � n + 2 ) = un + 2 .

È istruttivo esaminare cosa ciò significhi, da un lato per i primi valori

(piccoli : permanenze corte), e dall'altro asintoticamente (per valori gran­ di : permanenze lunghe). In corrispondenza ai 6 8 10 primi valori possibili (pari) : n == 2 4 1/2 3/8 5/1 6 35/128 63/256 abbiamo Un 1/2 1/8 1/16 5/128 7/256 e quindi P(L = n ) = un/(n-1 ) P (V = n ) = 2 un/( n + 2 ) = 1/4 1/8 5/64 7/128 2 1/5 1 2 e =

VIII .

494

Processi aleatori a incrementi indipendenti

I valori dell'ultima riga (come sapevamo per l'osservazione precedente) sono quelli della penultima raddoppiati e spostati verso sinistra (cade il primo, che è 1/2 ; raddoppiando gli altri, di somma = 1/2, si riottiene in totale probabilità = 1 ). Il confronto diretto mostra che per n = 2 è mag­ giore la probabilità per L (come è ovvio : perché sia V = 2 occorre che sia L = 2 la lunghezza del laccio e che inoltre il laccio successivo sia di segno opposto), per n = 4 esse sono uguali, poi sono maggiori quelle per la V: ( 1/16 = 4/64 < 5/64 ; 5/128 < 7/128; 7/256 = 1 4/5 1 2 < 2 1/5 1 2 ; ); bastava del resto ( a tal fine) indicare direttamente che il rapporto 2 ( n 1 )/( n+2) vale 2 - 6/(n+2). Per valori grandi tale rapporto vale ( asintoticamente) 2, e comunque P(V � n) a 2P(L � n ) a 2(O,8/Vn ) = O,8/VnT4 ; ciò si può esprimere di­ cendo che, in un certo senso, le lunghe permanenze in vantaggio sono quattro volte piu lunghe dei lunghi lacci ( precisamente: nel senso che V ha la stessa probabilità di raggiungere una (grande) lunghezza n, che L di raggiungere quella n/4 ). . . .

-

Nel problema dello scrutinio in caso di parità, qual è la distri­ buzione di probabilità del massimo vantaggio raggiunto, nel corso di es­ so, da uno dei candidati oppure in valore assoluto? E quale diviene su­ bordinatamente all'ipotesi che un dato candidato sia stato sempre in van­ taggio, o sempre strettamente in vantaggio? Evidentemente, a parte 7.8.

l'interpretazione concernente lo scrutinio, si tratta della questione ben piu generale della distribuzione di probabilità per v YN , o per vlYN I , per Testa e Croce o processo bernoulliano qualunque, supposto YN = O ed e­ ventualmente in piu Yt � O, o addirittura Yt > O, per O < t < N; l'ulti­ ma ipotesi è la piu restrittiva, e significa cercare la distribuzione di pro­ babilità per il massimo in un laccio, in quella intermedia può trattarsi di un tratto formato da uno o piu lacci del medesimo segno, mentre nel ca­ so generale si considera un tratto formato da uno o piu lacci qualun­ que; solo in quest 'ultimo caso il problema per v YN è distinto da quello per vIYNI . Non si tratta che di varianti dei problemi (A) e ( B ) in ( 7 . x ); consi­ deriamole separatamente.

7.

Problemi di scrutinio; Zeri, Lacci

495

a) Sola ipotesi, YN = O ; distribuzione del massimo di Yt : per ( B ) ( 7 . 1 ), con H = N/2 , risulta so = l e , per e � l , N (N-2 ) (N-4 ) . . . (N - 2 e + 2 ) (66) Se = P( vYN � e) = -----(N+ 2 ) (N+4)(N+ 6 ) ... ( N + 2 e) (Se = O per e � (N + 2 )/2), 4e + 2 ( 67 ) re = P( vYN = e) = Se-Se +l = Se N+ 2e+ 2 (in particolare, ro = 2/( N + 2 ) , come noto). Applicando la variante ( 30 ) della formula di Stirling (VII, 6 . 4 ) si può scrivere approssimativamen­ te ( per c grande ma 2elN piccolo, ossia N molto piu grande ancora) Se Et. e- 2c2/N , re Et. ( 4e/N ) e- 2c2/N . b ) Ancora sola ipotesi YN = O ; distribuzione del massimo di IYt l : ragionando come in (C) ( 7 . 1 ) ma tenuto conto della simmetria (N = 2H ossia YN = O ; c' = e" = e(e* = 2e» si trova che la probabilità Se di raggiun­ gere o superare ±e ( ivi indicata con qN = q�+q�, qui q�= q�) è ( 68 )

Se = (2/( 2Jf » [( H�C > - ( H�2c ) + ( H�C>- ( Ha:4c) + ···]

ossia, piu semplicemente, mediante le Se del caso precedente a), ( 6 8' ) Se = Se-S3e+SSc-S7e+ ... ,

ed analogamente re = re-r3c+rSc-r7e+ . ..

Asintoticamente, si ha pertanto dalla precedente

.

N N Se = 2 !k (- 1 )k + 1 e-2k2c2/ , re = ( 8 e/N ) !k ( - 1 )k + l ke - 2k2c2/ . l 1 c) All'ipotesi YN = O aggiungiamo quella che Yt non abbia cambiato segno per O S t s N, e, per fissare le idee, supponiamo sia nonnega­ tivo. È indifferente parlare del massimo di IYt l o di Yt ( o, nell'ipotesi op­ posta, di -Yt ). Dobbiamo ancora ragionare come in (C) ( 7 . 1 ), ma con c'= 1 , e" = e, per trovare la probabilità che rimanga sempre -l < Yt < e; divi­ dendola per 2/(N+ 2 ) (probabilità che sia O s Yt ossia - 1 < Yt ) si avrà la probabilità che v Yt < c subordinatamente a detta ipotesi, che è la l -se di questo caso. Pertanto, indicando ancora con Se la probabilità cOSI indi­ cata nel caso a), è ( 6 8")

ecc.

49 6

VIII. Processi aleatori a incrementi indipendenti

d) Analogo; ci si può riportare al caso precedente prendendo co­ me base l'asse y = l sull'intervallo da t = l a t = N-I ( YI = YN - I = l ); per N grande la differenza è minima. 7 · 9 · Questioni analoghe per un segmento qualunque del processo di Testa e Croce ( cioè, per un segmento O s t s n, senza supporre per Yn

che sia O, come negli esempi precedenti). Potrà comporsi di nessuno o uno o pi6. lacci completi, con in fine, in genere, un laccio incompleto. In­ dichiamo succintamente questioni e risultati, per attirare l'attenzione su varie circostanze ed aspetti che meritano riflessioni . a) Per la permanenza in vantaggio (cfr. ( 7 . 6 ) e Oss .), sappiamo (da ( 6 .3 » che è Un la probabilità che Y/ sia sempre nonnegativa ( in O s t s n ) , ossia che la permanenza in vantaggio sussista per n passi su n ( e lo stesso ovviamente per O su n ). Supponendo n pari, il numero di passi in vantag­ gio può essere O, 2 , 4, . . . , n-2, n ; abbiamo cioè ( n + 2 )/2 valori possibili, in media con probabilità 2/(n+2 ). Ma i casi estremi hanno probabilità Un > 2/(n+2 ) ( 'I, ed è quindi presumibile, per lo stesso ragionamento che in ( 7 .6 , Oss . ) ci portò a pensare che in quel caso ( segmento di lacci com­ pleti) le probabilità fossero uguali, che nel caso generale la probabilità sia minima per una divisione della permanenza in vantaggio in parti circa uguali, e sempre maggiore per divisioni pi6. squilibrate. Ciò è plausibile anche per un'altra considerazione: sappiamo già che per il segmento fino all'ultimo zero le probabilità sono uguali per tutte le suddivisioni, e dal­ l'ultimo zero in poi il vantaggio è tutto in un senso. Sta comunque di fat­ to che ciò è vero, ed anzi è precisamente Ph = Uh Un-h ( h ed n pari) la pro­ babilità di h passi in vantaggio su n : la dimostrazione è meno immediata di quanto la semplicità della formula lasci sperare e sarà omessa ( 2 1 , limi­ tandoci alla discussione dell'andamento. Rammentando che Uh + 2/�h = ( h+l )/( h + 2 ) risulta che il rapporto

Ph +Jph = ( h+ l ) (n-h}/(h + 2 ) (n-h-l ) è di l a seconda che lo è h+l rispetto ad n/2 ; prendendo l'espressione asinto­ tica di Un si ricava Ph = Uh Un - h = (2/7t ) Vh ( n-h). Al limite, si può dire che (' l Essendo la massima tra le n +l probabilità w l /(n +l ); ma lo è ben di piu, e sempre piu per n grande: asintoticamente u. " (2/(n+2» . 0,4 Vii . ( 2 1 Cfr. cenni in (7. IO).

7.

Problemi di scrutinio; Zeri, Lacci

497

la frazione di tempo in cui, nel corso di un lungo periodo di gioco, un giocatore rimane in vantaggio, è un numero aleatorio X avente distribu­ zione di probabilità con densità f(x) = l/( 1tvx( l - x ) : è questa l a distri­ buzione di probabilità detta « dell'arcoseno » perché la funzione di ripar­ tizione F (x) = S f ( x ) dx è ( 2/1t ) arc sin vx o, meglio, ( 1/1t ) arccos ( 2x-l ). Ne riparleremo piu volte. b ) Per la distribuzione di probabilità di Y Hl sappiamo che è quella bernoulliana (o binomiale, Ph = w�n ) , h = O , 1 , . . . , n ) se si sa soltanto che Yo = O ( ed analogamente dati dei valori tra cui l'ultimo Yk = y con k < n : n allora Py+ h = w� - k» . È quella ipergeometrica conoscendo oltre Yo anche un YN (N ) n ) ( ed analogamente conoscendo comunque due valori, uno prima e uno dopo, Y , . e Y, ,, , t' < n < t" ) . I n generale, s i può dire che essa s i modifica sempre comunque s i alteri lo stato d'informazione. In particolare, se oltre a conoscere il valore ini­ ziale Yo = O ( ed eventualmente altro valore successivo, o due valori qua­ lunque uno prima e uno dopo) sappiamo che Y, si è conservato sempre nonnegativo ( O .:s;; t < n ) ( oppure in tutto O .:s;; t .:s;; N, in generale t' '5, t So t" nel caso di conoscenza di punti ai due lati, oppure anche in questo caso solo per t' So t < n o solo per n < t So t" o in qualsiasi altro modo, ed even­ tualmente anziché nonnegativo si potrebbe dire positivo, oppure nega­ tivo, o superiore o inferiore a un dato livello, o compreso tra due, ecc . ecc. ), abbiamo altrettanti risultati differenti, come è ovvio, ma nondime­ no istruttivo da rilevare e far riflettere.

c ) La probabilità che il livello y = c sia raggiunto in t = n per la prima volta ( Yn = c, " Yn - I < c, c > O ; simmetricamente se c < O), ed anche (per il principio di rovesciamento il problema non cambia) la probabilità che sia Yn = c senza che in precedenza si siano avuti degli zeri (ossia : tutti gli Y" 0 < t < n del medesimo segno di c = Yn), è data da P(Yn = c) moltipli­ cata per c/n, dove c/n è la probabilità che, noto il valore c di Y, in t = n, tale livello c sia stato raggiunto ivi per la prima volta, ed anche quella che non sia piu stato toccato il livello di partenza (y = O ) ossia che Y, sia sem­ pre stata positiva (o negativa) insieme con c. Indicando con H l'una o l'altra delle due ipotesi dette, sappiamo che P(H) = Un_ I/2 ( 6 .3 ) e che P (HIYn = c) = c/n (problema dello scrutinio ; caso ( A) in 7 . 1 ) ; la probabilità cercata (che si può anche ottenere di-

49 8

VIII .

Processi aleatori a incrementi indipendenti

rettamente come probabilità di rovina esattamente all'n-esimo colpo,

Pn (c) = Q,, (c)- q"-l ( C ), dr. 6 . 1 , 6 .3) ha quindi il valore asserito ( 70 )

P[( Y,. = c ) . HJ = (c/n) P( Y,, = c) = (c/n)w�) (c = 2h-n , c > O ) .

La distribuzione di probabilità di Y" subordinatamente all'ipotesi H ( o l'una o l'altra) è quindi proporzionale a cw�), e precisamente

( 7 1 ) P( Y,, = c IH) = P[( Y,, = c) . HJ/P(H) = (2/nu,,_1)cW�) (c = 2h-n > 0 ). A parole: le probabilità dei valori c positivi per Y" si alterano proporzio­ nalmente a c ( quelle per i c � o vanno ovviamente a O ), e K è il fattore di normalizzazione, di cui si è anche incidentalmente trovata l'espressione). Lo stesso risultato ( e dimostrazione) vale per l'ipotesi rovesciata : proba­ bilità che Y,, = c sapendo che Y" è maggiore di tutti i valori precedente­ mente raggiunti ( per O = t < n, tutti gli Yt sono < Y,,; naturalmente, senza escludere in questo caso che possano essere anche negativi). Asintotica­ mente : distr. del tipo f(x } = Kxe-%2/2 (x � O ). d) Limitiamoci a un caso particolare con conoscenza di un valore pri­ ma e uno dopo, Yo = O ed YN = O, e con la condizione Yt > O entro detto intervallo ; la distribuzione di Y" (per un n interno, O < n < N) si ottiene in modo analogo osservando che la probabilità che si abbia Y" = c (c = 2h-n > O ) e sussistano le condizioni dette è (posto N = 2H)

(prodotto di P ( Y" = c) caso ipergeometrico, per probabilità di non annul­ lamento nel passare da O a c nei primi n passi e nei successivi N n); ma essa è anche il prodotto della Ph cercata per la probabilità dell'ipotesi che in t = N si abbia il primo zero e precedentemente il segno sia positivo, probabilità che è u,,/2 ; pertanto -

(73 )

Ph = (2/u"n ( N -n) (�»)cf(�) ( "�h ) = K . cf . w�")

( ove abbiamo sopralineato w per notare che si tratta di quello del pro­ cesso ipergeometrico, anziché, come sopra, di quello bernoulliano) . Si rileverà, comunque, la significativa analogia ( ciascuna condizione di po­ sitività, a sinistra e a destra, comporta un'alterazione proporzionale a c). Asintoticamente : distribuzione del tipo f(x } = KxZ e-%2/2 (x > O}.

7.

Problemi di scrutinio ; Zeri, Lacci

499

7. I O . Osservazione. :È istruttivo aggiungere qualche notizia sui problemi che portano (asintoticamente) alla distribuzione arcoseno (e collegati ; cfr. 7 .6 OSSo e 7 · 9 a). Abbiamo omesso le dimostrazioni, ma l'apparizione della 3" ed. del voI. I di Feller ( 1 9 68) suggerisce il consiglio di andare a vederla ivi confrontando le successive semplificazioni d'impostazione da un'edizione all'altra conforme­ mente a una sempre pi6 luminosa penetrazione dei problemi e delle connessioni tra essi, nonché ... a fatti puramente accidentali. Cfr. ivi in (III, 4 : Last visit and long leads) e in partic. cenni storici nelle note in calce a p. 7 8 e p. 82. La distribuzione arcoseno si è presentata a Paul Lévy ( 1 939 ) riguardo al processo di Wiener-Lévy (cfr. qui 9 . 1 2 ) ( I ) . Le applicazioni a Testa e Croce e altri casi (ovvie in senso asintotico) apparivano « misteriose » come spiegazio­ ne, finché (con Sparre Andersen, 19 5 3 ) ne venne messo in luce il carattere com­ binatorio. I metodi erano molto complicati, e abbastanza complicati erano an­ cora nella la ed. di Feller ( dovuti a Chung e Feller). La novità tra la 2a e la 3' ed. sta nella premessa di un teorema pi6 semplice, che qualitativamente già dà ragione della preferenza per ripartizioni molto disuguali della durata di per­ manenza in vantaggio. Possiamo dimostrarlo in poche parole. La probabilità che su 2m colpi a Testa e Croce l'ultimo ritorno a zero, y, = O, avvenga per t = 2k, è data da UUU 2 m-U (che è la distribuzione arcoseno in versione discreta). E infatti: la pro­ babilità di avere Yu = O è Uu , e la probabilità di nessuno zero nei 2m - 2k colpi successivi è U2m- 2k (cfr. 7 .4 a). L'uovo di Colombo ! eppure il teorema è nuovo ( a detta dello stesso Feller, informatissimo), e , per d i pi6, è stato scoperto casual­ mente e sperimentalmente in base a risultati statistici prodotti da un calcolatore e rilevati da valenti statistici matematici che si sono limitati a notare e poi di­ mostrare che la distribuzione era simmetrica ( senza riconoscere che si trattava dell'arcoseno ). Ciò dimostra non certo una manchevolezza da parte di autori che appor­ tano contributi notevolissimi, ma l'esistenza, nella congerie dei problemi, di an­ golini ove possono ancora rimanere inavvertite delle cose che, dopo, appaiono ovvie. Chissà che non sia nuovo (e possa avere un qualche interesse) un calcoletto che feci per mia curiosità quando notai che era improprio dire « pi6 fortunato » il giocatore che fu pi6 a lungo in testa (e lo dissi nella nota I in 8 . 2 ) : poteva (1) Ricordo (vagamente) che un ovvio effetto della distribuzione arcoseno (densità massima agli estremi) sembrò inizialmente paradossale anche nel caso ove era naturale, di osservazione di feno­ meni periodici (ad es. , nelle piene dei fiumi un livello intorno al massimo si conserva piu tempo che non per i livelli intermedi, attraversati piu rapidamente sia crescendo che decrescendo). Cfr. le figg. 9-IO-I I . Naturalmente, quando la periodicità è grossolana ( ad es . andamento stagionale della temperatura, con massimi e minimi diversi da anno ad anno) risultano delle punte smussate oppure serie di punte.

VIII .

5 00

Processi aleatori a incrementi indipendenti

benissimo non esserlo piu al termine del gioco ( -'dt. =

Sia t l'istante dell'ultimo zero (prendendo come (0,1) l'intervallo totale). Se t < ! il l ° alla fine è anche il l ° come durata; se t > ! occorre che in precedenza sia stato in · testa ancora almeno un tempo t-!, il che (per l'uniformità della distribuzione delle lunghezze in un intervallo tra due zeri) ha (dato t) proba­ bilità {t-!)/t - 1 - 1/2t. A favore del 2 ° rimane la probabilità 1/2t subordinata ai t > ! con la distribuzione arcoseno, da cui la ( 74 ).

8.

Chiarimenti s u presunti paradossi. 8 . 1 . Ci è già accaduto piu volte ( e ancora accadrà) di imbatterci in conclusioni che appaiono paradossali o che si prestano facilmente ad es­ sere fraintese ( o, per lo meno, ad essere « intese » in un senso che non appare sostenibile sottoponendolo ad analisi critica conforme alla pre­ sente impostazione) . E ci siamo soffermati a illustrarle e chiarirle : cOSI ad es . per la legge dei grandi numeri e per il lungo tempo previsto prima del­ la rovina. Anche gli ultimi argomenti che abbiamo trattati sono ricchi di spunti per discussioni del genere, ed anzi sarebbe difficile dire se siano piu istruttivi per le conoscenze che forniscono e per le vedute che aprono su molte questioni importanti per la teoria e le applicazioni, oppure per l'occasione che presentano di proseguire a sgomberare la mente dalla caligine delle molte incomprensioni e confusioni che offuscano la vista e rendono esitante l'incedere all'ingresso nel dominio della probabilità. Negli aspetti ora studiati del processo di Testa e Croce sarà proba­ bilmente apparso strano e inesplicabile come mai non sussista una certa « stazionarietà » o regolarità, e in particolare come mai non si abbia una tendenza a distribuire ugualmente le durate di permanenza in vantaggio nei due sensi opposti; e ciò tanto piu dopo aver visto che il processo si può considerare come una successione indefinita di lacci piu o meno lun­ ghi, al termine di ciascuno dei quali il processo ricomincia ogni volta nel­ le identiche condizioni. In particolare, poiché l'alternarsi di lacci nei due sensi ( ossia, nel se-

8 . Chiarimenti su presunti paradossi

.5 0 1

mipiano positivo O i n quello negativo) è esso stesso u n processo d i Testa e Croce considerando come « colpi » i lacci, sembrerà che l'equilibrarsi dei vantaggi dovrebbe valere in analogia e per conseguenza dell'equilibrarsi delle frequenze di Testa e Croce. Ed effettivamente tale conclusione è vera per il numero dei lacci che offrono il vantaggio all'uno o all'altro senso, ma non per le rispettive durate complessive. Abbiamo visto in­ fatti (cfr. 7.6, Oss . ) che, in un intervallo formato di lacci completi (cioè terminante con uno zero ), tutte le durate sono ugualmente probabili an­ ziché esserlo prevalentemente quelle centrali (ripartizione in durate circa uguali), e che nel caso generale (laccio ultimo eventualmente incompleto, ossia intervallo non necessariamente terminante in uno zero; 7.9 , Oss . ) l a situazione è addirittura opposta, essendo favorite l e ripartizioni piu squilibrate. Sia l'espressione della densità f(x) = K/v'x { 1 - x) che quella della fun­ zione di ripartizione F ( x ) = K arccos ( 2x-l ) mostrano chiaramente come siano favoriti i valori estremamente asimmetrici ( sebbene equamente, os­ sia simmetricamente in un senso e nell' altro ) ; il modo migliore per visua­ lizzare il risultato consiste nel notare (come è pressoché evidente ) che la divisione della durata totale di un lungo gioco nelle frazioni x e l - x di durata in cui rimane in vantaggio l'uno o l'altro giocatore può pensarsi effettuata scegliendo « a caso » ( cioè : con densità costante ) un punto sulla semicirconferenza costruita sul segmento (0 , 1 ) come diametro, e otte­ nerne x per proiezione su tale diametro. In altre parole : dividendo la semicirconferenza in un numero qualunque di archi uguali, le loro proie­ zioni sul diametro ( evidentemente, tanto piu piccole quanto piu spostate verso gli estremi ) sono ugualmente probabili (per contenere il punto che divide le due parti x e l - x). Si vedano le figure I I , IO e 9 (in quest'ordine, dal basso in alto) con gli ulteriori chiarimenti dati nelle rispettive didascalie. In Feller ( I , cap. III ) si trovano dati numerici che esprimono e preci­ sano tale stato di cose in modo sorprendente. Si pensi di giocare conti­ nuamente per un anno (un colpo ogni ora, o minuto, o secondo ; non im­ porta ) ; ebbene : c'è appena probabilità del 3 0 % che entrambi stiano in vantaggio per piu di 1 00 giorni ( circa 2 8 % del tempo totale), mentre c'è probabilità del 5 0 % che uno dei due vi rimanga meno di 54 giorni ( 1 5 % del tempo), de1 2 o % che vi stia meno di 9 giorni ( 2 ,4 % del tem-

VIII. Processi aleatori a incrementi indipendenti

5 02

Leggere le didascalie in ordine inverso ( cioè : figg. I I-10-9 ). Figura 9 . Densità della distribuzione arcoseno. L'istogramma indica la densità media in ogni intervallo fra i decili. La curva è il diagramma della densità. L'equa­ zione ( se l'intervallo-base si assume come (0,1) è

I(x) KfVxr1-X>. -

La densità è infinita negli estremi.

� �----- ·- _·__ ·_-_· _ _·_-·--------·--I I

y,o �------_·_ _ ·_----_· _ _· _ _·_----�,

� �- - - - _ .__ .__ ._ - -- - _. __._---�

� �- - - ---_.__ .__ ._-_. _ _.��

y, o �----_·__ ·__ ·_---�

1.0 �-- _·- - -· -f y,o �

Figura IO. Funzione di ripartizione della distribuzione ar­ coseno ( ottenibile col modello in :fig. I I ). Le ascisse segnate sono quelle dei « decili » (cfr. VI, 6.6) come risulta dalle corrispondenti ordi­ nate. I dieci intervalli fra i decili sono ugualmente probabili ( prob. - l/IO); notare quanto piu si addensi la probabilità verso gli estremi.

- - _ ·_-

)1,0

Figura I I . S i considera la distribuzione d i probabilità del­ la proiezione (sul diametro) di un punto « scelto a caso » (densità costante) su una semicirconfe­ renza (o circonferenza). Tale distribuzione si presenta pertanto, ad es., se si misura in un istante « a caso » la posizione (o la velocità) di un punto che effettua oscilla­ zioni armoniche. La divisione della semicirconferenza in lO parti uguali ( 18°) dà i deciIi.

8 . Chiarimenti su presunti paradossi

5 03

po), del 1 0 % che vi stia meno di 2X giorni ( ossia meno del 0,6 % del tempo, e l'avversario pili del 9 9 ,4 % ! ) (1 ) . Nel Feller si può vedere anche l'andamento di un caso sperimentale. 8 . 2 . Che queste cifre vadano al di là di quanto intuitivamente pre­ sumibile è cosa che non deve stupire : l'intuizione non può certo preten­ dere di indovinare - talvolta neppure lontanamente - i risultati dell' ana­ lisi di situazioni intricate. Appunto per ciò è utile la matematica, ed in particolare il suo impiego nella teoria delle probabilità. Occorre tuttavia domandarsi se, anche qualitativamente, le conclu­ sioni illustrate siano paradossali, e per quali motivi ci appaiano tali, e per quali altri questa eventuale impressione si può correggere e capovol­ gere mostrando che è naturale che le cose debbano stare come si è visto che stanno . Tale discorso sarà utile perché, sebbene il caso che ne dà oc­ casione sia particolarmente atto a colpire, non ci fornisce una stranezza a sé stante bensi uno spunto esemplare per riflessioni e precisazioni che hanno una pili o meno diretta incidenza su casi e questioni molto pili ge­ nerali. Non è tanto il singolo risultato, del resto, che merita e richiede il­ lustrazione, quanto la natura dei processi aleatori che - come quello sem­ plicissimo di Testa e Croce - si basano sulla semplicissima nozione del­ l'indipendenza stocastica ( della mancanza di memoria, se cOSI si preferi­ sce dire ): condizione semplicissima ma di cui è difficile cogliere l'essenza quanto basta per non trovare paradossali certe conseguenze. L'abbiamo già rilevato nelle occasioni rammentate (legge dei grandi numeri, lungo tempo previsto prima della rovina) ed altrove; e sono questi, come quello presente e come altri che tosto incontreremo e altri ancora, aspetti diversi e collegati di un medesimo ordine di questioni. I motivi che ci fanno apparire paradossali i fatti menzionati si ricolle­ gano tutti a varie forme di trasfigurazione dei nessi tra probabilità e fre­ quenza : - al pensare ad essi senza tener presenti le condizioni restrittive sotto cui sono validi ; - al pensare che consentano quasi una predizione anziché una previsione; - al pensare che essi si traducano sistematica­ mente in modalità familiari di « regolarità » statistiche ; - nel credere in (I) A volte si dice «il meno fortunato,.; però è inesatto perché è possibile (anche se meno pro­ babile) che alla fine sia in perdita quello che si era mantenuto in testa piu a lungo e magari quasi

sempre. Cfr. ( 7 . 1 0).

5 04

VIII.

Processi aleatori a incrementi indipendenti

tali regolarità sino a farne un principio autonomo che porta inavvertita­ mente ad attendere « compensazioni » in modo e senso piu stretti e prov­ videnziali di quelli legittimamente fondati sulle premesse probabilisti­ che . Tutte queste fallacie sono piuttosto rinforzate che dissipate dall'ap­ prendimento di concetti statistici esposti spesso senza sufficienti cautele e comunque facili ad essere fraintesi in forme superstiziosamente sempli­ cistiche. Anche l'uso di certe locuzioni - ad es . dire che qualche cosa si verifica in media un dato numero di volte per unità di tempo ( anziché in previsione) - può far pensare a siffatte « regolarità » come se dovessero esser certe anziché solo probabili, come predizioni anziché previsioni . Assumendo la « regolarità » come « Credo » (un'opera statistica di tale ispirazione ha per titolo « Gleichformigkeit der Welt » ), perché mai - uno si domanda - fenomeni come i ritorni all'equilibrio e la ripartizio­ ne delle permanenze in vantaggio potrebbero permettersi di trasgredirle sfidando i supremi dettami dell'ordine dell'universo ? Pensando il ritorno all' equilibrio ( con pratica certezza ) come dovuto a una tendenza o esigen­ za di tale « regolarità » ci si attenderebbe da una particella - condotta dal­ la sua passeggiata aleatoria molto al di qua dall'origine - una prossima in­ versione di rotta per rientrare all'ovile anziché pensare che non ha né me­ moria né ovile, che potrà indifferentemente allontanarsi del doppio pri­ ma di rientrare al punto di partenza o viceversa, e che se finirà certo per ripassarvi è solo perché passeggiando a caso finirà prima o poi per passare per tutti i punti senza neppure desiderio o possibilità di riconoscere quel­ lo che abbiamo chiamato « origine » (I). Con maggiore parvenza di giu­ stificazione ( ed anzi in modo veramente giustificato se non fosse per la dimenticanza di rilevare che la durata prevista è infinita o di tener conto di tale fatto) si potrebbe pensare che il fenomeno dovrebbe riprodursi « regolarmente » perché ad ogni ritorno all'origine ricomincia un nuovo laccio nelle identiche condizioni. Cercando di individuare e chiarire i presumibili sotterranei motivi che fanno parlare di « paradossi » ci si presentano subito le risposte . Il nesso probabilità-frequenza nel senso della legge dei grandi numeri non ha mo( I) Non intendo assolutamente dire che idee errate di tal genere facciano parte di dottrine stati­ stiche sia pure di indirizzo diverso da quello qui seguito; però l'atmosfera creata da frasi di presen­ tazione, da chiarimenti empirici, ecc., non appare sufficientemente antisettica da impedire il prolife­ rare nel subcosciente dei germi di tali perniciose deformazioni.

8 . Chiarimenti su presunti paradossi

5 05

tivo di esser valido mancando l'indipendenza fra le successive Yn : esse dipendono da un « effetto cumulativo » che ha tendenza a persistere e solo lentamente si avranno spostamenti e raramente ritorni all'equilibrio e inversioni di segno ( di « vantaggio » ). All'idea di una specie di forza di richiamo per il ritorno all'equilibrio si è già risposto sopra. Ma solo l'ul­ timo punto è istruttivo, perché illustra una differenza delicata e impor­ tante ( mentre gli altri richiedono soltanto di mettere in guardia contro il rischio di banali assurdi fraintendimenti). Il fatto stesso che la probabilità di ritorno all'origine all'istante t = n ( un> n pari ; Un et, O ,8/vn) tenda a zero basta ad escludere quella « regola­ rità » o « stazionarietà » di comportamento che è piu o meno il presuppo­ sto implicito e inconsapevole di ogni « stupore » di fronte a « paradossi » che tali appaiono sol per il fatto di non rientrare in quel particolare mo­ dello: nel modello che ha plasmato a propria immagine e somiglianza gli atteggiamenti psicologici il cui istintivo affiorare diviene (in mancanza di rieducazione correttiva ) generale e indiscriminato. Qualche considerazio­ ne può giovare a far meglio apprezzare quanto sia « sensazionale » nelle sue conseguenze il fatto ( tanto semplice accettandolo in sé senza riflessio­ ni ulteriori ) che quella probabilità tenda a zero. La probabilità che in k (per es . centomila ) colpi consecutivi a partire da un dato n venga sempre Testa è piccolissima, ma finita ( e cosi la probabilità che, cominciando da n, la successione 1 1 00 1 . . . di 1 = Testa e O = Croce dia in codice binario le prime centomila cifre di 1t o il testo della Divina Commedia o riproduca il segmento iniziale ottenuto colle prime k prove o qualunque altro seg­ mento prestabilito di lunghezza fissa). Un fatto del genere si verifica, in previsione, una volta ogni 2i colpi ed è praticamente certo che si verifichi almeno una volta entro ogni tratto di lunghezza N abbastanza piu lunga di 2i ( ed anche che si verifichi almeno l O volte, almeno 1 000, ecc., pur di prenderlo ancora piu lungo; non interessa qui precisare dettagli del resto ovvi ). Invece il numero previsto di ritorni all'equilibrio entro un dato numero N di istanti consecutivi a partire da t = n è et,

( 0 ,8/vn ) . N/2 = O,4N/vn



O,

e l a probabilità di averne almeno uno è ancor minore. Ciò vuoI dire che, procedendo, un intervallo abbastanza lungo per aver una probabilità non irrisoria ( per es. 1 % , o 1 0 % ) di contenere un ritorno all' equilibrio dovrà

5 06

VIII .

Processi aleatori a incrementi indipendenti

prendersi tanto grande da contenere quasi certamente ( per es . con pro­ babilità 90 % , o 99 % ) almeno una volta la Divina Commedia, e piu in là da contenerla quasi certamente almeno 1 0 volte, almeno un milione di volte, e cost via in un crescendo senza fine. 8 .3 . Passando a considerare i valori di Yt ( non solo gli istanti ove Yt = O ), argomento di cui tosto ci occuperemo, ricaviamo una semplice e immediata conclusione circa la grande lunghezza che hanno quasi certa­ mente i lacci in tempi lontani dall'istante iniziale t = O . Sappiamo che IYnl ha probabilità � 0,8 M/vn di risultare minore di un M prefissato; per n abbastanza grande è quindi quasi certo che IY nl > M nel qual caso il laccio che comprende t = n ha necessariamente lunghezza > 2M. Tale sarebbe infatti supponendo che la salita dal precedente zero ad Yn e la discesa allo zero successivo si realizzassero con una serie ininterrotta rispettiva­ mente di M successi e di M insuccessi ; dalle considerazioni sulla rovina sappiamo quanto sia probabile, invece, che salita e discesa risultino molto piu lunghe. Le considerazioni precedenti non hanno tuttavia che un valore illu­ strativo, preparatorio: aiutano a vedere cosa succede ma non toccano ancora il perché, non rispondono alle perplessità risalendone alla fonte. Al piu la questione si sposta : anziché domandarci come mai le durate dei lacci divengano sempre piu lunghe, benché essi iniziano partendo da zero, sempre nelle identiche condizioni, ci si può domandare come mai ( date le stesse premesse) divengano sempre piu grandi le ordinate Yn ( in valore assoluto), ossia i lacci si stacchino dall'asse y = O a distanze sempre mag­ giori (ed è ovvio che le due cose, se non identiche, sono strettamente cor­ relate ). Studiamo dunque un po' la storia di ogni laccio, e tanto vale conside­ rare il primo, con inizio t = O . La probabilità che abbia lunghezza n = 2m, ossia che termini all'n-esimo colpo (con un ritorno all'equilibrio ), è unf{n-l } = un-in ; ma Un- 2 è la probabilità che nessuno zero si sia verifi­ cato in precedenza, e quindi l/n è la probabilità di fine del laccio all'istan­ te n supposto non sia terminato prima (per n pari, altrimenti probabilità nulla ). Quindi un laccio ha probabilità 1/2 di terminare al 2 ° colpo, 1/4 di terminare al 4° ( se ha superato il 2 ° ) , 1/6 di terminare al 6° ( se ha su­ perato il 4°), e cost via : nel linguaggio demografico un laccio è dunque

8 . Chiarimenti su presunti paradossi

5 07

un individuo la cui probabilità di morte decresce con l'età ( come avviene per i neonati : la probabilità di sopravvivenza migliora per essi ad ogni giorno superato ; la differenza è che poi essi invecchiano e le condizioni peggiorano mentre per i lacci migliorano incessantemente ). Si spiega cosi perché « il laccio comprendente l'istante t » abbia minore probabilità di risultare lungo se t è piccolo che se t è grande : nel primo caso è necessa­ riamente giovane (in età al massimo t) e ciò limita la durata già trascorsa (l'età raggiunta) e fornisce prospettive meno favorevoli per il futuro (dato che l'irrobustimento migliora con la vecchiaia) : ha probabilità al­ meno 1/(t+ 2 ) di finire al prossimo colpo pari, e cosi via. E quale probabilità hanno i diversi valori possibili per Yn ? Non piu quelli della precedente distribuzione bemoulliana : ora è mutato lo stato d'informazione perché parliamo di un laccio, ossia sappiamo ( o supponia­ mo) che nel frattempo Yt non si è mai annullato, e la probabilità che cer­ chiamo è quella subordinata a tale ipotesi H nel modo già visto (in 7 . 9 c»). Ciò dice che i l sapere che non ci sono altri zeri altera l a distribuzio­ ne favorendo ( come è naturale ) i valori piu grandi, e precisamente alte­ rando le probabilità proporzionalmente alla loro grandezza. Ad ogni modificazione dello stato d'informazione tutto cambia: se ad es. conosco ad ogni istante il valore Yn presente, la probabilità di fine del laccio al prossimo colpo ( sia n dispari ) non è piu 1/(n+1 ) bensi 1/2 se Yn = ±1 e nulla in ogni altro caso. E ancora diversa è la situazione se co­ nosco alcuni valori passati : se conosco Yt per alcuni istanti t = n" n2 , . . . , nk le probabilità saranno quelle subordinate alla conoscenza dell'ultimo valore, ossia all'ipotesi H = ( Ynk = c) ma . . . ( attenzione ! ) ciò è vero solo se neppure implicitamente possiedo conoscenze o indizi sui risultati succes­ sivi all'ultimo conosciuto. Se ad es. vengo informato ogniqualvolta Yt = O , i o conosco non solo la posizione di tale ultimo zero ma s o anche che è l'ul­ timo, ossia che i valori successivi sono tutti ,,& O ( ed ho la distribuzione di cui sopra, mentre altrimenti avrei quella bernoulliana, per l'Yn presente) . M a ancora l a cosa cambierebbe s e sapessi che è piu probabile che qual­ cuno mi fornisca l'informazione se si tratta di passaggi per l'origine o del raggiungimento di valori molto grandi od altro: la mancanza d'informa­ zioni è in tal caso informativa essa stessa perché rende piu probabile non si siano verificate poi circostanze che probabilmente sarebbero state se­ gnalate.

5 08

VIII. Processi aleatori a incrementi indipendenti

Molte insufficienze di comprensione nei riguardi dell'interpretazione probabilistica di problemi e fenomeni derivano proprio dal disdegnare o scordare o non mettere in adeguato risalto il fatto fondamentale : che tutto si basa e dipende dall'effettivo stato di informazione con tutta la fluidità che a tale nozione necessariamente compete considerandola reali­ sticamente. Anche nell'interpretazione di leggi deterministiche si devono rilevare circostanze del genere: per es. la trattazione di fenomeni « eredi­ tari » ( tipo isteresi ) mediante equazioni integrali o integro-differenziali, se si adotta la spiegazione che la conoscenza del passato entra in gioco non di per sé ma per le modi:6cazioni apportate alla struttura determinan­ done lo stato attuale non direttamente osservabile, mostra come certe informazioni ( qui, « il passato » ) possano essere o non essere « informa­ tive » agli effetti che interessano ( qui, previsione deterministica, ossia « predizione » anziché previsione, « del futuro » ) a seconda che si possie­ dano o meno altre informazioni ( qui, informazione completa sulla strut­ tura nello « stato presente » ) ; se queste mancano, quelle fungono da sur­ rogato. Può trattarsi di surrogato totale o parziale a seconda che la co­ noscenza del fenomeno esteriore nel passato si ritenga o no atta a deter­ minare completamente e con certezza la inosservabile situazione presen­ te; nel secondo caso si è già sostanzialmente nell'ambito di un'imposta­ zione probabilistica, anche se ciò rimane mascherato dal fatto di limitare la trattazione all'andamento macroscopico trascurando l'aspetto aleato­ rio ivi di influenza trascurabile. Ma nell'ambito della probabilità l'informazione è sempre incompleta, derivante dalla separazione mai troppo netta fra ciò che si sa o si crede di sapere o ricordare con certezza e ciò che non si sa; esiste sempre e gioca un ruolo fondamentale ciò che in certo senso costituisce un complemen­ to d'informazione dovuto all'interpretazione dei motivi di una mancanza d'informazione (come appunto esemplificato per il processo di Testa e Croce, e come si avrà occasione di ribadire continuamente e talvolta con esemplificazioni particolarmente istruttive in quanto a prima vista scon­ certanti ( I ) . Come esempi in campo piu familiare, si pensi che la cono­ scenza dell'età, agli effetti della valutazione delle probabilità di morte ( I ) Per es., l'equivalenza dello schema di Bayes-Laplace con un caso di «probabilità contagiose» secondo P61ya (cfr. cap. XI, 4.4).

8 . Chiarimenti su presunti paradossi

5 09

per un individuo, è un po' un surrogato dell'esame medico, e, per un as­ sicurato, l'età e il risultato di una visita medica iniziale sono un surrogato di un esame all'istante attuale, e che del pari il fatto di avere o non avere notizie dirette, o di aver visto che i giornali ne dànno o non ne dànno, riguardo alla situazione o attività di individui o aziende o istituzioni, for­ mano quell'informazione piu o meno soddisfacente che si può avere su cose del genere. La pretesa, tuttora frequente, di basare la teoria delle probabilità sulla distinzione di cose di cui si è perfettamente certi e di altre su cui si è perfettamente ignoranti ha anche il torto ( a prescindere dalle obiezioni di principio ) di ostacolare per tali motivi la comprensione degli aspetti piu significativi delle questioni implicanti l'impiego della probabilità. Ritornando alla discussione delle nostre questioni sul processo di Te­ sta e Croce e ai dubbi espressi al riguardo ( < 1) . ( 1 ) Per vedere in breve sintesi come debba esser stato continuamente «il caso» a intervenire, in mille complicati modi (eppure, secondo le conoscenze di oggi, naturali), per produrre l'evoluzione, basta leggere i due paragrafi Lo sviluppo della vita e Un avvenimento fortuito in V. F. WEI S S KOPF, Conoscenza e meraviglia, Zanichelli, Bologna 1966, pp. 176·96 . Per quanto riguarda la «creazione

8 . Chiarimenti su presunti paradossi

)II

Tornando al nostro caso, il « principio ergodico » cade in difetto ( se cosl uno vuoI dire anziché « il teorema ergodico non si applica non sussi­ stendo le premesse » ) perché, al tempo t = n, sapere che Yo = ° significa sa­ pere, intanto (per non parlare del piu riguardante la distribuzione di pro­ babilità ), che certamente ! Ynl 5. n, e tale informazione è già molto signi­ ficativa, ma di significatività molto variabile al variare di n. Il caso oppo­ sto ( caso ergodico ) si ha invece quando pensiamo alla stessa passeggiata a caso su un poligono di m lati (m dispari ; un passo in senso orario o anti­ orario a seconda dell'esito di un colpo a Testa e Croce ) : è chiaro che la conoscenza del punto di partenza è praticamente irrilevante per la valu­ tazione della probabilità delle m posizioni dopo n passi (per n grande), che risultano praticamente tutte uguali (= l/m). M a proprio una cosa che avevamo visto o r è poco può sembrare con­ traddica l'asserita (e ovvia) ripresa del processo sotto le identiche condi­ zioni iniziali dopo ogni ritorno allo zero; come mai allora i primi zeri sono prevedibilmente assai vicini e poi via via piu lontani nel modo reso terrificante dalle interposte ripetizioni di Divine Commedie ? Non c'è contraddizione : effettivamente ogni volta che c'è uno zero è prevedibile ve ne siano parecchi ravvicinati, proprio come all'inizio; in compenso, ov­ viamente, tali gruppi sono ancor piu lontani tra loro di quanto non sa­ rebbero i singoli punti se ( restando in ugual numero) fossero circa equi­ distanti. Per un qualunque zero (per es . il k-esimo : non individuato in modo informativo circa la lunghezza dei lacci adiacenti, come dicendo « il l° dopo l'n-esimo colpo, perché è probabile che l'n-esimo colpo cada in un laccio lungo) si ha sempre probabilità 1/4 che i due zeri adiacenti siano alla distanza minima (= 2 ; ossia, che i due lacci adiacenti abbiano la lun­ ghezza minima possibile, cioè = 2 ), e probabilità ( 5/8 )2 � 0 ,39 che siano entrambi a distanza non superiore a 4, ( 1 93/256 )2 "" 0,75 per distanze non sopra l O, ecc. (in generale ( 1-un? "" 1-2un � 1- 0 , 1 6/Vn che entrambi i lacci non superino lunghezza n) . Insomma i lacci piccoli sono numerosi ovunque, salvo che di quando in quando ci sono lacci lunghi e lunghissi­ mi ; e la loro proporzione in relazione alla lunghezza è tale che contando continua di materia,. e la formazione delle galassie, cfr. ivi il paragrafo Cosa accadde all'origine?, pp. 1 6,·67, o, pi6. specificamente, D . w. SCIAMA, L'unità dell'universo, Einaudi, Torino 1 96" in particolare il par. Il modello di stato stabile, pp. 1'9.62.

512

VIII. Processi aleatori a incrementi indipendenti

non il numero dei lacci, ma i passi che contengono, lo squilibrio s'inverte. È quanto abbiamo visto ( in 7.6, Oss . ) confrontando le probabilità un-Jn e le previsioni di lunghezza n ( un-Jn ) = Un - 2 ; in sede delle presenti precisazioni concettuali conviene soltanto riprendere (come annunciato) l'osservazione finale, di inconvenienti cui dà luogo la locuzione « in me­ dia » che s'ispira alla concezione statistica. Si tratta infatti ancora di un tentativo di sostituire all'autentico e uni­ versalmente valido concetto probabilistico una contraffazione valida solo grossolanamente e non sempre ( ad es. non qui ). Il significato probabili­ stico è perfettamente espresso ( anche se la dizione risulta forse ostica) di­ cendo che un laccio ha previsione di lunghezza infinita, composta di parti aventi previsione di lunghezza 1 , 3/8, 5/1 6, 35/1 28, . corrispondenti ri­ spettivamente alle ipotesi di laccio di lunghezza 2 , 4, 6, 8, . . . ; è irrilevan­ te, volendo ( cosI come dire che un tasso d'interesse è di 45 L. per 1 000L. anziché dello 0 ,045 ), dire che su 1 000 lacci si ha, in previsione, una lun­ ghezza 1 000 di lacci di lunghezza due, 375 per lunghezza quattro, 3 1 2 ,50 per lunghezza sei, 273 ,44 per lunghezza otto, ecc. Fin qui, dunque, nulla di male ( anzi può esser pili espressivo pensare a una lunghezza prevista di 3 1 2 ,50 passi su 1 000 lacci corrispondente a un numero previsto di 52,087 lacci di lunghezza sei); il guaio è nel voler interpretare la frase in senso non probabilistico, come se si potesse asserire che su 1 000 lacci sarà cosi (in senso imprecisabile : non si giunge a pretendere sia vero in senso logico, cioè certo, necessario ; tuttavia si sottace che al pili ciò è « molto probabile », come se si potesse evitare la scelta appellandosi a qualche senso anfibio di « certezza pratica » ) . Questa obiezione fonda­ mentale e universale vieta comunque di fare affermazioni del genere sen­ za dire che sono soltanto quasi certe e che la quasi-certezza (per il sem­ plice fatto di non essere la certezza) altro non è che un grado abbastanza elevato di probabilità (probabilità che è sempre soggettiva). Ma non basta correggere la dizione concettualmente e formalmente insostenibile : anche l'affermazione che su un gran numero di prove ( qui : di lacci ) i risultati effettivi saranno con grande probabilità approssimati­ vamente conformi alle « previsioni » non sussiste se non sotto appropriate restrizioni. Anzitutto qualcosa come l'indipendenza, e ciò qui sussiste : sia quanto a lunghezza che quanto a segno i lacci sono stocasticamente indipendenti; per tal motivo si può concludere che quanto a proporzione . .

9.

Proprietà del processo di Wiener-Lévy

5 13

di lacci positivi e negativi effettivamente potremo essere quasi certi di trovarne circa metà e metà, perché il susseguirsi di lacci dei due sensi è proprio un processo di Testa e Croce. E tuttavia non possiamo dire che lo stesso valga per il numero di passi nei due semipiani : nonostante l'in­ dipendenza, la conclusione non è valida per il fatto che la lunghezza pre­ vista di un laccio è infinita. A maggior ragione, per lo stesso motivo, non è valida un'affermazione di quasi certezza per la ripartizione statistica dei lacci secondo lunghezza (e dei passi secondo lunghezza del laccio d'appar­ tenenza); essa del resto sarebbe stentatamente formulabile ( anche se la lunghezza prevista fosse finita, e quindi essa fosse sostanzialmente vali­ da) già per il fatto che i casi ( lunghezze) da distinguere siano in numero infinito. In tal modo abbiamo visto come casi anche semplicissimi, qual è il processo di Testa e Croce, per poco che vi si soffermi, presentino gran quantità di aspetti insospettati e interessanti di per sé, e come l'interesse divenga anche concettuale quando si rifletta sui motivi di conclusioni che possono riuscire inattese e paradossali.

9· Proprietà del processo di Wiener-Lévy. 9 . 1 . Avevamo visto (n. 3 ) le proprietà del processo di Wiener-Lévy che si potevano stabilire immediatamente e che servivano subito per po­ ter far cenno a tale caso nel seguito della trattazione. Ne riparliamo ora per approfondirne la conoscenza e per mostrare come le proprietà asin­ totiche valevoli in molti casi di processi asintoticamente normali acqui­ stino in semplicità e chiarezza osservando come esse costituiscano pro­ prietà esatte nel caso di Wiener-Lévy. È il caso che, paradossalmente, si presenta insieme come il piu sem­ plice e il piu patologico che si possa immaginare. Gli aspetti seducente­ mente semplici sono quelli già visti : tutte le grandezze considerate, sin­ golarmente o accoppiate od in n-uple, e sotto tutte le condizioni esamina­ te, seguono la distribuzione normale ( ad una, o due, od n dimensioni ) ; cosa s i potrebbe sognare d i meglio ?

5 14

VIII. Processi aleatori a incrementi indipendenti

C'era però, in fondo, un'indicazione che avrebbe forse potuto preoc­ cupare, far sospettare che potessero nascere dei guai : si tratta di quell'in­ varianza proiettiva che, come veniva annunciato, permette di ricondur­ re lo studio del comportamento asintotico in prossimità dell'origine a quello all'infinito. Ma non avevamo voluto allarmare facendo notare gua­ li cose avvenissero in prossimità dell'infinito che, a pensare di schiacciar­ le in prossimità dell'origine, c'è da rabbrividire. Peggio, ciò che vale in un intorno dell'origine vale nell'intorno di ogni punto della curva y = Y(t): il processo è omogeneo, a incrementi indipendenti. 9 . 2 . Rammentiamo anzitutto come il processo di Testa e Croce ( e cOSI molti altri ) possa, con opportuna riduzione d i scala, dare un'imma­ gine appropriata del processo di Wiener-Lévy in un qualunque desidera­ to grado di approssimazione. Consideriamo il processo di Wiener-Lévy ridotto ( m = O , CT = l ); un processo di Testa e Croce che conservi tali caratteristiche e che, per ap­ prossimare un processo continuo, consti di molti piccoli salti ( ad es . , di frequentissime scommesse per un importo assai piccolo), dovrà, anziché di un unico salto ±l per ogni unità di tempo, constare di N salti di am­ piezza ±l/N per unità di tempo. COSI infatti lo scarto standard per unità di tempo sarà crVn = ( l/N) . v"N = l , come si voleva. Se N è grande, nel senso che gli intervalli di tempo "t = l/N e gli im­ porti s = l/N siano piccoli rispetto alla precisione con cui è interessante o è possibile misurare durate ed importi, tale processo risulta praticamente indistinguibile da quello di Wiener-Lévy ; se infatti ogni intervallo di tempo di cui ci si può o vuole interessare contiene molti tempuscoli "t, la Y(t) ha ivi un incremento a distribuzione pressoché normale perché som­ ma di molti incrementi indipendenti. Pensando alla rappresentazione grafica, si può dire che se il diagram­ ma di una partita a Testa e Croce (quello in fig. I , VII, 3 .2 ) viene rimpicciolito riducendo ad l/N le ordinate e ad l/N le ascisse, con N tan­ to grande da rendere ultraimpercettibili i denti della spezzata corrispon­ denti ai singoli colpi, si ha un'immagine la piu esatta possibile di un pro­ cesso di Wiener-Lévy. In un certo senso, è lo stesso consueto fenomeno di approssimazione e idealizzazione per cui lo sviluppo di una popolazio­ ne ( numero di abitanti ) si pensa e si vede come una linea continua quan-

9.

Proprietà del processo di Wiener-Lévy

.5 1 .5

do la scala è tale da rendere impercettibili - seppure si pretendesse di pensarli disegnati - i salti rappresentanti le singole nascite e morti da cui in realtà il movimento dipende. 9 .3 . Naturalmente, come accennato, si poteva indifferentemente partire, anziché dal processo di Testa e Croce nel tempo discreto da quel­ lo nel tempo continuo (poissoniano, salti ±l/N, in media N per unità di tempo), oppure con altre distribuzioni dei salti ( per es. normali, sempre scarto standard l/N ecc . ) . Viceversa, i l processo d i Wiener-Lévy può servire a rappresentare, ad analogo titolo di perfetta approssimazione ( in certa scala ), fenomeni il cui andamento « microscopico» è in vario modo diverso . Tra l'altro può essere assunto come buona rappresentazione del moto browniano di una particella ( o, per dir meglio, se ci si limita a una dimensione, di una sua ascissa). La scala, beninteso, deve essere tale che cessi di avere senso il seguire il vero meccanismo del fenomeno coi suoi percorsi liberi ed urti ecc. Conveniva dirlo anche perché Paul Lévy chiama spesso « processo del moto browniano » il processo di Wiener-Lévy (come generalmente viene chiamato in omaggio a due fra gli autori che al suo studio portaro­ no i massimi contributi ; occorre però menzionare ancora almeno il Ba­ chelier che in precedenza, e sia pure in modo meno rigoroso, scopri molte proprietà e risultati ). 9 .4 . Ci limiteremo qui a raggruppare, a mo' di rassegna, alcune in­ formazioni interessanti senza pretesa di darne dimostrazioni ; in genere, tuttavia, saranno cose già implicitamente provate o rese plausibili da ri­ sultati stabiliti per Testa e Croce. Lo studio di problemi relativi al processo di Wiener-Lévy si può svol­ gere in molti modi ; in certo senso, secondo le varie vie già accennate nel­ l'introdurre la distribuzione normale (della quale, per cosi dire, il pro­ cesso di Wiener-Lévy costituisce una speciale estensione al caso di infi­ nite dimensioni). :È bene però dire qualcosa sui principali tipi di procedi­ menti, a titolo di orientamento . I procedimenti che si riconducono al processo di Testa e Croce o si­ mili hanno sostanzialmente il loro punto di partenza nel calcolo combi­ natorio, pur integrandolo secondo le esigenze del caso . Rientrano in que-

516

VIII.

Processi aleatori a incrementi indipendenti

sto tipo la piu parte degli sviluppi dei capp. VII e VIII , e il modo di uti­ lizzarli nell'interpretazione sul processo di Wiener-Lévy è stata spesso già indicata o lo sarà prossimamente. I procedimenti che potremmo dire diretti sono basati sulle proprietà della distribuzione normale che rendono sufficiente a determinare il pro­ cesso la conoscenza delle caratteristiche di second'ordine ( varianze e co­ varianze) e sull'applicazione dei vari strumenti per lavorare su distribu­ zioni . Ne abbiamo dato esempi soprattutto nel presentare le prime pro­ prietà del processo di Wiener-Lévy. Un po' maggiormente dobbiamo soffermarci sul terzo tipo di procedi­ mento, che si riconduce allo studio dei problemi di diffusione (equazione del calore, ecc. ). Ne abbiamo dato appena dei cenni (VII, 6.5 e VII I , 6 . 7 ), e anche qui ci limiteremo a ben poco ; è un peccato perché s i tratta di metodi eleganti e potenti, resi espressivi dall'immagine fisica di una pro­ babilità intesa come massa che si va diffondendo. Ma, dovendo per ovvie esigenze sacrificare qualche cosa, sembra giustificato omettere piuttosto questa impostazione, concettualmente consistente piu in un'analogia-che in una vera interpretazione dei problemi, anziché le altre che per vie di­ verse aderiscono al significato probabilistico e consentono di lumeggiar­ ne ogni aspetto. Limitiamoci comunque, qui, a illustrare, nella visione offertane dalla teoria della diffusione, alcuni dei problemi che già conosciamo sotto al­ tre versioni. Il processo di Wiener-Lévy è proprio il caso fondamentale della dif­ fusione partendo da un'unica sorgente ; le considerazioni e le conclusioni « dinamiche » , in cui si tiene conto della t come variabile tempo ( anziché considerarla come semplice costante), riguardano proprio tale processo (e non la semplice distribuzione in ogni singolo istante ). Il problema della rovina di un giocatore ( nella versione del processo di Wiener-Lévy ) conduce a introdurre una barriera assorbente : la retta y = -c, c = capitale iniziale. E il problema si risolve, nella teoria del calo­ re, col metodo delle immagini (di Lord Kelvin) : collocando una sorgente contraria (fredda) nel punto t = O, Y = - 2c ( immagine speculare dell' ori­ gine, sorgente calda, rispetto alla barriera), il processo risultante, che per ragioni di simmetria ha ovviamente densità nulla sulla barriera, dà la densità, a ogni istante t, della distribuzione del guadagno. Ciò che man-

9.

Proprietà del processo di Wiener-Lévy

'17

ca (l'integrale della densità è < l ) è la massa assorbita dalla barriera, cioè la probabilità di rovina prima dell'istante considerato ; si vede senza cal­ coli che è il doppio della « coda » che andrebbe al di là della barriera ( man­ ca tale coda, e c'è la coda negativa entrata dalla sorgente fredda ). Ebbe­ ne : ciò corrisponde esattamente al ragionamento di Desiré André. Analogamente, nel caso del problema bilaterale, il metodo delle im­ magini conduce a introdurre infinite sorgenti calde e fredde (immagini di quella reale con numero pari o dispari di riflessioni sulle barriere as­ sorbenti ) : è questa l'interpretazione « fisica » delle formule in ( 6 .6 ) .

9 . 5 . L a rassegna dei risultati riguardanti i l processo di Wiener-Lévy dovrebbe naturalmente iniziare con quelli dati nel n. 3 e qua e là nel se­ guito, che non ripeteremo salvo ciò che sembra necessario rammentare in una rassegna conclusiva. Cominciamo dai risultati legati ai problemi sulla rovina (o barriera assorbente). Nel caso di barriera unilaterale ( sia y = c), la probabilità di rovina en­ tro un tempo t, F(c, t) ( 1) , ossia la funzione di ripartizione della durata T del processo fino alla rovina, F ( c, t) = p (T 5. t) ( in senso proprio, perché con probabilità = 1 è T < 00 ) , è

F (c, t) = P ( IY( t)1 > 1c1 ) = 2 P(Y(t» i c i) =

La densità è

aF = Ic(t) = � r 3/2 e -c'/2t = l:i .� e-c'/2t . Nt v2rct at V21c

Rammentiamo che si tratta della distribuzione stabile di indice IX = t. La seconda forma mette in evidenza la relazione col caso di Testa e Croce, con .N1 colpi per unità di tempo, ciascuno con guadagno ±1/N. Il se­ condo fattore esprime ( asintoticamente ) la probabilità di un guadagno ( 1 ) Indicata con q (t) e p (c) (o q' (t) e p , ( c » quando conveniva pensare fissa una delle variabili (o farla apparire come un «parametro» ); cfr. (6.4-').

VIII.

.5 1 8

Processi aleatori a incrementi indipendenti

ici = (Nlcl ) ( l/N ) in N2t colpi ; il primo, la probabilità che si tratti del pri­ mo passaggio per il livello y = ici ( cfr. 7 .9 c). Considerata come funzione di Ici ( e scriveremo ora y anziché ici ) la distribuzione è quella metà-normale, di densità

(48 )

ft (y) = V2fT; e -y2/2t (y � O )

(cioè : nulla per y < O ) ;

essa vale, rammentiamo, oltre che per il valore assoluto di Y(t), » » » » » v Y(t) » » » » » A Y ( t) » » » » » v Y ( t)-Y (t) » » » » » A Y(t)-Y(t)

anche (massimo di Y ( 't ) in O ::5: 't ::5: t), (minimo » » » » ), (differenza dal massimo), » » minimo). (

Ecco ora le distribuzioni di probabilità per Y(t) subordinatamente a tre ipotesi riguardo al massimo di Y ( 't ) in (O, tl : che, in confronto a un dato c > O , sia v Y( t ) � c ( 75 ) oppure v Y( t ) � c ( 7 6 ), o che sia v Y ( t ) = Y ( t ) ( 77 ) . Nei primi due casi si ha :

( 7 5 ) f(y) = K exp {-(c + ly-cl )2f2t} ,

I/K = F (c, t)

( 7 6 ) f(y) = K [exp {- y2/2t}- exp {- ( 2c-y)2/2t}] (y � c), l/K = l -F(c, t) La prima scende direttamente dal principio di riflessione ; si noti che c+ ly-cl vale y (per y � c) e 2c-y (per y � c); la distribuzione è quindi quella normale privata della parte centrale ( tra ±c) e ricucita avvicinando le due code. Per la seconda, basta osservare che moltiplicando essa e la prima per le rispettive probabilità I -F ( c, t) ed F ( c, t) ( ossia, sopprimen­ dovi i K) e sommando, si deve riottenere K exp (-y2/2t). Se, infine, supponiamo di sapere che il valore Y ( t } è superiore a tutti quelli raggiunti precedentemente, ossia che Y ( t ) = v Y(t) ( senza saper nulla in piti circa tale valore ), oppure di sapere che A Y (t) = O, ossia che il minimo è lo O di partenza, Y ( O ) = O ( per il principio di rovesciamento, i due casi sono equivalenti ), la distribuzione per Y ( t ) è data dalla stessa (49 ), aFtat, salvo prendere come variabile y = Ici anziché t, e K di conse­ guenza :

(77)

f(y) = !. e -y2/2t (y � O ). t

Ed è

9.

Proprietà del processo di Wiener-Lévy

5 19

la funzione di ripartizione. Lo stesso, invertendo il verso, se anziché al massimo Y (t) è uguale al minimo (o se Y ( O ) = ° è il massimo). Come giustificazione si può ricorrere ancora ( non proprio direttamen­ te) al significato come aF/at; altrimenti basta pensare alla ( 7 1 ) di ( 7 . 9 ) del caso di Testa e Croce. Nel caso di limitazione bilaterale (rovina per due giocatori), la distri­ buzione di Y ( t ) sapendo che nessuno dei due si è rovinato entro (0, t) , ossia subordinatamente alla condizione -c' :s: A Y(t) :s: v Y (t) < é' è data da ( 79 )

( c' e c" > 0, poniamo c* = c' +c" )

+�

f (y) = K !h [exp{- ( y-2hc* ?/2 t}-exp{-(y+2c' + 2 hC*)2/2t}J (- c' :s: y :s: c").

Nel caso simmetrico ( c' = c" = c, c* = 2 c) è in particolare ( 80 )

..

f (y ) = K !h ( -1 )h exp{- (y -2h c)2/2t}

(-c :s: y :s: c).

Ovviamente, l/K (che è dato dall'integrale della ! tra ±c, o, in gene­ rale, tra - c' e +c" ) è la probabilità l - q ( t ) di non attraversamento delle barriere fino all'istante t; in forma poco diversa tale q ( t ) era stata data nella ( 5 3 ) (cfr. 6 .5 ). Si noti che, senza K, la ( 7 9 ) darebbe f(y )dy = pro babilità che Y ( t) sia in (y, y+dy) e non sia mai prima uscito da (-c', c") « e » anziché « supposto ch e » . Analoga osservazione si potrebbe fare in tutti i casi analoghi. Il poco che si è detto sul « metodo delle immagini » di Lord Kelvin (in 6 . 7 ) spiega completamente il risultato; volendo, permette anche di veri­ ficarlo constatando che è soddisfatta l'equazione della diffusione (form. ( 3 2 ) in VII, 6 .5 ) e la condizione al contorno f(y) = ° sulle semirette y = -c' e y = c" per ° < t < oo. ­

9 .6 .

Nel caso del processo di Wiener-Lévy, le questioni riguar­ danti il comportamento asintotico di Y(t) per t-+oo sono completamente risolte. In principio, lo sono da un fondamentale risultato dovuto a Pe­ trowsky e Kolmogorov; « praticamente » (cioè in modo meno completo

VIII. Processi aleatori a incrementi indipendenti

.5 20

ma piu espressivo), lo sono da un altro celebre risultato, dovuto a Chin­ cin, noto come « teorema del logaritmo iterato » (cfr. cenno in VII, 5 .4 ). Si tratta di confrontare Y(t) con una funzione w ( t) ( che supponiamo continua, crescente, tendente a +00) chiedendosi quale sia la probabilità che la disuguaglianza Y (t) < w ( t ) sia definitivamente soddisfatta (cioè : lo sia da un certo istante t - non importa quale - in poi). Piu precisamen­ te, si tratta del limite, per t' -+ 00, della probabilità che la disuguaglianza sia valida da t' in poi; piu precisamente ancora (I), anche quest'ultima probabilità andrebbe intesa solo come limite, per t" -+ 00, della probabi­ lità di validità in ( t', t" ). La p che ci interessa sarebbe cioè p = lim [ lim p ( t', t" )J, t' .... ..

t" .... ..

limite certamente esistente poiché p ( t', t" ) cresce al crescere di t" e de­ cresce al crescere di t'. Ma possiamo dire subito assai piu : per il teorema Zero-Uno, sono possibili i due soli valori : p = O o p = 1 ; sono possibili solo i due casi, o è praticamente certo che Y(t) rimane definitivamente al di sotto di w(t) o è praticamente certo che ciò non avviene ossia che non cesseranno mai di verificarsi tratti in cui Y(t) superi la w ( t). Le funzioni w(t) vengono per­ tanto suddivise semplicemente in due classi : quelle che potremmo dire « crescenti piu (o rispettivamente meno) rapidamente dei " grandi valori " di Y(t) >>. La distinzione di validità generale (Petrowsky-Kolmogorov) dice che w ( t ) appartiene alla classe superiore o inferiore a seconda che è convergente o divergente l'integrale improprio (da un arbitrario posi­ tivo to a +00) di (81) � (t) . rl exp{- t \ll ( t)}dt dove � (t) = w ( t)/Vt . Mediante � ( t), la condizione Y ( t ) < w ( t) si può scrivere Y ( t )/Vt < � ( t), riferendosi cioè alla funzione ridotta (per cui si sia reso (f = costante = 1 ). La condizione espressiva (Chincin) si limita a considerare le funzioni w ( t ) = k y2 tIog logt ( ossia �(t) = ky2 10g 10gt) ( 82)

(I)

Questa seconda precisazione è superflua per chi ammette come assioma l'additività completa. Cfr. precisazioni analoghe per la legge forte dei grandi numeri (VII, ' . 3 ) e casi analoghi. Per sem· plicità di linguaggio ci esprimeremo qui in modo informale.

9.

Proprietà del processo di Wiener-Lévy

52 1

ed asserisce che appartengono alla classe inferiore prendendo k � 1 e alla superiore prendendo k > 1 . La conclusione può essere rinforzata consi­ derando le funzioni seguenti : w(t) = v2t (loglogt + klogloglogt) ;

esse appartengono alla classe inferiore prendendo .k � 3/2 e a quella supe­ riore per k > 3/2 (generalizzazione dimostrata da P. Lévy dapprima con metodo diretto lasciando indeciso il caso 1/2 � k � 3/2 e poi rimovendo la lacuna grazie al criterio di Petrowsky e Kolmogorov). La dimostrazione del criterio generale si basa sulla teoria della diffu­ sione {calore}; per il teorema del logaritmo iterato ci si può riferire ai cenni datine per il caso di Testa e Croce. 9 . 7 . Il com portamento in piccolo risulta straordinariamente com­ plicato e irregolare perché avviene non soltanto che ad ogni scala si ri­ presentino (rimpicciolite N2 volte in ascissa se lo sono N volte in ordina­ ta) tutte le particolarità che valgono in grande, ma anche, se si studia il comportamento nell'intorno di un punto, e diciamo nell'origine, vi si ri­ flettono in un'inversione tutte le proprietà asintotiche relative a t�oo. Ciò si vede nel modo piu semplice notando che, se Y(t) è data da un pro­ cesso di Wiener-Lévy, lo stesso vale per la funzione Z ( t) = tY( 1/t)

che ha m, = O, a , = tv'f{i = Vt, distribuzione normale, e coefficiente di correlazione tra Z ( t, ) e Z ( t2 ) uguale che tra Y( 1/t, ) e Y( 1/t2 ) ossia ( se t2 > t" e quindi l/t, > 1/t2 ) vale v( 1/t, )/( 1/t2 ) = v'ili; ; e tanto basta. Pertanto è praticamente certo che in ogni intorno di O (Y ( O ) = O) la Y ( t ) si annulla infinite volte (come nel tendere di t a +00), e tocca infinite volte ogni curva y = w ( t ) = kv2t 1og log ( 1/t ) con k � l e non quelle ana­ loghe con k > 1 (che ne dànno localmente il « modulo di continuità » quasi certo: I Y(to+t)-Y(to)1 < w (t) in un intorno di to( O < t < E); però volendo che sia quasi certo per tutti i to di un certo intervallo simultaneamente (oltreché, sempre, per tutti i t tra O ed E ) si dovrebbe prendere ( 84 )

w ( t) = kv2tlog ( 1/t),

(logaritmo semplice anziché iterato).

k> 1,

5 22

VIII. Processi aleatori a incrementi indipendenti

Per brevità la formulazione dei risultati relativi a questi casi è fatta in linguaggio non rigoroso. Tuttavia, giova notare (in base a ciò che tosto vedremo) quanto sarebbe pericoloso ragionare su di essi con insufficiente precauzione. Per ogni punto to in cui Y ( to) = O è praticamente certo (pro­ babilità = 1 ) che vi siano altre (infinite) radici in ogni suo intorno sia si­ nistro che destro Ce lo stesso vale in ogni altro punto, per gli attraversa­ menti della retta orizzontale y = Y (to)); eppure fra due radici vi sono sem­ pre uno o piu (e quasi certamente un'infinità numerabile di) intervalli in cui Y(t) è positiva o negativa e quindi radici isolate a destra o a sinistra ( gli estremi di tali intervalli); poiché ciò si può ripetere per tutte le oriz­ zontali y = costante (un 'infinità continua) i punti y = Y (t) isolati ( almeno da un lato) da punti della curva al medesimo livello y sono, in ogni in­ tervallo, un'infinità continua, e tra essi ve n'ha sempre infiniti isolati bilateralmente (almeno i massimi e minimi). Dato ciò, l a lunghezza del tratto privo di zeri a partire dall'origine Cove si suppone Y ( O ) = O, o a partire da un qualunque ti in cui si sappia che si ha uno zero, Y (t') = O) è un numero aleatorio X che ha probabilità = 1 di essere esattamente nullo ( se O, o in generale t', è uno zero che sia anche aderente a sinistra all'insieme degli zeri); tale numero aleatorio, X(t'), si può anzi considerare ( senza cambiare in nulla il problema) per qualunque t' senza che y' = Y(t') sia nullo, come lunghezza dell'intervallo a sinistra di t' privo di punti t in cui Y(t) riprenda il valore y' . Sappiamo, ciononostante, che è necessariamente X(t'» O in un'infinità continua di punti di ogni intervallo comunque piccolo, e si può dimostrare che, sup­ posto che tale lunghezza X superi un dato Xo > O, la probabilità che sia maggiore di un x � Xo è vx/xo; in altre parole, la distribuzione di X ha, si può dire, la funzione di ripartizione e densità F(x) = 1-Ky'X ,

( 86)

! (x) = t K/y'X ,

con K = 1/v'X"o (cosicché F(xo) = O ) subordinatamente all'ipotesi che sia X � xo (xo > O ) ; per xo� O anche K� O ( I ) . ( I ) Ciò significa che non soltanto c'è probabilità - 1 che sia X - O (ossia concentrata nel punto O) se non si fa nessuna ipotesi in contrario (caso di infiniti zeri aderenti a sinistra) ma che anche subordinatamente alla sola ipotesi x > O tutta la probabilità - 1 è aderente allo zero (cioè, scelto co· munque Xo > O, la probabilità che sia X .. Xo è nulla: come è ovvio perché, in ogni intervallo finito

x-

9 . Proprietà del processo di Wiener-Lévy

5 23

Il risultato del caso di Testa e Croce ( ove X � n ha probabilità corrisponde al caso K oF O (ché evidentemente nel tempo discreto le « stranezze in piccolo » non hanno modo di esistere). U n s. 0,8/vn l I )

9 . 8 . Se invece cominciamo col fissare un istante to, conoscendo sol­ tanto che Y ( O ) = O, la lunghezza X = T" -T' dell'intervallo privo di radi­ ci contenente to (ossia T' = ultima radice di Y(t) = O con t � to e T" = pri­ ma radice di Y(t) = O con t � to ( 2 )) la distribuzione di probabilità risulta : ( 8 7 ) per T' : f(t) = K/Vt ( to-t), F ( t ) = K arcsin ,,;t/to , (88)

per T" : f( t ) = K/Vt (t-to}, F ( t ) = K arccos ViJj,

( 89 ) per X : f(x) = K

Co dt!Vt ( to- t )(t+x ) (t+x-to),

v II

(x � O ),

O

salvo per x = o .

Indichiamo con Q una tale omografia (operatore), ed anche la matrice e la forma quadratica, convenendo cioè di impiegare la stessa Q in tutte le scritture (corrispondenti a diversi simbolismi): Q {x} = Qxx x = Qx*x = x*Qx = XT QX = !h k qh k Xh Xk ( qkh = qh k ) .

(9 )

Tutto bene . . . tranne che, per essere in accordo con le convenzioni usuali del calcolo matriciale, occorrerebbe scrivere in ordine invertito xA in luogo di Ax, yxT anziché xT y (conforme ad x*y o xxy), e per tanto XQXT anziché Qx*x. Tutti i vettori sono intesi come vettori-riga, salvo se muniti della T che li trasforma in vettori-colonna ( duali, cioè tipo ax, ma come operatori a destra). Si noti che pertanto, mentre xyT significa yxx, yT x significa x . yx, ossia l'omografia ( =/2 x -l/2 dx (costante 1 /2 assorbita da K ). 5 - 3 - La distanza da un iperpiano (per il centro), o, meglio, l'ascissa o proiezione su di un asse qualunque (origine nel centro) (2 ) , ha cqme distri­ buzione la proiezione della distribuzione spaziale, ed è ovviamente sem­ pre la stessa. Cioè la I(x), che dà la densità della distribuzione di X, dà anche quella di Y, di Z, o di qualunque altra coordinata aX+bY +cZ con a2 +b2 +è = 1 (cioè : conservante l'unità di misura). Data la g ( p ) si ricava

(33)

l (x) = K S; g(..fi1+)!- )ì.} d>.. ,

K = 4rc,

o in generale ( r qualunque)

l (x ) = K S; g ( ..fi1+)!- ) >..r- l d>.. , K == Cr-l ' Sappiamo già che nel caso della distribuzione normale (ma soltanto ivi) g ed I coincidono ( salvo la costante di normalizzazione). Abbiamo anche visto che per una distribuzione sferica uniforme (g( p ) = K > O per p :S: l , g ( p ) = O per p > l) si ha l(x) = K( l _ � )(r-ll/2 (cfr. n. 7 ) : osserviamo che si tratta di una distribuzione Beta (a parte che l'intervallo di definizione è (- 1 , 1 ) anziché (0, 1 ) : l (x) = K( 1+ x)( r - ll/2 ( 1_ x)( r - ll/2) . Consideriamo ancora il caso di una distribuzione sulla superficie della sfera unitaria, e precisamente su uno strato sferico (punti a distanza tra l -E ed 1 dall'ori­ gine) di cui faremo tendere a zero lo spessore E > O . Avremo l(x) = K [( 1_� )(r-ll/2 _ ( [ 1_ E1_ � )(r- ll/2 ] � ( 35 ) _ x2 )(r-ll/2- 1] = K( l _ x2 )(r- 3 l/2 . � K[2 (r-l )E( 1 ( 34 )

( I ) Cogliamo l'occasione per richiamare l'attenzione in generale sul modo in cui la densità si tra­ sforma in un cambiamento di variabili (benché sia ovvio: derivata di funzione di funzione! ). Naru­ ralmente ciò vale per trasformazioni crescenti (nel caso di corrispondenza non univoca occorrerebbe sommare i diversi contributi). Come regola pratica conviene trasformare (come abbiamo fatto) f(y) dy in fdx) dx (anziché scrivere ft (x) - f(y) . dy/dx). Analogamente si procederebbe. per distribuzioni in piu dimensioni. naturalmente moltiplicando per lo jacobiano a (Y . .. .. y,)/a (x" .... x,) anziché per dy/dx. I ( 2 ) La differenza è solo che. parlando di distanza . si prenderebbe il valore assoluto dell'ascissa; data la simmetria. la densità. anziché f (x) ( -00 < X - l dy , Ksinr-2 cpdcp = Kyr-2 ( 1+ y2 t r/2 dy i ed infine da z = l/y, ossia y = Z- l , segue

dy = - z-2 dz e Kyr-2 ( 1 + y2 ) -r/2 dy = Kz-(r- 2) ( 1 + z-2 ) -r/2z-2 dz = = Kz-r ( 1 + Z-2 t r/2 dz = K( 1 +tt r/2 dz . y

"

Figura 3. Proiezione centrale (centro O) di una distribuzione a simmetria sferica. Si vede come nei vari problemi considerati intervengano le funzioni cp, cos cp, tg cp, cotg cp, e i loro differenziali; dr. le distribuzioni ( 29 ), ( 26), (27), ( 2 8 ).

Detti Xl> X2 , . . . , Xr dei numeri aleatori con distribuzione a simmetria sferica, se indichiamo X = Xl> R = distanza del punto (Xl> . . . , Xn) da O (R2 = X:+�+ . . . +X!), D = YR2 -X2 = distanza dello stesso punto dall'as­ se x, le variabili sopra designate con x, y, z , cp, corrispondono ordinata­ mente ai numeri aleatori X/R, D/X, X/D, arctg(D/X)j essi hanno quindi

558

x.

Problemi in pi6 dimensioni

distribuzione di densità (scrivendo ora sempre la variabile nel modo con­ sueto, con x) :

(36)

X/R

(37)

D/X

(38)

X/D

(39)

arctg(D/X)

(cos cp) : f(x) = K( l _ x2 )< r- 3 )/2

(- 1 !!;; x s; I )

(tg cp ) : f(x) = Kxr- 2 ( 1+�tr/2 (cot cp ) : f(x ) = K ( I+�tr/2 ( cp ) : f(x) = K sinr 2 x -

(-1t/2 s; x s; 1t/2 );

da notare che per D/X e r dispari occorrerebbe mettere il segno di valore assoluto oppure pensare che K cambi segno con x; in tutti i casi la stessa distribuzione ( raddoppiando il K e limitandola ad x � O ) corrisponde ai medesimi numeri aleatori presi in valore assoluto ( IXI/R, ecc. ). Quella per D/IXI dà la distribuzione della distanza per la distribuzione proiettata sull'iperpiano; dividendo per x . . . , Xh., F ( ., ., . . . , . ), è la stessa comunque si scelgano gli Xhi ( e quindi sim­ metrica, potendoli anche permutare)j piu in generale, ogni restrizione concernente n degli Xh ha la stessa probabilità comunque essi si scelgano e si permutino.

XI. Ragionamento induttivo; inferenza statistica

5 82

Numeri aleatori scambiabili (e parzialmente scambiabili) interver­ ranno in problemi di cui ci occuperemo nel cap. XII. Per ora dimostria­ mo solo una proprietà che ci servirà nel caso particolare, cui tosto ritor­ neremo, degli eventi scambiabili. Consideriamo degli Xh scambiabili e a varianza finita, e prendiamone due numerosi gruppi : vogliamo dimostrare, in sostanza, che le loro me­ die (aritmetiche) Y'/n' e Y"/n" (Y' somma degli n ' termini del I O grup­ po, ecc. ) sono quasi certamente quasi uguali. Esattamente, il quadrato della differenza tende in previsione a zero facendo crescere n' ed n", e pertanto si ha convergenza alla Cauchy quadratica, e a maggior ragione debole, e a maggior ragione si ha una distribuzione limite F per le medie Yn/n di un grande numero n di termini : Fn-+ F, dove Fn(x) = P(Yn/n < x). Ed ecco la dimostrazione, data sotto condizioni assai meno restrittive della scambiabilità ( sempre: con varianza finita) : le Xh abbiano la stessa previsione e varianza, m e rr, e lo stesso coefficiente di correlazione due a due, r ('). Sviluppando il quadrato di n" Y' -n' Y" si ottengono n' n" (n' + n" ) termini XhXk con h = k e altrettanti ( di segno opposto ) con h � k (2) ; aventi rispettivamente previsione nr+rr e -(m2 + rrr), per cui 1 1 Y' Y' 2 n '+ " ( 4 ) p -, - -;; = , � [(m2 +rr)-(m2 + rrr)] = -, + -;; rr( l -r). n n n n nn

(

(

)

)

Si poteva porre fin dall'inizio m = O (m si elide fin dall'impostazione), ma è utile a volte usare la formula con m � O; ciò avviene proprio nel ca­ so degli eventi scambiabili perché sappiamo che P(E! ) = P(Eh) = Wl e P(EhEk ) = W2 (h � k), e quindi Y' Y" + = ( W l - W2 ) . p 7 - n" 7 n"

(

(I)

) (1 1)

Ricordiamo che se le Xh sono in numero (almeno potenzialmente) infinito è r :. O (cfr. IV, 17.'). Per le nostre considerazioni le Xh devono essere infinite o almeno moltissime, quindi avremo sempre r positivo o al piu negativo ma piccolissimo (ed l-r sarà s I o di pochissimo superiore) . I l «numero di termini» s'intende in senso algebrico (contandoli per -l s e hanno segno oppo­ sto a quello indicato). Si noti che i due gruppi si sono supposti disgiunti; se invece avessero c termini comuni la limi­ tazione (come era prevedibile) migliora: il fattore n' +n" diventa n' + n" -2c (ossia, da Oln')+ Oln") va detratto 2cln'n").

(2 )

4 . La scambiabilità

5 83

Tornando al caso di eventi scambiabili, e pensandoli in successione (benché tale ordinamento sia arbitrario e irrilevante), possiamo caratterizzarli, come pro­ cesso stocastico rappresentato sul solito schema usato per Testa e Croce, dicendo che sono ugualmente probabili tutte le traiettorie che portano dall'origine ad un dato vertice. Diremo, in tal caso, che si ha un processo scambiabile. Si può notare che basta a tal fine che le probabilità p�n, e p�n , di un passo +1 o -1 , uscendo da un dato vertice [n, h] ( 1', dipendano dal vertice ma non dal cam­ mino precedentemente seguito per giungervi, e che la probabilità di due succes­ sivi passi +1 e -1 rimanga invariata scambiandoli, ossia p�n' p:.:�l' = p�n' p:;+ll). Tale proprietà s i presta a d elegante interpretazione geometrica. Se, i n ogni ver­ tice, indichiamo le probabilità del successivo passo col vettore di componenti 1 , p-P) ( ove p = p�n') che porta al baricentro (o previsione) dei punti d'arrivo, la condizione è che, preso un vertice qualunque [n, h] ed i due successivi [n + 1 , h] ed {n +1 , h +1], i tre corrispondenti vettori concorrano in un punto ( cfr. fig. 3 in VII, 3 . 3 ) . Ovviamente (per induzione) tale condizione basta da sola ad assicu­ rare la scambiabilità se vale in tutti i vertici del reticolo. In funzione delle w è:

pln, - h+1 (w>, abbastanza piccolo per ragionare sulla densità ma non pun­ tiforme. ,.

Delle «stime» e dei « test»: interpretazione bayesiana. , . I . La risposta naturale ad ogni problema di inferenza statistica si esprime mediante una probabilità o una distribuzione di probabilità; nei casi visti, si tratta della distribuzione finale, tenuto conto dei dati osser­ vati. Ma una risposta siffatta non è, purtroppo, « naturale» nel senso di « famigliare» per la piu parte delle persone, ed è forse anche spiegabile il desiderio di sostituirla con qualcosa di piu grossolano ma piu imme­ diatamente afferrabile. Per soddisfare a tale requisito, la cosa piu semplice e usuale consiste nel sintetizzare grossolanamente la distribuzione del numero aleatorio X che interessa indicando un unico valore x intorno a cui si addensa o un

( I)

Od anche misti : una distribuzione con densità piu una o diverse «masse concentrate .. in va· lori privilegiati; per es . , la percentuale di un certo componente in una lega quando è possibile il valore zero - assenza - con probabilità non nulla. Esempio tipico: il problema della corona del re Gerone (cui si riferisce l'episodio dell'Eure­ ka! di Archimede). C'era argento nell'oro? (cfr. L. J. SAVAGE, corso CIME, Varenna 19'9). Altro esempio: la correlazione tra due geni (esattamente - O se appartengono a cromosomi distinti).

5 . Delle « stime » e dei « test » : interpretazione bayesiana

613

intervallo (x', x") che ne racchiude buona parte. Queste frasi sono molto vaghe, e vengono precisate in vari modi, che si dicono metodi di stima; precisamente, nel primo caso, si dice che x è una stima puntuale ( point estimation), mentre nel secondo si dice che (x', x") dà una stima zonale (interval estimation). Analogamente in piti dimensioni (dove la « zona » può avere qualunque forma). In altri casi risposte formalmente analoghe sono richieste per que­ stioni poste diversamente; può darsi che esista un certo valore x* , oppure un certo intervallo (x� x:l . per cui interessi sapere se X è o non è (esattamente, oppure approssimativamente) uguale ad x* , oppure se è o non è contenuto tra x� ed x:. In tal caso si parla di test di ipotesi ( ' ) , perché la risposta è S I o NO alla COSI detta « ipotesi nulla » (X = x* op­ pure x�� X � 1 ), ed un « evento atomico » (perché un valore preciso, come xo = 4 1%% , non ammette maggiore pre­ cisazione). Tuttavia appartiene anche al campo formato dai due soli even­ ti E = (X = xo) e E = (X '& Xo) (oltre agli eventi O e 1 ), e può essere scom­ posto in E = EA+EA con A evento qualunque non riguardante X (per .

Appendice

634

es. , A = « domani pioverà», A = « l'attuale governo rimarrà in carica sino alla fine della legislatura», A = « l'azalea esposta in vetrina dal fioraio di fronte sarà venduta entro oggi » ), od anche in infiniti sottocasi conside­ rando altri numeri aleatori Y , Z, . . . (e quindi considerando come «prov­ visoriamente-atomi » i punti (x, y), o ( x, y, z), o (x, y, z, . . . ) di 52 , 53, . . . , 5m ). Sono pertanto prive di fondamento le considerazioni basate su siffatte distinzioni fittizie (ad es. l'asserzione che un evento E non im­ possibile può avere probabilità nulla, P (E) = 0 , soltanto se «appartiene a un insieme infinito di eventi »). Esistono invece effettivi problemi che si pongono ed impongono, va­ riamente connessi alla nozione - spesso vaga ed elusiva - di « verificabi­ lità » di un evento. Questa stessa dizione dovrebbe, a rigore, venir con­ dannata, perché la verificabilità è la caratteristica essenziale della defini­ zione di evento : dire « evento non verificabile » è come dire « calvo coi capelli lunghi ». Tuttavia, è necessario riconoscere l'esistenza di diversi sensi e gradi della nozione di verificabilità, alcuni piti o meno elastici (come: verificabile con minore o maggiore esattezza, e entro un tempo piti o meno lungo, o con una spesa piti o meno accessibile, o con un n u­ mero piti o meno grande di verifiche parziali, ecc.), altri piti solidi (come i precedenti, quando anziché di « piti o meno » grande si dica « infinita­ mente o no » ). Ma il piti solido e importante è quello che si presenta nella fisica teorica (in nesso ad osservabilità e complementarità) : sembra stra­ no che una questione di cOSI palpitante interesse concettuale e pratico e riguardante la piti inattesa e profonda forma d'intervento della probabi­ lità nelle scienze della natura venga trattata quasi soltanto da fisici e filo­ sofi mentre è pressoché ignorata nelle trattazioni di calcolo delle proba­ bilità. È qualcosa di nuovo, che turba il quadro esistente e lo rende ibri­ do; d'accordo. Ma non è un buon motivo per preferire di sovraccaricarlo con ornamenti fittizi anziché arricchirlo con apporti stimolanti seppure sconvolgenti. Nella presente appendice si tenterà pertanto di presentare una visione d'insieme abbastanza organica su tali questioni riguardanti gli eventi. È doveroso parlare di semplice «tentativo» soprattutto per quanto con­ cerne il caso della fisica teorica: vi sarà poco piu che un raffronto fra al­ cune posizioni di vari autori con l'indicazione di quella che mi sembra • • •

I . Diversi aspetti delle diversità d'impostazione

63 5

meno esposta a critiche ( oltre che meglio idonea a ricollegarsi con gli al­ tri problemi sulla verificabilità di eventi). Altre questioni (già di sfuggita accennate piu volte) riguardano la nozione di « possibilità », con qualche aspetto capzioso nei casi dove uno (per impossibilità o per limitata capacità o per fretta o per svista od al­ tro) non abbia estratto dalle informazioni in suo possesso quanto in esse logicamente è contenuto ( I ) , cosicché l'insieme degli eventi che egli con­ sidera « certi » non è chiuso rispetto alla logica del certo. Passeremo poi finalmente dalle questioni preliminari, riguardanti gli eventi e pertanto la logica del certo ossia quel che per noi è semplicemen­ te lo scenario, all'introduzione della probabilità, che costituisce per noi il vero argomento ossia la protagonista. Il modo piu sicuro per evitare anche involontarie alterazioni nel pas­ saggio tra le considerazioni che ci avevano portato all'impostazione so­ stanziale nel cap. III e gli assiomi in cui dovremo ora tradurle in forma a­ stratta, sta nell'esprimerle in forma astratta senza alterarle affatto. Ba­ sterà conservare l'additività e la nonnegatività, che dal punto di vista so­ stanziale proibiscono di attribuire un prezzo positivo (una previsione po­ sitiva) a un'operazione ( o scommessa) che darà certamente un risultato negativo, e dal punto di vista astratto impongono alla P di esser tale che non si abbia mai se

X CI XI =

+C2X2

+ , , , +cnXn è certamente < o.

Queste disuguaglianze (imposte per ogni combinazione lineare finita) bastano a delimitare (come intersezione di semispazi) l'insieme convesso � delle funzioni P ammissibili (e ci sarà solo da discutere qualche detta­ glio, per es. la possibilità di sostituire, nelle disuguaglianze, > con ;;:, ecc. ). C'è invece da notare come, per esprimere tali condizioni, abbiamo fatto uso, o almeno fatto riferimento, non agli eventi ma ai numeri alea( I ) Nel gioco delle concordanze (con n oggetti) può darsi ad es . che uno non si accorga che il caso di n -l concordanze è impossibile (cfr. cap. III, 8.4), vuoi perché è incapace del ragionamen. to che porta a tale conclusione dai dati del problema a lui noti, vuoi perché non ha mai pensato di dover dubitare che tutti i valori da O ad n siano possibili, o vuoi anche che abbia conosciuto il risul· tato ma l'abbia poi scordato o pur senza averlo scordato non vi abbia pensato nell'occasione di cui ci si occupa.

63 6

Appendice

tori. In effetti, scrivendo EI . . . En anziché X1 " , Xn si sarebbe avuta pra­ ticamente la stessa condizione ( 1 ) , ma introducendo surrettiziamente le Xh (che costituiscono un sistema lineare) come combinazioni lineari di eventi (che non formano un sistema lineare). Partire direttamente dalle Xh che costituiscono un sistema lineare ( senza dare uno speciale risalto agli eventi, che comunque ne fanno parte) significa non solo dominare d'un colpo l'intera situazione, ma anche accentuarne l'aderenza all'inter­ pretazione sostanziale. Procedendo in tal modo, gli assiomi caratterizzano direttamente la P in tutto il suo campo di applicazione : sia, cioè, in quello degli eventi ove può chiamarsi col nome particolare di probabilità, sia in quello dei nu­ meri aleatori ove si chiama in generale previsione (o prezzo, con riferi­ menti pratici). Ed è un grande vantaggio, non solo formale, o di eleganza semplifi­ catrice. Si evita non solo una duplice fastidiosa complicazione, ma tutto un seguito di difficoltà derivanti dal fatto che quelle complicazioni sono non soltanto fastidiose ma fuorvianti. Si ha una prima fastidiosa compli­ cazione se si vogliono formulare gli assiomi in modo tale da applicarsi ai soli eventi escludendo i numeri aleatori, per definire la sola probabilità e non le previsioni. E se ne ha una seconda quando poi si deve rimediare a tale esclusione e definire la previsione tenendo conto che è già stata de­ finita nel caso particolare degli eventi ove si chiama probabilità. L'unica via possibile ed ovvia di rimediare all'esclusione consistereb­ be semplicemente nel rimuoverla, fosse pure di soppiatto, con un ripiego che riporti sulla via maestra. Invece il primo passo poco felice sembra ob­ blighi a insistere su di esso utilizzandolo per il secondo. Volendo conside­ rare come definizione della previsione una relazione che la leghi alle pro­ babilità si giunge a una situazione estremamente innaturale : di far sem­ brare che la nozione elementare di previsione presupponga la conoscenza di una cosa molto pili complessa e delicata quale è la precisa distribuzione della probabilità. Ed, essendo innaturale, tale situazione è pericolosa an­ che nel senso che induce a ritenere che la definizione da farsi in tal modo ( I ) Limitatamente alle Xh con un numero finito di valori possibili; da qui si poteva passare al caso generale (con Xh limitate) mediante approssimazioni per difetto e per eccesso.

I.

Diversi aspetti delle diversità d'impostazione

63 7

ex novo lasci un certo margine all'arbitrio, COSI da richiedere o consentire una scelta di convenzioni che può ispirarsi a motivi di convenienza. In termini matematici, astrattamente, tutto questo discorso si riduce ad esprimere la preferenza per la prima delle due vie (che qui indichiamo riportando le frasi iniziali di una piu dettagliata descrizione in Bodiou (I), p. 5 ), e di adottarla: l ° ) Priorità ai funzionali lineari (Riesz, Bourbaki, L. Schwartz), 2°) Priorità alla misura (Borel, Lebesgue, Carathéodory, Fréchet, Kol­ mogorov). Ma, naturalmente, non è la conclusione, ossia tale scelta di per sé, il punto sostanziale, ben SI la motivazione della scelta. Non si tratta di dire quale presentazione matematica abbia matematicamente parlando mag­ giori pregi, ma quale interpreta piu direttamente ciò che è piu diretta­ mente significativo, piu direttamente importante, e, soprattutto, piu di­ rettamente (in senso concettuale) osservabile. Questo punto di vista, riguardo alla differenza fra i due modi di giun­ gere alla definizione di P(X) (previsione di X, usualmente detta M(X) = speranza matematica di X), si può chiarire con un'analogia (che è di fatto un'identità, salvo cambiamento di termini). Dato un corpo si può sen­ z'altro definire (e insegnare a determinare operativamente, senza formu­ le) il punto «baricentro » di sia normalmente non si potrà nep­ pure conoscere (né importerà) la distribuzione della massa in (e in par­ ticolare è molto convenzionale la nozione di « densità» in un punto, defi­ nita da un limite che, data la struttura della materia - molecole, atomi, particelle - non può a rigore avere alcun senso); tuttavia si può dire che, conoscendo per ipotesi la densità p come funzione del punto P, potremo dire che la massa m ( C ) ed il baricentro del corpo dovranno essere uguali a :

C, B(C);

C,

C

B(C) C m(C ) =f:(P ) dS, B(C) = m�C ) f.p . p (P)dS.

Orbene : la differenza è tra prendere per definizioni quelle dirette ed ov­ vie, oppure queste formule (che richiedono un passaggio al limite per de( I ) GEORGES BODIOU, Théorie dialectique des probabitités englobant leur calcul classique et quantique, Gauthier-Villars, Paris 1 964.

Appendice

63 8

finire la densità, da distruggersi coll'integrazione per tornare al punto di partenza; e che rischiano di introdurre un errore se si lascia un qualche arbitrio nella scelta della definizione d'integrale da applicarsi). Trovo molto diffuso, attualmente, questo malvezzo di complicare le cose semplici (quasi cercando, e spesso creando, dei guai); lo dico non perché consideri mio compito di occuparmene al di fuori del mio campo, ma per rilevare che, se lo rilevo e cerco di sradicarlo nell'ambito della teo­ ria delle probabilità, non è perché ritenga che esso alligni soltanto sul suo terreno anziché piu o meno dovunque. 2.

Gli eventi (Vero, Falso, e . . . )

Un evento non può essere, per definizione, che o vero o falso (cfr. II, 3 .4); può essere incerto (per noi, provvisoriamente) solo se ed in quanto non siamo in possesso dell'informazione attestante che è vero oppure che è falso. Lo stesso vale per qualunque ente aleatorio, in particolare nume­ ro aleatorio. Un numero ( aleatorio) X è un numero che ha un valore x ben determinato, di cui possiamo però non essere informati (ed è per tale mancanza d'informazione che è, per noi, provvisoriamente, incerto e alea­ torio). Possiamo comunque limitare il ragionamento al caso degli eventi, perché ogni informazione su X non è che un'informazione su qualche evento del tipo X € I (con I insieme qualunque). Ma cosa significa il dover essere vero o falso ? Le due interpretazioni estreme consisterebbero nel riferimento a una « verità oggettiva» o nella « immediata verificabilità » . La seconda non dà luogo a obiezioni ma è as­ sai restrittiva: vale solo in casi come quello di un quiz di cui volendo la risposta basta voltar pagina. Ma, perfino in questo caso, quante ipotesi non sono sottintese ! Bisogna escludere motivi di perplessità e smarri­ mento quali si avrebbero ad es. se, tornando ripetutamente a cercarla e guardarla, uno vedesse ogni volta una risposta diversa da quelle che ri­ corda di aver visto in precedenza, o una risposta diversa a seconda che legge con l'occhio destro o il sinistro, e via dicendo. Tutti saremo d'ac­ cordo nel dire che queste supposizioni sono ridicole; non sono però as­ surde per un qualche motivo logico, ma solo perché contraddicono delle

2. Gli eventi ( Vero, Falso, e . . ) .

639

« regolarità » cui siamo stati assuefatti dalla « realtà oggettiva» (o, dual­ mente, in prospettiva solipsistica, che ci hanno guidato nel costruirci l'idea di una « realtà oggettiva » ad immagine e somiglianza di quanto ci appare nella nostra forse-vita-forse-sogno). Dovremmo allora lasciarci guidare dall'interpretazione oggettivistica, la prima delle due sopra menzionate ? Fino a un certo punto ciò è inevi­ tabile ( se no saremmo sempre in preda a dubbi « ridicoli » come nel pre­ cedente esempio); occorre tuttavia stare sempre all'erta, con atteggia­ mento critico, ricordando quante affermazioni che ad un oggettivismo « ingenuo » apparivano indubbiamente dotate di senso si sono dovute modificare e rielaborare mediante definizioni «operative» onde poter­ gliene dare uno ( I ) . Ma quand'è che un « oggettivismo » non è « ingenuo » ? Purtroppo, la risposta è tutt'altro che rassicurante: « lo è finché non giunge la constata­ zione imprevista di contraddizioni o inconvenienti cui dà luogo » ( 2 ) . Al­ lora si corre ai ripari, che consistono nel ritornare per quanto possibile all'estremo opposto : di pensare non al fatto « oggettivo » che qualcosa sia vero o no, ma al fatto di venire in possesso di quella informazione che per noi si traduce nel dichiararlo vero o no, o per lo meno a qualche «pos­ sibilità» (in senso piu o meno preciso) di accedere a tale informazione. Se esistesse (o comunque si ammettesse, con qualche ipotesi sempli­ ficativa di comodo) la possibilità di una separazione netta fra eventi che meritano di esser conservati come tali (in quanto ha effettivamente senso chiedere se sono veri o falsi) ed eventi che vanno soppressi (in quanto fit(1 ) 1! necessario, a questo punto, un chiarimento, al fine di evitare confusioni e malintesi sul rapporto fra soggettivismo nell'ambito della probabilità e soggettivismo relativamente ad ogni co· noscenza. Qualcuno dice, a volte, che, «si, anche la probabilità è soggettiva, naturalmente, perché tutto è soggettivo,. ; ma un tale modo di prospettare le cose non è in accordo, bens! in contrasto, con la con· cezione soggettivistica della probabilità. Ciò che è fondamentale, per tale concezione, è che la na­ zione di probabilità non appartiene all'ambito delle proprietà riguardanti il «mondo esterno,. (non importa se uno lo consideri una «realtà oggettiva,. o una propria «rappresentazione mentale,. ) . Un solipsista che considerasse «soggettiva,. tutta la cosiddetta «realtb , per essere coerente con se stesso e interpretare correttamente la concezione soggettivistica della probabilità, avrebbe forse ragione di dire - per contrasto, per contrapposizione - che la probabilità è, invece, oggettivil. 1! oggettiva nel senso che esprime un giudizio autonomo, non qualcosa di vincolato a circostanze «esterne,. da inter· pretarsi nel senso del «come se,. ( , si dovrà intendere h € H. CosI la rappresentazione precedente (cartesiana) sussisterà invariata, salvo che il numero delle dimensioni (degli assi, delle coordinate) è in­ finito ( I ) , ed S sarà SH ( spazio cartesiano ad infinite coordinate Xh, con h € H). Nel caso degli eventi ( se, cioè, tutti gli Xh si riducono ad eventi Eh ) i vertici dell'ipercubo ( a infinite dimensioni) sono caratterizzati indi­ cando per quali h è Eh = xh = l (per gli altri è Eh = Xh = O), ossia corrispon­ dono alle parti di � (S = � ( � »), oppure, equivalentemente, alle funzioni f( . ), elementi di S = 2.111 , che a una parte dei � fanno corrispondere il valore 1 e agli altri O . Si riconoscerà facilmente l'identità col procedimen­ to che conduceva ai costituenti per n finito : si tratta di affermare che, de­ gli eventi della base, �, una data parte sono veri e gli altri tutti falsi ; na­ turalmente una parte di tali prodotti sarà (in genere) impossibile, cioè dimostrabile falsa in base ai dati, ed occorrerà depurarne S per avere él . Volendo, s i può ricondurre anche il caso di numeri aleatori a quello degli eventi : basta sostituire ad ogni Xh gli eventi Eh. ,, = (Xh = x) (per tutti i valori x possibili per Xh). Detta �' la base modificata in seguito a tale sostituzione su tutti gli Xh, potremo sempre scrivere S = � ( �' ) oppure S = 2.111 ' . Se, avendo costruito S in questo modo (nell'una o l'altra variante), si conserva ( anche implicitamente, attraverso le Xh) il ricordo di come lo si è generato partendo dalla base �, rimane come traccia di ciò, in S ( e quin­ di in él ), una struttura di spazio lineare (o di suo sottoinsieme). D'altron­ de, potrebbe trattarsi veramente di un problema di probabilità geometri­ ca ( anche di geometria nel senso dello spazio fisico); se pensiamo, per es., S = él = superficie della terra, Q = punto ove si trova ora un oggetto smar­ rito (o rubato ), o simili, siamo evidentemente in tale caso ed allora inevi­ tabilmente abbiamo la struttura geometrica. Niente di male. Dicendo che él si deve considerare privo di struttura non si pretende che una strut­ tura non possa esistere sotto altri punti di vista (e neppure si vuole esclu­ dere di poterne tener conto ai nostri effetti se e quando in seguito ciò po( I ) Si badi (benché qui non abbia importanza) che la nozione di numero delle dimensioni ( quan­ d'è infinito) potrebbe essere intesa in modo diverso (ed anzi intrinsecamente piu significativo) come numero di elementi non nulli linearmente indipendenti; tale nozione non coincide piu (come per n - finito) con quella di «numero di coordinate,. .

646

Appendice

trà apparirci opportuno}, ma s'intende solo dichiarare che per ora e ai nostri effetti dobbiamo ignorarla. Se non ignorassimo (volutamente) il modo di derivazione di S dalla base §3, potremmo distinguere eventi godenti di circostanze di privilegio, per es. appartenenti alla base, oppure esprimibili logicamente mediante un numero finito di essi, o mediante un'infinità numerabile. Analoghe di­ stinzioni potremmo istituire tra numeri aleatori : appartenenti alla base, o funzioni (lineari, o continue, ecc. ecc., o qualunque) di uno di questi (o di 2, 3 , un numero finito assegnato o qualunque, . . . ), ecc. ecc. È per tal modo che, sulla retta, partendo (come base) dagli intervalli, si riesce a conservare distinzioni fra insiemi che sono o non sono, per es. , somme di un numero finito ( o di un'infinità numerabile) di intervalli, o ottenibili da intervalli con un'infinità numerabile di operazioni logiche, ecc. ecc. Menzioniamo tale consueta procedura al solo scopo di far notare come l'uso di concetti del genere e la considerazione di siffatte distinzioni non sono ammissibili ed anzi vanno esplicitamente esclusi, dato che vogliamo (almeno per ora) considerare él come privo di ogni struttura. Una sola distinzione per noi parassita conserverebbe ancora senso a questo punto pur considerando él privo di struttura : quella basata sul numero di elementi ( n), o altri eventuali numeri cardinali N(n < N < M). Volendo ignorare anche questa distinzione strutturale abbiamo introdot­ to la convenzione di considerare « mai compiuta » la suddivisione, il che si può tradurre, parlando di base, dicendo che dobbiamo pensare di po­ tervi aggiungere altri eventi (o numeri aleatori) a volontà. Con tale av­ vertenza perde senso anche la distinzione basata sul numero di « punti » .

.

.

.

( I ) Indicheremo con n e r ( n e c gotico) il numero cardinale degli interi (potenza del nume­ rabile; il piu piccolo dei numeri cardinali infiniti ) e rispettivamente dei reali (potenza del continuo). Se A e B sono insiemi (disgiunti) rispettivamente di potenza M ed N, con M + N, MN, MN si indica rispettivamente la potenza di A u B (riunione), di A x B (prodotto cartesiano: coppie (a, h » , di AB (corrispondenze univoche di B in A). Se M ed N sono infiniti, ed M > N, è M+N - MN - MN - M (ed anche M + M - MM - M). Invece 2M > M (e a maggior ragione NM > M); in particolare 2" - r > n (gli insiemi di interi sono quanti i punti sulla retta ) . Queste proprietà servono subito nel testo, e d è perciò che vengono qui rammentate.

3 . Gli eventi in un campo senza restrizioni

647

(e in particolare tra eventi « atomici », corrispondenti ad un sol punto, o no), rimanendo soltanto l'unica distinzione strutturale che dobbiamo na­ turalmente conservare come dotata di senso, e cioè quella tra l'evento impossibile (E ... O, corrispondente all'insieme vuoto), quello certo (E ... 1 , corrispondente al complementare, ossia all'insieme totale), e tutti gli al­ tri, possibili, strutturalmente indistinguibili tra loro. Volendo effettivamente proseguire secondo questa linea, introducen­ do nuovi elementi nella base o - se si preferisce dir cOSI - passando da él a él' = él xél* (prodotto cartesiano con un qualsiasi opportuno él*) fin­ ché ogni « caso elementare » Q di él risulti suddiviso in M elementi, tutti gli E (pensati come sottoinsiemi di él') avranno numero cardinale M (perché � M e � M . M = M), ad eccezione dell'insieme vuoto. Rimarranno cOSI distinguibili dagli altri soltanto l'insieme vuoto e il suo complemen­ tare. Sarebbe però ingombrante ricondursi sistematicamente ad un tale él'; ci contenteremo pertanto di aver accennato alla possibilità di questa uniformizzazione di numero cardinale per tutti gli eventi che interessano, senza insistervi né tenerne conto ulteriormente. Dire che ignoriamo come inessenziale la distinzione secondo numero cardinale è sufficiente, e la intendiamo detta e ribadita per sempre senza piu farne menzione. Del resto tutto ciò (a non voler sottilizzare) si poteva senz'altro considerare implicito nell'asserzione di non far distinzione tra parti di una partizione él e parti ( corrispondenti ) di una partizione él' piu fina. Dobbiamo invece tornare sul problema di quelle strutture che, paras­ sitariamente introdotte dalla presenza della base, §3 , avevamo stabilito di ignorare: anziché ignorarle possiamo utilizzarle togliendovi in altro mo­ do il difetto che esse avevano di assegnare situazioni di privilegio a certi eventi o numeri aleatori nei confronti di altri. Anziché prescrivendo di ignorare la base (sia per ora una base di eventi, Eh e §3 , ossia h e H), si può conseguire l'intento prefissoci arricchendo la base stessa mediante l'inclusione di tutti gli E e & : in tal modo l'appartenenza alla base ori­ ginaria §3 perde ogni rilevanza ( I ) . Nel caso di una base di numeri aleatori (Xh e §3 , ossia h e H), l'applicazione integrale del medesimo procedimen­ to ci porta assai piu lontano. Si tratterà precisamente di aggiungere agli Xh della base §3 tutti i numeri aleatori esprimibili come loro funzioni qua( I ) Sarebbe come conferire a tutti i cittadini fin dalla nascita il titolo di Eccellenza per conse­ guire lo stesso risultato perseguito invano col decretare la soppressione di tale epiteto.

Appendice

64 8

lunque, ossia ogni Xk funzione dei punti Q € él (Xk = lk ( Q )), dove le Ik ( ' )' k € K, fanno comunque corrispondere ad ogni punto Q di él un numero reale. ( Inutile dire che non poniamo alcuna restrizione tipo continuità o altro, avendo detto e ripetuto che consideriamo él privo di struttura co­ sicché tali restrizioni non hanno neppure senso ( I ) . Il campo S sarà allora lo spazio cartesiano - indichiamolo con SK ad infinite coordinate Xk (k € K), dove K sia l'insieme degli indici k che individuano le funzioni Ik ( . ) costituenti il campo S = c él ; sostanzialmente, K è lo stesso S (è so­ lo per comodità di notazione che s'introduce un indice k, k € K, per di­ stinguere le funzioni Ik mentre sarebbe equivalente parlare delle funzio­ ni I, I € S ). Possiamo osservare che K (ossia, equivalentemente, S ) ha nu­ mero cardinale CM, ove M sia il numero cardinale di él, e che K compren­ de H, H c K, dato che fra tutti gli Xk = lk ( Q ) esistono in particolare gli Xh già considerati nella base §3 . Lo « spreco » di numero delle dimensioni (nel passare da H a K) è evidentemente enorme e può sembrare assurdo. Da una parte, però, è praticamente indifferente che l'enormità di tale spreco risulti piu o meno catastrofica, dato che non occorre mai, né sarebbe possibile, occuparsi delle infinite dimensioni una per una. Dall'altra parte, tale ampliamento comporta una conseguenza molto vantaggiosa (per ora formalmente, e poi sostanzialmente quando si tratterà di introdurre in tale ambito le no­ zioni di probabilità e previsione ). Il vantaggio è questo : che, ora, potre­ mo anche conservare e considerare come valida la struttura lineare in tal modo introdotta in S e che ne fa un ambiente lineare, él, perché (per il principio del « todos caballeros » o « tutti Eccellenze » ) essa non crea piu alcuna discriminazione Ira i diversi numeri aleatori e in particolare fra i diversi eventi ( 2 ) . -

( I ) Distinzioni aventi senso sono ovviamente quelle riguardanti i «valori possibili,. per X i (os­ sia il «codominio,. di h ( Q ) : particolarmente importante (come già visto in pi6 luoghi) il caso di Xi limitate. Qui la cosa non c'interessa direttamente non dipendendo dalle questioni riguardanti il campo (e nozioni collegate). ( 2 ) Anche su tale questione rileviamo considerazioni concordanti in (Bodiou, I 964, già cit .), tanto pi6 interessanti in quanto ispirate non da preoccupazioni concettuali astratte come quelle qui prospettate, bens! da questioni di meccanica quantistica. Sostenendo l'opportunità di riferirsi a un « traliccio dialettico» (come da lui proposto) anziché ad una particolare forma di spazio di Hilbert, cosi egli commenta ( p . I03 ) : «Il privilegio abusivo che tale particolarizzazione conferisce alle 'coordinate di un corpuscolo' dissimula la generalità delle nozioni e solleva pseudo-problemi d'inter­ pretazione ( . .. ) Le coordinate non sono che numeri aleatori come tutti gli altri, per quanto importanti possano apparire».

él

3 . Gli eventi in un campo senza restrizioni

6 49

L'ampliamento effettuato per S non modifica, intrinsecamente, l'in­ sieme o campo a dei punti Q possibili; quelli che si considerano (provvi­ soriamente) « casi elementari possibili » sono sempre gli stessi , ma i « pun­ ti » che li rappresentano vengono assai maggiormente dispersi e dissemi­ nati nel campo S ampliato. Per una prima visione intuitiva si rammenti l'es. in ( II, 8 .7 : parabola y = .x2), che però riguarda solo un primo passo nel caso di un unico numero aleatorio. Nel caso generale, ed anche nel caso di detto esempio quando si considerino tutte le Y = f(X) (e perfino limitandosi alle Y = xn ) , avviene che tutti i punti Q (nel campo S amplia­ to ad ambiente lineare ,a ) risultino tra loro linearmente indipendenti. Ossia, se Qh Q 2 , . . . , Qn sono punti possibili ( appartenenti cioè a a ) , in tutto lo Sn-I che essi determinano non c'è nessun altro punto possibile (cioè : l'intersezione di a con tale Sn- l si riduce a questi n punti, e in ge­ nerale consiste di n punti al piu). Verifichiamo dapprima tale fatto, per fissare le idee, sul piu semplice esempio ora indicato. Il campo S è lo spazio cartesiano a un'infinità nu­ merabile di coordinate, xh ( h = 1 , 2 , 3 , . . . ), su cui si rappresentano i valori dei numeri aleatori Xh = Th (ove, per maggior chiarezza, indichiamo con T il numero aleatorio di partenza XI > rappresentato sull'asse Xl )' Il cam. . . .2 '" e' l a « l'mea » ( I ) d'1 equaZIOnI parametrlche Xl = t, X2 = ., po � X3 = t3 , . . . , Xh = t\ . . . , se il numero aleatorio T ammette come valori possibili tutti i numeri reali (da -00 a +00), e altrimenti il sottoinsieme dei punti della « linea » corrispondenti ai valori t € I del parametro t appartenenti all'in­ sieme I dei valori possibili per T (confrontare sempre con l'esempio in II, 8 · 7 ) · Quanto all'indipendenza lineare fra i punti di a, basta, per provarla, ricordare ad es. il non-annullarsi del determinante di Vandermonde : pre­ so un numero n qualunque di punti di a - siano QI> Q 2 , . . . , Q n corrispon­ denti a t = tI> t2 , . . . , tn - se fossero linearmente dipendenti ( se, cioè, appar­ tenessero ad un Sm, m < n-l ) lo sarebbero a maggior ragione le loro proiezioni su un sottospazio lineare ad n-l dimensioni, per es . quello ( I ) Diciamo «linea», per comodità d'espressione, in quanto insieme di punti dipendenti da t (-00 < t < +00); non importa, ai nostri effetti, che il termine sia piu o meno appropriato sotto altri aspetti . ( Si allude, per es. , alla «stranezza» che sui tratti con Itl > l i punti della .. linea,. , con la metrica usuale, hanno tutti distanza infinita uno dall'altro. Basterebbe però considerare la linea modificata, x. - th/h ! , o, equivalentemente, usare la metrica a. (X./h ! )2J'/2, per ovviare. Ma ciò sia detto a mero titolo di curiosità).

650

Appendice

ottenuto considerando solo le prime n-l coordinate Xl, X2 , . . . , Xn-l (e po­ nendo Xh = O, h � n). Ciò significherebbe l'annullarsi del determinante di Vahdermonde (ars = t;- l ; r, s = 1 , 2 , ... , n ), impossibile per valori distinti di t. Si può osservare che la stessa verifica riesce anche per tutte le altre infinite proiezioni ( ma per la conclusione ne basta una sola). La dimostrazione dell'indipendenza lineare nel caso generale di un ambiente lineare a qualsiasi è ancora piu semplice; l'utilità di quella pre­ cedente consisteva soltanto nel mostrare un caso in certo senso piu e­ spressivo in quanto non intervenivano « discontinuità » derivanti dal con­ siderare eventi, coi due soli valori possibili O e 1 . Siano ancora Qh Q 2 , . . . , Qn dei punti di él, e sia Q un punto linearmente dipendente da essi : QO = al Ql+a2 Q 2 + . . . +an Qn con ! ah = l (I); dividiamo gli n punti Qh in due gruppi, contrassegnandoli con uno o due apici (scrivendo cioè Q� o Q; per indicare Qh a seconda che lo collochiamo nel primo o nel secondo gruppo); unica condizione che le somme a' e a" dei pesi � ed a� non siano O né 1 (il che si può sempre fare salvo nel caso, ovviamente da esclu­ dere, in cui un solo ah vale 1 e tutti gli altri sono nulli, ossia in cui Q coin­ cide con uno dei punti dati Qh). Diciamo E' ed E" la somma logica dei Q' e dei Q", e sia E un qualunque evento E' c E c E" (in parole povere, collochiamo i Q' in E, i Q" in E, e ripartiamo comunque tra E e E tutti gli 'altri punti di él ) ; per ogni siffatto evento E possiamo dire che esso vale 1 su tutti i punti Q' e vale O su tutti i Q", e di conseguenza vale a' su Qo (ed è O " a' ,, 1 ). Pertanto, Qo non è un punto di él ( ossia « possibile» ) dato che ad E non attribuisce uno dei due valori possibili, O od 1 . Può sembrare assurdo « inventare » (non senza un po' di fatica) un campo S, o ambiente lineare a, fatto quasi completamente di punti che dovrebbero soddisfare condizioni assurde, come far assumere un valore log 2 o 1t ad un evento che non può valere se non O o 1 , oppure far assu­ mere ad X il valore 1 e ad X2 il valore 2 oppure o. Ma ciò potrà ben aver senso in termini di probabilità e previsione (può ben essere P(E) = log 2 , P(X) = 1 e P(X2 ) = 2 , per es. s e X è o O o 2 con probabilità t e t) , oppure in una combinazione lineare di previsioni (dr. III, 7 . 2 , nota I ) . Di que( l ' La notazione significa, intrinsecamente, che Qo è il baricentro delle Qh con masse ah, ossia il punto di coordinate baricentriche ah con riferimento ai punti-base Qh; in coordinate cartesiane, signifi­ ca che, presa una qualunque coordinata x, vale per i valori x( l ) che essa assume in Q i (i - O, 1, 2, , n ) l a relazione analoga x(O, - a,x! " +a2x( 2 ' + ... + a"x>. Queste regole sono d'altronde ovvie riflettendo al si­ gnificato stesso dei problemi ( 2 ) . È chiaro tra l'altro ( e discende anche formalmente da quanto detto) che combinando logicamente eventi certamente verificabili entro tempi finiti si ottengono eventi certamente verificabili entro (in generale) il piu lontano di tali tempi ; se, in particolare, consideriamo infiniti eventi con tempi di certa verificabilità finiti ma non limitati, non si ha piu la certa verificabilità. Venendo all'esame delle riflessioni che le circostanze analizzate sug­ geriscono riguardo alla nozione di evento (e con particolare riguardo alla realizzabilità di una scommessa, che è un po' per noi la « pietra di para­ gone »), sembra ben naturale concludere che ogni differimento, ed ogni aspetto asimmetrico che può derivarne ( tra accertamento della verità del' I ) Il significato è quello di sempre; tuttavia giova forse esprimerlo con riferimento al caso presente. TI e T2 sono logicamente indipendenti se, essendo ti un istante possibile per il risultare vero El e t;' per il suo risultare falso, e COSI per ti e ti' riguardo a E2 , è anche possibile che El risulti vero in t; ed E2 falso in ti'( ed analogamente scambiando vero e falso per t;'e ti , per t; e ti , per tl'e t� . Beninteso, se mancasse l'indipendenza logica l'insieme dei valori possibili per T* sarebbe o ancora quello COSI determinato oppure una sua parte. ( 2 ) Sarebbe certo opportuno, per evitare confusioni, introdurre segni modificati anziché v e " , qualora di tali notazioni s'intendesse fare effettivo uso. Prevedendo che servano solo qui e momen­ taneamente per questa spiegazione, non vale la pena di complicare le cose.

6. La verificabilità e il fattore operativo

661

l'uno o l'altro risultato), deteriora le caratteristiche richieste per un even­ to, finché, se il differimento è eccessivo o addirittura eterno, tali caratte­ ristiche scompaiono del tutto. Pur dovendo rinviare le osservazioni piu pertinenti a dopo introdotta la probabilità, appare certamente ben chiaro fin d'ora quanto sarebbe strano discutere o scommettere sulla verità di una frase (od anche soste­ nere che abbia senso) quando essa non afferma nulla che faccia differenza fra qualunque cosa potessimo vedere anche vivendo eternamente o tra­ mandando il compito alle future generazioni supponendo che mai si estin­ guano. E quanto sarebbe sciocco, oltre che strano, scommettere su una frase congegnata in modo che potrei perdere anche subito, ma vincere solo dopo la fine del tempo supposto senza fine ( fosse pure quella che presenta un rischio minimo, come l'affermazione che « mai verrà un gior­ no in cui gli uomini si trasformeranno in rinoceronti » ) .

6. La verificabilità e il /attore operativo. Avevamo detto, al fine di isolare (nel precedente n. 5) il fattore tem­ po, che consideravamo il risultato « noto o accessibile a tutti senza biso­ gno di far nulla per provocarlo o apprenderlo». Tale ipotesi non poteva essere che un caso limite idealizzato, ché anche ascoltare la radio o leg­ gere un giornale è un atto, che richiede, anche se in misura minima, un po' di tempo, di sforzo, di attenzione, di costo. In genere, per accertarsi se un evento, un'affermazione, sia vero oppure falso, occorre però svol­ gere una qualche attività in misura ben piu notevole. Spesso occorre ad­ dirittura apprestare esperimenti per osservare o misurare o magari pro­ vocare i fenomeni in questione, ma anche la semplice raccolta di dati esi­ stenti o la ricerca di informazioni su dati già raccolti sono operazioni deli­ cate e onerose. Diciamo fattore operativo quello che può determinare limitazioni nella verificabilità degli eventi in dipendenza della natura di tali opera­ zioni; un aspetto di esso è il fattore costo (inteso in senso lato) cui accen­ neremo congiuntamente. Anche la « precisione » e la « indeterminazione » sono fattori strettamente connessi al fattore operativo, ma, per la loro

662

Appendice

importanza ai nostri effetti, saranno trattati a parte, riservando ad essi i prossimi nn. 7 e 8 . C'è anzitutto un aspetto analogo a quello visto per il fattore tempo, e dipendente dalla difficoltà o impossibilità di fare un « numero » troppo grande, o infinito, di operazioni (diciamo « numero », anche se soltanto in certi casi ha abbastanza senso usare tale termine). Se volessimo accer­ tare, ad es. , che in un certo intervallo di tempo, tl ;5, t ;5, t2, una certa gran­ dezza y I(t) non ha mai superato un certo livello y Yo, e a tale scopo volessimo misurare y (oppure, come basterebbe, accertare che y ;5, Yo) in ciascuno degli infiniti istanti dell'intervallo (od anche solo in un sottoin­ sieme di istanti ivi ovunque denso, e quindi infinito anche se soltanto nu­ merabile), l'impresa apparirebbe irrealizzabile. Naturalmente, questa non è un'affermazione apodittica basata su preconcetti metafisici : è solo una constatazione empirica che difficilmente sembra poter essere invaH­ data in qualche caso pratico (e altrimenti se ne darà atto). Tuttavia, non si può concludere, da tale ammissione, l'impossibilità di verificare ope­ rativamente per altra via l'evento che interessa: basta riuscire ad escogi­ tare e applicare, per il caso in questione, qualche dispositivo sul tipo del « termometro a massima (e minima) >> per la temperatura o di un fusibile calibrato per l'intensità di corrente. Si notino comunque, sull'esempio considerato, due circostanze. Pri­ ma: le limitazioni derivanti dall'irrealtà di considerare simultaneamente un'infinità di « prove » possono essere formalmente le stesse che nel pre­ cedente n. 5 , ma il significato è completamente diverso ; qui non c'entra il differimento sine die della verifica, bensl l'i"ealizzabilità di essa ( che, supposta realizzabile, non presenterebbe ritardi). Seconda: la non verifi­ cabilità di un'asserzione mediante una certa procedura (qui : la misura­ zione in infiniti istanti) non esclude la verificabilità per altra via. La non verificabilità in senso assoluto non si può asserire in base all'irreaHzzabi­ lità di uno o piu schemi operativi ideati : lo si può solo in base a qualche ipotesi abbastanza generale (e potrà essere piu o meno fondata . . . ) che escluda la realizzabilità di qualunque schema. Una formulazione che potrebbe in certi casi esprimere abbastanza be­ ne ( anche se in modo assai schematizzato e idealizzato) il senso di tali limitazioni potrebbe consistere nel considerare verificabile un evento (o, meglio, una partizione in eventi) quando vi si può giungere con un nu=

=

6 . La verificabilità e il fattore operativo

663

mero finito di operazioni elementari realizzabili. Si noterà che, se si pren­ dono i risultati di queste operazioni come eventi-base, ciò corrisponde a dare ad essi un certo ruolo privilegiato; e ci eravamo tanto adoperati per cancellarlo! Non c'è contraddizione : intanto qui si è precisato con quale criterio, semmai, vanno scelte le suddivisioni di base per dargli una posi­ zione privilegiata, ed in secondo luogo ciò sarebbe giustificato solo se in qualche caso sembra effettivamente valida ( o almeno circa) una formula­ zione come quella or ora prospettata a mero titolo di esemplificazione ipotetica. Una limitazione piu realistica (e non solo nel campo pratico) sarebbe quella analoga, ma consistente nell'imporre di contentarsi, non solo di un numero finito, SI, ma comunque grande di operazioni, bensl di un nu­ mero finito non eccedente un certo limite superiore finito. Ad es., nel caso delle misurazioni di y = I ( t) in ( th t2 ), sarà da considerare impossibile non solo il fare infinite osservazioni entro quell'intervallo di tempo, ma il farne piu di un certo numero finito (piu o meno precisamente indica­ bile). In realtà, anzi, questo limite superiore sarà in genere tutt'altro che preciso, a meno di non introdurre il fattore costo : non s'incontra in ge­ nere un punto netto di separazione, fino al quale si giunge senza difficoltà, ed oltre il quale è impossibile spingersi. Il fatto è invece che, proceden­ do, s'incontrano difficoltà sempre maggiori e sempre piu rapidamente crescenti. Diciamo costo la misura di queste difficoltà; si tratta, come già detto, di « costo in senso lato », e cioè consistente non solo del denaro speso ma soprattutto degli sforzi e del tempo richiesti e delle ripercus­ sioni su impieghi alternativi cui tali sforzi e tale tempo potevano essere destinati. Tuttavia, tale costo potrà sempre esprimersi in denaro; lo diciamo non per riportare i ragionamenti degli economisti al riguardo, ma solo per poter soggiungere che, pertanto, il problema della limitazione si può porre nei termini che seguono. Prima versione : dato il costo totale sopportabile (per un certo perio­ do di tempo), si può distinguere se un certo complesso di operazioni è realizzabile o no. Si deve allora scegliere il piu efficiente (quello che dà risultati nell'insieme migliori) tra quelli realizzabili. Seconda versione: è un perfezionamento della precedente, e presup­ pone determinato, in conformità ad essa, il complesso migliore di opera-

664

Appendice

zioni realizzabile sopportando un dato costo, che però non si considererà piu dato e fisso, ma variabile entro un certo intervallo di valori. Anche il costo, cOSI, si può fissare a scelta; e lo si sceglierà in modo che si giunga al punto di equilibrio, in prossimità del quale un aumento di costo produce un aumento di efficienza equivalente (principio marginalistico). L'ipotesi piu semplice, circa i costi, è quella di additività (un costo dato per ogni singola operazione); ma non ci si deve in genere limitare ad essa. Un ulteriore passo verso il realismo (ed ultimo: sembra che con esso, ai fini di una schematizzazione idealizzata, potremo contentarci) consiste nel tener conto almeno di un particolare tipo d'incertezza da cui saranno in generale affette anche le « operazioni » che impieghiamo per verificare degli eventi. Avevamo ammesso finora senz'altro che una tale operazio­ ne dovesse darci sempre una risposta precisa, o SI o NO, alla domanda cui corrisponde; ammettiamo ora che la risposta possa anche essere NI, ossia che l'esperimento non riesca o che dia un risultato non sufficiente­ mente netto e chiaro per consentirci di considerare irrefutabilmente pro­ vato il S I oppure il NO. Che ciò possa avvenire in qualunque esperimento o procedura (come esame di testimonianze, ecc. ) è ben naturale. Semmai si potrebbe fonda­ tamente obbiettare che tale ammissione è ancora insufficiente, che un SI o un NO netto e definitivo non si può avere mai da nessun esperimento . . . e si tratta solo di piu o meno alta probabilità. Non occorre dire quanto io sia d'accordo; tuttavia, per non entrare in un circolo vizioso, il meglio (o meno peggio) che si possa fare mi sembra spingersi fino all' approccio sug­ gerito. Esso introduce in modo significativo l'incertezza in quanto pos­ sibilità della risposta NI, ma non preclude la costruzione di uno schema che vuoI essere preliminare all'introduzione della nozione di probabilità ; si creerebbe invece tale preclusione se s'insinuasse il tarlo dell'incertezza anche nelle risposte SI e NO. Del resto, uno studio basato su un'impo­ stazione totalmente immersa nell'incertezza, ossia probabilistica, si potrà fare dopo costruita la teoria della probabilità. Ad es. , nella teoria degli errori accidentali - dove un errore può essere comunque grande, sia pure con probabilità estremamente piccola ( data dalla distribuzione normale, o gaussiana) - si segue proprio questo concetto. Un'operazione ci potrà dunque dare, riguardo a un evento E, o la ri-

6. La verificabilità e il fattore operativo

66 5

sposta S I ( e quindi NO per E), o la risposta NO ( e quindi S I per E), o la risposta NI ( tanto per E che per E). Ma potrà ben darsi - e sarà questo il caso cui ci riferiremo - che l'operazione fornisca risposte analoghe per altri eventi, e in definitiva per una partizione CI, C2 , , Cs : in tal caso le risposte saranno, o S I per uno dei costituenti Ck (e quindi NO per tutti gli altri : risposta completa), oppure nessun S I e piu di un NI con o senza dei NO (risposta parziale se c'è almeno un NO ; risposta assolutamente nulla, che ci lascia cioè nella stessa ignoranza di prima, se dà tutti NI ). Riguardo all'E che ci interessa, la risposta sarà SI se E contiene il costi­ tuente che ebbe la risposta SI oppure ( se mancava il S I ) se contiene tutti i costituenti con risposta NI ; la risposta sarà NO se, simmetricamente, E sarà contenuto nella riunione dei costituenti con risposta NO ; sarà NI al­ trimenti (ossia se tanto E che E sono compatibili sia con la riunione dei NO che con quella dei NI, sostituita dal costituente SI se esiste). Il tener conto delle risposte parziali in questo modo piu dettagliato, riferendoci cioè alla partizione nei costituenti, accresce di molto l'efficien­ za del procedimento, perché permette di trarre dal risultato di ogni ope­ razione la massima informazione possibile. Per illustrare intuitivamente l'ovvio meccanismo, si pensi che per individuare il colpevole fra n indivi­ dui (che siano certamente i soli possibili) bastano n-l osservazioni aven­ ti il minimo effetto di escludere uno con la risposta NO e attribuire a tutti gli altri un NI : se ogni osservazione esclude un individuo diverso, l'unico che rimane è il colpevole. Se invece si fosse soltanto preso nota, pensando a lui (per es. in quanto maggiormente sospettato) se ogni prova era sufficiente o no, si sarebbe dovuto concludere per il NI avendo avuto sempre risposta NI. Agli effetti delle applicazioni alla verificabilità, tale arricchimento di possibilità aumenta un po' la complicazione ma in compenso ne elimina altre derivanti dalla rigidità dello schema precedente. Lo vedremo par­ ticolarmente quando ci occuperemo di procedimenti di misura (nel pros­ simo n. 7 ). Si potrebbe del resto esprimere tutto in modo piu diretto e semplice riferendoci senz'altro al campo él dei casi elementari Q ( anziché fissare le idee - come in certo senso è piu istruttivo - sulla partizione messa in gioco dall'operazione). Pensando a él, una « operazione » ha lo scopo spe­ rato di ottenere una informazione, il che si riduce a restringere il campo • • •

Appendice

666

él eliminandone i Q risultati impossibili (NO) e conservando gli altri (NI ); il S I servirebbe solo nel caso di una informazione completa, per de­ signare l'unico « punto » non escluso (o mai, se si vuoI tener conto scru­ polosamente dell'osservazione che nessuna suddivisione - anche se si usano parole come punto od atomo - può esser mai considerata come estrema e definitiva). Agli effetti delle precedenti considerazioni sulla convenienza derivan­ te dall'efficienza e dal costo, la differenza sta solo nel fatto che s'introdu­ ce il fattore incertezza. Decidendo un certo modo di procedere, non è piu noto a priori se e con quante operazioni si giungerà alla conclusione desi­ derata. Il giudizio di convenienza richiede pertanto l'applicazione della teoria delle decisioni in condizioni d'incertezza, cioè la massimizzazione dell'utilità sperata corrispondente a un costo incerto e a un'efficienza in­ certa. Lo sperimentatore potrà stimare sinteticamente ad occhio la via che ritiene, tutto sommato, la migliore da scegliere. Se vorrà applicare il cal, colo delle probabilità, tanto meglio ( supposto ne valga la pena, cioè che il costo addizionale di tali calcoli non superi l'incremento sperato di uti­ lità per la migliore scelta del procedimento). Comunque, tale fatto non costituisce, qui, quel circolo vizioso che sopra avevamo detto di voler evitare. L'eventuale applicazione della teoria delle probabilità a questo aspetto del problema riguarda lo sperimentatore, che può ben conoscere il calcolo delle probabilità oppur no indipendentemente dal punto della presente trattazione in cui abbiamo occasione di parlare di lui. Del re­ sto, che egli faccia i suoi conti piu o meno bene, che scelga le procedure piu o meno appropriatamente, è cosa che non ci riguarda né interessa; delle procedure c'interessiamo qui solo in astratto, in linea di principio, come strumenti utilizzabili che dànno certi tipi di risposte. Utilizzarli piu o meno bene è un'altra questione.



La

verip,cabilità e il fattore precisione.

Abbiamo già parlato (nel precedente n. 6) di misurazioni; però, per non distrarre l'attenzione dagli argomenti cui volevamo ivi limitarci, ab-

7 . La verificabilità e il fattore precisione

66 7

biamo tacitamente supposto che si trattasse di misurazioni esatte. Ma è ben noto che l'esattezza è irraggiungibile ( salvo nel contare, se si riesce a non far sbagli); nelle misurazioni si può soltanto prefiggersi una certa minore o maggiore precisione (I), ed anche qui ( come nelle questioni ana­ loghe poco fa) un miglioramento di precisione implica in genere un au­ mento di costo. Da tale punto di vista nulla cambia e nulla v'è pertanto da aggiungere. L'aspetto piu importante da esaminare (e quello per cui tale aspetto è cOSI importante) consiste nelle conseguenze che da tale imperfetta pre­ cisione nelle misure derivano alla identificabilità dei singoli punti Q di él (o di S ) ; ciò porta a discutere se e in che senso convenga introdurre nel campo él (od S ) una struttura topologica. Anche di siffatte strutture ci eravamo sforzati di cancellare ogni traccia; ma anche qui tuttavia non c'è contraddizione. Si tratterà non di accettare strutture spurie o suggerite da pseudomotivi di convenienza analitica, bensI di accettare, eventual­ mente e dopo un severo vaglio, quelle rispondenti ad esigenze sostanziali e significative. Cominciamo col considerare il caso di un unico numero aleatorio X, e siano per esso valori possibili tutti i numeri reali. Finora, nell'avviare le discussioni sulla « verificabilità », abbiamo sempre parlato soltanto di eventi, e mai di numeri aleatori, ma è pleonastico che « verificare » quale sia il valore x di X significa (in senso esatto) verificare quale degli eventi E", = (X = x) sia quello vero, mentre, in senso parziale, si tratterebbe di verificare eventi del tipo Er = (X € I), con I insieme a priori arbitrario. Nulla si può dire in generale sul modo in cui è possibile procedere : non si tratta di un problema matematico bensI di particolarità inerenti a ciascun caso secondo la sua natura. Il problema non esiste quando X si presenta bell'e pronto già scritto in cifre arabe ( come quello sulla pallina della tombola o sui settori della roulette) o indicato con puntini (come sui dadi) o ci viene fornito e garantito da altri (come i dati del censimen­ to o statistici in genere, ecc. ecc. ). In questi casi si tratta di numeri alea­ tori interi, ed è naturalmente una situazione piu facile; tuttavia, anche di ( I ) Nella teoria delle probabilità (e in ispecie in quella riguardante gli «errori accidentali>.) si chiama «precisione» il reciproco dello scarto-standard, cioè l/a. Qui però usiamo sempre il termine discorsivamente, senza riferimento ad alcun signi6.cato « tecnico» (per cui cfr. XII, 3.2).

668

Appendice

grandezze continue si trovano pronte in tal modo indicazioni precise quanto possibile (costanti fisiche, coordinate geografiche di punti geode­ tici, altezze di edifici, pesi di oggetti o individui, ecc. ecc . ) . Se invece tocca a noi individuare (esattamente o parzialmente, in particolare approssi­ mativamente) il valore x di X dovremo esaminare caso per caso quali eventi El ci sono piu o meno accessibili, e quali ci dànno informazioni piu interessanti od utili su X, e quindi scegliere, proprio tal quale come nel caso già visto ( nel n. 6 ), il complesso di operazioni migliore in rela­ zione alla convenienza, ossia considerando congiuntamente l'efficienza ed il costo. Come sarà possibile apprendere qualche cosa, e quali cose, riguardo ad un numero aleatorio X? La domanda, cOSI formulata, non ha senso, perché la risposta non dipende dal fatto che X è un numero aleatorio ben­ SI, caso per caso, dal concreto specifico significato che ogni dato X ha in base alla sua definizione. Il caso cui vien fatto di pensare in modo pres­ soché esclusivo è quello di una grandezza fisica di cui si potranno otte­ nere misure piu o meno precise, ed è questo l'aspetto che c'interesserà anche qui precipuamente. Bisogna però notare che, all'infuori di questo caso particolarissimo, non c'è ragione, in genere, di pensare che il pro­ blema possa venir prospettato secondo il medesimo concetto. Una X de­ finita come funzione, non praticamente abbastanza continua ( I ) , di altro numero aleatorio avente significato fisico, non si presta evidentemente ad esser misurata utilizzando tale definizione, ma può esserlo o non esserlo a seconda che essa stessa (od altra che ne sia funzione opportuna) abbia un significato fisico che la rende suscettibile di misura diretta. Può darsi in compenso, specie se la definizione di X è legata a concetti matematici, che risulti facile o comunque accessibile la risposta circa l'appartenenza di X ad insiemi I meno semplici (e in genere meno decidibili) che gli in­ tervalli ; per es. rispondere se X è o non è razionale, algebrico, ecc. Un esempio appropriato è quello del numero aleatorio X = 1t ; l'esem­ pio può apparire strano perché - si dirà - 1t non è un numero aleatorio : è un numero ben determinato, che già Archimede aveva determinato con precisione notevolissima (per quei tempi), di cui si trovarono poi ( I ) Per es. , nel senso di essere lipschitziana (almeno nel campo che praticamente interessa).

x"+ & ), (x' -& s X s x' + & ) v (x" - & s X s x" +&).

Forse piu interessante è considerare il caso piu semplice, di confronto con un unico valore x, chiedendo se X < x ( tanto piu che il caso dell'in-

67 4

Appendice

tervallo si riduce a due domande del genere con x = x' e con x = x"). In questo caso le risposte significano: con due sole risposte S I o NO, S I : (X < x+ 8 ), NO : (X > x-8) (cioè : non può venire esclusa, quale che sia la risposta, l'eventualità che X possa assumere un qualunque valore tra x±8), mentre con tre risposte il NI indica distintamente tale eventualità: S I : X < x-8 ( e a fortiori, certamente, X < x), NO : X > x+8 (e a fortiori, certamente, X > x), NI : x-8 :s X :s x+8. In entrambi i casi si poteva però supporre che la risposta N I non desse alcuna informazione. Ciò avverrebbe ad es. se essa potesse dipendere sia dal trovarsi X vicino agli estremi dell'intervallo esplorato, e sia da una casuale disfunzione dell'apparecchio. Osserviamo ciò non per il gusto di allargare la collezione di varianti quanto per ribadire che ogni questione è legata a circostanze di fatto; le strutture logiche possono venir preci­ sate riferendosi a determinate circostanze, non in base a convenzioni fis­ sate a priori ritenendo di poterne prescindere ( 1 ) . Veniamo ora alle conclusioni in vista delle quali abbiamo sviluppato queste considerazioni. Se X è un numero aleatorio conoscibile attraverso procedimenti del genere, per quali insiemi I potremo dire che l'evento X € I è verificabile? ossia� quando ha senso, praticamente, chiedersi se X appartiene ad I ? Attenendoci alla norma di riferirci, nell'introdurre ogni nozione, ad un'analisi realistica dei presupposti (come quella che abbiamo cercato di fare), ma tenendo tuttavia presente che sarebbe poco realistico prender troppo sul serio anche tali considerazioni realistiche fino a fame dei fe­ ticci metafisici, sembra giustificato soffermarsi sulla considerazione di tre soli tipi di risposta. Potremo distinguerli parlando anche qui di precisio­ ne limitata o illimitata o perfetta (senza introdurre altre parole, benché la presente tripartizione trascuri volutamente, per i motivi detti, molte suddivisioni piu sottili). Riferendoci sempre, per ora, al caso di un numero aleatorio (ossia, ( 1) L'insistenza su tali esigenze si spiega (e vorrei sperare fosse scusata) per l'impressione che in genere non se ne tenga conto sufficientemente (e talora aHatto).

7 . La vermcabilità e il fattore precisione

6 7'

geometricamente, di una retta: asse reale), i tre casi si possono cOSI de­ scrivere (cominciando dall'ultimo) : Precisione perfetta. È il caso i n cui s i pensi di non dover tenere in alcun conto le difficoltà pratiche esposte in questo n. 7 , e di considerare perfettamente determinabile il valore di X e quindi la sua appartenenza o meno ad un qualunque insieme I. È un punto di vista molto teorico, ma non c'è nessun motivo di rifiutarlo come tale. Anzi, non sembrano in alcun modo giustificabili delle preclusioni in tal senso (o delle imposta­ zioni che implichino una siffatta preclusione), a meno che non sia per te­ ner conto del carattere non realistico di tale perfetta precisione e per so­ stituire per tal motivo a questo primo caso uno dei successivi. Precisione illimitata. È il caso in cui, traducendo in forma necessaria­ mente idealizzata la situazione pratica realizzabile nelle circostanze piu favorevoli, si immagini di poter sempre avere, circa l'appartenenza di X a un qualsivoglia insieme I, una risposta, ambigua solo per i punti di frontiera. Cioè : la questione « è vero che X appartiene all'insieme I ? » è parzialmente decidibile nel senso che possiamo ottenere una risposta che sarà o S I o NO, essendo certamente SI se X è interno ad I, certamente NO se è esterno, mentre può essere indifferentemente SI o NO se X ap­ partiene alla frontiera di I, �(I), ossia se ogni intervallo (per quanto piccolo) contenente ( al suo interno) il punto X contiene sia punti di I che del complementare 1. In altra forma : avendo ottenuta una misura x di X, sarà lecito concludere che X € I se x è interno ad I, ecc. Precisione limitata. È l'attenuazione del caso precedente in cui alla frontiera � ( I) di I si sostituisca una « fascia di frontiera di spessore O », �s (I), formata dai punti x per i quali l'intorno x±o contiene punti ap­ partenenti e punti non appartenenti ad I. Se diciamo punti o-interni (risp. o-esterni) ad I quelli appartenenti ad I (risp. a 1) ma non ad �s (I), la differenza dal caso precedente si riduce a premettere « 0- » (eventual­ mente, dicendo anche « o-frontiera » ). Con una modificazione irrilevante si può anche far rientrare il caso precedente in quello attuale, col porvi 0 = 0 : basta definire �s (I) dicendo, in luogo di « intorno x±o », « ogni intorno x±o', con o' > o ». In tutti i casi, ciò deve intendersi come risultato finale possibile (non come risultato possibile di « una operazione» di misura, migliorabile com­ binandola con altre).

Appendice

6 76

Precisione limitata: varianti piu generali, fisse e opzionali. Non c'è difficoltà a rendere meno rigido questo schema in due sensi diversi, e si ottiene cOSI una rispondenza assai maggiore ad esigenze di realismo (be­ ninteso : idealizzato). Anziché gli intorni x±o, con o numero fisso, possiamo definire diret­ tamente o (x) come un intorno di x associato ad x in modo qualunque (in genere asimmetrico e di lunghezza variabile), salvo l'opportuna restrizio­ ne di reciprocità : x' e o (x" ) +---+ x" e o ( x' ). Esempio : intorni definiti da r (f(x)± o), f crescente, o costante. Ciò libera dalla scala. Ma una piu vera e indispensabile libertà consiste nell'ammettere che sia possibile conseguire una misura con la precisione definita da diverse leggi o (x), fra cui sia libera la scelta ( sia pure - ma di ciò al momento non ci curiamo - con diverso costo). Potrebbe esistere la scelta tra misurare con errore ::s; o una delle due grandezze X o eX, o di tre, . . . , di infinite, oppure X con errore o piu o meno piccolo (non necessariamente comun­ que piccolo). Parleremo, in questo caso, di misurazioni con precisione limitata opzionale. Per ogni legge o (x) la definizione di �& ( 1 ) diviene : riunione di tutti i o ( x ) per x e � ( 1). Sotto questa forma è chiaro come, formalmente, le nozioni relative ai precedenti schemi potrebbero senz'altro trasportarsi, dal caso unidimen­ sionale (una sola X presa in considerazione), al caso generale, pur di avere una topologia. Si tratta però di esaminare criticamente - ma dal punto di vista sostanziale, non in astratto - se e come delle considerazioni sostan­ ziali sull'osservabilità, analoghe a quelle svolte ora per una X, possono giustificare l'introduzione di una topologia nel caso piu generale dopo esserci data tanta pena di eliminare ogni traccia di quelle che potevano presentarsi spontaneamente, ma forse ( sospettavamo) surrettiziamente. 8.

Continuazione: caso di piu (o infinite) dimensioni.

Nel caso di un numero finito di dimensioni l'estensione delle consi­ derazioni precedenti non presenta troppi aspetti nuovi, . . . ma quand'è che il numero delle dimensioni è finito ?

8 . Continuazione : caso di piu (o infinite) dimensioni

6 77

Avendo rimescolato tutti i punti per abolire la topologia, lo ST di r numeri aleatori XI " , XT non è che un'infinità di punti con la potenza del continuo, che si possono individuare con un unico numero X. (Non oc­ corre neppure ricorrere alla curva di Peano per avere la continuità, dato che ne prescindiamo). Non è certo una scoperta che, sopprimendo la to­ pologia, si toglie significato anche alla dimensionalità, ma è un'osserva­ zione necessaria per inquadrare il problema quale si presenta nel nostro caso. Un'osservazione in senso inverso, per mostrare che l'ST (supposto di accettarlo per avere una rappresentazione continua rispetto alle XI . . . XT) potrebbe non bastare. Se interessasse considerare anche il valore di un al­ tro numero aleatorio, X, funzione dei precedenti, X = f(X" X2 , . . . , XT), non c'è alcun bisogno - in senso logico - di una nuova dimensione per rappreseritarlo. Se, però, la funzione f è molto irregolare, per es. ovunque discontinua, la conoscenza degli Xh nel senso della « precisione illimita­ ta » non basta a determinare il valore di X. Nel caso di precisione limitata lo stesso inconveniente si produce anche se X varia rapidamente sia pure in modo continuo (per es . X = !h sin}.Xh, con II). piccolo rispetto alle imprecisioni nella misura delle Xh) ( I ). In questi casi, se interessa anche la X (e c'è qualche modo di misurarla pili diretto e attendibile del suo calcolo con la formula; altrimenti c'è non un interesse ma un pio desi­ derio), bisognerà introdurre un'altra dimensione per la X passando cOSI dall'ST ad un ST+ 1 (ed oltre, se di tali funzioni dovessimo considerarne parecchie). Ed ancora un'osservazione, anch'essa di natura pratica, che fa dimi­ nuire, in altre ipotesi, il numero delle dimensioni da distinguere. Suppo­ niamo che nell'impostazione iniziale si considerino un gran numero di grandezze X" X2 , . . . , XT come ad es. coordinate e componenti di velocità di N molecole (allora r = 6N), e che, dal punto di vista pratico, interessiUn caso adatto come semplice esemplificazione è il seguente. Abbiasi un fenomeno con l'an­ damento, in funzione del tempo t, l (t) - A (t}+B (t) sin lt, dove sin lt rappresenta un'oscillazione diurna o stagionale (periodo 1 giorno o 1 anno), mentre A ( t) e B ( t) hanno variazione piu lenta (per­ cettibile solo su tempi assai piu lunghi) rappresentando la tendenza secolare ( > . Anche l'atteggiamento di Bo­ diou - vedasi la precedente citazione (da B, p. 7 ) nel n. 9 - sembra ispi­ rato al superamento di questa distinzione; e d'altronde sembra progres­ sivo e fatale il raggiungimento di vedute via via piu comprensive che tol­ gono dall'isolamento ciò che al primo apparire sembrava abnorme. Che differenza c'è, dunque, dal punto di vista logico, fra la comple­ mentarità o non-complementarità di misure nel caso del fisico e in quello ( sopra usato come banale esempio) del sarto ? E fra gli esempi preceden­ temente citati, come quello della moneta che al prossimo colpo potrebbe esser lanciata da Tizio oppure da Caio, ed un esempio di natura quanti­ stica ? Proprio su tale esempio il Reichenbach ha svolto le sue argomen­ tazioni (R, pp. 243-44 e 277-7 8 ) basandosi su una contrapposizione asso­ lutamente rigida fra l'indeterminismo di natura quantistica e il determi­ nismo del mondo macroscopico. Tale determinismo sarebbe tanto per­ fetto che, per il risultato che avrebbe avuto il lancio di Caio (che non ebbe luogo ), trattandosi di « un fatto macroscopico, abbiamo in linea di principio altri mezzi per controllarlo » misurando esattamente lo stato dei muscoli di Caio, dopo oppure prima del lancio effettuato da Tizio, e tan­ te altre cose. « Per meglio dire, dato che noi non potremmo farlo, lo po­ trebbe fare il superuomo di Laplace. Per noi, il valore di verità dell' affer­ mazione di Caio resterà sempre sconosciuto ; esso non è però indetermi­ nato, perché in linea di principio è possibile determinarlo, e ce lo impe­ disce soltanto una insufficienza di carattere tecnico » . Entrando nel merito, si potrebbe obiettare che il « determinismo » del macrocosmo (cui esplicitamente R si riferisce) ha mero carattere stati­ stico, il che rende del tutto imprevedibile un fatto per cui possono essere decisive innumerevoli circostanze microscopiche (senza dire che anche il

1 2 . Relazione con le « logiche trivalenti »

7 05

risultato di un solo urto fra particelle registrato su una lastra può causa­ re fatti macroscopici come stampa di memorie, conferenze, congressi, e conseguenze indirette a non finire di siffatte conseguenze). Inoltre, nep­ pure Laplace, ch'io sappia, ha mai immaginato che il suo « superuomo » avrebbe potuto predire non solo tutto ciò che avverrà, ma anche ciò che avverrebbe se . . . avvenisse qualcosa che non avverrà. Come mai lo stato dei muscoli ecc. potrebbe informarci sul risultato del lancio non eseguito (e, perché no, il testo di un colloquio mancato, le peripezie di un viag­ gio non fatto, ecc. ) anziché informarci direttamente che è predeterminato che il lancio o il colloquio o il viaggio non avranno luogo (o non hanno avuto luogo) ? Non mi consta che neppure in discussioni teologiche si sia mai preteso di stabilire se l'onniscienza divina include la conoscenza di ciò che esattamente sarebbe avvenuto al mondo subordinatamente ad ogni pensabile diversa ipotesi sulla forma del naso di Cleopatra (o su qua­ lunque altro fatto, importante o irrilevante, della storia del mondo). A mio avviso, però, non era neppure il caso di entrare nel merito di siffatte questioni, fisiche o metafisiche che siano, perché la logica non può essere che neutrale e anteriore rispetto ad ogni situazione contingente delle conoscenze od ipotesi scientifiche riguardanti il mondo dei feno­ meni ( I ). Deve applicarsi al pili vasto campo del concepibile, ed è già trop­ po limitativa l'inevitabile circostanza che la fantasia serva cOSI poco ad al­ largare tale campo rispetto a quel che già è stato constatato o realizzato. La stessa fantascienza raramente precorre di pili che qualche decennio la realtà. Servirsi di nuove idee o scoperte può esser legittimo per aggior­ nare delle vedute di logica includendo nel suo dominio nuove regioni del concepibile precedentemente ignorate (ed è ciò che stiamo tentando); sa­ rebbe farne uso a rovescio quello che rendesse invece ristretta ed effimera ogni teoria logica riducendola a un riflesso, momento per momento, del­ le vedute scientifiche di moda. Prima di passare ad altro argomento è forse opportuno un chiarimen­ to sulle vedute in tema di determinismo, dato il nesso con discussioni at­ tinenti alle presenti teorie e dato che ne è stato fatto cenno (sia pure per giudicarlo non pertinente). A mio avviso l'attaccamento al determinismo ( I ) Come, del resto, è detto perfettamente, in altro luogo, proprio dallo stesso Reichenhach (cfr. cito nel n. 9 da R, p. 177).

7 06

Appendice

come esigenza del pensiero è ormai incomprensibile. La semplice esisten­ za, come teorie coerenti e da molti giudicate accettabili, di spiegazioni di fenomeni apparentemente deterministici sul tipo vuoi della meccanica statistica classica ( o dell'ereditarietà mendeliana) e vuoi della fisica quan­ tistica, basterebbe a smentire per sempre il dogmaticismo di quella visio­ ne. Basterebbe, voglio dire, il fatto che tali teorie esistano o siano conce­ pibili, non importa che fossero errate e perfino che fossero delle riuscite elucubrazioni dichiaratamente fantascientifiche. Altra cosa è il porsi questioni analoghe da un punto di vista non dog­ matico ma, potremmo dire, psicologico-estetico. Ciascuno potrà trovare piu o meno semplici e convincenti, in base ai propri gusti e alle proprie abitudini, delle leggi o teorie formulate in termini deterministici o inde­ terministici, e, in particolare, giudicare con piu o meno favore ( a priori, prima cioè di un eventuale piu o meno approfondito apprendimento od esame delle ragioni specifiche pro e contro ) le idee tendenti a considerare le teorie quantistiche di tipo probabilistico come spiegazioni parziali, in­ soddisfacenti e provvisorie, che dovranno venir rimpiazzate, a scadenza piu o meno lontana, da qualcosa di tipo deterministico. Personalmente ritengo che nulla mai si debba escludere in modo apo­ dittico : i concetti di domani saranno quasi certamente altrettanto incon­ cepibili per noi oggi quanto i concetti di oggi lo sarebbero stati per l'uo­ mo dell'Boo o per quello di Neanderthal. Questo però come prospettiva lontana; fino a quando le basi della fisica rimarranno quelle odierne (sup­ pongo per parecchi decenni, forse secoli) ritengo poco verosimile che esse possano venire interpretate o adattate in versioni deterministiche, come quelle che taluni vagheggiano invocando la possibile esistenza di « para­ metri nascosti » o simili espedienti. E non solo perché mi sembrano con­ vincenti le argomentazioni di von Neumann contro tale idea (vN, pp. 1 67-73 ), ma anche perché non riesco a vedere alcun motivo per vagheg­ giarla o apprezzarla al di fuori di un anacronistico e nostalgico precon­ cetto in favore della moda scientistica di tipo ottocentesco. Semmai, mi ripugna invece, lasciandomi qualche perplessità, l'ammettere che l'evo­ luzione del sistema (ossia, della sua funzione \jJ) sia di tipo deterministico (anziché, per es. , un processo aleatorio), cosicché l'indeterminismo si in­ sinua soltanto per effetto dell'osservazione anziché dominare la scena completamente. Ciò può effettivamente indurre a cercare qualche signifi-

1 3 . La verificabilità e i fattori perturbativi

707

cato che oggettivizzi la funzione I!J, benché sia proprio la nozione meno adatta per sembrare suscettibile di una siffatta metamorfosi. Comunque, agli effetti che ci riguardano come esseri umani, interes­ sati a prevedere con qualche affidamento il futuro in base alle proprie co­ noscenze scarse e imprecise e incerte del presente e del passato, ogni di­ sputa sul determinismo è puramente accademica, e non piu significativa di quelle sul sesso degli angeli. Comunque si svolga la storia del mondo, nessuno potrebbe smentire né chi sostenesse che tutto è determinato dal passato tramite ferree leggi ( sebbene nulla o ben poco si possa prevedere perché troppo ignoriamo sia del passato che delle leggi), né chi sostenesse che tutto avviene « a caso » (col che non si esclude che, « per caso », le cose possano andare nel modo voluto da una qualche « legge » ). In definitiva, sembra cosa di ben scarsa utilità e conforto una qualsiasi presa di posizio­ ne decidendo se sia da giudicare pi6. o meno plausibile l'ipotesi che un Superuomo di Laplace potrebbe calcolare tutto il futuro se conoscesse esattamente tutto il presente. Una tale frase, nel senso ora esaminato, è da dirsi infatti né vera né falsa, bensl indeterminata, essendone indubbia­ mente chimerica e quindi falsa l'ipotesi. 13·

La verificabilità e i fattori perturbativi.

Per chiudere la rassegna dei vari fattori che hanno importanza nel de­ terminare e verificare il risultato di un evento, occorre soffermarsi anco­ ra sui pi6. imbarazzanti. Sono quelli suscettibili di alterare il risultato o di influire sulla verificabilità di un evento o di ingenerare dei dubbi su tali possibilità di perturbazioni, per motivi riguardanti gli individui coin­ volti o loro interessi. Molti casi sono ben noti, e ne daremo esempi senza poter dire gran che di utile per ovviarvi. La considerazione piu approfondita (e probabil­ mente nuova) sarà però quella riguardante gli eventi della logica a tre valori illustrata nei precedenti nn. 1 0- l 2 , di cui sembra non si possa dare una definizione completa senza incontrare simili motivi di possibile per­ turbazione. Ma cominciamo dai casi pi6. noti ed ovvi. Vi sono eventi su cui interviene la volontà di individui, e di per sé

7 08

Appendice

non c'è alcuna differenza tra questo caso e quello di eventi dipendenti da animali o fatti naturali. Si presenta una differenza, un fattore perturba­ tivo, quando tale volontà può venire influenzata da fatti che sono ogget­ to del nostro studio e che alterano in tal modo questo stesso oggetto di studio. Ciò avviene quando la valutazione di una probabilità, la cono­ scenza di una tale valutazione, la stipulazione di contratti basati su una tale valutazione, modificano le circostanze su cui la valutazione stessa era basata. È vero : anche qui parliamo di probabilità anzi tempo; ma di essa dob­ biamo servirci per prospettare le situazioni, mentre l'oggetto da conside­ rare è la difficoltà di evitare l'inconveniente con precisazioni nella descri­ zione di un evento. La valutazione della probabilità di un evento può influire sul suo ve­ rificarsi : se uno, ad un certo momento, anche senza motivo, o per im­ pressioni superficiali, si raffigura accresciuto il pericolo di un incidente stradale, cercherà di essere piu prudente ed il rischio diminuirà; se invece si tratta di un evento desiderato, come riuscire in un'impresa, un esame, una gara, una maggior sensazione di fiducia può mettere in condizioni migliori per il successo. La conoscenza di valutazioni di probabilità altrui può avere effetti di mimetismo grandiosi. Se in un ambiente ritenuto bene informato le pre­ visioni sono pessimistiche (od ottimistiche), e un numero sempre mag­ giore di persone, informata di tale opinione, si comporta come se essa corrispondesse al vero, le previsioni finiranno per risultare confermate dalla realtà anche se inizialmente fossero state prive di ogni fondamento. Ma il caso piu diretto è quello dell'influenza della formazione di inte­ ressi all'esito di eventi. Nel caso delle assicurazioni, si può giungere ai sinistri simulati o dolosi, ma questo è ancora un tipo di casi che, fino a un certo punto, si possono considerare individuabili. Peggiore (dal punto di vista logico, perché del tutto sfuggente) è l'effetto di una minore cautela che, magari all'insaputa di se stesso, un individuo può avere quando sa di essere assicurato. Ed analoghe influenze si hanno se all'evento è con­ giunto un premio ( ad es., un premio-gol per il giocatore che segna od in­ vece da ripartirsi fra tutti), od anche se suscita ammirazione o biasimo. Anziché sull'esito, e piu facilmente ancora, si può avere un'influenza sulla verificabilità : chi ha interesse a provare che un evento si è verifi-

1 3 . La verificabilità e i fattori perturbativi

7 09

cato starà attento ad averne informazione e avrà cura di raccogliere la documentazione necessaria e trasmetterla alla sede appropriata, mentre chi ha interesse a nascondere tale notizia sarà piu o meno negligente, sep­ pure non cercherà di ostacolare la sua diffusione o di farne scomparire le prove. Per evitare tutto ciò si dovrebbe circostanziare la descrizione dell'e­ vento con tale meticolosità da escludere ogni possibilità di alterazione : ed infatti le clausole dei contratti di assicurazione abbondano di precisa­ zioni sugli obblighi dell'assicurato, i rischi esclusi, ecc., ma non è possi­ bile, evidentemente, estendere l'elencazione al di là dei casi piu facili da indicare e individuare (I). Una situazione ancor piu aggrovigliata è quella della teoria dei giochi. Nel caso piu semplice, si hanno due giocatori, ciascuno dei quali deve prendere una decisione ( senza conoscere quella dell'altro), e il risultato (guadagno dell'uno e perdita dell'altro) dipende dalle due decisioni. A ciascuno converrebbe conoscere la decisione dell'altro, per regolare la propria in modo adeguato; non conoscendola, potrà valutare le probabi­ lità delle diverse decisioni dell'altro, e per far ciò penserà all'analogo ra­ gionamento mettendosi nei panni dell'altro. Queste ed altre situazioni ben piu complicate sono oggetto di studio nella teoria dei giochi; ma di tutti gli aspetti menzionati finora sui fattori perturbativi non intendevamo che far menzione per renderne avvertiti e per mettere in guardia contro i guai piu o meno gravi ' ma pressoché ineli­ minabili che s'incontrano occupandosi di casi ove si presentano. Questi casi ci servivano, piu che altro, da introduzione per non far apparire (ingiustamente) come un fatto singolare quello che si presenta studiando piu a fondo gli eventi « a tre valori » . Meglio, un fatto singolare e nuovo c'è, ma viene dopo : non riguarda il fattore perturbativo deri­ vante da scelte che possono influenzare la verificabilità, benché questo sia il primo aspetto da esaminare. Un evento subordinato, EIH, non presenta nessun problema del ge­ nere se E ed H risulteranno certamente noti, per veri o falsi, nel tempo e modo stabiliti. Pensando infatti di aver stipulato una scommessa - è (I)

Considerazioni ed esemplificazioni suggestive al riguardo si possono vedere in

H . M. SARASON ,

Come impostare, interpretare e applicare le statistiche assicurative, «Giorn. 1st . !tal . Attuari,. , 196" pp . 1 '2, .

I,

710

Appendice

questa la nostra pietra di paragone - sapremo infatti allora senza alcuna possibilità di dubbio che essa è annullata se H è risultato falso, che essa è vinta se H è risultato vero ed anche E, che essa è persa se H è risultato vero ma non E. Ma se H, od E, o entrambi, potessero risultare non verifi­ cabili (in un qualunque senso prestabilito, per es. entro un termine dove la scommessa dev'essere decisa) ? Dobbiamo anzitutto convenire cosa succederebbe, in questi casi, dell'ipotetica scommessa. Sembra naturale convenire ( e comunque conveniamo) come segue : essa è vinta o persa sempre soltanto se sono veri H ed E, rispettivamente H e non E; essa vie­ ne annullata, come se H risulta falso, anche se H risulta indeterminato, oppure se, pur essendo risultato vero H, risulta indeterminato E. In termini formali, considerando E ed H come eventi a tre valori, E E' l E", H = H'IH", l'evento subordinato EIH = (E'IE" )I(H'IH" ) corrispondereb­ be (nella terminologia di Reichenbach) alla quasi-implicazione (da lui in­ trodotta), con Ia « tabella di verità » : =

EIH

EU

H V V I F

I

I

I I

F

I

(nella notazione di R. E I H corrisponde a H � E).

I I

j

Mediante i quattro eventi semplici ( a due valori) E', E", H', H" si può esprimere 1 (V) se E' E" H' H" EIH (E' I E" )I(H'IH" ) 0 ( I ) se :. (E" H' H" ) O ( F ) se E' E" H' H", ossia EIH (E'IE")I(H' IH" ) E' I(E" H' H" ). =

=

=

=

L'apparizione di fattori perturbativi si ha non appena si immagini an­ che qui che qualcuno possa influire sul risultato o sulla conoscenza del risultato di EIH, ed il caso particolare che presenta il piu specifico inte­ resse è quello in cui H significa l'effettuazione dell'esperimento - o, piu spesso, di uno degli esperimenti - da cui deriva (certamente, oppure può

.

1 3 . La verificabilità e i fattori perturbativi

7II

derivare) un'informazione circa il risultato di E . È questo il caso di tutte le misurazioni e di tutti gli esperimenti nella fisica sia classica che quanti­ stica, e di tutte le indagini e rilevazioni atte ad accertare una qualsiasi asserzione nella vita pratica. Ci si trova piu chiaramente in questa situa­ zione quando E consista proprio nel risultato di un esperimento da com­ piere espressamente (per es., H = lancio di una moneta, oppure di un sa­ tellite, ed E = darà Testa, rispettivamente entrerà in orbita). In tal caso non avrebbe neppure senso in alcun modo chiedere se E è vero o falso senza la necessaria premessa H, ma il caso in cui E si pensi vero o falso in­ dipendentemente da un esperimento H per accertarlo cessa di apparire diverso quando ci si preoccupi dell'effettivo accertamento di E. Possia­ mo ben ritenere che E = Tizio è affetto da una certa malattia, oppure E = quel residuo di sostanza contiene tossici, siano affermazioni vere o false in sé indipendentemente dal fatto che conosciamo o non conoscia­ mo se siano vere o false. Per noi, per chiunque cioè voglia sapere se E è vero o è falso ( e non solo dire che è o vero o falso), E sarà in realtà da so­ stituirsi con EIH dove H significhi l'effettuazione di un accertamento. Potremo dire ad es. H = Tizio viene sottoposto ad esami per accertare se è affetto da una certa malattia, oppure un residuo di una sostanza viene analizzato per accertare se contiene tossici, ed E = la conclusione è posi­ tiva. Ma quali esami e quali analisi ? Escludiamo il dubbio che un esperimento H (per es. gli esami od ana­ lisi degli esempi ora detti) possa dare una risposta errata; ciò non sarebbe affatto assurdo, perché esperimenti su fatti correlati con quello da accer­ tare possono soltanto farci aumentare o diminuire la probabilità che at­ tribuiamo ad esso : tutto sta nel convenire che consideriamo acquisita una risposta solo quando è certa, e diciamo indeterminata la E se gli accerta­ menti fatti non sono risultati sufficienti a dirimere il dubbio. Allo stesso modo che, in caso di « insufficienza di prove », sarebbe inammissibile pro­ clamare un imputato sia colpevole che innocente. Ma è raro il caso in cui, eseguendo un esperimento H, si ottenga cer­ tamente una risposta; il caso piu normale (per lo meno, in casi abbastan­ za complessi perché valga la pena di applicarvi considerazioni del genere) è quello in cui H può dare una risposta (e allora la risposta esatta) ma può anche non darne nessuna ( e allora E rimane indeterminato). A rigo­ re, H dovrebbe significare non la semplice effettuazione di un certo espe-

712

Appendice

rimento, ma l'effettuazione con successo (nel senso di rispondere o SI o NO riguardo ad E, non NI ), o, volendo sottilizzare, si potrebbe porre

H = K'IK dove K indichi l'effettuazione di un certo esperimento (che ora si designerebbe con K), K' il fatto che K ha avuto successo, ed H l'ef­ fettuazione e successo di K ossia l'ipotesi che assicura l'accertamento della verità o falsità di E) ( I ) . In genere però non sarà neppure unico l'esperimento K che possiamo fare (o non fare) per accertare E : esisteranno diversi esperimenti possi­ bili, Kh K2 , K3 , ... (ed anche se, come « tipo » di esperimento, ne esistesse uno solo potremmo sempre scegliere il momento, o lo strumento, o lo sperimentatore, ecc.), e potranno essere compatibili o no (eventualmente anche nel senso di ripetibili, in caso di insuccesso ) per motivi diversi, dall'incompatibilità fisica alle limitazioni contingenti ( ad es. per scarsità di tempo, di strumenti o persone disponibili, di fondi da spendere, della sostanza da analizzare, ecc. ecc.). Per non complicare ulteriormente la scrittura possiamo però pensare che l'elencazione Ki comprenda non solo gli esperimenti singoli (per es. Kh K2 , ... , K38 indichino l'effettuazione soltanto di uno degli esperimenti diversi possibili, che supponiamo sia­ no 3 8 ) ma anche tutte le possibili combinazioni o strategie (per es. quella consistente nell'eseguire dapprima gli esperimenti Ks, KI9 e K22 , poi, se nessuno ha avuto successo, K7, e se non basta ancora K9 e K31 simulta­ neamente, e quindi smettere in ogni caso, è una strategia che verrà con­ traddistinta con un numero superiore a 38, per es. con K728). Per ogni K, K: significherà che Ki ha avuto successo, giungendo cioè a stabilire se E è vero o falso; nel caso di un esperimento singolo, sia K2 , K; signi­ ficherà il successo di tale esperimento; nel caso generale, ad es. K728, K;28 significherà che uno almeno degli esperimenti previsti in quella strategia ha avuto successo (dopodiché i successivi - se ci si trova in una strategia « sequenziale » come nell'esempio del K728 - non verranno neppure ese­ guiti). Specificando ulteriori dettagli (come tempi e modalità di esecu­ zione degli esperimenti, loro eventuali ripetizioni, ecc. ) le strategie da ( I ) Solo cosi si evita di dover considerare E di per sé (oltre ad EIH, che diviene, coi simboli attuali, EIK) evento a tre valori ( indeterminato nonostante l'effettuazione - senza successo - dell'e­ sperimento). Nel dubbio che convenga effettivamente far uso di tali notazioni, al di fuori che qui per le precisazioni esplicative necessarie una volta per sempre, evitiamo di insistere o prender posi­ zione sulla preferenza da dare a forme d'indicazione pi6 o meno logicamente perfette.

1 3 . La verificabiIità e i fattori perturbativi

713

distinguere crescerebbero a dismisura, ma, agli effetti delle nostre indi­ cazioni, non si tratterebbe che di allungare la lista dei Ki. In questo modo, il problema di accertare E si traduce praticamente nel problema di accertare uno degli eventi subordinati EIK, a seconda che sceglieremo Ki> arbitrariamente entro l'ambito consentito dalle even­ tuali limitazioni (di tempo, mezzi, ecc.). Ed ecco che tale arbitrarietà fa si che la verificabilità di E ne venga influenzata. Come casi estremi, vi potranno essere degli esperimenti a senso unico, che, cioè, o dimostrano che E è vero o non provano nulla ( o viceversa). Se un esperimento può dire se un liquido è o non è acqua pura ed un altro se contiene o non con­ tiene stricnina, e la questione è se sia o no tossico, il primo può solo dare risposta negativa ed il secondo soltanto risposta positiva, perché il sapere che non è acqua pura e che non contiene stricnina non basta né ad esclu­ dere né a provare la tossicità. E anche prescindendo da questi casi estre­ mi, ogni metodo potrà presentare (per la sua stessa natura, e tenuto conto delle esperienze passate, secondo la valutazione di ciascuno) diverse ca­ ratteristiche nel suo funzionamento e diverse probabilità di insuccesso a seconda che E è vero oppure falso. Fin qui si tratta di un caso come gli altri di presenza di fattori pertur­ bativi (anche se meritevole di particolare attenzione perché essi sono for­ se piu nascosti che nella piu parte degli altri esempi). Ma il fatto piu gra­ ve e specifico del presente caso è un altro, che - come inizialmente accen­ nato - « viene dopo» dell'analisi già fatta sugli esperimenti K, il loro suc­ cesso K;, e la conseguente realizzazione delle corrispondenti ipotesi Hi. Il fatto nuovo è che si dovrebbe, ad essere realistici, sostituire anche E con Ei; e spieghiamo subito cosa intendiamo dire. Se eseguiamo l'espe­ rimento Ki> il suo successo, K�, non ci dà direttamente la risposta « E è vero » oppure « E è falso », non ci rende visibile direttamente quel fatto che intendiamo affermare o negare con tali frasi; né, se si tratta, piu in generale, di misurare una grandezza, esso non ci permette di constatare quanto valga rendendocela visibile o tangibile. La risposta si ridurrà a un segnale (un movimento, una luce, un suono, una coloratura, ecc. ; per grandezze, la posizione di una lancetta, l'indicazione di un contatore, l'al­ tezza di una colonnina di mercurio); per un evento avremo due segnali, Ei e Bi, come possibili risposte all'esperimento Ki (oltre alla non-risposta, o, se si vuole, risposta 0 o risposta K;), diversi da esperimento ad esperi,

714

Appendice

mento; però si dirà ciò è irrilevante in quanto sappiamo che essi cor­ rispondono all' esser vero o falso E (1) . D'accordo . . . , ma, che cosa significa ciò, esattamente ? La precedente frase, cOSI semplice chiara e candida, va benissimo in un'ipotesi altrettan­ to semplice e chiara, e cioè pensando che uno fra i molti esperimenti sia stato assunto come definizione di E (per es. se il prescelto è K13, E signi­ fica E13, o meglio E13 / K13) e che tale esperimento sia sempre possibile e abbia sempre successo. Allora l'affermazione che E è vero perché un di­ verso esperimento, K4, ha dato come risposta il segnale E4, può venire avvalorata dall'avvertimento : « perciò è certo che facendo l'esperimento K13 la risposta è E13, ossia E : è superfluo farlo perché è scomodo, costoso, ecc., ma se non ci credi prova e vedrai ! » . CosI ad es. se io indico l'altezza di una torre distante con mezzi trigonometrici od osservando in quanto tempo raggiungono il suolo i sassi che un tale si diverte a lasciar cadere dalla cima, posso dire, a chi non ci crede, « vai fino là e misura » . E si può ammettere che l'argomento sia ritenuto valido in generale anche quando l'invito diventa sempre meno realistico (distanza dal centro della terra, distanza di due punti sulla luna, distanza fra due stelle o fra due galassie); però, e se uno non ci credesse ? In mancanza di un criterio che, come nel caso precedentemente ipo­ tizzato, sia adatto ad essere assunto come definizione per la sua significa­ tività e per potersi sempre (almeno concettualmente) applicare con suc­ cesso sicuro, e in particolare per affermazioni riguardanti cose non diret­ tamente percepibili e dotate di proprietà sconcertanti (come « onde» e « corpuscoli » ), a quale ripiego potremo ricorrere ? Potremo indicare tut· ti gli esperimenti Ki (e basta quelli semplici, non le strategie) coi rispetti­ vi segnali di risposta, ed osservare che in ogni occasione, quali e quanti siano i K; che si applicano, in tutti i casi di successo dànno risposta con­ corde : o sempre le Ei o sempre le Bi' Ciò assicura praticamente del signi­ ficato della nozione legata ad E (o, altrimenti, di una grandezza), e della sua unicità, purché la coincidenza di risposta fra due metodi qualunque, Ki e Kj, si possa sperimentalmente verificare applicando l'uno e l'altro ad un medesimo caso, o almeno indirettamente attraverso una catena di equivalenze ogni anello della quale sia cOSI verificabile. -

-

( I ) Cfr. le considerazioni di H. Jeffreys già citate (XI, 1 . 1 , in fine).

. 1 3 . La verificabilità e i fattori perturbativi

715

Ma, e se si tratta di casi ove diverse sperimentazioni sul medesimo ca­ so non è possibile farle ? Ogni affermazione del tipo : « avendo osservato la risposta Bi all'espedmento K;, sappiamo che se avessimo fatto l'espe­ rimento Ki avremmo ottenuto la risposta B{ » è del tutto priva di conte­ nuto, dato che la premessa è falsa. Si tratta della situazione già accennata, sia pur incidentalmente e scherzosamente, all'inizio del cap. IV (n. I ) chiedendo : « È vero o falso che se io fossi vissuto all'epoca napoleonica e avessi partecipato alla battaglia di Austerlitz vi avrei riportato una fe­ rita ad un braccio? » . Può sorreggere l a fiducia in una generalizzazione di tipo piu spinto di quella che dalla diretta verificabilità di misurazioni indirette di lunghez� ze a scala « umana» portava ad ammetterla per distanze inaccessibili; oc­ corre una generalizzazione che ammetta la coerenza e validità (giustifica­ ta da molte prove indirette) di tutto l'insieme di concetti e ragionamenti e calcoli che costituisce la visione scientifica del mondo. Sta di fatto, però, che per il comune « uomo della strada» il solo mo­ tivo di credere a queste cose è il fatto di non capire che siano tanto piu astruse e delicate di quanto è in grado di immaginarlo. La situazione lo­ gica, per lui, nel caso peggiore ipotizzato, è la seguente. Gli viene spie­ gato che l'esser vero B (un evento sul quale, per fissare le idee, vorrebbe scommettere) potrà venir verificato in una e una sola tra le molte moda­ lità costituite dall'effettuazione di un esperimento K e dal presentarsi di un corrispondente segnale di risposta, Bi (la scelta sarà fatta dallo spe­ rimentatore : tanto, essa informa sullo stesso fatto ). Ma questa essenziale asserzione non dice nulla all'uomo della strada che non ha idea di che « fatto» si tratti. (Anche per lo scienziato è convinzione molto cerebrale; ma di lui non c'interessa). L'uomo della strada sa, in effetti, soltanto che potrebbe scommettere sull'esito di un esperimento che l'altro sceglierà come vuole; e potrà quindi pensare (beninteso, in linea di logica; non in pratica ché il sospettare è riprovevole) che la scelta verrà fatta a suo dan­ no, ad es. cercando di estrargli una pallina bianca da un'urna che con­ tiene solo palline nere facente parte della collezione fra cui è libera la scelta. A parte le illustrazioni piu o meno pittoresche, la conclusione (nega­ tiva e preoccupante) sembra non possa essere che questa: non si riesce a dare un significato operativo a un'affermazione B (o ad una grandezza X)

Appendice

7I6

attraverso una collezione di affermazioni BilHi dotate di significato ope­ rativo senza ricorrere all'affermazione (non dotata di significato operati­ vo essendo le ipotesi Hi incompatibili) della necessaria conformità di tutti i risultati Bi ottenibili. I4·

Dalla «possibilità» alla «probabilità».

La logica del certo distingue soltanto eventi che sono veri o falsi, e che possono essere (per noi, nella nostra piu o meno momentanea igno­ ranza) soltanto possibili (incerti) anziché certi o impossibili ( I ) . Abbiamo esaminato questioni critiche rimanendo in tale ambito, come esplorazio­ ne preliminare del campo in cui si deve introdurre e applicare la logica del probabile. Ora è giunto il momento di passare in rassegna le principali questioni critiche appartenenti in modo specifico all'argomento che direttamente c'interessa: la teoria delle probabilità. Non è il caso di ripeterci fingendo di partire da zero : molte questioni ci si sono presentate e molte osservazioni sono apparse necessarie man mano che procedevamo con la trattazione nel testo, e converrà richiamar­ si ad esse per coordinarle, completarle, approfondirle, in modo da fornir­ ne, in sintesi e come conclusione, una visione sperabilmente abbastanza organica. Cominciamo anzi subito col tracciare un quadro d'insieme, compren­ dente sia gli argomenti per cui ci limiteremo a richiamare cose già dette o ad aggiungere qui qualche complemento, sia quelli che riprenderemo poi perché meritano ulteriori sviluppi o approfondimenti. Assumeremo senz'altro come assiomi quelli già stabiliti in base alla nostra impostazione soggettivistica. Ciò non pregiudicherà affatto la pos­ sibilità, tecnicamente neutrale, di confronti, che sarà anzi agevolata, per­ ché tale punto di partenza rappresenta il nucleo minimo delle condizioni accettate in tutte le concezioni. Quella soggettivistica, come detto piu volte, è infatti (deliberatamente) la concezione piu debole, in quanto ri( I ) Non ci occupiamo dell'eventualità di « indeterminazione», di cui ai nn. 9-12, considerando il caso riconducibile nell'ambito della logica a due valori mediante gli eventi subordinati.

1 4 . Dalla « possibilità » alla « probabilità »

717

chiede soltanto la coerenza, senza pretendere di interferire con la libertà delle valutazioni di un individuo entrando nel merito di esse sotto altri aspetti. Su questi concetti si potrà istituire un confronto con vedute diverse sotto vari aspetti : le interpretazioni della nozione di probabilità, le par­ ticolarità matematiche, le formulazioni qualitative. Le interpretazioni della nozione di probabilità in senso (pretesamen­ te) oggettivo, basate sulla simmetria (casi ugualmente probabili: conce­ zione classica) o sulla frequenza (prove ripetute di un fenomeno : conce­ zione statistica), forniscono dei criteri accettati e applicati anche dai sog­ gettivisti (come è stato fatto ampiamente anche in questo libro). Non è questione di rifiutarli o di farne a meno; la differenza sta nel rilevare co­ me essi richiedano sempre di venire integrati in un giudizio soggettivo e risultino applicabili (pi6. o meno direttamente) in situazioni particolari, cosicché, a volerne intrudere questo o quello nella definizione o negli as­ siomi, si ottiene una costruzione deformata, unilaterale, ibrida. Le particolarità matematiche sono sempre quelle, già ripetutamente incontrate e trattate, derivanti dall'atteggiamento verso probabilità nul­ le, additività completa, significato di leggi asintotiche. Al riguardo do­ vremo soffermarci su parecchi sviluppi ulteriori, tralasciati nei capitoli III, IV e VI per non appesantire troppo ( e prematuramente) l'esposi­ zione, ed aggiungere cenni su qualche aspetto nuovo. Queste considera­ zioni (insieme a qualche altra) consentiranno di individuare e brevemen­ te commentare le differenze tra l'impostazione assiomatica qui seguita e quella data da Kolmogorov (nel 1 93 3 ) cui fanno capo in genere le tratta­ zioni degli ultimi decenni. Infine, sotto la denominazione di « formulazioni qualitative », si do­ vrà far cenno di due argomenti distinti. Il primo concerne la possibilità di partire da assiomi puramente qualitativi, cioè riguardanti confronti tra probabilità di eventi (questo è piu o meno probabile di quello ), senza introdurre probabilità numeriche ma pervenendo in definitiva ad esse tramite confronti del genere. Il secondo invece riguarda la tesi ( sostenuta recentemente da diversi autori) di una intrinseca indeterminatezza delle probabilità, per le quali, anziché un valore p, univocamente determinato, si potrebbero soltanto dare delle limitazioni ( tra un minimo e un massi­ mo, p' e p" ). Che, spesso, una valutazione di probabilità ci appaia piu o

Appendice

718

meno vaga è innegabile; tuttavia ancor piu vago (e privo di un senso ef­ fettivo) sembra il segnare dei confini a tale vaghezza. 15·

Gli assiomi

IO

e 2°.

Tutta la trattazione svolta derivava da poche proprietà, a suo luogo giustificate come condizioni di coerenza; per costruirla da un punto di vista astratto basterà ora assumere queste stesse proprietà come assiomi. Si tratterà di due assiomi ( l ° e 2 ° ) riguardanti le previsioni e di un 3 ° riguardante le previsioni subordinate; di quest'ultimo (necessario per estendere la validità dei due primi in un caso speciale) diremo piu avanti (n. 1 6 ). Ecco i primi due. Ass.

I:

Nonnegatività :

se è certamente X � 0, dev'essere anche P(X) � O ;

Ass. 2 : Additività ( semplice): P(X + Y) = P(X)+P(Y).

Da essi segue anche :

P ( aX) = aP(X), infX � P(X ) � sup X ,

e la condizione seguente (Convessità) che congloba gli Ass. I e 2 :

C : ogni equazione (o disequazione) lineare tra numeri aleatori Xi dev'essere rispettata per le rispettive previsioni P ( Xi ), ossia se è certamente necessariamente

CI Xl+C2 X2 + . . . +CnXn = c (oppure � c) CI P(X1 )+C2 P(X2 )+ . . . +cnP(Xn) = C (oppure � c).

Sotto altra forma la (C) si può anche scrivere (facendo la differenza) : (C' ) Nessuna combinazione lineare dei numeri aleatori (equi!) Xh-P(Xh) può essere uniformemente positiva, ossia le P(Xh) devono esser scelte in modo che, quali che siano Ch C2 , . . . , Cm non esista un c > O tale che certamente Cl(X1 -P(X1 »+C2 (X2 -P(X2 »)+ , . . +Cn (Xn-P(Xn» � c.

1 5 . Gli assiomi l° e 2°

719

Potremmo indicare come ulteriore (possibile) assioma quello consi­ stente nell'escludere l'aggiunta di altri assiomi, ossia nel considerare am­ missibili, come funzioni-previsione, P, tutte quelle soddisfacenti gli Ass. I e 2 , ossia la condizione C ( I ). Ciò è del resto implicito, non dicendo nulla in contrario. Comunque, diremo per brevità coerente ogni funzione p soddisfacente gli Ass. I e 2 . Come detto ( III, 1 0. 7 ), una funzione P coerente, definita su un certo insieme OC di numeri aleatori (qualunque: in genere infinito) può sempre venir estesa, conservando la coerenza, ad un altro qualunque nu­ mero aleatorio, diciamolo Xo. Ogni disuguaglianza del tipo ( C ), risol­ vendola rispetto a uno degli addendi (e sia quello relativo ad Xo, e sup­ poniamo Co = ±1 : se non fosse cosi basterebbe dividere tutto per leDI ) si ottiene una disuguaglianza per P(Xo) del tipo "

P(Xo} s inf{Xo+ Ih Ch(Xh-P(Xh»)-c} 1

(oppure � sup{ . . .}).

In definitiva avremo x' s P(Xo) s x", indicando con x' l'estremo supe­ riore di tutte le limitazioni per difetto e con x" l'estremo inferiore di quelle per eccesso. Se x' = x" il prolungamento risulterà univoco : P(Xo} = x' = x",

cioè P ( Xo) risulterà determinato dai valori dati in OC ; se x' < x" i va­ lori ammissibili per P(Xo) saranno tutti quelli di un intervallo chiuso (come è chiaro per la convessità). Il prolungamento sarebbe impossibile se risultasse x' > x", ma ciò si esclude osservando che dovrebbero allora esistere una combinazione lineare Xo+ Ii Ci (Xi-P(Xi») sempre > x' ed un'altra Xo+Ij cj(Xj-P(Xj») sempre < x" ; la loro differenza (Ii-Ij : si elide Xo) risulterebbe allora > x' -x" > O, ossia esisterebbe una contraddi­ zione a ( C ) già in precedenza (in OC), contro l'ipotesi. Ciò posto, ne segue immediatamente che si può sempre definire una ( 1) Si badi che qui non si tratta della questione di fondo, se in date circostanze siano ammissibili tutte le valutazioni P coerenti (concezione soggettiva) o ve ne sia una sola rispondente alla realtà (concezioni oggettive) : si tratta di sapere quali siano le P formalmente ammissibili anche per un og­ gettivista (per es _ , le P che potrà adottare quando avrà informazioni per ora mancanti, su composi­ zioni di urne, frequenze di fenomeni statistici, ecc.), o, addirittura, che giudica possibili riguardo allo schema astratto senza sapere quali eventi concreti rappresentino i simboli Eh E" ecc. È questo, del resto, l'atteggiamento dei fautori di ogni tendenza quando si occupano del concetto di «campo (a­ stratto) di probabilità» .

7 20

Appendice

P(X) per tutti gli X di un qualunque insieme di numeri aleatori (in parti­ colare una P (E) per tutti gli eventi di un qualunque tipo, per es. quelli corrispondenti a tutti gli insiemi di uno spazio), anche supponendo pre­ fissata la P(X) in un certo campo e prolungandola. Basta procedere, come fatto ora, all'estensione ad un nuovo X per volta, mediante induzione transfinita (ammettendo, beninteso, il principio di Zermelo per disporre gli Xh in insieme bene-ordinato; gli indici - h, ecc . ...:. saranno natural­ mente numeri ordinali transfiniti). Occorre solo prestare attenzione che non succedano guai per gli Xk che non hanno un antecedente (come X.. , ove w indichi al solito il l° numero ordinale dopo tutti i numeri natu­ rali) ( I ) ; ma nel nostro caso la contraddizione deriverebbe dal confronto fra due combinazioni lineari finite e sarebbe dovuta sopravvenire con l'ultimo dei passi corrispondenti agli Xh che vi figurano (e l'infinità dei passi tra tale Xh e il nostro Xk non entra nel ragionamento). Torniamo ora al problema del prolungamento per soffermarci ad esa­ minare quando risulti univoco. Un caso ovvio è quello di prolungamento a un numero aleatorio Xo linearmente dipendente da quelli del campo di partenza, � , ossia appartenente al sistema lineare � generato dagli � ; in tale caso l'univocità sussiste per qualunque P. La condizione (C) mostra però quale sia la situazione nei riguardi di una P particolare : anziché relazioni lineari abbiamo in generale delle di­ sequazioni lineari !i CiXi � C, che, risolte rispetto ad Xo (come fatto per Xo-P(Xo) poco fa) dànno numeri aleatori X' e X", combinazioni lineari di numeri aleatori del campo � , e quindi appartenenti ad � , minoranti e maggioranti per X : X' s. X, rispettivamente X s. X". Si noti come il problema sia il medesimo già visto in (cap. III, 2 .4 ) su un caso par­ ticolare; anche passando, come qui, al caso generale ed astratto, le con­ clusioni sono sostanzialmente le stesse. Al variare della P (definita in � e quindi su � , e in particolare per le X' ed X") sarà diversa la X' per cui P(X' ) è massima, P(X' ) = x' (o, se x' è un estremo superiore, non massi( I ) Anche la misura di Lebesgue si può estendere, conservando l'additività completa, a un qua­ lunque insieme non misurabile, e quindi a quanti si vuole, uno dopo l'altro; però in quel caso un'in­ finità di passi può risultare contradittoria senza che lo sia nessun passo singolarmente (come è vero che una serie divergente si conserva tale sostituendo con O il l° termine, poi il 2°, il 3°, e cosi via, sostituendone con O quanti si vuole ... ma non infiniti).

1 6 . L'assioma 3 °

72 1

mo, la X' da scegliere per avere P(X') prossimo quanto vogliamo ad x') (e cOSI per le X" ); scelte X' e X" in tal modo, avremo X' 50 X 50 X" con P ( X" -X/ ) = x" -X' (o X" - X' +E, con E > O a piacere, nel caso che non si tratti di massimo e di minimo). Il caso di determinazione del prolunga­ mento si ha dunque, in generale, se esistono una maggiorante e una mi­ norante di X, tali che la loro differenza 11 = X" -X' : O ) . Per far risultare ciò che dalla valutazione delle probabilità ( e previ­ sioni) in un certo sistema lineare � mediante una funzione-previsione P consegue per le probabilità ( e previsioni) al di fuori di tale campo (per un numero aleatorio X, o in particolare per un evento E, non apparte­ nente ad � ), conviene usare la stessa notazione (mutatis mutandis) di (cap. VI, 4 .4 ), indicando con Pr (X) = x',

P; CX ) = x"

P� (X) = x,

il minimo e il massimo ( già indicati nel testo con x' e x") dei valori P(X) compatibili con la conoscenza della P in �, e rispettivamente il loro valo­ re comune ( se coincidono). Ne riparleremo - per altri motivi - in ( 1 9 .4). 16. Una probabilità subordinata, P(EIH), o preVISiOne subordinata, P(XIH), nel caso in cui H abbia probabilità non nulla si esprime me­ diante le probabilità e previsioni non subordinate mediante la seguente formula, che, in una trattazione assiomatica astratta, si può prendere co­ me definizione: P(EIH) = P(EH )!P (H), P (XIH) = P(XH)/P(H).

In questo caso non c'è nulla da dire di sostanziale, salvo notare che anche in questo caso un prolungamento (nel senso della P � ) dà luogo a un in­ tervallo di indeterminazione :

P� (XIH) 50 P (XIH) 50 P; ( XIH ) .

7 22

Appendice

Siano infatti P1 e P2 due prolungamenti della P quale data in � ; esse da­ ranno ad XH ed H i valori P1 (XH) = Xh P2(XH) = X2' P1 (H) = hh P2(H) = h2· Insieme a P1 e P2 saranno prolungamenti di P anche le loro combinazioni convesse, p), = À.Pl+( 1 -À.)P2 = P2+À.(Pl-P2) ( O s À. s l ), che daranno X2 +À.( Xl-X2 ) P), (XIH) = P). (XH)tp). (H) = h2+À.{h 1-h2) ·

Poiché il denominatore non si annulla ( in O S À. s 1 ; o al piu in uno degli estremi se è nullo uno degli hi, caso però che per ora non consideriamo), l'iperbole sale o scende monotonamente tra i valori estremi P1 (XIH) = xJh1 e P2(XIH) = xJh2.

L'insieme dei valori possibili per P (XIH) nel prolungamento è pertanto un intervallo, come asserito. Il caso nuovo si ha se P(H) = O . Ha senso, e c'è scopo, ad occupar­ cene? Se si prendesse come effettiva ed unica definizione della probabi­ lità e previsione subordinata la formula con P(H) a denominatore, la nozione, in detto caso, perderebbe senso. Se il senso è dato altrimenti, direttamente, ad es. (come abbiamo fatto nel cap. IV, in conformità al punto di vista soggettivistico) mediante scommesse condizionate, il sen­ so permane. Viene a cadere soltanto il teorema che esprime la coerenza (teo­ rema delle probabilità composte) legandola alla P non condizionata, ed anche il criterio di coerenza se la sua formulazione ( IV, 2 ) deve parlare di esistenza di una penalizzazione « certamente minore » . Per l'estensione delle nozioni e regole del calcolo delle probabilità al nuovo caso occorre rinforzare la condizione di coerenza dicendo che le valutazioni subordi­ nate ad H devono risultare coerenti subordinatamente ad H ( ossia nel­ l'ipotesi che H risulti vero). Ciò è automatico se uno valuta P(H}� O , nel qual caso ci si riconduce alla certezza di penalizzazione in caso di incoe­ renza : la penalizzazione per il ( IV, 3 ) è infatti la somma dei quadrati di P(H) e di P(EH), ma se P(H) e quindi P(EH) sono nulli, tale penaliz­ zazione risulta pure nulla nel caso il (di probabilità = 1 , e comunque pos­ sibile).

1 6 . L'assioma 3 °

72 3

Per quanto tale rafforzamento della condizione di coerenza possa sem­ brare ovvio, è bene diffidare; esistono varie altre specie di rafforza­ menti spesso ritenute « ovvie » e che dànno luogo a conseguenze che ce li fanno giudicare inammissibili. Tuttavia, non pare che in questo caso si dia luogo ad « inconvenienti » del genere, ed anche la « natura» del raf­ forzamento sembra poggiare su motivazioni piu sostanziali (cioè meno convenzionali o formali o di « convenienza matematica » ) in confronto alle altre di cui si è fatto cenno e si discuterà. Comunque proponiamo e stabiliamo di accettare la detta estensione della nozione di coerenza, e di costruire su di essa la teoria delle probabilità subordinate senza escludere o distinguere il caso in cui uno valuti P(H) = O . Volendo basarci sulla formulazione di un nuovo assioma, esso potrà venir espresso come segue: Ass. 3 : Le condizioni di coerenza (Ass . I e 2 ) vanno rispettate anche dalle PH subordinate ad un H possibile, dove si intenda PH (E) = P (EIH),

PH (EIA) = P(EIAH).

Come interpretazione, PH è la funzione-previsione che possiamo pre­ disporre per il caso in cui H risultasse esser vero, e l'assioma ci obbliga a fare tale eventuale valutazione in modo che, se dovesse aver effetto, ri­ sultasse coerente. Ciò è implicito nella definizione precedente qualora si valuti P(H) ;06 0 ; l'Asso 3 obbliga soltanto a comportarsi nel medesimo modo per il solo fatto che H è possibile, che potremmo trovarci a com­ portarci effettivamente secondo la scelta di PH, anche se nel caso in cui valutiamo nulla la probabilità dell'ipotesi H la sanzione delle penaliz­ zazioni non funziona fuori del caso H. L'Ass. 3 permette di definire il rapporto delle probabilità di due eventi qualunque, A e B, anche a probabilità nulla, nel modo già intro­ dotto in ( IV, 1 8 .2 ). Sull'argomento delle probabilità nulle, in parte già trattato nel cap. IV ( 1 8 .3-4 ), ritorneremo espressamente in ( 1 8 .2 ).

Appendice

7 24

17·

Nessi con aspetti interpretativi.

Gli assiomi di una teoria astratta sono, come tali, arbitrari e indipen­ denti da ogni interpretazione (che, a tale livello, neppure esiste, o, a vo­ ler essere un po' meno drastici, è ignorata). La loro scelta è però, naturalmente, influenzata dal significato che essi assumeranno quando la teoria verrà applicata in quel campo per il quale, in realtà, essa è stata costruita e si vorrebbe risultasse adeguata­ mente modellata ( I ) . Nel caso della teoria delle probabilità il giudizio sull'adeguatezza de­ gli assiomi dipende dalla concezione della probabilità, e, oltre a quella soggettivistica cui ci siamo attenuti, dovremo considerare quelle di tipo «classico » e di tipo « statistico ». Dal punto di vista soggettivistico gli assiomi sono validi in quanto traducono le condizioni necessarie e sufficienti per la coerenza (da cui sia­ mo partiti, capp. III e IV); e pertanto nessun ulteriore assioma (che creerebbe ulteriori restrizioni) può essere accolto. Occorre tuttavia accennare a un'impostazione soggettivistica in sen­ so puramente psicologico, in cui nessun assioma potrebbe venire accet­ tato : quella in cui si pensasse a valutazioni di probabilità (in genere in­ coerenti) espresse da un individuo qualsiasi. È chiaro che, senza adegua­ ta preparazione e riflessione, chiunque darà risposte incoerenti in ogni campo (ad es. stimando in modo incompatibile distanze o aree o velocità ecc. ecc. ), ma ciò non significa che esista ( sia pure per lui, nella sua mente) una teoria diversa (per es. una geometria non euclidea) da fare oggetto di studio ; oggètto di studio può essere solo la sua minore o maggiore incapacità intuitiva nel capire le condizioni di coerenza e nell'evitare di trasgredirle. Altrimenti si dovrebbe dire che, in un sistema di scommes­ se, preferisce deliberatamente di comportarsi in modo da perdere. ( I ) Come è stato felicemente detto ( Fréchet attribuisce la frase a Destouches) , un libro che co­ mincia con gli assiomi dovrebbe esser preceduto da un altro volume che spiegasse come e perché quegli assiomi siano stati scelti e in vista di che cosa.

1 7 . Nessi con aspetti interpretativi

7 25

Dal punto di vista classico - probabilità « definita » come rapporto fra numero di casi favorevoli e casi possibili, ritenuti « obbiettivamente » equiprobabili per ragioni di simmetria - gli assiomi sono veri per ragioni semplicemente aritmetiche ( somma di frazioni ; salvo qualche considera­ zione di contorno a rigore necessaria). La P ammissibile è però soltanto una (in ogni caso applicativo). La considerazione di partizioni in infiniti casi ugualmente probabili (per ragioni di simmetria) dovrebbe apparire valida. Come estensione di tale punto di vista si possono considerare le con­ cezioni « necessaristiche », che ritengono univocamente definita - per ra­ gioni logiche - la probabilità di molti eventi anche al di fuori del caso « classico ». Esempio tipico (e che risponde affermativamente all'accetta­ zione di « un'infinità numerabile di casi ugualmente probabili » ) l'ammis­ sione di una distribuzione iniziale impropria ( ad es. uniforme in X, o in 10gX, ecc.) da parte di ]effreys. Analogo è, sembra, il punto di vista di Carnap ( I ). Dal punto di vista statistico - probabilità intesa come « idealizzazione della frequenza » (' ) - avviene sempre che l'additività sussista per motivi aritmetici (come nella concezione classica). La P ammissibile dovrebbe del pari essere unica ( sempre come nella concezione classica). Difficile az­ zardare ipotesi sull'interpretazione di casi piu delicati (per es., probabili­ tà nulle). Un tentativo di precisare la concezione statistica consiste nel definire la probabilità, non come « idealizzazione », bensl come limite della fre­ quenza (se il numero n delle « prove » tende a co ) . La frequenza-limite di « punto pari », lanciando indefinitamente un dado, è indubbiamente la somma delle frequenze-limite di « 2 » e « 4 » e « 6 », se tali limiti esistono (e ciò si postula avvenga nello schema che si considera). Altrettanto chia­ ro sembra che tale additività non sussista (necessariamente) in partizioni infinite : un « dado con un'infinità ( supponiamo numerabile) di facce » ( I ) � sempre difficile giudicare fino a che punto delle analogie siano sostanziali o apparenti ( specie tra autori diversi per preparazione ed ambiente) . f2) � una frase che non dice nulla , m a è il solo modo di alludere alle molte confuse spiegazioni dei fautori di tale concezione, e può darsi che effettivamente, in esse, non ci sia nulla di consistente da «capire» (altrimenti sarò io che manco dei requisiti necessari per riuscire nell'improba impresa ) .

Appendice

7 26

potrebbe ben presentare ogni faccia con frequenza-limite nulla ( I l (anzi dovrebbe, se in qualsiasi forma si continuasse ad ammettere l'ugual pro­ babilità di tutte le infinite facce). Ma ciò pare ignorato (cfr. cap. III, 1 1 .6, caso C8 N8 ). =

Pur esulando dal nostro proposito un'analisi critica di particolari tentativi di assiomatizzazione, sembra necessario soffermarsi per qualche riflessione sul presente caso ( riferendosi alla versione datane da von Mises, che è la piu elabo­ rata e che ebbe un periodo di favore) . Da una parte, sembrerebbe che l e ipotizzate successioni con frequenze-limite determinate dovessero rappresentare « idealizzazioni » di problemi di « prove ( in­ definitamente) ripetute ». Ciò sembra avvalorato sia da frasi di presentazione, allusive a idee tipo « legge empirica del caso», sia da un'ulteriore restrizione ( 00 ) o in quello di n estrazioni con n palline ( ad es . , 90 estrazioni con reimbussolamento dei 90 numeri della tombola) sempre per n -> oo. Abbiamo detto che ciò è « abba­ stanza ragionevole» come esemplificazione, ma non piu, perché la scelta di tale schema tra infiniti altri è arbitraria: si pensi ad es. di variare lo schema precedente supponendo che, al crescere di n - numero delle palline, il numero delle estrazioni sia non n ma 2n, o n', o Vn, ecc.

1 8 . Questioni su aspetti matematici

72 7

zioni di ugual probabilità e indipendenza acquistano un senso, e si può conclu­ dere (correttamente) che nelle successioni effettive ( bernoulliane) si ha conver­ genza stocastica ( debole, quadratica, forte) ma non convergenza certa ( quale po­ stulata nello schema primitivo) . Tale primo schema è quindi u n fantasma, anzi u n metafantasma, a l quale si attribuiscono, per renderlo accetto agli sprovveduti che non si avvedono della mistificazione, delle proprietà che costituiscono caricature fallaci e incompatibili di proprietà probabili di successioni effettive di « prove ripetute » . Allineando e manipolando in modo misterioso un'infinità di siffatti metafantasmi si riesce a dire finalmente ciò che si doveva dire direttamente ( che le prove sono ugual­ mente probabili e indipendenti ), ma col vantaggio di non capire il significato ( soggettivo) dei termini e di illudere che la ridda di capziose acrobazie abbia por­ tato a dimostrare o definire un chissaché di « oggettivo » .

Rammentiamo, nel chiudere i cenni sulle varie interpretazioni, che la concezione soggettivistica non è in contrasto con nessuna di esse, ma anzi le applica tutte. Si tratta solo di respingerne le pretese di esclusivi­ smo che conducono a teorie monche e unilaterali; di correggere travisa­ menti intesi a farle sembrare oggettivistiche; di considerarle come me­ todi adatti piu o meno in varie situazioni al sempre identico scopo di aiu­ tare le riflessioni di ciascuno per la valutazione della probabilità ( sempre soggettiva) da attribuire a ciascun evento che interessi. 18.

Questioni su aspetti matematici. I 8 . ! . Gli aspetti che ora esamineremo sono quelli di natura pura­ mente matematica, formale. In certo senso, proprietà della funzione P e significato di loro conseguenze: significato nell'ambito formale, senza riferimenti - se non a volte incidentalmente a scopo di chiarimento - con le differenze di interpretazione e di presupposti anteriori alla fissazione degli assiomi (di cui al precedente n. I 7 ). Per un orientamento globale converrà prospettare le varie questioni (comprese quelle già trattate) in una comparazione con l'impostazione assiomatica di Kolmogorov ( I) , ben nota e familiare a tutti. ( I ) A. KOLMOGOROV, Grundbegrilfe der Wahrscheinlichkeitsrechnung, Springer, Berlin I933. Una prima discussione sistematica condotta in base a comparazione con tale teoria è stata da me svi­ luppata in Sull'impostazione assiomatica del calcolo delle probabilità, .. Annali Triestini,. , XIX, Uni­ versità di Trieste ( I 949 ) .

7 28

Appendice

Ecco le discordanze fondamentali. l ) NO agli « eventi atomici » e quindi all'interpretazione sistematica degli eventi come insiemi; NO alla precostituzione di un campo concluso di eventi (letto di Procuste ! ) in cui rinchiudersi; NO ad ogni altra restri­ zione (che ad es . che gli eventi che si considerano in un dato momento o problema debbano costituire un corpo). 2) N O alla considerazione di un'unica P appiccicata indelebiImente al campo di eventi considerato; caratterizzare invece tutte le P ammissibili (insieme �); � risulta chiuso ( III, 1 3 )(una P aderente a � vi appartiene ; proprietà non valida nell'assiomatica di Kolmogorov) . 3 ) Impostazione basata direttamente su numeri aleatori e operazioni lineari su di essi (inclusi in particolare gli eventi), evitando le complica­ zioni di un meno appropriato riferimen to alle operazioni booleane. 4 ) NO all'additività completa ( o cr-additività) ( I) . 5 ) NO alla trasformazione del teorema delle probabilità composte in definizione delle probabilità subordinate, NO al conseguente condiziona­ mento di essa all'ipotesi P(H) � O ; costruzione - grazie alla presente e alla precedente ricusazione (4 e 5 ) - di una completa teoria delle proba­ bilità nulle. 6 ) Ho criticato come insufficiente ( nella memoria cito nella preceden­ te nota) la dimostrazione della compatibilità dei suoi postulati data da Kolmogorov (ma è cosa rimediabile e priva di riflessi sostanziali). Tutte queste questioni sono già state piu o meno ampiamente toccate nel testo e nell'appendice; riprenderemo soltanto quelle che richiedono qualche ulteriore sviluppo o precisazione. 1 8 .2 . Probabilità nulle. Riprendiamo anzitutto il discorso inter­ rotto in argomento (fine del n. 1 6 ) e ripetiamo, basandoci sull'Asso 3°, la dimostrazione e definizione già date (in IV, 1 8 .2 ). 1'Ass. 3 permette di definire il rapporto delle probabilità di due ( I ) Riferiamo incidentalmente che, a volersi mettere sulla strada di assunzioni fatte per «mathe­ matical convenience .. , neppure l'additività completa appare sufficientemente restrittiva. Lo stesso Kolmogorov e altri hanno recentemente proposto assiomi (additività «perfetta .. o simili) che subor­ dinano addirittura i principi del ragionare probabilistico, necessario ad ogni mortale, a sottilissime astrusità della piu spinta teoria degli insiemi . Cfr., ad es . , D . BLACKWELL, On a class 01 probability spaces, in Proc. JrJ Berkeley Symp., voI. II, pp. 1 -6 ( 1 9,6), e opere ivi citate.

1 8 . Questioni su aspetti matematici

729

eventi qualunque, A e B, osservando che, per tutti gli H che contengono A e B (ossia H ::l A v B), il rapporto P (A I H)/P(BIH) non cambia ( salvo eventualmente apparire indeterminato, O/O ). Siano infatti H' e H" even­ ti contenenti A v B e tali che non diano luogo al caso O/O, e sia H = H' H" il loro prodotto, che lo conterrà esso pure (oppure si ponga H = A v B). Dovendo essere coerente sia PH ' che PH" potremo scrivere PH ' (A) = PH' (AH) = PH' (H) . PH ' (AIH);

ma PH' (AIH) = P(AIHH' ) = P(AIH) perché H c H', HH' = H; in defi­ nitiva PH ' (A) = PH' (H) . P (AIH}, e cOSI PH' (B) = PH' (H) . P (BIH), e quindi PH ' (A) PH ' (B)

PH '(H) P (AIH) P(AIH) PH ' (H) P(BIH) P (BIH)

Lo stesso vale per ogni H", e, in definitiva, per ottenere il rapporto, basta prendere semplicemente H = A v B = A+B-AB, dato che in tal caso cer­ tamente PH (A)+PH(B ) :,d , e non può darsi il risultato O/O . In tal modo la scrittura P(EIH) = P (EH)/P(H) ha senso ed è valida sempre, e coSI ogni applicazione del teorema delle probabilità composte, e in genere ogni operazione su rapporti di probabilità finché hanno senso (ossia finché non s'introducano, fittiziamente, espressioni indeterminate, O/O, 0 . 00, 00/00 che vanno evitate col procedimento usato per definire il rapporto in ogni caso). Le probabilità nulle formano quindi (come già visto in IV, 1 8 .3 ) di­ versi ordini o strati ; si è già visto (ivi) come si possano costruire strutture di strati assai ricche e complesse, e vedremo piu avanti ( 1 8 . 3 ) cosa acca­ drebbe necessariamente al riguardo qualora si ammettesse l'assioma del­ l'additività completa ( oppure, comunque, tale condizione si supponesse soddisfatta nel campo considerato in un qualche esempio). Ma ritornia­ mo al caso generale. Il teorema delle probabilità totali andrà inteso nel senso ampliato (comprendente il caso di probabilità nulle) : dati n eventi incompatibili, E" E2 , , En , la probabilità dell'evento-som ma E è la somma delle proba­ bilità non nulle ( se ne esistono) e altrimenti la somma delle proba­ bilità nulle di ordine massimo. Se ad es. E3 è di ordine massimo (cioè : P(Eh)/P(E3 ) < 00, h = l , 2 , . , n), l'evento-somma ha probabilità P (E) = • • •

. .

7 30

Appendice

= P (E3 ) se per tutti gli h "" 3 il predetto rapporto è non solo < 00 ma = O,

ed in generale è P(E) = P (E3 ) �h Ch con Ch = P (Eh)!P(E3 ) (dove C3 = 1 , alI tri Ch potranno essere non nulli, minori o maggiori di l , e quelli nulli non contano). L'introduzione delle probabilità subordinate senza la restrizione che la « ipotesi » abbia probabilità non nulla, e la conseguente possibilità di confrontare tra loro delle probabilità nulle, ha importanza concettuale e anche pratica : non tanto perché sia prevedibile che abbiano a servire per interessanti applicazioni, quanto perché mettono in guardia contro modi imperfetti di impostare (o almeno di esprimere) certe questioni; modi che dànno luogo o a perplessità o ad avventatezza nella scelta della via ed interpretazione da seguire per la mancanza di un significato preciso cui riferirsi. Non v'è dubbio che qualcuno potrà giudicare artificiose e accademi­ che disquisizioni del genere, intese a sezionare in infinite parti un ca­ pello; e forse non ha torto, e farà bene a porre i problemi in modo da evitarle, ma anche a tal fine deve conoscerle per saper come evitarle senza cadere in ingenuità o contraddizioni. Comunque, poiché esistono diverse vedute al riguardo, e quella che ritengo corretta (e perciò sosten­ go) differisce da quella che è parte integrante della teoria attualmente piu in auge, un approfondimento in questa sede non può venir omesso. Ma perché preoccuparsi di eventi di probabilità nulla ? Non sono, per ciò stesso, eventualità trascurabili ? Qualcuno, di quando in quando, crede d'aver scoperto il modo di sop­ primere addirittura il problema stabilendo che i valori O ed l vadano J;i­ servati alla probabilità dell'evento impossibile e di quello certo ; ogni evento possibile avrebbe probabilità positiva (e minore di l ). È facile immaginare ( e lo vedremo subito) che ciò condurrebbe anche nel no­ stro caso alle stesse assurdità che s'incontrerebbero volendo inventare una « misura » che sia nulla soltanto per l'insieme vuoto. Soltanto nei pro­ blemi piu elementari (quelli, cioè, in cui non si possono incontrare che partizioni finite o numerabili) potrà darsi, per caso, che talvolta non vi s'incontrino eventi possibili di probabilità nulla, o che, se ve ne sono in­ finiti, la loro riunione abbia ancora probabilità nulla (caso in cui, sotto un certo aspetto, la loro presenza potrebbe dirsi trascurabile). Se invece con-

1 8 . Questioni su aspetti matematici

73 1

sideriamo una partizione non numerabile, poiché al piu un'infinità nu­ merabile può avere probabilità positiva ( altrimenti la somma sarebbe infinita = !Ph = 00 ) , si dovrebbe concludere che è impossibile considerare una partizione non numerabile in casi possibili. Affermazione assurda già nella logica del certo. Altrimenti si presenta quella che costituisce la principale differenza di comportamento tra eventi di probabilità nulla e impossibili : riunen­ done un'infinità si può ottenere un evento non piu a probabilità nulla, e magari anche l'evento certo (mentre riunendo eventi impossibili non si può mai aver altro che un evento impossibile). In quest'ordine di idee s'incontra la questione piu controversa : quel­ la sulla « additività completa », che, limitandoci ad esprimerne il senso con riferimento agli eventi di probabilità nulla, dice che, per ottenere da essi un evento di probabilità positiva (o in particolare l'evento certo), non basta riunirne un'infinità numerabile. Piu specificamente, si tratta di esaminare se sia possibile e se sia appropriato postulare per la probabilità detta proprietà che, come è noto, vale per la misura di Lebesgue grazie alla sua definizione che esclude i casi in cui non varrebbe ( 1 ) . L'opinione prevalente è affermativa, ma ciò deriva a mio avviso da motivi estrinseci che non ci si preoccupa in genere di esaminare se rispondano o meno al­ l'essenza dei problemi. Un secondo aspetto che obbliga ad occuparsi di problemi dipendenti dalla presenza di eventi di probabilità nulla, riguarda gli eventi subordi­ nati. Se un evento è possibile (indipendentemente dalla probabilità che gli viene attribuita, fosse anche nulla), si possono sempre considerare eventi subordinati ad esso (e relative scommesse). Si ottiene cosi (me­ diante le formule accennate poco sopra, e di cui non è il caso per ora di occuparci) la possibilità di confrontare tutte le probabilità nulle tra loro : potranno essere dello stesso ordine ( avere rapporto finito) o di ordine di­ verso ( rapporto uguale a zero, o, nell'altro senso, infinito). Per fare un'a­ nalogia, avremo una situazione simile a quella degli insiemi geometrici che, se hanno nullo il volume, potranno tuttavia venir confrontati fra loro facendo il rapporto delle aree, o delle lunghezze, se sono entrambi ( 1 ) Come nell'esempio di Vitali cito in delle funzioni di variabile reale, ZanichelIi,

(VI, ' .9 ) . Cfr. G. VITALI e G. SANSON/!, Bologna 193', parte I, pp. ,6 sgg.

Moderna teoria

73 2

Appendice

superficiali o lineari, o dicendo che uno è di ordine inferiore se è un seg­ mento mentre l'altro è un pezzo di piano (I) . Non è il caso di insistere nel confronto, ché il caso geometrico pre­ senta particolarità sue proprie; comune è il concetto di misure di diverso ordine ( se si vuole: di grandezze non archimedee), ma l'esempio va inte­ so in senso puramente illustrativo con l'avvertenza di prescindere da ogni nozione come dimensione, distanza, volume, limite, potenza, ecc. Osserviamo soltanto che il considerare la probabilità come una gran­ dezza non archimedea permette di dire, se si vuole, che le « probabilità nulle » sono in effetti « infinitamente piccole » (infinitesimi attuali), e solo quella dell'evento impossibile è zero . Cambiare terminologia non signi­ fica cambiare nulla; tuttavia a volte giova a smussare delle prevenzioni. E talvolta è stato detto che ammettere 0 + 0 + 0 + . . . + 0 + .. 1 è assurdo, mentre semmai potrebbe esser vero sostituendo gli « zeri » con « infini­ tesimi attuali » . Nulla vieta di dir cOSI ( salvo che è una complicazione inu­ tile di linguaggio, e rammenta antiche incomprensioni su « les infiniment petits » ). Rimarrà ugualmente il dubbio che tutte queste cose siano comunque sottigliezze irrilevanti. E in certo senso vorrei rispondere S I ; però, para­ dossalmente, anche e soprattutto volendosene liberare è necessario af­ frontarle e approfondirle e studiare attentamente il modo piu corretto e appropriato per metterle da parte, caso per caso. Anche e soprattutto nei casi ove le risposte approssimate sono da preferirsi a quelle esatte (per­ ché di esattezza illusoria) occorre ragionare doppiamente con esattezza per sapere cosa si conservi valido e cosa vada corretto tenendo esatta­ mente conto dei motivi e del grado di tale illusorietà dell'esattezza. A tale scopo ci varremo poi, tra l'altro, delle considerazioni svolte sul fattore « precisione », e giungeremo a conclusioni che potranno apparire (come desidero e spero) ragionevoli, sensate, forse ovvie. Ma tale sensa.

=

( 1 ) Un metodo piu sistematico di confronto si avrebbe (sempre riferendosi per semplicità allo spazio ordinario) considerando per ogni insieme I l'insieme I, dei punti con distanza da I minore di p, e la funzione V/ ( p ) - Vol (I,) (volume di I, ) . Si può allora definire rapporto Ira le misure di due insiemi, l' ed 1", il limite per p .... O del rapporto V; ( p )/V;' ( p ) (se esiste ). Non sempre esiste , ma nei casi piu «regolari,. è V ( p ) - kp3-d(1 + o (p», ossia V ( p ) è confrontabile con una potenza po t o S (1 S 3), ed in particolare i volumi, aree, lunghezze, numero di punti isolati sono dati dal coef· ficiente k nei casi in cui (1 risulti O, 1 , 2 , 3 ( ossia d - 3 - (1 è il numero delle dimensioni, d - 3, 2, l , O) (a meno d i una costante : per un insieme d i n punti è V ( p ) - n . (4p/3 ) p3 - kp3, quindi n - O/41t ) k); analogamente per d - l è lunghezza - k/1t, per d - 2 è area - k/2.

1 8 . Questioni su aspetti matematici

73 3

zione è giustificata solo dopo esservi giunti attraverso un vaglio accurato di suggerimenti alternativi, che chiarisca cosa è e cosa non è veramente significativo e fondato. 1 8 + L'additività completa. Se n'è trattato ampiamente in ( III, I I ) e successivamente in piu occasioni. Rammentiamo di cosa si tratta

per sviluppare poi ulteriori osservazioni critiche. La proprietà, ammessa come assioma, dell'additività, dice che in una partizione finita la somma delle probabilità dev'essere = 1 , ossia se Eh E2 , . . . , En sono incompatibili ed esaustivi, le probabilità Ph P2 , . . . , Pn loro attribuite devono essere numeri nonnegativi di somma = 1 . Questa, anzi, è la condizione non solo necessaria ma sufficiente perché la valutazione sia coerente, ammissibile. Nel caso di una partizione infinita, in eventi Eh ( h € H, H qualunque, per es . numerabile o continuo) possiamo dire soltanto, in base agli assio­ mi precedenti, che ogni somma di un numero finito delle Ph dev'essere ::5: 1 , ossia che solo ad un numero finito o al piu ad un'infinità numerabile tra esse può attribuirsi un valore positivo ( '" O ), e che la somma di tali valori ( I ) dev'essere ! Ph ::5: l . Se in particolare prendiamo le Ph tali che la loro somma valga 1 , gli Eh di probabilità nulla hanno probabilità nulla anche complessivamente, ossia anche alla loro riunione E = ! Eh (Ph = O ) risulta attribuita una probabilità P ( E ) = O . Se invece è ! Ph = P < 1 , ossia se una probabilità l-P risulterà dispersa nella partizione, essa sarà ne­ cessariamente la probabilità di E = riunione degli eventi di probabilità nulla se quelli con probabilità non nulla sono in numero finito; altri­ menti essa potrà esser attribuita ad E e a E = riunione degli eventi di pro­ babilità positiva in modo qualunque : P (E) = P', P (13) = P+P", P' +P" = l-P . ( I ) Anche se sono infiniti si può parlare di «somma. nel senso di «estremo superiore di somma di un numero finito di termini.. (pensando alla «somma della serie .. nessuna conclusione sarebbe lecita) . Intendendo con � l'estremo superiore (eventualmente +00) delle somme di un numero finito di termini, potremo indicare cosl la somma di qualunque infinità di numeri nonnegativi, e in parti­ colare di eventi. � Eh ( h E K) sarà ad es. il numero di successi fra gli Eh per cui h E K (e si noti che la solita convenzione - dr. cap. I, n. 8 - per cui (h E K) - 1 oppure (h E K) - O a seconda che h ap­ partiene o no a K permette di scrivere (h E K) come fattore, in riga, anziché come indicazione sotto il �; dr. fra poco l'applicazione con ( P. - O) come (h E K) ove K - «insieme degli indici per cui Ph - O .. ). Se poi gli Eh sono incompatibili, la somma è sempre necessariamente o O o 1 .

7 34

Appendice

In definitiva: date le probabilità Ph per gli eventi di una partizione Eh, se la loro somma è = 1 rimangono univocamente determinate le pro­ babilità di tutti gli eventi da essa dipendenti ( somme di eventi della par­ tizione in numero finito o infinito) ; diremo in tal caso che la probabilità P{E) è completamente additiva sulla partizione {Eh} ' Altrimenti ciò av­ viene soltanto per gli eventi-somma di un numero finito di Eh o loro com­ plementari, mentre per ogni altro rimane un margine d'indeterminazione di l-P = l-� Ph : p' = � Ph{Eh C E) :::;; P{E) :::;; l -� Ph{Eh c E) = p" = p'+{ l-P).

Beninteso, la « indeterminazione » significa solo che il prolungamento non è in generale univoco : si ha solo una limitazione. Non c'è nessuna « indeterminazione » in senso specifico, come di « impedimento» ad attri­ buire a P{E) un valore ben determinato ; solo che E non è uno dei pochi eventi per cui abbiamo già implicitamente valutato la probabilità valu­ tando quelle degli Eh ma uno come tutti gli altri per cui siamo ancora piu o meno liberi. In particolare, siamo completamente liberi (di dare a P{E) un qualunque valore tra O ed 1 compresi) nel caso in cui a tutti gli eventi della partizione si sia attribuita probabilità nulla (ed E non sia somma di un numero finito di Eh o complementare) : questo è il caso di una distri­ buzione continua (lineare, o nel piano, o spazio, ) di cui si sia stabilito soltanto che è « senza masse concentrate », oppure di un'infinità numera­ bile di eventi incompatibili (esaustivi) di probabilità nulla. Conclusioni di questo genere possono risultare sgradite o apparire for­ se paradossali : COSI almeno sembra per il fatto che molti autori cercano di sfuggirvi introducendo qualche nuovo assioma (o, il che è la stessa cosa, « rinforzando » i precedenti). Restrizioni di questo tipo sono quelle consistenti nel negare che ad eventi possibili sia lecito attribuire proba­ bilità nulla (Z), o che una riunione di eventi di probabilità nulla possa avere probabilità non nulla (Za) o lo stesso ma solo per infinità numera­ bili (Zb ), o nell'affermare la completa additività per partizioni qualunque ( Ka) o solo su partizioni numerabili ( Kb ) . Abbiamo introdotto le sigle Z, Za, Zb, Ka, Kb per fare riferimento nel seguito agevolmente a tali « assiomi », che, beninteso, respingiamo. Il primo e l'ultimo sono stati effettivamente proposti; Za e Zb sono versioni sempre piu attenuate di Z, nonché casi particolari rispettivao • •

1 8 . Questioni su aspetti matematici

7 3.5

mente di Ka e di Kb j l'inclusione di versioni intermedie ha il solo scopo di accennare a tali connessioni. Accenniamo anzitutto all'assenza di vere e proprie ragioni addotte dai numerosi fautori di tale restrizione : in genere essa viene presentata come un'estensione « naturale » del teorema delle probabilità totali per n -+ oo (come fa ad es . Cramèr), o come una proprietà « naturale » per analogia con la misura di Lebesgue ( ed è l'idea piu comune) o per estensioni per continuità al modo di Baire (come fa ad es. Feller)j si tratta cioè di motivi « matematici » e non attinenti alla teoria delle probabilità. Ma una conseguenza matematica è l'impossibilità di pensare una P(E) definita per tutti gli eventi dipendenti da una partizione non numerabile, per es. , per tutte le parti di un insieme avente la potenza del continuo (per i risultati di Vitali, Lebesgue, Banach, Kuratowski, Ulam, sull'ine­ sistenza di misure cr-additive, salvo il caso banale di « masse concentrate » su un numero finito o un'infinità numerabile di punti, sulle parti di un insieme non numerabile ( I l La cr-additività contraddice quindi l'idea fon­ damentale che ad ogni evento incerto si possa attribuire una probabilità, senza alcuna discriminazione, logicamente inesplicabile, tra eventi ed eventi. Certo, tale « idea fondamentale » poteva anche dar luogo a con­ flitti con altre esigenze: se ad es. si fosse trovato che la prolungabilità di una P semplicemente additiva non sussiste sempre avremmo dovuto riesaminare se e come una teoria matematica delle probabilità riusciva tuttavia possibile con non so quali attenuazioni degli assiomi (2) . Il fatto che questo disastro non si verifichi per l'additività semplice ma soprav( I ) Per le nostre considerazioni basta che ciò sia dimostrato per certi insiemi; perciò è sembrato preferibile non appesantire il testo precisando che il risultato è dimostrato (Ulam) purché il numero cardinale dell'insieme non sia «inaccessibile» . ( 2 ) U n guaio « minore» può servire da esempio. U n paradosso d i Haussdorff dice che una su­ perficie sferica si può dividere in tre insiemi. A. B. C. tali che ciascuno di essi è sovrapponibile sia ad un altro che alla riunione degli altri due; pertanto. ogni « misura» anche semplicemente additiva invariante per moti rigidi risulterebbe per tali insiemi sia - 1 /3 che - 1/2 (e - 2/3 . e cosi via : dal­ l'assurdo si può. com'è noto. dedurre logicamente qualunque conclusione si voglia) . Non è quindi possibile definire una misura (semplicemente additiva) su tutti gli insiemi invariante per movimenti rigidi ( né. quindi. una probabilità di tale natura); ciò contraddice l'intuizione geometrica. ma non l'idea di probabilità ( né l' «assioma della scelta» ) ; come disse Paul Lévy per confutare tale interpre­ tazione il fatto è semplicemente che «il continuo a piu dimensioni è piu complicato ancora di quanto si immaginasse» . (Cfr. E. BOREL. Les paradoxes de l'infini. Gallimard. Paris 1946; PAUL LÉVY. Les paradoxes de l'infini et le calcul des probabilités. e ree. di Borel. «Bull. Sci . Math . .. . 1948. pp. 1 84192.

73 6

Appendice

venga tentando di sostituirla con la eT-additività indica chiaramente che tale sostituzione è del tutto inappropriata. Accettando il concetto soggettivo di probabilità, la conclusione divie­ ne ancora piu immediata. Per giungere a tale conclusione non era infatti neppure necessario che affiorasse questa contraddizione, ossia l'impossibilità di trovare una qualunque P; bastava anche solo che la scelta fosse limitata in un modo che apparisse preclusivo della libera valutazione lasciata a ciascun indi­ viduo. E ciò si verifica anche nel caso della partizione numerabile. Sup­ poniamo che i « casi possibili » costituiscano un'infinità numerabile, e, per evitare suggestioni derivanti dal pensare sulla retta a punti o insiemi apparentemente « privilegiati », immaginiamo siano rappresentati da pun­ ti di una circonferenza distanti tra loro per multipli razionali dell'an­ golo giro (ossia, prendendo l'origine in uno qualsiasi di tali punti, quelli con O = 2k1t con k razionale, O ::s;; k < l ). Che un assioma mi impedisca di dare probabilità di somma maggiore di uno, o negative, è cosa che s'in­ tende senz'altro come condizione di coerenza, non restrittiva della li­ bertà di opinione. Ma che un assioma mi proibisca (come il Zb o il Kb ) di attribuire a tutti questi eventi una stessa probabilità, Ph = O, o addi­ rittura mi ingiunga (come il Kb ) di sceglierne un numero finito cui at­ tribuire una probabilità complessiva di almeno il 99 % (lasciando per tutti gli altri infiniti una probabilità complessiva di meno che 1 % ; e potevo dire 99,999 % e 0,00 1 % e peggio), quand'anche io non abbia un'opinione siffatta e nessun motivo per giustificarla, questo no: non è piu questione di coerenza, bensl ingerenza nel merito del mio giudizio ! ( I ) . Ammettere di attribuire a tutti gli eventi (di una partizione numera­ bile) una probabilità nulla è poi, si noti, cosa assai meno restrittiva che considerarli « ugualmente probabili » nel caso finito (P (Eh) = l/n , h = 1 , 2 , . . . , n) ; la cosa equivalente sarebbe considerare uguali tra loro le P(Eh), non nel senso che P(Eh ) = P(Ek ) = O come numero reale, ma che P(Eh)!P(Ek ) = 1 (come rapporto di probabilità nulle, o « infinitamente piccole » ). Perché valga la prima condizione (Ph = O ) basta molto meno ; in termini di rapporti : basta che non esistano probabilità di ordine mas( 1 ) � strano poi che questo divieto contro l'opinione di equiprobabilità in questo caso verrebbe opposto, a chi dicesse di sceglierla perché «non sa nulla. , da coloro stessi (in genere) che con molta facilità lo spingerebbero, nel caso finito, ad accettare proprio tale opinione e proprio per tale motivo.

1 8 . Questioni su aspetti matematici

737

simo (per es., che sia, per ogni h, P(Eh+ l )/P (Eh) = 00), oppure che, se esi­ stono, la loro somma (presa una di esse come unità) sia infinita (e basta anche - ma ciò non si può desumere dai soli rapporti - che sia infinita, nella detta scala, la probabilità di tutti i casi; e potrebbe accadere che ciò avvenga per la riunione dei casi di probabilità d'ordine inferiore senza che avvenga per quelli dell'ordine massimo). Ammettendo (in conformità all' « Ass. 3 » ) che, se accettati, gli assiomi Zb o Kb dovrebbero valere anche per le probabilità subordinate a un qualunque evento H possibile, essi implicherebbero condizioni ancor piu restrittive per le probabilità dei singoli « casi possibili » onde evitare che, estraendone un'infinità numerabile, possa aversi un caso di probabilità tutte nulle. Quelle dello stesso ordine non possono essere che al piu un'infinità numerabile, cosicché, in un'infinità continua di « casi possi­ bili », dovremmo avere un'infinità continua di diversi « ordini » di proba­ bilità ( I ) . Resta da aggiungere che problemi esplicitamente o copertamente con· trastanti con l'additività completa si trovano di quando in quando consi­ derati anche da autori che la accettano come assioma. Talvolta il caso di (< un intero scelto a caso » (con probabilità = densità limite, per es. (prob. che sia multiplo di k) = lim[(numero dei multipli di k tra 1 ed n)/n] = l/k) viene considerato come qualcosa di « sensato » ma « fuori della regola ». Altre volte ( ad es. in Rényi, cfr. III, 1 8 .5 ) si considerano probabilità su­ bordinate, per es. una distribuzione entro un cerchio, che poi si fa cre­ scere, e le probabilità di ogni regione finita tendono a zero; l'additività completa si prescrive per le probabilità subordinate (cioè : entro un cer­ chio), e non si rileva che non vale piu per la distribuzione-limite (che non si considera esplicitamente come tale : il passaggio al limite è un accor­ gimento ad hoc). Questo comportamento sembra confermare ulteriormente l'impres­ sione desunta inizialmente dall'assenza di effettive motivazioni probabi­ listiche in favore dell'additività completa, e cioè che essa venga conside­ rata piu come un abbellimento matematico che come una proprietà ne­ cessaria della probabilità. Anche altre anomalie e stranezze ( o addirit( I)

Piu ancora: quelle di uno stesso ordine devono dare somma convergente; i diversi «ordini,. devono formare, disposti in ordine decrescente, una successione «bene ordinata,. , di modo che esista sempre un «ordine massimo,..

73 8

Appendice

tura contraddizioni, in senso psicologico se non in senso formale) confor­ tano la stessa impressione : il fatto che la « uguale probabilità » sia predi­ letta nel caso discreto e in quello continuo (punti di un intervallo), ma bandita nel caso numerabile, è spiegabile solo coll'abitudine ad applica­ re in ogni particolare caso gli strumenti piu consueti (campo numerabile: somma di serie ! ) anziché tener fermi i principi della coerenza; il fatto stesso di trattare diversamente il caso finito o numerabile dal caso di in­ finità non numerabile (assiomi Zb e Kb ) denota il prevalere dello stru­ mento matematico sul problema logico, per il quale doveva semmai ap­ parire sensato chiedere se ci sia o non ci sia distinzione tra finito e (qua­ lunque) infinito. Badando a ciò, la linea qui seguita sembra rappresentare - indipen­ dentemente dalle ragioni addotte e, spero, piu probanti - anche il modo piu naturale di render connessi tra loro atteggiamenti almeno in parte ispirati a visioni frammentarie e mal conciliabili. In fine, va menzionato un concetto e un risultato che vengono consi­ derati come una giustificazione per l'uso sistematico della cr-additività : la possibilità di ampliare l'interpretazione in modo da attribuire a nuovi enti fittizi la probabilità « dispersa » nella partizione, di modo che il conto torni. In qualche caso, anzi, si pretende che tali enti non abbiano nep­ pure ad essere fittizi, bensI reali per la necessità di salvaguardare l'addi­ tività completa. COSI in una nota ( salvo errore, di Kingman) ricordo di aver letto che una distribuzione di probabilità per processi discontinui addensata intorno a un caso limite in cui il processo diverrebbe continuo indica che è necessario includere tra i casi possibili i casi limite continui per affibbiare ad essi le probabilità mancanti nella somma. Ragionando analogamente, si potrebbe dire che se i casi possibili sono i numeri razionali, e a ciascuno va attribuita probabilità nulla, resta dimo­ strl;lto che devono esistere ed essere possibili anche i numeri reali perché devono fungere da indispensabile supporto a tutta la probabilità ( = 1 ) . Le considerazioni di tipo piu generale cui si alludeva sono però piu astratte, benché, in fondo, rispondenti piu o meno al medesimo tipo di ragionamento, consistente nell'aggiungere enti fittizi. Nella matematica tale ragionamento o procedimento è notoriamente fruttuoso (come l'ag­ giunta di nuovi punti per compattificare uno spazio) ; ma gli eventi hanno da essere eventi, non astrazioni, se la teoria deve conservare un signifi-

1 8 . Questioni su aspetti matematici

73 9

cato concreto, il che vale quanto dire « un significato qualsiasi» . E ciò, nelle costruzioni accennate, non avviene. Occorre infatti riferirsi agli « ultrafiltri », ciò che dà soltanto una possibilità teorica di conseguire il risultato desiderato ; comunque esso varrebbe in un campo alterato rispetto a quello originario, che solo inte­ ressa; non ho visto alcuna applicazione allo studio di casi effettivi ( e sem­ bra impossibile possa comunque costituire una semplificazione anziché una complicazione superflua fatta allo scopo di introdurre un'altra com­ plicazione superflua, la eT-additività); il solo uso di quel risultato mi sem­ bra sia stato di incoraggiare vieppiu a considerare solo i casi ove la eT-addi­ tività vale direttamente e trascurare gli altri perché teoricamente trasfor­ mabili in modo da risultare fittiziamente riconducibili a godere di quel­ la proprietà che in effetti, nel campo che serve considerare, non sussiste. La corisiderazione di ultrafiltri è utile, anche praticamente, ad altri effetti : per la considerazione delle « probabilità agglutinate » che posso­ no presentarsi nelle distribuzioni ( 1 ) , cioè probabilità che non si possono suddividere. Basti pensare al caso (già menzionato) di distribuzioni su un ultrafiltro : un ultrafiltro è una famiglia di eventi (o insiemi) cui appar­ tiene sempre uno e uno solo degli elementi di una partizione, e attribuia­ mo precisamente probabilità l agli eventi che vi appartengono (ed ov­ viamente, quindi, probabilità O agli altri. Anche la considerazione dei filtri può essere utile se si desidera ana­ lizzare meglio le possibilità di ripartizione della probabilità dispersa. In generale, data una partizione in eventi Eh, con !Ph < l , basta considerare un altro evento B ( o una partizione, BI, B2 , , B n ) e formare la partizione BEh (o le partizioni BtEh, B2 Eh, . . . , BnEh) di B (o di BI, di B2 , , di Bn). La probabilità dispersa, l-!Ph' potrà allora venir divisa tra i filtri generati da B e da B ( oppure dai B I, B2 , . . . , Bn). In particolare, pensiamo alla massa aderente ad un punto (in una distribuzione sulla retta). La probabilità aderente a sinistra (o a destra) potrà ulteriormente venir suddivisa considerando dei filtri, ad es. la successione di insiemi In dei numeri razionali tra x -l /n ed x, ottenendo la probabilità aderente a sinistra sui razionali e sugli irrazionali, ecc. Beninteso, la F(x), come non =

=

• • •

• • •

( I ) Cfr. B. DE FINETTI, La struttura delle distribuzioni in un insieme astratto qualsiasi, «Giorn. 1st. ! tal . Attuari,. , XVIII ( 19.5.5 ), pp. 1-14.

740

Appendice

basta a separare le eventuali masse aderenti da quella concentrata, tanto meno basta per queste suddivisioni che andrebbero fissate con ulteriori scelte. 1 8 + Del piu e meno « ragionevole». Se si desse inizio su ciò a una discussione tra fautori di opposte tendenze sarebbe difficile porvi termine ed anche difficile trarne un costrutto perché probabilmente cia­ scuno cercherebbe soprattutto di contestare la « ragionevolezza » delle assunzioni dell' altro, giudicandole troppo « teoriche », prive di valore concreto, condizionate al presupposto di un grado di precisione assolu­ tamente non realistico. Su questo punto ciascuno avrebbe buon gioco nel criticare l'imposta­ zione altrui, e senza dubbio avrebbe maggior ragione colui che sollevasse tali critiche contro l'impostazione qui sostenuta. Se non che, le compli­ cazioni ivi considerate sono prive di ogni conseguenza salvo che si voglia proprio studiare dei casi in certo senso « patologici » ; per i problemi « pra­ ticamente sensati » si evitano non solo queste complicazioni ma anche quelle imposte pregiudizialmente ovunque dall'ammissione della 0, avremo IP(X,,)I ::;; P( IX" I ) < E+K . P ( IX" I > E) (perché IX" I < E+K . ( IX,.I > E) = E ( se IX" I < E) o E+K altrimenti); ma se

X.. -+ ° anche ( IX" I > E ) -+ ° (ciò significa - si rammehti - che è impossi.

bile che vi siano infiniti IX" I > E), e quindi ( ammesso Kb') P ( IX" I > E)-+ O ; ne segue che limIP(X,.) 1 < E , e , per l'arbitrarietà di E, limP( X,.) = limIP(X,,)1 = O.

Poiché gli eventi sono uniformemente limitati ( I E" I ::;; 1) la proprietà ora stabilita è equivalente alla Kb' (ossia all'additività completa). To· gliendo la restrizione dell'uniforme limitatezza la proprietà può non va· lere (pur rispettando l'additività completa). Se infatti partiamo da una partizione numerabile in eventi E,. cui attribuiamo probabilità p,. non nulle di somma = 1 , e consideriamo la successione di numeri aleatori (non unif. lim. ) X,. = E../p" , abbiamo P ( X,. ) = p../p,. = 1-+1 "" 0, benché X,,-+ O ( tutti gli X" tranne uno sono infatti = 0 ). Modificando l'esempio, col porre ad es. X" = E../p: si ha P(X,.) = p�-", e si vede che la proprietà P(X,,)-+ O vale se a. < 1 mentre se a. > 1 abbiamo addirittura P(X")-+oo (benché sia sempre X,,-+ ° per il medesimo motivo).

74 6

Appendice

L'estensione delle proprietà sui limiti è analoga. Ammesso Kb, è P(X') = P(minlimXn ) :::;; minlimP(Xn ) :::;; ::s: maxlimP (Xn ) ::s: P(maxlimXn ) = P (X") se le Xn sono uniformemente limitate. Diamo la dimostrazione, che in­ clude il caso degli eventi (per cui non era stata data), riferendoci al caso del massimo limite (l'altro ovviamente è simmetrico). Poniamo X: = supXn(per h � n ),

X" = maXlimXn = infX"n ;

è X� = Xn+(X�-Xn) = X" +(X�-X"), dove (X�-Xn) ed (X�-X") sono nonnegativi. Avremo quindi in ogni caso P(Xn) ::S: P(X")+P(X�-X" ), e sarà maxlimP(Xn) ::s: P(X" ) se P(X�-X")--+ O ; ma X�-X" --+ 0 per defi­ nizione, e, se supponiamo le Xn uniformemente limitate (e quindi lo sono a maggior ragione le X�-X"), e ammettiamo l'additività completa, la condizione sarà soddisfatta. In particolare, se la successione Xn converge (certamente) ad un li­ mite (in generale aleatorio) X = limXn , potremo dunque affermare che P(X) = limP(Xn) se ammettiamo l'additività completa ed inoltre gli Xn sono uniformemente limitati. Il caso di una serie, � Xh, si riconduce al precedente considerando le ridotte, Yn = � Xh( h ::s: n ); dette Y' ed Y" la minima e la massima somma avremo P ( Y' ) ::s: min� P(Xh ) ::s: max � P(Xh) :::;; P(Y" ), e in particolare P ( Y ) = P(� Xh) = � P(Xh ) qualora sia Y' = Y" = Y ossia la serie sia certamente convergente, sotto la condizione che i resti siano uniformemente limitati ( e sempre, beninteso, ammettendo l'additività completa) ( I) . Abbiamo detto che non intendiamo considerare l'additività completa ( I ) Basta la condizione di convergenza della setie ! P < !X.! > per stabilire (ammessa l'additività completa) che ! X. ha probabilità - 1 di essere convergente, e che (posto quindi, indifferentemen­ te, Y - Y' o Y - Y", o Y - Y' - Y" se coincidino e altrimenti Y - 0, ecc . ) si ha p ( Y) - ! P ( X.) (si badi: �, non P). In tale ipotesi infatti, scelti comunque I e À positivi, esiste un N tale che, qua­ lunque sia q, tisulta ! P < ! X. I ) (N :s h :s N+ q ) < ÀE, ossia PU; IX.I (N :s h :s N+ q)} < ÀE, e a maggior ragione (scrivendo brevemente {!.v . •} la precedente sommatoria) P (!N . • > À) < E (perché, se X è cer­ tamente positivo, (X > À) :S X/À). Se vale, come supposto, l'assioma di continuità, anche l'evento­ limite (!N > À) - lim (!N . • > À) (per q -. .. ) ha probabilità :s E, e a maggior ragione ha probabilità :s I, e quindi (data l'arbitratietà di I), nulla il fatto che la serie diverga (nel qual caso il resto !N sa­ rebbe .. ) .

1 8 . Questioni su aspetti matematici

747

come un assioma; essa è allora una proprietà, che potrà tuttavia apparire piu o meno interessante, e che varrà su certe partizioni e non su altre. Interpretata la condizione come condizione di continuità, potremo for­ mulare piu significativamente anche tale fatto dicendo che essa varrà su certi sistemi lineari e non su altri. Tale formulazione ha il pregio di mettere in luce il vero senso del problema, e cioè il fatto che la proprietà dell'additività completa o non completa, ossia della continuità o non continuità, riguarda il comporta­ mento della funzione P su un sistema lineare � ; studiare completamente il comportamento di P rispetto alla continuità significa pertanto distin­ guere quali sistemi lineari � appartengono al complesso Ap dei sistemi lineari sui quali P è continua, e quali no. Precisamente, in conformità a quanto detto, e ricollegandoci alla con­ dizione di coerenza, diremo che P è coerente e continua su � se non ri­ sulta uniformemente positivo nessuno dei numeri aleatori X della forma X kl (XI- P(Xd)+k2(X2-P(X2»)+ . . . +kn(Xn-P (Xn})+ . . . =

( ove i kh siano numeri reali qualunque e gli Xh appartengano ad � ), non solo per somme di un numero finito di termini (come occorre comunque per la coerenza) ma anche nel caso di una serie (convergente, e coi resti uniformemente limitati). È chiaro che se � appartiene a Ap, vi appartiene ogni sistema lineare contenutovi, ed anche la sua chiusura � formata da tutti i numeri aleatori ottenibili dagli � mediante passaggio al limite nel senso detto (Xn .... X, IXn-XI < K). Insieme ad �I ed �2 vi appartiene �1 + �2 ( sistema lineare delle somme XI+X2, XI E �I e X2 e �2); ciò vale se riuniamo un numero finito di sistemi �h, ma non per un'infinità (1 ) . Ciò mostra che non è vera quella che poteva apparire l'ipotesi piu « naturale», e comunque quella che sarebbe stata la piu conforme alle vedute abituali portando a distinguere eventi e nu(1 ) Consideriamo una partizione numerabile in eventi Ehl (h, k - 1 , 2, . . . , n, . . . ); indichiamo con Eh - Ik Ehl la somma degli eventi con primo indice h, e attribuiamo i valori Pu - P ( Ehk) e Ph - P (Eh) in modo che L pu - Ph (per ogni h) ma Ir. Ph < 1 (ossia Ir.1 PU < 1 ). Sui sistemi lineari -Ch definiti dagli Ehi ed Eh la P è continua e quindi lo è su ogni sistema lineare -C determinato da un numero finito di -Ch; ciò non sussiste piu però quando si consideri il sistema -C determinato da tutti gli infiniti -Ch•

Appendice

74 8

meri aleatori appartenenti o no a un certo sistema di enti « probabiliz­ zabili » : l'ipotesi, cioè, che il complesso Ap fosse costituito da tutti e soli i sistemi lineari appartenenti a un certo sistema lineare �* che avrebbe in tal caso assunto il significato di « campo totale di continuità » . I9·

Questioni su formulazioni qualitative. I 9 . I . Parlare di probabilità in forma qualitativa può significare molte cose assai diverse tra loro. Cercare di enumerarle e precisarle sa­ rebbe tedioso e inconcludente, ma qualcosa bisogna pur dire per rendersi conto della necessità di non confondere cose diverse e di non stupirsi di apparenti controsensi. Di quello, ad esempio, di attendersi considerazio­ ni che rimangono nel vago e vedersi trascinare in sottigliezze che obbli­ gano ad applicare dovunque i metodi di confronto introdotti per le pro­ babilità nulle. Il caso in cui si rimane sempre nel vago è quello della vita reale, dove per lo piu ci si limita a distinguere poche gradazioni espresse in parole ( abbastanza probabile, o molto, moltissimo, o poco, pochissimo, . . . ) o frazioni indicative ( 50 % , 75 % , 90% , 99 % , . . . ), e dove anche nei con­ fronti fra due eventi le probabilità si diranno « circa uguali » se non ap­ pare netta la prevalenza dell'una o dell'altra. Ma a questo livello non c'è neppure occasione di ragionare in termini matematici. A volte si pensa a una vaghezza in senso di « indeterminazione » ( ad es. tra limiti numerici precisi), come già accennato, e dovremo riparlar­ ne. Altre volte si ritiene di poter confrontare ( supponiamo esattamente, per non perderei in troppi sottocasi) le probabilità di certi eventi tra loro ma non con probabilità numeriche; un medico può darsi abbia un'opinione abbastanza precisa in senso comparativo tra le probabilità che hanno alcuni malati di superare l'attuale malattia, senza però sapersi orientare se richiesto di confrontarle con la probabilità di ottenere un punto diverso da « 6 » lanciando un dado (o, esplicitamente, richiesto di dire se è piu o meno di 5/6, ossia di 83 ,3 % ). A volte questa non con­ frontabilità con numeri ( anziché a motivi contingenti, come mancanza di abitudine) si attribuisce a peculiarità essenziali degli eventi in que-

1 9 . Questioni su formulazioni qualitative

7 49

stione (dr. ad es. l'articolo-recensione di Borel per il trattato di Key­ nes ( I ) oppure al fatto di non disporre (o di non voler disporre) di dispo­ sitivi tipo dadi, urne, o simili. In questo caso, se la confrontabilità si sup­ pone esatta, come quella che nel confronto tra segmenti conducesse a dire che un segmento chiuso (con estremi) è maggiore di uno ugualmen­ te lungo ma aperto (privato degli estremi), è chiaro che risulta una scala non-archimedea (ed è questo il controsenso di cui si è fatto menzione all'inizio). . Altri aspetti si hanno quando l'indeterminatezza ha un senso preci­ so : in base ai dati si può stabilire solo che una probabilità p appartiene a un intervallo p' :::;; p :;;; p" ; che non si tratti di indeterminatezza essenziale è stato detto e ripetuto. Ma ci sarà qualcosa da dire, e qualche conside­ razione andrà ricollegata alle discussioni ( nn. 5-7 ) su verificabilità di eventi e misurabilità di grandezze. 1 9 . 2 . Impostazioni assiomatiche in forma qualitativa. In tutti gli approcci finora seguiti abbiamo introdotto subito i valori numerici per le probabilità, sia intuitivamente come prezzi, sia come parametri per l'ottimazione di una decisione, sia con riferimento ( seppure indiret­ to) a percentuali di palline bianche o di successi. È certamente questo il modo piu immediato per giungere a poter esprimere le proprie opinioni e per formulare le condizioni matematiche cui devono adeguarsi e me­ diante le quali si possono manipolare nel ragionamento probabilistico. A volte invece sembra preferibile partire da una relazione puramente ordinale, ossia qualitativa, che o sostituisce la nozione quantitativa ( se la si ritiene priva di senso, o comunque la si vuole evitare), o si usa come primo passo per la sua definizione. CosI fra due beni (o due situazioni economiche) A e B, si può chiedere quale dei due è preferibile ( o se sono indifferenti) prima di definire l'utilità (o anche rifiutando la nozione di utilità misurabile), e lo stesso dicasi per la temperatura, per l'altezza di un suono, per la lunghezza di segmenti, ecc. ecc. Si potrebbe procedere allo stesso modo anche per le probabilità, ed anzi ( se si accetta il concetto soggettivo) applicando proprio la nozione di preferibilità accennata per l'utilità : anziché due beni A e B si confronte( I ) Articolo ripubblicato nel Traité di. Borel (come nota 2 nel fasc. III del tomo IV); ttad. in­ glese in H . E. KYBURG & H. E. SMOKLER, Studies in sub;ective probability, Wiley, New York I 964.

7 50

Appendice

rebbe allo stesso modo un medesimo guadagno (diciamo : di una lira) su­ bordinato al verificarsi dell' evento A oppure dell' evento B : la preferenza ( salvo le riserve per « fattori perturbativi », cfr. il precedente n. 1 3 ) an­ drà all'evento giudicato piu probabile ( oppure la scelta apparirà indiffe­ rente se i due eventi si giudicheranno identicamente probabili). Tale via è anche stata seguita, e, se non si sta a cercare il pelo nell'uo­ vo, conduce rapidamente e con naturalezza alle stesse conclusioni ( sia pure in forma meno direttamente applicabile al caso generale) ; anche le proprietà che possono servire da assiomi sono semplici e naturali (le so­ lite proprietà di ordine piu l'equivalente qualitativo dell'additività : E v E' è piu o meno o identicamente probabile di E v E" ( supposti E' ed E" incompatibili con E) a seconda che lo è E' rispetto ad E"; ossia, la somma logica conserva l'ordine) ( ' ) ; tuttavia il confronto « qualitativo » risulta inevitabilmente assai piu spinto ( anzi assai troppo sofisticatamen­ te spinto) in fatto di precisione, da un punto di vista teorico, di quanto non risponda alle esigenze della valutazione quantitativa (numerica) e tuttavia inidoneo alla traduzione in tale valutazione ( a meno di non po­ stulare la possibilità di costruire speciali partizioni di raffronto). La complicazione sta nel fatto che, in senso qualitativo, un evento pos­ sibile (qualunque probabilità numerica p gli si attribuisca, anche p = O ) è ovviamente « piu probabile» di un evento impossibile; ed analogamen­ te, sommando a un evento E un evento A possibile con esso incompati­ bile, anche se di probabilità nulla, si ha un evento E + A « piu probabile » di E. Ne segue che, avendo altri eventi E' di probabilità (numerica) ugua­ le a quella di E, P(E') = P (E ), il confronto qualitativo dovrebbe stabilire per ciascuno se è identicamente probabile ad B, oppure ad E + A, o piu del primo e meno del secondo, o piu di entrambi, o meno di entrambi. Peggio : considerando una qualunque successione di eventi Ah A2, , Ah, . . . , tutti di probabilità nulla e incompatibili tra loro e con E, ed un'al­ tra B" B2, . . . , Bh, . . . , di eventi di probabilità nulla, incompatibili tra loro e contenuti in E, ponendo Eo = E, Eh = E+Al +A2+ . . . + Ah, E_h = E-B1-B2- -Bh, ( h > O ), • • •

• • •

( ' ) Cfr. B. DE FINETTI, Sul significato soggettivo della probabilità, «Fundamenta MathematicaeJO , voI . 17, Warszawa 1 93 1 ; u n miglioramento nella deduzione, rispetto alle dispense del m i o corso d i C. d . Prob . , Un . Padova, 1937-,8, fu apportato dal prof. A . Gennaro che m i succedette i n quell'in­ carico.

19.

Questioni su formulazioni qualitative

75 I

si ottiene una successione crescente (Eh c Ek per h < k) e doppiamente illimitata di eventi Eh ( h = O, ±l , ±2, . . . , ±n, . . . ), tutti di probabilità P(Eh) = P(E). Il confronto di un qualunque E' avente pure probabilità P(E') = P(E) con gli Eh dovrebbe precisare quale (eventualmente) degli Eh sia identicamente probabile ad E', o altrimenti in quale intervallo Eh, Eh + l si colloca, oppure se precede, o segue, tutti gli Eh per h tra ± oo . È per la necessità, ora spiegata, di un confronto tanto pili sottile, che due eventi appartenenti, nell'ordinamento, alla stessa « classe di equi­ valenza » li abbiamo detti « identicamente probabili » (e non « ugualmen­ te », come quando alludiamo all'uguaglianza delle loro probabilità nu­ meriche). La situazione è quella che si presenterebbe (in modo meno grave) in un confronto tra segmenti ove segmenti di ugual lunghezza si dicessero « ugualmente lunghi » solo se entrambi contenenti O 0'1 0 2 degli estremi (dicendo altrimenti «pili lungo » quello che ne contiene di pili); un'ana­ logia maggiore si ha estendendo l'esempio agli insiemi riunione di un nu­ mero finito di intervalli, e dicendo « pili lungo » ( a parità di somma delle lunghezze) quello per cui è maggiore l'eccedenza del numero di intervalli chiusi rispetto a quelli aperti (quelli contenenti un solo estremo non en­ trano nel conto; eventuali punti isolati contano come intervalli chiusi; tali convenzioni occorrono per avere, come nel caso delle probabilità, la proprietà additiva). Volendo usare tali partizioni in intervalli come immagine per le no­ stre partizioni probabilistiche, si vede ad es . che, se l'evento certo si pen­ sa rappresentato da un intervallo chiuso di lunghezza 1 , è impossibile di­ viderlo in due ( o, pili generalmente, in n ) intervalli identicamente pro­ babili ( i punti estremi sono n+ l , e ne avanza l }. Neppure ricorrendo a partizioni in somme d'intervalli la difficoltà si supera: si tratta sempre di dividere la lunghezza 1 (in segmenti con un estremo) pili un punto ; spostando l'attribuzione di un punto estremo fra i due intervalli ad esso contigui si crea una disparità tra essi ma rimane sempre, complessivamen­ te, l'eccedenza di un punto . Viceversa, se non si postula di possedere ( e di includere nel campo de­ gli eventi tra cui si procede per comparazione) degli eventi atti a fornire una scala di raffronto (per es. estrazioni di palline numerate da 1 ad n,

75 2

Appendice

giudicate identicamente probabili, con n comunque grande (I ) , il sistema delle disuguaglianze può fornire indicazioni del tutto insufficienti circa il valore numerico delle probabilità. Data ad es. una partizione in tre eventi (incompatibili), A, B, C, e supponiamoli in ordine di probabilità decrescente, rimane possibile un solo ulteriore confronto tra A e B+C, che ci dice se la probabilità di A è maggiore o minore di �; nel primo caso sappiamo solo che P(A) è tra � ed 1 , P(B) tra O e �, P ( C ) tra O e X; nel secondo che P(A) è tra X e �, P(B ) tra X e �, P(C) tra O e X (cfr. fig. 2 ) . E non è detto che considerando pio eventi anziché 3 la cosa migliori necessariamente: se ad es. il piu probabile tra essi è piu proba­ bile della riunione degli altri, si può solo dire che esso ha probabilità tra � ed 1 e gli altri, quindi, potranno avere complessivamente una probabi­ lità vicina ad � oppure quanto prossima si voglia a O, od anche nulla ( 2 ) . Potremmo evitare complicazioni del genere facendo assumere al con­ fronto « A è piu probabile di B » un significato equivalente a P(A» P(B), e in particolare dicendo « ugualmente probabile all'evento impossibile » un evento possibile di probabilità nulla. Per far ciò occorrerebbe intro­ durre la proprietà archimedea, e cioè caratterizzare gli eventi « piu pro­ babili di quello impossibile » come quelli a probabilità numerica positiva attraverso una condizione del tipo: « esiste un N, finito, tale che in ogni partizione in N eventi almeno uno è meno probabile dell'evento dato » (la cui probabilità è allora :