Matematisk statistikk
 8200036928

Citation preview

Kerstin Vånnman

Høgskolebiblioteket I Haugesund Samfunns- og ingeniørfag

Matematisk statistikk o

Norsk utgave ved Asmund Vinger

Nasjonalbiblioteket

Universitetsforlaget

Depotbiblioteket

© Universitetsforlaget AS 1989 ISBN 82-00-03692-8 2. opplag 1993 3. opplag 1995

Originalens tittel: Matematisk statistik Original copyright © Kerstin Vånnman Det må ikke kopieres fra denne bok i strid med åndsverkloven og foto­ grafiloven eller i strid med avtaler om kopiering inngått med Kopinor, interesseorgan for rettighetshavere til åndsverk.

Boka er oversatt fra svensk av Åsmund Vinger

Van / fø')

Henvendelser om denne boka kan rettes til:

Universitetsforlaget Boks 2959 - Tøyen 0608 Oslo 6 Trykk: HS-Trykk A/S, Oslo 1995



Forord

Matematisk statistikk er en bok beregnet for ingeniørhøgskolens pen­ sum. Undervisningen med denne boka kan foregå som klasseromundervisning eller gruppeundervisning. En kan også bruke boka til selvstudium.

Boka har mange og gode eksempler på praktisk bruk av statistikk og sannsynlighetsregning. I oppgavene er det også lagt stor vekt på å vise studentene hvordan teorie­ ne kommer til anvendelse i praktisk bruk med realistiske situasjoner. Oppgavene finnes i hvert kapittel, og i et eget kapittel bak i boka finnes en samling av blandede oppgaver. Her må studentene selv bestemme hvil­ ke «teorier» en skal benytte for å løse problemene.

Kommentar til 1. utgave

1. utgave er mer eller mindre direkte oversatt fra den svenske boka Mate­ matisk statistik, 1986 av Kerstin Vånnman. Boken er beregnet på grunn­ kurs ved ingeniørhøgskolen i Luleå.

Vi håper boken blir godt mottatt og er takknemlig for tilbakemelding fra studenter og lærere dersom feil eller mangler oppdages.

Oslo, 1989 UNIVERSITETSFORLAGET

Innhold

1 Tilfeldig variasjon ............................................... 7 1.1 Innledning ............................................................................................... 7 1.2 Noen eksempler med tilfeldig variasjon............................................ 8 1.3 Beskrivende statistikk ............................................. :........................... 14

2 Noen grunnleggende begreper ........................34 2.1 Sannsynligheter ...................................................................................34 2.2 Betinget sannsynlighet ........................................................................50 2.3 Uavhengige hendelser..........................................................................56

3 Diskrete fordelinger ........................................ 65 3.1 3.2 3.3 3.4

Diskrete stokastiske variabler............................................................. 65 En del ofte forekommende diskrete fordelinger............................74 Forventningsverdi .............................................................................. 83 Varians og standardavvik................................................................... 89

4 Kontinuerlige fordelinger .................................. 94 4.1 4.2 4.3 4.4 4.5

Kontinuerlige stokastiske variabler................................................... 94 Noen ofte forekommende kontinuerlige funksjoner....................103 Forventning.......................................................................................... 113 Varians og standardavvik................................................................. 117 Andre gjennomsnitt og spredningsmål ........................................ 121

5 Forventning og varians for funksjoner av stokastiske variabler .......................................127 5.1 5.2 5.3 5.4

Uavhengige stokastiske variabler................................................... Lineære funksjoner og summer................................................... Om målefeil...................................................................................... Gauss’ tilnærmingsformler...........................................................

6 Normalfordelingen .........................................

127 128 135 140

146 6.1 Generelle egenskaper hos normalfordelingen............................ 146 6.2 Summer av normalfordelte stokastiske variabler...................... 150 6.3 Sentralgrensesetningen og andre tilnærminger.......................... 156

7 Punktestimering............................................. 7.1 7.2 7.3 7.4

Innledning ......................................................................................... Punktestimatenes fordeling........................................................... Litt om tilfeldige tall ..................................................................... Forventningsrett og effektivitet.....................................................

167 167 170 171 174

8 Intervallestimater ........................................... 8.1 8.2 8.3 8.4 8.5

186 Fortegnsintervall .............................................................................. 186 Konfidensintervall for g i ................................................ 192 Sammenligning mellom to forventningsverdier når vi antar en normalfordeling............................................................................. 203 Konfidensintervall for o2 og oi ........................................... 214 Hva gjør en dersom en ikkehar normalfordeling? ..................... 219

9 Hypoteseprøving ............................................. 223 9.1 Enkle hypoteser.................................................................................. 223 9.2 Sammensatte mothypoteser. Tilpasning til normalfordeling ... 229 9.3 Sammenheng mellom konfidensintervall og hypoteseprøving ved normalfordeling .................................................................... 244 9.4 Sammensatte mothypoteser. Tilpasning til binomialfordeling . 246 9.5 Fortegnstest ......................................................................................... 251 9.6 Hva en gjør dersom en ikke har normalfordeling? ................... 256

10 Fordelingspapir og y2-test ..............................260 10.1 Innledning ......................................................................................... 260 10.2 Fordelingspapir ................................................................................ 260 10.3 x2-testen .............................................................................................272

11 Blandede oppgaver ......................................... 279 Fasit til oppgavene ...............................................293

Stikkord ............................................................... 319

1 Tilfeldig variasjon

1.1 Innledning Innen industri, ingeniørfag og naturvitenskap møter en ofte på situasjo­ ner hvor det forekommer tilfeldige forandringer og tilfeldig variasjon. Eksempelvis om en undersøker: - holdfasthet hos betongbjelker, stålbjelker, i papir og i fjell - støy på arbeidsplasser og ved transportbånd, i maskinhaller og i gruver - levetid for tannhjul, lager, elektriske komponenter og bormaskiner - nedbør, snøsmelting og vannstand - steinarters egenskaper og malmers kvalitet - kvalitet av egenprodusert og kjøpt materiell - spredning av støv og annen forurensning på arbeidsplasser.

Når en arbeider med situasjoner som har tilfeldig variasjon, må en benyt­ te statistiske metoder for å trekke slutninger, vurdere risiko og fatte objek­ tive beslutninger. Tilfeldig variasjon forekommer så ofte at det ikke er spørsmål om en ingeniør skal benytte statistiske metoder, men istedet hvor dyktig han/hun er til å benytte statistiske metoder. Dette kurset har som mål å trene opp statistisk tenkesett, slik at en kan forstå og benytte noen enkle statistiske metoder.

7

1.2 Noen eksempler med tilfeldig variasjon Eksempel 1.1 Et firma lager måleapparater. Til produksjonen trengs elek­ troniske kretskort. Det blir dyrt dersom en får inn for mange defekte kretskort i produksjonen. Det finnes derfor en erstatningsklausul i kontrakten med kretskortleverandøren. Denne klausulen trer i kraft hvis forsendelsen inneholder mer enn 1% defekte kretskort, dvs. hvis feilkvoten er større enn 0.01. For å kontrollere om erstatningsklausulen skal benyttes, har en mottakskontroll. Kretskortene ligger i pakninger med 10000 stk i hver eske. Det tas ut 200 tilfeldige kort fra hver eske og disse kontrolleres. Tabell 1.1 Antall defekte kretskort av 200 utvalgte fra 80 esker 12 10 12 2 2 5 13 3 5 2 2 4

3 3 4 2 2 2 113 13 3

2 5 2 0

4 7 4 2 2 3 14 2 0 12

1 5 1 4

0 1 2 4 11 0 3

10 12 3 2 3 2

10 0 4 0 14 1 4 3 13 1111

Antall defekte kretskort varierer mellom 0 og 7. Hva kan vi si om feilkvoten i forsendelsen? Kan vi forlange at erstat­ ningsklausulen skal tre i kraft? Hvor sikre kan vi være på ut­ talelsen vi kan gjøre om feilkvoten?

Eksempel 1.2 Et GM-rør utsettes for stråling fra et radioaktivt preparat med lang halveringstid. En måler antall pulser i 5 sekunder. Dette forsøket gjentas mange ganger. En typisk følge av måleverdier er 3, 1, 5, 4, 2, 2, 6 ... En måleserie med 200 målin­ ger ga følgende resultat sammenstilt i en frekvenstabell.

Tabell 1.2 Frekvenstabell over antall pulser pr. 5 sekunder Antall pulser

0

1

2

3

4

5

6

7

8

9

10

Tot

Frekvens

3

19

32

44

35

21

23

11

8

3

1

200

Relativ frekvens

1.5

(%)

8

9.5 16.0 22.0 17.5 10.5 11.5

5.5 4.0 1.5 0.5

100

Kan vi av dette materialet si noe om gjennomsnittlig antall pulser pr. tidsenhet for preparatet? Dersom vi på forhånd vet gjennomsnittlig antall pulser pr. tidsenhet for preparatet, kan vi da si noe om hvordan vår frekvenstabell kommer til å se ut etter mange målinger? Med andre ord: Kan vi ut fra en mo­ dell beskrive hvordan antall pulser pr. tidsenhet kommer til å variere når vi gjør en lang serie målinger?

Eksempel 1.1 og 1.2 er typiske eksempler på tilfeldig variasjon. Dersom vi ser på forsøket med å registrere pulser pr. tidsenhet (eksempel 1.2) og kaller registreringene i en tidsenhet for et delforsøk, kan vi ikke forutsi re­ sultatet i et annet delforsøk. Det samme gjelder eksempel 1.1. Vi kan ikke på forhånd forutsi hvor mange defekte kretskort vi kommer til å få. Der­ imot finnes en viss lovmessighet som viser seg, dersom vi gjør tilstrekkelig mange delforsøk. Dette gjør at vi etter hvert kan finne en modell for å be­ skrive forsøket. Denne modellen skal da beskrive den tilfeldige variasjon som kan forekomme, og kalles derfor en «slumpmodell». Et annet navn er stokastisk modell.

Et av de aller enkleste og mest rendyrkede eksempler på stokastisk varia­ sjon er myntkast. Når vi kaster en symmetrisk mynt, kan vi ikke forutsi resultatet for hvert enkelt kast. Men intuitivt tror vi at i det lange løp får vi like mange kron som mynt. Dersom vi lar 0 bety mynt og 1 bety krone, bør en serie myntkast gi en tilfeldig følge av nuller og enere. Etter et stort antall myntkast bør den relative frekvensen for nuller nærme seg 0.5 og det samme for enerne. Dette er et eksempel på enkel stokastisk modell. Eksempel 1.3 Et forsøk gikk ut på å bestemme høyden h av et bestemt flattstål. Til målingene ble det brukt skyvelær. Det ble gjort 10 målinger. Tabell 1.3 Resultatet (i mm) av 10 målinger av høyden h 12.3 12.3

12.2

12.1

12.4

12.2

12.5

12.3

12.1

12.3

Målesituasjonen i eksempel 1.3 kan beskrives med en enkel stokastisk modell ved å betrakte hver måleverdi som sum av den sanne høyden h og en tilfeldig feil. Vi skal senere se hvilke egenskaper den tilfeldige feilen kan ha. Eksempel 1.4 I Grængesberg ble det i 1968 utført et fullskalaeksperiment for å studere en lasteskuffes inntrengning i en malmhaug. Forsøket ble utført med og uten vibrasjoner på lasteskuffen.

9

Det ble brukt en lastemaskin LM 56H for å fylle en 2 m3 vogn med malm. Antall skuffetak pr. vogn ble notert og en fikk følgende resultat.

Tabell 1.4 Antall skuffetak pr. vogn uten vibrasjon Antall skuffetak

7

8

9

10

11

12

13

14

15

16

Frekvens

1

4

13

31

24

22

19

4

2

4

14

15

16

5

3

2

Tabell 1.5 Antall skuffetak pr. vogn med vibrasjon Antall skuffetak

Frekvens

7

8

311

9 17

10

11

12

18

36

25

13

15

Antall skuffetak pr. vogn varierte mellom 7 og 16 i begge til­ feller. Hva er gjennomsnittlig antall skuffetak? Kan det på­ ståes at det er forskjell på de to metodene?

Eksempel 1.5 Det ble også notert tiden fra maskinen begynte å kjøre inn i steinhaugen til vognen var full. Tabell 1.6 Tidsforbruk i minutter og sekunder ved lasting med vibrasjon 1.25 1.18 2.35 1.19 2.02 1.36 1.23 1 .44 1.57 1.53 1.58 1.31

1.20 1 .24 2.33 1 . 34 2.09 1 .56 1.39 2.33 1.50 1.36 1.50 1.59

1.25 1.20 2.08 1 .51 1.13 2.08 2.20 2.14 2.29 1.46 1.31 1.58

1.17 1 .34 2.52 1.51 1.15 1.26 1 .19 1.22 1.59 1.47 2.06 1.55

1 .41 1 .44 1.09 1.58 1.51 1.20 1 .18 1 .31 2.01 1.48 1.37

1 .49 1.36 1.24 2.13 1 .36 1.37 1 .27 1 .44 1.54 2.08 2.01

1.51 1.40 1.39 2.20 2.06 1.58 1.47 2.08 1 .56 1.50 1.47

1.49 1.57 1.50 1.20 2.27 2.04 2.14 1.16 2.10 1.49 1.44

2.28 1 .52 1 .52 1 .24 1 . 30 2.30 2.20 1 .48 1 . 30 1 .25 2.09

3.03 1.43 3.01 1.40 1.43 1.36 1.19 2.21 1.37 1.35 1.46

2.33 2.02 2.56 ] .41 1 .40 1 .45 1.27 2 . 14 2.07 1 . 56 1 .52

Hva er det gjennomsnittlige tidsforbruk når en laster med vi­ brasjon? Hvor mye kan tiden variere? For hvor stor andel av vognene kan en tenke seg at tiden overskrider 2 minutter? Hvilken tid kan en regne med at 95% av lastetiden underskrider? Eksempel 1.6 Av 1000 lager blir det tilfeldig valgt ut 5 stk, og levetiden blir målt for disse. 10

Tabell 1.7 Levetiden (i l(f omdreininger) hos 5 lager 2.9

0.8

8.2

1.0

4.7

Levetiden synes å variere mye. Hvordan skal vi beskrive leve­ tiden for alle 1000 lagre? For hvor stor del av de 1000 lagre kan vi vente oss har en levetid overstigende 106 omdrei­ ninger?

Eksempel 1.7 To forskjellige typer tannhjul, A og B, skal sammenlignes. En valgte tilfeldig ut 10 av type A og 10 av type B og undersøkte levetiden for disse.

Tabell 1.8 Levetiden i timer for 10 tannhjul Type A

130

470

210

250

270

510

280

860

160

1130

Type B

120

340

410

170

400

440

580

520

490

530

Levetiden varierer mye for begge typer. Kan en beskrive varia­ sjonen på en enkel måte? Er den ene typen tannhjul gjen­ nomsnittlig bedre enn den andre? I så fall, hvordan skal dette måles?

Eksempel 1.8 Ved produksjon av utstyr for sykehus brukes en viss type elektroniske komponenter. Levetiden for disse må ikke være for kort. Fordi komponentene ødelegges etter levetidsprøver, kan en bare undersøke noen få tilfeldig utvalgte. Ved et for­ søk fikk en følgende resultat. Tabell 1.9 Levetiden i timer for 80 komponenter 95.3 87.1 66.1 91 .5 61 .9 94.5 59.3 87.2

83.1 78.9 84.7 64.8 75.0 78.0 77.3 82.2

83.4 66.0 97.1 83.8 58.8 93.6 94.3 81.6 73.5 78.2 84.7 103.0 76.3 109.9 74.9 72.7 73.1 96.0 81.0 73.5 97.1 93.0 60.5 77.8

61.7 100.6 96.3 68.2 72.5 75.5 91.1 67.5

67.9 78.6 87.7 97.3 68.6 87.0 86.0 79.9

68.3 69.1 80.2 77.8 66.9 85.6 79.2 74.3 99.6 90. 1 66.5 86.0 84.8 82.0 64.9 80.4 67.1 63.4 97.9 110.7 80.9 77.3 95.5 109.0

Hvilken levetid kan en beregne at 90% av komponentene har? Hvor mye kan levetiden tenkes å variere? Hvor lenge vil komponentene vare i gjennomsnitt? 11

Eksempel 1.9 Taxiproblemet Forfatteren besøkte våren 1977 Universitetet i Sheffield, Eng­ land. Samtidig var også den kjente amerikanske statistikkprofessoren Gottfried Noether til stede. En gang vi gikk til fots i byen stoppet plutselig Noether og utbrøt: «Se, de har jo nummer på taket også.» Raskt tok han opp papir og blyant og skrev ned drosjenummeret. Vi sto der en stund og så føl­ gende drosjenummer passere: 97, 234, 166, 7, 65, 17, 4. Siden spurte Noether: «Hvor mange drosjer finnes i denne byen?» Hvordan skal drosjenummerene kunne brukes til å estimere antall drosjer i byen? Eksempel 1.10 Hvordan en får svaret uten å være sikker på å ha stillet spørsmålet Ved et amerikansk universitet ville en undersøke hvor stor del av studentene som regelmessig røkte hasj. Etter som det er et følsomt spørsmål, kan en ikke være sikker på å få ærlige svar hvis ikke den som svarer er sikker på å få være anonym. Pro­ blemet ble løst på følgende vis.

Hver student som skulle spørres fikk en eske som inneholdt røde og grønne kuler. Når esken ble ristet, viste en kule seg tilfeldig i et vindu i esken. En lot studentene forvisse seg om at en ikke kunne forutsi fargen på den kulen som kom fram. Studenten fikk deretter gå bak et skjermbrett og fikk et for­ mular med følgende tekst:

Rist esken, noter fargen på kulen, svar ja eller nei på ett av følgende to spørsmål avhengig av kulens farge. Rød kule, svar på om siste siffer på ditt studentlegimitasjonskort er odde. Grønn kule, svar på om du røker hasj minst en gang pr. uke.

Da alle var spurt, hadde en et visst antall ja-svar og et visst antall nei-svar. Ved et tilfelle da esken inneholdt en rød og en grønn kule, fikk en 44% ja-svar. Hvor stor andel studenter røker hasj minst en gang pr. uke?

Hva hender om en forandrer andelen røde og grønne kuler i esken? Kan en tenke seg andre spørsmål enn «er siste siffer på ditt studentlegitimasjonskort odde»?

12

Eksempel 1.11 I desember 1977 annonserte Findus på følgende vis:

Findus lager fortsatt Sveriges mest populære kjøttkaker.

Denne uttalelse baserte Findus på en sammenligning utført av Skandinavisk Markedsinstitutt i november 1977. Der fikk 200 forbrukere sammenligne Findus-kjøttkaker med Felixkjøttkaker. Resultatet var at 120 av de 200 deltakende forbru­ kere syntes at Findus kjøttkaker smakte best. Kan Findus for­ svare sin påstand? Vi har nå sett noen eksempler på tilfeldig variasjon og noen spørsmålstillinger som kan forekomme. For å kunne besvare denne type spørsmål om hvordan tilfeldig variasjon kan beskrives, må vi skaffe oss kjennskap til hvordan tilfeldige variasjoner kan beskrives, hvordan stokastiske model­ ler kan bygges og hvilke metoder en kan hjelpe seg med for å trekke kon­ klusjoner om tilfeldige hendelser.

DET GJELDER Å LÆRE

SEG Å REGNE MED

13

1.3 Beskrivende statistikk Det første en må gjøre når en har tallmaterialer som i eksemplene i fore­ gående avsnitt, er å beskrive dem på en oversiktlig måte. Det er enklere å få oversikt over et tallmateriale når det er oppstilt i en frekvenstabell som i eksempel 1.2 og 1.4. Hvordan en skal beskrive tallmaterialet, av­ henger av hvilke spørsmål en vil ha besvart. Frekvenstabellen bør en kom­ plettere med en grafisk illustrasjon. Dessuten bør en beregne størrelser som er karakteristiske for materialet. F.eks. tall som angir gjennomsnittet av materialet, og tall som angir spredningen eller variasjonen for materia­ let.

Få observasjoner La n betegne antall observasjonsverdier og la x,, x2,..., xn betegne observasjonsverdiene. For et lite materiale som det er i eksempel 1.6 bruker en ikke å lage en frekvenstabell, men gjør beregningene direkte. Et ofte an­ vendt mål på gjennomsnitt er aritmetisk middelverdi x.

Et annet vanlig gjennomsnittsmål er medianen md. Den defineres som den midterste verdien i materialet når det er ordnet etter størrelse, dvs. at like mange verdier ligger over som under medianen. Dersom n er partall, blir medianen lik middelverdien av de to midterste verdier. Eksempel 1.12 Bestem middelverdi og median i eksempel 1.6.

Løsning: Her er x, = 2.9, x2 = 0.8, x3 = 8.2, x4 =1.0 og x5 = 4.7. Da blir middelverdien x = | E Xj = | (2.9 + 0.8 + 8.2 + 1.0 + 4.7) = — 5 /= i 5 5

= 3.52 .

Vi ordner materialet etter størrelse: 0.8, 1.0, 2.9, 4.7 og 8.2. Den midterste verdien er 2.9. Altså er medianen md lik 2.9. Figur 1.1 Materialet i eksempel 1.6 med avmerkede gjen­ nomsnittsmål

14

To observasjonsserier kan ha samme gjennomsnittsverdier men likevel være forskjellige.

Eksempel 1.13 Middelverdien og medianen for observasjonsverdiene 2.8, 2.5, 2.9, 4.2 og 5.2 er x = 3.52 og md = 2.9. Gjennomsnittsverdiene er altså de samme som i eksempel 1.12, men merker en av observasjonene som i figur 1.1, ser en at det er stor forskjell på de to materialene.

Figur 1.2 Materialet i eksempel 1.13 med avmerkede gjennomsnittsmål

Observasjonene i figur 1.1 er mer spredt enn i figur 1.2. For å skille disse tallmaterialene fra hverandre, må en beregne et spredningsmål. Det enk­ leste spredningsmål er variasjonsbredden R. Det defineres som forskjel­ len mellom største og minste observasjonsverdi. Et ofte anvendt spred­ ningsmål er standardavviket s og variansen s2,

i n s2 = —— E (Xj - x)2 . n - 1 /= i

Standardavviket er et mål for hvor langt verdiene i gjennomsnitt ligger fra x. Dersom observasjonsverdiene ligger godt samlet rundt x, blir standar­ davviket lite. Dersom verdiene ligger godt spredt utover og langt fra x, blir standardavviket stort. Hvorfor en i definisjonen av s2 dividerer med n-1 og ikke med n, vil bli forklart senere i boken. Variansen har den ulempe at den ikke har samme dimensjon som observasjonsverdiene. Derfor bru­ kes oftest 5 i stedet for s2. For numerisk beregning av s2 og s bør følgende formel benyttes:

(1J)

1

/

"

52 = 7n “-t1 (\( L= 1

i

/ n

\2\

~ 7? ( L *0 )

n \/=!

/ /

'

15

Den fås ved utvikling av kvadratsummen i s2: n

n

n

n

E (Xj - x)2 = E (x2 - 2xXj + X2) = E Xj2 - 2x E Xj + nx2 z'= 1

i=l

z=l

n

z=l

n

= E x2 - 2x • nx + rix2 = E x2 - rix2 i=\ i=l

Ved numerisk beregning av s2 må en regne med stor nøyaktighet for å unngå feil. Spesielt gjelder dette om s er liten i forhold til x. Eksempel 1.14 Bestem variasjonsbredden, variansen og standardavviket for tallmaterialet i a) eksempel 1.12 b) eksempel 1.13 Løsning-, a) Den største verdien er 8.2 og den minste er 0.8. Variasjonsbredden er altså R = 8.2-0.8 = 7.4. For å bereg­ ne s2 regner vi først ut 5

E x2 = 2.92 + O.82 + 8.22 + 1.02 + 4.72 - 99.38 . i= 1

Fra eksempel 1.12 har vi 5

E x. = 17.6 Z=1

Variansen får vi av formel (1.1) s2 = v (99.38 - | 17.62) = 9.357 4 5 og standardavviket blir

5

V9.357= 3.06

Figur 1.3 Materialet i eksempel 1.14 a med avmerkede spred­ ningsmål

,