Statistische Analysen in der Biologie [1. Aufl.] 978-3-7091-2462-8;978-3-7091-2461-1

475 23 34MB

German Pages XII, 466 [481] Year 1955

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Statistische Analysen in der Biologie [1. Aufl.]
 978-3-7091-2462-8;978-3-7091-2461-1

Table of contents :
Front Matter ....Pages N1-XII
Allgemeine Begriffe (K. Mather)....Pages 1-6
Wahrscheinlichkeit und Signifikanz (K. Mather)....Pages 7-25
Verteilungen (K. Mather)....Pages 26-53
Proben auf Signifikanz (K. Mather)....Pages 54-69
Die Signifikanz einzelner Beobachtungen, Summen, Differenzen und Mittelwerte (K. Mather)....Pages 70-87
Freiheitsgrade und Varianzanalyse (K. Mather)....Pages 88-131
Das Planen von Versuchen (K. Mather)....Pages 132-171
Die Beziehungen zwischen zwei Veränderlichen (K. Mather)....Pages 172-208
Polynomiale und multiple Regressionen (K. Mather)....Pages 209-271
Korrelationen (K. Mather)....Pages 272-297
Die Analyse von Häufigkeitszahlen (K. Mather)....Pages 298-351
Bestimmung und Information (K. Mather)....Pages 352-408
Einige Transformationen (K. Mather)....Pages 409-442
Back Matter ....Pages 443-466

Citation preview

Statistische Analysen in der Biologie von

K. Mather Dr. rer. nat., Dr. phil., Professor fllr Genetik an der Universitllt Birmingham

Mit einem Geleitwort von

R. A. Fisher Or. rer. nat., Professor an der Universitllt Cambridlfe

Springer-Verlag Wien GmbH

N ach der zweiten Auflage ( 1946) ins Deutsche iibersetzt von A . Zeller, Dr. phil. tit. a. o. Professor an der Universitiit Wien

ISBN 978-3-709I-2462-8 ISBN 978-3-7091-2461-1 (eBook) DOI 10.1007/978-3-7091-2461-1

Ge 1 e i t wo r t

Einer der erfreulichsten Zijge der moder.nen statistischen Methoden~wie sie hier in England in den letzten 15 Ja.hren entwickelt wurden, liegt darin, dass sie so bereitwillig zum Nutzen der praktischen Forschang ~wen­ det warden. Besonders die jtingeren Biologen haben diese Kethoden in hingebender Begeisterung ausgewertet und die Fordernng, die ihre eigenen speziellen Forschungen dadurch erfubren, sind der wirk1iohe Beweis f'iir den Wert der neuen Methoden. In einem gu.t geplanten Experiment ist jeder Teil seiner statistischen Analyse von Bedeutung tar bedas Verst~dnis des Problems, zu dessen LOsung der treffende Versuch angestellt wurde. Die altere statistische Literatur hingegen wimmelt von mathematischen Ktinsteleien, deren Deutung im selben Grade nnkJar ist wie der gewundene Gang der zugeharigen Berechnungen. Derzeit leiden vor allem die elementaren Einfilllrungen in die Statistik unter dieser akademischen Tradition, sind gerade sie doch nattirlicherweise vorsichtiger abgefasst und mehr von anerkannten Werken abhangig als die ftir die Fachleute geschriebenen Bucher. Wieviel die neuen statistischen Verfahren in der Mather genetischen Analyse zu leisten vermogen hat Dr. der Messung die bereits anschaulich in seinem Buch uber in Linkage of Kopplung in der Vererbung ("The Measurement daran,die.gut tate Heredity"} gezeigt und jeder Genetiker Euch ses Buch immer bei sich zu haben. Das vorliegende dagegen 1st vor allem als eine allgemeine EinfUhrung in die statistischen Methoden ffir Forscher auf dem Gebiet der Biologie gedacht und zeigt den gleichen praktischenGr.l.f.f ftir das Wesentliche einer guten Versuchsanstellung und es

II

zeigt die gleiche be\vusste Vermeidung alles Unwesentlichen. Es 1st sehr einf'ach geschrieben und seine wohl gewahlteni3eispiele illustrieren jeden Schritt der notwendigen Bereehnun· gen. Der sorgfaltige Leser sollte sieh daraus in kurzerZeit einen hinreichenden Schatz von Verfa.hren aneignen k.Onnen, die auf eine grosse Vielfa.lt von Problemen anwendbar sind. 1942

R.A. Fisher.

nniese Ungeduld war sehr unk.lug und in spateren Jahren ha.· be ich tief bedauert, dass ich nicht weit genug in die Ma.· themat~k eindrang um wenigstena einiges von ihren grossen Grundgedanken zu verstehen; wer mit diesem Verstandnis ausgerii.stet ist, scheint namlich einen sechsten Sinn zu haben. 11 Charles Darwin.

Allgemeinen Eindriicken darf man niemals trauen".

11

Francis Galton.

III

Aus dem Vorwort des Verfassers. Mit Statistik beschaftigen sich zwei verschiedene Gruppen von Wissenschaftlern. Die erste Gruppe bilden die mathematisohen Statistiker, die an der Weiterentwicklung der Theorie und an der Ausweitung der An. wendbarkeit ihres Forschungsgebietes 1nteressiert sind; die zweite Gruppe hingegen besteht ans Nichtmathematikern und verwendet die vorhandenen statistischen Methoden nur als Werkzeug bei der DurchfUhrung ihrer eigenen Forsohungen. Intolge der Eigenheiten ihrer Forschungsobjekte sind nun die Biologen gezwungen, in dieser letznur teren Gruppe eine fUhrende Stellung einzunehmen; biologieines Wert volle der namlich kann sehr selten eine sohen Versuohes festgestellt werden, wenn nicht passende statistisohe Analyse der erha.ltenen Beobadltungen durchgefUhrt wurde~ Die Grenze zwischen diesen belden Gruppen,dieaan 11Erzeuger 11 und 11 Verbraucher" der statistischen Methoden nennen konnte, :t.st nat'iirlioh nioht ga.nz scharf. Der Ma.thematiker muss imstande sein, die Problema der "Verbraucher11 seiner Methoden zu verstehen oder seine Arbeit wird fruchtlos sein. In gleicher Weise muss der Biologe soviel von der Theorie der statistischen Methoden verstehen, dass er beurteilen kann, wie wei t er mit den hEUer tigen Methoden kommt und damit er weiss, von wo an weiteren Rat und Hilfe vom Statistiker braucht. Dass ~e volle Entwicklung eines Forschungsgebiet.es von einer dera.rtigen Zusammenarbeit abhangt,zeigte sich deutlich an den grossen Fortschri tten, die sich a.us der Verbindung von R.A.FiSher und seiner Schule mit den landwirts~-

IV lichen und anderen Forschungan der Versuchsatation Rothamsted und anderer Institute ergaben. Als Nichtmathematiker kann 1Ch nattirlich

nicht

auf' mehr a.ls eine oberflachUche Ken:atnis jener Zweige Ma.'::o der 5 :?:.(i.il..."tzen seln, wenn sie a"Qer festgelegt ist, eind dif; MOgliLlhka:1.ten fiir die zwei t$ beschrankter. Si;:, n:ru.B eine. der iibrige:

.....

0

1

2

3

4 5

6 7

8

9

10

T a b e 1 1 e 2

2 0,500

GroBe der Familie

Wru1rschein1ichkeit, ein genaues 1:i·Verhaltnis zu erhalten 0,3750

4

-----

--

0,3125

6

0,2734

8

0,2461

10

Die Wahrscheinlichkeit fiir eine genaue 1:1-Spaltung bei j~derung der GroBe der Fami1ie

--L-~-'--

L

0' 1254

40

1

80 0,0889

11 Summe

165 330 462 462 330 I~ 165 +55 +11 +1 Wa.hrschein- +1 + 11 +55 lichkeit 2048 2048 2048 2048 2048 2048 2048 2048 204-"E 2048 2048 2048

Zahl der gefransten

1

Die Entwicklu."lg von ( Y2 + Y2) 11

Ta b e 1 1 e

.

g

f-J•

I

ji

i~

I

; C'i ::S

:

!w

jP.

~~ ,~ ,§

(')

!-'-

1-'

1:$

1-'•

(')

[/)

~

ri

H H



G. Obereinstimntung mit einer Hypothese nis 1:1 ent·.vcder in der Richtunc zu mehr genagelten oder mebr Pflanzen eintreten soll. Daher stimmen Familien mit 9, 10 oder 11 Pflanzen auch ebenso schlecht oder noch Schlechter mit der Hyl)othese Uberein, vrie unsere beobachtete Nachkommenschaft mit ihren 9 t_;enagelten Pflanzen, Vlir mU.Ssen daher die Wahrscheinlichkeiten fiir alle 6 Typen von Fo.milien, die 9 oder mehr Pflanzen einer Sorte enthalten, zusammenzahlen, un den 'Nahrscheinlichkei tswe:rt zu erhal ten, da.f3 eine Familie ebenso schlecht oder schlechter als die von uns beobachtete rni t c:.er Hypothese des 1 Gen -Untcrschiedes ubereinstimmL Diese ·;;ahrscLcinlichkei ten sind in Tabelle 1 hervor~ + 11 + 55 + 55 + 11 + 1 gehoben tind ihre Addition ergibt 2048 als die gesuchte Wahrscheinlichkei t, Sie betri:i.gt also 0, 065 oder etwa '1:15. 3ei dieser Art cheinlichkeit von 1~15 ziemlich ~:;erin,z ist, vrenn wir aber solche Zahlen schon als der P.ypothese vlidersrrecl1end ansill1en, cla.nn tanschten \'.rir u.ns bei je 15 Versuchen imner 1mal, Dies ist fiir die r:'leisten Zwecke sicherlich zu oft uncl daher kam.,_ ein solches Er{:,ebnis nicl:ct ols signifikc.nt von cler ::::rwartun.::; verschied.en betrachtet 1uerden. gefra~sten

7, Signifikanz Die :Fr2"c,e der Sit:nifikn.nz eines Re;cmltates ist es, die oft J::1/3verstiind.nisse erze-c..:;t. Die 'Nahrscheinlichkei t, ei~:e ebcm::o schlechte oder schlechtere fJbereinstir:ununc; n.ls die :;ef1.1ndene zu erh8.l ten, kn.nn cenau berec!met werden. Eine sucjeJ:tive :Cnt:Jcheidu.nc; ist jeclocl~ iuner d.abei, \'Ienn die :Bed.entur:c die.ser W~Lhrscl.!.einlichkei t 1Jetrachtet wird. Die Hohe einer '."iahrscheinlicl:l:ei t, die als Anzelchen einer sicnifi1:a:'lten Verschie~~enhei t betrachtet wird, ist eigentlici1 die Hohe des Fehlers, den man zu.la.ssen'will, clenn eine Ey:pothese, die cine WahrscheinlL;:ll:ei t von 1 :n hat, zu verwerfen, bedeutet ja, dn.13 sie 1mal in n Fallen fiHschlich verworfen wird.

- 19 -

II. Wahrscheinlichkei t und Signifikanz Im allt;emeinen ist man wohl ubereine:;ekommen, d.a.l3 eine Vlahrscheinlicllkei t von 0, 05 d.h. von 1 zu 20 eine verdachtig groi3e Abv1eichunG von der Erwo.rtU!'lC bedeutet, wd1rend eine solchevon 0,01, d.h. von 1:100 als.Zoichen eines tats~chlichen Unterschiedes zwischen den gefu~1denen l'lerten und der Erwartung gewertet \Yerden soll. Dies sind jedoch kcine Gesctze und die Entscheidung mun bis zu einem gewissen Grad immor nach den Umstanden des Einzelfa.lles getroffen.werden. Wenn viel vom .Ausfall der Pl:'obe auf Signifika.nz abhi-i.ngt, mag es wi.inschensr:ert sein, einen strengoren Ma.13sta.b anzulegen, wiU1rend es flir gewohnlich ancehen mag, schon eine hohere Wahrscheinlichkeit als siGUifika.nt zu betrachten. An eine Regel soll man sich jedoch halten: Wenn ma.n die Er,c;ebnisse einer Probe auf Signifikanz mi tteil t, soll man i:'nmer die \'iahrscheinlich keit selbst angeben. Der Leser ist daru1 in der Lage, sich uber die Berechtieung der Anna.hme oder Ablehnt4~G der in Frage stehenden Hypothese seine eigene L~cinung zu bilden. Dei der 3eurteilwlg der SignifiY~nz von Ergcbnis3en mlissen o.lle erfai3baren Umstilnde in J3etracht gezoc;en worden. nenn eine einzelne isolierte Reihe von Daten eine so kleine Wa.hrscheinlichkeit wie 1:100 hat, wird man die Abv.reichune von der Ervm.rtung a.ls vrirklich bestehend a.nnehmen. Werclen aber 100 solche Eeihen von Daten analysiert und 1 davon zeii~t einc ·.ve.f'.crsc~winlichkei t von 0, 01, drum k3.I'..n das natlirlicf1 nicht als Anzeichen flir eine l.bv!eichung von U.er Hy:?othese genon::1en v:erden, (ienn eine solch sclllochte ftbereinstim:.lltng ist eben einrnal unter 100 Ftl.llon z1.:. ervrarten. Tab. 3 cibt die Ef'e:;ebnis.:oe der Ana.lysen von 100 P.uckJr..reuzcmcsversuchen uber das Gen, das die gel'oe Korperfarbe von Drosophila melanot_;aster bedingt. (ls:athers Znhlen). Die Wahrscheinlichl~ei t, eine ebenso schlechte oder scl1lechtere Ubereinstimrmll."l£: zu bel:orm;J.en, v,urde filr j.edo Familie cesondert l.Jerechnet und dann wurden die }'amilien nach diesen '.'iahrncheinlichkeiten ceordnet. Die Gesantsunrnen der gelben und. nichtc;elben }'liecen waren 5273 bzw. 5329, Dies sti:-;ri1t QJ.t nit dem erwarteten 1:1-Verhaltnis uberein, 1 Fanilie jedoch hat eine ':iahrsc!.teinlichkei t von r1enicer n.ls 0, 02. Dies wUrde als Einzelfall eine sic';nifi-

- 20 -

r\)

....

5 4

Zahl der beobachteten Familien

1

Zah 1 der erwarteten Famfli en

lahrscheir.lichkeit einer ebenso schlechten oder schlechteren Uberei nsti mrung als gefunden

4

5

10

10 9

10

18

20

24

20

12

10

13

10

2

5

3

3

1

1

0,95 O,!D 0,00 0,70 0,50 O,l1 0,20 0,10 0,05 0,02 0,01

Die Verteilung der ftahrsche!nlichke!t, ·elne ebenso schlechte oder schlechtere Obereinsti IIIIIIUng als beobachtet bel 100 Rickkreuzungen mit dam Gen fur ge 1be Korperfarbe bei Dr o sop h i 1 a 1 e 1 an o g as t e r zu erhalten

Tabella 3

0

1

0,00

I

I

N

::1

p

n

f-'•

...

f-'• ,_.,

f-'•

c8

Ul

.

-.J

1\) 1\)

4

1 2

beobachtete Anzahl

1

erwartete Anzahl

iahrscheinlichkeit einer ebenso schlechten oder schlechteren Ubereinstimmung als gefunden

0

1 0

2 7

2 4

4

3

4

0

2

2

2

1

1

0

0,6

~--

1

0,2

--~

0

0,2 L__

0,95 0,90 0,00 0,70 0,50 O,ll 0,20 0,10 0,05 0,02 0,01 0,00

stimmung als beobachtet baf zwanzig Paarungsproben ungeordneter Ziffern zu finden

Die Yerteilung der lahrscheinlichkelt, eina ebenso schlechte oder schlechtere Uberein-

Tabelle

H H

N

e>

>-o ~~

~ .....

Cl

Ul 1-'•

p.

§

c+-

1-'•

~tet werden, da der s anhaftende Fehler der Frobenentnahme von der GroBe von N abhilngt. Tabella 2 a.o Ende dieses Buches enthalt die Vferte von t und die zu.gehorigen Wahrscheinlichkei ten, zufli.llig wenigst·ens einen ebenso graBen \Vert fur t wie den beobachteten zu erhalten. Man sieht, daB die Tabelle von t Z\reidimensional ist, wahrend die Normalabweichung in einer Dimension tabelliert wa.r. Die zweite Dimension im Falle von t ist N, das bekannt sein ~~ bevor ~an mit irgend einem Wert in die Tabelle ein~ehen kann. Urn also t ver\renden zu konnen, mtissen wir d, s uu1d N kennen, t ist dann das Verh~ltnis von d zu s und mit dieser Za.hl wird in Tabelle 2 in jener Reihe eingegangen. die dem fUr N gefundenen Wert entspricht, Wenn N zunimmt, entspricht einer bestimmten Zufallsvmhrscheinlichkeit ein immer kleinerer wert von t. Da der s anhaftende Stichprobenfehler verschwindet, wenn N unendlich grofi wird, n~ert sich t der Normalabweichung o als Grenzwert fur N = ro • Die Norma.la.bweiohung ist daher ein Spezia.lfall von t und :{ann daher eindimensional tabelliert

• 59 -

IV, Proben auf Signifikanz werden, weil sie in Wirklichkeit nur eine Reihe (nfunlich die fiir N = oo ) der zv;eidimensionn.len t-Tabelle darstellt. 16, Die z-Verteilune

Die Anwen 4 dargestellt, wo die beiden Anzahlen der Freiheits.;rade am Umfang der Basis des dargestellten Q.uaders. aufeetr~:,gen sind, Die Wahrscneinlichkeit stellt die dritte Di~ension dar, t 2 ist ein Varianzenquotient, dessen Zahler :j.mmer cinen ireiheitsgrad hat (d,h, N = 1). Daher entspricht die t•Tabelle der linken vertikalen Ffache der zTabelle. ~1 ist eil;l Varianzenquotient, dessen Nenner durch ~ine Hypothese festgelegt ist, die de.rauf hinausgeht, ihm unendliph viel Freiheitsgrade zuzuschreiben (N 2 = oo). Daher erhalt man die~ ·Tabelle als die rechte Seitellflache des z•Tabellen-Quade~s. c hat einen Zahler mit 1 Freiheitsgrad und einen Nenner, der durch die Hypothese festgelegt ist, daB er unendlich vielen Freiheitsg.raden entspricht. Daher ist c ein Spezialfall sowohl von t als auch von ~ • Es entspricht der vorderen Kante des dargestellten Korpers. Die vier·Wahrscheinlichkeitsverteilungen sind auf diese Weise.einfach miteinander verbunden und die Wahl einer von ihnen ftir die Anwendung auf ein spezielles Problem hangt nur von der Natur ~er vorliegenden Daten ab, Die Analyse von Daten besteht ja im weseritlichen darin, sie auf eine solche Form zurlickzufilhren, daB die in Behandlung stehende Frage ~ls Verhaltnis zweier mittlerer Quadrate oder ihrer \Vurzeln for~liert werden kann, Aus den Deispielen der folgenden Kapitel und den Besprechuncen in spateren Kapiteln vdrd man dies besser ve].·stehen, Es ist nattirlich klar, daB z oder seine Umformung, der Varianzenquotient, in allen Fallen angewendet werden konnte und da.!3 t oder ~ immer anstelle von c verwendet werden konnten, wenn·immer das c etwas zu sagen hat. Der Grund ftir die Anwendung der verschiedenen Spezi&lfalle.von z 1st einfach der, daB sie leichter und vollstandiger tabelliert werden konnen, als die Werte von z. So ist die Tabelle von c, die sich am Ende dieses Buches befindet, et\vas vollstandi-

- 65 •

IV. Proben

z

at~

Signifikanz

~~-,~~l 1 N

2

=o0~1

.



/

/

0

-------r •

0

i

t

w

•1 (NN:=oO

r

-r" ....• R

J

-1

n....

II

CIJ

z z ________..

1

...,?
onenten bestirnmen, indem wir die Gesamtsur:l!:Je der '.s Quadre.t~ addiert un.d dur0h 2 dividiert, worauf Subd~s Ko:t'r8ktionsg1iedas die Q;u.a.dratsumrne fi.ir die 23 Freihei·&sgrade zwischen der.. Blocks, den Zeiten und ilu•en Wsnh::::·a1wi:t'ku.ngen ergibt. Die ersten beiden Werte vrurden b~ra1·i;s g.ai'under.. und konnerL von dieser Gesamtsumme abgezogen w~r·l·nt. urn di·B dar Wechs.elwirkung e:r;.tsprechende Quadrattro.Imn~> zu. ~~~·halten. Ziffernnlli.ssig ist das

. t:r-&t.Lu~

1 2 2 .... 2 2 { 1,511 + 3,o11 + •••••••• + ,,o79 + 1,517 + ••••• + 2 + 6,793 2 ) 265,54o8oo- o,o8275o. 45.618191 = 0,087938.

-

Die

~~ne

der Quadrate zvnschen vergleichbaren Proben • 212 -

35. Pr·i.ifung einer :!}egression auf Lineari tat schliesslich, die zur Berechnunc der Fehlerva.rianz verwendet werden ka.nn., findet man als den Rest, d.er na.oh Abzug dar be;reits gefundenen Block-, Zeit• und Wechselwirku.ngswerte von der Geswntsumme der ~dra.te ubrigbleibt. Be,ror die Varia.nza.na.lyse wei tergefilllrt wird,. die in Tgibt die speziellen Vlerte:

f

(Portsetzung der Anmerkung von S.22l)

:t1.ir n zu summierende Produk.te audert sich nur das erste Glied

zu - n« ~ so dass die allgemeine Formel lautet: • ;t( k1 k2) == ·n«.2x



2

Q

-

:;

+ $x («.2 - {i2x) + ¢x ( ... 2 .. x) + $x

- 222 -

(59)

36. Die wahl. dar Ordnung eines Polynoms k22 • ; - 2x2 + x22 •

~

- 2 + l • • ;

k23•;-~+:r:/·;-4~4-; Da.mit ba.ben w1r dis beiden orthogona.len Ftmktionen ge:funden, welche die Swnmen der ~te von 7 in Jane 2 Anteil.e zerl.egen, deren Grosse den Regressionen erster und zweiter Ordnung von 7 auf' .:x: entspreohan, die sich aus den 3 Doppelbeobachtungen (.:x:,l1 ),

(xzr 2 ), (x3y 3 ) e:rgeben filr den Fall, d.a£ x 1 = 0, x 2

=1

und. ~

=

2

sind. Es sei auBerdem angamerkt 1 da£ die k-Werte ganzz~~g gemacht werclen kGnnen, da die zweite Komponer.te der Summe der Quadrate, nfunlich

l

.. ( 7 1 - ~2 + 7 3 )

2

6

gescln"ieben werd.en ka.nn. So wird k 21 • 1, k 22 • -2, k 23 • l und die allgemeine Formal wird da.durch zu

12

2 • l - 6x + 3x

t ill der Ein Blick auf' Abschnitt 29 zeigt uns, da.ss diese des Wirkungen der An~se der in die sin~ Ta.t die 2 Fanktionen schon Phosphatd:Gl:lgers a.ngewandten 2 lund in den 3 Mangen O, verwendet warden. Ein wei terer Gesichtspunkt soli bei diesen t -Funktionen t 1st berei ts in der Form (x - i), t 2

noch beachtet werden.

1 1 2x + x 2 gefunden, Wir wissen, dass xjedoch wurde zu-3

.. 223-

IXo Pozynorniale und multiple Regressionen gleich 1 1st und daher k.ann mnn schreiben: 2

1 2 t=--2x+:x:•1 2 3

= (:x:2

2 .. 2x+:x:

3 -

-2)

- 2x:x: + x



'!2

2

-2

.. :X:

= (x

~2 ~+:x:

3

.. 2 .. :x:)

=

--. 2

3

Es konnen daher be ide ~ als Abvreichuncen dcr x von ii.trem :.!ittel geschrieben werden. ·i'ienn also x 1 - x 2 = x 2 • x 3 = -1 ist, ergeben sich dieselben k unabhfulciG von den absoluten von x 1, x 2 1.L'1d ~.

~.-:erten

Ashby's Zahlen konnen in dar gleichen Weise wie dieser vcr~ hEltnismiWig einfache Fall von 3 Deobachtuneen bohnnd.elt wertlen Die 6 an~;evmnd ten ZeitJ?unkte dcr :Probenentnahne Yllll'den berei ts als x1 • s • ., • • • x6 bezeiclmct, wobei .x1 = o, x2 1, X... = 3 :; ist usw. Nun ist L = q 1 + x und dahcr ist k11 = «1 + X US\'1• 1 Daher ist auch $ (k1) = 0r \.( 1 + $(x) = 0 1:111d at 1 = x. In die ..

.

.-

I

sam Fall ist k13

- -,2 !

X

= i!.2

und ci.aher k11 =

1

k14 =2'

k15

1

= 12,

. 2-21 ,

k 1b-

k12 1

= 2-. 2

=

Diese

~

1 1-,

2

Koeffizien~

ten konnen mit 2 multipliziert werden. Ul:J. sie Ganzzn.hlig zu o.achen, wobei sie zu -5, -3, -1, 1, 3 uncl 5 werden. Dar..n. ist 2

- (k1 ·)

= 25

+ 9 + 1 + 1 + 9 + 25

= 70

und die Swnme tier Q.uadrate; die der linearen :te,?'esaion entspricllt, i st

- 224 -

36, Die wahl der Ordnung eines Polynoms Kehren wir zu den quadratischen Regressionsgleichungen

und

so ist

und na.ch (59) ~(k1 k2 ),...-

• 2 3 6ac2x• + (ac 2 .. , 2x) ;lx + ((4 2 .. x) ;lx + ;lx =

d-2 d-3 .. Nun 1st ;lx • 15, ,.,.. • 55 und ,.,.. • 225 wenr. x

o.

1 = 2-,

2

sod.all

und

Die LOsung dieser Gleiohungen findet man leieht zu 1 «2 • 33

~2 - -5 wodureh

I 12



1

3' - 5x + x

2

wird.

(59a.)

Die k-Werte erh~lt man duroh Einsetzen der verschiedenen Zah· lenwerte f'iir x in d.iese Formel zu

- 225-

IX~ Po~omialO

1

und multiple Regressionen

2

2

2

2

k 21 "":;;, k22 ·-.o;;,k '% ··2i:,k 4 ,..- a.;:, k • --, k 6 • ~ ;; 2~ :; 2 3 25 3 2

Um ganzzahlig zu werden, mUssen diese Koeffizienten mit

1 2

r-31 mul-

tipliziert warden, so daB sie zu k21 • 5, k22 • •1, k2J

::o

•4t k24

-4, k25 • -1, k26 • 5

a

werden. .Man sieht mm, dass ~(k2 2 ) • 84 ist und die Swnme der Quadrate von y, die dem Wert der quadratischen Regression entspricht, 1st 1 2 84 ( 5Y1 - y2 - 4Y3 - 4Y4 - y5 + 5Y6) Der Ausdruck fiir t 3 als Funktion von x, die k:ubiscm Regression und die entsprechenden k-Koeffizienten k6nnan in derselben Weise gefunden werde~ Sie ist von der allgemeinen Form ~ J • IX3 + ;3

3" + "tJX2

+

x'

und die 3 unabhangigen Gleichungen, die zur Berechnung ibrer KOnstanten notwendig sind, ergeben siah aus den Beziehungen

Werden die Rechnungen ausgef'Uhrt, dann findet man, daB

t, •

2 3 •3 + 13,7x- 7,5x + x

k31= -3 + 0 - 0 + 0 • -3 ~2-

-3 + 13,7- 7,5 + 1- 4,2 226

~ 3- -3 + 27,4 - Jo + 8 • 2,4 ~4-

-3 + 41,1- 67,5 + 27. -24

~ 5•

-3 + 54,8 .., 12o + 64 ... -4,2

~6- -3 + 68,5- 187,5 + 125.'

Werden diese Ausdrucke alle mit zu -5, 7, 4, -4, -7 und 5 und $

1

multipliziert, ~ werden sie

~~ 2) •

- 226-

180. Die Q.uadratsumme

36. Die wah1 der Ordnung einss Polynoms der kubischen Regression ist daher

+ 7y + 4y - 4y - 7y + 5y6) 2 5 4 3 2 1 Die Bere,ahnung "fon t3 ist jedoch auf diea~ Art ziemJ.ich miihsam und die Berechnungen von l und l sind noch mUhsamer. Eine andere Berechnungsmoglichkei% ergib!i siQh bei dBr Anwendung r2 (~2 • r2) t der Rekurrenzforme1 _:']_ (-5y ~('Ill)

tr-H.

=

tr Lil

4 (4r' -

r-1

1}

worin n die Zahl der doppelten Beobavhtungev~ also in diesem li'alle 6 1st. Diese Forme1 kann nur verwendet werden, um die m•sprfulglichen Koeffizienten k zu erha.lten, d.h. sle ka.nn rdcht verwendet werde:p., wenn die k 1 s mit irgend einer Konstanten muJ.f:':.p:i..iz:iB:r:i: we,rd.$n sollen '!flU sie ga.n~zahl.::l.g zu ma.c:hen. So llli'.WA:i:l. X - i uud. ~ ..... :~ ... 5x + X . zur Berechnung vo:tt e"X 'W;:.;r•

t ...

verwend~:v.• Witrd:~ 'lr...;;r ••

d~n

0

.)

../

t:::.

~

3 2 s,., "' 5 - -- :· :x: + ~ x W:J.wench-1:c, W:IJ:.t.n wUr~5

i

'

4::::

G

wir ein fal8ches Resulta.t bekonuren..

Betra.ch ten wir die Ablei tung vo::;; k. •. • Wir wisser.~., dass k._._: 1 3 Jj ~ • - a.;- und k.-, 1 • ~ iE!t. In diesem Falle ist r. .. 6 und r + ~ = :;. " .:::. Dah~ -=· ist 2 2 , c2 2 2,) .. ,$

·~..... •

(,f...-



k 4 ~ k 21 - f . 4-,4 • 2.:::. -

•j )

~ ~1

vro.s bei

ergibt, wie schon durch das andere Verfahren gefunden wurde. In ahnlicher Weise ist k

32

und

=

~ 3,

~4

usw. konnen auf die gleiche Weise gefunden werden.

- 2Z7-

~

1\)

~5

§4

~3

~2

~1

X

33

180

28

5 1

-7

·3 ·5

·4 2

10

2 .;.10

-3

5

1

-1

1

252

84

4

5

7

-5

70

Summe der Quadrate i?on k

-1

5

5

-4

4

·4

-1

5

3 3

·1

2

1

·3

1

-5

0

10

21

7 12

-

3

5

2

3

2

Mu1tiplika.tionsfaktor

Orthogona1e Polynome fUr die Analyse von 6 Doppe1beobachtru1gen

Ta b e 1 1 e

H

N

I:!

I])

§

lQ

....

at

i

ld 1-'

~

astimmt vrorden.. gehoren zur Surume der Regressionsqu.adrr'l;i;~ 2 Freiheitsgrade. Daher ist

V • ~(y .. Y) y

2

n - 3

(64}

Um die Varianz und die Standardabweichu.ng von b,. I

zu finden,

ha1ten wir fest, daB

ist, wobei N =

~~(x2 -i2] ~ ~x 1 -i 1 )(x2 -i 2~ -~~(x1 -i 1 ~ ~(x2 -i) 2

und

- 245-

(I)

IX. Polynomial& und multiple Regressionau (II)

a ind.

Wie 1m Abschnitt 32 (48a) gezeigt wurde, ist .. 2

-(x ... x)

d(



v$ ~\:2 ..i2>] • ,..,x2 - x2 und di@ X'ova.ria.nz von

• Vy

)2

{III)

(IV)

• v7

-E-(x 1 -:i 1 ~ und ~ ~(x2•i2~

ist gleioh V ~(x~-i~)(x2 -i2 ). Y i I Zur

Ver~infachung

(V)

der Schreibweise

bezeic~~en

wir nun gemaB

(8) x 1 -i~ mit v-: und x 2-i2 mit v 2 soda.B die gerad4;l aufgefii.hr-

tan Formeln I - V ubergehen in

N • ¢(yv2) -(v1v2) - ~yv1 ¢v2 D • ¢v1v 2 - ¢v1

2

¢v2

2

v¢yv2 = vy

$''!

( Ia.)

2

(IIa.) (IIIa)

v¢yv. • vy ¢v 1 1

2

2

(rf;J,)

2

w¢"Jrv_,Syv I

2 2 • Vif ¢v'.,v '

(Va,)

Zur Berechnung der Varianz von N nach (35) setzen wir nun die Werte fiir Vd und Vd in die Formal. des N ein und muJ.ti.,.yv1

.,.yv2

plizieren sie gemAB (36) mit den Quadraten der zu diesen - 24'6 -

s~~

38. Regression auf men gehorenden Faktoren

2 oder mehrere Ver§.nder1iche

$v1v 2

$v2

und

beiden Glieder des Ausdrucks fiir V 2 V $v~ •

-:r

j

?

~

¢-...2 -.

2

• Dies ergibt die ersten

als V $v

y

N

2 2

;t2 v 1v 2



na::'.

Nur. wir1(na·;h 35) d"lr doppelte B·~ • ""•* b-->·i -.~- ~ J.·,.~-· ?.-•

;r

• ;2

1rt..)"•'"'"" ;;;,· ...., ~·· '• 1''''i znrreho··r;,.,._,.;, -r:•a ""'t.> '*0 .!.: 't ... - ..--.J ,_. ._ ... '~..,.

.11:

'..1

_.

~.'-' ..

~

..,. \

~

w"l:t.>dc;n:. Dadurch ergi bt s ~C1h u.:i$

-·"t1'1"1l{•;.,l."'",l."':o Ul:..L-L -1: ~.,.

:efu: dcl.t::

Z\i. effizienten verwendet werden, der als "Korrelatioll innerhalb der ~ssen 11 bezeichnet wird. Der Korrelationskoeffizient "innerhalb der Klassen" unterscheidet sich von dem "zwischen den Klassen"dadurch,,daJ3 bei seiner Berechnung angenommen wir~ daB die belden Veranderlichen x und y denselben Mi ttelwert und dieselbe Varia.nz ha.ben. Wenn die Messungen von :x: und y wie b ei Paaren nicht trennbar sin~ ist keine andere .Annahme moglich. Auch wenn eine Trennung

- 288-

43. 1::orrelationen innerhalb der Klassen mi5.:;licll ist, d.ann ist die Korrelation innerhalb der Klassen die genaucre :.:ct!wde, voraus.:;esetzt natilrlich, da.l3 die beiden ;,:essunt;cn von dere aus 7 :Sinzelbeobachtllil[;en besteht.

B e i s p i e 1

20

Die Eellrza?1l der P..ogr;en})flanzen nut 7 Chro::1osomenpa.are, d.h. :Bivalente in der L:eiose, deren jedes -:-4 Chiasr.1ata bildet. Im ;,;i];:roskop konnen die 7 3i valente im allcemeinen nicht voneinander unterschieden wer·d.iHJ. 9 und da.her kann die Verteilung der Chiasmatn.-Hi:i.ufigkei ten f1ir ein einzelnes Bi valente nicht gefunden werden. Es kann jedoch angenomnen worden, d.a13 n.lle Bivalente dleselbe Charal:teristik der Chiamnataf:r.·equenz llaben, so daB die Verteilung der Chiasnata-Eeufigkeiten gefunden •rerden kann durch Zii.hlungen der Chiasnata in jeder.1 der 7 J3ivalenten und Behandlung jedes Bivalenten als Einzelbeobachtung einer .:;emeinsamen llilufigk.ei tsverteilung der Chiasmatafrequenz. ~ belle 40 gibt die Ergebnisse von solchen Z2lllungen an den 7 3ivalenten in jedem von 35 Kernen einer Rocgenpflanze. AuJ3erde:i! wurd.c die

Gesa::~tzahl

der Chiasmata in jedeo der

35 iierne bestimr.1t, die natiirlich gleich der Sur.1ne der Chiasmata in den 7 sie bildenden Ilivalcnten ist. Diese Kern-

sur.1r:len sind. in Tabelle ·tO ebenfalls anger;eben. Das Vorhandensein Hiner Korrela tion zr:ischer.. d.er Anzahl der Chiasr.m. ta j_n den vorscl1ied.enen Ili valent on desselben Kernes b:mn dann mi-t eincr Varin.nzanalyse der Chin.stJahii.ufigkei ten cepri.i.ft werd.en. Es ~;incl ins.::;esa,Jt 245 13eobachtungen vori1r·.n~len, :,wda13 die GesL::;tzc.b.l dor :E'reihei tscrac'.e 244 betr~;-st. Die ents::~re­ chende Crese>.::JtSU.'71f.le cler Abrroichu..."'lt:;squr.-1-dro.te vor.1 General:i!i ttel fiw:et :nan durch Ad.C..i tion der C~uaci.rate c':.er A.nzc.hlen der Chi::.s::.ato. cu:d Subtraktion cles Korrel:tionscliecles, da.s natilrlic:i1

ist. Die J3oreclm1mg cr,;i1;t de::mf'.ch - 293 -

X.

KOrre1ationen

T a b Die Haufigkeit der

P.

1 1 e

4o

Chias~-Bi1dung

(Mather

I

ib:.h!'lr. ~:?.'ge·ben

:;a

-a

4

Die Ki:;effizient;l!lll:;, ai:e b~i d'E'lr :8-.!reehnung diesttel ~i:uf'ru~hen.,: verwendet werder,, mi.i.ssen flir die beiden .A.-IG.assen gleich 1 und fiir die bedden a.-IG.ass~m gleich -3 sein. Unter BeruckfShlhtigung aller 4 b~Stobachteten Ia.assen lautet der allgemeir,e Au8d.J"U.:jk fiir unsere Zerlegung

xi

= k11a1 = a1

+ k12&2 + kl3a3 + ki4a4

+ a 2 - :;a3 - :;a4 •

Die erste Bedinuoung, Orthogonali tat unserer Zerlegung, ist erfiill.t, denn k.11 .,. k 12

=1

. •

i6'

D'~/-";Z

'"

3

i6'

rt.:5k13 = ..

und k 13 .. k-:; 4 • -3 und

9

=•

m4k14

rD.

k.

1 11



2, 16

3

~G 1

sodass

=--1

¢ (mk1)

~6

Der Divisor ftir unsere mel n ¢ (mk1 2 ) und betragt n

c.2. 16

.1 2 ) +

Daher ist das

c.l... ~6

r:-,

.1 2 ) +

(9+3-9-3) • 0

Zerleb~

c2- [.;] 2 ) 16

+

ergibt sich aus der For-

c....!.[.:;] 2 ) 16

..

.2!.. 1fi

(9+3+27+9) = .. jn

das eine .A.:a..-Spaltung prU:ft,gleich

( a.1 +a.2- 3 ~ ...:;a.4) :;n

- 314 -

2

46. Die Zerlegung von ~ J,fan sieht, daB dies nur eine ?.fodifil'.ation der 2-Kla.ssenspaltlL~gsformel (89a) des Abschnittes 45 ist, worin die 2 Klassen jede in 2 Unterklassen geteilt und ~ in gleicher Weise behandelt werden.

In a.hnlicher Weise ist da.s ~ , da.s die B:b-Spaltung prutt, gleich

(a.1•3a2+a3-3a.4)2 3n D1ese 2 E'omponenten sind l.L.'W.bhil.neig, de:nr.. ':;j

• -. 1 • 1

16

m2k12k22 ..

163 •

m3k13k23 •

~

m4k14k24

1 (-3)

-161

(-3) .1

(9-9-9+9) .. 0

1

•16 (-3)(-3)

Dies lU.sst nun nur noch die Fraee des Kopplungs- ~ 'U.ll[;e 16st. Welche Werte sollen ~ 1 ~ 2 usw. zugescllrieben werden ? Diese Koeffizienten konnen n~ d11rch einen einzigen Ausdruck dargestellt werden denn die berei ts durcb[;efilhrte Berech~mng von zwei X: m1 t je 1 Freihei tsb!'ad lU.sst nur mehr eir!en einzicen Ausdruck filr das d.ri tte -l. aus dem Gesa.mt- ,_' mit 3 Freihe i tsgraden ubrig. Es ist jedoch nicht notwendig, diesen Ansdruck durch Subtraktion zu finden. Fishers Methode zum Auffinden von A't,l.Sd.riicken filr Teile von Q.ua.dratsu..":lmen (vgl. Abschnitt 25) ka.Dn auch hier ancev1andt werden. Es ist zu erv;arten, da.B jedes der beiden Gere eine S:paLtung von 3:1 zeigt. Das,: , das die Spaltung von A:a. priift, d.h. der "Haupteffekt" von A, kann da.rgestellt werden durch (A • 3a.) ( B + b) = AJ3 + Ab + 3a'B - 3ab - 315 -

XI. Die Analyse von cliiufigkei tszahlen woraus die k-Werte leicht a.bcelei tet ·::erden konnen, In L'ihnlicher \'·leise clurch (A

wird die S::_1altunc

+ a.) (B - 3b)

= AB - 3A.b

+

::.~'b

c.,j) •

dc..rcestellt

)c..b

Sc::lieDlich ist die Kopplm1,sskomponente oder die vrirknn,r:;" z'.nschen A u.nd 13 t;leich

(A - 3a) (n - 3b) So ist

k

"Vlec:hsel~

AB - 3Ab - 3a13 + 9ab 31

=

1

k32

= -3

k33

= -3

k_4 )

=

9

Der Divisor ffu' diesen Vergleich ist

= -

n

,.("

10

( 9 + 27 + 27 + 81 )

= 9n

und

x...' =

(a 1 - 3a 2 - 3a3 + 9a4 )

2

9n

Da.B ci.ies von den frHheren Vergleicl1en u..nab~1L-ingic i fJt, ·:;ird bc\vi·::!zcn d.urch

- 316 -

46. Die Zerlecunt; von ,: $(mk1k3) = 116 [9.1.1 + 3.1.(-3) + 3(-3)(-3) + 1(-3).9] =

1~

[ 9 - 9 + 27 - 27] = 0

und

$(inlc2~) "'1~

[l. ..

§

i

~1-1

11m2"11a.12 + •/a122~-

m1m2

J

n1

- (m2 2a.T12 - 2m1m2a.T1aT2 + m1 2aT22)}

=

nT

...11~ {..22rf":~ 2) - ~;2J - 2m1..2 tC1::12)

- 342 -

50. Die 2 x j-Tabelle

Nun ist

und

-

2

n1 - 2n1a11+a11

--·

2

n1

a11

... n -2a + -1 11 n1

--=

ahnlich

Daher ist

In eleicher Wiese kann eezeigt warden, da13

Die Fcrmel ftir das :neteroeeni tats-~ wird dann zu

I

1

'l ,. - mm 1 2

[ ~ 2) 2] a 11 $ n

1

a T1 - -n T

- 343 -

2

( m +2m m +m 1

12

2

2

2

) =

XI. Die Analyse von Haufigkeitszahlen

=

( 1o1)

Es ist ebenfalLs kla.r, da.l3,

( 1o1a) m1m2

Der Ausdruck

(m -+m )2 1 2 m1m2

1

cia m1+m2 = 1 gema.cht wurde

und ist auch gleich

1.fan sieht, da13 die Formel ( 1o1) fi.ir d.a.s Heterogeni tats-~ in 2 Teile geteil t warden lca.nn. Der eine d.avon, 2

-~ ist unab.hangig von der m1 :m2 -Erwa.rtung und gibt so eine Zahl, ·lie f'i.ir j ede Erws.rtung dem ~ pro:portinal ist. Er ka.nn auf dieselbe Weise ana.lysiert werden, wie dasi selbst, jedoch ohne ubf;Jr die Natur der Erwartung etwas vorwegzunE;hmer~. Die Ergebnisse einer derartigen Analyse konnen d.ann in ~-e, .welche die Ubereinstimmung mit irgend einer Erwartu.'1g m1 :m2 :prili'en, mit Hilfe des passenden Faktors, der den zweiten Teil der For-

- 344 ..

5o.

~ie

2 x J·Tabelle

mel bildet, umo~vmndelt werden. Wenn das fragliche ~ zu einem Zufallstest gehort, sind die Erwa.rtungen m1 und m2 nicht verfiigbar und die beobachteten Summen a.T1 und aT2 werden an Stelle von m,n und m2n verwendet und geben so I T T

.,:

~-~

=

2

nT

a.T1 a.T2

[$

A..,.1 2 ) ~

_

~J n.T

( 1o2)

Diese Formel nun kann auf Eartmanns Zahlen angewendet wera 2 den. Die Werte von .:lL usw. findet man aus der ganz rechts n1 stehenden Spalte der Tabelle 49. Der letzte Wert dieser Spalte namlich 139,2384 1st

Dann ist 2

${~)- ~ \n1

nT



(3,9474 + 14,o8o5 +•••• + 37,4433) - 139,2348 • ... 5, 9464

2

2

--aT1a.T2 29o.314 6o4

Der Faktor nl!

-

364816 ... 4,0063 91o6o

und

.(B1J '"'

5, 9464 • 4, oo63 • 23, 8231

Der grosse Vorteil dieser Methode er.::;ibt sich aus der Tatsache, daD eine GroBe, die proportional zu( ist, analysiert

- 345 -

XI. Die Analyse von Haufigkeitszahlen werden J:ann, und spater durch die Am'lendung eines einfach zu berechnenden Faktors in das zu jeder beliebigen Er\v.artung gehorende ~ u.mgewandetl werden lcann. '.Yenn wir n.ls o n.nnehmen, Gleichheit der Geschlechtshaufit;keiten in Hartmanns Zahlen zu erwn.rten, da.nn \vi.irde der Multi::,1likn.tionPfaktor lauten:

worin m

1

= m2 =-1 2

= 23,7856.

ist, was 4,0 ergibt

1L~d~

• 5,9464. 4,0

=

Die Hauptarbeit wurde erledigt, bevor der Wert fUr die Erwn.rt1L'1,'r einr:efilllrt wurde. Es konnen so viele Erwn.rtungen ohne vi·;J:;_ zu.satzliche Rechena.rbei t gepriti't werden. Bei urn· farlB!'eicllem Zahlenme.terial ka.nn der cewonnene Vorteil sebr groJ3 sein.

51. Die allgemeine Zufallstabelle Die allgemeine Zufallstabelle kann jede beliebige Anzahl von Reihen und Spalten haben. FUr die 2 seitlichen oder Iltmptklassifikationen cibt es keine Erwartungswerte und die Tabella dient nur dazu, ihre UnabhP~Gigkeit zu prUfen. Bestunde eine bestinm1te Erwartung fUr diese Randzahlen, dann nBhne die Anl:\.lyse folgende Form an: Wert

N

Reihen Spalten Wechselwirkung

r - 1 c - 1 (r - 1)(c - 1)

rc - 1

Summa

- 346 -

51. Die

allr;e:~eine

da die Tabella r Reihen

Eintragungen

lL~d

Zufallstai.Jelle

c Spalten und daher 1nsgeaamt ro

~aBt.

Verwendet man die Ra,ndSUlllr:len sozusagen aln l.r.aD ihrer e.i. >'nen Erwartung, da.nn werden die belden ersten Werte der A~1~;__ lyse aua dar Reclmung ausgeschaltet. Ihre X: werden kiinst1::: ist

4,1513

o, 001

= 4115

,

3

Dies ist der ·aert von I • p

Die B:;reclmung von I

p

1:'.uf direktem

·:roce

ercab den Wert

von 4·;5~, 889, we.l:;rend die J3erechntmg nach dem Iterationsverfahren 4151,3 liefert. Der Un-::e::.·sc11ied ist da.d:,u·ch oedinet, dass bei letzterem Verfar:ren a an Stelle von mn vermmdet \7LU'(le. Dies k.ann so o.useedr"Lickt -rrerden, do.ss man sagt, der Vlcrt, der sich a.us der direkten Methode ercibt, ist der mittlore Betrag ~~ Information, der aus einer der vorliecenden entsprechenden Vielfalt von J).."l.ten erwartet 'fasst eine Stat:is tik auch in kleinen Stichprc:,bHn a.:J..lf: lr:;. den Daten enthaltene Information. Eine derartig~ Sta.tistik wird. P.ine hinreichende (sufficien.t) Statistik genannt und wo sie existiert, wird sie mit der Methode des MOglichkeitsmaximums gefunden. Dei viclcu A1·ten Yon Problemen r".rancen sich a.nclere BestirJr.runDsverfahren von selost a.uf u11d ;:;ie sind. in einigen Fallen auch voll wirksam in dem Sinne, dass sie zu einer Statistik f'i.Etren, welche dieselbe Ve.rianz hat wie jene, die sich mit :iilfe der Jietbode des W:iGlichkei tsrnaximuros ergi bt. Koincs dieser Verfaill'en hat j edoch tae Eicenschaft, ~ zu einer wirkso.men Statistik zu fuhren. Da:-1er kann leicht aus der Verwend.ung irDend eines dieser anderen Beutir:Jl'TI).nr:svorctLn.;e eine unv;irl:same Statistik hervor.::;eher:. Da. clie l;!ethocle des I.li:iglichkeitsma.xinnuns oft nicht das einfa.chste a.nwend'!Jare Verfahren ist, ist es wert, die Uachteile un';lirksP.mer Verfal:ren zn prili'en. N'ur auf diese Weise kann verstander.. werden .• warum auc..lJ. urn den Preis zusatzlicher Arbei t zu v;iinschen ist, dass nur Methoden an~;ewandt werden, die zu wirksamen Statistiken fill1rer: 8 Vorause;esetzt ':iird, dass alle in Betracht gezogener. J.'[ethoden zu passenden (consistent) Statistihm fUhren. Eine passende StatLstik ist e;anz einfach eine solche~ die sich dem wa....lJ.ren Viert cles Po.rar.1eters imr:~er rne;u- nahert, wenn die Grosse der Sti.ch:pro-

- 371 -

~LU1.i:i1Il1t. Es :i..trC i::.1c~, class Ulll""Jt:..8:..H)~.:.CG fYuC:.vl;·;b.~_,:erl vol18tU,nc1_i:::; il•ref-LL"reend sind umi unter l~cincn Umstlinc;_en vcr'·'enclet vmrd.en d·Urfcn.

0~;~:

TI c i

s

~

i e 1

31

De W i n t o n und H a 1 d a n e huben die Ergebniseiner Se1bstbe~!taubu.rl..g 1.md. einer Kreuzun.:; von .Prinm1o.. c:.I.nens:i.s au.fcezeiclmet, cU.e heterozycot in den b3iden Genen F, f ur:d Ch, ell \'R.r. Diese Gene sind. C;~eko::r9elt und G.ie nachkoJ:naen::::ch.?.ft einer Kreuzung Z'.7eier dol'J?elt Heterozygoton zeicte bei ~~164 beobachtoten Individuen fo4~endo. S:;?altunc: S"'

2972

·J71 F ch,

F Ch,

\lie gross ist der

KoiJplunt~swert

831

19o f Ch,

f ch

der beiclen Gee1e ?

Einfo. c11e £:821.etisclle Uber1e(~u~~c:;en zei[;en, c:D.ss die f·~ir j E:Hlc JG.a.ssen zu ex·r:e. rt.e!1de11 IlL~. ufig1:ei ten die folce11den. sind:

c~cx· ~~..

1

F, Ch •••••••••• - (2 + P) 4 1

F, ch •••••••••• if ( 1 f, Ch

1

•••••••••• 4

(1 • P)

f, ch •••••••••• • 4 -1

\-:orin P

= ( 1-.P,) ( 1-p

c~2r m£L'1.nlic~:en'"1..md

:!_))

p

worin p. der Rel:onbinationm·;ert :p; ) derstderund':JeiblichWn G~cmeten i::::t. i

~ss

p

m

Und

p~



bei Beobachtun-

ciies0r Art nicl1t ;~Gt:r·enn.t rlerd.en k011:nen. !'f11r ·wenn a.Il{jenomdass sie ;;eide {;lcj_ch {;ross sincl, ka11..1'1 clcr r!ert von !'' a1.1s de:::. ~~re:-ei; ":~on P [;Cfl.lr:clcn r:crc:en. T~'!ir bctre..cll-'Gen dci1er den [~f~:-:..

!:1!~?1 ~7ird_.

- 372 -

54. Unwirksame Statistiken durch eine Bestimmung flir P erhaltenen Wert als den Parameter, der die :aeobachtungsreihe charakterisiert. Der Loga.ri thmus der 110glichkei t ist L

= 2972

logt2;P)+ 111 loge;P)+ 19o logC;P)+ 831

das in anderer Form L

= 2972

J.og(~)

lautet:

cescl~ieben

log (2+P) + 361 log (1-P) + 831 log P- 4164 l.og 4.

Die Gleichung zur Bestimmung des M'dglichkeitsma.ximums 1st d.aher ~ .. 2972 _ 361 + dP 2+P 1+P

oder

a."l

e31

+P

= 0

. 2 1662 + 1419 P - 4164 P • 0

und P

= 0, 8 24734.

rreuerliche Differentiation und Einsetzen der erwarteten Stelle der beobachteten llEufig1_g von p. gefunden wurde, so erfordert dies, dass im Nenner, n durch n-~ ersetzt wird und dru1er reduziert sich dis Formel zu der berei ts frU.:1er vcr·.vendeten, nfu:llich zu

i

= $(a1 (x1- i)

2]

n-1 Die Notwendir;keit cler J.ndertl.llg des Nenners glcichzei tig mit der Substitution im Zahler ist eine Folge der Vervrend'U.!lg

- 387 -

XII~

Bestimmung und Information

kleiner Stichproben; bei grossen Stichproben ist der Unter· schied zwischen n und n-1 vernachlassigbar klein.

56. Heterogenitatsproben und Berechnung mehrerer Parameter Die Methode des Moglichkeitsma.ximums bietet auch eine LO SlUlg der Problema, die sich erg eben, wenn mehr als 1 Art von Daten Information uber denselben Parameter liefert. In solchen Fallen miissen 2 Hauptfragen beantwortet werden. Erstens die Frage nuch dem besten Naherungswert fUr den frat.;lichen Parameter, wenn alle Reihen von Daten zusammen verwendet werden und zweitens die Fraren w.le: die Varia.nzanalyse nicht anwendan, wenn es sich .. 4o9 •

Einige Transforrna.tionen

XIII.

um Daten handelt, die aus Verhaltniszahlen bestehen, denn dies wtirde die Annahme beinhalten, dass jade Zahl, d.h. in diesem Faile jedes Verhaltnis, dieselbe Varianz hat. In klei· Bereichen von p, besonders in der Nahe von :p = 0, 5 ~en mag diese .A:nn.a.hme hinreichend genau sein, dami t die entspre. chenden Fehler vernachlassigt werden konnen; uber grossere Beredche von :P werden jedoch die zur VerfD.orrung stehenden. ana,. lytischen Methoden wegen der Abhangigkeit von V von :p stark p

besclu·ankt. Die Winkeltransformation~ die darin besteht, d.ass p ( oder q) durch einen Winkel 'f ersetzt werden, und zwar sof fh. 2 i::'t.~~ ist zur uuerwindung dieser Schwierigkeit d.a.ss r: "" sin f von grossem Wert. Da

I..,= I I

(-dp) p dn q

(:~)

2

und da

d:p

d

-d'f = -d 'f ( wenn 'f

• 2

sJ.n

'f

= 2 sin!f

CO Sf

in Radian gemflssen ist) und da. 2 :q .. 1-:p = -; - sin f

2

.. cos 'f

lst, wird

n

cos f )

--.,.2----..2,.... ( 2 sin f sin f cos f und Vp

ist unabha.ngig vom Wert vonf • 410 -



2

• 4n

59. Die V/inkeltransformation Wenn, wie es meist angenehmer ist,'f in Graden gemessen wird, dann ist d

.

- - S~n

d f.

1(

f

= -:-8 1 0

COS'f'

und I

Vf wird

dann

-

4

n

'7(.2

:p-~

--. n

82o, 7

gleich 82o, 7 n

Die Winkeltransformation ersetzt also Verhaltnisse durch bei denen einfache Mittelbildung, die Varianzanalyse u_~d ahnliche Verfahren angewendet werden konnen. Wink~lwerte,

n e

i

s p i e 1

34

Der Wert der Winkeltransformation wird durch die Analyse eines Versuches veranschaulicht, der einen Teil von Untersuchungen darstellt, welche uber die notwendigen VorsichtsrnaB~ regeln ausgefUhrt wurden, die zur Erzielung einer sicher wir~ kenden Isolation der Sorten bei der Erzeugung von Saatgut von Kulturpflanzen notwendig sind. ~mn vrollte das Ausnass der zwischen einzelnen Sorten auftretenden Fremdbestaubungen fest~ stellen, wenn zwischen 2 Rettichsorten keine raumlich IsoliArung vorgenommen vrurde. 5o Pflanzen von jeder der beiden Sorten1 eine mit weissen \'furzeln, die andere mit roten WtrrzelrL~ wtll'den in einem ,Q.uadrat von 1o Pflanzen Sei tenlange herangezogen, wobei die Pflanzen der einzelnen Sorten ungeordnet innerhalb des Quadrates verteilt waren. Rettiche bilden bei - 411 -

XIII. Einige Winke1transformationen Selbstbestaubu.ng keine Samen 1md alle Sa.men stammen da.her aus Kreuzurigen mit anderen Pflanzen. Die Wa.hrscheinlicnkeit ftir ein Pollenkorn, das tatsac~ltch zur Sa.menbildung fUhrt, dass es von einer Pflanze der anderen Sorte stammt, 1st etwas grosser als 0, 5, denn es sind ins;;csam-t 5o ml:Sgliche Vater der anderen Sorte auf 49 der Muttersorte vorhanden und a.uch der Pollen einiger di eser. 49 kann durch denselben Mecha.nisl'll1,l.£i · der e.ine Selbstbestaubu.ng verhindert, von der Befrti.chtung ausgeschal t~t sein. Um j adoch Kom:Plikationen zu vermeiden, wollen wir fi.ir unser Beisr>iel a.nnehmen, dass die Erwartungen sowohl. fti.r Bestaubu.ng durch Pollen der Sorte der Mu.ttecyflanze als auch ftir Bestaubung dnrch Pollen der anderen Sorte gleich seien und je 5o% betraeen. Ungeordnet wurdc;m nun aus dem qua.dratischen Beet 2o weiss- und 2o rotwurzelige Sa.menpflanzen entnommen und j e 3o Nachkommen herangezogen. Kreuzungen zwischen den Sorten waren dara.n zu erkennen~ dass die entsr>rechen·der. Samlinge den roten Farbstoff enthielten. Tabe~le 59 gibt ftir jede der 4o Nachkommenscha.ften die Anzahl der Keimlinge an, die a.us Sortenkreuzungen stammten. Stimmen nun diese Daten mit der Ervrextung von 5o% Sortenkreuzung ti.berein und wenn nicht, stir.unen die beiden SQrten in den Prozentsatzen der Kreuzungen U.berein ? Den Wertf. findet tnan aus dem.Anteil von ~bridensaml.ingen entweder durch Anwendung der Gleichung :P = sin f oder einfa.chel a.us Fisher's und Yates's Tabellen dieser Transformation. Hier1 wo di~ Beoba.cht~~en in jedem Fall an 3o. !ndividuem ausgefUhrt v~de, kann die Tabella XIII vQn Fisher ~d Yates verwendet werden, welche sich a.uf 'f in Bezug auf die tatsachliche zahl von Beobachtungen in den beiden Klassen bezieht; dadurch wird es vermieden, die einzelnen Verhaltnisse zu bereolmen. Die Sum· m~ der f in der weissen Reihe betragt 851, 4 mit ein6II'! M:l. ttel.. wert von 42, 57, die Su.mme der 'f der roten Reihe ist 756, 2 mit einem Mittelwert von 37,81 und die Gesamtsunwe betragt 16o7,6 was ein Gesamtmittel von 4o,l9 ergibt. In beiden Reihen ist ~ her der Mi ttelwert kleiner als 45, welches der Wert von' ist, der der E;rwa.r.tung :P = 0, 5 ents:pricht. 412 -

59. Einige Transformationen Ta b e 1 1 e

59

Hliufigkeit der Bestaubung mit fremdem Pollen bei, Rettich Zahl der Hybri .. den ill 39 Keim ling en. 1 3 4 5 6 7 8 9 1o 11

12 13 14 15 16 17 18 19 2o 2~

22 23 26

p

O,o33 O, 1oo o, 133 0,167 0,2oo Q, 233 o, 267 0,3oo 0,333 0,367 0,4oo 0,433 0,467 o, 5oo 0,533 o, 567 0,6oo 0,633 0,667 0,7oo 0,733 0,767 0,867

beobachtete Hliufigkeit fin: in der Grad wei.Ben Sorte roten Sorte 1o, 5 18,4 '• 21,4 : 24,1 i 26,6 28,9 31,1 33,2 35,3 37,3 39,2 41,2 43,1 45,o 46,9 48,8 5o,8 52,7 54,7 56,8 58,9 61,1 68,6

-

0

0 0 1 0 1

1 1

1 2 3

1

1 1 1

2 1 0 0 2

0 0

1

3

1 1 1

2 0 1 1 0 0 0 0

0 1 2 0 1 2

2

0 0

1 1

20

20

Die \'Ierte von f konnen nun einer Varia.nzanalyse unterworfen werden; nehmen wir clas erwartete cp = 45 a1s den 1li ttelwert, von dem Abweichungcn berechnet werden, dann tragt jeder Wert von f 1 Freiheitsgrad bei, was ins.;esamt 4o ergibt. Von diesen 4o Freiheitsgraden ent• 413 •

59. Die Winkeltransformation

----------------------------------------·------------------spricht natfu"lich einer der Ab;1eichung des Gesamtmi ttels der Beobachtungen von f = 45. Einer bezieht sich auf die Differenz zwischen den Mitteln der weissen und der roten R~ihe wiilirend 38 Freiheitsgrade mit der Variation von !f in!lerhalb der bciden Reihen zusammenhangen, deren j ede 19 l!'reihei tsgrade bei tragt. Bei der Berechnung der Q;uadratsurrune von 1 ist es praktischer, als provisorischen Mittelwert 0 anzunehmen und die Analyse so auszuftihren, als wenn nur 39 Freiheitsgrade vorhanden vrJre~ wobei der eine, der sich a~ die allgemeine Abweichung von der Erwartung 45 bezog, unberucksichtigt gelassen wird. Auf diese Weise finden wir 2

$ ('f ) = 70510, 46o

2n $2

und

(f) =

2

40

(1607,6) 2 = 64609,444

- 2 fiir 39 Freihei tsgrade ubrigblei bt, wobei 5901,016 als $('f- o7,399 149,327

E_,_

So..'llii19

6,826,460 4o

118,o98 1 4,316 118,o98 Weisse hung Sorten ete~oge1777,482 19 64,967 93,552 itat

r-i-

1, 123 0,3-0,2

O,o5 bis 1 37,79o 1.o33,922 2, 245 o,o2

1o33,922 chung Rote Sorten Heterogj3896,958 19 142,433 2o5, 1o3 nitli.t

wobei 18oo die ervartete und 16o7,6 die beobachtete Gesamtsumme von f darstellt, Dies ergibt 925,444 und die vo11stan- 415 -

XIII. Einige Tra.nsfornationeJ1 dige Varianzanalyse ist in Tabella 6o zusammengestellt. Nun ist, ·wie wir gesehen haben, f einer theoretischen Varianz von 82o, 7 n

unterworfen, was 1m vorliegenden Fall bei Nachkommenschaften von je 3o Sl:!.mlingen 27,36 ergibt. Dividiert man also jade Quadratsumme in der .A.naJ.yse durch ({{, 36, da.nn erha.lt man ein ~, das die Signifika.nz des Wertes priift. Im besond.eren sieht man noch, dass die Variation innerhalb der Reihen e1ne sehr kleine Zufalls-WahrscheinliChkeit hat. Wir milssen daher die Anwendung der theoretischen Varianz vermeiden und die Varianz innerhalb der Reihe a.ls einen rechnerisch bestimmten Fehler betrachten. Diese Varianz kann duroh Division der Summe der Quadrate oder der~~ -Werte durch die knzahl der Freiheitsgrade erhalten werden. Ein konstanter KOrrektionsfaktor von 27,36 ist zwischen den belden Methoden. vorhand~ verschwindet aber, wenn das t f'iir die Signif:l.kanzprobe bereohnet wird. In Tabella 6o ergaben sich die Varia.nzen aus den Summen der Quadrate. Die allgemeine Abweichung vom Mi ttelwert zwischen der. weissen und der roten Reihe kann mtn dadurch gepxlift werdeD 1 dass man ein t als Qu.adrat;'ltlrzel. aus dem Verhii.ltnis d.er einzel.nen Varianzen und der Fehlervarianz berechnet. Die allgemeine Abweichung ergibt ein t(38) • 2,491 das man in der c-Tabelle nachsohlagt, da N grosser aJ.s 3o ist. Es hat eine Wahrscheinlichkeit von O,o2 • O,o1 und fill1rt daher mit gutem Grund zur Annahme, dass das Gesamtmittel unterhal.b des erwa.rtetea Wer.tes von 45 J.iegt. FUr die. Differenz zwischen dem Mittel.wert der weissen und der rotan Reihe ist t(38) • 1,232 - 416 -

59. Die Y!inke:Ltra.Esforma.tion

·------------·-

uncl dieses t ist nicht sir;nifiko.r..t. Die Reil:en u..>J.tcrscheiden sich da.her, soweit als hier nac~cr:eisba:r ist, nicht. ','fir konnen cln.:wr fUr :··sid.e T:.ei!cen zusar::::1en Ein r;e;:oinsames mi :.;tle:r:-,s r bereclm.~:r::.• Dies~s r;nr·G.­ suc:nlllgen, die no"tiirlich ervrlinscht sind.~ url::::v;ciffllllaftF IG..a:r·hei t iiber alli'e.l:Lice Unterschiede in der Variation lief ern. Wenn aber die Abweiclm. ncen der I.JI ttelwerte der v;eissen und der roten Reihe Yon der Ervro.rtung 45 mit den ents~rechenden Sortenvarianzen gep1ilft werden. d..'l.nn j_st die Ab\·:eichtul£: d.A8 Mittel..-:ertes d.er weissen P.eihe nicht sienifikan.i~ und auch ir. der rc,te!". Rei:te ist cler Un~erschied kw.1.-:1 sicnifikan.+.. Der Vorteil der goJ:Jeinsc.:ilen Pr[i.ftu1G, die obcn beschrj_eb·':l:r. ;·!lD:-clE, ist kln.r. Es erg2.b sit:.!h, dass die ReE1e.rmi ttel voneinande:r.- ni cht verschieden sind und d.al1er gemeinsa.m auf eine Abweic:hung von dcr Erv;~.rtung geJ;Jrii.ft werden konnen. Dies er;;i bt eine hohere Signifikanz aJ.s die Priifung der Einzclabweich'u-"~zen. Es sei noch erwahnt, da:;s die Q;uc..dratsumme fill' tiie eJ.lcer.mine Abvreichung ru:.cl die f'iix den Untorsclliod der Heissen '.md llcr rotan :t.UtteJ..·,-.rGrte in der o>orcn Anl:'.lyse der Tc"·)ell