Molekulare Populationsgenetik: Theoretische Konzepte und empirische Evidenz [1. Aufl. 2019] 978-3-662-59427-8, 978-3-662-59428-5

Das Buch behandelt die genetische Vielfalt von Populationen von Organismen. Es erläutert, wie genetische Vielfalt gemess

435 117 8MB

German Pages XV, 218 [223] Year 2019

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Molekulare Populationsgenetik: Theoretische Konzepte und empirische Evidenz [1. Aufl. 2019]
 978-3-662-59427-8, 978-3-662-59428-5

Table of contents :
Front Matter ....Pages I-XV
Phänotypische und genetische Variabilität (Wolfgang Stephan, Anja C. Hörger)....Pages 1-12
Genetische Drift und Mutation (Wolfgang Stephan, Anja C. Hörger)....Pages 13-29
Räumlich-zeitliche Populationsstruktur und Populationsgenomik (Wolfgang Stephan, Anja C. Hörger)....Pages 31-43
Molekulare Variation und Evolution (Wolfgang Stephan, Anja C. Hörger)....Pages 45-56
Selektion und Adaptation (Wolfgang Stephan, Anja C. Hörger)....Pages 57-74
Wechselwirkung der natürlichen Selektion mit Mutation, Migration und genetischer Drift (Wolfgang Stephan, Anja C. Hörger)....Pages 75-85
Rekombination und Selektion (Wolfgang Stephan, Anja C. Hörger)....Pages 87-97
Selective sweeps (Wolfgang Stephan, Anja C. Hörger)....Pages 99-113
Balancierende Selektion (Wolfgang Stephan, Anja C. Hörger)....Pages 115-135
Background selection (Wolfgang Stephan, Anja C. Hörger)....Pages 137-145
Quantitative Merkmale – genetische Basis und Effekt der Selektion (Wolfgang Stephan, Anja C. Hörger)....Pages 147-163
Polygene Adaptation (Wolfgang Stephan, Anja C. Hörger)....Pages 165-176
Elementare Mathematik, Wahrscheinlichkeitstheorie und Statistik (Wolfgang Stephan, Anja C. Hörger)....Pages 177-188
Back Matter ....Pages 189-218

Citation preview

Wolfgang Stephan Anja C. Hörger

Molekulare Populationsgenetik Theoretische Konzepte und empirische Evidenz

Molekulare Populationsgenetik

Wolfgang Stephan · Anja C. Hörger

Molekulare Populationsgenetik Theoretische Konzepte und empirische Evidenz

Wolfgang Stephan Biozentrum Martinsried Universität München Planegg-Martinsried, Deutschland

Anja C. Hörger Fachbereich Biowissenschaften Universität Salzburg Salzburg, Österreich

ISBN 978-3-662-59427-8 ISBN 978-3-662-59428-5  (eBook) https://doi.org/10.1007/978-3-662-59428-5 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer Spektrum © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Sarah Koch Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany

für Evelyne, Aurélien und Ariane

Vorwort

„Evolution“ ist ein Begriff, der aus dem Lateinischen kommt, und die zeitliche Veränderung von Eigenschaften einer Population von Organismen beschreibt. Diese Veränderungen können in der Vergangenheit stattgefunden haben, aber auch in die Gegenwart hineinreichen. Manche dieser Veränderungen erfolgen sehr schnell, wie z. B. die Entwicklung von Insektizidresistenz. Andere evolutionäre Veränderungen aber sind extrem langsam und geschehen auf einer Zeitskala von Hunderten Millionen bis Milliarden von Jahren, wie die Entstehung von mehrzelligen Lebewesen aus Einzellern. Die Populationsgenetik beschäftigt sich mit Veränderungen, die auf einer relativ kurzen Zeitskala stattfinden, und zwar innerhalb des Lebensalters von Populationen oder zwischen nah verwandten Arten. Ihr Ziel ist es, diese Veränderungen auf der Grundlage der Genetik zu erklären. Der Fokus der molekularen Populationsgenetik liegt dabei auf der genetischen Information, die in der DNA enthalten ist. Für alle evolutionären Prozesse gilt, dass genetische Varianten, die anfangs selten sein mögen (z. B. neue Mutationen), entweder relativ bald verloren gehen oder sich unter den Individuen einer Population durchsetzen, sodass sie eine hohe Frequenz erreichen und die Population sich dadurch vom anzestralen Zustand unterscheidet. Die Aufgabe der Populationsgenetik ist es, die Mechanismen zu identifizieren, die einen solchen Frequenzanstieg ermöglichen oder verhindern. Zu diesem Zweck wurden Methoden entwickelt, die sich stark von Verfahren aus anderen Gebieten der Biologie unterscheiden. Insbesondere sind hier die mathematischen Modelle zu nennen, die seit Anfang des letzten Jahrhunderts benutzt werden, um evolutionäre Prozesse quantitativ zu beschreiben. Eine wichtige Aufgabe dieses Buches ist es, zu zeigen, wie Modelle uns helfen können, evolutionäre Prozesse zu verstehen. Diese Modelle werden in diesem Buch stets im Zusammenhang mit einer biologischen Fragestellung präsentiert und analysiert. Unser Ziel ist es, auf diese Weise einen Überblick über die wichtigsten Konzepte der molekularen Populationsgenetik zu vermitteln, ohne die Anbindung an die Errungenschaften der klassischen Populationsgenetik zu vernachlässigen. Wir gehen bei dieser Unternehmung davon aus, dass Grundkenntnisse sowohl aus der klassischen Genetik als auch der Molekularbiologie vorhanden sind. Wir erwarten aber nicht, dass alle Studierenden und Leser dieses Buches mit den Grundlagen der Mathematik und Statistik VII

VIII

Vorwort

vertraut sind, um die theoretischen Ableitungen und Datenanalysen zu verstehen. Wir haben deshalb am Ende des Buches im Kap. 13 das nötige Grundwissen der elementaren Mathematik, Wahrscheinlichkeitstheorie und Statistik bereitgestellt. Die mathematischen Ableitungen, die in der Regel in Boxen dargestellt werden und dadurch vom Haupttext getrennt sind, können mithilfe von Kap. 13 durchgearbeitet werden. Zusammen mit den Übungen soll dadurch das Verständnis der Modelle und theoretischen Konzepte der Populationsgenetik wachsen. Lösungsvorschläge zu den Übungen werden im Anhang des Buches angeboten. Der Haupttext, der die Modelle und Konzepte zusammen mit den jeweiligen Fragestellungen verbal beschreibt und daraus Schlussfolgerungen zieht, kann aber gelesen und verstanden werden, ohne auf die Boxen und Übungen einzugehen. Unser Buch ist in erster Linie für Studierende der Evolutionsbiologie geschrieben. Die Zielgruppe umfasst Studierende, die fortgeschrittene Bachelor-Kurse oder Veranstaltungen auf dem Master-Level besuchen und ein Interesse an den genetischen Grundlagen der Evolution entwickelt haben. Daneben dient das Buch beginnenden Doktorandinnen und Doktoranden, ihr populationsgenetisches Wissen aufzufrischen. Auch Wissenschaftler aus anderen Fachgebieten, wie der Bioinformatik und Humangenetik, die sich mit einzelnen Themen der Populationsgenetik vertraut machen möchten, sollen von der Lektüre dieses Buches profitieren können. In einem Glossar am Ende des Buches sind die wichtigsten Grundbegriffe der Populationsgenetik zusammengestellt. Alle Begriffe, die bei der ersten Erwähnung fett gedruckt sind, sind darin zu finden. Im Kap. 1 beschreiben wir die phänotypische und genetische Variabilität von Populationen. Wir zeigen dabei, wie sich die Messung der genetischen Variabilität mit der Entwicklung der technologischen Möglichkeiten verändert hat und durch die Einführung moderner Sequenziermethoden revolutioniert worden ist, sodass gegenwärtig molekulare Polymorphismen in großen Stichproben genomweit entdeckt werden können. Ferner behandeln wir die Frage der Erhaltung der genetischen Variabilität (in Relation zum Hardy-Weinberg-Gesetz). Prozesse, die zu Veränderungen der genetischen Variabilität führen und damit Evolution ermöglichen, werden ab dem Kap. 2 schrittweise eingeführt, beginnend mit Mutation und genetischer Drift (der zufälligen Auswahl von Gameten aus dem Genpool während der Reproduktion). Das Kap. 3 ist dann dem Einfluss von Populationsdemographie (z. B. bottlenecks) und Populationsstruktur (Migration) gewidmet. In diesem Kapitel werden auch Ansätze der Populationsgenomik eingeführt. Die Neutralitätstheorien von Kimura und Ohta im Kap. 4 bilden den Abschluss des ersten Teils des Buches, in dem ausschließlich neutrale Mechanismen betrachtet werden. Die wichtigste Evolutionskraft ist jedoch zweifellos die natürliche Selektion. Im Mittelteil des Buches (Kap. 5–7) behandeln wir die klassische Selektionstheorie und beschreiben die Wechselwirkung der natürlichen Selektion mit anderen Evolutionskräften, einschließlich Mutation, genetischer Drift, Migration und Rekombination. In den Kap. 8–10 demonstrieren wir, wie verschiedene Formen der natürlichen Selektion im Genom durch Untersuchung von Einzelnukleotidpolymorphismen (SNPs) nachgewiesen werden können, insbesondere positiv

Vorwort

IX

gerichtete Selektion, balancierende Selektion und purifizierende Selektion. Die letzten zwei Kapitel befassen sich im Unterschied zur Behandlung der molekularen Variabilität im restlichen Buch mit der Variation von phänotypischen Merkmalen (Kap. 11) und der sie beeinflussenden polygenen Selektion (Kap. 12). Das Material, das wir in diesem Buch präsentieren, reicht für eine Vorlesung mit vier Semesterwochenstunden (mit Übungen) oder eine vergleichbare Veranstaltung aus. Um in diesem Zeitrahmen zu bleiben, mussten wir eine Auswahl unter den möglichen Themen treffen. Manche Gebiete der molekularen Populationsgenetik, die gegenwärtig bearbeitet werden, konnten wir deshalb nicht berücksichtigen, wie z. B. Ansätze der experimentellen Evolution, die in den 1960er- und 1970er-Jahren verbreitet waren und nun wieder aktuell geworden sind. Wir hoffen trotzdem, dass unsere Auswahl von Themen die wichtigsten Gebiete der modernen Populationsgenetik repräsentiert, obwohl diese Einschätzung sicherlich subjektiv ist und unsere eigenen Interessen widerspiegelt. Bei der Entstehung des Buches haben uns mehrere Kolleginnen, Kollegen und Studierende unterstützt, denen wir herzlich danken möchten. Besonders danken wir Brian Charlesworth für die Diskussion von Haldanes Analyse des Birkenspanner-Beispiels, Axel Meyer für seine Kommentare zur schnellen Adaptation von afrikanischen Buntbarschen, Aurélien Tellier für die Einblicke in die Theorie der negativ frequenzabhängigen Selektion und Matthias Affenzeller, Hans-Peter Comes, Tobias Grasegger und Andreas Tribsch für allgemeine Kommentare zum Buch. Unser Dank geht schließlich auch an den Springer-Verlag, der uns ermuntert hat, dieses Buch zu schreiben, und uns dabei professionell begleitet hat. Insbesondere möchten wir hier den Enthusiasmus von Frau Dr. Sarah Koch, Frau Carola Lerch und Frau Annette Heß erwähnen, die sich unermüdlich eingesetzt haben. Ein besonderer Dank gebührt auch unseren Lebenspartnern Evelyne Keitel und Aurélien Tellier, deren Erwartungswert für Geduld und Verständnis während der Produktionsphase des Buches um einen schwer zu schätzenden Faktor erhöht wurde. Murnau am Staffelsee Rosenheim im März 2019

Wolfgang Stephan Anja C. Hörger

Inhaltsverzeichnis

1

Phänotypische und genetische Variabilität. . . . . . . . . . . . . . . . . . . . . 1 1.1 Phänotypische Variabilität. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Diskrete Variabilität. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.2 Quantitative Variabilität. . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Genetische Variabilität. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1 Gelelektrophorese von Proteinen. . . . . . . . . . . . . . . . . . 3 1.2.2 Messung genetischer Variabilität mittels Restriktionsenzymen. . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.3 DNA-Sequenzierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3 Erhaltung der genetischen Variabilität und das Hardy-Weinberg-Gesetz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2

Genetische Drift und Mutation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1 Genetische Drift. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.1 Wright-Fisher-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.2 Verlust der genetischen Variabilität einer Population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 Genetische Drift mit Mutation. . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.1 Heterozygotie im Mutations-Drift-Gleichgewicht (infinite alleles-Modell). . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.2 Nukleotiddiversität im Mutations-Drift-Gleichgewicht (infinite sites-Modell). . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3 Der Koaleszenzprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.1 Genealogie einer Stichprobe von n Allelen. . . . . . . . . . 21 2.3.2 Der Koaleszenzprozess mit Mutation . . . . . . . . . . . . . . 23 2.3.3 Computersimulation des Koaleszenzprozesses. . . . . . . 25 2.4 Effektive Populationsgröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3

Räumlich-zeitliche Populationsstruktur und Populationsgenomik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1 Modelle räumlich strukturierter Populationen. . . . . . . . . . . . . . . 32 3.1.1 Kontinent-Insel-Modell. . . . . . . . . . . . . . . . . . . . . . . . . 32

XI

Inhaltsverzeichnis

XII

3.1.2 3.1.3

Symmetrisches Inselmodell. . . . . . . . . . . . . . . . . . . . . . 33 Isolation by distance und alternative Migrationsmodelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2 Modelle zeitlich strukturierter Populationen. . . . . . . . . . . . . . . . 35 3.2.1 Populationsflaschenhals (bottleneck). . . . . . . . . . . . . . . 35 3.2.2 Populationsexpansion und -reduktion . . . . . . . . . . . . . . 35 3.3 Populationsgenomik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3.1 Frequenzspektrum einer Population konstanter Größe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3.2 Frequenzspektren von zeitlich strukturierten Populationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3.3 Frequenzspektrum des Inselmodells mit zwei Subpopulationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3.4 Frequenzspektren in räumlich-zeitlich strukturierten Populationen . . . . . . . . . . . . . . . . . . . . . . 39 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4

Molekulare Variation und Evolution. . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1 Raten von Nukleotidsubstitutionen. . . . . . . . . . . . . . . . . . . . . . . 45 4.1.1 Schätzung der Raten von Nukleotidsubstitutionen . . . . 45 4.1.2 Raten synonymer und nicht-synonymer Nukleotidsubstitutionen bei Säugetieren und Drosophila. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.2 Neutralitätstheorien der molekularen Evolution . . . . . . . . . . . . . 49 4.2.1 Die strikt-neutrale Theorie der molekularen Evolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2.2 Die fast-neutrale Theorie der molekularen Evolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.3 Tests der strikt-neutralen Theorie der molekularen Evolution. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.3.1 HKA-Test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.3.2 McDonald-Kreitman-Test . . . . . . . . . . . . . . . . . . . . . . . 54 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5

Selektion und Adaptation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.1 Klassische Selektionstheorie. . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.1.1 Selektion in einer haploiden Population . . . . . . . . . . . . 58 5.1.2 Selektion in einer diploiden Population. . . . . . . . . . . . . 60 5.2 Wie effizient ist die natürliche Selektion?. . . . . . . . . . . . . . . . . . 63 5.2.1 Gerichtete Selektion in einer sehr großen Population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.2 Überlebenswahrscheinlichkeit einer vorteilhaften Mutation in einer sehr großen Population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Inhaltsverzeichnis

XIII

5.3

Die genetische Basis der Adaptation. . . . . . . . . . . . . . . . . . . . . . 68 5.3.1 Fishers geometrisches Modell der Adaptation. . . . . . . . 68 5.3.2 Evidenz für Fishers Modell der Adaptation. . . . . . . . . . 70 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6

Wechselwirkung der natürlichen Selektion mit Mutation, Migration und genetischer Drift. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.1 Mutation und Selektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.1.1 Mutations-Selektions-Gleichgewicht. . . . . . . . . . . . . . . 76 6.1.2 Genetische Bürde. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.2 Migration und Selektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 6.2.1 Migration und Selektion in diskreten Subpopulationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 6.2.2 Migration und Selektion in einem kontinuierlichen Habitat. . . . . . . . . . . . . . . . . . . . . . . . . 81 6.3 Genetische Drift und Selektion. . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.3.1 Fixierungswahrscheinlichkeit unter der Wirkung von Drift und Selektion. . . . . . . . . . . . . . . . . . 82 6.3.2 Relative Stärke von Drift und Selektion: die Bedeutung von Nes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

7

Rekombination und Selektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.1 Das Kopplungsungleichgewicht (LD). . . . . . . . . . . . . . . . . . . . . 88 7.2 Wirkung von Rekombination und genetischer Drift auf LD. . . . 89 7.3 Wirkung von Rekombination und Selektion auf LD. . . . . . . . . . 92 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

8

Selective sweeps. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 8.1 Hitchhiking-Effekt eines vorteilhaften Allels. . . . . . . . . . . . . . . . 100 8.2 Nachweis der positiv gerichteten Selektion mithilfe von selective sweeps. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 8.3 Evidenz für positiv gerichtete Selektion im Genom . . . . . . . . . . 107 8.3.1 Genomscans. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 8.3.2 Funktionelle Untersuchungen zu selective sweeps . . . . 109 8.4 Soft sweeps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

9

Balancierende Selektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 9.1 Formen der balancierenden Selektion. . . . . . . . . . . . . . . . . . . . . 115 9.1.1 Heterozygotenvorteil. . . . . . . . . . . . . . . . . . . . . . . . . . . 115 9.1.2 Negativ frequenzabhängige Selektion. . . . . . . . . . . . . . 119 9.1.3 Räumlich und zeitlich variierende Selektion. . . . . . . . . 124 9.2 Einfluss von balancierender Selektion auf neutrale Variation. . . 127 9.3 Nachweis von balancierender Selektion im Genom . . . . . . . . . . 129 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

XIV

Inhaltsverzeichnis

10 Background selection. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 10.1 Theorie der background selection . . . . . . . . . . . . . . . . . . . . . . . . 137 10.2 Vergleich von background selection und selective sweeps . . . . . 140 10.3 Gemeinsame Wirkung von background selection und selective sweeps auf die neutrale Variabilität . . . . . . . . . . . . 142 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 11 Quantitative Merkmale – genetische Basis und Effekt der Selektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 11.1 Genetische Basis quantitativer Merkmale. . . . . . . . . . . . . . . . . . 148 11.2 QTL-Analyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 11.2.1 Methoden der QTL-Analyse bei D. melanogaster. . . . . 151 11.2.2 Ergebnisse der QTL-Analyse bei D. melanogaster. . . . 154 11.3 Quantitative Merkmale unter gerichteter Selektion. . . . . . . . . . . 157 11.3.1 Heritabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 11.3.2 Ähnlichkeit eines quantitativen Merkmals zwischen Verwandten. . . . . . . . . . . . . . . . . . . . . . . . . . . 158 11.3.3 Effekt gerichteter Selektion. . . . . . . . . . . . . . . . . . . . . . 161 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 12 Polygene Adaptation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 12.1 Genomweite Assoziationsstudien . . . . . . . . . . . . . . . . . . . . . . . . 165 12.2 Theorie der polygenen Adaptation. . . . . . . . . . . . . . . . . . . . . . . . 167 12.2.1 Multi-Locus-Modell der gerichteten und stabilisierenden Selektion . . . . . . . . . . . . . . . . . . . . . . . 168 12.2.2 Allelfrequenzen und Varianz im Fitnessoptimum. . . . . 169 12.2.3 Evolution eines quantitativen Merkmals nach einer Umweltänderung . . . . . . . . . . . . . . . . . . . . . 170 12.3 Die Suche nach Signaturen polygener Adaptation im Genom. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 13 Elementare Mathematik, Wahrscheinlichkeitstheorie und Statistik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 13.1 Elementare Mathematik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 13.1.1 Mathematische Approximationen in der Populationsgenetik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 13.1.2 Rekurrenzgleichungen. . . . . . . . . . . . . . . . . . . . . . . . . . 178 13.1.3 Gewöhnliche Differenzialgleichungen. . . . . . . . . . . . . . 180 13.2 Grundlagen der Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . 181 13.2.1 Grundbegriffe der Wahrscheinlichkeitstheorie. . . . . . . . 181 13.2.2 Zufallsvariablen und ihre Verteilungen . . . . . . . . . . . . . 182

Inhaltsverzeichnis

XV

13.3 Statistische Grundlagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 13.3.1 χ 2-Anpassungstest. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 13.3.2 χ 2-Unabhängigkeitstest, G-Test und exakter Test von Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 13.3.3 Maximum-Likelihood-Schätzer und der Likelihood-Ratio-Test. . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 Lösungsvorschläge zu den Übungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Glossar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

1

Phänotypische und genetische Variabilität

Evolutionäre Veränderung kann nur stattfinden, wenn die Variabilität, die zwischen den Individuen einer Population existiert, vererbbar ist (Darwin 1859, Kap. 1). Variabilität, die nicht vererbt wird, ist für das Evolutionsgeschehen unwichtig. Die Populationsgenetik unterscheidet zwischen phänotypischer und genetischer (oder genotypischer) Variabilität. Viele beobachtbare Merkmale (Phänotypen) von Individuen sind sowohl durch ihre genetische Zusammensetzung (Genotypen) als auch durch die Umwelt beeinflusst. Im Folgenden werden wir zunächst die phänotypische Variabilität von Individuen einer Population einer Art beschreiben und dabei zwischen diskreter und quantitativer Variabilität unterscheiden (Abschn. 1.1). In Abschn. 1.2 werden wir uns mit der genetischen Variabilität befassen und beschreiben wie diese gemessen werden kann und in Abschn. 1.3 werden wir mit dem Hardy-Weinberg-Gesetz eine erste theoretische Grundlage einführen, mit der man evolutionäre Prozesse in Populationen erklären kann.

1.1 Phänotypische Variabilität Die phänotypische Variabilität reicht von diskreten Polymorphismen (diskrete Variabilität) bis zur kontinuierlichen Variation in der Morphologie, im Verhalten und in der Physiologie von Organismen (quantitative Variabilität).

1.1.1 Diskrete Variabilität Manche phänotypische Merkmalsunterschiede zwischen Individuen einer Population sind diskret, d. h. sie lassen sich in endlich viele, klar unterscheidbare ­Klassen einteilen. Beispiele sind die Haarfarbe beim Menschen oder die Blütenfarbe bei vielen Pflanzenarten (z. B. beim Löwenmäulchen [Antirrhinum]).

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 W. Stephan und A. C. Hörger, Molekulare Populationsgenetik, https://doi.org/10.1007/978-3-662-59428-5_1

1

2

1  Phänotypische und genetische Variabilität

Andere Merkmale hingegen variieren kontinuierlich (z. B. die Körpergröße beim Menschen; Abschn. 1.1.2). Diskrete Polymorphismen sind in der Natur relativ selten zu finden, jedoch zählen dazu bekannte Beispiele, wie die Flügelmuster der Schmetterlinge aus der Gattung Papilio und der Schalenpolymorphismus der Bänderschnecke Cepaea nemoralis. Bei beiden werden Farbunterschiede durch verschiedene Allele eines einzigen genetischen Locus verursacht (Sheppard 1975). Es handelt sich dabei um monogene Merkmale. Die unterschiedlichen Bandenmuster bei Cepaea werden jedoch durch die Allele eines anderen Gens hervorgerufen. Während die oben genannten diskreten Polymorphismen mit bloßem Auge beobachtet werden können, wurden weitere Beispiele mithilfe des Mikroskops oder durch biochemische Methoden entdeckt. Berühmt sind der Blutgruppenpolymorphismus beim Menschen, der durch immunologische Studien gefunden wurde (Race und Sanger 1975), und die chromosomalen Inversionen bei der Taufliege Drosophila melanogaster, die durch die Untersuchung von Riesenchromosomen im Lichtmikroskop entdeckt wurden (Powell 1997, Kap. 3; Sperlich 1988, Kap. 9).

1.1.2 Quantitative Variabilität Anders als die oben beschriebenen diskreten Polymorphismen haben quantitative Merkmale typischerweise eine (nahezu) kontinuierliche Verteilung. Neben morphologischen Merkmalen, wie Größe und Gewicht, gehören sehr viele physiologische Eigenschaften und auch der IQ des Menschen zu dieser Kategorie von Merkmalen. Quantitative Merkmale werden in der Regel von einer Vielzahl von Genen kontrolliert und sie werden daher auch als polygene Merkmale bezeichnet. Dies unterscheidet sie von den oben besprochenen diskreten Polymorphismen, die meist von einzelnen oder wenigen Genen bestimmt werden. Diese Erkenntnis hat traditionell dazu geführt, dass quantitative Merkmale von der Quantitativen Genetik behandelt werden, während diskrete Merkmale und damit auch die Evolution individueller Gene der Populationsgenetik obliegen. In den letzten Jahren haben sich jedoch beide Fächer vermischt. Wir tragen dieser Entwicklung gegen Ende dieses Buches Rechnung (Kap. 11), nachdem wir den Bereich der Populationsgenetik abgesteckt haben.

1.2 Genetische Variabilität Der vererbbaren phänotypischen Variabilität liegt meist eine genetische Basis zugrunde; ein phänotypisch beobachtbarer Polymorphismus basiert in der Regel also auf einem Polymorphismus auf DNA-Sequenzebene, der verschiedene Ursachen haben kann (siehe Abschn. 1.2.3). Wenn auch die Untersuchung von Variabilität aufgrund des Fehlens adäquater Methoden lange auf die phänotypische Ebene beschränkt war, ermöglichte es schließlich die Entwicklung molekularer Methoden ab der zweiten Hälfte des letzten Jahrhunderts, auch die genetische

1.2  Genetische Variabilität

3

Variabilität in Organismen zu messen. Mittlerweile ist es sogar ohne größeren Aufwand möglich, Polymorphismusdaten in kompletten Genomen zu erheben. Dieser Abschnitt soll einen kurzen Überblick über die Entstehungsgeschichte und Anwendungsbereiche der wichtigsten Messmethoden genetischer Variabilität geben.

1.2.1 Gelelektrophorese von Proteinen Die Variabilität in einzelnen Genen wurde zunächst gemessen, indem die entsprechenden codierten Proteine untersucht wurden. John Hubby und Richard Lewontin (1966) benutzten für ihre Experimente lösliche Proteine (meistens Enzyme) von Drosophila pseudoobscura und Harry Harris (1966) solche von Menschen. Beide Gruppen verwendeten die Gelelektrophoresetechnik, um in großen Stichproben von Individuen nach Polymorphismen zu fahnden, die die Migrationsgeschwindigkeit auf einem Gel in einem elektrischen Feld beeinflussen. Die variablen Loci, die durch diese Methode entdeckt wurden, heißen Allozymloci. Die experimentellen Methoden sind im Detail in der Monographie von Diether Sperlich erklärt (Sperlich 1988, Kap. 9). Das Bandenmuster, das nach der Färbung auf dem Gel sichtbar ist, ist im Falle eines monomeren Enzyms leicht zu interpretieren. Für diploide Individuen findet man dann entweder eine ‚fast‘ (F)- oder eine ‚slow‘ (S)-Bande, falls das Individuum an diesem Locus homozygot ist, also auf beiden Chromosomen das gleiche Allel am entsprechenden Locus trägt, und zwei Banden für ein heterozygotes Individuum, bei dem sich auf den beiden Chromosomen zwei unterschiedliche Allele am entsprechenden Locus befinden. Falls zwei Allele in Heterozygoten detektiert werden, werden diese als kodominant bezeichnet. Für dimere Enzyme ist das Bandenmuster komplizierter, kann aber in den meisten Fällen auch interpretiert werden. Die Gelelektrophorese wurde in den Jahren nach ihrer Einführung sehr häufig verwendet, um die genetische Variabilität zu messen. Das wichtigste Ergebnis dieser Untersuchungen war, dass die genetische Variabilität in sehr vielen Spezies unerwartet hoch ist. Die durchschnittliche Heterozygotie bei Vertebraten, d. h. die Wahrscheinlichkeit, dass die beiden Allele eines diploiden Locus unterschiedlich sind, erreichte Werte bis zu 20 % und bei Invertebraten noch höhere (Nei 1987, Kap. 8). Diese Resultate waren nicht im Einklang mit der Lehre der klassischen Schule der Populationsgenetik, die postulierte, dass von den meisten Genen nur jeweils ein hochfrequentes Wildtyp-Allel existiert, während die Varianten selten sind (Muller 1950). Die Gelelektrophorese von Proteinen hat mehrere Nachteile: Sie konnte nur auf lösliche Proteine angewendet werden. Ferner wurde die Variabilität eines Proteins nur dann beobachtet, wenn die elektrische Ladung zwischen den Allelen verschieden war. Deshalb wurde sie bald durch andere molekulare Verfahren verdrängt, die die genetische Variabilität direkt auf der DNA-Ebene untersuchten. Bevor wir diese besprechen, wollen wir jedoch zuerst einige Grundbegriffe der

1  Phänotypische und genetische Variabilität

4

Populationsgenetik einführen, um die molekulare Diversität zu charakterisieren (Box 1.1). An Allozymloci lassen sich diese Begriffe besonders leicht erklären. Zunächst ist durch simples Zählen der variablen Loci festzustellen, wie groß die Proportion der polymorphen Loci ist (z. B. in D. pseudoobscura nahezu 30 %). Ferner lässt sich leicht die Frequenz der Genotypen SS, FF und FS sowie der Allele F und S ermitteln. Schließlich können wir daraus die Heterozygotie H eines Gens berechnen, wie es in Box 1.1 beschrieben wird.

Box 1.1 Berechnung der Genotyp- und Allelfrequenzen sowie der Heterozygotie

Wir betrachten ein autosomales Gen mit zwei Allelen F und S in einer diploiden Population. Diese Allele können drei Genotypen bilden: SS, FF und FS. Wir nehmen an, dass unsere Stichprobe aus n = 100 Individuen besteht und die Anzahl der Genotypen direkt durch Elektrophorese wie folgt bestimmt worden ist: Genotyp

SS

FF

FS

Gesamt

Anzahl

26

32

42

100

Dann erhalten wir die Genotypfrequenzen fSS, fFF und fFS durch Division der Anzahl der Genotypen durch die Größe der Stichprobe n: Genotypfrequenz

0,26

0,32

0,42

1

Die Allelfrequenzen fS und fF können mit folgenden Formeln aus den Genotypfrequenzen berechnet werden:

und

1 fS = fSS + fFS 2

(1.1)

1 fF = fFF + fFS . 2

(1.2)

Der Faktor 21 berücksichtigt, dass ein heterozygotes Individuum im Unterschied zum homozygoten nur ein S- oder F-Allel enthält. Im obigen Beispiel erhalten wir mit diesen Formeln fS = 0,47 und fF = 0,53. Ferner bemerken wir, dass sich die Allel- und Genotypfrequenzen jeweils zu 1 addieren. Dies gilt ganz allgemein für Frequenzen und Wahrscheinlichkeiten und folgt aus der Additionsregel der Wahrscheinlichkeitsrechnung (Gl. 13.13). Falls die Stichprobe einer Population mit Zufallspaarung (in der Individuen ihre Paarungspartner ohne Rücksicht auf den Genotyp aussuchen) entnommen ist, können wir die Heterozygotie H, also die Wahrscheinlichkeit,

1.2  Genetische Variabilität

5

dass die zwei Allele an einem autosomalen Locus eines diploiden Individuums verschieden sind, folgendermaßen ausdrücken (Übung 1.6):

H = 1 − fS2 − fF2 .

(1.3)

In anderen Worten, H = fFS = 2fF fS ist die Frequenz der Heterozygoten in der Stichprobe und G = 1 − H = fS2 + fF2 die Frequenz der Homozygoten. Falls keine Zufallspaarung vorliegt, gelten diese Formeln für Heterozygotie und Homozygotie nicht (siehe obiges Beispiel). Weitere Details zu diesem Thema finden sich bei Charlesworth und Charlesworth (2012, Box 1.2).

1.2.2 Messung genetischer Variabilität mittels Restriktionsenzymen Diese Technik wurde Ende der 1970er-Jahre im Labor von Charles Langley entwickelt und hauptsächlich bei der Taufliege Drosophila melanogaster angewandt. D. melanogaster wurde verwendet, da man homozygote Fliegenlinien herstellen konnte, in welchen an jedem Locus nur ein einzelnes Allel existierte. Ferner waren zu dieser Zeit für viele Gene bereits Klone vorhanden, die man als Proben benötigte, um molekulare Varianten zu identifizieren. Bei diesem Verfahren wird DNA von einer Stichprobe von homozygoten Linien durch Restriktionsenzyme verdaut. Diese Enzyme schneiden die DNA an kurzen spezifischen Sequenzen, die in der Regel vier oder sechs Basenpaare (bp) lang sind. Falls die Allele von verschiedenen Linien unterschiedlich sind und sich an den entsprechenden Restriktionsschnittstellen unterscheiden, können beim Verdau unterschiedlich lange DNA-Fragmente entstehen, die man auf einem Agarosegel mithilfe eines elektrischen Feldes auftrennen und dann anhand einer radioaktiven Sonde identifizieren kann (Sperlich 1988, Kap. 9). Die molekularen Varianten, die auf diese Weise entdeckt werden, heißen Restriktionsfragmentlängenpolymorphismen (RFLPs, restriction fragment length polymorphisms). Bei der Analyse der Daten müssen Annahmen gemacht werden, wie etwa, dass die Differenzen der Restriktionsschnittstellen zwischen den Linien durch einzelne Nukleotidänderungen verursacht werden (anstatt durch Insertionen oder Deletionen). Außerdem kann in einer Genregion im Allgemeinen nur ein kleiner Teil der Sequenzvariabilität erfasst werden, auch wenn zehn oder mehr verschiedene Restriktionsenzyme verwendet werden. Von diesen Nachteilen abgesehen können mit dieser Methode aber relativ große Stichproben untersucht werden (Aquadro et al. 1986). Die Methode konnte später auch auf diploide Spezies angewendet werden, bei denen keine homozygoten Linien zur Verfügung standen. Auch heute wird sie in teilweise abgeleiteter Form – z. B. als amplified fragment-length polymorphism (AFLP) oder restriction site associated DNA sequencing (RAD-Seq) – zur Untersuchung großer Stichproben verwendet. Bei diesen Abwandlungen werden die Restriktionsfragmente noch mittels der Polymerasekettenreaktion (PCR) vervielfältigt (Amplifikation) und bei der RAD-Seq-Methode zusätzlich sequenziert.

6

1  Phänotypische und genetische Variabilität

1.2.3 DNA-Sequenzierung Durch die Sequenzierung der DNA von Individuen einer Stichprobe kann im Prinzip die vollständige Information über die genetische Variabilität der Stichprobe erhalten werden. Die Sequenzierung ist also im Allgemeinen nicht auf bestimmte Teile des Genoms beschränkt, von denen Klone existieren (die z. B. für die Restriktionsanalyse nötig sind). Schwierigkeiten können aber auch beim Sequenzieren auftreten, etwa in Regionen repetitiver DNA. Nach der Erfindung der PCR-Amplifikation in der zweiten Hälfte der 1980er-Jahre wurde die DNA-Sequenzierung die beliebteste und am meisten gebrauchte Methode, um genetische Variabilität zu studieren. Die meisten Varianten, die durch Sequenzieren in einer Stichprobe entdeckt werden, sind Einzelnukleotidpolymorphismen (SNPs, single nucleotide polymorphisms). Das sind Änderungen, die an homologen Nukleotidstellen durch die Substitution einer einzelnen Base durch eine andere entstehen. Viel seltener hingegen sind Insertionen und Deletionen von DNA-Stücken (sogenannte Indels) zu finden. Diese Stücke können wenige Nukleotide umfassen, aber auch mehrere Kilobasenpaare (kb) lang sein (z. B. Transposons). Indels sind hauptsächlich in den nicht-codierenden Genregionen zu finden, da sie meist den Leserahmen eines Gens verschieben, sofern es sich nicht um eine Insertion oder Deletion eines oder mehrerer Codons handelt. Die erste systematische Sequenzierstudie von mehreren Allelen eines Locus wurde von Martin Kreitman (1983) durchgeführt (also bevor die PCR erfunden wurde). Kreitman isolierte elf unterschiedliche Klone des Alkoholdehydrogenase-Gens (Adh) einer weltweiten D. melanogaster-Sammlung und sequenzierte diese mithilfe der Maxam-Gilbert-Methode. Fünf der Allele trugen die elektrophoretische F-Variante und sechs die S-Form. Die Ergebnisse der Sequenzierung sind in Abb. 1.1 zu sehen.

Abb. 1.1  Polymorphe Nukleotidstellen in elf Sequenzen des Alkoholdehydrogenase-Gens (Adh) von Drosophila melanogaster. Nur die Unterschiede von der Konsensussequenz sind zu sehen; Punkte bedeuten, dass keine Abweichung von der Konsensussequenz besteht. Insertionen und Deletionen (Indels) sind nicht gezeigt. Das Sternchen in Exon 4 gibt die Stelle an, an der das Lysin (codiert durch AAG) des S-Allels durch Threonin (ACG) des F-Allels ersetzt wurde, wodurch der elektrophoretische Unterschied zwischen den F- und S-Allelen verursacht wird. (Modifiziert nach Li 1998, Abb. 9.1, mit freundlicher Genehmigung von Oxford University Press, USA)

1.2  Genetische Variabilität

7

Die Sequenzierung brachte folgende interessante Ergebnisse: • Die Nukleotidvariabilität (d. h. die Variabilität pro Nukleotidstelle) war hoch: 43 von den 2379 alignierten Nukleotidstellen waren variabel; d. h. 43 SNPs wurden entdeckt, aber nur sechs Indels, die alle in den nicht-codierenden Regionen zu finden waren. • 42 SNPs waren still, und nur ein SNP in Exon 4 war nicht-synonym; dieser machte aber den Unterschied zwischen den elektrophoretischen F- und S-Varianten aus. Die Beobachtung, dass in den codierenden Regionen die Anzahl der nicht-synonymen SNPs viel kleiner ist als die der synonymen SNPs wurde in anderen Sequenzierstudien bestätigt. Sie deutet darauf hin, dass nicht-synonyme Mutationen von der natürlichen Selektion in Populationen in niedriger Frequenz gehalten oder ganz eliminiert werden, da sie für das Funktionieren von Proteinen nachteilig sind. Nur wenige nicht-synonyme Mutationen erweisen sich als vorteilhaft und bleiben in Populationen erhalten. Das Adh-Gen von D. melanogaster stellt einen solchen Fall dar, da hier nur ein nicht-synonymer SNP entdeckt wurde, der in relativ hoher Frequenz vorkommt. Wir kommen in Abschn. 4.3.1 darauf zurück. In nicht-­ codierenden Bereichen eines Gens (z. B. Introns) ist die Variabilität ähnlich hoch wie an synonymen Stellen. Dies gilt jedoch nicht für regulatorische Sequenzen. Neben SNPs und Indels werden in Sequenzierdaten auch andere Typen von molekularen Varianten entdeckt. Insbesondere die repetitiven Sequenzen, die als sogenannte tandem arrays vorliegen, haben dabei eine große Bedeutung, um die Individuen einer Population zu charakterisieren. Dies wird beispielsweise auch in der Forensik als sogenannter genetischer Fingerabdruck genutzt. Als tandem arrays bezeichnet man Gencluster, die durch Tandem-Duplikation einer Sequenz entstehen. Je nach Länge teilt man sie in Mikrosatelliten, Minisatelliten und Satelliten-DNA ein. Mikrosatelliten weisen eine große Anzahl von Sequenzwiederholungen (100 oder mehr) auf, die sehr kurz sind (2–5 bp), während die wiederholten Sequenzen von Minisatelliten eine Länge von > 15 bp haben (Charlesworth et al. 1994). Die repetitiven Einheiten von Satelliten-DNA sind dagegen meist viel länger. Die Anzahl der Mikro- und Minisatellitenloci pro Individuum ist in der Regel kleiner als die Anzahl der SNPs. Jeder dieser repetitiven Loci besitzt allerdings häufig sehr viele Allele, da die Mutationsraten sehr hoch sind, mit denen Allele ihre Anzahl an Wiederholungseinheiten verändern (in der Größenordnung von 10−4–10−3 pro Generation). Demgegenüber sind Nukleotidsubstitutionen, die zu SNPs führen, viel seltener (10−9–10−8 pro Generation). Nun kommen wir zur Analyse von Sequenzierdaten. Da es sich bei SNPs um Differenzen zwischen Individuen einer Population an einzelnen Nukleotidstellen handelt, ist der zugrunde liegende Mutationsprozess oft relativ einfach durch einen Parameter (die Mutationsrate µ) charakterisierbar. Im einfachsten Fall kann diese als konstant für ein Gen oder ein DNA-Segment angenommen werden. Für andere DNA-Varianten wie Indels oder tandem arrays ist der Mutationsprozess jedoch vielfältiger und weniger gut bekannt. Wir werden uns deshalb bei der quantitativen Beschreibung der DNA-Sequenzvariabilität auf SNPs beschränken (Box 1.2).

8

1  Phänotypische und genetische Variabilität

Box 1.2 Quantifizierung der Variabilität einer Stichprobe von n homologen DNA-Sequenzen

Nukleotiddiversität π : π ist die Wahrscheinlichkeit, dass zwei zufällig gewählte Sequenzen einer Stichprobe an einer Nukleotidstelle verschieden sind; π ähnelt daher H von Box 1.1, bezieht sich aber auf eine einzelne Nukleotidstelle. Man erhält π, indem man über die gesamte Länge der Sequenz mittelt. Falls die Stichprobe einer Population mit Zufallspaarung entnommen wurde, wird π – ähnlich wie H in Box 1.1 – als Nukleotidheterozygotie bezeichnet. Für eine Stichprobe der Größe n wird π berechnet, indem man für alle m = n(n − 1)/2 Paare (i, j) von Sequenzen (i  1). Für größere Migrationsraten nimmt D bei lokaler Stichprobenentnahme ab und wird stark negativ für große Migrationsraten (Abb. 3.7). Letzteres ist im obigen Beispiel nicht zu sehen, in dem die Populationsgröße konstant bleibt. Der starke Abfall zu negativen D-Werten ist durch die Populationsexpansion zu erklären, die zu einem Überschuss von niederfrequenten abgeleiteten Varianten führt (ähnlich wie im Inselmodell; Abschn. 3.3.2). Im Gegensatz dazu nimmt D für relativ kleine Migrationsraten zwischen den Subpopulationen zu. Dieses Verhalten von D ist ähnlich wie in dem Fall ohne Populationsexpansion, der oben diskutiert wurde. Im Bereich sehr kleiner Migrationsraten ist D ≈ 0.

Abb. 3.6  Mittelwerte von Tajimas D als Funktion der skalierten Migrationsrate 4Nem für zwei Methoden der Stichprobenentnahme (lokal aus einer Subpopulation bzw. speziesweit, n = 20) für eine Population im Gleichgewicht. Den Simulationen liegt ein stepping-stone-Modell zugrunde (mit d = 100 Subpopulationen). Jeder Datenpunkt basiert auf 1000 unabhängigen Simulationen. (Modifiziert nach Städler et al. 2009, Abb. 1A, mit freundlicher Genehmigung der Genetics Society of America über Copyright Clearance Center, Inc.)

42

3  Räumlich-zeitliche Populationsstruktur und Populationsgenomik

Abb. 3.7  Mittelwerte von Tajimas D als Funktion der skalierten Migrationsrate 4Nem für zwei Methoden der Stichprobenentnahme (lokal bzw. speziesweit, n = 20) für eine expandierende Population. Den Simulationen liegt ein stepping-stone-Modell mit speziesweiter Expansion zugrunde (β = 10, τ = 2). (Modifiziert nach Städler et al. 2009, Abb. 2A, mit freundlicher Genehmigung der Genetics Society of America über Copyright Clearance Center, Inc.)

Jedoch ist dies nicht so leicht wie im vorhergehenden Beispiel zu erklären. Im Falle sehr kleiner Migrationsraten hängt D nämlich auch von dem gewählten Wert von β ab, der in unserem Beispiel zehn beträgt (Abb. 3.7). Für kleinere Werte von β wird D leicht positiv und für größere leicht negativ (siehe Abb. 3A in Städler et al. 2009). Wir haben im vorliegenden Fall also eine Überlagerung von zwei Effekten: Migration, die im Allgemeinen zu einem Anstieg von D führt (bei festem β-Wert) und besonders im Bereich relativ kleiner Migrationsraten relevant ist, und Populationswachstum, das in der Regel zu einer Erniedrigung von D führt und im Bereich größerer Migrationsraten dominiert (insbesondere wenn sich die Population der Panmixie nähert). Wenn die Probenentnahme speziesweit erfolgt, erhalten wir in diesem Beispiel eine große Diskrepanz zum lokalen Verfahren. Wir sehen, dass Tajimas D stark negative Werte annimmt, unabhängig von der Größe des Migrationsparameters (Abb. 3.7). Dieses Verfahren der Stichprobenentnahme führt zu einem sehr deutlichen Signal, dass die Gesamtpopulation expandiert. Im Falle lokaler Stichprobenentnahme ist dieses Signal nicht annähernd so extrem, außer bei sehr großen Migrationsraten. Dieses Beispiel zeigt, dass sich die Strategie der Stichprobenentnahme nach der Fragestellung richten sollte. Bei Fragen zur Evolution einer gesamten Spezies ist es ratsam, Proben von möglichst vielen Subpopulationen zu sammeln. Die Anzahl von Sequenzen aus lokalen Subpopulationen kann dabei klein sein.

Literatur

43

Die obigen Resultate wurden für ein zweidimensionales stepping-stone-Modell durch Koaleszenzsimulation gewonnen. Für ein entsprechendes Inselmodell mit der gleichen Anzahl von Subpopulationen und den gleichen Werten von β und τ wurden sehr ähnliche Ergebnisse für D als Funktion der skalierten Migrationsrate erzielt (Städler et al. 2009).

Übungen

 I im Gleichgewicht zwischen Mig3.1 Berechnen Sie die Heterozygotie H ration und Drift für das Kontinent-Insel-Modell. 3.2 Vergleichen Sie das SFS (site frequency spectrum) für eine konstante Population mit dem SFS der in Abschn. 3.1 und 3.2 eingeführten Beispiele von Populationen mit räumlicher und zeitlicher Struktur, wobei die Größe der Stichprobe n = 30 beträgt. Berechnen Sie jeweils Tajimas D. 3.3 Untersuchen Sie mithilfe der in Übung 3.2 gewonnenen Simulationsergebnisse die Verteilung von Tajimas D und vergleichen Sie das Ergebnis mit der Betaverteilung, wie Tajima (1989) es vorgeschlagen hat. 3.4 Zeigen Sie, dass Tajimas D = 0, falls die Größe der Stichprobe n = 2 oder n = 3 beträgt.

Literatur Glenn TC, Stephan W, Braun MJ (1999) Effects of a population bottleneck on whooping crane mitochondrial DNA variation. Conserv Biol 13:1097–1107 Hudson RR (1998) Island models and the coalescent process. Mol Ecol 7:413–418 Hudson RR (2002) Generating samples under a Wright-Fisher neutral model of genetic variation. Bioinformatics 18:337–338 Kimura M (1953) “Stepping-stone” model of population. Annu Rep Natl Inst Genet 3:62–63 Li H, Stephan W (2006) Inferring the demographic history and rate of adaptive substitution in Drosophila. PLoS Genet 2:e166 Malécot G (1959) Les modéles stochastiques en génétique de population. Publ Inst Statist Univ Paris 8:173–210 Ometto L, Glinka S, De Lorenzo D, Stephan W (2005) Inferring the effects of demography and selection on Drosophila melanogaster populations from a chromosome-wide scan of DNA variation. Mol Biol Evol 22:2119–2130 Planes S, Fauvelot C (2002) Isolation by distance and vicariance drive genetic structure of a coral reef fish in the Pacific Ocean. Evolution 56:378–399 Städler T, Haubold B, Merino C, Stephan W, Pfaffelhuber P (2009) The impact of sampling schemes on the site frequency spectrum in nonequilibrium subdivided populations. Genetics 182:205–216 Tajima F (1989) Statistical method for testing the neutral mutation hypothesis by DNA polymorphism. Genetics 123:585–595 Wright S (1940) Breeding structure of populations in relation to speciation. Am Nat 74:232–248 Wright S (1943) Isolation by distance. Genetics 28:114–138 Wright S (1946) Isolation by distance under diverse systems of mating. Genetics 31:39–59

4

Molekulare Variation und Evolution

Die Analyse der genetischen Variabilität und der Evolution auf der molekularen Ebene setzt voraus, dass wir DNA- und Proteinsequenzen innerhalb einer Population (derselben Spezies) und zwischen verschiedenen Spezies vergleichen. In Abschn. 1.2.3 haben wir bereits gelernt, wie man DNA-Sequenzen innerhalb einer Population vergleicht und daraus die genetische Variabilität einer Population mittels einer Stichprobe schätzt. In diesem Kapitel beschreiben wir zunächst, wie man die Divergenz von homologen DNA-Sequenzen zwischen verschiedenen Spezies bestimmen kann (Abschn. 4.1). Dies liefert uns neben der intraspezifischen Variabilität zusätzliche Informationen. Mithilfe beider Beobachtungen (intraspezifische Variation und interspezifische Divergenz) können wir dann die Neutralitätstheorien der molekularen Evolution (Kimura 1968; King und Jukes 1969; Ohta 1973) formulieren (Abschn. 4.2). Am Ende des Kapitels führen wir statistische Verfahren ein, um die Neutralitätstheorien mithilfe von Daten über die intraspezifische Variation und die interspezifische Divergenz zu testen (Abschn. 4.3).

4.1 Raten von Nukleotidsubstitutionen 4.1.1 Schätzung der Raten von Nukleotidsubstitutionen Die Raten der DNA-Sequenzevolution (oder der Nukleotidsubstitution) können am einfachsten geschätzt werden, indem man ein Alignment homologer Sequenzen von zwei Spezies vergleicht und die Proportion δ der Nukleotidstellen berechnet, die zwischen den beiden Spezies verschieden sind (Abb. 4.1). Dieses Vorgehen ähnelt der Methode, mit der wir die Nukleotiddiversität innerhalb einer Population (Spezies) ausgerechnet haben (siehe Box 1.2). Wir nehmen vorerst an, dass die DNA-Sequenz nur eine Klasse von Nukleotidaustauschen (Punktmutationen bzw. SNPs) aufweist (z. B. nur stille SNPs, statt synonyme und nicht-synonyme SNPs in der Sequenz). Um die Rate der © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 W. Stephan und A. C. Hörger, Molekulare Populationsgenetik, https://doi.org/10.1007/978-3-662-59428-5_4

45

4  Molekulare Variation und Evolution

46

Abb. 4.1  Divergenz zweier Spezies von einer anzestralen Spezies. T ist die Divergenzzeit zwischen beiden Spezies

­ equenzevolution zu berechnen, benötigen wir noch die Zeit T (in Jahren), seit der S die beiden Spezies separiert sind (Abb. 4.1). Diese kann z. B. aus einem Fossilienbericht oder biogeographischen Daten ermittelt werden. Dann ist die Rate der Sequenzevolution ν folgendermaßen definiert:

ν=

δ . 2T

(4.1)

Der Faktor 2 berücksichtigt dabei, dass während der Zeit T Unterschiede in beiden Sequenzen auftreten können. In der Übung 4.1 finden Sie ein Beispiel zur Berechnung von ν für die beiden Taufliegenarten Drosophila melanogaster und D. simulans mithilfe von Gl. 4.1. Die oben angegebene Formel könnte in bestimmten Situationen ungenaue Resultate liefern. Zum einen werden Schätzungen für T typischerweise aus dem Fossilienbericht gewonnen, der notorisch ungenau ist. Wenn die Trennung von zwei Spezies nicht lange zurückliegt relativ zum Alter der anzestralen Spezies, könnte zum anderen T systematisch unterschätzt und damit für ν ein zu großer Wert erhalten werden. Wie ist aber das Alter einer Spezies zu schätzen? Wiederum könnte dies mithilfe des Fossilienberichts geschehen, aber einen groben Anhaltspunkt könnte auch die Populationsgenetik mithilfe der Koaleszenztheorie liefern (Abschn. 2.3). Relevant ist hierfür der Erwartungswert von TMRCA, den wir in Übung 2.7 für das Wright-Fisher-Modell als ungefähr 4Ne Generationen berechnet haben, wobei Ne die effektive Populationsgröße der anzestralen Population ist und z. B. als Mittelwert der beiden zu vergleichenden Spezies angenommen werden kann (Hudson et al. 1987).

4.1  Raten von Nukleotidsubstitutionen

47

Ein weiteres Problem besteht in der Schätzung von δ, der Proportion von Nukleotidunterschieden in einem Paar homologer DNA-Sequenzen von zwei verschiedenen Spezies. Wenn die zu vergleichenden Arten genetisch nicht sehr nahe verwandt sind, genügt es nicht, δ durch einfaches Zählen der Nukleotidunterschiede zwischen den beiden Sequenzen zu ermitteln, da an manchen Nukleotidstellen mehrere Mutationen (einschließlich Rückmutationen) nach der Separation der beiden Spezies stattgefunden haben können. Eine Reihe von Methoden wurde entwickelt, um dieses Problem zu beheben (siehe z. B. Graur und Li 2000, Kap. 3). Die einfachste Methode stammt von Jukes und Cantor (1969). Diese postuliert, dass die beobachtete Proportion der Nukleotiddifferenzen δ folgendermaßen (nach oben) korrigiert werden muss (siehe auch Übung 4.2):   4δ 3 . κ = − ln 1 − (4.2) 4 3

4.1.2 Raten synonymer und nicht-synonymer Nukleotidsubstitutionen bei Säugetieren und Drosophila Für Säugetiere liegen DNA-Sequenzdaten vor, die bestens geeignet sind, um Raten von synonymen und nicht-synonymen Nukleotidsubstitutionen abzuschätzen. Zum einen gibt es von Säugetieren viel mehr Sequenzdaten als von anderen Organismengruppen. Des Weiteren zeigen sie einen mittleren Grad der Divergenz, sodass diese verlässlich abgeschätzt werden kann (zu geringe Divergenz würde zu großen Standardabweichungen von δ führen und zu große Divergenz zu Problemen wegen multipler Mutationen pro Nukleotidstelle). Ferner ist bei Säugetieren der Fossilienbericht relativ vollständig, sodass auch die Divergenzzeit T genau genug ermittelt werden kann. Die Standardmethoden zur Schätzung von synonymen und nicht-synonymen Nukleotidsubstitutionsraten sind in Abschn. 7.4 von Hartl und Clark (2007) angegeben. Als Beispiel betrachten wir die Raten von synonymen und nicht-synonymen Nukleotidsubstitutionen für 47 Gene von Säugetieren. Die Daten wurden der Tab. 7.1 aus Li (1998) entnommen. Die Raten wurden durch DNA-Sequenzvergleich homologer Gene zwischen Mensch und Maus (oder Ratte) geschätzt, wobei die Divergenzzeit T als 80 Mio. Jahre angenommen wurde. Für nicht-synonyme Stellen wurde dabei eine durchschnittliche Rate von 0,74 (±0,67) Substitutionen pro Stelle und 109 Jahren gefunden, für synonyme Stellen 3,51 (±1,01) Substitutionen pro Stelle und 109 Jahren. Zunächst zeigt dieser Datensatz sehr deutlich, dass die Substitutionsrate an synonymen Stellen viel größer ist als an nicht-synonymen Stellen. Dieses Ergebnis ist als Parallele zum Resultat aus Abschn. 1.2.3 zu betrachten, das besagt, dass die Anzahl der synonymen SNPs größer ist als die der nicht-synonymen SNPs. Wir können diese Beobachtung wieder so interpretieren wie in Abschn. 1.2.3, dass die meisten Mutationen, die eine Aminosäure verändern, von der Selektion daran gehindert werden, sich in der Population zu verbreiten, weil sie sich nachteilig auswirken. Eine weitere allgemeine Beobachtung ist, dass die Standardabweichung für synonyme Stellen relativ klein ist verglichen mit dem

48

4  Molekulare Variation und Evolution

Durchschnittswert, während für die nicht-synonymen Stellen der Durchschnitt und die Standardabweichung etwa gleich groß sind. Dies deutet darauf hin, dass die Evolutionskräfte, die die Raten der Sequenzevolution an synonymen Stellen bestimmen, homogener als an den nicht-synonymen Stellen sind. In der Tat ist die Substitutionsrate an nicht-synonymen Stellen zwischen verschiedenen Klassen von Genen extrem variabel. Sie reicht von 0 für Histone bis zu ungefähr 3 × 10−9 Substitutionen pro nicht-synonymer Stelle pro Jahr für Interferon γ. Strukturelle Proteine wie Histone und ribosomale Proteine evolvieren im Allgemeinen sehr langsam. Im Gegensatz dazu findet man bei Hormonen extrem unterschiedliche Evolutionsraten, von sehr langsam (Somatostatin-28) bis sehr schnell (Relaxin). Weniger variabel sind dagegen die nicht-synonymen Substitutionsraten bei Enzymen. Der genetische Code ist degeneriert, da die meisten Aminosäuren durch mehrere Basentripletts (Codons) codiert werden. Daher lassen sich die Codons für die 20 Aminosäuren in verschiedene Klassen einteilen (Abb. 4.2). Berücksichtigt

Abb. 4.2  Darstellung des genetischen Codes als „Code-Sonne“. Die Basentripletts auf der mRNA, die Codons, sind von innen (1. Codonstelle) nach außen (3. Codonstelle) zu lesen und codieren die außen angegebenen Aminosäuren. Die Codonstellen lassen sich in verschiedene Klassen einteilen: nicht-degenerierte Codonstellen (jeder Nukleotidaustausch ändert die codierte Aminosäure), zweifach degenerierte Codonstellen (zwei Nukleotide an dieser Stelle codieren für dieselbe Aminosäure, wohingegen die anderen beiden Nukleotide für eine andere Aminosäure codieren), dreifach degenerierte Codonstellen (drei Nukleotide an dieser Stelle codieren für dieselbe Aminosäure, wohingegen das vierte Nukleotid für eine andere Aminosäure codiert) und vierfach degenerierte Stellen, an denen die Nukleotide ohne Auswirkung auf die codierte Aminosäure frei austauschbar sind (meist an der dritten Codonstelle, Abb. 9.4, mit freundlicher Genehmigung von Springer Nature). (Modifiziert nach Bresch und Hausmann 1972)

4.2  Neutralitätstheorien der molekularen Evolution

49

man dies, findet man für die oben erwähnten 47 Gene folgende Abschätzungen (Li 1998, Tab. 7.2): 0,78 Substitutionen für nicht-degenerierte Codonstellen, 2,24 Substitutionen für zweifach degenerierte und 3,71 Substitutionen für vierfach degenerierte Stellen, für die keine der Mutationen die codierte Aminosäure ändert, wie es z. B. oft an der dritten Codonstelle der Fall ist (alle diese Angaben sind in Einheiten von 109 Jahren und pro Nukleotid gemessen). Dieses Ergebnis passt zu der vorher gewonnenen Erklärung, nach der die purifizierende Selektion bewirkt, dass die meisten Mutationen, die Aminosäuren verändern, an der Ausbreitung in der Population gehindert werden und schließlich verloren gehen. Substitutionsraten von nuklearen Genen wurden auch zwischen D. melanogaster und D. obscura abgeschätzt (Li 1998, Tab. 7.6). Als Divergenzzeit zwischen diesen beiden Arten wurde 30 Mio. Jahre angenommen. Für nicht-synonyme Stellen wurde dabei eine durchschnittliche Rate von 1,91 (± 1,42) Substitutionen pro Stelle und 109 Jahren gefunden, für synonyme Stellen 15,60 (± 5,50) Substitutionen pro Stelle und 109 Jahren. Das Verhältnis von Mittelwert zu Standardabweichung ist damit für beide Klassen von Nukleotidstellen ähnlich wie bei Säugetieren, aber die durchschnittlichen Raten in Drosophila sind deutlich höher als in Säugetieren. Dies könnte daran liegen, dass die Mutationsraten für beide Tiergruppen verschieden sind. Eine Rolle könnte aber auch die Generationszeit spielen, die in Drosophila viel kürzer als in Säugetieren ist.

4.2 Neutralitätstheorien der molekularen Evolution Unser nächstes Ziel ist es, die möglichen Ursachen für die in Abschn. 4.1 beschriebenen Muster der molekularen Evolution genauer zu untersuchen. Die Grundlage dazu liefern die Neutralitätstheorien der molekularen Evolution. Diese umfassen einerseits die strikt-neutrale Theorie, die auf Motoo Kimura (1968) sowie Jack King und Thomas Jukes (1969) zurückgeht, und andererseits die fast-neutrale Theorie von Tomoko Ohta (1973).

4.2.1 Die strikt-neutrale Theorie der molekularen Evolution Kimura (1968), der Hauptproponent dieser Theorie, war überzeugt, dass die meisten Polymorphismen, die auf der molekularen Ebene in einer Population beobachtet werden können, selektiv neutral sind und dass deshalb ihre Frequenzdynamik vor allem durch genetische Drift bestimmt ist. Die Gründe für seine Überzeugung sind relativ tief in der Theorie der Populationsgenetik verwurzelt (siehe z. B. seine Monographie The Neutral Theory of Molecular Evolution von 1983). Sie sollen deshalb hier nicht vorgestellt werden. Wohl aber sollen die wichtigsten Aussagen der Theorie erörtert und – wenn möglich – abgeleitet werden. Kimura hat seine Theorie auf der Grundlage von Proteinpolymorphismusdaten entwickelt, insbesondere Allozympolymorphismen, die seit den Arbeiten von Hubby und Lewontin (1966) sowie Harris (1966) detektiert ­ werden

50

4  Molekulare Variation und Evolution

konnten (Abschn.  1.2.1). Die strikt-neutrale Theorie kann aber auch auf DNA-Polymorphismen angewandt werden. Insbesondere die Anwendung auf DNA-Sequenzdaten hat seit Mitte der 1980er-Jahre zu rigorosen Verfahren geführt, mit denen diese Theorie getestet werden kann. Wir werden hier zunächst kurz die strikt-neutrale Theorie skizzieren und die Hypothesen vorstellen, die aus ihr ableitbar sind, und später im Abschn. 4.3 die Testverfahren und deren Ergebnisse besprechen. Die strikt-neutrale Theorie umfasst in ihrer einfachsten Form (d. h. ohne räumlich-zeitliche Populationsstruktur und Rekombination) zwei Evolutionskräfte: Mutation und genetische Drift. Ihr liegen das Wright-Fisher-Modell (Abschn. 2.1) zugrunde, um die genetische Drift zu beschreiben, und die infinite alleles- und infinite sites-Modelle für Mutation (Abschn. 2.2). Im Falle von Proteinen (z. B. Allozymen) benutzt man das infinite alleles-Modell mit dem Mutationsparameter u, während für Nukleotide das infinite sites-Modell adäquater ist (mit dem Mutationsparameter µ). Aus diesen Modellen wurden die folgenden Grundaussagen abgeleitet: 1. Falls in einer diploiden Population mit N Individuen (und der effektiven Populationsgröße Ne) ein neutrales Allel mit der Frequenz p0 existiert, dann ist die Wahrscheinlichkeit, dass dieses Allel fixiert wird, gegeben durch p0. Für eine neu entstehende neutrale Mutation, die zunächst als einzelne Kopie vorliegt, ist 1 1 p0 = 2N und somit ihre Fixierungswahrscheinlichkeit 2N . Diese Resultate werden in Übung 4.3 abgeleitet. 2. Die Rate k, mit der neutrale Mutationen in einer Population fixiert werden, ist durch die neutrale Mutationsrate u (Proteine) bzw. µ (Nukleotide) gegeben. Siehe die Ableitung in Übung 4.4. 3. Unter der Bedingung, dass eine neutrale Mutation fixiert wird, beträgt die durchschnittliche Zeit zur Fixierung 4Ne Generationen. Wird eine neutrale Mutation aber nicht fixiert, dauert es durchschnittlich 2 NNe ln(2N) Generationen, bis sie verloren geht. Diese Resultate bedeuten, dass neutrale Mutationen, wenn überhaupt, nur sehr langsam fixiert werden, und wenn sie verloren gehen, dies relativ schnell geschieht. Beide Ergebnisse sind mithilfe der Diffusionstheorie abgeleitet worden, zu der Kimura wesentlich beigetragen hat (Crow und Kimura 1970, Kap. 8). 4. Falls jede neutrale Mutation ein Allel kreiert, das verschieden ist von allen anderen in der Population, dann wird das Gleichgewicht erreicht, wenn die durchschnittliche Anzahl der durch Mutation gewonnenen neuen Allele gleich der Anzahl der durch Drift verloren gegangenen Allele ist. Dieser Prozess wird durch die Mutations-Drift-Hypothese beschrieben, wie Kimura seine Theorie auch genannt hat (Kimura 1983). Im Gleichgewicht ist die Heterozygotie durch Gl. 2.8 im Falle des infinite alleles-Modells (für Proteine) gegeben oder durch Gl. 2.9 im Falle des infinite sites-Modells (für einzelne Nukleotide), wobei N durch Ne ersetzt wird:  ≈ 4Ne u H 1 + 4Ne u (4.3)

4.3  Tests der strikt-neutralen Theorie der molekularen Evolution

51

bzw.

 ≈ θ = 4Ne µ. π

(4.4)

4.2.2 Die fast-neutrale Theorie der molekularen Evolution Gewisse Aspekte der Beobachtungen, die wir in Abschn. 4.1 beschrieben haben, können nicht mit den Ergebnissen der strikt-neutralen Theorie in Einklang gebracht werden. In der strikt-neutralen Theorie gibt es z. B. nur einen Parameter, nämlich die neutrale Mutationsrate, der die Substitutionsraten an nicht-degenerierten, zweifach degenerierten und vierfach degenerierten Stellen charakterisiert. Wie wir oben schon besprochen haben, sind tatsächlich gemessene Raten an nicht-degenerierten, zweifach und vierfach degenerierten Stellen aber sehr unterschiedlich. Es ist biologisch nicht plausibel, dass diese Beobachtung durch unterschiedliche Mutationsraten erklärt werden kann, sondern sie muss durch andere Evolutionskräfte verursacht worden sein. Wie wir im Abschn. 4.1.2, unserer Intuition folgend, angedeutet haben, könnte eine Art von purifizierender (d. h. negativer) Selektion eine mögliche Erklärung darstellen. Ohta (1973) hat auf dieses und andere Probleme der strikt-neutralen Theorie reagiert und die Idee der purifizierenden Selektion formalisiert. Sie postulierte, dass es neben neutralen auch fast-neutrale, leicht schädliche Mutationen gibt. Für ihren Selektionsnachteil gilt: |Ne s| ≤ 1, wobei der Selektionskoeffizient s negativ ist und den Fitnessnachteil einer Mutation gegenüber dem Wildtyp darstellt. In diesem Parameterbereich sehr kleiner Selektionskoeffizienten spielt die genetische Drift nach wie vor eine wichtige Rolle, ähnlich wie in der strikt-neutralen Theorie. Auch wenn der Selektionsnachteil dieser Mutationen sehr gering ist, können mit der fast-neutralen Theorie die zuvor beschriebenen Beobachtungen über die Substitutionsraten erklärt werden, da diese Raten die Divergenz zwischen verschiedenen Spezies messen und sich deshalb über sehr große Zeiträume erstrecken, sodass sich selektive Effekte akkumulieren können. Um Abweichungen von der strikt-neutralen Theorie auf der Populationsebene (also in kürzeren Zeitspannen) zu entdecken, sind aber spezifische Tests notwendig, von denen wir zwei im Abschn. 4.3 skizzieren.

4.3 Tests der strikt-neutralen Theorie der molekularen Evolution 4.3.1 HKA-Test Der erste Test der strikt-neutralen Theorie für DNA-Sequenzdaten wurde von Hudson, Kreitman und Aguadé (1987) vorgeschlagen und wird kurz als „HKA-Test“ bezeichnet. Er basiert auf der Hypothese der strikt-neutralen Theorie, dass die Nukleotiddiversität innerhalb einer Population zur Nukleotiddivergenz zwischen Spezies proportional ist. Kimura hat deshalb Polymorphismen als transiente Phase

4  Molekulare Variation und Evolution

52

der molekularen Evolution bezeichnet. Die Parallelität zwischen Nukleotiddiversität und interspezifischer Divergenz folgt unmittelbar aus den Aussagen 2 und 4 der strikt-neutralen Theorie der molekularen Evolution, die wir in Abschn. 4.2.1 aufgelistet haben: Die Nukleotidheterozygotie im Gleichgewicht ist gegeben durch 4Ne  µ (Gl. 4.4) und die Nukleotidsubstitutionsrate durch die neutrale Mutationsrate µ. Der HKA-Test vergleicht die Anzahl der Polymorphismen an m Loci, wobei m ≥ 2. Diese werden in einer oder zwei Spezies gemessen. Die Stichprobengröße in Spezies 1 sei n1 und in Spezies 2 n2. Die Spezies sind relativ nahe verwandt, sodass die neutralen Mutationsraten in beiden Spezies gleich sind, sie können aber von Locus zu Locus verschieden sein. Die Anzahl der Polymorphismen am Locus i in Spezies 1 sei S1i und in Spezies 2 entsprechend S2i. Ferner wird die Anzahl der Nukleotiddifferenzen am Locus i zwischen einer zufällig gewählten Sequenz aus der Stichprobe von Spezies 1 und einer zufällig gewählten Sequenz von Spezies 2 mit Di bezeichnet. Die Beobachtungen S1i und S2i (i = 1, …, m) betreffen die intraspezifische Variabilität und Di die Divergenz zwischen beiden Spezies. Der HKA-Test hat die Aufgabe festzustellen, ob die Divergenzdaten mit den Polymorphismusdaten konsistent sind (d. h., ob die intraspezifische Nukleotiddiversität an den einzelnen Loci zu deren interspezifischen Divergenz proportional ist). Das dem HKA-Test zugrunde liegende Modell nimmt an, dass alle Loci unabhängig sind (d. h., dass die Rekombinationsraten zwischen ihnen sehr groß sind). Ferner sind beide Spezies (Populationen) panmiktisch und im Gleichgewicht. Ihre effektiven Populationsgrößen sind Ne (für Spezies 1) und Ne  f (für Spezies 2). Beide Spezies stammen von einer anzestralen Spezies ab, die zum Zeitpunkt der Artaufspaltung vor T Generationen auch im Gleichgewicht war und die effektive Populationsgröße Ne(1 + f)/2 hatte. Ähnlich wie beim χ 2-Test wird die folgende Teststatistik verwendet (siehe Gl. 13.36): X2 =

m [S1i − E{S1i }]2 m [S2i − E{S2i }]2 m [Di − E{Di }]2 . + + i=1 i=1 i=1 Var{S1i } Var{S2i } Var{Di }

(4.5)

Dabei sind der Erwartungswert von S1i durch Gl. 2.15 und die Varianz durch Gl. 2.18 gegeben, wobei n durch n1 ersetzt werden muss. Auf ähnliche Weise erhält man den Erwartungswert und die Varianz von S2i. Der Erwartungswert und die Varianz von Di sind   E{Di } = T + (1 + f )/2 θi (4.6) und

 2 Var{Di } = E{Di } + θi (1 + f )/2 .

(4.7)

Die Gl. 4.6 wurde von Li (1977) und die Gl. 4.7 von Gillespie und Langley (1979) abgeleitet.

4.3  Tests der strikt-neutralen Theorie der molekularen Evolution

53

Beim HKA-Test werden die m + 2 Parameter θi, f und T geschätzt, und zwar mithilfe eines Systems von m + 2 Gleichungen, die aus Gl. 4.6 und 4.7 für die Divergenz und den entsprechenden Gl. 2.15 und 2.18 für Polymorphismen abgeleitet werden können (Hudson et al. 1987). Mittels Koaleszenzsimulationen konnte gezeigt werden, dass für genügend große Werte von n1, n2 und T die Statistik X2 näherungsweise wie die Statistik χ 2 mit 2m − 2 Freiheitsgraden verteilt ist. Der HKA-Test ist damit essenziell ein Anpassungstest, d. h. man berechnet (oder schätzt) zuerst die Parameter θi, f und T mithilfe der Beobachtungen und des oben erwähnten Gleichungssystems und setzt dann die Parameterwerte in Gl. 4.5 ein, um X2 zu erhalten. Da X2 näherungsweise wie χ 2 mit 2m − 2 Freiheitsgraden verteilt ist, lässt sich daraus ermitteln, ob die Daten mit der strikt-neutralen Theorie der molekularen Evolution im Einklang sind. Der HKA-Test ist konservativ wegen der Annahmen, dass die Rekombinationsrate innerhalb der untersuchten Loci null, zwischen den Loci aber groß ist. Der HKA-Test wurde zum ersten Mal auf die Polymorphismusdaten der 5’-Region des Adh-Gens (Locus 1), das für die Alkoholdehydrogenase codiert, und die codierende Region des Adh-Gens (Locus 2, nur stille Nukleotidstellen) von D. melanogaster angewandt. Die zweite Spezies war D. sechellia, eine Schwesternart von D. melanogaster. Die Polymorphismusdaten wurden mittels RFLP (restriction fragment length polymorphism)-Analyse (Abschn. 1.2.2) aus einer Stichprobe von 81 Chromosomen gewonnen. Polymorphismusdaten von D. sechellia wurden nicht gesammelt, aber es war von D. melanogaster und D. sechellia jeweils eine DNA-Sequenz vorhanden, sodass die Divergenz abgeschätzt werden konnte. Dabei wurden folgende Ergebnisse erhalten: Locus 1

Locus 2

Anzahl Polymorphismen/Anzahl aller (möglichen) Restriktionsschnittstellen

9/414

8/79

Anzahl Differenzen/Locuslänge

210/4052

18/324

Hier ist bei den D. melanogaster-Loci nur die Anzahl der Nukleotidstellen L angegeben, die von den Enzymen erfasst wurden (d. h. die Schnittstellen der Restriktionsenzyme), während bei der Berechnung der Differenzen zwischen beiden Spezies die gesamte Länge der alignierten Sequenzen verwendet wurde. Beim bloßen Betrachten der Daten fällt auf, dass in der codierenden Region (Locus 2) von Adh mehr als viermal so viele SNPs pro Nukleotidstelle gefunden wurden als in der 5′-Region (Locus 1), während die Anzahl der Differenzen pro Nukleotidstelle an beiden Loci ungefähr gleich ist. Um auf diesen Datensatz den HKA-Test anwenden zu können, muss der zweite Term der Statistik (Gl. 4.5) gestrichen werden, weil keine Polymorphismusdaten von D. sechellia vorlagen. Deswegen wird f = 1 gesetzt, d. h. die anzestrale Spezies hat die gleiche effektive Populationsgröße wie D. melanogaster. Die Anwendung des HKA-Tests hat schließlich zu folgenden Abschätzungen der Parameter geführt: T = 6,73 (in Einheiten von 2Ne von D. melanogaster), θ1 = 0,0066 und θ2 = 0,009. Einsetzen dieser Werte in die

54

4  Molekulare Variation und Evolution

modifizierte Gl. 4.5 ergab X2 = 6,09. Simulationen mit den abgeschätzten Parameterwerten zeigten, dass nur 1,6 % der Simulationsläufe Werte von X2 > 6,09 generierten (für eine χ 2-Verteilung mit einem Freiheitsgrad würde man ungefähr den gleichen Wert erhalten). Die Daten weichen daher von den Aussagen der strikt-neutralen Theorie signifikant ab (P  q˜ (siehe Abb. 13.1), d. h. die Allelfrequenz q nähert sich von kleineren und größeren Werten ausgehend im Laufe der Zeit dem Gleichgewichtspunkt. Dieses Beispiel ist ausführlich im Abschn. 13.1.2 erörtert. Der Heterozygotenvorteil führt im Gegensatz zur gerichteten Selektion, die Fixierung oder Verlust von Polymorphismen und damit Verlust der genetischen Variabilität bewirkt, zum Erhalt der Variation. Es ist vorstellbar, dass viele Polymorphismen in diploiden Populationen durch diesen Mechanismus erhalten werden. Betrachten wir dazu ein einfaches Szenario, von dem man intuitiv erwarten könnte, dass es weitverbreitet ist: Ein neues Allel (sagen wir A2) wurde durch Mutation oder Migration in eine Population eingeführt. Es existiert dann zunächst fast ausschließlich als heterozygoter Genotyp A1A2 und nimmt – weil dieser die höchste Fitness hat – in seiner Frequenz zu, bis der Gleichgewichtszustand erreicht ist. Warum aber gibt es so wenige Beispiele in der Natur, in denen ein Heterozygotenvorteil experimentell nachgewiesen ist? Wir werden uns mit dieser Frage ausführlich in Kap. 9 beschäftigen. Das klassische Beispiel für eine balancierende Selektion aufgrund des Heterozygotenvorteils ist die Sichelzellanämie (Allison 1964). Hierbei entsteht die S-Mutation im β-Globin-Gen (das für die β-Untereinheit von Hämoglobin codiert) durch eine Substitution von Glutaminsäure zu Valin an Position 6 der Polypeptidkette. Dies bewirkt eine Änderung der Hämoglobinstruktur. Aufgrund dieser Veränderung deformieren bei homozygoten Trägern des „Sichelallels“ die Erythrozyten unter Sauerstoffmangel, was zu einer Verstopfung der Blutgefäße und zu Anämie führt. Die Heterozygoten AS, bestehend aus dem Wildtyp A und dem Sichelallel S, produzieren größtenteils normales Hämoglobin und sind besser gegen Malaria geschützt als AA-Homozygote, wohingegen SS-Homozygote

5.2  Wie effizient ist die natürliche Selektion?

63

sehr stark unter der Sichelzellanämie leiden (d. h. der Selektionskoeffizient t ist nahezu 1). Die Ursache des Heterozygotenvorteils wurde gefunden, indem man die Infektionsraten durch Malaria bei AA- und AS-Genotypen in afrikanischen Populationen, in denen Malaria herrscht, verglichen hat. Ferner hat man gefunden, dass in diesen Populationen die Frequenz der AS-Individuen unter Erwachsenen höher ist als unter Kindern, was den Schluss nahelegt, dass AS-Heterozygote eine höhere Überlebenschance als AA-Homozygote haben. Neben dem Heterozygotenvorteil gibt es noch andere Formen von balancierender Selektion. Sie sind dadurch gekennzeichnet, dass die Fitness nicht konstant, wie im Falle des Heterozygotenvorteils, sondern frequenzabhängig ist (z. B. bei Wirt-Parasit-Interaktionen) oder zeitlich und räumlich variieren kann. Wir werden solche Mechanismen der balancierenden Selektion in Kap. 9 kennenlernen.

5.2 Wie effizient ist die natürliche Selektion? In diesem Abschnitt untersuchen wir die Effizienz der natürlichen Selektion, um den Status dieses Prozesses als Evolutionskraft einschätzen zu lernen. Wir wollen wissen, wie schnell die Selektion die genetische Zusammensetzung einer Population verändern kann. Dabei interessieren uns u. a. folgende Fragen: Wie viele Generationen dauert es, bis ein vorteilhaftes Allel von einer niedrigen zu einer hohen Frequenz in einer sehr großen Population unter der Wirkung der gerichteten Selektion ansteigt? Welche Rolle spielt der Dominanzgrad eines vorteilhaften Allels in diploiden Populationen? Um diese Fragen zu beantworten, sind quantitative Betrachtungen nötig, die wir mithilfe der Gleichungen aus Abschn. 5.1 durchführen werden. Schließlich zeigen wir, wie wir daraus die Stärke der Selektion abschätzen können.

5.2.1 Gerichtete Selektion in einer sehr großen Population Wir beginnen mit der Frage: Wie lange braucht die gerichtete Selektion, um ein vorteilhaftes Allel von einer gegebenen Anfangsfrequenz auf eine spezifizierte Endfrequenz zu bringen? Diese Frage taucht z. B. bei der Bekämpfung von Malaria auf, bei der Insektizide gegen den Überträger (die Anopheles-Mücke) eingesetzt werden und Insektizidresistenz eine wichtige Rolle spielen kann, wenn sich ein seltenes Resistenzallel innerhalb kurzer Zeit in einer Population ausbreitet. Wenn die Selektion hinreichend stark ist, können in der Regel stochastische Schwankungen der Allelfrequenz (genetische Drift) vernachlässigt werden, was wir auch im Folgenden annehmen.

5  Selektion und Adaptation

64

Box 5.3 Gerichtete Selektion in einer haploiden Population

Wir betrachten das gleiche Modell wie in Box 5.1, aber drücken die haploiden Fitnesswerte mithilfe des Selektionskoeffizienten s aus, d. h. w1 = 1 + s und w2 = 1, wobei s > 0 (alternativ könnte man w1 = 1 und w2 = 1 − s setzen). Daraus folgt

p′ =

p(1 + s) , w

q′ =

q . w

Wir eliminieren nun den gemeinsamen Nenner w, indem wir den Quotienten u = p/q betrachten. Dies ergibt die Gleichung

u′ = u(1 + s).

(5.12)

Diese Rekurrenzgleichung können wir iterativ lösen (Abschn. 13.1.2) und erhalten ut in Generation t als Funktion von u0 zum Zeitpunkt 0 als

ut = u0 (1 + s)t . Logarithmieren führt zu

ln



ut u0



= tln(1 + s).

Für s ≪ 1 ist ln(1 + s) ≈ s (siehe Gl. 13.3), sodass   ut 1 . t ≈ ln s u0

(5.13)

(5.14)

(5.15)

Für eine haploide Population kann unter diesen Annahmen die Zeit, die für eine bestimmte Änderung der Allelfrequenz nötig ist, explizit ausgerechnet werden, wie Gl. 5.14 in Box 5.3 zeigt. Um die Bedeutung dieser Gleichung zu verstehen, approximieren wir sie für kleine Werte von s, für die s2 ≪ s (d. h. für s  0 gegeben durch (Übung 6.1)

 q≈

u . hs

(6.3)

Bei der Ableitung von Gl. 6.3 wird angenommen, dass die Selektion stark genug ist, sodass homozygote Träger der schädlichen Mutation in der Population extrem selten vorkommen. Die Gl. 6.3 macht intuitiv Sinn, denn im Gleichgewicht ist der Input durch neue Mutationen genau gleich dem Verlust von nachteiligen Varianten durch purifizierende Selektion. Der Input von Mutationen ist charakterisiert durch die Mutationsrate u und der Verlust durch den Selektionskoeffizienten hs gegen die heterozygoten Träger der schädlichen Varianten (die homozygoten Träger liegen in zu geringer Frequenz vor, um zu diesem Gleichgewicht einen Beitrag zu leisten). Wir folgern aus diesem Resultat, dass Allele, die relativ schwach nachteilig sind, häufiger in einer Population im Gleichgewicht vorkommen als relativ stark schädliche Allele.

6.1  Mutation und Selektion

77

Ferner stellen wir fest, dass die Frequenz von Trägern von nachteiligen Allelen im Gleichgewicht als 2 p ≈ 1. Daraus lässt sich die nachp q ≈ 2u hs gegeben ist, da  teilige Mutationsrate u abschätzen, wenn die linke Seite dieser Gleichung und hs bekannt sind. Dazu betrachten wir ein Beispiel in der Übung 6.2. Im Falle von vollständig rezessiven Mutationen (h = 0) hat die Gl. 6.2 auch ein stabiles Gleichgewicht (Übung 6.1), nämlich

 q≈



u . s

(6.4)

6.1.2 Genetische Bürde Der Effekt einer schädlichen Mutation auf ein Individuum ist durch die Reduktion der individuellen Fitness gegeben. In ähnlicher Weise können wir den Effekt einer nachteiligen Mutation auf die gesamte Population quantifizieren. Letzteres erfolgt durch den Begriff der genetischen Bürde (oder genetischen Last), die definiert wird als

L=

wopt − w , wopt

(6.5)

wobei wopt die optimale Fitness ist. Da wir diese gleich 1 gesetzt haben, erhalten wir als genetische Bürde L = 1 − w. Die genetische Bürde kann interpretiert werden als der Anteil von Individuen einer Population, der nicht bis zum Erwachsenenalter überlebt oder sich nicht reproduziert wegen selektiver Unterschiede zwischen den Genotypen der Population. Man bezeichnet das auch als genetischen Tod. Außer genetischen Ursachen gibt es natürlich immer auch umweltbedingte Gründe für den Tod von Individuen oder für Fehlschläge in der Fortpflanzung. Wir betrachten hier zunächst die genetische Bürde, die durch nachteilige Mutationen verursacht und auch als Mutationsbürde bezeichnet wird. Wir erhalten

w = p2 + 2pq(1 − hs) + q2 (1 − s) = 1 − 2pqhs − q2 s. Falls h > 0, ergibt dies näherungsweise w ≈ 1 − 2qhs. Daraus folgt im Gleichgewicht unter Berücksichtigung von Gl. 6.3: (6.6)

L ≈ 2u. Im vollständig rezessiven Fall (h = 0) ist w = unter Berücksichtigung von Gl. 6.4

L ≈ u.

1 − q2 s,

sodass im Gleichgewicht (6.7)

Besonders bemerkenswert an diesen letzten zwei Gleichungen ist, dass in beiden Fällen die Mutationsbürde unabhängig vom Selektionskoeffizienten ist. Dies hat seinen Grund darin, dass der Beitrag einer einzelnen nachteiligen Mutation zur genetischen Bürde bei schwacher Selektion zwar geringer ist als bei starker, aber deren Gleichgewichtsfrequenz bei schwacher Selektion höher als bei starker

78

6  Wechselwirkung der natürlichen Selektion mit Mutation …

Selektion ist. Diese beiden Effekte eliminieren sich gegenseitig. Den Unterschied zwischen Gl. 6.6 und 6.7 behandeln wir in Übung 6.3. Neben der Mutationsbürde gibt es noch weitere Fälle der genetischen Bürde. Sie betreffen die beiden Selektionsprozesse der balancierenden und der gerichteten Selektion, die wir in Abschn. 5.1.2 besprochen haben. Genetische Variation, die durch balancierende Selektion im Gleichgewicht gehalten wird, kreiert die sogenannte Segregationsbürde. Im Falle des Heterozygotenvorteils, wo in jeder Generation auch homozygote Genotypen mit geringerer Fitness entstehen, ist diese durch

L≈

st s+t

(6.8)

gegeben (Übung 6.4). Die Fixierung eines vorteilhaften Allels durch gerichtete Selektion verursacht ebenfalls eine genetische Bürde, die Substitutionsbürde oder der „Preis der natürlichen Selektion“ genannt wird (Haldane 1957). Bei der Fixierung eines vorteilhaften Allels entsteht eine Bürde, da der Substitutionsprozess eine beträchtliche Zeit dauern kann, in der noch Individuen mit dem ursprünglichen Allel vorhanden sind, sodass die mittlere Fitness einer Population niedriger ist als zum Zeitpunkt der Fixierung.

6.2 Migration und Selektion Wir behandeln zunächst die Migration zwischen zwei Subpopulationen mithilfe eines Modells von Moran (1962, Kap. 9), um den Begriff der lokalen Adaptation einzuführen (Abschn. 6.2.1). Anschließend betrachten wir die Migration und Selektion in einem kontinuierlichen Habitat, um das Entstehen von Klinen (d. h. kontinuierlichen Änderungen eines phänotypischen Merkmals oder von Allelfrequenzen entlang eines geographischen Gradienten) zu beschreiben (Abschn. 6.2.2).

6.2.1 Migration und Selektion in diskreten Subpopulationen Box 6.1 Selektion und Migration zwischen zwei Subpopulationen

In Morans (1962) Modell von zwei Subpopulationen, die durch symmetrische Migration verbunden sind, seien die Frequenzen der Allele A1 und A2 in der Population 1 durch p1 und q1 gegeben und in der Population 2 durch p2 und q2. Die Frequenz von A2 nach der Wirkung der Migration in der Population 1 ist dann (1 − m)q1 + mq2, und in der Population 2 erhalten wir (1 − m)q2 + mq1. Die Änderungen der Frequenzen durch Migration sind deshalb:

�q1mig = −�q2mig = m(q2 − q1 ),

(6.9)

6.2  Migration und Selektion

79

wobei mig andeutet, dass die Änderungen durch Migration zustande gekommen sind. Um die Selektion zu beschreiben, nehmen wir an, dass die Population haploid ist. Das Fitnessschema für die beiden Populationen ist dann: A1

A2

Population 1

1

1 − s

Population 2

1 − s

1

Für schwache Selektion erhalten wir im haploiden Fall

q1sel ≈ −sp1 q1 , q2sel ≈ −sp2 q2 .

(6.10)

Die Lösung im Gleichgewicht wird gefunden, indem man die Frequenzänderung q1, die ungefähr gleich der Summe von q1mig in Gl. 6.9 und q1sel in Gl. 6.10 ist, gleich null setzt und dabei berücksichtigt, dass im Gleichgewicht aus Symmetriegründen q2 = p1:

sp1 q1 + m(q1 − p1 ) ≈ 0.

(6.11)

Daraus folgt, dass die Gleichgewichtsfrequenz die Lösung einer quadratischen Gleichung und eine Funktion von m/s ist (Übung 6.5). In der Box 6.1 leiten wir die Allelfrequenz im Gleichgewicht zwischen Migration und Selektion für zwei diskrete Subpopulationen ab, die durch symmetrische Migration mit der Rate m verbunden sind. Wir betrachten ein haploides Modell (Moran 1962). Das Allel A1 ist dabei in der Population 1 vorteilhaft mit dem Selektionskoeffizienten s, während in der Population 2 das Allel A2 einen Vorteil s über A1 hat. Wir finden, dass die lokale Frequenz des Allels, das in einer Population im Selektionsnachteil ist, eine Funktion von m/s ist (Box 6.1):     m 2 1 m  1+2 − 1+4 q1 ≈ . (6.12) 2 s s Im Fall m ≪ s ist die Allelfrequenz gegeben durch

 q1 ≈

m . s

(6.13)

Diese Formel entspricht der Gl. 6.3 im analogen Fall des Mutations-SelektionsGleichgewichts (wobei zu bemerken ist, dass wir hier den haploiden Fall behandelt und im Abschn. 6.1.1 ein diploides Selektionsschema angenommen haben, weshalb in Gl. 6.3 s durch hs ersetzt wird). Die Gl. (6.13) bedeutet, dass

80

6  Wechselwirkung der natürlichen Selektion mit Mutation …

das Allel A1 in der Population 1 weitaus am häufigsten vorkommt, wo es einen Selektionsvorteil gegenüber A2 hat, während das Allel A2 mit Abstand am häufigsten in der Population 2 ist. In anderen Worten: Wir beobachten eine nahezu fixierte Differenz zwischen den Varianten A1 und A2 in beiden Populationen; der Fixierungsindex FST ist deshalb nahezu 1. Dieses Phänomen wird als lokale Adaptation bezeichnet. Ein in der Evolutionsbiologie seit nahezu 100 Jahren bekanntes Beispiel lokaler Adaptation liefert die Rauhaar-Taschenmaus Chaetodipus intermedius, die im Südwesten der USA verbreitet ist. Mäuse, die auf steinigem Grund leben, haben ein helles Fell, während die Mäuse, die auf Lavaböden vorkommen, eher dunkel sind. Die dunkle Form wird durch ein nahezu dominantes Allel des Mc1r-Gens, das für den Melanocortin-1-Rezeptor codiert, kontrolliert. Die Farbe des Fells dient den Mäusen offenbar als Schutz gegen Fressfeinde (Vögel). Hoekstra et al. (2004) schätzten die Migrationsrate m zwischen Populationen auf Lavafeldern und umliegenden Gebieten mithilfe von mitochondrialen Polymorphismusdaten ab und auch die Frequenz des dunklen Mc1r-Allels. Daraus schlossen sie mithilfe eines Ansatzes, der Gl. (6.13) ähnelt, dass der Wert von s, der den Selektionsdruck gegen die helle Morphe auf Lavaböden charakterisiert, zwischen 0,04 und 0,4 liegt, je nach den spezifischen Annahmen ihres Modells. Ein ähnlich prominentes Beispiel für lokale Adaptation ist neuerdings die Hirschmaus (Peromyscus maniculatus). Eine Population dieser Art von den Sand Hills in Nebraska, USA, wurde im letzten Jahrzehnt ausführlich bezüglich genetischer und phänotypischer Variation sowie Fitness untersucht. Diese Tiere haben ein helleres Fell als ihre Artgenossen, die auf dunkleren Böden in der Umgebung leben. Verschiedene genetische Kartierungsmethoden haben gezeigt, dass das Agouti-Gen, das die Produktion des gelben Pigments Pheomelanin bei Vertebraten kontrolliert, eine wichtige Rolle bei den beobachteten Farbunterschieden spielt (Linnen et al. 2009). Ferner wurden in Assoziationsstudien (Abschn. 12.1) Mutationen identifiziert, die spezifische Pigmentmuster hervorrufen, welche die Überlebenschance auf den verschiedenen Böden beeinflussen (Linnen et al. 2013). In einer weiteren Studie von elf Populationen wurde schließlich das Zusammenwirken von Migration, Selektion und genetischer Drift untersucht (Pfeifer et al. 2018). Anhand von genomischen Daten wurden hohe Migrationsraten zwischen den Populationen gefunden, sodass die Genome der elf Populationen größtenteils homogenisiert sind mit Ausnahme des Agouti-Locus. Ferner wurde gezeigt, dass Mutationen am Agouti-Locus stark mit den Pigmentmerkmalen assoziiert sind, die mit der Bodenfarbe korrelieren. Zusammen betrachtet deuten die Daten stark darauf hin, dass der Agouti-Locus eine wichtige Rolle bei der lokalen Anpassung der Mäusepopulationen spielt.

6.2  Migration und Selektion

81

6.2.2 Migration und Selektion in einem kontinuierlichen Habitat Das Zusammenwirken von Migration und Selektion in einem kontinuierlichen Lebensraum kann zur Bildung von Klinen führen. In einer Kline ändern sich phänotypische Merkmale oder Allelfrequenzen kontinuierlich entlang eines geographischen Gradienten, wie z. B. dem Breitengrad. Ein bekanntes Beispiel ist die Körpergröße von Tieren, die mit dem Breitengrad zunimmt (insbesondere bei Warmblütern; Bergmann’sche Regel). Klinen werden oft auch für die Frequenzen von Aminosäurevarianten in metabolischen Enzymen beobachtet. Am besten untersucht ist wahrscheinlich die Kline der elektrophoretischen F- und S-Allele des Adh-Locus in Drosophila melanogaster (Umina et al. 2005). Das F-Allel ist in kalten Zonen häufiger zu finden als das S-Allel, während das S-Allel in warmen Breitengraden überwiegt – und dies auf mehreren Kontinenten und in beiden Hemisphären. Diese Reproduzierbarkeit von Klinen legt nahe, dass der zugrunde liegende Selektionsdruck durch lokale Gegebenheiten ausgelöst wird, wenn auch die Form der Selektion vielleicht nicht genau bestimmt werden kann. Im Falle der Adh-Kline wurde jedoch vermutet, dass balancierende Selektion eine wichtige Rolle spielen könnte (Kap. 4 und 9). In neuerer Zeit haben populationsgenomische Studien gezeigt, dass es außer den oben erwähnten klassischen Beispielen eine große Zahl weiterer Fälle von Klinen gibt. Diese betreffen z. B. Gene, die in wichtigen Signalwegen wie Insulin/TOR und JAK/STAT bei D. melanogaster wirken (Fabian et al. 2012) oder bei der Reparatur von UV-Schäden beteiligt sind (Svetec et al. 2016). Um aus den genomischen Daten Informationen über die zugrunde liegenden Evolutionskräfte zu ziehen, bedarf es aber relativ komplizierter theoretischer Verfahren, die den Rahmen dieses Lehrbuches übersteigen. Schließlich sollen noch Hybridzonen erwähnt werden, die eine spezifische Form von Klinen darstellen. Sie können entstehen, wenn zwei Subpopulationen einer Spezies, die für eine lange Zeit geographisch isoliert waren, wieder zusammentreffen, wie z. B. in der Hybridzone der Rotbauchunke (Bombina bombina) und der Gelbbauchunke (Bombina variegata) (Yanchukov et al. 2006). Die beiden Populationen könnten in der Zeit der Separation eine partielle reproduktive Isolation entwickelt haben, wenn in beiden Populationen verschiedene, teilweise lokal angepasste Allele fixiert worden sind. Dies würde die Fitness von F1-­Hybriden bei einem sekundären Kontakt der Subpopulationen reduzieren. In einem Beispiel einer pflanzlichen Hybridzone zwischen zwei Sonnenblumenarten ist dies eindrucksvoll bestätigt (Abb. 6.1). Diese Fitnessreduktion würde dann einer Ausweitung der Hybridzone in die Verbreitungsgebiete der jeweiligen Subpopulationen entgegenwirken.

6  Wechselwirkung der natürlichen Selektion mit Mutation …

82

Abb. 6.1  Reduzierte Fertilität in Hybriden zwischen zwei Sonnenblumenarten (Helianthus petiolaris und H. annuus). Die x-Achse stellt den Grad dar, zu welchem die Individuen hybrid sind (basierend auf Allozympolymorphismen), während das Fitnessmaß auf der y-Achse die weibliche Fertilität der Pflanzen in der Hybridzone wiedergibt. (Modifiziert nach Rieseberg et al. 1998, Abb. 2, mit freundlicher Genehmigung von John Wiley and Sons, Copyright 1998 The Society for the Study of Evolution)

6.3 Genetische Drift und Selektion In Abschn. 5.2 haben wir gezeigt, dass die gerichtete Selektion in (unendlich) großen Populationen sehr effizient sein kann, wenn sie ohne die anderen Evolutionskräfte wirkt. In diesem Abschnitt fragen wir uns, ob Selektion auch eine potente Evolutionskraft in endlich großen Populationen ist, in denen genetische Drift präsent ist und zu Allelfluktuationen führt. Am besten kann diese Frage beantwortet werden, indem man den Fixierungsprozess von vorteilhaften Mutationen durch gerichtete Selektion analysiert.

6.3.1 Fixierungswahrscheinlichkeit unter der Wirkung von Drift und Selektion Wir betrachten ein vorteilhaftes semidominantes Allel A1 in einer diploiden Population der Größe N und der effektiven Populationsgröße Ne. Wie groß ist die Wahrscheinlichkeit, dass ein solches Allel mit einer Anfangsfrequenz p0 in der Population fixiert wird? Wir nehmen wieder folgendes Selektionsschema an: Genotyp

A1A1

A1A2

A2A2

Relative Fitness

1

1 − 21 s

1 − s

6.3  Genetische Drift und Selektion

83

Dann ist die Fixierungswahrscheinlichkeit von A1 gegeben als (Kimura 1962)

1 − e−2Ne sp0 (6.14) . 1 − e−2Ne s Kimura hat diese Formel mithilfe der Diffusionstheorie abgeleitet. Obwohl diese Theorie in der Populationsgenetik eine wichtige Rolle bei der Behandlung von endlich großen Populationen spielt, würde es den Rahmen dieses Buches sprengen, sie hier darzustellen. Der interessierte Leser sei auf die Bücher von Crow und Kimura (1970, Kap. 8) oder von Ewens (2004, Kap. 4 und 5) verwiesen. Wir verwenden aber die Gl. 6.14, um einige wichtige Resultate über das Zusammenwirken von genetischer Drift und Selektion zu erörtern. Falls das Allel A1 eine 1 neue Mutation ist, gilt p0 = 2N und deshalb Pfix (p0 ) =

Pfix



1 2N



=

1 − e−Ne s/N . 1 − e−2Ne s

(6.15)

Im Falle starker Selektion (Ne s ≫ 1) lässt sich die Gl. 6.15 folgendermaßen vereinfachen. Der Nenner der rechten Seite von Gl. 6.15 ist ungefähr 1. Ferner kann der Zähler durch sNe/N approximiert werden, da Ne im Allgemeinen viel kleiner als N ist (siehe Gl. 13.2). Wir erhalten damit das Resultat, dass die Fixierungswahrscheinlichkeit einer vorteilhaften semidominanten Mutation gegeben ist durch

Pfix



1 2N



≈s

Ne . N

(6.16)

Dieses Resultat ist dem Ergebnis ähnlich, das wir in Abschn. 5.2.2 für eine unendlich große Population erhalten haben, bis auf den Faktor NNe (in Abschn. 5.2.2 haben wir jedoch eine haploide Population analysiert und deshalb 2s statt s als Fixierungswahrscheinlichkeit erhalten). Der Faktor NNe ist 1 für das Wright-Fisher-Modell (Abschn.  2.1.1). Wir schließen aus diesem Ergebnis, dass die Fixierungswahrscheinlichkeiten im Falle starker Selektion (Ne s ≫ 1) für endlich große und unendlich große Populationen (mit Zufallspaarung) identisch sind. Genetische Drift spielt aber eine Rolle für kleinere Werte von Nes: In diesem Parameterbereich kann die Fixierungswahrscheinlichkeit viel kleiner als s sein. Für nachteilige Mutationen (s  0 (siehe Gl. 13.19). Um mithilfe des Kopplungsungleichgewichts Polymorphismusdaten analysieren zu können, wäre es nützlich, den Erwartungswert von r2 als Funktion der zugrunde liegenden Evolutionskräfte genetische Drift und Rekombination (bzw. deren charakteristische Parameter Ne und c) auszudrücken. Dies erweist sich aller dings als schwierig. E r 2 kann aber unter der Annahme, dass die Allelfrequenzen durch das sogenannte standardisierte pA und pB nicht zu nahe bei 0 oder 1 liegen,  Kopplungsungleichgewicht σD2 = E D2 /E{pA (1 − pA )pB (1 − pB )} approximiert werden. Letzteres ist im Gleichgewicht näherungsweise eine Funktion der skalierten Rekombinationsrate ρ = 4Ne c (Ohta und Kimura 1971): 10 + ρ . σD2 ≈ (7.4) 22 + 13ρ + ρ 2

90

7  Rekombination und Selektion

In diese Formel gehen die Parameter Ne und c wiederum nicht separat, sondern als Produkt ein (ähnlich wie in Abschn. 6.3 Ne und s nicht einzeln, sondern als Produkt auftauchen), da auch die Gl. 7.4 mithilfe der Diffusionstheorie gewonnen wurde. Wie verhält sich LD nun in verschiedenen Genomen? Fortschritte in der DNA-Sequenziertechnologie haben dazu geführt, dass das LD in mehreren Spezies ausführlich untersucht wurde, einschließlich Menschen (McVean et al. 2005), Drosophila melanogaster (Ometto et al. 2005) und Caenorhabditis remanei ­(Cutter et  al. 2006). Dabei wurden folgende Beobachtungen gemacht: In sexuellen Spezies mit großer effektiver Populationsgröße, wie D. melanogaster, findet man ein hohes LD für Paare von SNPs, die im Genom sehr nahe beieinander liegen (Abb. 7.2). Dieses kann aber innerhalb von ungefähr 100 Basenpaaren auf weniger als die Hälfte abfallen, wie in der afrikanischen D. melanogaster-Population (Abb. 7.2a). Das Gleiche gilt auch für C. remanei. In sexuellen Spezies mit kleiner effektiver Populationsgröße, wie beim Menschen, hingegen fällt das LD viel langsamer mit der Distanz ab. Ausgedehnte Blöcke von LD von über 100 oder mehr Kilobasen sind beim Menschen nicht selten zu finden (McVean et al. 2005). In Spezies mit hoher Selbstbefruchtungsrate, wie dem Fadenwurm Caenorhabditis elegans, ist das Kopplungsungleichgewicht generell hoch. Das LD in Pflanzen wurde bisher seltener untersucht als in Tieren oder im Menschen. Die meisten Erkenntnisse in pflanzlichen Systemen wurden anhand von Nutzpflanzen (z. B. Mais, Zuckerrohr) oder Modellpflanzen (Arabidopsis thaliana) gewonnen und reflektieren in der Regel die zuvor beschriebenen Befunde. In fremdbefruchteten Pflanzenarten fällt das LD in der Regel relativ schnell mit der Distanz ab (z. B. Mais; Tenaillon et al. 2001), wohingegen sich das LD in selbstbefruchtenden Pflanzenarten wie A. thaliana über größere Distanzen erhält (durchschnittlich über etwa 10 Kilobasen; Kim et al. 2007). Das Kopplungsungleichgewicht in Nutzpflanzen ist teilweise auch stark durch die Historie (d. h. Demographie) der Züchtung geprägt (siehe Übersicht in Flint-Garcia et al. 2003). Neben genetischer Drift und Rekombination wird das LD noch durch weitere Faktoren beeinflusst. Wir betrachten in diesem Abschnitt nur neutrale Evolutionskräfte, wie demographische Prozesse (z. B. Flaschenhalsereignisse) und Migration, die die Variation entlang des gesamten Genoms beeinflussen (Kap. 3). In unserem oben genannten Beispiel können wir auf diese Kräfte durch Vergleich der LD-Daten der europäischen D. melanogaster-Population (Abb. 7.2b) mit der Theorie auf folgende Weise schließen: Wir prüfen, ob die Gl. 7.4 mit den in der Abb. 7.2b gezeigten Mittelwerten von r2 der europäischen Population kompatibel ist. Ometto et al. (2005) haben aufgrund der beobachteten Nukleotiddiversität geschätzt, dass Ne für die europäische Population ungefähr 0,0131/0,0046 = 2,85mal kleiner ist als für die afrikanische Population. Durch Plotten der Gl. 7.4 für Rekombinationsraten, in denen sich die sequenzierten genomischen Fragmente befinden (Ometto et al. 2005, Abb. 1), sieht man, dass die beobachteten Mittelwerte von r2 deutlich über der theoretischen Kurve liegen und das gemessene LD damit zu hoch ist (Übung 7.2). Dies bedeutet, dass ein Modell einer Population im Gleichgewicht (d. h. mit konstanter effektiver Populationsgröße) die Daten nicht

7.2  Wirkung von Rekombination und genetischer Drift auf LD

91

a

b

Abb. 7.2  Abnahme des Kopplungsungleichgewichts (LD) mit der Distanz zwischen Paaren von SNPs in (a) afrikanischen und (b) europäischen D. melanogaster-Populationen. Dabei ist r2 für jedes Paar von SNPs mit gegebenem Abstand (in Basenpaaren) gezeigt. Die gemittelten r2-Werte für zehn Gruppen mit gleicher Anzahl von Paaren von SNPs sind als graue Kreise eingezeichnet. (Modifiziert nach Ometto et al. 2005, Abb. 2, mit freundlicher Genehmigung von Oxford University Press in Vertretung der Society for Molecular Biology and Evolution, Copyright The ­Author 2005)

erklären kann. Ein Populationsflaschenhals in der jüngeren Vergangenheit von D. melanogaster, der bei der Ausdehnung des Habitats von Afrika nach Europa entstanden ist, kommt aber sehr wohl als Ursache für das erhöhte LD in Betracht (Ometto et al. 2005). Die durch das Flaschenhalsereignis verringerte Populationsgröße könnte hier zu einer Reduktion der skalierten Rekombinationsrate geführt haben. Ferner könnte Migration zwischen der anzestralen Population und den Populationen außerhalb Afrikas eine Rolle spielen, da Unterschiede in den Allelfrequenzen zwischen Subpopulationen auch zu LD führen können. Ein ähnlicher Vergleich der LD-Daten der afrikanischen D. melanogaster-Population mit Gl. 7.4 kann nicht durchgeführt werden, da in diesem Fall

92

7  Rekombination und Selektion

die Gl. 7.4 wegen eines ÜberschussesvonPolymorphismen in niedriger Frequenz keine adäquate Approximation von E r 2 darstellt. Durch andere Analysen (einschließlich Tajimas D-Test; Abschn. 3.3) konnte aber gezeigt werden, dass auch in der afrikanischen Population das LD durch demographische Faktoren beeinflusst wurde, und zwar wurde es durch die Populationsexpansion in Afrika relativ zum Gleichgewichtswert erniedrigt (Übung 7.3). Zusammenfassend können wir deshalb feststellen, dass das Kopplungsungleichgewicht (LD) neben der Rekombination und der genetischen Drift auch durch andere neutrale Evolutionskräfte, wie demographische Prozesse und Migration, beeinflusst werden kann.

7.3 Wirkung von Rekombination und Selektion auf LD Als Nächstes analysieren wir das Kopplungsungleichgewicht (LD) unter der Wirkung von Rekombination und Selektion. Gemäß dem Diktum der Populationsgenomik, dass neutrale Evolutionskräfte wie die genetische Drift, demographische Prozesse und die Migration das gesamte Genom betreffen, die Selektion sich aber nur lokal im Genom auswirkt, betrachten wir das LD in diesem Abschnitt bei einzelnen Genen oder genomischen Regionen. Dabei wird das LD zwischen Paaren von SNPs z. B. mithilfe des exakten Tests von Fisher (Abschn. 13.3.2) untersucht und in eine Dreiecksmatrix eingetragen. In Abb. 7.3 sind die Ergebnisse der Adh-Region von Drosophila pseudoobscura, die das Adh-Gen und ein Duplikat von Adh (Adh-Dup) enthält, dargestellt (Schaeffer und Miller 1993). Die schwarzen Quadrate zeigen Paare von SNPs mit signifikantem LD (P  0 (z. B. wenn der neutrale Polymorphismus weiter vom selektierten Locus entfernt ist oder die Rekombinationsrate pro Nukleotid ansteigt), ist auch die Heterozygotie am neutralen Locus größer als null. Und in der Tat, die Heterozygotie wächst mit der Entfernung von der selektierten Stelle kontinuierlich an, bis sie schließlich den neutralen Gleichgewichtswert erreicht (Abb. 8.2).

102

8  Selective sweeps

Abb. 8.2  Neutrale Nukleotidheterozygotie als Funktion der Distanz vom selektierten Locus in Organismen mit Rekombination. Folgendes Szenario wurde mithilfe des Koaleszenzprozesses (Abschn. 2.3) simuliert: Eine vorteilhafte Mutation mit einem Selektionskoeffizienten von 0,001 tritt an der Nukleotidposition 20,0 kb vor 0,01 Ne Generationen auf und gelangt unter der Wirkung von gerichteter Selektion und genetischer Drift zur Fixierung. Dabei wird die neutrale Nukleotidheterozygotie in der Nähe der selektierten Stelle reduziert. Der Grad der Reduktion hängt vom Abstand der neutralen Polymorphismen zum selektierten Locus ab. Die grauen Punkte stellen die durchschnittliche Nukleotidheterozygotie gemittelt über 50.000 Simulationen dar. Die Berechnung der theoretischen Kurve wird in Kim und Stephan (2002) beschrieben. Die Parameterwerte sind: Größe der Stichprobe n = 5, Rekombinationsrate pro Basenpaar pro Generation χ = 10−8, Ne = 200.000 und θ = 0,01. (Modifiziert nach Kim und Stephan 2002, Abb. 2, mit freundlicher Genehmigung der Genetics Society of America über Copyright Clearance Center, Inc.)

Neben der Reduktion der genetischen Variabilität in der Nähe des selektierten Locus hinterlässt der hitchhiking-Prozess noch weitere Signaturen, die in SNPDaten identifiziert werden können: 1. Der hitchhiking-Effekt führt zu einer Verzerrung des Frequenzspektrums SFS (site frequency spectrum; Abschn. 3.3), sodass es – im Vergleich zum strikt-neutralen Spektrum – zu einem Überschuss an niederfrequenten, abgeleiteten Varianten (insbesondere singletons) kommt (Braverman et al. 1995); ferner treten zu viele hochfrequente Varianten auf (Fay und Wu 2000). 2. Hitchhiking verändert auch das Kopplungsungleichgewicht (LD; Abschn. 7.1) in der Nähe einer selektierten Stelle. Das LD zwischen neutralen Polymorphismen auf verschiedenen Seiten des selektierten Locus wächst zunächst stark an, während das vorteilhafte Allel an Frequenz zunimmt, bricht dann aber zusammen, sobald sich das vorteilhafte Allel der Fixierung nähert (Kim und Nielsen 2004; Stephan et al. 2006).

8.2  Nachweis der positiv gerichteten Selektion mithilfe von selective sweeps

103

In einer räumlich strukturierten Population kann außerdem hitchhiking dazu führen, dass FST zwischen lokalen Subpopulationen sehr groß wird, insbesondere wenn ein Allel in einer Subpopulation und ein anderes in einer anderen Subpopulation vorteilhaft ist. Wir haben es dann mit lokaler Adaptation zu tun (Abschn. 6.2). Ein bekanntes Beispiel ist das Laktase-Gen beim Menschen, bei dem unabhängige Mutationen zu hitchhiking-Prozessen in unterschiedlichen Subpopulationen geführt haben (Abschn. 8.3.1). Die Kombination der oben genannten Eigenschaften wird in Testverfahren ausgenutzt, um Signaturen von hitchhiking-Ereignissen in SNP-Daten und damit Spuren positiv gerichteter Selektion im Genom von rekombinierenden Organismen zu finden. Diese Verfahren werden im Abschn. 8.2 behandelt. Zum Schluss dieses Abschnitts noch ein Wort zur Terminologie: Hitchhiking bezieht sich in der neueren populationsgenetischen Literatur nicht nur auf Prozesse, die durch positiv gerichtete Selektion verursacht werden, sondern allgemein auf jede Situation, in der die Änderung von Allelfrequenzen durch Selektion die Frequenzen von neutralen Varianten an gekoppelten Nukleotidstellen im Genom beeinflusst. Dies gilt z. B. auch für balancierende Selektion, wie wir in Kap. 9 feststellen werden. Um im Sprachgebrauch präzise zu sein, bezeichnen wir deshalb im Folgenden hitchhiking, das durch positiv gerichtete Selektion hervorgerufen wird, als selective sweep. Diese Definition geht auf Berry et al. (1991) zurück und wird inzwischen allgemein verwendet.

8.2 Nachweis der positiv gerichteten Selektion mithilfe von selective sweeps Um die Idee der Nachweismethode zu verstehen, nehmen wir zunächst an, dass nur genetische Drift und positiv gerichtete Selektion in einer panmiktischen Population wirken. Unter diesen Annahmen haben Kim und Stephan (2002) einen composite likelihood ratio(CLR)-Test entwickelt, um die Wahrscheinlichkeit zu berechnen, dass eine beobachtete Reduktion der Variabilität und Verzerrung des Frequenzspektrums SFS im Genom durch positiv gerichtete Selektion verursacht worden ist (anstatt durch genetische Drift). Das heißt, dieser Test vergleicht die beobachteten Muster von SNP-Daten unter einem strikt-neutralen Modell mit denen unter einem Modell eines selective sweep (Box 8.1). Durch Maximierung der Wahrscheinlichkeit bezüglich der Modellparameter kann dabei die Nukleotidstelle geschätzt werden, an der die Selektion im Genom aufgetreten ist, und man erhält auch einen Schätzwert für den Selektionskoeffizienten s des vorteilhaften Allels.

8  Selective sweeps

104

Box 8.1 CLR-Test zum Nachweis eines selective sweep

Bei konstanter effektiver Populationsgröße Ne ist die erwartete Anzahl der Nukleotidstellen mit abgeleiteten neutralen Varianten (Mutationen) im Frequenzintervall (p, p + dp) durch

φ0 (p)dp =

θ dp p

(8.1)

gegeben (Ewens 2004; Gl. 9.18), wobei θ die skalierte Nukleotidmutationsrate pro DNA-Sequenzlänge ist. Fay und Wu (2000) haben gezeigt, dass unmittelbar nach der Fixierung des vorteilhaften Allels die Verteilung φ0 (p) zu folgender Verteilung transformiert wird:

φ1 (p) =

 



θ p



0, θ C,

θ C,

falls 0 < p < C falls C ≤ p ≤ 1 − C falls 1 − C < p < 1

(8.2)

Dabei ist C = 1 − εc/s und ε die Frequenz des vorteilhaften Allels am Beginn des hitchhiking-Prozesses (Übung 8.2). Die Wahrscheinlichkeit Pnk, eine Nukleotidstelle mit k abgeleiteten Varianten in einer Stichprobe der Größe n zu beobachten, lässt sich mithilfe der Binomialverteilung (Gl. 13.20) auf folgende Weise berechnen: Pnk

ˆ1   n k p (1 − p)n−k φ(p)dp. = k

(8.3)

0

Die Frequenzverteilung φ(p) ist dabei unter dem neutralen Modell mit konstanter Populationsgröße durch Gl. 8.1 und im selective sweep-Modell durch Gl. 8.2 gegeben. Daraus erhalten wir die Statistik des CLR-Tests als

Λ = ln



 max P(Daten|MSS ) , P(Daten|MNT )

(8.4)

wobei max andeutet, dass die Funktion im Zähler bezüglich der Parameter des selective sweep-Modells (nämlich der selektierten Stelle im Genom und dem Selektionskoeffizienten) maximiert werden muss. MSS bezeichnet das selective sweep-Modell und MNT das strikt-neutrale Modell (mit konstanter Populationsgröße). Die Daten sind als SFS (Abschn. 3.3) gegeben; d. h. das LD ist in diesem Test nicht berücksichtigt. Das statistische Verfahren heißt composite likelihood ratio(CLR)-Test, da die Wahrscheinlichkeiten in Gl. 8.4 durch Multiplikation der Wahrscheinlichkeiten von Gl. 8.3 erhalten werden (Übung 8.3).

8.2  Nachweis der positiv gerichteten Selektion mithilfe von selective sweeps

105

Falls eine Population nicht konstant ist, gelten die obigen Gleichungen nicht. Um die Demographie in diesem Fall zu berücksichtigen und dadurch die Rate falsch-positiver Ergebnisse zu kontrollieren, haben Thornton und Jensen (2007) vorgeschlagen, den Nenner von Gl. 8.4 durch eine Funktion zu ersetzen, die die Demographie adäquat beschreibt. Diese wird im Allgemeinen durch Simulation gewonnen. Falsch-positive Befunde können bei der Suche nach selective sweeps im Genom häufig vorkommen. Dies liegt daran, dass Adaptationen (und damit sweeps) oft nach Umweltänderungen auftreten, wenn Populationen neue Lebensräume besiedeln und dabei eine Reduktion der Populationsgröße (bottleneck) erfahren (Übung 8.4). Dieses Verfahren soll am Beispiel von polyhomeotic (ph), einem in Drosophila melanogaster unter Selektion stehendem Gen (Beisswanger und Stephan 2008), erläutert werden. Die besagte Genregion wurde durch einen Genomscan gefunden (Glinka et al. 2003). In der Nähe des dabei in einer europäischen Population entdeckten Fragments mit niedriger Variabilität wurden in den afrikanischen und europäischen Stichproben weitere Fragmente analysiert. Dabei ergab sich ein Tal der Variabilität (Abb. 8.3), das in der afrikanischen Population viel enger war als in der europäischen, weshalb für die anschließende Feinanalyse zunächst die afrikanische Stichprobe gewählt wurde (Beisswanger und Stephan 2008). Durch Anwendung des CLR-Tests konnte gezeigt werden, dass das Muster der Variabilität in Afrika durch positiv gerichtete Selektion entstanden ist (und nicht durch einen Populationsflaschenhals). Ferner konnte das Ziel der Selektion im großen Intron von ph-p (polyhomeotic-proximal), einem der Duplikate von ph, lokalisiert werden (in einem Bereich, in dem mehrere Transkriptionsfaktor-Bindungsstellen liegen), und auch der Selektionskoeffizient konnte ermittelt werden. Obwohl die ph-Duplikation vor mehr als 25 Mio. Jahren stattgefunden hat, sind ph-p und phd auf der DNA-Sequenz-Ebene sehr ähnlich, jedoch zeigen sie unterschiedliche Expressionsprofile. Offenbar stehen sie also am Anfang ihrer Differenzierung. Starke Selektion sorgt aber – wie im beschriebenen Fall angedeutet – dafür, dass sich ihre Funktionen allmählich auseinanderentwickeln. Der in Box 8.1 beschriebene CLR-Test wurde in den letzten 15 Jahren in verschiedene Richtungen weiterentwickelt, um ein geeignetes Nullmodell zu konstruieren, das die biologischen Gegebenheiten einer Population realistischer beschreibt als das neutrale Modell mit konstanter Populationsgröße. Dieses Nullmodell soll dabei neben der genetischen Drift die Evolutionskräfte enthalten, die auf das gesamte Genom wirken, während positiv gerichtete Selektion nur einzelne Bereiche des Genoms betrifft (Abschn. 3.3). So berücksichtigt der Test SweepFinder die Demographie einer Population, indem die Nullhypothese nicht mithilfe eines Modells beschrieben, sondern mithilfe des empirischen SFS wiedergegeben wird (Nielsen et al. 2005). Dasselbe gilt für das Verfahren von Boitard et al. (2009). Die neueste Version von SweepFinder zieht auch die Tatsache in Betracht, dass die beobachteten Polymorphismen nicht alle neutral sind, sondern teilweise

106

8  Selective sweeps

Abb. 8.3  Nukleotiddiversität π und θW in der polyhomeotic-Region einer afrikanischen Drosophila melanogaster-Population. Die Diversitätswerte wurden durch Sequenzieren von zwölf kurzen Fragmenten von ca. 500 bp gemessen, wobei das mit einem Stern gekennzeichnete Fragment im ursprünglichen Genomscan einer europäischen Population als monomorph gefunden wurde. Für das Fragment um die Koordinate 1,853 sind keine Diversitätswerte angezeigt, da hier die Sequenzierung der afrikanischen Population nicht erfolgreich war. Im grau hinterlegten Bereich sind zwei Eigenschaften eines selective sweep zu sehen: 1) π (gestrichelt) und θW (durchgezogen) sind erniedrigt; 2) die Differenz π − θW, die zu Tajimas D proportional ist (Box 3.1), ist negativ. Das vom CLR-Test geschätzte Ziel der Selektion ist durch einen senkrechten Pfeil angedeutet und liegt im großen Intron von ph-p. Der untere Teil der Abbildung zeigt 18 weitere, in einer nachfolgenden Feinanalyse sequenzierte Fragmente, die Struktur der Gene und die Koordinaten der ph-Region (in kb). Gestrichelte Pfeile deuten die Leserichtung der Gene an. (Modifiziert nach Beisswanger und Stephan 2008, Abb. 1, Copyright (2008) National Academy of Sciences, U.S.A.)

unter schwach purifizierender Selektion stehen – wie im Modell von Ohta (1973) angenommen wird (Abschn. 4.2.2) – oder mit Polymorphismen gekoppelt sind, die unter stark purifizierender Selektion stehen (background selection, Kap. 10) (Huber et al. 2016). Andere selective sweep-Tests haben neben der Reduktion der Variabilität in der Nähe des selektierten Locus und der Verzerrung des SFS auch Kopplungsungleichgewichte zwischen SNPs und fortgeschrittene computergestützte Rechenverfahren integriert, um selektierte Nukleotidstellen besser lokalisieren zu können (Alachiotis et al. 2012; Pavlidis et al. 2010, 2013). Aufgrund dieser Weiterentwicklungen ist es heute nicht mehr nötig, den ursprünglichen CLR-Test durch ein zusätzliches statistisches Verfahren zu stützen, wie es im Beispiel von ph noch angewendet wurde (Beisswanger und Stephan 2008).

8.3  Evidenz für positiv gerichtete Selektion im Genom

107

8.3 Evidenz für positiv gerichtete Selektion im Genom 8.3.1 Genomscans Um positive Selektion mithilfe von selective sweeps zu identifizieren, wird das Genom zunächst systematisch nach Regionen mit reduzierter Variation und nach Verzerrungen des Frequenzspektrums SFS, den wichtigsten Signaturen von sweeps (Abschn. 8.1), abgesucht. Organismen, deren Genome vollständig sequenziert sind, eignen sich besonders gut für solche Genomscans. Beim Menschen z. B. hat das HapMap-Projekt mehrere Millionen SNPs identifiziert (Box 8.2; Frazer et al. 2007). Von D. melanogaster wurden inzwischen auch mehr als 1100 Genome vollständig sequenziert. Die Analyse dieser Datensätze mithilfe des CLRTests (Box 8.1) von Kim und Stephan (2002) und dessen Weiterentwicklungen (insbesondere von SweepFinder; Nielsen et al. 2005) hat zu den im Folgenden beschriebenen Resultaten bei D. melanogaster und dem Menschen, den beiden am besten untersuchten Arten, geführt.

Box 8.2 Das Internationale HapMap-Projekt

Das Internationale HapMap-Projekt war eine Zusammenarbeit von akademischen Wissenschaftlern, nichtkommerziellen biomedizinischen Forschungsgruppen und Unternehmen aus Japan, Großbritannien, Kanada, China, Nigeria und den USA mit dem Ziel, die Haplotypen des menschlichen Genoms zu kartieren. Das Projekt wurde im Jahr 2002 gestartet und lief in drei Phasen bis 2009. In diesen drei Phasen wurden in Zusammenarbeit mit zwei weiteren genomischen Kartierungsprojekten etwa 10 Mio. SNPs in fast 1200 Individuen aus elf verschiedenen Populationen unterschiedlicher Herkunft genotypisiert und die Daten wurden für die Wissenschaft frei zugänglich publiziert (Altshuler et al. 2005; Frazer et al. 2007; The International HapMap Consortium 2010). Obwohl die Probenentnahme anonymisiert erfolgte und die Spender selbst nicht identifiziert werden können, wurde sichergestellt, dass eine geographische Zuordnung der Proben möglich ist. Somit können anhand der Datensätze geographische Muster im menschlichen Genom ausfindig gemacht und neue Erkenntnisse über diverse Parameter, die die Evolution des menschlichen Genoms beschreiben, wie z. B. die Variabilität des menschlichen Genoms, die Rekombinationsrate oder das Ausmaß des Kopplungsungleichgewichts erworben werden. Des Weiteren können mithilfe des Datensatzes Gene identifiziert werden, die in Anpassungsprozesse des Menschen involviert sind. Diese Daten stellen somit eine nützliche Ressource für die evolutionsbiologische und biomedizinische Forschung (z. B. zur Assoziation von SNPs mit Krankheiten oder mit der Reaktion auf Umweltreize) dar. In den letzten Jahren wurde eine Vielzahl ähnlicher Projekte zur Genotypisierung von Populationen des Menschen (z. B. das 1000-Genomes-Project) initiiert und vergleichbare Projekte gibt es auch für diverse Modellorganismen (z. B. 1001-Genomes-Project bei Arabidopsis thaliana oder das Drosophila Genetic Reference Panel bei Drosophila melanogaster).

108

8  Selective sweeps

Drosophila melanogaster Die Taufliege D. melanogaster war einer der ersten Vielzeller, dessen Genom komplett sequenziert wurde. Mithilfe der dadurch ermöglichten SNP-Scans konnte die Anzahl der Ereignisse positiv gerichteter Selektion in afrikanischen und nicht-afrikanischen Populationen geschätzt werden (Li und Stephan 2006). Die Frequenz der adaptiven Ereignisse ist z. B. in Europa viel höher als in Afrika, was sich wahrscheinlich mit der Ausbreitung der Fliegen von Afrika in neue Territorien (temperierte Klimazonen) und die damit verbundenen Anpassungen erklären lässt. Die Zielstellen positiver Selektion im D. melanogaster-Genom können relativ genau lokalisiert werden (siehe Abschn. 8.2 für das Beispiel der ph-Gene). Das bedeutet, dass man die Gene kennt, die bei der Adaptation eine Rolle gespielt haben. Mithilfe dieser Information kann man nun beginnen, einzelne Adaptationen zu analysieren. Bisher wissen wir, dass von den Genen mit bekannter Funktion die weitaus meisten in Signalwegen wirken, die an der Anpassung von D. melanogaster-Populationen an ihre Umwelt beteiligt sind. Dazu gehören Resistenzgene und Gene, die die Körpergröße regulieren oder die Sinneswahrnehmung beeinflussen. Andererseits wurden aber auch Gene identifiziert, die sich nicht einfach in das herkömmliche Bild der ökologischen Anpassung einordnen lassen. Beispielsweise wurde positive Selektion an einem der beiden tandemduplizierten ph-Gene nachgewiesen (Abschn. 8.2). Dieses Gen codiert für einen Transkriptionsrepressor (aus der Polycomb-Gruppe). Man hätte deshalb kaum vermutet, dass dieses Gen bei der Anpassung an die Umwelt eine Rolle spielt. Die Genkarte der annotierten Selektionsereignisse zeigt jedoch, dass es von adaptiver Bedeutung ist. Den Grund dafür kennen wir bisher nicht genau (siehe aber Abschn. 8.3.2 für mögliche Hinweise). Dennoch ist dieses Beispiel besonders interessant, da nachgewiesen werden konnte, dass positive Selektion hier die funktionelle Differenzierung der beiden polyhomeotic-Duplikate vorantreibt und somit zur Entstehung neuer Funktionen beiträgt (Voigt et al. 2015). Mensch Die Analyse der HapMap-Daten (Box 8.2) hat zur Lokalisierung zahlreicher Genregionen im menschlichen Genom geführt, die Evidenz für selective sweeps aufweisen. Zunächst hat man sich dabei auf unvollständige selective sweeps konzentriert, also Selektionsereignisse, in denen das vorteilhafte Allel noch auf dem Weg zur Fixierung ist, sich in der Population aber noch nicht vollständig durchgesetzt hat (Voight et al. 2006). Statt einer Reduktion der Variation führt dies zu einem Muster, in dem die genetische Variation in langen Haplotypen organisiert ist. Das bekannteste Beispiel hierfür ist die Genregion, die das für die Aufspaltung von Milchzucker (Laktose) verantwortliche Laktase-Gen LCT enthält. Bekanntlich ist dieses Gen bei Nordeuropäern und manchen afrikanischen Populationen seit der Verbreitung der Milchwirtschaft unter positiver Selektion, nicht aber in Teilen von anderen Populationen (z. B. in Asien). Das selektierte Allel in der europäischen Population geht dabei auf eine einzelne Punktmutation in der Enhancer-Region des Laktase-Gens zurück, während die Situation in afrikanischen

8.3  Evidenz für positiv gerichtete Selektion im Genom

109

Populationen komplexer ist (Abschn. 8.4). Weitere Klassen von Genen, die man bei der Analyse der HapMap-Daten in den insgesamt 700 identifizierten Genomregionen gefunden hat, umfassen Pigmentgene und Gene, die die Gehirngröße, den Geruchssinn, die Beweglichkeit von Spermien und die Fruchtbarkeit von Eizellen beeinflussen. Ähnliche Klassen von Genen wurden auch gefunden, wenn die menschlichen SNP-Daten auf Stellen im Genom durchsucht wurden, an denen die genetische Variation – ähnlich wie im Falle von D. melanogaster – reduziert ist, was auf eine Fixierung vorteilhafter Allele und damit auf selective sweeps hindeutet (Williamson et al. 2007). Genomscans für positive Selektion wurden auch in natürlichen Populationen von Mäusen durchgeführt (Ihle et al. 2006) und in neuerer Zeit in natürlichen und domestizierten Populationen von Huhn (Rubin et al. 2010), Hund (Axelsson et al. 2013), Schwein (Rubin et al. 2012) und Rind (Qanbari et al. 2014). Die dabei gefundenen Gene stehen zum Teil unter künstlicher Selektion. Dies ist von großem Interesse, da sie im Allgemeinen mit für die Züchtung wichtigen quantitativen Merkmalen assoziiert sind. Wir werden die Beobachtungen, die bezüglich der selective sweeps im Zusammenhang mit Domestikation gemacht wurden, nochmals in Abschn. 11.2.2 aufgreifen. Die Suche nach Genen, die an der Adaptation beteiligt sind, spielt seit einiger Zeit auch in der Pflanzenforschung und -züchtung eine wichtige Rolle. Die selective sweep-Methode kam dabei vor allem bei der Untersuchung von kultiviertem Mais und seiner Vorgängerpflanze Teosinte zum Einsatz. So haben Wright et al. (2005) festgestellt, dass 2–4 % aller untersuchten Gene von gezüchteten Maisund Teosinte-Linien Signaturen von selective sweeps aufweisen. Die meisten gefundenen Gene waren dabei in das Pflanzenwachstum und die Aminosäuresynthese involviert. Obwohl Gene mit Signaturen von selective sweeps in sehr vielen biologischen Funktionsklassen gefunden wurden (auch solchen, deren Bezug zur ökologischen Anpassung nicht sofort ersichtlich ist), zeigen die bisher genauer analysierten Beispiele, dass Resistenzgene die markantesten Signaturen von positiv gerichteter Selektion im Genom aufweisen. Zwei schon seit Längerem bekannte Fälle sind zum einen der sweep in der Region des Dihydrofolatreduktase(dhfr)-Gens des Malariaparasiten Plasmodium falciparum (Nair et al. 2003), der durch eine Resistenzmutation gegen das Antiparasitikum Pyrimethamin ausgelöst wurde. Der sweep des Gens, das in die Resistenz gegen das Insektizid DDT (Dichlordiphenyltrichlorethan) involviert ist, wurde nicht durch eine Punktmutation, sondern eine Transposoninsertion verursacht (Ffrench-Constant et al. 2004; Schlenke und Begun 2004).

8.3.2 Funktionelle Untersuchungen zu selective sweeps Obwohl die Lokalisierung der Zielgene von positiv gerichteter Selektion im Genom relativ genau ist, gibt es bisher nur wenige Untersuchungen zur Funktion der betroffenen Gene und der selektierten Nukleotidänderungen, die zu s­elective

110

8  Selective sweeps

sweeps geführt haben. Jedoch sind die bisherigen Ergebnisse ermutigend. So haben z. B. Voigt et al. (2015) gezeigt, dass ein selective sweep in der Region zwischen ph-p und CG3835 (Abb. 8.3), der in der europäischen D. melanogaster-Population nach ihrer Trennung von der anzestralen afrikanischen Population auftrat, die Thermosensitivität der Genexpression in temperierten Klimazonen reduziert. Dabei überlappt die Zielregion der Selektion mit den Promotoren der Polycomb-regulierten Gene ph-p und CG3835. Dieses Fragment enthält fünf Sequenzvarianten, die stark zwischen den afrikanischen und europäischen Populationen differenziert sind. Die Expression der europäischen ph-p- und CG3835-Allele erwies sich in Reportergenexperimenten in transgenen Fliegen als viel temperaturunempfindlicher als die Expression der afrikanischen Allele, was für Fliegen in kalten Klimazonen einen Selektionsvorteil haben könnte. Ähnliche Experimente wurden im Labor von John Parsch durchgeführt. Kürzlich publizierten er und seine Mitarbeiter eine Studie, in der sie von einem Indel-Polymorphismus in der 3’-UTR (untranslated region) des Metallothionein-Gens MtnA berichten, der mit einer Variation der Genexpression dieses Gens in D. melanogaster-Populationen assoziiert ist (Catalan et al. 2016). Ein abgeleitetes Allel von MtnA mit einer 49-bp-Deletion segregiert in hoher Frequenz in Populationen außerhalb der anzestralen Region von D. melanogaster in Afrika. Die Frequenz dieser Deletion nimmt mit dem Breitengrad nach Norden hin zu und erreicht fast 100 % im Norden Europas. Fliegen mit der Deletion haben eine mehr als vierfach erhöhte MtnA-Expression im Vergleich zu Fliegen mit der anzestralen Sequenz. In Reportergenexperimenten konnte gezeigt werden, dass die Deletion signifikant zu den beobachteten Expressionsunterschieden beiträgt. Ferner wurde in populationsgenetischen Analysen ein selective sweep in der MtnA-Region in den nordeuropäischen Populationen gefunden. Die 3’-UTR-Deletion ist assoziiert mit höherer oxidativer Stresstoleranz. Diese Resultate legen daher nahe, dass die 3’-UTR-Deletion eine Zielregion der natürlichen Selektion wegen ihrer Eigenschaft war, die Genexpression von MtnA in nordeuropäischen Populationen zu erhöhen (möglicherweise wegen eines lokalen Vorteils durch eine erhöhte oxidative Stresstoleranz).

8.4 Soft sweeps Wie in Abschn. 8.1 beschrieben, findet ein selective sweep statt, wenn ein einzelnes vorteilhaftes Allel in der Vergangenheit in einer Population aufgetreten und zur Fixierung gelangt ist. Das Allel könnte durch Mutation neu entstanden oder durch Migration in die Population gelangt sein. Eine weitere Möglichkeit ist, dass es bereits in der Population in sehr niedriger Frequenz vorhanden war (neutral oder in einem Mutations-Selektions-Gleichgewicht) und nach einer Umweltveränderung unter positiven Selektionsdruck geraten ist. Im letzteren Fall eines schon in der Population existierenden Allels, das plötzlich unter positiven Selektionsdruck gerät, ist es auch möglich, dass mehrere vorteilhafte Haplotypen nach einer Umweltänderung in einer Population präsent sind, die sich zwar nicht am

8.4  Soft sweeps

111

s­elektierten Locus unterscheiden, aber an daran gekoppelten Nukleotidstellen, sodass schließlich mehr als ein Haplotyp fixiert wird. Dieser Fall wird als soft sweep bezeichnet (Hermisson und Pennings 2005). Dieser Prozess unterscheidet sich von einem selective sweep, weil bei einem soft sweep das vorteilhafte Allel, das vor der Umweltänderung in einer Population neutral segregierte oder in einem Mutations-Selektions-Gleichgewicht existierte, in mehr als einem Haplotyp vorkommt. Verschiedene Autoren haben versucht, die Frequenz auszurechnen, in der ein Allel vor der Umweltänderung segregieren muss, damit danach ein soft sweep entsteht (Orr und Betancourt 2001; Hermisson und Pennings 2005; Przeworski et al. 2005). Diese Frequenz hängt von mehreren, relativ unbekannten Parametern ab, sodass es schwierig ist, theoretisch die Häufigkeit von soft sweeps in der Natur vorherzusagen. Ein weiteres Problem ist die Detektion eines soft sweep. Es ist nicht trivial, soft sweeps mithilfe des hitchhiking-Effektes aus dem vorhandenen Muster der Nukleotiddiversität herauszulesen, wie es bei selective sweeps möglich ist, denn weder eine Reduktion der Sequenzvariabilität noch eine Verzerrung des Frequenzspektrums SFS sind im Allgemeinen brauchbare Signaturen von soft sweeps. Hinzu kommt, dass die Unterscheidung von selective sweeps und soft sweeps nicht immer eindeutig ist. So wird der Fall von Milchverträglichkeit (Laktasepersistenz) in Menschen manchmal global (d. h. unter Einbeziehung vieler Subpopulationen) als ein Paradebeispiel eines soft sweep betrachtet, während wir ihn in Abschn. 8.3.1 zuvor für die europäische Population (also lokal) als ein Beispiel eines selective sweep beschrieben haben, da es in der europäischen Population nicht mehr als einen Haplotypen gibt, der mit der selektierten SNP-Variante C/T13910 im Intron 13 des MCM6-Gens (das im Genom oberhalb des Laktase-Gens LCT liegt) assoziiert ist. In mehreren afrikanischen Populationen sind jedoch vier weitere vorteilhafte SNP-Varianten innerhalb einer Distanz von ca. 100 Basenpaaren von der SNP-Variante C/T-13910 entfernt gefunden worden (Tishkoff et al. 2007). In manchen dieser Populationen scheinen lokal mehr als ein Haplotyp mit einer Kombination dieser vier SNP-Varianten (aber nicht C/T-13910) mit der Laktasepersistenz assoziiert zu sein (Hermisson und Pennings 2017), was der obigen Definition eines soft sweep entspräche.

Übungen

8.1 Warum ist die Nukleotidheterozygotie in der unmittelbaren Nähe des selektierten Locus nicht null? Siehe Abb. 8.3. 8.2 Zeichnen Sie die Verteilungen φ0 (p) und φ1 (p) der Gl. 8.1 und 8.2 für folgende Parameterwerte: θ = 1,0, ε = 10−6, c = 0,0002 und s = 0,01, wobei θ sich auf ein DNA-Fragment bezieht (z. B. 100 bp). Interpretieren Sie den Unterschied zwischen beiden Verteilungen. 8.3 Berechnen Sie die Wahrscheinlichkeit der Daten unter dem neutralen Modell. Die Daten sind folgendermaßen gegeben, wobei angenommen wird, dass es an einer Nukleotidstelle nur zwei Varianten gibt:

112

8  Selective sweeps

Sequenz 1: 00010 00000 Sequenz 2: 11010 00011 Sequenz 3: 10100 11111 Sequenz 4: 00001 00001 Variante 1 ist dabei abgeleitet. 8.4 Warum sind selective sweeps von Populationsflaschenhalsereignissen (bottlenecks) schwer zu unterscheiden? 8.5  Im grau hinterlegten Bereich von Abb.  8.3 sind zwei Eigenschaften eines selective sweep zu sehen: 1) π (gestrichelt) und θW ­(durchgezogen) sind erniedrigt, und 2) die Differenz π − θW, die zu Tajimas D proportional ist (Box 3.1), ist negativ. Warum ist 2) eine Signatur eines selective sweep?

Literatur Alachiotis N, Stamatakis A, Pavlidis P (2012) OmegaPlus: a scalable tool for rapid detection of selective sweeps in whole-genome datasets. Bioinformatics 28:2274–2275 Altshuler D, Donnelly P, The International HapMap Consortium (2005) A haplotype map of the human genome. Nature 437:1299–1320 Axelsson E, Ratnakumar A, Arendt M-L, Maqbool K, Webster MT et al (2013) The genomic signature of dog domestication reveals adaptation to a starch-rich diet. Nature 495:360–364 Beisswanger S, Stephan W (2008) Evidence that strong positive selection drives neofunctionalization in the tandemly duplicated polyhomeotic genes in Drosophila. Proc Natl Acad Sci USA 105:5447–5452 Berry AJ, Ajioka JW, Kreitman M (1991) Lack of polymorphism on the Drosophila fourth chromosome resulting from selection. Genetics 129:1111–1117 Boitard S, Schlötterer C, Futschik A (2009) Detecting selective sweeps: a new approach based on hidden markov models. Genetics 181:1567–1578 Braverman JM, Hudson RR, Kaplan NL, Langley CH, Stephan W (1995) The hitchhiking effect on the site frequency-spectrum of DNA polymorphisms. Genetics 140:783–796 Catalan A, Glaser-Schmitt A, Argyridou E, Duchen P, Parsch J (2016) An indel polymorphism in the MtnA 3‘ untranslated region is associated with gene expression variation and local adaptation in Drosophila melanogaster. PLoS Genet 12:e1005987 Ewens WJ (2004) Mathematical population genetics – I. Theoretical introduction. 2. Aufl. Springer, Heidelberg Fay JC, Wu CI (2000) Hitchhiking under positive Darwinian selection. Genetics 155:1405–1413 Ffrench-Constant RH, Daborn PJ, Le Goff G (2004) The genetics and genomics of insecticide resistance. Trends Genet 20:163–170 Frazer KA, Ballinger DG, Cox DR, Hinds DA, Stuve LL et al (2007) A second generation human haplotype map of over 3.1 million SNPs. Nature 449:851–861 Glinka S, Ometto L, Mousset S, Stephan W, De Lorenzo D (2003) Demography and natural selection have shaped genetic variation in Drosophila melanogaster: a multi-locus approach. Genetics 165:1269–1278 Hermisson J, Pennings PS (2005) Soft sweeps: molecular population genetics of adaptation from standing genetic variation. Genetics 169:2335–2352

Literatur

113

Hermisson J, Pennings PS (2017) Soft sweeps and beyond: understanding the patterns and probabilities of selection footprints under rapid adaptation. Methods Ecol Evol 8:700–716 Huber CD, DeGiorgio M, Hellmann I, Nielsen R (2016) Detecting recent selective sweeps while controlling for mutation rate and background selection. Mol Ecol 25:142–156 Ihle S, Ravaoarimanana I, Thomas M, Tautz D (2006) An analysis of signatures of selective sweeps in natural populations of the house mouse. Mol Biol Evol 23:790–797 Kim Y, Nielsen R (2004) Linkage disequilibrium as a signature of selective sweeps. Genetics 167:1513–1524 Kim Y, Stephan W (2002) Detecting a local signature of genetic hitchhiking along a recombining chromosome. Genetics 160:765–777 Li H, Stephan W (2006) Inferring the demographic history and rate of adaptive substitution in Drosophila. PLoS Genet 2:e166 Maynard Smith J, Haigh J (1974) The hitch-hiking effect of a favourable gene. Genet Res 23:23–35 Nair S, Williams JT, Brockman A, Paiphun L, Mayxay M et al (2003) A selective sweep driven by pyrimethamine treatment in southeast asian malaria parasites. Mol Biol Evol 20:1526–1536 Nielsen R, Williamson S, Kim Y, Hubisz MJ, Clark AG et al (2005) Genomic scans for selective sweeps using SNP data. Genome Res 15:1566–1575 Ohta T (1973) Slightly deleterious mutant substitutions in evolution. Nature 246:96–98 Orr HA, Betancourt AJ (2001) Haldane’s sieve and adaptation from the standing genetic variation. Genetics 157:875–884 Pavlidis P, Jensen JD, Stephan W (2010) Searching for footprints of positive selection in whole-genome SNP data from nonequilibrium populations. Genetics 185:907–922 Pavlidis P, Zivkovic D, Stamatakis A, Alachiotis N (2013) SweeD: likelihood-based detection of selective sweeps in thousands of genomes. Mol Biol Evol 30:2224–2234 Przeworski M, Coop G, Wall JD (2005) The signature of positive selection on standing genetic variation. Evolution 59:2312–2323 Qanbari S, Pausch H, Jansen S, Somel T, Strom TM et al (2014) Classic selective sweeps revealed by massive sequencing in cattle. PLoS Genet 10:e1004148 Rubin CJ, Zody MC, Eriksson J, Meadows JRS, Sherwood E et al (2010) Whole-genome resequencing reveals loci under selection during chicken domestication. Nature 464:587–591 Rubin CJ, Megens HJ, Martinez Barrio A, Maqpool K, Sayyab S et al (2012) Strong signatures of selection in the domestic pig genome. Proc Natl Acad Sci USA 109:19529–19536 Schlenke TA, Begun DJ (2004) Strong selective sweep associated with a transposon insertion in Drosophila simulans. Proc Natl Acad Sci USA 101:1626–1631 Stephan W, Song YS, Langley CH (2006) The hitchhiking effect on linkage disequilibrium between linked neutral loci. Genetics 172:2647–2663 The International HapMap Consortium (2010) Integrating common and rare genetic variation in diverse human populations. Nature 467:52–58 Thornton KR, Jensen JD (2007) Controlling the false-positive rate in multilocus genome scans for selection. Genetics 175:737–750 Tishkoff SA, Reed FA, Ranciaro A, Voight BF, Babbitt CC et al (2007) Convergent adaptation of human lactase persistence in Africa and Europe. Nat Genet 39:31–40 Voight BF, Kudaravalli S, Wen XQ, Pritchard JK (2006) A map of recent positive selection in the human genome. PLoS Biol 4:446–458 Voigt S, Laurent S, Litovchenko M, Stephan W (2015) Positive selection at the polyhomeotic locus led to decreased thermosensitivity of gene expression in temperate Drosophila melanogaster. Genetics 200:591–599 Williamson SH, Hubisz MJ, Clark AG, Payseur BA, Bustamante CD et al (2007) Localizing recent adaptive evolution in the human genome. PLoS Genet 3:e90 Wright SI, Bi IV, Schroeder SG, Yamasaki M, Doebley JF et al (2005) The effects of artificial selection on the maize genome. Science 308:1310–1314

9

Balancierende Selektion

Wir haben in den Kap. 5, 7 und 8 gesehen, dass Selektion meist in einer Reduktion der Diversität am selektierten Locus sowie an gekoppelten Genregionen resultiert. Wie jedoch bereits in Kap. 5 erwähnt, kann eine Form der Selektion, nämlich die balancierende Selektion, die Erhaltung adaptiver Varianten eines Merkmals fördern und somit zum Erhalt von Diversität am selektierten Locus führen. Dabei können verschiedene vorteilhafte Varianten über lange Zeiträume hinweg erhalten werden und sogar über Artbildungsprozesse hinaus bestehen, wie z. B. Allele des Haupthistokompatibilitätskomplex(MHC)-Locus von Vertebraten (Takahata und Nei 1990), des Selbstinkompatibilitäts(S)-Locus bei Pflanzen (Uyenoyama 1997) oder der MAT(mating type)-Loci, die den Paarungstyp in Pilzen bestimmen (van Diepen et al. 2013). Wie bereits in Abschn. 5.1.2.2 erwähnt, können verschiedene Formen der balancierenden Selektion zur Ausprägung von stabilen Polymorphismen führen. Einen wichtigen Stellenwert nehmen dabei Szenarien ein, in denen Fitnesswerte von Allelen aus verschiedenen Gründen variieren. Ein Sonderfall der balancierenden Selektion ist der Heterozygotenvorteil, bei dem trotz konstanter Fitnesswerte Polymorphismen erhalten bleiben. All diese Prozesse werden wir im Abschn. 9.1 genauer kennenlernen. Des Weiteren werden wir uns mit dem Einfluss von balancierender Selektion auf benachbarte Regionen des Genoms befassen (Abschn. 9.2) und besprechen, wie man diese Form der Selektion nachweisen kann (Abschn. 9.3).

9.1 Formen der balancierenden Selektion 9.1.1 Heterozygotenvorteil Die einfachste Form von balancierender Selektion ist der sogenannte Heterozygotenvorteil (oder auch Überdominanz genannt). Bei diesem haben heterozygote Individuen einen Fitnessvorteil gegenüber homozygoten Trägern der beiden Allele. © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 W. Stephan und A. C. Hörger, Molekulare Populationsgenetik, https://doi.org/10.1007/978-3-662-59428-5_9

115

116

9  Balancierende Selektion

Dies hat zur Folge, dass beide Allele in der Population erhalten bleiben und sich auf bestimmte Gleichgewichtsfrequenzen einpendeln. Da hier die Selektionskoeffizienten s und t die Fitness der beiden homozygoten Genotypen reduzieren und w1 = 1 − ps und w2 = 1 − qt gilt, ist die Population im Gleichgewicht, wenn ps = qt (Abschn. 5.1.2.2). Die Gleichgewichtsfrequenzen werden berechnet als  p = s +t t und  q = s +s t (Gl. 5.11) und hängen somit von den Fitnessverhältnissen der beiden Homozygoten ab. Wie ausführlich in Abschn. 13.1.2 beschrieben, ist q und q < 0 dieser Gleichgewichtspolymorphismus stabil, da gilt q > 0 für q <  q und sich somit im Laufe der Zeit sowohl niedrigere als auch höhere Allelfür q >  frequenzen q dem Gleichgewichtspunkt annähern. Ein klassisches Beispiel für den Heterozygotenvorteil ist die Sichelzellanämie, bei der heterozygote Träger eine erhöhte Resistenz gegenüber Malaria aufweisen und gleichzeitig nur eine schwache Form der Sichelzellanämie ausprägen. Diese wurde in Abschn. 5.1.2.2 bereits ausführlich besprochen (siehe auch Übung 9.1). Ähnlich wie beim S-Allel der Sichelzellanämie scheint der Heterozygotenvorteil oft bei der Evolution von Immungenen eine Rolle zu spielen. Beispiele sind das MEFV-Gen beim Menschen, das eine Rolle bei der Ausprägung des familiären Mittelmeerfiebers spielt (Fumagalli et al. 2009), oder der MHC-Locus in Vertebraten (siehe z. B. Garrigan und Hedrick 2003; Savage und Zamudio 2011). Es sind aber auch andere Beispiele von Überdominanz bekannt, wie z. B. der balancierte Polymorphismus der Horngröße beim männlichen Soayschaf (Ovis aries), der hauptsächlich durch einen einzigen Locus, vermutlich das RXFP2-Gen, kontrolliert wird (Johnston et al. 2013). Homozygote Träger (Ho+Ho+) weisen größere Hörner und damit verbunden einen erhöhten Reproduktionserfolg auf, während ihre Überlebensraten gering sind (Abb. 9.1). Im Gegensatz dazu tragen HoPHoP-Homozygote zu einem gewissen Prozentsatz kleinere Hörner und weisen eine geringere Reproduktionsrate bei erhöhter Überlebenswahrscheinlichkeit auf. In diesem Beispiel resultiert der Trade-off zwischen Reproduktionserfolg und Überlebenswahrscheinlichkeit in einer erhöhten Fitness für heterozygote Ho+HoP-Individuen. Weitere Beispiele für Überdominanz, die durch Trade-offs bewirkt wird, sind in diversen Übersichtsartikeln beschrieben (z. B. Hedrick 2012; Llaurens et al. 2017) und umfassen beispielsweise Variationen in der Entwicklungszeit bei der marinen Assel Paracerceis sculpta (Shuster und Wade 1991) oder den Farbpolymorphismus der Blütenfarbe bei der alpinen Orchideenart Gymnadenia rhellicani, dem Gewöhnlichen Kohlröschen (Kellenberger et al. 2019). Trotz einiger gut dokumentierter Beispiele, scheint Überdominanz aber eher selten vorzukommen. Dies hat verschiedene Gründe. Generell gilt, dass der Heterozygotenvorteil nicht für den gesamten Erhalt der genetischen Variation in natürlichen Populationen verantwortlich sein kann, denn diese Form der Selektion kann nicht zu stabilen Polymorphismen in haploiden oder asexuellen Populationen führen. In diploiden Organismen kann Überdominanz nur dann zu balancierten Polymorphismen von mehr als zwei Allelen an einem Locus führen, wenn alle Heterozygoten ungefähr die gleiche Fitness haben und zugleich allen Homozygoten überlegen sind. Obwohl dies unwahrscheinlich ist, sind in natürlichen Populationen häufig stabile Polymorphismen mehrerer Allele präsent, was

9.1  Formen der balancierenden Selektion

117

a

b

Abb. 9.1  Balancierter Polymorphismus der Horngröße beim Soayschaf (Ovis aries). (a) Beispiele für typische Hornphänotypen bei männlichen Individuen. Männchen, die am RXFP2-Locus den homozygoten Ho+Ho+-Genotypen ausprägen, entwickeln große Hörner, während die Hörner von HoPHoP-Individuen kleiner und zu einem gewissen Prozentsatz verkümmert sind. Heterozygote Ho+HoP-Individuen prägen Hörner in mittlerer Größe aus. (b) Jährliche Fitnessvariation der verschiedenen RXFP2-Genotypen. Die Effektgrößen wurden relativ zur geschätzten Effektgröße der Ho+Ho+-Homozygoten modelliert (* p  1.

9.3  Nachweis von balancierender Selektion im Genom

129

Abschließend möchten wir an dieser Stelle noch einige weitere genomische Prozesse erwähnen, auf die balancierende Selektion einen Einfluss hat. So ist bekannt, dass viele Merkmale, die unter balancierender Selektion stehen, von der koordinierten Aktivität mehrerer Gene abhängig sind (Kap. 11). Da gut aufeinander abgestimmte Allelkombinationen kontinuierlich durch Rekombination getrennt werden können, scheint es für polygene Merkmale, die unter balancierender Selektion stehen, von Vorteil zu sein, wenn die Wahrscheinlichkeit der Rekombination durch die zugrunde liegende genomische Architektur eingeschränkt wird. So kann die Rekombinationsrate zwischen funktional gekoppelten Loci beispielsweise durch deren enge physikalische Kopplung reduziert werden. In der Tat hat sich herausgestellt, dass viele polygene balancierte Merkmale ko-segregieren und eine sogenannte Supergenarchitektur aufweisen (z. B. das Schalenmuster der Hain-Bänderschnecke Cepaea nemoralis, Richards et al. 2013). Die Integrität derartiger Genregionen ist ein Ergebnis chromosomaler Inversionen, die die Wahrscheinlichkeit der Rekombination zwischen den einzelnen Loci weiter reduzieren (z. B. Schwander et al. 2014). Des Weiteren kann die Entstehung divergenter Allele, die dann durch balancierende Selektion erhalten bleiben, durch Genduplikation gefördert werden. Genduplikationen entstehen natürlicherweise als Fehler bei der DNA-Replikation. Es ist mittlerweile bekannt, dass viele Loci, die unter balancierender Selektion stehen, große Genfamilien bilden. Diese evolvieren größtenteils durch sogenannte birth-and-death-Prozesse (Entstehung einer neuen Genkopie durch Duplikation und Verlust von Kopien durch genetische Drift oder durch Änderung des adaptiven Wertes) sehr dynamisch und stellen somit ein beachtliches Reservoir an genetischer Variation dar. Diese Art der genomischen Architektur findet man oft bei Genen, die in Erkennungsmechanismen der Immunabwehr involviert sind, wie beispielsweise der MHC-Locus bei Säugern (Piertney und Oliver 2006) oder Resistenzgen-Loci bei Pflanzen (Hörger et al. 2012).

9.3 Nachweis von balancierender Selektion im Genom Auch wenn es einige ausführlich untersuchte Fallstudien über balancierte Polymorphismen gibt (Abschn. 9.1), ist die Bedeutung von balancierender Selektion als evolutionärer Prozess bislang unklar. Obwohl diese Form der Selektion zum Erhalt von Polymorphismen über lange Zeiträume hinweg führen kann und daher distinkte Muster in einem Genom hinterlassen sollte, wurde sie bislang wesentlich seltener in Genomen nachgewiesen als vergleichsweise positiv gerichtete Selektion (Abschn. 8.3). Einer der Gründe dafür ist sicherlich, dass sich die Signaturen, die balancierende Selektion in einem Genom hinterlässt, je nach Form der Selektion unterscheiden. Theoretisch sollte balancierende Selektion mit folgenden Beobachtungen einhergehen: 1) Überzahl an Heterozygoten, 2) Überzahl an nicht-synonymen Polymorphismen, 3) Überzahl an häufigen Polymorphismen, 4) erhöhte Diversität an gekoppelten neutralen Stellen, 5) Fehlen

130

9  Balancierende Selektion

räumlicher Populationsstruktur am selektierten Locus und/oder 6) Trans-SpeziesPolymorphismen (Fijarczyk und Babik 2015). Dabei kann aber die Auswirkung der Selektion je nach ihrer Form variieren. So würde man eine Abschwächung der räumlichen Populationsstruktur am selektierten Locus im Falle von negativ frequenzabhängiger Selektion erwarten (Weedall und Conway 2010); das Gegenteil aber wäre der Fall, wenn der balancierte Polymorphismus durch räumlich variierende Selektion bedingt ist. In ähnlicher Weise resultiert lang andauernde balancierende Selektion nur dann in Trans-Spezies-Polymorphismen, wenn der gleiche Selektionsdruck auch nach dem Artbildungsprozess in beiden Schwesterarten gleichermaßen fortbesteht. Ferner kann die geringe Anzahl von balancierten Polymorphismen, die durch einen Heterozygotenvorteil zustande kommen, möglicherweise durch die Wechselwirkung der Selektion mit genetischer Drift erklärt werden (Box 9.1). Auch der Einfluss von balancierender Selektion auf die neutrale Variation in der unmittelbaren Nachbarschaft führt nicht immer zur erwarteten Erhöhung der Diversität bzw. zu einer einheitlichen Haplotypenstruktur, da die assoziierte neutrale Variation nicht zwingend über die gleichen Zeiträume erhalten werden muss, also zwischendurch verloren gehen kann oder erst viel später entsteht (Charlesworth 2006). Aus diesen Gründen ist es sinnvoll, balancierende Selektion mittels einer Kombination mehrerer Methoden nachzuweisen. Oft werden dazu die Häufigkeit von Polymorphismen und auch deren Verteilung mit den Erwartungswerten unter neutralen Bedingungen verglichen. Im Abschn. 4.3 haben wir bereits einige Tests kennengelernt, die bei einem derartigen Nachweis hilfreich sein können. Mittels Hudson-Kreitman-Aguadé(HKA)-Test kann man beispielsweise messen, ob ein Datensatz an einem bestimmten Locus unterschiedliche Proportionen von intraspezifischen Polymorphismen im Verhältnis zu interspezifischer Divergenz aufweist. Unter balancierender Selektion würde man einen Überschuss an Polymorphismen (vor allem auch an stillen Stellen) erwarten, da die Fixierungswahrscheinlichkeit eines Allels reduziert wird (Hudson et al. 1987; Hudson und Kaplan 1988). Ein Vergleich mit einem oder mehreren weiteren Loci kann dann Information darüber liefern, ob dies vielleicht durch eine Veränderung der Mutationsrate verursacht wurde. Dieses Verfahren wurde, wie in Abschn. 4.3.1 erläutert, zuerst auf den Adh-Locus in Drosophila angewendet. Auch der McDonald-Kreitman(MK)-Test, den wir ebenfalls bereits in Abschn. 4.3.2 kennengelernt haben, kann verwendet werden, um Regionen unter balancierender Selektion zu detektieren. Dieser Test vergleicht das Verhältnis von Polymorphismen und fixierten Differenzen zwischen zwei Arten an synonymen und nicht-synonymen Stellen innerhalb von codierenden Regionen (McDonald und Kreitman 1991). Unter balancierender Selektion erwarten wir in der Regel einen Überschuss an Polymorphismen an nicht-synonymen Stellen, da hier verschiedene Aminosäurevarianten in mittleren Frequenzen erhalten bleiben. Die balancierende Selektion bewirkt einen Überschuss an Polymorphismen, die in mittlerer bis hoher Frequenz in der Population vorkommen, also auf den inneren Ästen des Koaleszenten auftreten und eine Verzerrung der Genealogie zur Folge haben. Diese Abweichung vom neutralen Modell kann durch Tajimas D-Statistik (Tajima 1989), die wir in der Box 3.1 kennengelernt haben, getestet werden. Unter

9.3  Nachweis von balancierender Selektion im Genom

131

balancierender Selektion erwarten wir aufgrund des erhöhten Vorkommens mittelbis hochfrequenter Polymorphismen größere Schätzwerte für π als für θW, sodass Werte von D positiv sind. Das zugrunde liegende Frequenzspektrum sollte dann auch eine klare Reduktion von Polymorphismen mit niedriger Frequenz zugunsten der Polymorphismen mit mittlerer Frequenz aufweisen. Positive Werte von Tajimas D reflektieren eine Unterteilung der Population in zwei oder mehr Haplotypen und können auch durch demographische Prozesse wie Populationsstruktur und Flaschenhalsereignisse verursacht werden. Aus diesem Grund ist es absolut notwendig, einen Vergleich mehrerer Loci durchzuführen, um das Wirken von balancierender Selektion von anderen evolutionären Einflüssen zu unterscheiden. Eine ähnliche Teststatistik, die hier verwendet werden kann, ist die Methode nach Fu und Li (1993), die die Anzahl an tatsächlich vorkommenden singletons mit den Erwartungen unter den Standardannahmen des Koaleszenzprozesses vergleicht. Des Weiteren kann man sich auch das erhöhte Kopplungsungleichgewicht zwischen den unter balancierender Selektion stehenden Allelen und den daran gekoppelten neutralen Polymorphismen zunutze machen. Da die Anzahl stark verschiedener Haplotypen unter balancierender Selektion geringer sein sollte als unter neutralen Bedingungen, kann man testen, ob die Anzahl an verschiedenen Haplotypen im untersuchten Datensatz mit den Annahmen der Zufallspaarung übereinstimmt (Watterson 1978; Depaulis und Veuille 1998; Wall 1999; Depaulis et al. 2001). Wie bereits in Abschn. 9.2 erwähnt, führt balancierende Selektion in der Regel auch zu Abweichungen von der unter neutralen Bedingungen zu erwartenden Populationsdifferenzierung. Ein unter negativ frequenzabhängiger Selektion stehender Locus wird folglich in einer strukturierten Population weniger differenziert sein als ein neutral evolvierender Locus, während ein Locus, dessen Fitness räumliche Variation aufweist, eher stärker differenziert sein wird. Unterschiede in der Differenzierung zwischen Subpopulationen können mittels der FST-Statistik (Abschn. 3.1.2) sichtbar gemacht werden. Auch hier sollten wieder mehrere Loci miteinander verglichen werden, um selektive von demographischen Prozessen unterscheiden zu können. Alle diese Tests können in Kombination durchgeführt sehr aussagekräftige Ergebnisse liefern und das Wirken von balancierender Selektion an einzelnen vorher ausgewählten Kandidaten-Loci aufzeigen. Dies wurde bereits in einer Vielzahl von Studien durchgeführt, allerdings lag hierbei immer ein Hauptaugenmerk auf Genen, die bekannterweise als Kandidatengene für die balancierende Selektion galten (z. B. der MHC-Locus in Säugern, der S-Locus in Pflanzen oder Resistenzgene in Pflanzen). Durch die Verfügbarkeit von genomweiten Daten ist es jedoch notwendig geworden, Methoden zu entwickeln, die es erlauben, relativ schnell und unkompliziert balancierende Selektion ohne Vorwissen in entsprechend großen Datensätzen zu identifizieren. In diesem Sinne wurden neue Methoden durch Integration mehrerer der zuvor beschriebenen Statistiken entwickelt, mit deren Hilfe man ganze Genome nach Regionen, die potenziell unter balancierender Selektion stehen, absuchen kann. Ein Beispiel dafür ist der NCD(Non-central Deviation)-Test, der überprüft, inwieweit das gemessene Frequenzspektrum von den Erwartungen

9  Balancierende Selektion

132

unter balancierender Selektion abweicht, und dabei Polymorphismen mit Differenzen zu einer Außengruppe vergleicht (Bitarello et al. 2018). Mithilfe dieses Tests wurden kürzlich in einem genomweiten Datensatz afrikanischer und europäischer Menschenpopulationen mehrere Loci identifiziert, die potenziell unter balancierender Selektion stehen.

Übungen

9.1 Im Falle des klassischen Beispiels eines Heterozygotenvorteils, der Sichelzellanämie, produzieren die Heterozygoten AS, bestehend aus dem Wildtyp A und dem „Sichelallel“ S, größtenteils normales Hämoglobin und sind besser gegen Malaria geschützt als AA-Homozygote. SS-Homozygote leiden hingegen sehr stark unter der Sichelzellanämie. Die relative Fitness der Genotypen ist daher: Genotyp

AA

AS

SS

Relative Fitness

1−s

1

1−t

für s > 0 und t = 1. Berechnen Sie den Selektionskoeffizienten s für eine Population, für die im Gleichgewicht für das S-Allel eine Frequenz von 12 % gefunden wurde. 9.2  Erklären Sie, wie es durch Kopplung zweier (oder mehrerer) nicht-überdominanter Loci zum falsch-positiven Nachweis eines Heterozygotenvorteils kommen kann. 9.3 Leiten Sie die Gl. 9.2 mithilfe folgender Schritte ab: a) In Analogie zu Gl. 5.2 und 5.3 gelten für den Fall zeitlich variabler Selektion die Gleichungen

pv+1 = pv

w1,v wv

und qv+1 = qv



w2,v , wv

wobei der Index v die Generationen durchnummeriert. b) Eliminieren Sie  aus diesen Gleichungen wv, indem Sie den Quotienten uv = qv pv betrachten. Zeigen Sie, dass gilt: w2,v uv+1 = uv w1,v

für v ≥ 0. Durch Iteration folgt daraus die Gl. 9.2.

Literatur

133

Literatur Bitarello BD, de Filippo C, Teixeira JC, Schmidt JM, Kleinert P et al (2018) Signatures of longterm balancing selection in human genomes. Genome Biol Evol 10:939–955 Brown JKM, Tellier A (2011) Plant-parasite coevolution: bridging the gap between genetics and ecology. Annu Rev Phytopathol 49:345–367 Charlesworth D (2006) Balancing selection and its effects on sequences in nearby genome regions. PLoS Genet 2:e64 Charlesworth B, Charlesworth D (2012) Elements of evolutionary genetics, 2. Aufl. Roberts and Company, Greenwood Village Charlesworth D, Charlesworth B (1975) Theoretical genetics of Batesian mimicry I. Single-locus models. J Theor Biol 55:283–303 Charlesworth B, Nordborg M, Charlesworth D (1997) The effects of local selection, balanced polymorphism and background selection on equilibrium patterns of genetic diversity in subdivided populations. Genet Res Camb 70:155–174 Clarke B (1962) Natural selection in mixed populations of two polymorphic snails. Heredity 17:319–345 Clarke BC (1979) Evolution of genetic diversity. Proc R Soc B-Biol Sci 205:453–474 Dawkins R, Krebs JR (1979) Arms races between and within species. Proc R Soc B-Biol Sci 205:489–511 Débarre F, Lenormand T, Gandon S (2009) Evolutionary epidemiology of drug-resistance in space. PLoS Comput Biol 5:e1000337 Depaulis F, Veuille M (1998) Neutrality tests based on the distribution of haplotypes under an infinite-site model. Mol Biol Evol 15:1788–1790 Depaulis F, Mousset S, Veuille M (2001) Haplotype tests using coalescent simulations conditional on the number of segregating sites. Mol Biol Evol 18:1136–1138 Ewens WJ, Thomson G (1970) Heterozygote selective advantage. Ann Hum Genet 33:365–376 Felsenstein J (1976) Theoretical population genetics of variable selection and migration. Annu Rev Genet 10:253–280 Fijarczyk A, Babik W (2015) Detecting balancing selection in genomes: limits and prospects. Mol Ecol 24:3529–3545 Fitzpatrick MJ, Feder E, Rowe L, Sokolowski MB (2007) Maintaining a behaviour polymorphism by frequency-dependent selection on a single gene. Nature 447:210–212 Fu YX, Li WH (1993) Statistical tests of neutrality of mutations. Genetics 133:693–709 Fumagalli M, Cagliani R, Pozzoli U, Riva S, Comi GP et al (2009) Widespread balancing selection and pathogen-driven selection at blood group antigen genes. Genome Res 19:199–212 Garrigan D, Hedrick PW (2003) Perspective: detecting adaptive molecular polymorphism: lessons from the MHC. Evolution 57:1707–1722 Gigord LDB, Macnair MR, Smithson A (2001) Negative frequency-dependent selection maintains a dramatic flower color polymorphism in the rewardless orchid Dactylorhiza sambucina (L.) Soò. Proc Natl Acad Sci USA 98:6253–6255 Gloag R, Ding G, Christie JR, Buchmann G, Beekman M et al (2016) An invasive social insect overcomes genetic load at the sex locus. Nat Ecol Evol 1:11 Haldane JBS (1924) A mathematical theory of natural and artificial selection. Part I. Trans Camb Phil Soc 23:19–41 Haldane JBS, Jayakar SD (1963) Polymorphism due to selection depending on composition of a population. J Genet 58:318–323 Hedrick PW (2012) What is the evidence for heterozygote advantage selection? Trends Ecol Evol 27:698–704 Hörger AC, Ilyas M, Stephan W, Tellier A, van der Hoorn RAL et al (2012) Balancing selection at the tomato RCR3 guardee gene family maintains variation in strength of pathogen defense. PLoS Genet 8:e1002813

134

9  Balancierende Selektion

Hori M (1993) Frequency-dependent natural selection in the handedness of scale-eating cichlid fish. Science 260:216–219 Hudson RR, Kaplan NL (1988) The coalescent process in models with selection and recombination. Genetics 120:831–840 Hudson RR, Kreitman M, Aguadé M (1987) A test of neutral molecular evolution based on nucleotide data. Genetics 116:153–159 Innan H, Nordborg M (2003) The extent of linkage disequilibrium and haplotype sharing around a polymorphic site. Genetics 165:437–444 Johnston SE, Gratten J, Berenos C, Pilkington JG, Clutton-Brock TH et al (2013) Life history trade-offs at a single locus maintain sexually selected genetic variation. Nature 502:93–95 Joron M, Mallet JLB (1998) Diversity in mimicry: paradox or paradigm? Trends Ecol Evol 13:461–466 Kamau E, Charlesworth B, Charlesworth D (2007) Linkage disequilibrium and recombination rate estimates in the self-incompatibility region of Arabidopsis lyrata. Genetics 176:2357– 2369 Kellenberger RT, Byers KJRP, De Brito Francisco RM, Staedler YM, LaFountain AM et al (2019) Emergence of a floral colour polymorphism by pollinator-mediated overdominance. Nat Commun 10:63 Leale AM, Kassen R (2018) The emergence, maintenance, and demise of diversity in a spatially variable antibiotic regime. Evol Lett 2:134–143 Levene H (1953) Genetic equilibrium when more than one ecological niche is available. Am Nat 87:331–333 Llaurens V, Billiard S, Leducq JB, Castric V, Klein EK et al (2008) Does frequency-dependent selection with complex dominance interactions accurately predict allelic frequencies at the self-incompatibility locus in Arabidopsis halleri? Evolution 62:2545–2557 Llaurens V, Whibley A, Joron M (2017) Genetic architecture and balancing selection: the life and death of differentiated variants. Mol Ecol 26:2430–2448 May RM, Anderson RM (1983) Epidemiology and genetics in the coevolution of parasites and hosts. Proc R Soc Lond B 219:281–313 Maynard Smith J (1966) Sympatric speciation. Am Nat 100:637–650 McDonald JH, Kreitman M (1991) Adaptive protein evolution at the Adh locus in Drosophila. Nature 351:652–654 Nagylaki T (1975) Polymorphisms in cyclically-varying environments. Heredity 35:67–74 Nei M, Li W-H (1973) Linkage disequilibrium in subdivided populations. Genetics 75:213–219 Nei M, Roychoudhury AK (1973) Probability of fixation and mean fixation time of an overdominant mutation. Genetics 74:371–380 Nosil P, Egan SP, Funk DJ (2008) Heterogeneous genomic differentiation between walking-stick ecotypes: „isolation by adaptation“ and multiple roles for divergent selection. Evolution 62:316–336 Piertney SB, Oliver MK (2006) The evolutionary ecology of the major histocompatibility complex. Heredity 96:7–21 Polley SD, Conway DJ (2001) Strong diversifying selection on domains of the Plasmodium falciparum apical membrane antigen 1 gene. Genetics 158:1505–1512 Prout T (1968) Sufficient conditions for multiple niche polymorphism. Am Nat 102:493–496 Richards PM, Liu MM, Lowe N, Davey JW, Blaxter ML et al (2013) RAD-Seq derived markers flank the shell colour and banding loci of the Cepaea nemoralis supergene. Mol Ecol 22:3077–3089 Richman AD, Uyenoyama MK, Kohn JR (1996) Allelic diversity and gene genealogy at the self-incompatibility locus in the Solanaceae. Science 273:1212–1216 Savage AE, Zamudio KR (2011) MHC genotypes associate with resistance to a frog-killing fungus. Proc Natl Acad Sci USA 108:16705–16710 Schemske DW, Bierzychudek P (2001) Perspective: evolution of flower color in the desert annual Linanthus parryae: Wright revisited. Evolution 55:1269–1282

Literatur

135

Schwander T, Libbrecht R, Keller L (2014) Supergenes and complex phenotypes. Curr Biol 24:R288–R294 Shiina T, Ota M, Shimizu S, Katsuyama Y, Hashimoto N et al (2006) Rapid evolution of major histocompatibility complex class I genes in primates generates new disease alleles in humans via hitchhiking diversity. Genetics 173:1555–1570 Shuster SM, Wade MJ (1991) Equal mating success among male reproductive strategies in a marine isopod. Nature 350:608–610 Stahl EA, Dwyer G, Mauricio R, Kreitman M, Bergelson J (1999) Dynamics of disease resistance polymorphism at the Rpm1 locus of Arabidopsis. Nature 400:667–671 Sutton JT, Nakagawa S, Robertson BC, Jamieson IG (2011) Disentangling the roles of ­natural selection and genetic drift in shaping variation at MHC immunity genes. Mol Ecol 20:4408–4420 Tajima F (1989) Statistical method for testing the neutral mutation hypothesis by DNA polymorphism. Genetics 123:585–595 Takahata N, Nei M (1990) Allelic genealogy under overdominant and frequency-dependent selection and polymorphism of major histocompatibility complex loci. Genetics 124:967–978 Tellier A, Moreno-Gamez S, Stephan W (2014) Speed of adaptation and genomic footprints of host-parasite coevolution under arms race and trench warfare dynamics. Evolution 68:2211–2224 Thorneycroft HB (1975) A cytogenetic study of the white-throated sparrow, Zonotrichia albicollis (Gmelin). Evolution 29:611–621 Turelli M, Schemske DW, Bierzychudek P (2001) Stable two-allele polymorphisms maintained by fluctuating fitnesses and seed banks: protecting the blues in Linanthus parryae. Evolution 55:1283–1298 Turner JRG (1987) The evolutionary dynamics of Batesian and Muellerian mimicry: similarities and differences. Ecol Entomol 12:81–95 Uyenoyama MK (1997) Genealogical structure among alleles regulating self-incompatibility in natural populations of flowering plants. Genetics 147:1389–1400 van Diepen LT, Olson A, Ihrmark K, Stenlid J, James TY (2013) Extensive trans-specific polymorphism at the mating type locus of the root decay fungus Heterobasidion. Mol Biol Evol 30:2286–2301 Vekemans X, Slatkin M (1994) Gene and allelic genealogies at a gametophytic self-incompatibility locus. Genetics 137:1157–1165 Vekemans X, Schierup MH, Christiansen FB (1998) Mate availability and fecundity selection in multi-allelic self-incompatibility systems in plants. Evolution 52:19–29 Wall JD (1999) Recombination and the power of statistical tests of neutrality. Genet Res 74:65–79 Watterson GA (1978) An analysis of multi-allelic data. Genetics 88:171–179 Weedall GD, Conway DJ (2010) Detecting signatures of balancing selection to identify targets of anti-parasite immunity. Trends Parasitol 26:363–369 Wilson DS, Turelli M (1986) Stable underdominance and the evolutionary invasion of empty niches. Am Nat 127:835–850 Wright S (1939) The distribution of self-sterility alleles in populations. Genetics 24:538–552

Background selection

10

Hitchhiking-Effekte werden nicht nur von starker, positiv gerichteter Selektion verursacht, wie in Kap. 8 beschrieben, sondern können auch die Folge von starker, negativ gerichteter (purifizierender) Selektion sein. Im letzteren Fall führt dies zur Eliminierung von nachteiligen Allelen, wobei aber rekurrente schädliche Mutationen dafür sorgen, dass solche Allele in natürlichen Populationen in einem Mutations-Selektions-Gleichgewicht erhalten bleiben (Abschn. 6.1.1) und somit einen wichtigen Evolutionsfaktor darstellen. In diesem Kapitel werden wir zunächst den hitchhiking-Effekt dieser stark nachteiligen Allele auf gekoppelte neutrale DNA-Varianten im Genom analysieren. Dieser wurde zuerst von Brian Charlesworth und Kollegen (Charlesworth et al. 1993) beschrieben und als background selection bezeichnet (Abschn. 10.1). Wir werden zeigen, dass background selection die neutrale genetische Variabilität reduzieren kann, wenn sehr viele nachteilige Allele an diesem Prozess beteiligt sind. Im Abschn. 10.2 werden wir die beiden Mechanismen background selection und selective sweeps, die beide zu einer Verringerung der genetischen Variation an gekoppelten Nukleotidstellen führen, vergleichen. Schließlich werden wir im Abschn. 10.3 die hitchhiking-Effekte von vorteilhaften und nachteiligen Allelen, d. h. selective sweeps und background selection, gemeinsam behandeln und zur Analyse von Polymorphismusdaten von Drosophila melanogaster verwenden.

10.1 Theorie der background selection Nachteilige Allele, die in einer Population vorhanden sind, werden durch negativ gerichtete Selektion eliminiert, sodass sich ein Gleichgewicht zwischen Mutation (oder auch Migration) und Selektion einstellt (Abschn. 6.1.1). Bei diesem Eliminationsprozess werden zugleich neutrale und schwach selektionierte Varianten aus der Population entfernt, die an schädliche Allele gekoppelt sind. Dadurch reduziert sich die Frequenz der neutralen Varianten und die Variabilität im Genom © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 W. Stephan und A. C. Hörger, Molekulare Populationsgenetik, https://doi.org/10.1007/978-3-662-59428-5_10

137

138

10  Background selection

nimmt ab (Abb. 10.1). Dieser Prozess mag ineffizient sein (im Vergleich zu einem selective sweep, bei dem ein einzelnes vorteilhaftes Allel zu einer Reduktion der Variabilität führt). Der Grund dafür ist, dass einzelne schädliche Allele in einer Population niedrige Frequenzen haben und daher die neutralen Varianten nur sukzessive in kleinen Portionen eliminiert werden können. Aber der kumulative Effekt aller nachteiligen Allele in einer Genomregion kann einen großen Effekt haben, insbesondere wenn die Rekombinationsrate niedrig und die Rate der schädlichen Mutationen hoch ist. Solche Bedingungen sind bei vielen Organismen gegeben, da die Rekombinationsrate z. B. in der Nähe der Centromere in der Regel sehr niedrig ist und auch in diesen Chromosomenregionen funktionale Gene vorkommen, an denen nachteilige Mutationen auftreten können (Abschn. 10.2). Bei der Modellierung von background selection nimmt man im Allgemeinen an, dass die Selektion gegen ein schädliches Allel hinreichend stark verglichen mit der genetischen Drift ist, sodass der Absolutbetrag des Selektionskoeffizienten s viel größer als die inverse effektive Populationsgröße 1/Ne ist und damit nicht in den Gültigkeitsbereich von Ohtas fast-neutraler Theorie der molekularen Evolution (Abschn. 4.2.2) fällt; d. h. die genetische Drift ist viel schwächer als die Selektion (Charlesworth et al. 1993). Unter dieser Annahme ist die Gleichgewichtsfrequenz der nachteiligen Allele an autosomalen Loci aufgrund der u deterministischen Theorie (Gl. 6.3) als hs gegeben, wenn es keine Fitnesswechselwirkungen zwischen Allelen an verschiedenen Loci gibt. Im Fall, dass die schädlichen Allele durch Mutation entstehen, was wir im Folgenden voraussetzen, ist u die Mutationsrate vom Wildtyp A1 zur Mutante A2.

Abb. 10.1  Background selection. Gezeigt ist die Eliminierung von nachteiligen Allelen, die in der linken Stichprobe zu sehen sind (schwarze Kreise). Bei dieser Eliminierung werden gleichzeitig neutrale Varianten (weiße Kreise) aus der Population entfernt, wenn sie an schädliche Allele gekoppelt sind. Dadurch bleiben von den ursprünglich zehn verschiedenen Haplotypen sieben verschiedene übrig: Die Haplotypen 3, 5 und 10 wurden entfernt und drei zuvor von schädlichen Allelen freie Haplotypen (1, 4 und 7) sind aufgrund von Drift in ihrer Frequenz verdoppelt worden (die Pfeile zwischen den linken und rechten Stichproben deuten an, welche Haplotypen verdoppelt wurden). Insgesamt wurde dadurch die Variabilität in der Population erniedrigt

10.1  Theorie der background selection

139

Es gilt nun zunächst, den hitchhiking-Effekt eines einzelnen schädlichen Allels im Mutations-Selektions-Gleichgewicht auf einen neutralen Polymorphismus zu berechnen, wobei die Rekombinationsrate zwischen den selektierten und neutralen Loci c beträgt. Die Ableitung dieses zentralen Ergebnisses des background selection-Modells wollen wir hier aber nicht durchführen. Wir verweisen auf die Box 8.6 in Charlesworth und Charlesworth (2012) und erörtern hier nur die wichtigsten Ideen dieser Rechnung. Das Problem ist ähnlich wie im Falle von balancierender Selektion (Heterozygotenvorteil), in dem sich die selektierten Allele in einem stabilen Gleichgewicht befinden (Abschn. 9.1.1 und 9.2). Das bedeutet, dass wir die Gameten in zwei Klassen einteilen können, wobei die eine das Wildtyp-Allel A1 und die andere das schädliche Allel A2 trägt. Wir haben damit einen strukturierten Koaleszenzprozess vorliegen (Abschn. 9.2), mit dessen Hilfe wir den hitchhiking-Vorgang der neutralen Varianten beschreiben können. Die Zeit E{T }, die es durchschnittlich dauert, bis zwei Allele am neutralen Locus einen gemeinsamen Vorfahren finden, ist dann folgendermaßen gegeben:     u   hs E{T } = 2Ne 1 − � �2 , (10.1)   1 + c(1−hs)  hs

wobei 2Ne den Erwartungswert der Koaleszenzzeit im Wright-Fisher-Modell (Abschn. 2.3.1), d. h. ohne background selection, darstellt (Übung 2.5). u Da die Gleichgewichtsfrequenz eines nachteiligen Allels durch hs gegeben und damit im Allgemeinen sehr niedrig ist, ist der Effekt eines einzelnen selektierten Locus (siehe geschweifte Klammer) sehr klein. Die Gl. 10.1 lässt sich aber auf beliebig viele selektierte Loci unter der Annahme erweitern, dass die nachteiligen Varianten unabhängig in der Population verteilt sind (d. h., dass zwischen ihnen kein LD besteht). Der Erwartungswert der Koaleszenzzeit für ein Paar von neutralen Allelen ist in diesem Fall ein Produkt von Termen über alle selektierten Loci, wobei jeder dieser Terme die Form des Ausdrucks in der geschweiften Klammer von Gl. 10.1 hat und die Mutationsrate u, hs und c locus-abhängig sind; d. h. ui ist die Mutationsrate vom Wildtyp zur nachteiliegen Mutante am selektierten Locus i, ti = hisi ist der selektive Nachteil von Heterozygoten am Locus i und ci die Rekombinationsrate zwischen Locus i und dem neutralen Locus. Mit diesen Definitionen lässt sich der Effekt der background selection auf die Koaleszenzzeit für ein Paar von Allelen am betrachteten neutralen Locus folgendermaßen angeben:   ui m ti E{T } ≈ 2Ne 1− , (10.2) i=1 [1 + ci (1 − ti )/ti ]2 wobei m die Anzahl der selektierten Loci ist. Da der Erwartungswert der Koaleszenzzeit proportional zur neutralen Nukleotiddiversität ist (Abschn. 2.3), lässt sich mithilfe von Gl. 10.2 der Effekt von background selection auf die Variation am neutralen Locus vorhersagen.

140

10  Background selection

Wie oben schon angedeutet, besagt das Ergebnis, dass background selection die Variabilität am neutralen Locus erniedrigt. Die Effekte von background selection und selective sweeps sind somit qualitativ ähnlich. Es mag daher erstaunlich sein, dass zwei so unterschiedliche Evolutionskräfte wie negativ und positiv gerichtete Selektion ähnliche hitchhiking-Effekte erzeugen. Zudem ist interessant, dass die Reduktion der genetischen Variabilität auf zwei unterschiedlichen Wegen zustande kommt. Im Falle von background selection wird sie durch viele nachteilige Allele und bei einem selective sweep durch ein einzelnes vorteilhaftes Allel verursacht. Wir werden nun im Abschn. 10.2 genauer untersuchen, wie weit diese Ähnlichkeit tatsächlich geht.

10.2 Vergleich von background selection und selective sweeps Um diese beiden Mechanismen, die zu einer Reduktion der genetischen Variabilität in einer Population führen, zu vergleichen, müssen wir uns zunächst über die Eigenschaften von background selection Klarheit verschaffen (die wichtigsten Signaturen von selective sweeps haben wir bereits im Abschn. 8.1 kennengelernt). Da wir (der Einfachheit halber) angenommen haben, dass die Selektion gegen ein schädliches Allel sehr stark ist, sodass Ne sh >> 1, ist die Frequenz des schädlichen Allels zeitlich konstant und nicht der genetischen Drift unterworfen. Das bedeutet, dass die Klasse der neutralen Allele, die nicht an schädliche Allele gekoppelt sind und deshalb nicht mit diesen eliminiert werden, eine konstante effektive Populationsgröße NeB hat, für die das Wright-Fisher-Modell gilt und B durch das Produkt auf der rechten Seite von Gl. 10.2 gegeben ist und somit die Reduktion der Variabilität durch background selection angibt. Dies hat zur Folge, dass das Frequenzspektrum SFS dieser mutationsfreien Allele durch Gl. 3.5 bestimmt ist. Deshalb führt background selection im Falle sehr starker Selektion nicht zu einem Überschuss von niederfrequenten, abgeleiteten Varianten (z. B. singletons) und auch nicht zu einem Überschuss von hochfrequenten, abgeleiteten Varianten – Eigenschaften, die beide charakteristisch für selective sweeps sind (Abschn. 8.1). Nimmt jedoch der Parameter Ne sh niedrigere Werte an, so sind auch bei background selection Abweichungen vom strikt-neutralen Frequenzspektrum zu finden, wie z. B. ein Überschuss von niederfrequenten, abgeleiteten Varianten (Gordo et al. 2002). Das bedeutet, dass selective sweeps und background selection im Bereich niederfrequenter, abgeleiteter Varianten schwer zu unterscheiden sind. Im hochfrequenten Bereich ist eine Unterscheidung zwar theoretisch möglich, jedoch gibt es in diesem Bereich relativ wenige Polymorphismen (im Vergleich zum niederfrequenten Bereich), sodass die Trennschärfe (power) von statistischen Tests im Allgemeinen klein ist. Ferner spielt dabei eine Rolle, dass es im hochfrequenten Bereich bei der Datenanalyse auch Probleme bezüglich der Unterscheidung zwischen anzestralen und abgeleiteten Varianten geben kann (Hernandez et al. 2007).

10.2  Vergleich von background selection und selective sweeps

141

In den 1990er-Jahren, nachdem die background selection-Hypothese publiziert worden war (Charlesworth et al. 1993), gab es zahlreiche Versuche, diese Hypothese vom Modell eines selective sweep zu unterscheiden (Stephan 2010). Das übergeordnete Ziel, das mit diesen Bemühungen verfolgt wurde, war, die relativen Beiträge von negativer (purifizierender) und positiver Selektion zum Evolutionsprozess zu quantifizieren. Diese Versuche haben sich auf genomische Regionen mit niedrigen bis sehr niedrigen Rekombinationsraten konzentriert und wurden hauptsächlich an Drosophila durchgeführt. Dies war darin begründet, dass der hitchhiking-Effekt in diesen Genombereichen besonders stark und die Verteilung der Rekombinationsrate in Drosophila bestens bekannt ist. In D. melanogaster ist die Rate von C ­ rossing-over im Heterochromatin, das die Centromere umgibt, nahezu null (Smith et al. 2007). Im daran anschließenden Euchromatin ist Crossing-over auch stark unterdrückt, und das Gleiche gilt für die Telomerregion des X-Chromosoms (Lindsley und Sandler 1977). In Genomregionen mit niedriger Rekombinationsrate ist es sinnvoll, nicht einzelne selective sweeps zu betrachten, wie wir es in Kap. 8 getan haben, sondern rekurrente selective sweeps, d. h. selective sweeps, die durch aufeinanderfolgende Fixierungen von mehreren vorteilhaften Allelen verursacht werden. Dies liegt daran, dass die genomischen Bereiche, in denen die neutrale Variabilität durch sweeps erniedrigt wird, wegen der niedrigen Rekombinationsrate überlappen können, wenn die Fixierungsrate von vorteilhaften Allelen pro Genomregion relativ hoch ist. Die neutrale Nukleotiddiversität π0 einer panmiktischen Population im Gleichgewicht wird durch rekurrente selective sweeps näherungsweise auf folgenden Wert reduziert (Wiehe und Stephan 1993):

π = π0

χ , χ + καν

(10.3)

wobei α = 2Ne s der skalierte Selektionskoeffizient der vorteilhaften Allele ist, ν deren Substitutionsrate pro Nukleotidstelle pro Generation und χ die Rekombinationsrate pro Nukleotidstelle in der betrachteten Genomregion darstellt; κ ist eine Konstante (ungefähr 0,075). Die beiden Gleichungen (Gl. 10.2 und 10.3) liefern bei der Abgleichung mit Drosophila-Daten ähnlich gute Ergebnisse. Das bedeutet, dass die Reduktion der neutralen Nukleotiddiversität in Regionen mit niedrigen Rekombinationsraten in der Tat sehr ähnlich ist. Auch bei der Untersuchung des Frequenzspektrums SFS sind Unterschiede zwischen background selection und rekurrenten selective sweeps kaum zu beobachten, nicht einmal im Bereich hochfrequenter, abgeleiteter Varianten, in dem einzelne selective sweeps theoretisch zu einer Abweichung vom strikt-neutralen Frequenzspektrum führen (Abschn. 8.1). Dies ist auch zu erwarten, da durch Simulationen gezeigt werden konnte, dass im SFS von rekurrenten selective sweeps, im Gegensatz zu einzelnen selective sweeps, kein Überschuss von hochfrequenten, abgeleiteten Varianten zu beobachten ist (Kim 2006).

142

10  Background selection

10.3 Gemeinsame Wirkung von background selection und selective sweeps auf die neutrale Variabilität Nachdem erkannt worden war, dass background selection und selective sweeps schwer zu unterscheiden sind, aber zum Teil verschiedene Signaturen in der Nukleotiddiversität hinterlassen, wurde vorgeschlagen, die gemeinsame Wirkung von background selection und selective sweeps auf die neutrale Variation zu untersuchen und dabei beide Prozesse gemeinsam zu beschreiben (Kim und Stephan 2000). Dieser Vorschlag wurde aber erst in jüngster Zeit weiterverfolgt. Da sich diese neueren Ansätze auf das gesamte Genom einschließlich Regionen mit normaler und hoher Rekombinationsrate erstrecken, wird dabei das Modell einzelner selective sweeps betrachtet und mit background selection kombiniert. Es wird davon ausgegangen, dass einzelne selective sweeps lokal im Genom zu beobachten sind und sich von background selection unterscheiden, die aufgrund der immensen Häufigkeit von nachteiligen Mutationen das Basisniveau der Nukleotiddiversität im gesamten Genom bestimmt (Comeron 2014). Diese Annahme ist ähnlich wie diejenige, die in der Populationsgenomik über die lokalen Effekte der Selektion im Gegensatz zur genomweiten Wirkung der neutralen Evolutionskräfte gemacht wurde (Abschn. 3.3). Neueste Schätzungen haben gezeigt, dass die genomweite Rate U von schädlichen Nukleotidmutationen für D. melanogaster mindestens 0,6 pro Generation beträgt (Comeron 2014). Das ist mehr als zwei Größenordnungen höher als der Schätzwert für vorteilhafte Mutationen. Comeron (2014) hat aufgrund der hohen Rate für nachteilige Mutationen und unter Berücksichtigung der lokalen Rekombinationsraten die Nukleotiddiversität im gesamten Genom von D. melanogaster berechnet. Dabei hat er festgestellt, dass ein Großteil der beobachteten genetischen Variabilität durch background selection alleine vorhergesagt werden kann. Ferner konnte er Genomregionen identifizieren, die von dem durch background selection bestimmten Basislevel abweichen und in denen Evidenz von positiv gerichteter Selektion (d. h. zu niedrige Diversität) oder balancierender Selektion (zu hohe Diversität) gefunden werden konnte. Eine ähnliche Studie ist einen Schritt weiter gegangen und hat Polymorphismusund Divergenzdaten zuerst mithilfe des background selection-Modells abgeglichen und dann in einem zweiten Schritt die verbliebenen Abweichungen der Daten durch das selective sweep-Modell erklärt (Campos et al. 2017). Es handelt sich in diesem Fall um den Versuch, eine beobachtete negative Korrelation zwischen der Nukleotiddiversität πs an synonymen Stellen in D. melanogaster-Genen und der Divergenz Ka an nicht-synonymen Stellen (zu einer verwandten Drosophila-Art) zu erklären. In einem ersten Schritt wurde der Effekt von background selection auf πs berechnet und gezeigt, dass dieses Modell die beobachtete negative Korrelation zwischen πs und Ka nur teilweise erklären kann. Unter Hinzunahme des selective sweep-Modells konnte aber in einem zweiten Schritt die Proportion der vorteilhaften Mutationen in codierenden Regionen und UTRs (untranslated regions) quantifiziert und somit die beobachtete Korrelation adäquat beschrieben werden. Insgesamt hat diese Studie gezeigt, dass die ­synonyme Variabilität πs

10.3  Gemeinsame Wirkung von background selection und selective …

143

innerhalb eines typischen Gens durch background selection und selective sweeps auf ungefähr 75 % ihres Wertes ohne Selektion reduziert wird, wobei die Reduktion größer für Gene mit hohen Ka-Werten ist. Im Unterschied zur Studie von Campos et al. (2017) beschreiben Elyashiv et al. (2016) die gemeinsamen Effekte von background selection und selective sweeps auf die neutrale Nukleotidheterozygotie π im Genom in einem einzigen Schritt. Mithilfe der Koaleszenzmethode können diese Effekte für eine beliebige Position x auf den Autosomen durch folgende Gleichung quantifiziert werden:

π (x) =

2u(x) . 2u(x) + 1/(2Ne B(x)) + S(x)

(10.4)

Dabei ist u(x) die lokale, neutrale Mutationsrate an der Stelle x, Ne die effektive Populationsgröße (ohne Selektion), B(x) die lokale Reduktion der Variabilität bzw. der effektiven Populationsgröße durch background selection (d. h. das Produkt der geschweiften Klammern in Gl. 10.2; Abschn. 10.2) und S(x) die Koaleszenzrate, die durch einen lokalen selective sweep induziert wird. Die Gl. 10.4 kann abgeleitet werden, indem man für einen Koaleszenten mit zwei Allelen die Wahrscheinlichkeit berechnet, dass eine neutrale Mutation entsteht, bevor die beiden Allele einen gemeinsamen Vorfahren finden (Übung 10.3). Mithilfe von Gl. 10.4, die die beiden gleichzeitig ablaufenden Prozesse background selection und selective sweeps erfasst, wurden die folgenden Resultate erzielt. Die mittels Gl. 10.4 berechnete neutrale Nukleotiddiversität entlang des gesamten Genoms wurde mit beobachteten SNP-Daten verglichen, die von einer Stichprobe von 125 amerikanischen D. melanogaster-Linien erhalten wurden (Elyashiv et al. 2016). Dabei zeigte sich, dass die berechnete Karte auf einer Skala von einer Megabase 71 % der Varianz der beobachteten Diversitätswerte erfasst. Diese Genauigkeit übertrifft die der Vorhersagen, die auf der Basis von background selection alleine gemacht wurden (Comeron 2014). Die theoretischen Ergebnisse geben auch Aufschluss über die neutrale Nukleotiddiversität in der unmittelbaren Nähe von nicht-synonymen und synonymen Nukleotidsubstitutionen zwischen D. melanogaster und D. simulans (oder D. yakuba). Die neutrale Diversität ist in der Umgebung von nicht-synonymen Substitutionen deutlich reduziert, während um synonyme Substitutionen eine viel schwächere Vertiefung zu beobachten ist. Die Reduktion der Nukleotiddiversität um nicht-synonyme Substitutionen kann durch selective sweeps alleine adäquat erklärt werden, während background selection nur weniger ausgeprägte Täler der Diversität, wie die an synonymen Stellen, beschreiben kann. Dies zeigt, ähnlich wie in der Studie von Campos et al. (2017), dass lokal die Effekte von background selection und selective sweeps unterschieden werden können. Schließlich konnten auch die Parameter des selective sweep-Modells geschätzt werden. Ungefähr 4,0 % der Nukleotidsubstitutionen sind unter starker, positiv gerichteter Selektion (s ≈ 0,0003); da Ne ≈ 105 − 106 , gilt nämlich Ne s ≫ 1. Für background selection wurden ähnlich große Selektionskoeffizienten erhalten (s ≈ 0,0003), wenn die Rate nachteiliger Mutationen bei der Schätzung nur in einem biologisch realistischen Bereich variieren durfte.

144

10  Background selection

Der Ansatz von Elyashiv et al. (2016), der background selection und selective sweeps kombiniert, hat damit zu Schätzwerten der selective sweep-Parameter geführt, die sich von denen von Li und Stephan (2006) für die codierenden Regionen des X-Chromosoms einer afrikanischen und einer europäischen D. melanogaster-Population unterscheiden (Übung 10.4). Für die afrikanische Population fanden Li und Stephan (2006), dass ungefähr 9,4 % der Nukleotidsubstitutionen unter starker, positiv gerichteter Selektion (s ≈ 0,0005) sind, und für die europäische Population 13,6 % (s ≈ 0,005). Die höheren Substitutionsraten, die mithilfe der Methode von Li und Stephan (2006) berechnet wurden, können zumindest teilweise durch die Effekte von background selection erklärt werden. Ein Teil der beobachteten Signaturen der Nukleotiddiversität entlang des Genoms könnte nämlich mit höherer Wahrscheinlichkeit background selection, die beim Verfahren von Li und Stephan nicht berücksichtigt wurde, anstatt selective sweeps zugeordnet werden. Der Unterschied zwischen den Werten der adaptiven Substitutionsrate für die europäischen und afrikanischen Populationen ist zu erwarten, da bei der Kolonisierung von Habitaten in Europa wahrscheinlich mehr Adaptationen stattgefunden haben als im anzestralen Bereich in Afrika.

Übungen

10.1 Schätzen Sie die Nukleotiddiversität θ in Abb. 10.1 vor und nach dem Wirken von background selection ab. 10.2 Untersuchen Sie anhand von Gl. 10.1 die Erniedrigung der neutralen Nukleotiddiversität, die von einem selektierten Locus verursacht wird. Variieren Sie dazu die Parameter u, hs und c. 10.3 Leiten Sie die Gl. 10.4 mithilfe des Koaleszenzprozesses ab. 10.4 Li und Stephan (2006) haben die adaptive Substitutionsrate für die codierenden Regionen des X-Chromosoms einer afrikanischen D. melanogaster-Population als 0,061  × 10−9 pro Nukleotidstelle pro Generation geschätzt (unter Berücksichtigung der Demographie, aber ohne background selection). Für den durchschnittlichen Selektionskoeffizienten für stark selektierte Substitutionen erhielten sie s ≈ 0,0005. Für eine europäische Population ist die Abschätzung 0,088 × 10−9 pro Nukleotidstelle pro Generation für die stark selektierten Substitutionen (s ≈ 0,005). Wie groß ist die adaptive Substitutionsrate pro Jahr relativ zur synonymen (15,60 × 10−9 Substitutionen pro Stelle und Jahr) und zur nicht-synonymen (1,91 × 10−9 Substitutionen pro Stelle und Jahr) Substitutionsrate pro Jahr (siehe Abschn. 4.1)? Wie groß ist die adaptive Substitutionsrate pro Nukleotidstelle pro Jahr relativ zur mittleren Substitutionsrate pro Nukleotidstelle pro Jahr?

Literatur

145

Literatur Campos JL, Zhao L, Charlesworth B (2017) Estimating the parameters of background selection and selective sweeps in Drosophila in the presence of gene conversion. Proc Natl Acad Sci USA 114:E4762–E4771 Charlesworth B, Charlesworth D (2012) Elements of evolutionary genetics, 2. Aufl. Roberts and Company, Greenwood Village Charlesworth B, Morgan MT, Charlesworth D (1993) The effect of deleterious mutations on neutral molecular variation. Genetics 134:1289–1303 Comeron JM (2014) Background selection as baseline for nucleotide variation across the Drosophila genome. PLoS Genet 10:e1004434 Elyashiv E, Sattah S, Hu TT, Strutsovsky A, McVicker G et al (2016) A genomic map of the effects of linked selection in Drosophila. PLoS Genet 12:e1006130 Gordo I, Navarro A, Charlesworth B (2002) Muller’s ratchet and the pattern of variation at a neutral locus. Genetics 161:835–848 Hernandez RD, Williamson SH, Bustamante CD (2007) Context dependence, ancestral misidentification, and spurious signatures of natural selection. Mol Biol Evol 24:1792–1800 Kim Y (2006) Allele frequency distribution under recurrent selective sweeps. Genetics 172:1967–1978 Kim Y, Stephan W (2000) Joint effects of genetic hitchhiking and background selection on neutral variation. Genetics 155:1415–1427 Li H, Stephan W (2006) Inferring the demographic history and rate of adaptive substitution in Drosophila. PLoS Genet 2:e166 Lindsley DL, Sandler L (1977) The genetic analysis of meiosis in female Drosophila melanogaster. Philos Trans R Soc Lond B Biol Sci 277:295–312 Smith CD, Shu S, Mungall CJ, Karpen GH (2007) The Release 5.1 annotation of Drosophila melanogaster heterochromatin. Science 316:1586–1591 Stephan W (2010) Genetic hitchhiking versus background selection: the controversy and its implications. Philos Trans R Soc Lond B Biol Sci 365:1245–1253 Wiehe THE, Stephan W (1993) Analysis of a genetic hitchhiking model, and its application to DNA polymorphism data from Drosophila melanogaster. Mol Biol Evol 10:842–854

Quantitative Merkmale – genetische Basis und Effekt der Selektion

11

Quantitative Merkmale, wie z. B. die Milchproduktion bei Kühen, der Säuregehalt von Rotwein oder die Qualität von Olivenöl, sind von höchster Wichtigkeit in der Tier- und Pflanzenzüchtung sowie in der Landwirtschaft generell. Wie in Abschn. 1.1 dargestellt, zeigen diese Merkmale typischerweise ein Kontinuum von Phänotypen. Man nennt sie daher auch kontinuierlich oder metrisch. Andere quantitative Merkmale bestehen aus abzählbar vielen Phänotypen. Ein klassisches Beispiel ist die Borstenanzahl bei Drosophila melanogaster, die bei Männchen im fünften abdominalen Segment zwischen 13 und 25 variiert (Abb. 11.1). Solche Merkmale werden kategorial genannt. Falls allerdings die Anzahl der Phänotypen groß ist (wie im Fall der Drosophila-Borsten), verschwindet der Unterschied zwischen metrischen und kategorialen Merkmalen. Eine weitere Kategorie von quantitativen Merkmalen sind sogenannte Schwellenmerkmale. Sie bestehen aus zwei diskreten alternativen Phänotypen, wobei die Expression der beiden Alternativen dadurch bestimmt ist, ob ein Schwellenwert eines zugrunde liegenden kontinuierlichen Merkmals überschritten wird. Dazu zählen menschliche Krankheiten, wie z. B. Diabetes Typ 2. Die metrischen Merkmale sind näherungsweise normalverteilt. Das Gleiche gilt für die kategorialen Merkmale, wenn diese viele Phänotypen aufweisen. In Abb. 11.1 ist zu sehen, dass die Anzahl der abdominalen Borsten bei D. melanogaster sehr gut durch eine Normalverteilung approximierbar ist. Der Grund für diese gute Übereinstimmung wird durch den Zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie geliefert (Abschn. 11.1). Angewendet auf unseren Fall besagt dieser, dass ein quantitatives Merkmal, das von einer Vielzahl von genetischen (und umweltbedingten) Faktoren beeinflusst ist, näherungsweise normalverteilt ist (Hartl und Clark 2007, Kap. 1). Die Abb. 11.1 bestätigt damit unsere in Abschn. 1.1.2 aufgestellte Hypothese, dass metrische Merkmale (neben Umweltfaktoren) von vielen Genen bestimmt werden. Im folgenden Abschn. 11.1 behandeln wir die genetischen Grundlagen von quantitativen Merkmalen. Die genetische Basis eines quantitativen Merkmals ist aufgrund der polygenen Struktur © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 W. Stephan und A. C. Hörger, Molekulare Populationsgenetik, https://doi.org/10.1007/978-3-662-59428-5_11

147

148

11  Quantitative Merkmale – genetische Basis und Effekt der Selektion

Abb. 11.1   Anzahl der Borsten im fünften Abdominalsegment in Drosophila melanogaster-Männchen. Die gestrichelte Kurve veranschaulicht eine Normalverteilung mit dem Mittelwert 18,7 und der Standardabweichung 2,1. (Modifiziert nach Hartl und Clark 2007, Abb. 8.1, mit freundlicher Genehmigung von Oxford Publishing Limited über PLSclear, Copyright 2007 Sinauer Associates, Inc.)

meist sehr viel komplexer als die genetische Grundlage eines diskreten Phänotyps, da die zugrundeliegenden Loci unterschiedlich stark an der Ausprägung des Merkmals beteiligt sein und sich auch untereinander auf verschiedene Weisen beeinflussen können. Im Abschn. 11.2 wollen wir mit der QTL-Analyse eine Methode vorstellen, die es trotz dieser Komplexität ermöglicht, Loci, die quantitative Merkmale beeinflussen, in Genomen zu lokalisieren und deren Einfluss auf das Merkmal zu quantifizieren. Daran anschließend werden wir im Abschn. 11.3 besprechen, wie sich natürliche Selektion auf quantitative Merkmale auswirkt.

11.1 Genetische Basis quantitativer Merkmale Zu Darwins Zeiten glaubte man generell an die mischende Vererbung (Abschn. 1.3). Mendel (1866) jedoch zeigte für diskrete Merkmale, die durch einzelne Gene kontrolliert werden, dass die Vererbung partikulär ist, die genetischen Beiträge beider

11.1  Genetische Basis quantitativer Merkmale

149

Eltern bei der Befruchtung also nicht miteinander verschmelzen. Seine Ergebnisse wurden aber ignoriert. Nach der Wiederentdeckung von Mendels Experimenten im Jahr 1900 glaubten viele Forscher, die mit dem englischen Biometriker Karl Pearson assoziiert waren, nicht, dass die quantitative Variabilität durch die Mendel’schen Regeln (Mendel 1866) erklärt werden kann (Provine 1971). Andererseits waren die Biometriker aber vom Wirken der natürlichen Selektion auf quantitative Merkmale überzeugt, was einen gewissen Widerspruch darstellt (siehe dazu Übung 11.1). Die Biometriker führten einen langjährigen Streit mit den Anhängern der Mendelʼschen Theorie. Letztere behaupteten, dass die Interaktion von mehreren Genen sowohl die Variabilität von diskreten als auch von kontinuierlichen Merkmalen erklären könne. Dieser Disput zwischen Biometrikern und Mendelianern dauerte aber bis zum Jahr 1918, als Fisher in seiner Doktorarbeit mithilfe eines mathematischen Modells zeigte, dass die Variabilität von quantitativen Merkmalen, die durch viele Gene kontrolliert werden, tatsächlich den Mendel’schen Gesetzen folgt. Die Originalveröffentlichung von Fisher (1918) ist schwer zu lesen. In Abb. 11.2 und 11.3 ist sie vereinfacht dargestellt. Wir betrachten diploide Individuen mit drei ungekoppelten Genen. Diese haben die Allele A/a, B/b und C/c. Zunächst kreuzen wir zwei homozygote Individuen mit den Genotypen abc abc und ABC . In der ersten Filialgeneration (F1-Generation) ergibt dies den heterozygoten ABC abc Genotyp ABC . In den weiteren Generationen erhalten wir durch Rekombination 64 verschiedene Genotypen (Abb. 11.2). Soweit die klassische Genetik. Nun stellen wir eine Genotyp-Phänotyp-Beziehung her, indem wir den Allelen A, B und C jeweils den Effekt 1 auf das Merkmal zuordnen, während die Allele a, b und c den Effekt 0 haben. Das bedeutet, dass die Allele A, B und C den Phänotyp eines Individuums jeweils um eine Einheit erhöhen, während die anderen Allele ihn nicht beeinflussen. Damit erhalten wir sieben verschiedene Phänotypen: 0, 1, 2, 3, 4, 5, 6, wobei ein Individuum mit dem Genotyp abc abc den Phänotyp 0 und eines mit ABC den Phänotyp 6 hat. Diese beiden extremen Phänotypen haben jeweils die ABC Frequenz 1/64. Alle anderen Phänotypen haben höhere Frequenzen (Abb. 11.3). Die Verteilung der Phänotypen kann durch die Normalverteilung approximiert werden (siehe auch Abb. 11.1). Diese Approximation wird genauer, je mehr Gene den Phänotyp kontrollieren, wie es der Zentrale Grenzwertsatz der Wahrscheinlichkeitstheorie postuliert (Abschn. 13.2.2.2). Dieser Satz besagt, dass die Verteilung einer Summe von unabhängigen Zufallsvariablen gegen eine Normalverteilung konvergiert, wenn die Anzahl der Summenelemente groß ist. In der Theorie sieht eine Verteilung, die von zehn Loci mit je zwei Allelen bestimmt wird, schon nahezu normal aus. Im Experiment ist aber zu berücksichtigen, dass ein beobachtetes Merkmal nur dann normalverteilt ist, wenn auch die beteiligte Umweltvariable näherungsweise normalverteilt ist (Abschn. 11.3). In den 1920er-Jahren wurden die ersten Gene lokalisiert, die quantitative Merkmale beeinflussen (wie die Anzahl der Borsten bei D. melanogaster). Die Kartierung dieser Gene war allerdings limitiert, da nur wenige genetische Marker für diese Analyse vorhanden waren. Seitdem jedoch molekulare Marker zur

150

11  Quantitative Merkmale – genetische Basis und Effekt der Selektion

Abb. 11.2  Segregation von drei ungekoppelten Paaren von Allelen (A/a, B/b und C/c), die ein quantitatives Merkmal beeinflussen. Nach Kreuzung von zwei, an allen drei Loci homozygoten Individuen erhalten wir in der F1-Generation Individuen, die an diesen Loci heterozygot sind. Die Kreuzung von Individuen der F1-Generation resultiert dann in 64 möglichen Allelkombinationen in der F2-Generation. Die Allele in Großbuchstaben erhöhen das Merkmal jeweils um eine Einheit (im Beispiel durch eine hellere Farbschattierung dargestellt), während die Allele in Kleinbuchstaben keinen Effekt haben. (Modifiziert nach Hartl und Clark 2007, Abb. 1.4, mit freundlicher Genehmigung von Oxford Publishing Limited über PLSclear, Copyright 2007 Sinauer Associates, Inc.)

11.2 QTL-Analyse

151

Abb. 11.3  Verteilung der Phänotypen aus der Kreuzung von Abb. 11.2. Die approximierende Normalverteilung hat den Mittelwert 3,0 und die Varianz 1,5. (Modifiziert nach Hartl und Clark 2007, Abb. 1.5, mit freundlicher Genehmigung von Oxford Publishing Limited über PLSclear, Copyright 2007 Sinauer Associates, Inc.)

Verfügung stehen, die über das gesamte Genom verteilt sind, hat die Analyse von Loci quantitativer Merkmale (quantitative trait loci oder kurz QTL) rasante Fortschritte gemacht. Wir werden dies im nächsten Abschnitt beschreiben.

11.2 QTL-Analyse Mithilfe der QTL-Analyse werden die Loci im Genom lokalisiert, die ein quantitatives Merkmal beeinflussen. Ferner kann man mit dieser Methode folgende Fragen beantworten: Was ist die Effektgröße der Allele an diesen Loci? Wie groß sind die Effekte unter homozygoten bzw. heterozygoten Bedingungen? Sind die Effekte von einzelnen Loci auf ein Merkmal unabhängig voneinander (was als „additiv“ bezeichnet wird), oder ist der Effekt von multiplen Loci auf ein Merkmal nicht-additiv (epistatisch)? Welchen Einfluss hat das Geschlecht eines Individuums auf die Größe der Effekte von QTL? Die Beantwortung dieser Fragen mithilfe der QTL-Analyse verlangt, dass diese in einem genetisch gut bekannten Organismus durchgeführt wird. Wir besprechen daher hauptsächlich die Methoden der QTL-Analyse, die für D. melanogaster entwickelt worden sind (Abschn. 11.2.1), und diskutieren anschließend die dabei erzielten Ergebnisse (Abschn. 11.2.2). Wir folgen hier dem Übersichtsartikel von Trudy Mackay (Mackay 2001).

11.2.1 Methoden der QTL-Analyse bei D. melanogaster Ausgangspunkt der QTL-Analyse sind Individuen, die sich phänotypisch deutlich in dem Merkmal unterscheiden, dessen genetische Architektur studiert werden soll. Diese Individuen können aus natürlichen Populationen stammen, die stark differenziert sind (z. B. bei D. melanogaster aus einer anzestralen afrikanischen und

152

11  Quantitative Merkmale – genetische Basis und Effekt der Selektion

einer europäischen Population). Alternativ können Fliegenlinien durch künstliche Selektion und Inzucht über mehrere Generationen erzeugt werden (Abb. 11.4). Dieses Verfahren wird ausführlich im Abschn. 11.3.3 beschrieben. Durch künstliche Selektion entstehen Individuen, die sich in ihren phänotypischen Werten sehr stark unterscheiden, sogenannte Hoch- und Niedriglinien. Der nächste Schritt besteht in der Kreuzung von Individuen der Hochlinien mit Individuen der Niedriglinien. Aufgrund der Zufälligkeit der Rekombinationsereignisse entlang der Chromosomen tragen die Nachkommen verschiedene Teile des Genoms der Elternlinien. In den nachfolgenden Generationen werden die Nachkommenlinien weiterer Rekombination und auch Inzucht unterworfen, sodass sich schließlich Populationen von Linien mit mosaikartigen Genomen bilden (recombinant-inbred lines oder RILs; Abb. 11.5). Die Mosaikstruktur der Chromosomen ist umso feiner, je mehr Rekombinationsereignisse während der Erzeugung der Linien stattgefunden haben. Um einen QTL genau zu lokalisieren, muss die Mosaikstruktur möglichst fein sein. Ferner ist es wichtig, dass die für die Kartierung benutzten molekularen Marker (z. B. SNPs) gleichmäßig und engmaschig über das Genom verteilt sind. Wegen der großen Anzahl von populationsgenetischen Studien sind aber genügend geeignete SNPs bekannt, die für eine QTL-Analyse bei D. melanogaster zur Verfügung stehen. Schließlich müssen noch die phänotypischen Werte der RILs bestimmt werden, bevor die statistische Auswertung beginnen kann. Im Laufe der Geschichte der QTL-Analyse (seit den 1920er-Jahren; Box 11.1) wurden die statistischen Methoden weiterentwickelt und stark verbessert. Wir gehen hier nicht auf die Details dieser Methoden ein, sondern skizzieren nur

Abb. 11.4  Herstellung von divergenten Elternlinien. Zwei Elternlinien werden durch divergente künstliche Selektion über mehrere Generationen so gezüchtet, dass sie sich im zu untersuchenden Merkmal unterscheiden. (Modifiziert nach Mackay 2001, Abb. 3a, mit freundlicher Genehmigung von Springer Nature, Copyright 2001 Macmillan Magazines Ltd.)

11.2 QTL-Analyse

153

Abb. 11.5  Kreuzung der Elternlinien und Inzucht. Die Elternlinien werden gekreuzt, um Individuen zu produzieren, die unterschiedliche Teile der elterlichen Genome tragen. Dann werden diese rekombinanten Linien der Inzucht unterworfen. Ferner wird der Phänotyp jeder Linie gemessen und der Genotyp für die Marker bestimmt. (Modifiziert nach Mackay 2001, Abb. 3b, mit freundlicher Genehmigung von Springer Nature, Copyright 2001 Macmillan Magazines Ltd.)

die Hauptideen. Im Prinzip geht es um die Frage, ob es zwischen einem polymorphen Marker, dessen Position im Genom bekannt ist, und einem Phänotyp eine signifikante Assoziation gibt. Um dies festzustellen, könnte man durch das Genom gehen – Marker für Marker – und für jeden Marker die RILs in Marker-Genotypklassen einteilen und dann bestimmen, ob es eine signifikante Differenz im Phänotyp zwischen den Marker-Genotypklassen gibt. Falls es eine solche Differenz gibt, ist der QTL mit dem Marker gekoppelt. Das Ergebnis dieses Verfahrens ist für einen einzelnen Marker leicht abzuleiten und in der Box 11.1 dargestellt. Dabei zeigt sich, dass diese einfache Methode den Effekt eines QTL um einen Betrag unterschätzt, der proportional zur Rekombinationsrate zwischen dem Marker-Locus und dem QTL ist (Gl. 11.1).

Box 11.1 QTL-Analyse mit einem einzigen Marker und Anwendung auf die Daten von Sax (1923)

Für einen einzigen Marker-Locus M, der an einen QTL gekoppelt ist, gilt folgende Gleichung für die Differenz  der phänotypischen Messwerte Φ zwi schen den Marker-Genotypklassen M1 M1 und M2 M2:       Φ M1 M1 − Φ M2 M2 = 2a(1 − 2c), (11.1) wobei die Allele M1 in der einen Elternlinie und M2 in der anderen Elternlinie homozygot sind, a und −a die Effekte der homozygoten Genotypen des QTL sind und c die Rekombinationsrate zwischen beiden Loci ist (­Falconer und Mackay 1996, Gl. 21.1a). Die Gl. 11.1 wenden wir nun auf die Daten von Sax (1923) an, der als Erster eine Assoziation zwischen einem Marker-Locus (Pigment-Locus) und einem quantitativen Merkmal (Samengröße) der Gartenbohne (Phaseolus

11  Quantitative Merkmale – genetische Basis und Effekt der Selektion

154

vulgaris) entdeckt hat. Er fand in der F2-Generation für die Genotypen PP, Pp und pp am Pigment-Locus P folgende Mittelwerte: Marker-Genotyp

PP

Pp

pp

Samengewicht (mg)

307

283

264

An den Daten sehen wir zunächst, dass der Effekt des QTL nahezu perfekt additiv ist, da der Marker-Heterozygote (Pp) fast genau in der Mitte zwischen den beiden homozygoten Genotypen liegt. Ferner können wir die Differenz des Phänotyps zwischen den Marker-Genotypklassen M1 M1 und M2 M2 berechnen: 307  mg  − 264  mg =  43  mg. Obwohl mit den angegebenen Daten eine statistische Analyse nicht möglich ist, ist diese Differenz zwischen den Markerklassen als relativ groß anzusehen, sodass der Schluss naheliegt, dass der Marker-Locus mit dem QTL für die Samengröße gekoppelt ist. In der Tat macht die gemessene Differenz im Samengewicht zwischen den PP- und pp-Genotypen in der F2-Generation (43 mg) fast 16 % der totalen gemessenen Differenz des Samengewichts zwischen den Elternlinien (270 mg) aus. Gegenwärtig verwendet man deshalb die sogenannte Intervallkartierung, bei der man einen QTL mithilfe von zwei flankierenden Markern lokalisiert. Mit dieser Methode wird die Wahrscheinlichkeit abgeschätzt, dass ein Marker oder das Intervall zwischen zwei Markern mit einem QTL assoziiert ist. Die Ergebnisse einer solchen Analyse werden als Plot des Likelihood Ratio (Abschn. 13.3.3) gegen die Chromosomenposition aufgetragen (Abb. 11.6). Werte oberhalb des 5 %-Signifikanzniveaus kommen als QTL infrage. Jedoch sind die besten Schätzungen für einen QTL die Positionen mit den höchsten Likelihood-Ratio-Werten.

11.2.2 Ergebnisse der QTL-Analyse bei D. melanogaster Ganz allgemein ist festzuhalten, dass durch die oben beschriebenen Methoden keine Gene im Genom lokalisiert werden können, dass also keine Genkarte im klassischen Sinne der Genetik erstellt werden kann. Stattdessen liefert die QTL-Analyse eine statistische Beschreibung, welcher Betrag der genetischen Variation in den Elternlinien eines quantitativen Merkmals von einer genomischen Region bestimmt wird. Abhängig von mehreren Faktoren, wie der Mosaikstruktur der RILs, kann ein QTL mehrere Centimorgan (cM) groß sein (in der Regel 3–10 cM) und damit eine große Anzahl von Genen enthalten, von denen ein oder mehrere Loci ein Merkmal beeinflussen können. Eine weitere allgemeine Bemerkung betrifft die Anzahl der QTL, die in einem Experiment gefunden werden. Diese Anzahl hängt auch von mehreren Faktoren ab: von der Anzahl der RILs, von den allelischen Differenzen der beiden Elternlinien

11.2 QTL-Analyse

155

Abb. 11.6  Likelihood Ratio versus Chromosomenposition. Zu sehen sind die Ergebnisse der Intervallkartierung entlang eines Chromosoms mit dem 5 %-Signifikanzniveau (gestrichelte Linie). Die Dreiecke entlang der Grundlinie zeigen die Position der Marker an. (Modifiziert nach Mackay 2001, Abb. 3c, mit freundlicher Genehmigung von Springer Nature, Copyright 2001 Macmillan Magazines Ltd.)

und von der Dichte und Verteilung der molekularen Marker. Generell stellen deshalb die gefundenen QTL ein Minimum dar. Trotz dieser Vorbehalte konnte mithilfe der QTL-Analyse eine Reihe von Einblicken in die genetische Architektur quantitativer Merkmale gewonnen werden. Die wichtigsten Ergebnisse werden im Folgenden zusammengefasst: 1. Die Basis quantitativer Merkmale ist polygen. In Tab. 11.1 ist die Anzahl der QTL für mehrere quantitative Merkmale von D. melanogaster angegeben. Die Variation aller dieser Merkmale wurde durch jeweils mehr als zehn QTL ­beeinflusst. 2. Die Verteilung der Effektgrößen von QTL ist näherungsweise exponentiell (Abschn. 13.2.2.2). Das bedeutet, dass wenige Loci große Effekte haben und relativ viele Loci kleine Effekte aufweisen (Abb. 11.7). Ein Beispiel eines Locus mit großem Effekt ist der QTL für die Samengröße bei der Gartenbohne, der 16 % der totalen Differenz des Samengewichts zwischen den Elternlinien ausmacht (Box 11.1). Tab. 11.1  Anzahl der QTL für quantitative Merkmale bei D. melanogaster Merkmal

Anzahl der entdeckten QTLa

Abdominalborsten

26

Sternopleuralborsten

22

Lebensdauer

19

Flügelform

11

Morphologie des männlichen Genitalbogens

19

aWie

im Haupttext erwähnt, stellt diese Schätzung eine minimale Anzahl dar

156

11  Quantitative Merkmale – genetische Basis und Effekt der Selektion

Abb. 11.7  Schematische Darstellung der Verteilung der Effekte von QTL bei Sternopleuralund Abdominalborsten in D. melanogaster. (Modifiziert nach Mackay 2001, Abb. 4a, mit freundlicher Genehmigung von Springer Nature, Copyright 2001 Macmillan Magazines Ltd.)

3. Die Effekte eines QTL sind im Allgemeinen geschlechtsspezifisch. Und manchmal zeigen sie auch Evidenz für antagonistische Pleiotropie, d. h. alternative homozygote Genotypen haben gegensätzliche Effekte unter verschiedenen Bedingungen (wie z. B. der QTL 48D für Lebensdauer in Männchen und Weibchen; Mackay 2001). 4. Meistens sind die Effekte additiv, aber epistatische Effekte können so groß sein wie die mittleren Effekte eines QTL. Ein Beispiel eines Locus mit additivem Effekt ist der QTL für die Samengröße bei der Gartenbohne (Box 11.1). Die oben aufgelisteten Beobachtungen, die bei D. melanogaster gemacht wurden, stimmen mit den Ergebnissen der QTL-Analyse in Abschn. 5.3.2 überein, in der wir eine Kreuzung zwischen zwei sympatrischen Arten von Gauklerblumen beschrieben haben. Auch dort haben wir festgestellt, dass wenige Loci große Effekte haben, die einen beträchtlichen Teil der gefundenen phänotypischen Variabilität erklären, und dass die Verteilung der Effekte sehr breit ist. Letzteres bedeutet, dass es zusätzlich zu den Loci mit großen Effekten auch viele Loci mit kleinen Effekten gibt. Zum Schluss noch eine Bemerkung über die Grenzen der QTL-Analyse: Wie bereits erwähnt, sind QTL keine genetischen Loci, sondern Regionen im Genom, die ein oder mehrere Gene enthalten, die ein quantitatives Merkmal beeinflussen. Wie können aber die relevanten Gene unter den 10 bis 100 Loci identifiziert werden, die ein QTL im Allgemeinen enthält? Viele Versuche wurden in Drosophila unternommen, um die Feinstruktur eines QTL zu untersuchen und damit diese Frage zu beantworten. Beispielsweise wurden quantitative Komplementationstests und die Mutagenese mit Transposons (P-Elementen) verwendet, um die genomische Region von QTL zu verkleinern, aber keines dieser Verfahren hat sich allgemein durchgesetzt (Mackay 2001). Falls ein QTL dann doch auf ein kleines chromosomales Fragment beschränkt werden konnte,

11.3  Quantitative Merkmale unter gerichteter Selektion

157

in dem alle Gene bekannt waren, tauchte das Problem auf, welcher dieser Loci mit dem QTL assoziiert ist und schließlich welcher molekulare Polymorphismus (SNP oder Indel) das funktionelle QTL-Allel ist. Um diese Fragen zu beantworten, ist es möglich, populationsgenetische Methoden einzusetzen. Mithilfe des Kopplungsungleichgewichts (LD) können beide Fragen angegangen werden, wenn Faktoren wie die Demographie und Populationsstruktur, die das LD beeinflussen können (Abschn. 7.2), bekannt sind. Wenn quantitative Merkmale starker gerichteter Selektion unterworfen sind (z. B. einer divergenten künstlichen Selektion; Abb. 11.4), können auch selective sweeps verwendet werden, um die Feinstruktur von QTL zu erforschen (Abschn. 8.2). In den vergangenen zehn Jahren wurde diese Methode erfolgreich bei der Untersuchung von quantitativen Merkmalen in der Züchtung von Hunden, Schweinen, Hühnern und Rindern angewendet (z. B. Qanbari et al. 2014).

11.3 Quantitative Merkmale unter gerichteter Selektion In diesem Abschnitt beschreiben wir, wie sich der Mittelwert eines quantitativen Merkmals in einer Population unter dem Einfluss gerichteter Selektion in einer Generation verschiebt. Wir folgen dabei der Darstellung von John Gillespies Buch (2004, Kap. 6) und machen dies in drei Schritten. Zunächst führen wir das Konzept der Heritabilität h2 eines quantitativen Merkmals ein und zeigen dann, wie diese durch die Korrelation zwischen Verwandten geschätzt werden kann. Schließlich untersuchen wir, wie der Mittelwert eines quantitativen Merkmals auf Selektionsdruck reagiert.

11.3.1 Heritabilität Um den Begriff der Heritabilität (Vererbbarkeit) zu definieren, genügt es, das folgende einfache Modell zu analysieren. Jeder Elternteil trägt additiv zu einem Nachkommen mit dem Phänotypen P bei, wobei P hier die Abweichung vom Mittelwert der Population beschreibt. Der Beitrag der Mutter wird durch Xm und der des Vaters durch Xp bezeichnet. Ferner liefert die Umwelt einen additiven Beitrag ε. Alle diese Beiträge sind durch voneinander unabhängige Zufallsvariablen beschrieben, die normalverteilt sind. Schließlich nehmen wir an, dass Zufallspaarung vorliegt. Ein zugrunde liegendes genetisches Modell mit multiplen Loci wird hier nicht angenommen, sondern die Analyse ist rein statistischer Natur. Wir erhalten wegen der Additivität der einzelnen Beiträge folgende Gleichung:

P = Xm + Xp + ε. Aufgrund unserer Annahmen gilt für die Erwartungswerte   E{P} = E{Xm } = E Xp = E{ε} = 0,

(11.2) (11.3)

158

11  Quantitative Merkmale – genetische Basis und Effekt der Selektion

und für die Varianzen definieren wir

  1 VA = Var{Xm } = Var Xp 2

(11.4)

VP = Var{P}, VE = Var{ε}.

(11.5)

und Mit diesen Ergebnissen bzw. Definitionen für die Erwartungswerte und Varianzen erhalten wir die phänotypische Varianz VP als eine Summe der additiven genetischen Varianz VA und der umweltbedingten Varianz VE (Übung 11.2):

VP = VA + VE .

(11.6)

Bei dieser Ableitung wird die Annahme berücksichtigt, dass die Beiträge der Eltern und der Umwelt unabhängig voneinander sind, sodass alle Kovarianzen zwischen ihnen verschwinden (Abschn. 13.2.2.3). Für die Kovarianz zwischen den mütterlichen und väterlichen Beiträgen gilt dies auch, wenn wir annehmen können, dass die Eltern nicht verwandt sind. Ferner nehmen wir an, dass keine Beziehung zwischen den Umwelteinflüssen und den genetischen Komponenten besteht (sonst müsste man Genotyp-Umwelt-Wechselwirkungen betrachten, was das Modell komplexer machen würde). Schließlich muss nochdieGl. 11.4 erklärt werden. Das Gleichheitszeichen zwischen Var{Xm } und Var Xp gilt, weil die elterlichen Gameten zufällig aus dem Genpool gezogen werden (Zufallspaarung). Der Term „additiv“ in der „additiven genetischen Varianz“ VA bezieht sich auf die Tatsache, dass der genetische Beitrag eine einfache der Beiträge der  Summe  mütterlichen und väterlichen Allele, Var{Xm } + Var Xp , ist. In einem komplexeren Modell könnten die beiden Allele interagieren und einen zusätzlichen genetischen Beitrag generieren, dessen Varianz man dann als Dominanzvarianz bezeichnen würde. Den Bruchteil der phänotypischen Varianz, der durch die additiven genetischen Beiträge gegeben ist, bezeichnet man als Heritabilität h2 des quantitativen ­Merkmals:

h2 =

VA VA = . VP VA + VE

(11.7)

Die Heritabilität kann durch die Korrelation des Merkmals zwischen Verwandten abgeschätzt werden. Dies wird im Abschn. 11.3.2 behandelt.

11.3.2 Ähnlichkeit eines quantitativen Merkmals zwischen Verwandten Wir beginnen mit einem einfachen Beispiel, in dem bei der Vererbung eines Merkmals nur ein Elternteil involviert ist (z. B. die Mutter bei Merkmalen, die von den Mitochondrien kontrolliert werden, da diese nur maternal vererbt werden).

11.3  Quantitative Merkmale unter gerichteter Selektion

159

Die Phänotypen des Elternteils P und seines Nachkommen O können dann folgendermaßen geschrieben werden (siehe Gl. 11.2):

PP = Xm + εP

(11.8)

PO = Xm + εO .

(11.9)

Die Ähnlichkeit zwischen Mutter und Kind kann durch die Kovarianz Cov{PP , PO } ausgedrückt werden, welche unter der Annahme, dass die Zufallsvariablen Xm , εP und εO unabhängig voneinander sind, folgendermaßen gegeben ist (Übung 11.3):

Cov{PP , PO } =

VA . 2

(11.10)

Dieses Resultat können wir auf ein beliebiges Paar von Verwandten X und Y mit den Phänotypen

PX = Xm + Xp + εX

(11.11)

PY = Ym + Yp + εY

(11.12)

und verallgemeinern. Unter Vernachlässigung der Genotyp-Umwelt-Wechselwirkungen und der Umwelteffekte erhalten wir (Box 11.2)

Cov{PX , PY } = rVA ,

(11.13)

wobei r den Verwandtschaftsgrad zwischen X und Y angibt. Daraus ergibt sich die Korrelation zwischen einem Paar von Verwandten, indem man beide Seiten von Gl. 11.13 durch die phänotypische Varianz dividiert (siehe Gl. 13.35):

Corr{PX , PY } = rh2 .

(11.14)

Diese Gleichung besagt, dass die Heritabilität eines quantitativen Merkmals durch die Korrelation zwischen Paaren von Verwandten geschätzt werden kann. Dazu kann man die Regression zwischen PX und PY benutzen. Die Steigung β der Regressionsgeraden ist dann durch die Korrelation (Gl. 11.14) gegeben. In anderen Worten, der Erwartungswert des Phänotyps von Y (unter der Annahme, dass PX = x) ist βx:

E{PY |PX = x} = βx = rh2 x.

(11.15)

Bei der Regression wird oft aus statistischen Gründen statt der beiden Eltern deren Mittelwert M (midparent) betrachtet. Die Kovarianz zwischen midparent M und Nachkommen O ist deshalb wie bei einem Elternteil (Gl. 11.10).

Cov{PM , PO } =

VA 2

(11.16)

11  Quantitative Merkmale – genetische Basis und Effekt der Selektion

160

und die Varianz

Var{PM } =

VP , 2

(11.17)

sodass in diesem Fall der Regressionskoeffizient β = h2 ist. Die Gl. 11.17 gilt, da der Phänotyp des midparent der Durchschnitt der Phänotypen der Eltern ist. Die Heritabilität ist mit der Regressionsmethode leicht zu messen. Sie wurde von vielen Merkmalen in vielen Spezies bestimmt und liegt im Allgemeinen zwischen 0,2 und 0,8. Jedoch gibt es auch Ausnahmen. Life-history-Merkmale, wie Viabilität, Lebensdauer und Fekundität (Fruchtbarkeit), haben im Durchschnitt niedrige Werte (um 0,1). Bei Verhaltenseigenschaften ist die Vererbbarkeit nicht viel höher. Morphologische Eigenschaften haben Werte um 0,3. Gewicht und Schnabellänge bei Darwins Finken hingegen haben Heritabilitätswerte von ungefähr 0,8.

Box 11.2 Kovarianz zwischen zwei beliebigen Verwandten

Für ein Paar von Verwandten X und Y, deren Phänotypen durch die Gl. 11.11 und 11.12 gegeben sind, erhalten wir unter Vernachlässigung der Genotyp-Umwelt-Wechselwirkungen und der Umwelteffekte       Cov{PX , PY } = Cov{Xm , Ym } + Cov Xm , Yp + Cov Xp , Ym + Cov Xp , Yp .

Dies folgt sofort aus Gl. 13.34 unter der Berücksichtigung, dass die Erwartungswerte der Zufallsvariablen Xm , Xp , Ym und Yp null sind. Die Werte der Kovarianzen der rechten Seite obiger Gleichung hängen von der Anzahl der Allele ab, die aufgrund der Abstammung zwischen den Verwandten identisch sind (Gillespie 2004, S. 146). Mit der Wahrscheinlichkeit r1 haben die beiden Verwandten ein Allel, das zwischen ihnen aufgrund der Abstammung identisch ist. In diesem Fall ist die Kovarianz bezüglich dieses Allels von null verschieden und hat den Wert V2A (wie im Fall der Kovarianz zwischen einem Elternteil und dem Nachkommen, in dem r1  = 1). Im zweiten Fall haben die Verwandten zwei Allele mit der Wahrscheinlichkeit r2, die aufgrund der Abstammung identisch sind. In diesem Fall trägt jedes Paar der identischen Allele eine Kovarianz der Größe V2A bei, sodass die volle Kovarianz VA ist. Damit ergibt sich die Kovarianz zwischen den Verwandten X und Y als

Cov{PX , PY } = r1 ×

VA + r2 × VA . 2

(11.18)

Berücksichtigt man, dass der Verwandtschaftsgrad r als

r=

r1 + r2 2

(11.19)

definiert ist (Gillespie 2004, Gl. 5.1), folgt aus Gl. 11.18 und 11.19 die Gl. 11.13.

11.3  Quantitative Merkmale unter gerichteter Selektion

161

11.3.3 Effekt gerichteter Selektion Landwirte haben im Laufe der Geschichte der Landwirtschaft den Ertrag ihrer Tiere und Pflanzen durch gerichtete, künstliche Selektion verbessert. Das Prinzip dieses Verfahrens ist einfach: Wähle die besten Individuen als Eltern für die nächste Generation aus und kreuze sie. Dies funktioniert, solange additive genetische Variation für das Merkmal vorhanden ist, das verbessert werden soll. Abb. 11.4 zeigt ein typisches Ergebnis dieser Methode für D. melanogaster, aber es gibt sehr viele ähnliche Beispiele von anderen Arten und Merkmalen, die gezüchtet worden sind. Die Fragen, die uns hier interessieren, lauten: Wie effizient ist diese Methode der selektiven Züchtung? Erreicht man signifikante Unterschiede zwischen den Linien schon nach wenigen Generationen (Abb. 11.4), oder sind Hunderte oder sogar Tausende Generationen nötig? Sind die Ergebnisse, die durch künstliche Selektion erzielt werden, auch auf die natürliche Selektion übertragbar und damit für die Evolutionsbiologie relevant? Unsere erste Aufgabe ist es, eine quantitative Beschreibung für das in Abb. 11.8 beschriebene Selektionsexperiment zu erstellen. Hier ist eine Population von potenziellen Eltern zu sehen, deren Phänotypen nach der in diesem Kapitel gemachten Annahme normalverteilt sind (Abb. 11.8, oben). Von dieser Population wird eine Gruppe von Individuen gewählt, die als Eltern für die nächste Generation dienen. Dazu wird beispielsweise der Phänotyp von 100 Individuen von jedem Geschlecht gemessen und davon jeweils 20 % an Individuen mit den höchsten und niedrigsten Phänotypwerten als Eltern ausgewählt. Die Individuen mit den höchsten Werten werden in Paare von Männchen und Weibchen aufgeteilt und die

Abb. 11.8  Selektionsexperiment. Die obere Kurve zeigt die Verteilung des quantitativen Merkmals in der Elternpopulation. Der grau gefüllte Bereich umfasst die für das Experiment ausgewählten Eltern mit den höchsten Phänotypwerten. Die Verteilung der Phänotypen der Nachkommen (der Eltern mit den höchsten Phänotypwerten) ist unten gezeigt. (Modifiziert nach Gillespie 2004, Abb. 6.5, mit freundlicher Genehmigung von John Hopkins University Press, Copyright 1998, 2004 John Hopkins University Press)

162

11  Quantitative Merkmale – genetische Basis und Effekt der Selektion

midparent-Werte notiert; das Gleiche geschieht mit den Individuen mit den niedrigsten Werten. Der Mittelwert der midparent-Werte jeder der beiden Gruppen, ausgedrückt als Abweichung vom Mittelwert der Ausgangspopulation der potenziellen Eltern, wird als Selektionsdifferenz S (selection differential) bezeichnet. Für die Individuen mit den höchsten Phänotypwerten ist dieser Vorgang in Abb. 11.8 dargestellt. Man sieht, dass die Phänotypen der Nachkommen der besten Individuen wiederum normalverteilt sind, aber der Mittelwert dieser Verteilung nach rechts gerückt ist (Abb. 11.8, unten). Die Abweichung dieses Mittelwertes von dem der potenziellen Eltern wird Selektionserfolg R (response) genannt. Wird dieses Verfahren dann Generation für Generation wiederholt, führt es typischerweise zu einem Ergebnis wie in Abb. 11.4 dargestellt. Unsere nächste Aufgabe besteht darin, einen mathematischen Zusammenhang zwischen der Selektionsdifferenz S und dem Selektionserfolg R herzustellen. Aus Gl. 11.15, 11.16 und 11.17 folgt, dass

E{PO |PM = x} = βx = h2 x.

(11.20)

Nehmen wir nun an, dass wir im Selektionsexperiment n Paare haben und jedes einen midparent-Wert xi hat, dann gilt für den Erwartungswert des Phänotyps der Nachkommen

1 1 E{PO |PM = xi } = h2 xi . i i n n

(11.21)

Die linke Seite von Gl. 11.21 ist der durchschnittliche Erwartungswert der Nachkommen (gemittelt über alle n Elternpaare und ausgedrückt als Abweichung vom Mittelwert der Eltern), was wir oben als Selektionserfolg R definiert haben. Der Ausdruck auf der rechten Seite von Gl. 11.21 ist das Produkt von h2 mit dem Mittelwert der Phänotypen der selektierten Eltern, den wir als Selektionsdifferenz S bezeichnet haben. In anderen Worten, der Effekt der gerichteten Selektion auf ein quantitatives Merkmal in einer Generation ist

R = h2 S.

(11.22)

Diese sogenannte Züchtergleichung (breeder’s equation) ist eine der bekanntesten Resultate der Quantitativen Genetik und spielt insbesondere in der Züchtungsforschung eine wichtige Rolle. Sie beantwortet die Fragen über die Effizienz der künstlichen Selektion, die wir zu Beginn dieses Abschnitts gestellt haben. Sie besagt nämlich, dass man für Merkmale mit mittlerer oder hoher Heritabilität im Allgemeinen nur wenige Generationen selektieren muss, um signifikante Unterschiede zwischen den gezüchteten Hoch- und Niedriglinien zu erhalten. Die Gl. 11.22 kann aber auch in der Evolutionsbiologie verwendet werden, um die Effizienz der natürlichen Selektion zu schätzen, wie im folgenden Beispiel gezeigt werden soll. Gibbs und Grant (1987) haben bei Darwins Finken die Heritabilität h2 und den Selektionserfolg R für verschiedene Merkmale, die mit der Körpergröße in Relation stehen, gemessen und daraus mittels Gl. 11.22 die Selektionsdifferenz S bestimmt. Sie beobachteten, dass die Körpergröße bei Mittel-Grundfinken (­Geospiza fortis) von 1976 auf 1977 durchschnittlich 4 % zugenommen hat. Da deren Heritabilität ca. 80 % ist (Abschn. 11.3.2), bedeutet dies, dass S = 0,04 0,8 = +5 % beträgt. Während

Literatur

163

der Dürreperiode von 1976–1977 haben größere Geospiza fortis-Individuen mit größeren Schnäbeln besser überlebt und die Finkenpopulation wuchs. In den normalen Jahren 1981–1982 aber brachte ein größerer Schnabel kaum einen Selektionsvorteil, und die Selektionsdifferenz S war relativ klein. Nach dem El Niño (eine nicht-zyklische Strömungsveränderung des ozeanographisch-meteorologischen Systems des äquatorialen Pazifiks, die einen starken Einfluss auf das Klima hat) von 1983 haben kleinere Finken mit kleineren Schnäbeln besser überlebt, sodass die Selektionsdifferenz S negative Werte annahm. Diese Beobachtungen, die in einem engen Zeitraum gemacht wurden, zeigen, dass die natürliche Selektion sehr effizient auf Umweltänderungen reagieren kann. Sie gelten heute als ein Paradebeispiel für schnelle Adaptation. Wir kommen in Abschn. 12.2.3 auf dieses zurzeit hochaktuelle Thema zurück.

Übungen

11.1 Viele Biometriker einschließlich Karl Pearson glaubten nicht, dass die Variabilität von quantitativen Merkmalen den Mendel’schen Regeln folgt, waren aber von der Wirkung der natürlichen Selektion auf quantitative Merkmale überzeugt. Erklären Sie diesen Widerspruch. 11.2 Zeigen Sie, dass die phänotypische Varianz eines Merkmals unter den bei der Ableitung gemachten Annahmen durch Gl. 11.6 ausgedrückt werden kann. 11.3 Zeigen Sie, dass die Kovarianz zwischen einem Elternteil und dem Kind durch die Gl. 11.10 gegeben ist. Warum ist die Annahme Cov{εP , εO } = 0 problematisch?

Literatur Falconer DS, Mackay TFC (1996) An introduction to quantitative genetics, 4. Aufl. Longman, London Fisher RA (1918) The correlation between relatives on the supposition of Mendelian inheritance. Trans R Soc Edinburgh 52:399–433 Gibbs HL, Grant PR (1987) Oscillating selection on Darwin’s finches. Nature 327:511–513 Gillespie JH (2004) Population genetics – a concise guide, 2. Aufl. The Johns Hopkins University Press, Baltimore Hartl DL, Clark AG (2007) Principles of population genetics, 4. Aufl. Sinauer Associates, Sunderland Mackay TFC (2001) Quantitative trait loci in Drosophila. Nat Rev Genet 2:11–20 Mendel G (1866) Versuche über Pflanzenhybriden. Verhandl Naturforschenden Ver Brünn 4:3–47 Provine WB (1971) The origins of theoretical population genetics. University of Chicago Press, Chicago Qanbari S, Pausch H, Jansen S, Somel T, Strom TM et al (2014) Classic selective sweeps revealed by massive sequencing in cattle. PLoS Genet 10:e1004148 Sax K (1923) The association of size differences with seed-coat pattern and pigmentation in Phaseolus vulgaris. Genetics 8:552–560

Polygene Adaptation

12

Wir beginnen dieses Kapitel mit der Beschreibung von genomweiten Assoziationsstudien, die seit einigen Jahren eingesetzt werden, um einen Zusammenhang zwischen Genotypen und Phänotypen herzustellen (Abschn. 12.1). Diese Methode ist verwandt mit der QTL-Analyse und wird gegenwärtig zusätzlich zu dieser eingesetzt oder auch alleine angewendet. Die Selektion spielt bei diesem Verfahren keine Rolle. Anschließend untersuchen wir aber, ob die gefundenen Assoziationen in natürlichen Populationen durch Selektion verursacht worden sind und die Adaptation von Organismen an ihre Umwelt beeinflussen (Abschn. 12.2 und 12.3). Der Fokus dieses Kapitels liegt dabei auf der Adaptation von quantitativen Merkmalen mit polygener Basis.

12.1 Genomweite Assoziationsstudien Eine genomweite Assoziationsstudie (GWAS, genome-wide association study) ist eine Untersuchung der molekularen Variabilität einer Population, um ein quantitatives Merkmal mit bestimmten Allelen oder Haplotypen zu assoziieren. In anderen Worten, das Ziel von GWAS ist es, die Allele oder Haplotypen zu identifizieren, die gemeinsam mit einem Phänotypen auftreten. Dabei werden, wie bei der QTL-Analyse (Abschn. 11.2), molekulare Marker (meistens SNPs) verwendet, mit deren Hilfe die assoziierten Allele definiert werden. Die Verwandtschaft zwischen einer GWAS und der QTL-Analyse geht aber noch weiter, weil in einer GWAS das Konzept des Kopplungsungleichgewichts (LD) eine zentrale Rolle spielt, mit dessen Hilfe Assoziationen zwischen Phänotyp und Marker gesucht werden (im Abschn. 11.2.2 haben wir beschrieben, dass das LD zu einer fein strukturierten Kartierung von QTL verwendet werden kann). GWA-Studien werden seit 2007 durchgeführt (Visscher et al. 2017). Dabei wird für jeden individuellen Marker getestet, ob es einen signifikanten Unterschied im

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019 W. Stephan und A. C. Hörger, Molekulare Populationsgenetik, https://doi.org/10.1007/978-3-662-59428-5_12

165

166

12  Polygene Adaptation

Mittelwert des Merkmals zwischen den alternativen Varianten am Marker-Locus gibt. Ein signifikanter Unterschied bedeutet, dass ein LD zwischen Merkmal und Marker vorliegt und ein Gen, das das Merkmal beeinflusst, eng mit dem Marker gekoppelt ist. Da Tausende solcher Tests in einer Studie durchgeführt werden müssen, ist es wichtig, dabei stringente Signifikanzkriterien anzuwenden, um eine falsche Assoziation von Merkmal und Allel möglichst auszuschließen. Bei Untersuchungen von menschlichen Krankheiten liegt das Signifikanzniveau beispielsweise bei ungefähr 5 × 10−8 (Sved und Hill 2018). Ein weiteres Problem dieser Tests in GWA-Studien ist, dass ihre Trennschärfe relativ niedrig ist, wenn die Frequenzen der Varianten am Marker- und Merkmal-Locus nicht ungefähr gleich groß sind. Dies ist insbesondere der Fall, wenn die Merkmalvariante selten vorkommt (weil z. B. das Allel nachteilig ist) und das Marker-Allel hohe Heterozygotie aufweist. Es ist dann schwierig, solche Gene in einer GWAS zu entdecken, was Fragen nach der unentdeckten Heritabilität (missing heritability) aufwirft. Trotz dieser Probleme werden GWA-Studien aber sehr häufig angewandt, insbesondere in der Medizin. So stieg die Anzahl der GWA-Studien am Menschen von unter 80 im Jahr 2008 auf über 10.000 im Jahr 2016 an (Visscher et al. 2017). Seit einigen Jahren werden GWA-Studien auch in anderen Modellsystemen (z. B. Arabidopsis thaliana und Drosophila melanogaster) oder in domestizierten Tier- und Pflanzenarten durchgeführt. Hierbei ist es meist das Ziel, die genetischen Komponenten, die an der Ausprägung eines bestimmten adaptiven Merkmals beteiligt sind, aufzudecken. Ergebnisse aus diesen Studien wurden in diversen Übersichtsartikeln zusammengefasst (z. B. in Weigel und Nordborg 2015; Josephs et al. 2017; Mackay und Huang 2018). Die wichtigsten Befunde der bisher durchgeführten GWA-Studien sind: 1. Quantitative Merkmale sind hochgradig polygen. GWAS-Resultate sind für Hunderte von quantitativen Merkmalen publiziert worden, wovon die meisten Volkskrankheiten wie Diabetes und Bluthochdruck betreffen (Visscher et al. 2017). Daneben sind aber auch molekulare Phänotypen wie Genexpression und DNA-Methylierung durch GWAS analysiert worden. Das am gründlichsten untersuchte Merkmal ist die Körpergröße des Menschen (Turchin et al. 2012). Diese wird von genetischen Varianten an mehr als 700 Loci beeinflusst. Allerdings ist diese Schätzung mit Vorsicht zu betrachten, da dabei die Populationsstruktur nicht adäquat berücksichtigt worden ist (Sohail et al. 2019) und eine GWAS, die auf LD beruht, empfindlich davon abhängen kann (Abschn. 7.2). Die Ergebnisse von GWA-Studien in anderen Organismen sind größtenteils ähnlich. In D. melanogaster wurde beispielsweise gefunden, dass die Variabilität in der Kältetoleranz durch mehr als 100 Loci bestimmt wird (Huang et al. 2014). Manche quantitativen Merkmale werden jedoch auch durch wenige Loci mit größeren Effekten beeinflusst, wie es z. B. bei diversen Merkmalen in A. thaliana der Fall ist (Atwell et al. 2010). Der Begriff „polygen“ bedeutet, dass sehr viele Loci die Variation in einer Population beeinflussen. Aber was impliziert das für ein bestimmtes

12.2  Theorie der polygenen Adaptation

167

I­ ndividuum? Es bedeutet, dass jedes Individuum eine große Anzahl von Allelen hat, die den Wert eines Merkmals vergrößern (+), und eine große Anzahl von Allelen, die den Wert verkleinern (−). Wegen der großen Anzahl von Allelen gibt es so viele Kombinationen dieser (+/−)-Varianten, dass jedes Individuum wahrscheinlich seine eigene Kombination von Allelen hat. Die Effektgröße jedes Allels wird dann gegen einen durchschnittlichen genetischen Hintergrund gemessen, und die Effektgröße jedes Locus ist sehr klein. Aufgrund der kleinen Effektgrößen ist der Einfluss der Selektion auf einzelne polygene Varianten im Allgemeinen sehr schwach (Abschn. 12.2). Es ist daher kaum möglich, an ihnen manipulative Experimente durchzuführen, um Hypothesen zu testen. Die Selektion in hochpolygenen Fällen bildet daher einen Gegensatz zu starker Selektion, die z. B. durch selective sweeps entdeckt wird und die die Durchführung von funktionellen Untersuchungen ermöglicht (Abschn. 8.3.2). 2. Pleiotropie ist weitverbreitet. Die Tatsache, dass jedes bisher analysierte Merkmal mit Varianten an Hunderten von Loci assoziiert ist, legt nahe, dass umgekehrt viele der zugrunde liegenden genetischen Varianten mehrere Merkmale beeinflussen, d. h. pleiotrop sind. Mutations- und Stammbaumanalysen haben dies für verschiedene Krankheitssyndrome bestätigt (Visscher et al. 2017). 3. Epistasie (d. h. nicht-additive genetische Interaktionen zwischen polymorphen Loci) ist ein wichtiger Faktor, der die Variation von quantitativen Merkmalen bestimmt. Für life-history-Merkmale wie Kältetoleranz von D. melanogaster wurde z. B. entdeckt, dass die Mehrheit der gefundenen Marker nicht einzeln, sondern in epistatischen Netzwerken wirkt (Huang et al. 2014).

12.2 Theorie der polygenen Adaptation QTL-Analysen und GWA-Studien legen nahe, dass viele adaptive Merkmale durch eine große Zahl von Genen kontrolliert werden. Das bedeutet, dass Adaptation nicht nur durch gerichtete positive Selektion an einzelnen Genen verursacht wird, sondern durch Selektion an vielen Genen, die auch als polygene Selektion bezeichnet wird, erfolgen kann. Die adaptiven Signaturen, die im Genom zu beobachten sind, reichen deshalb von selective sweeps im Falle von starker positiver Selektion an einzelnen Genen bis zu kleinen Allelfrequenzänderungen bei polygener Selektion an vielen Loci. Im Folgenden betrachten wir zunächst ein quantitativ-genetisches Modell der natürlichen Selektion, das den gesamten Bereich dieser Signaturen (von selective sweeps an einzelnen Loci bis zu kleinen Änderungen von Allelfrequenzen im polygenen Fall) abdeckt. Im Abschn. 12.3 beschreiben wir dann, wie die polygenen Signaturen kleiner Frequenzänderungen im Genom entdeckt werden können (die Identifikation von selective sweeps im Genom wurde ja bereits im Abschn. 8.2 besprochen). Schließlich geben wir einen Überblick über die wichtigsten Ergebnisse dieser Untersuchungen.

12  Polygene Adaptation

168

12.2.1 Multi-Locus-Modell der gerichteten und stabilisierenden Selektion Wir betrachten ein quantitatives Merkmal, das additiv (keine Dominanz oder Epistasie) durch n Loci bestimmt wird. Jeder Locus hat zwei Allele, wobei ein Allel als „ + -Allel“ bezeichnet wird, wenn es den phänotypischen Wert des Merkmals erhöht, unabhängig vom Zustand des Merkmals, der von den restlichen Loci bestimmt wird. Das andere Allel am gleichen Locus ist das „ − -Allel“, das den Phänotyp erniedrigt. Der phänotypische Effekt des +-Allels am Locus i ist γi/2, der des anderen Allels −γi/2. Die Frequenz des +-Allels am Locus i bezeichnen wir als xi. Die Population wird als sehr (theoretisch unendlich) groß angenommen, und es herrscht Zufallspaarung. Die Werte z, die das Merkmal annimmt, sind kontinuierlich verteilt. Für deren Mittelwert z und Varianz v (gemittelt über die Individuen der Population) gilt dann n z= γi (2xi − 1) (12.1) i=1 und

v=2

n

γ 2 xi (1 − xi ) i=1 i

(12.2)

(Bürger 2000, Abschn. 3.1). Ferner nehmen wir an, dass die Fitness eines Individuums mit dem Merkmalswert z normalverteilt ist, wenn z vom optimalen Fitnesswert z0 abweicht:

  1 W (z) = exp − s(z − z0 )2 , 2

(12.3)

wobei s die Stärke der Selektion auf das Merkmal (nicht auf ein Allel) misst. Dann gilt für die Änderung der Allelfrequenz am Locus i (Bürger 2000, Abschn. 3.1)

s d xi = −sγi xi (1 − xi )�z − γi2 xi (1 − xi )(1 − 2xi ) + µ(1 − 2xi ), (12.4) dt 2 wobei t die kontinuierliche Zeitvariable ist; i  = 1, …, n, µ ist die Mutationsrate und z = z − z0 ist die Abweichung des Mittelwertes vom Fitnessoptimum z0. Die Selektionsterme dieser gewöhnlichen Differenzialgleichung (Abschn. 13.1.3) wurden von Wright (1935) eingeführt und von Bulmer (1972) um den Mutationsterm ergänzt. Der erste Selektionsterm beschreibt die Wirkung der gerichteten Selektion, die den Mittelwert der Population näher an das Fitnessoptimum z0 rückt, falls �z < 0 ist. Dies wird ersichtlich, wenn man diesen Term mit der rechten Seite von Gl. 5.17 vergleicht. Beide Terme sind im Fall, dass keine Dominanz herrscht, identisch, bis auf den Faktor −γi �z. Ferner wird durch diesen Vergleich deutlich, dass die Stärke der Selektion auf ein Allel (der Selektionskoeffizient) am Locus i durch das Produkt −sγi �z gegeben ist (nicht durch s). Der Selektionskoeffizient

12.2  Theorie der polygenen Adaptation

169

ist damit zeitabhängig. Er kann im polygenen Fall sehr klein sein, wenn die Effekte sehr klein sind (Abschn. 12.1). Der zweite Selektionsterm beschreibt die Wirkung der sogenannten stabilisierenden Selektion. Diese Form der Selektion bestimmt die Breite der Verteilung von z um das Optimum z0. Der dritte Term auf der rechten Seite von Gl. 12.4 beschreibt Frequenzänderungen der +- und −-Allele, die durch Mutation zustande kommen. Die Mutationsrate vom +-Allel zum −-Allel und umgekehrt vom −-Allel zum +-Allel wird hier der Einfachheit halber durch einen einzigen Parameter beschrieben. Dies könnte aber leicht verallgemeinert werden.

12.2.2 Allelfrequenzen und Varianz im Fitnessoptimum Wir untersuchen zunächst die Eigenschaften dieses Modells im Gleichgewicht des Fitnessoptimums z0, d. h. die linke Seite der Gl. 12.4 für i = 1, …, n ist null (Abschn. 13.1.3). Zusätzlich gilt, dass der erste Term der rechten Seite dieser Gleichung wegen z = 0 ebenfalls null ist. Wir erhalten daher die stabilen Allelfrequenzen im Fitnessoptimum als (Übung 12.1)

x˜ i =

1  2, 

1 2

� 1− ± 1 2

γˆ 2 , γi2

falls γi < γˆ

(12.5a)

falls γi ≥ γˆ

(12.5b)

 Dabei ist γˆ = 2 2µ s . Hier ist zu beachten, dass die Gl. 12.5a und 12.5b nur im Fitnessoptimum gelten, nicht allgemein im Gleichgewicht (de Vladar und Barton 2014). Eine weitere interessante Eigenschaft der Gl. 12.5 ist, dass die Gleichgewichtslösung (Gl. 12.5a) nur stabil ist, wenn der Effekt γi kleiner als γˆ ist und für größere Effekte die stabilen Gleichgewichtsfrequenzen durch Gl. 12.5b gegeben sind. Dies bedeutet, dass γˆ einen Schwellenwert darstellt, der kleine (minor) von großen (major) Alleleffekten unterscheidet. Diese Abgrenzung wurde von de Vladar und Barton (2014) für dieses Modell eingeführt und wird hier ­übernommen. Im nächsten Schritt berechnen wir die Varianz der Population im Fitnessoptimum z0. Dazu spalten wir die Summe von Gl. 12.2 in die Anteile auf, die von den Loci mit großen Effekten und von denen mit kleinen Effekten beigetragen werden:   v=2 γi2 xi (1 − xi ) + 2 γ 2 xi (1 − xi ). (12.6) γi ≥γˆ γi 1. =− + i(i − 1) i i−1 2.8  Man berechne G und zeichne es als eine Funktion von G. Dies zeigt, dass G von unten und oben gegen den Gleichgewichtspunkt konvergiert (Abschn. 13.1.2). 2.9  Man betrachte einen Koaleszenten mit zwei Allelen. H ist die Wahrscheinlichkeit, dass die beiden Allele verschieden sind. Nun folgen wir den Linien der beiden Allele rückwärts in der Zeit. Sie sind genau dann verschieden, wenn eine Mutation auf einem der beiden Äste geschieht, bevor ein Koaleszenzereignis eintritt. Die Wahrscheinlichkeit einer Mutation pro Generation ist 2u und die Gesamtwahrscheinlichkeit, dass eine Mutation oder ein Koaleszenzereignis eintritt, ist 1 2u + 2N . Die Wahrscheinlichkeit, dass eine Mutation geschieht unter der Annahme,

192

Lösungsvorschläge zu den Übungen

dass eines der beiden Ereignisse eintritt, ist dann 2u 1 . Dies ist auch genau die 2u+ 2N Wahrscheinlichkeit, dass die beiden Allele verschieden sind. Die Multiplikation von Zähler und Nenner mit 2N ergibt die Gl. 2.8. 2.10  Die Lösung folgt einem ähnlichen Argument wie diejenige von Übung 2.9. 1 Die Wahrscheinlichkeit eines Koaleszenzereignisses pro Generation ist 2N und die einer Mutation 2u. Die Wahrscheinlichkeit, dass eine Mutation vor einem θ . Ferner ist die WahrscheinlichKoaleszenzereignis erfolgt, ist daher 1 2u = 1+θ 2N +2u

1 . Daraus folgt die keit, dass ein Koaleszenzereignis vor einer Mutation auftritt, 1+θ angegebene Formel mithilfe der Multiplikationsregel der Wahrscheinlichkeitstheorie (Abschn. 13.2.1).

Kapitel 3 3.1  In Gl. 2.6 ersetzen wir u durch m, um den Einfluss der Migration auf die Heterozygotie zu beschreiben. Ferner verallgemeinern wir die Gl. 2.6, indem wir N durch Ne ersetzen. Dann erhalten wir

G′I

   1 1 + 1− GI (1 − m)2 . = 2Ne 2Ne 

Für den biologisch relevanten Fall, dass m  1 erhalten wir daraus analog zu Abschn. 2.2

H˜ I ≈

4Ne m . 1 + 4Ne m

3.2  Simulieren Sie die Populationen mit räumlicher oder zeitlicher Struktur mithilfe von ms (Hudson 2002). Simulieren Sie jedes Modell 1000-mal. Fassen Sie die Simulationsdaten im SFS zusammen. Berechnen Sie Tajimas D mithilfe von Gl. 3.6. 3.3  Zeichnen Sie die Verteilung von D für jedes Modell. Berechnen Sie die Betaverteilung mithilfe von Formel 47 von Tajima (1989). Zum Vergleich mit den Simulationsergebnissen zeichnen Sie die Betaverteilung in die jeweiligen Abbildungen der simulierten Verteilungen ein. Für welche Modelle ist die Übereinstimmung gut? 3.4  Im Fall von n = 2 Sequenzen ist π = L1 Π12 = LS = θW . Daraus folgt, dass D = 0. Für drei Sequenzen gilt ebenfalls D = 0. Dies zu zeigen, ist jedoch schwieriger. Man kann sich aber klarmachen, dass die Berechnung von π nicht von der Verteilung der SNPs abhängt; d. h. man kann annehmen, dass alle Mutationen, die zu SNPs führen, in einer der drei Sequenzen aufgetreten sind (z. B. Sequenz 1). 2 Π12 = a31L S = θW . Letzteres folgt aufgrund der Dann gilt: Π12 = Π13 und π = 3L Gl. 1.4, 1.5 und 1.6 aus Box 1.2.

Lösungsvorschläge zu den Übungen

193

Kapitel 4 4.1  Einsetzen der angegebenen Daten in Gl. 4.1 ergibt ν = 1,52 × 10−8 pro Nukleotid pro Jahr. Die Gl. 4.2 hat nur einen geringen Einfluss, der in diesem Fall vernachlässigbar ist. 4.2  Die Abbildung zeigt, dass κ als Funktion von δ wächst und für δ = ¾ gegen unendlich strebt; d. h. die Divergenz zwischen beiden Sequenzen ist maximal. Beide Sequenzen sind dann total zufällig. Für kleine Werte von δ hingegen sind κ und δ ungefähr gleich groß, wie es das infinite sites-Modell fordert. Letzteres folgt aus Gl. 13.3. 4.3  In einer Population mit 2N Allelen wird ein Allel durch genetische Drift fixiert, während alle anderen Allele verloren gehen. Jedes Allel (einschließlich 1 , fixiert zu wereiner neu entstandenen Mutation) hat die Wahrscheinlichkeit 2N den. Dieses Argument kann man auf ein beliebiges neutrales Allel der Frequenz p0 übertragen. 4.4  Die Rate k, mit der neutrale Mutationen fixiert werden, ist gegeben durch das Produkt der durchschnittlichen Anzahl von neuen neutralen Mutationen pro Generation und der Wahrscheinlichkeit, mit der diese fixiert werden, also 1 = u. k = 2Nu × 2N 4.5  Diese Frage kann man ohne weitere Daten, die die durchschnittlichen Diversitätswerte genomweit oder in vielen Regionen wiedergeben, nicht eindeutig beantworten. Da die Divergenz in der 5’-Region und in der codierenden Region von Adh ungefähr gleich ist, sollte man auch eine etwa gleich große Nukleotiddiversität in beiden Regionen erwarten. Die Abweichung von der strikt-neutralen Theorie könnte also durch eine zu niedrige Diversität in der 5’-Region verursacht worden sein oder durch eine zu hohe Diversität in der codierenden Region oder durch beides. Wir werden auf diese Frage letztlich in Kap. 9 zurückkommen. 4.6  Beim Eintragen der Polymorphismus- und Divergenzdaten in eine 2×2 -Kontingenztafel findet man die folgenden Häufigkeiten: Fixiert

Polymorph

Nicht-synonym

 7

 2

Synonym

17

42

und durch den exakten Test von Fisher oder den G-Test (Abschn. 13.3.2) erhält man P  0, sodass u ≪ sh). An dieser Abbildung erkennt

Lösungsvorschläge zu den Übungen

195

man, dass es nur einen stabilen Gleichgewichtswert gibt (Abschn. 13.1.2). Für h = 0 gibt es auch nur ein stabiles Gleichgewicht. 6.2  Die Gleichgewichtsfrequenz der heterozygoten Träger ist q˜  = 10/94.075/2 = 5,31 × 10−5 , da p˜ ≈ 1. Die relative Fitness der Träger ist gegeben als 1 − hs = 0,25 0,8. Durch Einsetzen der 1,27 = 0,2. Daraus folgt hs =  Gleichgewichtsfrequenz und hs in Gl. 6.3 erhält man u = 4,25 × 10−5 . Dieser Wert der Mutationsrate wurde durch andere Messmethoden bestätigt. 6.3  Der Unterschied zwischen den Gl. 6.6 und 6.7 ist, dass im vollständig rezessiven Fall ein einziger genetischer Tod zwei nachteilige Mutationen von einer Population eliminiert, da Selektion nur auf den A2A2-Genotyp wirkt, während im anderen Fall die heterozygoten Träger betroffen sind. Selektion ist also im vollständig rezessiven Fall zweimal so effizient wir im anderen. 6.4  Mit den Fitnesswerten für den Fall des Heterozygotenvorteils (Abschn. 5.1.2.2) erhält man w = p2 (1 − s) + 2pq + q2 (1 − t) = 1 − p2 s − q2 t. Einsetzen der Gleichgewichtsfrequenzen der Gl. 5.11 führt zu Gl. 6.8. 6.5  Ersetzen Sie zunächst p1 in Gl. 6.11 durch 1 − q1. Dann erhalten Sie eine quadratische Gleichung in q1, die leicht aufgelöst werden kann. Das Ergebnis ist in Gl. 6.12 wiedergegeben. 6.6  Entwickeln Sie die Exponentialfunktionen auf der rechten Seite von Gl. 6.15 1 bis zum linearen Term (siehe Gl. 13.2). Dann erhalten Sie 2N als Fixierungswahrscheinlichkeit.

Kapitel 7 7.1  Die Gl. 7.1 kann abgeleitet werden, indem man die vier genannten Formeln nach den Gametenfrequenzen auflöst und in die Gl. 7.1 einsetzt. Die Terme mit Produkten der Allelfrequenzen heben sich dabei auf. 7.2  Nehmen Sie an, dass c = 0,5 × 10−8 d eine lineare Funktion von d ist, wobei d die Distanz von Paaren von SNPs angibt. Zeichnen Sie die Funktion (Gl. 7.4) für 0 ≤ d ≤ 600 für die europäische Population. Zeichnen Sie in die gleiche Abbildung die Funktion (Gl. 7.4) für c = 5,0 × 10−8 d, und tragen Sie die Werte aus der in der Übung angegebenen Tabelle ein. Prüfen Sie, ob die beobachteten Werte von r2 oberhalb der beiden Kurven liegen. 7.3  Dies lässt sich z. B. durch Einsetzen von Werten von Ne0 und Ne1 in Gl. 7.4 und Plotten dieser Funktion verifizieren. Der Wert der Rekombinationsrate pro Nukleotidstelle bleibt dabei konstant.

196

Lösungsvorschläge zu den Übungen

Kapitel 8 8.1  Sie müsste null sein, wenn die Stichprobe unmittelbar nach der Fixierung des selektierten Allels entnommen worden wäre. Zu einem späteren Zeitpunkt kann sich die Nukleotiddiversität wieder durch neue Mutationen und genetische Drift erholt haben. Möglicherweise spielt auch Migration von anderen Subpopulationen eine Rolle. 8.2  Zeichnen Sie beide Funktionen in eine Abbildung. Da hitchhiking im Allgemeinen die Frequenzen von Allelen erniedrigt (sie gehen verloren), liegt im Bereich 0