Statistik für Politikwissenschaftler [Reprint 2016 ed.] 9783486791204, 9783486238471

Das Lehrbuch zur Vermittlung von Grundkenntnissen der empirischen Politikforschung und Datenauswertung für Politikwissen

227 29 12MB

German Pages 397 [400] Year 1998

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Statistik für Politikwissenschaftler [Reprint 2016 ed.]
 9783486791204, 9783486238471

Table of contents :
Vorwort
Inhaltsverzeichnis
1. Einleitung
2. Geschichte und Arbeitsbereiche der Statistik
3. Der sozialwissenschaftliche Forschungsprozeß
4. Grundbegriffe der Statistik
5. Datenerhebung und Datenaufbereitung
6. Eindimensionale Häufigkeitsverteilungen
7. Maßzahlen bei univariaten Häufigkeitsverteilungen
8. Konzentrationsmaße
9. Zweidimensionale Häufigkeitsverteilungen
10. Messen von Zusammenhängen zwischen zwei Merkmalen
11. Regressionsanalyse
12. Clusteranalyse
13. Qualitative Comparative Analysis (QCA)
14. Statische Testverfahren und Konfidenzintervalle
15. Die Darstellung quantitativer Informationen
16. Studienpraktische Tips und Hinweise
Anhangstabelle 1: Standardnormalverteilung
Anhangstabelle 2: t-Verteilung und zweiseitige Signifikanzgrenzen
Literatur
Register

Citation preview

Lehr- und Handbücher der Politikwissenschaft Herausgegeben von

Dr. Arno Mohr Bisher erschienene Werke: Gabriel · Holtmann, Handbuch Politisches System der Bundesrepublik Deutschland, 2. Auflage Glöckler-Fuchs, Institutionalisierung der europäischen Außenpolitik Jäger · Welz, Regierungssystem der USA, 2. Auflage Lehmkuhl, Theorien Internationaler Politik, 2. Auflage Lietzmann · Bleek, Politikwissenschaft - Geschichte und Entwicklung Mohr (Hrg. mit Claußen, Falter, Prätorius, Schiller, Schmidt, Waschkuhn, Winkler, Woyke), Grundzüge der Politikwissenschaft, 2. Auflage Naßmacher, Politikwissenschaft, 3. Auflage Pilz · Ortwein, Das politische System Deutschlands, 2. Auflage Schmid, Verbände Schumann, Repräsentative Umfrage, 2. Auflage Sommer, Institutionelle Verantwortung Wagschal, Statistik für Politikwissenschaftler Waschkuhn, Demokratietheorien Woyke, Europäische Union

Statistik für Politikwissenschaftler Von

Dr. Uwe Wagschal

R. Oldenbourg Verlag München Wien

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Wagschal, Uwe: Statistik für Politikwissenschaftler / von Uwe Wagschal. - München ; Wien : Oldenbourg, 1999 (Lehr- und Handbücher der Politikwissenschaft) ISBN 3-486-23847-7

© 1 9 9 9 R. Oldenbourg Verlag Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München ISBN 3-486-23847-7

Statistik für Politikwissenschaftler

V

Vorwort Dieses Lehrbuch ist das Resultat verschiedener Lehrveranstaltungen zur statistischen Methodenausbildung, die der Autor am Institut für Politische Wissenschaft der Universität Heidelberg sowie am Fachbereich 8 der Universität Bremen abgehalten hat. Dabei wurden den Teilnehmern Grundkenntnisse der empirischen Politikforschung und der Datenauswertung vermittelt. Das Lehrbuch richtet sich an Anfänger, wobei Vorkenntnisse nicht vorausgesetzt werden. Besonderer Wert wird auf Anschaulichkeit und Verständlichkeit gelegt. Aus diesem Grund wird auch auf einen doppelten Ausweis der weiblichen Form („Student und Studentin", „Studentinnen") verzichtet. Die statistischen Verfahren sind anhand von Beispielen dargestellt, die sich an politikwissenschaftlichen Problemen und Fragestellungen orientieren. Sie sind einfach von Hand nachzurechnen. Für Verbesserungsvorschläge, Anmerkungen und Kritik ist der Autor jederzeit dankbar. Auf Übungsaufgaben und deren Lösungen wurde bewußt verzichtet, da sie den Rahmen des Buches über eine kritische Größe hinaus ausgedehnt hätten und weil jedes Verfahren ausführlich erklärt wird. Um dem Leser trotzdem die Möglichkeit zu geben, das gelernte Wissen zu vertiefen, kann eine Aufgabensammlung (mit Lösungen) beim Autor (Zentrum für Sozialpolitik, Parkallee 39, 28209 Bremen) angefordert werden. Danken möchte ich Dr. Arno Mohr für die Aufnahme in diese Reihe. Daneben gab es viele tapfere Helfer (Freunde, die es hoffentlich geblieben sind, Studenten und Kollegen), die sich durch dieses Buch oder Teile davon, gearbeitet und es durch ihre Kommentare mit verbessert haben. Herausheben möchte ich Anna Schneider, Petra Riedle und Dr. Herbert Obinger, die sehr viel zum Gelingen mit beigetragen haben. Bernd Brinkhoff hat mir beim Einscannen von Graphiken geholfen. Teile des Buches haben Tobias Ostheim, Petra Heinzelmann, Iris Krimmel, Nico Siegel und Dr. Bernhard Kittel kommentiert. Prof. Johann Bacher gab mir wertvolle Verbesserungsvorschläge bei der Clusteranalyse, während Prof. BergSchlosser, Sven Quenter und Herbert Obinger mich vor Fehlern bei der QCA-Analyse bewahrt haben. Schließlich danke ich Prof. Manfred G. Schmidt für seine Hinweise. Manfred Schmidt hat mich nicht nur zu diesem Buch ermutigt, sondern mir außerdem in Heidelberg und Bremen stets exzellente Arbeitsbedingungen bereitgestellt, deren Finanzierung zum Teil aus dem Leibniz-Preis der Deutschen Forschungsgemeinschaft stammt.

INHALTSVERZEICHNIS

VII

Inhaltsverzeichnis

1. Einleitung

1

2. Geschichte und Arbeitsbereiche der Statistik

6

2.1. Geschichte der Statistik

6

2.1.1. Die praktische Statistik

7

2.1.2. Die Universitätsstatistik

7

2.1.3. Politische Arithmetik

8

2.1.4. Die Wahrscheinlichkeitsrechnung

9

2.2. Definition, Bereiche und Quellen der Statistik

11

3. Der sozialwissenschaftliche Forschungsprozeß

16

4. Grundbegriffe der Statistik

25

4.1 Merkmale, statistische Einheiten und Massen

25

4.2. Meßniveaus und Skalierung

29

4.3. Das Adäquationsproblem

34

4.4. Gütekriterien für Tests und Meßverfahren

39

5. Datenerhebung und Datenaufbereitung

46

5.1. Primärdatenerhebung

46

5.1.1. Die Befragung

47

5.1.1.1. Welcher Erhebungsmodus ist zu wählen?

53

5.1.1.2. Befragungen im Internet

58

5.1.2. Die Beobachtung

60

5.1.3. Das Experiment

61

5.1.4. Die Inhaltsanalyse

64

5.1.5. Das Panel

67

5.2. Auswahlverfahren

68

5.3. Datenaufbereitung

75

6. Eindimensionale Häufigkeitsverteilungen

77

6.1. Nominalskalierte Merkmale

77

6.2. Ordinalskalierte Merkmale

80

6.3. Metrischskalierte Merkmale

82

6.4. Weitere Darstellungsmöglichkeiten von Häufigkeitsverteilungen

86

Vili

STATISTIK FÜR POLITIKWISSENSCHAFTLER

7. Maßzahlen bei univariaten Häufigkeitsverteilungen

93

7.1. Der Begriff der Maßzahl

93

7.2. Lageparameter

95

7.2.1. Der Modalwert (Modus)

95

7.2.2. Der Median

97

7.2.3. Das arithmetische Mittel

99

7.2.4. Das geometrische Mittel

102

7.2.5. Das harmonische Mittel

104

7.2.6. Sonstige Mittelwerte

105

7.2.7. Lageregeln der Mittelwerte

106

7.3. Streuungsparameter

107

7.3.1. Die Spannweite R (Range)

107

7.3.2. Quantilsabstände

109

7.3.3. Die mittlere absolute Abweichung D

111

7.3.4. Varianz und Standardabweichung

113

7.3.5. Der Variationskoeffizient

115

7.3.6. Der Boxplot (Box-and-Whiskers Plot)

116

7.3.7. Maße der Gestalt

118

7.4. Verhältniszahlen

121

7.4.1. Gliederungszahlen 7.4.2. Beziehungszahlen 7.4.3. Meßzahlen 8. Konzentrationsmaße

121 !

123 124 126

8.1. Die Lorenzkurve

127

8.2. Der Gini-Koeffizient

130

8.3. Weitere relative Konzentrationsmaße

135

8.3.1. Der Robin Hood Index

135

8.3.2. Verhältnis der Dezile

138

8.4. Einkommensungleichheit in Deutschland

139

8.5. Absolute Konzentrationsmaße

141

8.5.1. Die Konzentrationsrate

141

8.5.2. Der Herfindahl-Index

143

9. Zweidimensionale Häufigkeitsverteilungen

147

INHALTSVERZEICHNIS

10. Messen von Zusammenhängen zwischen zwei Merkmalen

IX

155

10.1. Die Prozentsatzdifferenz d%

156

10.2. Der Phi-Koeffizient φ

159

10.3. Yules Q

164

10.4. Cramers V und Tschuprows Τ

165

10.5. Der Kontingenzkoeffizient C

168

10.6. Lambda λ

169

10.7. Die biseriale Rangkorrelation

172

10.8. Die punktbiseriale Korrelation

176

10.9. Das Zusammenhangsmaß Eta η

178

10.10. Der Rangkorrelationskoeffizient ρ nach Spearman

181

10.11. Kendalls Rangkorrelationskoeffizient τ-a

184

10.12. Goodman und Kruskals γ

187

10.13. Kendalls Rangkorrelationskoeffizient τ-b und τ-c

191

10.14. Der Korrelationskoeffizient r nach Pearson

193

10.15. Korrelation und Kausalität

203

11. Regressionsanalyse

209

11.1. Lineare Einfachregression

211

11.1.1. Das Grundprinzip der bivariaten Regression 11.1.2. Der Determinationskoeffizient R

2

11.1.3. Annahmen und Probleme 11.2. Multivariate Regression

211 218 222 230

11.2.1. Der Grundgedanke der multivariaten Regression

230

11.2.2. Das Problem der Multikollinearität

236

11.2.3. Das Problem der Heteroskedastizität

239

11.2.4. Die Identifikation von Ausreißern

242

12. Clusteranalyse

246

12.1. Ziele der Clusteranalyse

246

12.2. Ähnlichkeits- und Distanzmaße

248

12.2.1. Ähnlichkeitsmaße

248

12.2.2. Distanzmaße

255

12.3. Verfahren zur Gruppenbildung

261

12.3.1. Das „Single-Linkage" Verfahren

263

12.3.2. Das „Complete Linkage" Verfahren

266

χ

STATISTIK FÜR POLITIKWISSENSCHAFTLER

12.3.3. Graphische Darstellung der Cluster

269

12.3.4. Die Bestimmung der Clusterzahl

270

12.3.5. Weitere hierarchisch-agglomerative Fusionierungsverfahren

276

12.4. Die drei Welten des Wohlfahrtsstaates

278

13. Qualitative Comparative Analysis (QCA)

289

14. Statische Testverfahren und Konfidenzintervalle

305

14.1. Die Nullhypothese und die Alternativhypothese

305

14.2. α-Fehler und ß-Fehler

310

14.3. Konfidenzintervalle und Stichprobengröße

313

14.3.1. Der Stichprobenfehler des Mittelwertes

313

14.3.2. Die Berechnung von Konfidenzintervallen

316

14.3.3. Die Bestimmung des Stichprobenumfanges...

317

14.4. Der t-Test auf den Unterschied zweier Mittelwerte

322

14.5. Verteilungsfreie Testverfahren

330

14.5.1. Der Wilcoxon-Test

330

14.5.2. Der U-Test nach Mann-Whitney

334

15. Die Darstellung quantitativer Informationen

338

16. Studienpraktische Tips und Hinweise

356

16.1. Hinweise zur Abfassung einer Examensarbeit

356

16.2. Statistische Software

360

16.3. Hilfreiche Adressen zur Informationsbeschaffung

364

16.3.1. Nationale Informationsquellen

364

16.3.2. Internationale Informationsquellen

365

Anhangstabelle 1: Standardnormal Verteilung

367

Anhangstabelle 2: t-Verteilung und zweiseitige Signifikanzgrenzen

369

Literatur

370

Stichwortverzeichnis

382

i

EINLEITUNG

I would rather be wrong than vague. David Easton

1. Einleitung

Warum sollte man sich im politikwissenschaftlichen Studium mit Statistik beschäftigen? Diese Frage stellen sich viele Studenten im Grundstudium, sich düster an bittere Mathematikstunden in der gymnasialen Oberstufe erinnernd. Die Legitimation eines Themas ergibt sich im wesentlichen aus der Relevanz, die es für andere Bereiche oder Fragestellungen, zum Beispiel für die Forschung oder den Arbeitsmarkt besitzt. Hier schneidet die Statistik im Vergleich zu anderen wissenschaftlichen Hilfsdisziplinen und Mitteln der Erkenntnisgewinnung nicht schlecht ab. Warum ist es also lohnend, sich intensiver mit Statistik zu beschäftigen? (1) In den Studienplänen der meisten sozialwissenschaftlichen Fakultäten ist Statistik vorgeschrieben, und bei einem Studienortwechsel werden an der neuen Hochschule oftmals Statistikkenntnisse verlangt. (2) Ein bedeutender Teil der Politikwissenschaft in Deutschland, aber vor allem in den angloamerikanischen

Ländern

wendet

statistische

Methoden

an.

An

den

meisten

politikwissenschaftlichen Instituten in Deutschland wird man daher nicht umhinkönnen, sich mit Statistik zu beschäftigen. Es gibt bereits immer mehr Politikwissenschaftler, die auf Statistikkenntnisse Wert legen, so daß diese zum Standard gehören. (3) Für das Verständnis eines großen Teils der fachwissenschaftlichen Literatur und Diskussion sind statistische Kenntnisse unentbehrlich. (4) Als Qualifikation für den Arbeitsmarkt sind Statistik- und Computerkenntnisse von Vorteil. In nahezu allen akademischen Berufen muß man zumindest Grundkenntnisse in Statistik vorweisen können, mit reiner „Verbalakrobatik" ist heute kaum noch Karriere zu machen. (5) Statistik macht Spaß und ist interessant. Sicher werden viele Studenten das Fach Politikwissenschaft mit der Vorstellung gewählt haben, sich nie mehr mit

Mathematik

beschäftigen zu müssen, doch dies ist ein Irrtum. Es kann ungemein interessant sein, politikwissenschaftliche Fragen mit mathematischen und statistischen Methoden zu

2

STATISTIK FÜR POLITIKWISSENSCHAFTLER

bearbeiten und zu beantworten. Sinnvoll eingesetzt können sich quantitative und qualitative Politikwissenschaft gegenseitig gut ergänzen. (6) Wer

bei

Sachthemen

mitreden

will,

braucht

fundierte Informationen.

Bei

der

Informationsflut in den Medien muß man allerdings aufpassen, keinen Manipulationen zu unterliegen. Der Konsument von Statistiken muß lernen, die wirklich

relevanten

Informationen zu erkennen. Außerdem dienen Informationen und Statistiken in der Auseinandersetzung zwischen Interessengruppen als die jeweilige „Munition", das heißt, jede Partei oder Organisation kann sich Zahlen für ihre Zwecke zunutze machen. Daher sollte jeder Politikwissenschaftler in der Lage sein, wesentliche von unwesentlichen Daten zu trennen. (7) Statistiken verdichten Informationen zu einer Maßzahl. Deshalb ermöglicht die Statistik eine sachkundige Zusammenfassung und Bündelung von Informationen. Ferner stellt sie die Kennzahlen bereit, mit deren Hilfe man Hypothesen und Theorien überprüfen kann. In der Politikwissenschaft selbst variiert die Beliebtheit der Statistik je nach Schulenzugehörigkeit des jeweiligen Wissenschaftlers. Die drei Hauptströmungen oder theoretischen Schulen sind (Falter 1987: 295ff.): die normativ-ontologische, die empirisch-analytische und die kritisch-dialektische Schule. Allerdings werden die Bezeichnungen in der Literatur durchaus abgewandelt gebraucht. Diese drei Metatheorien sind zur Orientierung in der Fachwissenschaft und zum generellen Verständnis der Politikwissenschaft unerläßlich. 1. Die normativ-ontologische Politikwissenschaft verbindet politisch-philosophische Fragestellungen mit einer vorwiegend institutionell geprägten Betrachtung des Politischen. Berühmte Vertreter dieser Schule waren E. Fraenkel, A. Bergstraesser, C. J. Friedrich und W. Hennis. 2. Die empirisch-analytische Politikwissenschaft. Die bedeutendste Strömung ist hierbei der Behavioralismus. Die Wurzeln dieser Schule liegen vor allem in den Vereinigten Staaten. Ein herausragender Vertreter dieser Schule war Karl Popper, der den sogenannten Kritischen Rationalismus begründet hat. Ein wichtiger Zweig dieser Schule ist die Wahl- und Einstellungsforschung. 3. Die dritte Schule ist die kritisch-dialektische Politikwissenschaft. Sie ist stark politökonomisch orientiert. Die Vertreter der kritisch-dialektischen Politikwissenschaft sind im wesentlichen gesellschaftskritischem Gedankengut verpflichtet. Prägende Strömungen innerhalb dieser Richtung waren der Marxismus, der Neo-Marxismus und die Frankfurter Schule.

EINLEITUNO

3

Nicht jede dieser drei Schulen verwendet empirische Methoden zur Analyse von Politik. Vor allem die zweite Schule, die empirisch-analytische Politikwissenschaft und hier besonders der Behavioralismus, propagiert diese Methoden. Mitunter werden sie aber auch von Anhängern des kritisch-dialektischen Ansatzes verwendet. „Empirie" ist ein zentraler Begriff in der Charakterisierung der unterschiedlichen Schulen. Deshalb soll dieser Begriff vorab geklärt werden, da er im Verlauf eines sozialwissenschaftlichen Studiums häufig auftreten wird. Seine Verwendung in den Sozialwissenschaften ist nicht eindeutig. Daher wird hier eine häufig verwendete Definition dieses Begriffes angegeben. Definition: „Empirie bezeichnet die auf Sinneserfahrung, Beobachtung, Messung, Experiment und andere Verfahren gründende wissenschaftliche Erkenntnis." (Nohlen 1994: 88). Quantitative Methoden stehen im Mittelpunkt der Anwendung von empirischen Verfahren. Leider muß man feststellen, daß der Begriff der „Empirie" geradezu inflationär benutzt wird und die Verwendungen dieses Begriffs oft nur Lippenbekenntnisse darstellen, ohne daß tatsächlich empirische Ergebnisse zur Stützung eines Arguments, einer Hypothese oder einer Theorie referiert werden. Ausgangspunkte dieses Buches sind die Geschichte und die Arbeitsbereiche der Statistik (Kapitel 2). Heutzutage wird Statistik eher mit Mathematik assoziiert als mit Politikwissenschaft, obwohl die historischen Wurzeln der Statistik - wie man sehen wird - eng mit politischen Fragestellungen verknüpft sind. Politische und ökonomische und nicht mathematische Interessen ließen den Bedarf nach Statistiken entstehen. Anschließend wird im dritten Kapitel der sozialwissenschaftliche Forschungsprozeß erörtert, der meistens idealtypisch mit Hilfe von Phasenmodellen dargestellt wird. Im vierten Kapitel sollen dann zentrale Grundbegriffe und Probleme der Statistik erörtert und erläutert werden. Um Daten analysieren zu können, muß man sie zunächst erheben. Das weite Feld der Datenerhebung und der Datenaufbereitung soll deshalb im fünften Kapitel behandelt werden. Die anschließenden Kapitel beschäftigen sich mit der Darstellung und der Analyse von Daten. Den Auftakt hierfür geben eindimensionale Häufigkeitsverteilungen sowie ihre vielfältigen Darstellungsmöglichkeiten. Danach werden die wichtigsten Verteilungsmaßzahlen bei univariaten Häufigkeitsverteilungen (Lage- und Streuungsparameter) vorgestellt. Im darauf folgenden achten Kapitel werden wichtige Konzentrationsmaße vorgestellt. Die Kenntnis von

4

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Konzentrationsmaßen ist deshalb angebracht, da diese in den unterschiedlichsten Teildisziplinen der politikwissenschaftlichen Literatur auftauchen, sei es bei Überlegungen zu Gerechtigkeits- oder Verteilungsfragen, bei Konzentrationserscheinungen auf der Wählerebene oder zur Charakterisierung von Parteiensystemen. Diese Konzentrationsmaße sind vielfältig einsetzbar und erfreuen sich eines regen Gebrauchs. Das neunte Kapitel behandelt zweidimensionale Häufigkeitsverteilungen und liefert damit die Grundlagen für das Kapitel über die Zusammenhangsmaße. Wenn bis zu diesem Kapitel immer nur eine Variable hinsichtlich ihrer Lage und Streuung betrachtet wurde, werden nun die Zusammenhänge zwischen zwei Variablen untersucht. Dazu werden im zehnten Kapitel die gängigsten Zusammenhangsmaße hinsichtlich ihrer Berechnung und Interpretation erläutert. Das in den Sozialwissenschaften am meisten verwendete statistische Verfahren ist die Regressionsanalyse (Kapitel 11). Die Regressionsanalyse hängt eng mit der im zehnten Kapitel vorgestellten Korrelationsanalyse zusammen. Das Verständnis dieser beiden Methoden öffnet gleichzeitig die Tür für das Verständnis vieler Fachpublikationen. Als weitere Methode wird die Clusteranalyse erörtert, die zu den multivariaten Auswertungsmethoden zählt (Kapitel

12). Eine relativ neue multivariate Untersuchungsmethode,

die

QCA-Analyse

(Qualitative Comparative Analysis) von Charles Ragin wird dann in Kapitel 13 erklärt. Von Bedeutung sind ferner Schätz- und Testverfahren der Statistik, von denen wichtige Verfahren im Kapitel

14 thematisiert werden. Schließlich sollen im vorletzten

Kapitel

(Kapitel 15) - ausgehend von den bahnbrechenden Arbeiten Edward Tuftes - Regeln für die graphische Darstellung quantitativer Informationen vorgestellt werden. Wissenschaftliche Argumente können von der Qualität und Erklärungskraft von Schaubildern leben. Abschließend werden im letzten Kapitel studienpraktische Tips, zum Beispiel zu statistischer Software und zur Abfassung einer wissenschaftlichen Arbeit gegeben. Die Funktion der Statistik innerhalb der Politikwissenschaft ist die einer Hilfswissenschaft. Statistik um der Statistik willen kann nicht das Ziel ihrer Anwendung sein. Im Vordergrund stehen gesellschaftliche, politische und ökonomische Phänomene, die mit Hilfe des statistischen Instrumentariums beschrieben und erklärt werden sollen. Vergleicht man die Politikwissenschaft mit anderen benachbarten Disziplinen, wie der Ökonomie, der Soziologie und der Psychologie, so muß man allerdings konstatieren, daß die Statistik innerhalb der Disziplin Politikwissenschaft - zumindest im deutschsprachigen Raum - schwach ausgeprägt ist. Aber die Anwendung nimmt ohne Frage zu. Darauf weisen auch verschiedene Umfragen hin, die unter den Fachvertretern der Zunft durchgeführt wurden (Honolka 1986, Klingemann

EINLEITUNG

5

und Falter 1997). Mitte der achtziger Jahre waren Forschungsrichtungen, in denen die Statistik zum Einsatz kam eher marginal, so die Befunde von Honolkas Reputationsstudie unter Deutschlands Politikwissenschaftlern, die 1985 durchgeführt wurde. Elf Jahre später wurden wieder die professionellen Politikwissenschaftler befragt und es zeigt sich, daß Theorieansätze, die quantifizierende Methoden verwenden, einen deutlichen Anstieg erfahren haben (Klingemann und Falter 1997). Ein Befund dieser Umfrage gab zudem Antwort auf die Frage, an welcher Universität oder Forschungsstätte die wichtigsten Arbeiten zu dem Gebiet der Wissenschaftstheorie und der Methoden der Politikwissenschaft geleistet werden. An der Spitze lag die Universität Mannheim, gefolgt von der Universität Mainz sowie dem Wissenschaftszentrum Berlin.

STATISTIK FÜR POLITIKWISSENSCHAFTLER

6

2. Geschichte und Arbeitsbereiche der Statistik 2.1. Geschichte der Statistik Statistische Zahlen begegnen jedem Menschen - bewußt oder unbewußt - in großer Zahl. Es beginnt schon mit der Zeitungslektüre a m Morgen. A m Frühstückstisch treffen wir auf Wahlergebnisse, die neuesten Arbeitslosenzahlen, die aktuellsten Statistiken zur Inflation und Staatsverschuldung, die Börsen- und Wechselkurse im Wirtschaftsteil und, nicht zu vergessen, die Fußballtabellen und Torjägerlisten im Sportteil. Beispiele für Statistiken und ihre vielfältigen Darstellungsformen - gute wie schlechte - gibt es millionenfach. Statistische Zahlen, Kolonnen und Graphiken drohen einen geradezu zu erschlagen. Beinahe jede Aussage und Meinung kann mit einer Statistik begründet werden - das gleiche gilt oft für die korrespondierende Gegenaussage. Welche Aussage ist nun richtig, frägt man sich. Zur Illustration dient ein Beispiel von Krämer (Krämer 1995: 23): „Ein Einzelhändler kauft eine Ware für 100 DM ein und schlägt sie für 200 DM los. Wieviel Prozent macht seine Handelsspanne aus? „Eine Unverschämtheit!" sagen wir als Kunde. „Ein Aufschlag von glatt 100 Prozent!" „So schlimm ist die Sache nun auch wieder nicht", sagt der Händler. „50 Prozent Verdienst sind wirklich nicht zuviel. " Offenbar haben hier beide Parteien recht. 100 Mark sind 100 Prozent von 100 Mark und 100 Mark sind 50 Prozent von 200 Mark. Trotzdem ist der Eindruck je nach der Basis durchaus ein anderer. " Oft sind Statistiken falsch oder gar bewußt manipuliert. Einige Beispiele hierfür werden wir im Laufe dieses Buches zu Gesicht bekommen. Daneben gibt es eine breite Literatur über „manipulierte Statistiken" (z.B. Huff 1954; Tufte 1983; Krämer 1995; Ketteier 1997). Bevor wir uns aber mit statistischen Problemen beschäftigen, sollen zuerst jedoch die historischen Wurzeln der heutigen Statistik dargestellt werden. Theoretische Statistik gibt es seit rund drei Jahrhunderten und die angewandte Statistik seit rund viereinhalb tausend Jahren. Insgesamt kann man vier Quellen der Statistik unterscheiden (Menges 1982; Zwer 1985; Zwer 1986): 1.) die praktische Statistik 2.) die Universitätsstatistik 3.) die Politische Arithmetik 4.) die Wahrscheinlichkeitsrechnung

2 . G E S C H I C H T E U N D A R B E I T S B E R E I C H E DER STATISTIK

1

2.1.1. Die praktische Statistik Der älteste Zweig der Statistik ist die praktische Statistik. Wie der Name sagt, waren praktische Ziele die Ursache für ihre Entstehung. Man interessierte sich für die Zahl der Bewohner und ihre wirtschaftliche Leistungsfähigkeit. Ihre Geschichte beginnt im „Alten Reich" in Ägypten (2650 - 2190 v. Chr.). Wohl aus fiskalischen Gründen führte man zweijährige Zählungen des Goldes und der landwirtschaftlichen Nutzflächen durch. Weitere Gründe für das Erheben von Statistiken waren der Unterhalt des Militärs sowie große Bauvorhaben (Pyramidenbau). Daneben wurden in anderen Großreichen, wie China (ca. 2300 v. Chr.) und dem persische Großreich (ca. 500 v. Chr.), statistische Zahlen ermittelt. Im antiken Griechenland hatte die Statistik kaum Bedeutung, was an der relativen Überschaubarkeit der Stadtstaaten lag - ganz im Gegensatz zu den Römern, die mit wachsender Größe ihres Reiches verstärkt statistische Erhebungen durchführten. Bereits 550 v. Chr. soll der König Servius Tullius einen Zensus der römischen Bürger verfügt haben. Bei den Römern wurden erstmals periodische Erhebungen für die gesamte Bevölkerung durchgeführt - insgesamt können 69 Volkszählungen als gesichert gelten. Die berühmteste fand vor rund 2000 Jahren statt und begegnet uns jedes Jahr um die Weihnachtszeit wieder. Die Germanen kannten keine Statistik, und das Mittelalter war im Hinblick auf die Anwendung von Statistik ebenfalls dürftig. In der Neuzeit änderte sich dies: Es kam, wegen eines gestiegenen Bedarfs an Informationen, zu einer Expansion der Statistik. Zentral war immer noch die Bevölkerungsstatistik. Nach und nach traten dann aber auch andere Wirtschaftsstatistiken hinzu. Dazu kamen die ersten Gründungen statistischer Zentralämter, so 1796 in Schweden, 1797 in Norwegen, 1800 in Frankreich und 1829 in Österreich. 1834 wurde das statistische Zentralbureau des Deutschen Zollvereins und 1871 das Kaiserliche Statistische Reichsamt gegründet.

2.1.2. Die Universitätsstatistik Von der Datenerhebung aus fiskalischen, militärischen und administrativen Gründen durch die praktische Statistik war es nur ein kleiner Schritt, die vorliegenden quantitativen Informationen zu systematischen Beschreibungen eines Landes beziehungsweise mehrerer Länder zu verwenden. In diesem Sinne trat die Statistik im 16. Jahrhundert als deskriptive

8

S T A T I S T I K FÜR P O L I T I K W I S S E N S C H A F T L E R

Disziplin in die neuere Wissenschaftsgeschichte ein. Ziel war die systematische Staatenbeschreibung. Der erste dieser „Ländervergleiche" wurde von dem Italiener Francesco Sansovino (1521-1586) im Jahre 1561 verfaßt, wobei er 22 Staaten verglich. Insofern liegt in der Universitätsstatistik auch eine der historischen Wurzeln der vergleichenden Politikwissenschaft. Im übrigen hieß die Universitätsstatistik - dieser Name kam erst später auf - „Lehre von den Staatsmerkwürdigkeiten" - also genau das, was auch von der Politikwissenschaft geleistet wird. Der Name Universitätsstatistik kommt daher, daß die Hauptvertreter dieser Richtung Gelehrte an den entstehenden Universitäten waren, deren

Fächerkanon jedoch noch nicht

ausdifferenziert war. So umfaßte die „Lehre von den Staatsmerkwürdigkeiten" die Bereiche Geschichte, Geographie und Staatskunde. Die Hauptvertreter dieser historischen Vorläufer der Statistik kamen aus Deutschland. Im Jahre 1660 hielt in Helmstedt Hermann Conring (1606-1681) die erste Statistikvorlesung der Geschichte - allerdings ohne sie auch als solche zu bezeichnen. Zum Namensgeber der Statistik wurde Martin Schmeitzel (1679-1747), der an der Universität Halle lehrte. Er hielt eine Vorlesung mit dem Namen „collegium politico-statisticum", womit der Name geboren war. Im Italienischen bedeutet „statista" Politiker beziehungsweise Staatsmann. Wie man sieht, kann man die Statistik schon aus Tradition im Fach Politikwissenschaft ansiedeln. Der bedeutendste Vertreter der Universitätsstatistik war aber ein Schüler von Schmeitzel mit dem Namen Gottfried Achenwall (1719-1772). Aber auch diese Schule verschwand wieder. Der Zusammenbruch der Universitätsstatistik hängt mit der Ausdifferenzierung der Wissenschaften und mit der Gründung der nationalen statistischen Ämter zusammen.

2.1.3. Politische Arithmetik Die Politische Arithmetik war nicht deskriptiv (d.h. beschreibend), sondern analytisch (d.h. erklärend) ausgerichtet. Als erste der historischen Wurzeln suchte sie nach Gesetzmäßigkeiten in Wirtschaft und Gesellschaft. Die Anfänge der Politischen Arithmetik liegen im England des 17. Jahrhunderts. Im Jahre 1662 veröffentlichte der Londoner John Graunt (16201674) eine Untersuchung über Bevölkerungsgesetzmäßigkeiten, die auf Geburts- und Totenlisten der Stadt London basierte. Aus ihnen folgerte er Gesetzmäßigkeiten des Bevölkerungswachstums, der Fruchtbarkeit, der Sterblichkeit, des Altersaufbaus usw. Sein besonderes Anliegen war, die Ursachen für die Pestepidemien in London im 17. Jahrhundert zu finden, und

2. G E S C H I C H T E U N D A R B E I T S B E R E I C H E DER STATISTIK

9

es nicht nur bei einer reinen Auflistung der Toten zu belassen. Dieser neue Ansatz in der Statistik läßt ihn gleichzeitig zu einem der ersten „Policy-Forscher" werden, denn im Prinzip tat Graunt nichts anderes, als die Gesundheitspolitik seines Landes zu analysieren. Der herausragende Vertreter dieser Schule ist der Nationalökonom William Petty (1623-1687), gleichzeitig ein Freund von Graunt, der ihr auch mit seinem Hauptwerk „Political Arithmetic" den Namen gab. Bedeutend war auch William Playfair (1759-1823), der als erster Wissenschaftler Graphiken zur Deskription und Analyse seines Forschungsgegenstandes verwendete, auch als Herausgeber von Adam Smith' Werk „Wealth of Nations". Die Politische Arithmetik hat sich in Deutschland nie richtig durchsetzen können. Sie blieb vor allem auf England, Holland, Frankreich und Belgien beschränkt. Ein interessanter Vertreter dieser Schule war der Belgier Quételêt (1796-1874), der mit seinem Werk Generationen von Statistikern beeinflußte. Während bei einigen Vertretern statistische Zahlen als Ausdruck der göttlichen Ordnung bewundert wurden, reduzierte Quételêt die Erklärung und Analyse der statistischen Zahlen auf das Wirken von Naturgesetzen. Zwar besteht die Aufgabe der Statistik unter anderem darin, von den Individualitäten der Einzelerscheinungen abzusehen und mittlere Größen zu berechnen (Mittelwerte), aber Quételêt wollte die zahlreichen Durchschnitte menschlicher Eigenschaften zu einem „Durchschnittsmenschen" zusammensetzen. Jede Abweichung von diesem „mittleren Menschen" deklarierte er als störende Zufälligkeit. Dieses Wesen besitzt mittleres Glück, mittlere Intelligenz, mittlere Schönheit, mittlere Heiratsneigung, mittlere Verbrechensneigung usw... Quételêt glaubte sich im Besitz einer Formel, nach der die Gesellschaft berechnet werden könnte, was als äußerst fragwürdig zu bewerten ist. Immerhin waren die Politischen Arithmetiker jedoch die ersten, die nach systematischen Regelmäßigkeiten suchten, entweder basierend auf Naturgesetzen oder als Ausdruck einer göttlichen Ordnung.

2.1.4. Die Wahrscheinlichkeitsrechnung Derjenige Bereich, der heute mit Statistik am stärksten assoziiert wird, ist die Wahrscheinlichkeitsrechnung. Es ist ein historisches Kuriosum, daß der Name „Statistik" von einem Extrem, der Universitätsstatistik, über die eine Mittelstellung einnehmende Politische Arithmetik zum anderen Extrem, der Wahrscheinlichkeitsrechnung, übergegangen ist. Im Mittelpunkt der Wahrscheinlichkeitsrechnung stehen die Gesetze des Zufalls. Für viele ihrer Vertreter ist allein diese Form der Statistik als ein Zweig der angewandten Mathe-

10

STATISTIK FÜR POLITIKWISSENSCHAFTLER

matik anzusehen. Der Fachbegriff für diesen Zweig lautet Stochastik, abgeleitet vom griechischen Verb „vermuten". Die Wahrscheinlichkeitsrechnung wird als das Mittel gesehen, welches zum Schließen von Zusammenhängen von einer Stichprobe auf eine Grundgesamtheit notwendig ist. Die wichtigsten Pioniere kommen aus England, Frankreich, und Rußland, aber auch die Schweiz hat mit Leonard Euler (1707-1783) und Deutschland mit Carl-Friedrich Gauss (17771855) zwei wichtige Protagonisten beigesteuert. Die Wahrscheinlichkeitsrechnung wurde zuerst durch ein praktisches Interesse von Glücksspielern initiiert. Die französischen Mathematiker Blaise Pascal (1623-1662) und Pierre de Fermât (1601-1665) lösten im 17. Jahrhundert die Fragen, die ihnen ein Glücksspieler vorlegte. Weitere wichtige Namen und Vertreter sind Jakob und Nikolaus Bernoulli aus der Schweiz, Francis Galton, und Karl Pearson aus England, ohne daß diese Liste nur annähernd vollständig wäre (Zwer 1985: 10). Ein für die Politikwissenschaft relevanter Vertreter der Wahrscheinlichkeitsrechnung ist der Franzose Marquis de Condorcet (1743-1794), ein Mathematiker und Politiker (Präsident der Nationalversammlung 1792), der das nach ihm benannte Wahlparadoxon entdeckt hat, welches - zugegeben - wenig mit der Wahrscheinlichkeitsrechnung zu tun hat. Das CondorcetParadoxon illustriert das Problem zyklischer Mehrheiten, das heißt, es können sich widersprüchliche Präferenzordnungen ergeben, wenn alle Gruppenmitglieder beziehungsweise alle Gruppen rational handeln. Folgendes Beispiel soll das Problem veranschaulichen: Tabelle 2.1: Zyklische Mehrheiten (Condorcet-Paradox) Wähler I

II

III

Rangordnung

A

c

Β

der

Β

A

C

Alternativen

C

Β

A

Es gibt 3 Wähler (I, Π, ΙΠ) sowie 3 Alternativen, die zur Entscheidung stehen (A, B, C), wobei die relative Mehrheit das Entscheidungskriterium ist. Wähler I hat die stärksten Präferenzen für Alternative A, geringere für Β und die wenigsten für C (vgl. Tabelle 2.1). Im folgenden kommt es zu einer paarweisen Abstimmung der Alternativen. Bei einer ersten Abstimmung der Alternativen Β versus C gewinnt die Alternative Β mit 2 zu 1 Stimmen, denn die Wähler I und EU schätzen Β jeweils höher als C. Anschließend kommt es zu einer Abstimmung des Gewinners der ersten Runde, also B, gegen die Alternative A. Hier gewinnt die Alternative A, wiederum mit 2 zu 1 Stimmen (wegen Wähler I und Π). Danach wird A gegen

2 . G E S C H I C H T E UND A R B E I T S B E R E I C H E DER STATISTIK

J1

C zur Abstimmung gebracht, mit dem Ergebnis, daß C mit 2 zu 1 gewinnt. Die Präferenzordnung ist folglich nicht transitiv. Transitivität bedeutet: Wenn A mehr als Β geschätzt wird und Β höher als C, dann muß auch A höher als C geschätzt werden. Es ergibt sich folgende Reihenfolge, wenn immer paarweise über die Alternativen abgestimmt wird („>" bedeutet „gewinnt gegen"): Α > Β > C > A. Je nachdem an welcher Stelle man in diesem Zyklus die paarweisen Abstimmungen beginnt, erhält man ein unterschiedliches Endergebnis. Dieser Sachverhalt wird als zyklische Präferenz (bzw. zyklische Mehrheit) bezeichnet. Dies bedeutet, daß mit Hilfe demokratischer Entscheidungen - hier des Mehrheitsentscheids - Probleme nicht immer widerspruchsfrei gelöst werden können. Darüber hinaus gibt es immer eine überstimmte Mehrheit, da es immer mehr Wähler gibt, die eine andere Alternative vorziehen würden. Da für das tatsächliche Endergebnis entscheidend ist, welche Abstimmungsreihenfolge gewählt wird, fällt dem Versammlungsleiter eine große Bedeutung bei Abstimmungen zu.

2.2. Definition, Bereiche und Quellen der Statistik Wie kann man Statistik definieren? Allgemein bedeutet eine Definition die Feststellung des Gebrauchs eines sprachlichen Ausdrucks, in unserem Fall also der Statistik. Man kann weiter unterteilen in das, was definiert wird (= Definiendum) und in das Definiens, welches derjenige Teil einer Definition ist, der das Definiendum erklärt (= definiert). Der Student sollte sich immer vor Augen halten, daß es viele Möglichkeiten gibt, einen interessierenden Gegenstand zu definieren. Dazu finden sich in der Definitionslehre verschiedene Arten von Definitionen. Eine erste Unterscheidung ist die zwischen festgestellten (oder etymologischen) sowie festgesetzten Definitionen. Etymologische Definitionen beziehen sich auf den Sprachgebrauch, während festgesetzte Definitonen willkürlich - nach subjektiver Meinung des Autors - den Inhalt festlegen. So hat das Wort Statistik einen lateinischen Ursprung im Wort „Status" (Staat, aber auch Zustand) und - wie bereits erwähnt - im italienischen Wort „Statista" (Staatsmann) (Kennedy 1985: 67). Eine weitere Unterscheidung wird zwischen Nominal- und Realdefinition getroffen. Dabei wird bei einer Nominaldefinition das Definiendum durch einen anderen Begriff ersetzt oder auf diesen zurückgeführt, zum Beispiel: Statistik ist die Anwendung quantitativer Methoden. Realdefinitionen geben die Merkmale des Definiendums an oder beschreiben die Art seines Gebrauches näher: „Statistik ist Inbegriff theoretisch fundierter, empirischer objektivierter Daten" (Menges 1982: 19). Die Elemente dieser Definition sind:

11

S T A T I S T I K FÜR P O L I T I K W I S S E N S C H A F T L E R

1.) Die Theoriegebundenheit, die darauf aufmerksam macht, daß willkürliches Datensammeln unwissenschaftlich ist. 2.) Die Eigenschaft, daß Daten empirischen Charakter haben müssen, bedeutet, daß sie aus der Wirklichkeit gewonnen werden müssen. 3.) Die Daten müssen objektivierbar sein, das heißt, der Erhebungsprozess muß aufgrund von sachlichen und nachvollziehbaren Meßvorschriften gewonnen werden. Desweiteren kann man noch zwischen deskriptiven (d.h. beschreibenden) sowie präskriptiven Definitionen unterscheiden. Dabei enthalten präskriptive Definitionen

Sollens-

Aussagen. Sie beinhalten also ethisch-normative Vorstellungen. Anhand des idealtypischen Begriffs der „Globalisierung", der in jüngster Zeit in der Politikwissenschaft große Aufmerksamkeit erfahren hat, soll die Differenz zwischen beiden Definitionsarten veranschaulicht werden. Holm und Sorensen liefern die beschreibende Definition: „Globalisierung ist die Intensivierung wirtschaftlicher, politischer, sozialer und kultureller Beziehungen über Grenzen hinweg" (Holm und Sorensen 1995: 4; Übersetzung d.V.). Eine präskriptive Variante wäre: Globalisierung ist der Prozeß hin zu einer friedlichen Weltgesellschaft (in Anlehnung an Zürn 1996: 124). Nach diesem Exkurs über Definitionen wird danach gefragt, wie Statistik weiter systematisiert werden kann. Statistiken finden sich in nahezu jedem wissenschaftlichen Bereich, zum Beispiel als Wahldaten in der Politikwissenschaft, ökonomische Daten in der Volkswirtschaftslehre, in der Soziologie, Psychologie, Physik, Medizin et cetera. Die statistischen Methoden und Untersuchungsverfahren sind in diesen Disziplinen jedoch immer dieselben. Die Statistik selbst läßt sich in zwei große Bereiche unterscheiden: die Wirtschaftsstatistik und die Statistischen Methoden. Letztere können noch weiter in die deskriptive Statistik sowie in die induktive Statistik (Inferenzstatistik) unterteilt werden. Der Schwerpunkt dieses Buches liegt auf der deskriptiven Statistik, also der beschreibenden Statistik, während der große Bereich der induktiven Statistik („schließende Statistik"), der sich mit Schlüssen von Stichproben auf die Grundgesamtheit beschäftigt, nur am Rande behandelt wird, da er für die praktische politikwissenschaftliche Forschung von etwas geringerer Bedeutung ist. Ein weiteres Unterscheidungsmerkmal der Statistik ist, wer Träger, also Produzent der Statistik ist. Man unterscheidet hierbei nach: 1. amtlicher Statistik und 2. nichtamtlicher Statistik.

2 . G E S C H I C H T E UND A R B E I T S B E R E I C H E DER STATISTIK

13

Abbildung 2.1.: Träger der Statistik Träger der Wirtschafts- und Sozialstatistik

amtliche Statistik

ausgelöste Statistik

nichtamtliche Statistik

nichtausgelöste Statistik

Quelle: von der Lippe (1990: 4)

Die amtliche Statistik kann weiter untergliedert werden in ausgelöste Statistik und in die nichtausgelöste Statistik (Ressortstatistik). Die ausgelöste Statistik wird von dem Statistischen Bundesamt sowie den Statistischen Landesämtern betrieben. Die Bundesstatistiken werden, soweit es das Bundesstatistikgesetz (BStatG) oder eine sonstige Rechtsvorschrift nichts anderes bestimmt, durch Gesetz angeordnet (§ 5 BStatG). Nach Art. 73 Grundgesetz hat der Bund die ausschließliche Gesetzgebungskompetenz für die Statistik. Die Ressortstatistik betrifft die Ministerien im Bund und in den Ländern sowie deren nachgeordnete Behörden, deren Aufgabe es eben primär nicht ist Statistiken zu erstellen. Neben der amtlichen Statistik steht die nichtamtliche Statistik. Deren Träger (= Produzenten) können die Wirtschaftsverbände, Arbeitgeberverbände, Arbeitnehmerorganisationen, Markt- und Meinungsforschungsinstitute sowie die wirtschaftswissenschaftlichen Forschungsinstitute sein. Zunehmende Wichtigkeit für die Politikwissenschaft, besonders bei der international vergleichenden Staatstätigkeitsforschung, erhalten die internationalen Produzenten von Statistiken, wobei man hier nach supranationalen und internationalen Organisationen unterscheiden kann. Wichtige Datenlieferanten (Adressen siehe Kapitel 16) sind: 1.) das Statistische Amt der Europäischen Union mit Sitz in Luxemburg (EUROSTAT), 2.) die OECD (Organisation for Economic Co-Operation and Development in Paris), 3.) der Internationale Währungsfond (IMF) in Washington, 4.) die Weltbank in New York, 5.) die ILO (International Labour Organisation) mit Sitz in Genf, 6.) die FAO (Food and Agriculture Organisation - Welternährungsbehörde) in Rom, 7.) die W T O (Welthandelsorganisation, vormals das GATT) in Genf. Für die Bundesrepublik Deutschland produziert das Statistische Bundesamt (StBA) die wichtigsten Statistiken. Als selbständige Bundesoberbehörde untersteht es der Dienstaufsicht des Bundesministers des Inneren. Seine vordringlichste Aufgabe ist es, die Statistiken für

14

S T A T I S T I K FÜR P O L I T I K W I S S E N S C H A F T L E R

Bundeszwecke methodisch und technisch vorzubereiten und weiterzuentwickeln. U m sich über das Arbeitsgebiet und die Arbeitsweise des StBA zu informieren, empfiehlt sich die Publikation „Das Arbeitsgebiet der Bundesstatistik" (letzte Ausgabe 1988). Daneben gibt es zahlreiche Fachserien mit statistischen Daten (insgesamt 19), die selbst noch einmal tief untergliedert

sind, beispielsweise

zu Wahlen.

Wichtige

Informationen

enthält

auch das

„Statistische Jahrbuch für die Bundesrepublik Deutschland", sowie die monatliche Fachpublikation „Wirtschaft und Statistik". Aus Sicht der Politikwissenschaft ist interessant, daß der Präsident des StBA gleichzeitig Bundeswahlleiter und somit verantwortlich für die Durchführung der Bundestagswahlen ist. Analoges gilt für die Länderebene und für Großstädte: Die jeweiligen Leiter der statistischen Ämter sind auch für die Durchführung der Wahlen verantwortlich. Besondere Bedeutung genießen ebenso die Publikationen der Deutschen Bundesbank, die der nichtausgelösten Statistik zuzurechnen sind, die neben umfangreichen Statistiken in ihren Monatsberichten noch in fünf Reihen verschiedene Wirtschaftsstatistiken publiziert. Weitere Möglichkeiten der Datenbeschaffung sind die nationalen und internationalen Datenarchive. Für Deutschland ist hier das Zentralarchiv ( Z A ) für empirische Sozialforschung in Köln führend. Das Z A archiviert Primärmaterial (Daten, Fragebögen, Kodepläne) und Ergebnisse empirischer Untersuchungen, um sie für wissenschaftliche Sekundäranalysen aufzubereiten und der interessierten Öffentlichkeit zugänglich zu machen. Der Arbeitsbereich des Z A erstreckt sich auf alle Fachgebiete, in denen Verfahren der empirischen und historischen Sozialforschung verwendet werden. Dort kann man jederzeit Datensätze gegen einen geringen Unkostenbeitrag bestellen. Weitere bedeutende internationale Datenarchive sind in Colchester (University of Essex in England) sowie das Archiv des „Inter-university Consortium for Political and Social Research" (ICPSR), das am „Institute for Social Research at the University of Michigan" eingerichtet ist. Das ICPSR-Archiv ist das weltgrößte Datenarchiv für sozialwissenschaftliche Daten. Es ist möglich, aus beiden Archiven Datensätze zu beziehen. Schneller, bequemer und oft auch kostengünstiger ist der W e g über das Zentralarchiv in Köln. Weitere Quellen der Datenbeschaffung sind zum Beispiel die Botschaften in Deutschland und die nationalen statistischen Ämter. Durch die zunehmende Technologisierung der Informationsbeschaffung wird diese wesentlich vereinfacht. Die Möglichkeit der Recherche in internationalen Datennetzen, wie dem Internet, macht es mittlerweile jedem Studenten möglich, sich Daten aus verschiedenen Ländern relativ einfach zu beschaffen, da fast alle bedeutenden statistischen Ämter im World W i d e W e b vertreten sind. Über die Homepage des Statistischen Bun-

2 . G E S C H I C H T E UND A R B E I T S B E R E I C H E DER STATISTIK

15

desamtes (http://www.statistik-bund.de/) kommt man sehr einfach zu diesen Ämtern sowie zu den meisten statistischen Landesämtern in Deutschland. Daneben ist es auch möglich, in allen erwähnten Datenarchiven nach interessanten Datensätzen zu recherchieren. Wichtige politikwissenschaftliche Datenquellen sind desweiteren noch Datenhandbücher mit politischen und institutionellen Variablen. Hier gibt es eine ganze Reihe bedeutender Publikationen, wie das HIWED (Historische Indikatoren der westeuropäischen Demokratien) Forschungsprojekt von Peter Flora (Flora 1975), das Cross-Polity Handbook von Arthur Banks (Banks 1963), das „Political Data Handbook" von Lane et al. (Lane, McKay und Newton 1997) sowie das „World Handbook of Political and Social Indicators" von Taylor und Jodice (Taylor und Jodice 1983), um hier nur einige wenige zu erwähnen.

STATISTIK FÜR POLITIKWISSENSCHAFTLER

16.

3. Der sozialwissenschaftliche Forschungsprozeß Es ist allgemein üblich, den sozialwissenschaftlichen Forschungsprozeß in Phasen einzuteilen. Diese Vorgehensweise erscheint plausibel und bietet sich auch intuitiv an, da der Forschungsprozeß ein dynamischer Vorgang ist. Man kann die Phasen des Forschungsprozesses unterschiedlich - mehr oder weniger grob - untergliedern. Im folgenden sollen verschiedene Unterteilungen vorgestellt werden, die sich in der Literatur finden. In Anlehnung an Patzelt (1985: 9 ff.) kann man vier Phasen unterscheiden: (1) Die Konzeptualisierungsphase: Der erste Schritt dieser Phase ist die Problemauswahl. In der Konzeptualisierungsphase sollte ferner die Fragestellung klar herausgearbeitet werden, ein Punkt, der zentral für das Gelingen einer empirischen Forschungsarbeit ist. Zudem werden in diesem Forschungsabschnitt die Hypothesen formuliert, die man untersuchen möchte. Voraussetzung dafür ist ein theoretischer Rahmen, in dem man sich bewegt. In dieser Phase stellen sich weiter folgende Fragen: Was für Daten werden erhoben? Individual- oder Aggregatdaten? Führt man Vollerhebungen durch oder zieht man nur eine Stichprobe aus der Grundgesamtheit? (2) Die Datenerhebungsphase: Grundlage der Datenerhebungsphase ist der theoriegeleitete Suchprozeß. Willkürliches Datensammeln ist unwissenschaftlich und wird wahrscheinlich zu uninteressanten Ergebnissen führen. Welche Arten von Daten erhoben werden, hängt von den Variablen ab, die sich bei der Hypothesenbildung herauskristallisiert haben. Die erste Phase ist mithin unverzichtbare Voraussetzung für den zweiten Forschungsabschnitt. In dieser Phase werden zudem die Daten in einer Datenmatrix (vgl. Abbildung 3.1.) zusammengefaßt und aufbereitet. In der Datenmatrix werden in der Kopfzeile die Variablen angeordnet (z.B. Arbeitslosenquoten, Antworten zu Einstellungsfragen oder institutionelle Eigenschaften). In der ersten Spalte werden die Untersuchungseinheiten (Merkmalsträger) abgetragen. Dies können Individuen, Länder oder Unternehmen sein. Die Anlage einer Datenmatrix ist für die Analyse der Daten mit Hilfe eines statistischen Softwareprogramms unabdingbar. (3) Die Auswertungsphase: In dieser Phase werden die erhobenen Variablen und Daten analysiert. Dazu gibt es mehrere Möglichkeiten, wie die Bildung von Häufigkeitstabellen, die Berechnung von statistischen Kennzahlen, wie Mittelwerte, oder die Berechnung von Zusammenhangsmaßen. Da

3. D E R SOZIALWISSENSCHAFTLICHE FORSCHUNGSPROZEB

17

man in der Politikwissenschaft primär an Vergleichen interessiert ist, kann man unterschiedliche Vergleichsperspektiven einnehmen. Ein horizontaler Vergleich der Variablen, über eine Untersuchungseinheit gibt Informationen über die „Gestalt" oder Performanz dieses Merkmalsträgers. Beispielsweise hat eine Person mit ihren Eigenschaften Größe, Geschlecht, Einkommen und Einstellung ein spezifisches Profil. Beim vertikalen Vergleich über alle Merkmalsträger hinweg kann die Verteilung für eine Variable ermittelt werden, z.B. die Einkommensverteilung für alle untersuchten (befragten) Personen. Weiter kennt man als Vergleichsperspektive den Querschnittvergleich (engl, crosssectional analysis). Hier werden die Daten über geographische oder sektorale Einheiten, meist Länder oder territoriale Einheiten eines Landes, hinweg zu einem Zeitpunkt t verglichen. Die Datenanalyse ist statisch, das heißt, Aussagen über den zeitlichen Verlauf sind nicht möglich. Man führt also einen synchronen Vergleich durch. Beim vertikalen Vergleich der Variablen über die Zeit hinweg läßt sich die Veränderung und Entwicklung der untersuchten Variablen feststellen. Dabei spricht man auch von einer Zeitreihenanalyse (longitudinal analysis = Längsschnittvergleich) oder einem diachronen Vergleich. Werden sowohl der horizontale als auch der vertikale Vergleich gleichzeitig durchgeführt, spricht man von Panel-Untersuchungen oder Panel-Analysen (Englisch: Pooled Time Series Analysis). Panel-Untersuchungen kommen nicht nur in der Markt-, Wahl- und Einstellungsforschung vor, sondern mittlerweile auch in der vergleichenden Staatstätigkeitsforschung, allerdings hier mit Aggregatdaten. Man analysiert dabei für verschiedene Merkmalsträger über verschiedene Perioden hinweg die selben Variablen. Schließlich gibt es noch komparativ-statische Vergleiche. Dabei werden zu zwei unterschiedlichen Zeitpunkten die Merkmalsausprägungen der Variablen verglichen. Beispielsweise wäre ein Vergleich der ökonomischen (oder politischen) Situation von 1968 mit der Situation von 1998 ein komparativ-statischer Vergleich, bei dem allerdings jedoch nicht der Übergang und die Veränderung zwischen diesen beiden Zeitpunkten näher untersucht wird. Solche komparativ-statische Vergleiche können auch auf die Querschnittperspektive ausgedehnt werden. Bei Stichprobenerhebungen stellt sich außerdem die Frage, ob von der Datenmatrix auf die interessierende Grundgesamtheit zurückgeschlossen werden kann. In diesem Forschungsabschnitt sollen die Daten mit Hilfe des statistischen Instrumentariums analysiert und ausgewertet werden.

Ii

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Abbildung 3.1.: Die Datenmatrix Variable 1

Variable 2

Variable k

Untersuchungseinheit 1 Untersuchungseinheit 2

Untersuchungseinheit η

(4) Die Interpretationsphase: Die als Endprodukt angestrebten wissenschaftlichen Analysen entstehen in dieser Periode. Die Fülle der statistischen Daten und Ergebnisse sind zu interpretieren und miteinander in Beziehung zu setzen. Dabei sollten auch die Methoden kritisch reflektiert werden. Die Forschungsfragen und die aufgestellten Hypothesen sind zu beantworten, wobei eine deutliche und widerspruchsfreie Sprache anzustreben ist. Bortz (1989: 3 ff.) unterscheidet insgesamt 6 Phasen der empirischen Forschung: (1) die Erkundungsphase, (2) die theoretische Phase, (3) die Planungsphase, (4) die Untersuchungsphase, (5) die Auswertungsphase, (6) die Entscheidungsphase. Dabei können die ersten drei Phasen analog zur ersten Phase bei Patzelt gesehen werden. Die Untersuchungsphase bei Bortz entspricht der Datenerhebungsphase, ebenso wie die Auswertungs- und Entscheidungsphase den korrespondierenden Phasen bei Patzelt. Die stärkere Gewichtung der ersten Forschungsphasen macht durchaus Sinn. Insbesondere die Betonung einer theorie- beziehungsweise hypothesengeleiteten Forschung ist für die Sozialwissenschaften zentral. Sie macht auch darauf aufmerksam, daß Hypothesen am Beginn der empirischen Untersuchung formuliert werden sollten und nicht erst am Ende. Will sagen, eine nachträgliche Anpassung der Hypothesen ist problematisch, da dann den Ergebnissen eine gewisse Willkür und Zufälligkeit nicht abgesprochen werden kann. Je fundierter und durchdachter die Vorarbeiten einer empirischen Forschungsarbeit sind, desto eher wird das Resultat positiv sein. Deswegen sollten Studierende oder Wissenschaftler diesen Komplex nicht auf die leichte Schulter nehmen. Eine wohlformulierte Fragestellung, die sowohl theoretische als auch prak-

3 . D E R SOZIALWISSENSCHAFTLICHE F O R S C H U N O S P R O Z E B

19

tische Relevanz besitzt, und ein kluges Forschungskonzept mit einem detaillierten Zeitplan sind oftmals schon mehr als die halbe Miete für eine gelungene Seminar-, Abschluß- oder Forschungsarbeit. Was ist eigentlich der Unterschied zwischen Theorie und Hypothese, nachdem diese Begriffe nun bereits mehrfach erwähnt wurden? Im umgangssprachlichen Gebrauch werden beide Begriffe oftmals synonym verwendet, obwohl sie sich wesentlich unterscheiden. Vom etymologischen Ursprung her bedeutet theoria im griechischen „Schauen" und „Betrachten". Nach Seiffert (1994: 368) lassen sich drei Verwendungen dieses Begriffes unterscheiden. 1) Theorie als Gegensatz zur Praxis. Hier ist der Theoriebegriff sehr weitgefaßt und bedeutet alles, was nicht „praktisches Tun" ist. 2) Theorie als wissenschaftliches Lehrgebäude. In diesem Sinn ist Theorie vor allem ein Fachausdruck für eine wissenschaftstheoretische Grundposition, wie die bereits angesprochenen Metatheorien (z.B. die kritisch-dialektische Theorie oder die Systemtheorie). 3) Theorie ist im Sinne des logischen Empirismus zu verstehen. Dieses Wortungetüm meint die Verknüpfung von empirischen (d.h. von der Erfahrung bestimmten) und normativen (d.h. logischen, vom „Denken" bestimmten) Aussagen. Ein Beispiel hierfür wäre in der Politikwissenschaft die Parteienherrschaftstheorie (Hibbs 1977), die davon ausgeht, daß die Staatstätigkeit eine Funktion der regierenden Parteien ist. Parteien unterschiedlicher politischer Couleur verursachen einen unterschiedlichen Output der Staatstätigkeit, z.B. bei der Bekämpfung der Arbeitslosigkeit oder der Staatsverschuldung. Unter einer Hypothese (aus dem griechischen Wort hypothesis = Grundlage, Voraussetzung abgeleitet) versteht man „eine begründete (bereits geprüfte oder noch zu prüfende) Vermutung über die Beschaffenheit eines Sachverhalts oder die Art, Stärke und Richtung des Zusammenhangs zwischen zwei oder mehreren Variablen" (Schmidt 1994: 168). Hypothesen haben im Forschungsprozeß einen vorläufigen Charakter. Sie sind stets Teilmenge einer Theorie. Mehrere logisch widerspruchsfreie Hypothesen, die in einem inhaltlichen Zusammenhang stehen, können eine Theorie bilden (Galtung 1970: 451). Mit Hilfe der Deduktion, d.h. der logischen Ableitung aus einer Theorie, werden Hypothesen formuliert. Eine Arbeitshypothese aus der bereits angesprochenen Parteienherrschaftstheorie wäre: „Linke Regierungen werden unter sonst gleichen Umständen - für niedrigere Arbeitslosenquoten sorgen als bürgerliche Regierungen." Das Problem der Aufstellung und des Testens von Hypothesen ist zentral für das empirische Arbeiten. Ihm ist deshalb ein eigenes Kapitel (Kapitel 14) gewidmet, in dem näher auf weitere Besonderheiten eingegangen wird.

20

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Abbildung 3.2.: Theoriebildung

Die Diskussion des Theoriebegriffs wirft weitere Fragen auf, insbesondere nach der Art der Theoriebildung und Theorieüberprüfung. Hier wird gemeinhin zwischen deduktiver und induktiver Methode unterschieden. Es handelt sich hierbei um einen entscheidenden Komplex jeder empirischen Forschung, mitunter sogar Streitpunkt zwischen konkurrierenden Schulen. Kennedy (1985) bezeichnet diesen Streit in seiner lesenswerten „Einladung zur Statistik" als „die große Debatte" in den Sozialwissenschaften. Wenn wir Theorien aus der Erfahrung, Beobachtung, Befragung und anderen empirischen Methoden bilden, gewinnen wir sie über die Induktion. Leiten wir Hypothesen mittels logischer und rationaler Überlegungen ab, so gehen wir deduktiv vor (siehe Abbildung 3.2.). Deduktion und Induktion sind zunächst Gegensatzpaare. Während die Deduktion die Ableitung des Besonderen aus dem Allgemeinen beinhaltet, ist die Induktion das Gegenteil, also die Ableitung des Allgemeinen (d.h. der Theorie) aus dem Besonderen. Der in Abbildung 3.2. abgebildete Kreislauf der Wissenschaft weist allerdings auch auf eine Beziehung zwischen Deduktion und Induktion hin. Ausgehend von der Formulierung einer allgemeinen Theorie und ihrer logischen Überprüfung werden im Forschungsprozeß mittels Deduktion spezielle Hypothesen abgeleitet. Im Zuge der Forschung werden dann die interessierenden Variablen operationalisiert, und anschließend die relevanten Daten erhoben. Sofern die Daten für die Untersuchung nützlich sind, wird die Theorie dann anhand der „harten" Daten der Wirklichkeit überprüft. Eine solche Forschungsstrategie wird auch als deduktiv-nomologischer Erklärungsansatz bezeichnet (von Alemann und Tönnesmann 1995: 40ff., Schnell, Hill und Esser 1995: 55ff.). Folgendes Beispiel soll die Struktur einer deduktivnomologischen Erklärung veranschaulichen. In der modernen Demokratietheorie lautet eine Theorie, daß demokratisch verfaßte Staaten nicht untereinander Krieg führen (Schmidt 1997: 316, Rousseau et al. 1996: 512). Dies ist das allgemeine Gesetz, es wird auch als Explanans bezeichnet. Die zweite Komponente einer deduktiv-nomologischen Erklärung ist die An-

3. D E R SOZIALWISSENSCHAFTLICHE FORSCHUNGSPROZEB

Ii

fangsbedingung (Antecedenz- oder auch Randbedingung). In unserem Beispiel ist die Randbedingung, daß Deutschland und Frankreich demokratische Staaten sind. D a s Explanandum, dies kann synonym als spezielles Ergebnis oder als ein Sachverhalt zu einer bestimmten Zeit und zu einem bestimmten Ort bezeichnet werden, wird auf logischem Weg aus der Theorie und der zweiten Prämisse, d.h. der Randbedingung, abgeleitet. Das Ergebnis - nach logischer Ableitung - ist: Deutschland und Frankreich führen untereinander keinen Krieg. Das postulierte Gesetz - „Demokratien führen untereinander keinen Krieg" - muß solange als richtig gelten, bis es falsifiziert wird. Was bedeutet Falsifikation? Im Wissenschaftsprogramm des Kritischen Rationalismus gibt es kein Wahrheitskriterium, d.h. Theorien sind nicht verifizierbar. Dagegen gilt, daß Theorien dann empirisch-wissenschaftlich sind, wenn sie falsifizierbar, d.h. empirisch widerlegbar sind. Dies bedeutet, daß man Gegenbeispiele finden muß, um die Theorie zu widerlegen. In unserem Beispiel würde das Ereignis, daß zwei demokratisch verfaßte Staaten untereinander Krieg führen, zu einer Falsifizierung der Theorie führen. Wie man leicht sieht, stellt dies eine recht rigide Forderung dar. Dies gilt umso mehr, wenn wir an einer strikt deterministischen Auslegung unseres Gesetzes festhalten, das heißt keine Abweichungen zulassen. In den Sozialwissenschaften ist man allerdings davon abgekommen, sich auf solche strikt deterministischen Aussagen zu stützen. Man formuliert die Theorien nicht mehr deterministisch, sondern probabilistisch, d.h. als wahrscheinlichkeitstheoretische oder statistische Aussage. In unserem Fall könnte die Theorie so lauten: „Die Wahrscheinlichkeit, daß demokratisch verfaßte Staaten untereinander Krieg führen, ist sehr gering." Neben den allgemeinen Problemen, wie man das Niveau der Demokratie in den einzelnen Staaten mißt sowie einen „ K r i e g " operationalisiert, kommt es zu dem Problem der Abschätzung der „sehr geringen Wahrscheinlichkeit", die man letztlich über eine Auszählung der Kriegstätigkeit approximiert. Andererseits können wir auf dem Wege der Induktion auch Theorien bilden. Während die Theorie „Demokratien führen keine Kriege untereinander", tatsächlich auf deduktivem Wege erstmals von Immanuel Kant in seiner Schrift „ V o m ewigen Frieden" postuliert wurde, wurde folgende Theorie auf induktiven Wege gewonnen. Sie lautet: „Demokratien haben dieselbe Wahrscheinlichkeit für kriegerische Auseinandersetzungen mit Nichtdemokratien, wie die Nichtdemokratien untereinander". Diese „Systemnullhypothese" bedeutet, daß Demokratien sich nicht signifikant in ihrem Konfliktverhalten von Nichtdemokratien unterscheiden, wenn ihre potentiellen Gegner Nichtdemokratien sind. Allerdings ist diese, lange Zeit als gesichert angesehene Auffassung inzwischen in die Kritik geraten (Rousseau et al. 1995). Die

22

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Formulierung dieser Theorie beruht nicht auf Deduktion, sondern auf empirischen Beobachtungen, die dann zu einem Gesetz verallgemeinert wurden. Bei dieser Form der Induktion schließt man von einer Teilmenge (Summe der Staaten in einer Zeitperiode) auf die Gesamtmenge (Summe aller Staaten zu allen Zeiten). Die wissenschaftliche Leistungsfähigkeit der Induktion ist allerdings umstritten. Insbesondere Popper (1969) kritisierte diese Methode: Noch so viele Beobachtungen eines Sachverhaltes können nicht ausschließen, daß es Gegenbeispiele gibt, die die aufgestellte Theorie widerlegen können. Ziel ist deshalb die ständige Überprüfung, das heißt der Versuch der Falsifizierung der Theorie. Damit zusammenhängend richtet sich Poppers Kritik gegen eine vermeintlich mögliche Verifizierung von Theorien, was er der induktiven Vorgehensweise unterstellt. Dieses ist nicht möglich (Popper 1969: 15): „Ein empirisch-wissenschaftliches System muß an der Erfahrung scheitern können". Beispiel für einen eher problematischen Gebrauch der Induktion, wäre die These (oder „Theorie") Günter Oggers, daß Deutschlands Manager „Nieten in Nadelstreifen" (Ogger 1992) seien. Ogger präsentiert Einzelbeispiele von Fehlverhalten und generalisiert dann über die Gruppe der Unternehmer und Manager hinweg. Seine „theoretische" Aussage - verkürzt zusammengefaßt - lautet: Die deutschen Unternehmer sind Versager, weil sie nur an ihrem kurzfristigen, privaten Interesse orientiert sind. Aus der Teilmenge erfolgloser, teilweise auch krimineller Unternehmer wird hier, um eine provokante These zu lancieren (in seinem Terminus „zu beweisen" - was, wie wir bereits wissen, unmöglich ist), auf sämtliche Unternehmer geschlossen. Wie man sich leicht vorstellen kann, ist es einfach, diese These zu falsifizieren, denn in der Grundgesamtheit aller Unternehmer finden sich auch solche, die ihr Unternehmen sowohl zum Wohl der Anteilseigner als auch zum Wohl der Arbeitnehmer führen. Generell stellt diese Art der Theoriebildung einen Kardinalfehler in den Sozialwissenschaften dar. Von einer kleinen Stichprobe - im Extremfall einer Einerstichprobe - wird hier auf die Grundgesamtheit zurückgeschlossen. Die Erfahrungsgrundlage, die „empirische Basis" also, ist eindeutig unzureichend. Der Forschungsprozeß wird von Müller und Schmidt (1979), in dem dritten hier vorgestellten Phasenmodell, noch weiter als bei Patzelt und Bortz untergliedert. Sie stellen acht Phasen fest, die einer idealtypischen Untersuchung in der etablierten empirischen Politikforschung zu Grunde liegen (Müller und Schmidt 1979: 8f.): (1) Jede Untersuchung nimmt ihren Ausgangspunkt von einer wissenschaftlichen und/oder gesellschaftlich bedingten Problemstellung. Dieses Problem ist zu beschreiben und/oder zu erklären.

3. D E R SOZIALWISSENSCHAFTLICHE FORSCHUNGSPROZEB

(2)

23

A u f der Basis v o n vorhandenen Erkenntnissen und Überlegungen werden Hypothesen über Strukturmerkmale und Bedingungsfaktoren aufgestellt.

(3)

Übersetzung der in den Hypothesen enthaltenen theoretischen K o n z e p t e in beobachtbare und meßbare Variablen.

(4)

Die Anordnung der Variablen und Untersuchungseinheiten. W e l c h e Art von Untersuchung soll durchgeführt werden? W e l c h e r Untersuchungszeitraum soll analysiert werden?

(5)

Entscheidung über die Art und W e i s e der Informationsbeschaffung.

(6)

W a h l der Methoden der Datenanalyse und Festlegung von Kriterien, nach denen die H y pothesen als bestätigt oder nicht bestätigt angesehen werden.

(7)

Der tatsächliche Forschungsprozeß.

(8)

Erstellung eines Forschungsberichtes. Über die angesprochenen M o d e l l e hinaus lassen sich in der Fachliteratur weitere Pha-

senmodelle und Hinweise zum A b l a u f eines Forschungsprozesses finden (Schnell, Hill, Esser 1995; Roth 1993; v o n Alemann und Tönnesmann 1995). Es bleibt festzustellen, daß die Einteilungen in verschiedene Phasen durchaus nach den angewandten Untersuchungsmethoden variieren können, leztendlich sind alle diese M o d e l l e Heuristiken, das heißt eine methodische Anleitung um Probleme zu lösen. Ohne die Werturteilsdiskussion ( W e b e r 1904) in den Sozialwissenschaften aufzurollen, kann man doch Kriterien angeben, w i e eine „ g u t e " empirische Forschung aussehen sollte und welche Kriterien sie zu erfüllen hat. Diese Kriterien orientieren sich an dem Forschungsprogramm des Kritischen Rationalismus. Anhänger einer normativ oder einer kritisch-dialektisch orientierten Poltikwissenschaft würden sicherlich einige Punkte dieses Programms kritisieren. Jedoch können diese Punkte - als Anhaltspunkte - eine H i l f e für eine gelungene empirische Arbeit darstellen. (1)

Jede Forschung sollte theoretisch fundiert sein.

(2)

Der Untersuchungsgegenstand sollte entweder für die Wissenschaft und/oder für die Praxis relevant (das heißt bedeutend) sein.

(3)

Die Forschung soll nachprüfbar sein, der Leser sollte in der L a g e sein - unter vertretbarem Arbeitsaufwand - die Ergebnisse zu überprüfen. Das heißt, wichtige Daten sollten publiziert werden und die Variablen sollten genau spezifiziert werden.

(4)

Die Forschung sollte empirisch sein, das heißt, man soll sich auf Phänomene beschränken, die beobachtet und mit Daten quantifiziert werden können.

24

STATISTIK FÜR POLITIKWISSENSCHAFTLER

(5) Die Forschung sollte vergleichend sein. (6) Die politikwissenschaftliche Forschung sollte interdisziplinär sein. (7) Die theoretischen Konzepte sollten mit mehreren Indikatoren überprüft werden. (8) Die aufgestellten Hypothesen sollten, falls möglich, mit verschiedenen statistischen Methoden und Maßzahlen überprüft werden.

3 . D E R SOZIALWISSENSCHAFTLICHE F O R S C H U N G S P R O Z E B

25

4. Grundbegriffe der Statistik 4.1 Merkmale, statistische Einheiten und Massen Bei der Durchführung einer Datenerhebung muß vorher (a priori) festgelegt werden, welche Tatbestände erhoben werden und wer als Träger der Informationen in Frage kommt. Träger von Informationen oder interessierenden Eigenschaften heißen statistische Einheiten. Diese können zum Beispiel natürliche Personen (bei Geburten und Eheschließungen), Gegenstände (Gebäude bei der Gebäudezählung) oder auch einzelne Unternehmen (d.h. juristische Personen bei Gewinnermittlungen) sein. Politikwissenschaftliche Beispiele sind einzelne Parteien oder Regierungen. Von der statistischen Einheit ist die statistische Masse zu unterscheiden. Die statistischen Einheiten bilden zusammen die statistische Masse. Die statistische Masse ist mithin die nach sachlichen, räumlichen und zeitlichen Kriterien gebildete Gesamtheit der statistischen Einheiten. Beispiel: Die Bevölkerung ist die statistische Masse bei einer Volkszählung. Es ist wichtig, daß sich die Einheiten der statistischen Masse voneinander unterscheiden. Insbesondere müssen die statistischen Einheiten gegenseitig nach sachlichen, örtlichen und zeitlichen Identifikationsmerkmalen genau abgegrenzt sein. Bei einem Merkmalsträger werden meist verschiedene Merkmale erhoben (z.B. Alter, Geschlecht, Einkommen, parteipolitische Präferenz etc.). Als Merkmalsausprägungen bezeichnet man die verschiedenen Werte oder Kategorien, die ein Merkmal annehmen kann. Jede statistische Einheit besitzt im allgemeinen eine Reihe von Eigenschaften. Es sind dabei vier Begriffe zu unterscheiden: 1. Merkmal 2. Merkmalsträger 3. Merkmalsausprägungen 4. Merkmalswert. Eine Eigenschaft, die bei einer statistischen Untersuchung interessiert, heißt Merkmal (z.B. Alter, Einkommen, politische Einstellung). An dem Merkmalsträger (= statistische Einheit) wird das Merkmal erhoben. Die möglichen Realisationen werden Merkmalsausprägungen genannt. Ein Merkmal besitzt somit eine Menge von Merkmalsausprägungen. Als Merkmalswert wird die an einem Merkmalsträger ermittelte Merkmalsausprägung bezeichnet. Tabelle 4.1. soll dies für unterschiedliche Merkmale verdeutlichen. Während für die ersten drei

26

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Beispiele die Merkmalsträger jeweils natürliche Personen sind, handelt es sich bei den beiden anderen Fällen um Institutionen (Haushalte beziehungsweise Regierungen). Das Merkmal Alter ist aber nicht nur an natürliche Personen gebunden, sondern es kann auch für Institutionen, zum Beispiel für Demokratien erhoben werden. Hier würde es die Dauer der demokratischen Herrschaft messen. Tabelle 4.1.: Beispiele für Merkmale, Merkmalsausprägungen und Merkmals werte Merkmal

Merkmalsträger

Merkmalsausprägung

Merkmalswert (Realisation

(mögliche Realisationen)

am Merkmalsträger)

Alter

natürliche Person

0, 1,2,

Geschlecht

natürliche Person

männlich/weiblich

männlich

Politische Selbsteinstufung

natürliche Person

1, 2, 3, 4,

5

(auf einer Skala von 1 ... 10)

links

Jahre

, 8, 9, 10

28

rechts

Haushaltsgröße

Haushalt

1, 2, .... Personen

1

Parteipolitische Zusammen-

Regierung

1, 2, 3 , 4 , 5

1

1

setzung der Regierung Anmerkung: 1. Dieser Indikator beruht auf einer Berechnung der Kabinettssitzanteile der Parteien. Dabei wird den untersuchten Regierungen für jedes Jahr ein Wert zugewiesen, der aus fünf Klassifikationstypen abgeleitet wird (Schmidt 1982). 1 = Hegemonie bürgerlicher Parteien, 2 = Dominanz bürgerlicher Parteien, 3 = Patt zwischen bürgerlichen und Links-Parteien, 4 = Dominanz einer sozialdemokratischen Partei, 5 = Hegemonie einer sozialdemokratischen Partei. Von Hegemonie spricht man, wenn der Kabinettssitzanteil 100 % beträgt, von Dominanz, wenn der Kabinettssitzanteil zwischen 66,6 % und 100 % liegt und von einem Patt, wenn die Kabinettssitzanteile der beiden Lager jeweils zwischen 33,3 % und 66,6 % liegen.

Wie wir gesehen haben, können die Merkmalsausprägungen unterschiedliche Formen annehmen: Zum einen als Zahlen und zum anderen als Wörter. Wir bezeichnen nun diejenigen Merkmalsausprägungen als quantitative Merkmale, die durch Zahlenwerte realisiert werden. Alle anderen Merkmale werden als qualitativ bezeichnet. Die quantitativen Merkmalsausprägungen lassen sich weiter danach unterteilen, ob sie diskret oder stetig sind. Mathematisch spricht man dann von einem diskreten Wert, wenn in einem geschlossenen Intervall endlich abzählbare Merkmalswerte vorliegen. Liegen in einem geschlossenen Intervall unendliche (potentielle) Merkmalsausprägungen vor, dann heißt dies stetig. Diskrete Variablen werden manchmal wie kontinuierliche (= stetige) Variablen behandelt (z.B. bei einer durchschnittlichen Haushaltsgröße von 2,43 Personen). Oft ist es möglich, verschiedene Merkmale sowohl diskret als auch approximativ-stetig zu erfassen. Beispiele sind das Alter, das normalerweise in Jahren angegeben wird, sich aber auch bis in Sekunden erfassen läßt sowie das Einkommen (Einkommensklassen versus Erfassung bis auf Pfennigbeträge). Eine solch tief-

27

3. D E R SOZIALWISSENSCHAFTLICHE F O R S C H U N G S P R O Z E B

gehende Erfassung wird als approximativ-stetig bezeichnet. Zur Veranschaulichung dient Abbildung 4.1. Abbildung 4.1.: Typologie der Merkmalsausprägungen Merkmalsausprägung

qualitativ (immer diskret)

diskret

approximativ-stetig

stetig

In der Politikwissenschaft haben wir es überwiegend mit diskreten Merkmalen beziehungsweise Variablen zu tun. Üblicherweise wird der Begriff Variable zumeist bei quantitativen Merkmalen verwendet. Was bedeutet nun dieser Begriff „Variable" überhaupt? Definition: Eine Variable ist ein veränderliches Merkmal, bei dem der Merkmalsträger mindestens zwei Merkmalsausprägungen annehmen kann.

Im Gegensatz dazu ist eine Konstante eine unveränderliche Größe, ohne Variation des Merkmals. Die Variable Geschlecht kann beispielsweise zwei Merkmalsausprägungen annehmen, während die Variable „Einkommen" dagegen eine potentiell große Anzahl an Merkmalsrealisationen aufweist. Zu erwähnen ist, daß selbst qualitative Merkmale für statistische Analysen verwendet werden können, dazu aber in quantitative Merkmale „umgeformt" (d.h. umkodiert) werden müssen. Beim Merkmal Geschlecht können wir der Merkmalsausprägung männlich den Wert 1 und der Merkmalsausprägung weiblich den Wert 2 zuweisen. Weitere Beispiele für qualitative Merkmale sind Familienstand und Beruf. Eine Kodierung des Familienstandes (analog zu den Allbus-Umfragen) könnte wie folgt aussehen: Verheiratet und lebt mit Ehepartner zusammen

= 1,

Verheiratet und getrennt lebend

= 2,

Verwitwet

= 3,

Geschieden

= 4,

Ledig

= 5.

Nach der Art der Messung unterscheidet man schließlich noch manifeste und latente Variablen. Manifeste Variablen sind direkt beobachtbar, während latente Variablen nur indirekt

28

S T A T I S T I K FÜR P O L I T I K W I S S E N S C H A F T L E R

gemessen werden können. Die latenten Merkmale sind in den Sozialwissenschaften von großer Bedeutung. Wenn man diese latenten Merkmale erfassen will, muß man sich daher überlegen, wie sie am sinnvollsten gemessen werden können. Oft versucht man von manifesten Meinungsäußerungen auf latente Einstellungen zurückzuschließen. Beispiel: Die politische Einstellung in der Bevölkerung soll gemessen und in verschiedene Kategorien klassifiziert werden, z.B. in links-extrem, gemäßigt-links, liberal, gemäßigt-rechts, rechts-extrem. Man kann nun die Einstellungen zu gewissen Themen abfragen wie: Ausländer, Gleichberechtigung, Arbeitslosigkeit, politische Aktivität sowie die Selbsteinstufung auf einer Links-RechtsSkala (der Fragenkatalog läßt sich natürlich erweitern). Von den Ergebnissen der Umfragen versucht man dann auf die Einstellung in der Bevölkerung zu schließen. Je nach Vollständigkeit der Daten spricht man von einer Grundgesamtheit oder einer Teilgesamtheit. Zür Grundgesamtheit gelangt man über eine Vollerhebung (Totalerhebung) aller statistischen Einheiten. Bei einer Teilgesamtheit spricht man analog von einer Teil- oder Stichprobenerhebung. W i e bereits erörtert, müssen die statistischen Massen in sachlicher, räumlicher und zeitlicher (mitunter auch aus „institutioneller") Sicht klar abgegrenzt sein. Bezüglich der zeitlichen Abgrenzung können die statistischen Massen entweder für einen bestimmten Zeitpunkt oder für einen Zeitraum definiert sein. Dementsprechend unterscheidet man Bestandsmassen (engl, stocks), die zeitpunktbezogen und Bewegungsmassen ( = Ereignismassen, englisch = flows), die zeitraumbezogen sind. Beispiele für Bestandsmassen sind: 1. Wohnbevölkerung zum 1. Januar eines Jahres. 2. Der Bestand aller Personenkraftwagen in Deutschland zum Ende eines Jahres. 3. Der Schuldenstand eines Landes am Ende eines Jahres. 4. Alle Bundestagsabgeordneten zu Beginn der Wahlperiode. Beispiele für Bewegungsmassen sind: 1. Geburten eines Jahres. 2. Verkehrsunfälle innerhalb eines Jahres. 3. Das jährliche Haushaltsdefizit. 4. Die Abgeordneten, die neu in den Bundestag einziehen. Über die Bestandsfortschreibung sind Bestands- und Bewegungsmassen miteinander verknüpft. Sie heißen dann korrespondierende Massen. Ein Beispiel für korrespondierende Massen sind die Bestandsmasse Bevölkerung und die Bewegungsmassen Geburten, Sterbe-

3. DER SOZIALWISSENSCHAFTLICHE FORSCHUNGSPROZEC

29

fälle sowie Zu- und Abwanderungen. Die Fortschreibung erfolgt über folgende Gleichung: Endbestand (B) = Anfangsbestand (AB) + Zugänge (Z) - Abgänge (A). Für das Beispiel der Staatsverschuldung lautet die Fortschreibungsformel: Schuldenstand (am 31.12.1998) = Schuldenstand (31.12.1997) + Bruttokreditaufnahme (in 1998) - Tilgungen (in 1998). Ein weiteres Beispiel ist die Lagerbestandsfortschreibung, in der - auf Basis von einem gegebenen Anfangsbestand - die jeweiligen Zu- und Abgänge erfaßt werden.

4.2. Meßniveaus und Skalierung Die Unterscheidung in quantitative und qualitative Merkmale hängt eng mit der Frage nach dem Meßniveau und dem Skalentypus zusammen. Beide Ausdrücke werden synonym verwandt. Skalenniveaus sind in zweifacher Hinsicht von Bedeutung: Zum einen lassen sich die sozialwissenschaftlich relevanten Variablen sinnvoll klassifizieren, und zum anderen kann man aufgrund des vorliegenden Skalenniveaus entscheiden, welche statistischen Kennzahlen und Verfahren zur Deskription und Analyse zulässig sind. Dabei gilt: Je höher das Skalenniveau, desto mehr statistische Verfahren können angewandt werden. Folgendes Beispiel soll auf die Problematik aufmerksam machen. Wir haben das qualitative Merkmal Religion erhoben mit den folgenden Ausprägungen: 1 = römisch-katholisch, 2 = evangelisch 3 = sonstige Religionszugehörigkeit. Bei einer Umfrage erhalten wir das Resultat, daß 12 Personen katholisch und 8 Personen evangelisch sind. 12 Personen geben „sonstiges" an. Es ist sinnlos, hier eine Mittelwertbildung mit Hilfe des arithmetischen Mittels 1 vorzunehmen - mit einem „Durchschnittswert" von 2 - und von einer mittleren Konfession, die evangelisch sei, zu sprechen. Die Zuordnung der Zahlen zu den Merkmalsausprägungen kann hier, bei sogenannten nominalskalierten Daten, „frei" erfolgen. Es spielt keine Rolle, ob „katholisch" oder „evangelisch" den Wert 1 zugewiesen bekommt. Eine Vertauschung würde gleichfalls das Ergebnis unserer Berechnung verändern und somit die Sinnlosigkeit dieses Tuns verdeutlichen. Dieses kleine Beispiel zeigt, wie wichtig es ist, sich zu vergegenwärtigen, welche mathematischen Operationen für welches

D a s arithmetische Mittel wird in Kapitel 7 . 2 . 3 . ausführlich behandelt. D a m i t der Leser die ( u n z u l ä s s i g e ) „ B e r e c h n u n g " n a c h v o l l z i e h e n kann: D i e s e r Mittelwert b e r e c h n e t sich aus der S u m m e der M e r k m a l s w e r t e der e i n z e l n e n Merkmalsträger, w o b e i d i e s e dann durch die Zahl der Merkmalsträger dividiert wird.

30

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Meßniveau zulässig sind. Bevor eine statistische Untersuchung durchgeführt werden kann, muß das interessierende Phänomen zunächst gemessen werden. Die Zuordnung bestimmter Merkmalswerte zu den Merkmalsträgern heißt messen. Eine sehr ähnliche Definition ist diejenige von Friedrichs (1973). Danach besteht der Meßvorgang an sich aus drei Komponenten: dem empirischen Relativ, dem numerischen Relativ und der Abbildungsvorschrift. In unserem Religionsbeispiel ist das empirische Relativ die einzelne Religion der Merkmalsträger, die über die Abbildungsvorschrift („ordne Personen mit katholischer Religionszugehörigkeit den Wert 1 zu") in das numerische Relativ überführt wird. Ein weiteres Beispiel für das Messen ist: Wir können einem Merkmalsträger den Merkmalswert „männlich" oder „weiblich" zuordnen, je nachdem welches Geschlecht er/sie aufweist. Définition: „Messen ist die systematische Zuordnung einer Menge von Zahlen oder Symbolen zu den Ausprägungen einer Variablen, mithin auch zu den Objekten" (Friedrichs 1973: 97). Die Qualität der Messung hängt generell davon ab, wie gut die Eigenschaften durch Zahlen ausgedrückt werden können. Je nachdem, was gemessen wird, sind vier Meßniveaus (= Skalenniveaus) zu unterscheiden: 1. die Nominalskala, 2. die Ordinalskala, 3. die Intervallskala, 4. die Ratio- oder auch Verhältnisskala. Nominal- und Ordinalskala bezeichnet man auch als topologische oder als nichtmetrische Skalen, Intervall- und Verhältnisskala dagegen als metrische Skalen. Die Nominalskala (oder auch Kategorialskala) stellt die einfachste Form des Messens dar. Sie liegt vor, wenn die Ausprägungen des untersuchten Merkmals durch die zugeordneten Zahlen lediglich unterschieden werden sollen. Die Zahlen erlauben keinerlei rechnerische Transformationen, sie dienen lediglich der Kodierung und Verschlüsselung der Daten sowie zur Unterscheidung der einzelnen Merkmalsträger, zum Beispiel das Merkmal Geschlecht mit männlich = 1 und weiblich = 2, oder das Merkmal Religion oder auch Parteilabels auf einem Wahlzettel. Substantiell spielt es keine Rolle, wie die Abbildungsvorschrift hier lautet. Wichtig ist lediglich die Unterscheidbarkeit der Merkmalsträger. Ein Beispiel aus politikwissenschaftlicher Perspektive ist die Unterscheidung von föderativen und nicht föderativen Ländern

3 . D E R SOZIALWISSENSCHAFTLICHE FORSCHUNGSPROZEB

Ii

mit einer dichotomen, d.h. zweigeteilten 1/0-Kodierung. Bei nominalskalierten Merkmalen läßt sich nur angeben, ob zwei Merkmalswerte gleich oder ungleich sind. Die zugeordneten Zahlen haben eine reine Bezeichnungsfunktion. Nominalskalen können weiter noch in Dichotomien (zwei Ausprägungen: „männlich", „weiblich") oder in Polytomien (viele , d.h. mehr als zwei Ausprägungen: „katholisch", „evangelisch", „islamisch", „sonstiges") unterschieden werden. Eine Ordinalskala oder auch Rangskala liegt vor, wenn die Ausprägungen des untersuchten Merkmals nicht nur unterschieden, sondern auch in eine Rangordnung gebracht werden können. Diese Rangordnung wird durch die zugeordneten Zahlen widergespiegelt. Die aufgestellte Rangordnung sagt allerdings nichts Uber die Abstände zwischen den einzelnen Objekten aus. Es kann daher aus einer Ordinalskala nicht abgelesen werden, um wieviel besser ein Objekt gegenüber einem anderen eingeschätzt wird. Ein Beispiel für Ordinalskalen sind Rangplätze von Sportligen. Die Tabellenplätze der Fußballbundesliga geben eine Rangordnung an. Ist Werder Bremen erster und Bayern München elfter der Bundesliga, so kann man sagen, daß Bremen besser ist als München, aber man kann nicht sagen um wieviel. Es ist nicht möglich zu sagen, Werder Bremen sei 1 lmal besser als Bayern München, und man kann ebensowenig sagen, daß Werder Bremen doppelt so gut sei wie Bayern München. Ein weiteres Beispiel für eine Ordinalskala wäre die sozialdemokratische Regierungsbeteiligung im internationalen Ländervergleich, die anhand eines Indikators wie ihn Manfred Schmidt (1982) entwickelt hat (vgl. Tabelle 4.1), gemessen werden kann. Auf Basis der Kabinettssitzanteile wird wie folgt klassifiziert: 1 = Hegemonie der bürgerlichen Parteien, 2 Dominanz der bürgerlichen Parteien, 3 = Patt, 4 = Dominanz der sozialdemokratischen Parteien, 5 = Hegemonie der sozialdemokratischen Partei. Dies ist ebenfalls eine ordinale Rangordnung. Man kann die so klassifizierten Regierungen der einzelnen Länder, aufgrund des dahinterstehenden Links-Rechts-Schemas, miteinander vergleichen. Jedoch ist es nicht möglich zu sagen, Land A wäre x-mal so sozialdemokratisch regiert worden wie Land B. Dies ist unsinnig. Ein weiteres Beispiel sind Schulnoten, die von 1 bis 6 reichen. Formal statistisch ist es nicht zulässig, das arithmetische Mittel als Klassendurchschnitt zu bilden. Ein Schüler mit einer 1 ist nicht viermal so gut wie ein Schüler mit einer 4. Bei ordinalem Skalenniveau sind nur sinnvolle Aussagen im Sinne von „besser" beziehungsweise „größer", „schlechter" beziehungsweise „kleiner" sowie „gleich" zulässig. Trotzdem wird sich in der Praxis über diese Forderung aus traditionellen und aus Gründen der Anschaulichkeit öfters hinweggesetzt.

32

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Quantitative Merkmale werden auf metrischen Skalen gemessen. Das nächsthöhere Skalenniveau nach der Ordinalskala bezeichnet man als Intervallskala. Diese weist gleich große Skalenabschnitte aus, wie zum Beispiel beim Thermometer oder bei Längengraden der Erde. Neben den Interpretationsmöglichkeiten der niedrigeren Skalenniveaus lassen sich auch die Differenzen zwischen den Merkmalsausprägungen sinnvoll interpretieren. Beispiel: Der Temperaturunterschied zwischen 40°C und 30°C ist gleich dem Unterschied zwischen 20°C und 10°C und beträgt genau 10°C. Allerdings ist es nicht zulässig, zu sagen bei 20°C ist es doppelt so warm wie bei 10°C. Warum? Wir wissen, Temperatur kann man auch in Fahrenheit messen. Es gilt: 20°C = 68 F, und 10°C = 50 F. Bildet man die Verhältnisse, so ist 20/10 ψ 68/50 (= 1,36), was aber unsinnig ist, da beide Verfahren den selben Temperaturunterschied exakt messen, die Verhältnisse allerdings unterschiedlich sind. Als sozialwissenschaftliches Beispiel für intervallskalierte Variablen können Intelligenzquotienten dienen. Bei Intelligenzquotienten gibt es nicht nur eine Rangordnung, sondern den Abständen zwischen den Merkmalsrealisationen kommt auch eine Bedeutung zu, da sie sinnvoll interpretiert werden können. Nehmen wir 3 Personen (Anna, Beate, Carla) die folgende IQs aufweisen: 140 für Anna, 105 für Beate und 70 für Carla, dann können wir sagen, daß Anna im Vergleich zu Beate um ebensoviel intelligenter ist wie Beate im Vergleich zu Carla. Allerdings können wir nicht sagen, daß Anna doppelt so intelligent ist wie Carla. Die Verhältnis- oder auch Ratioskala stellt das höchste Meßniveau dar. Sie unterscheidet sich von der Intervallskala dadurch, daß zusätzlich ein natürlicher Nullpunkt (Bezugspunkt) existiert. Beispiele für dieses Skalenniveau sind Einkommen, Körperlänge und Gewichte. Bei Vorliegen eines natürlichen Nullpunkts lassen sich nun die Verhältnisse der Merkmalsausprägungen interpretieren. Exemplarisch wird dies für die Umrechnung von Währungen demonstriert: 100 $ = 150 DM und 50 $ = 75 DM (bei einem angenommenen Wechselkurs von 1,50 DM/$). Die Verhältnisse sind beide gleich, und zwar 100 $ / 50 $ = 2 und 150 DM / 75 DM = 2. Politikwissenschaftliche Beispiele sind das Alter der Demokratie oder die Dauer von Regierungen gemessen in Tagen oder Monaten. Ein Spezialfall der Verhältnisskala ist noch die Absolutskala, wenn zu einem natürlichen Nullpunkt noch eine natürliche Einheit tritt, d.h. die Maßeinheit ist vorgegeben. Beispiel hierfür sind Stückzahlen sowie die Anzahl von Kindern.

3. DER SOZIALWISSENSCHAFTLICHE FORSCHUNGSPRQZEB

33

Tabelle 4.2.: Skalentypen und ihre Eigenschaften Skalenniveau

Erläuterung

sinnvolle Aussagen

mögliche Operationen

Beispiele

zwischen den einzelnen Merkmalen Nominalskala

Merkmalsausprägungen

Gleichheit (=)

Bilden von Häufigkei-

(Kategorialskala)

(MA) bilden keine

Ungleichheit (*)

ten, Modus,

Kanzlerkandidaten

natürliche Rangfolge

(= Verschiedenheit)

Kontingenzmaße

Religion

Ordinalskala

M A bilden natürliche

Größer (>) und Kleiner

Ermittlung des Median,

Militärische Ränge

(Rangskala)

Rangordnung. Die

(, , χ.

mit Η, = kumulierte relative Summenhäufigkeit (vgl. Gleichung 6.4.). Die empirische Verteilungsfunktion F ( x ) ist nach der Formel 6.5. eine abschnittsweise definierte Funktion. Die Grenzen dieser Abschnitte werden durch die möglichen Meßwerte festgelegt. Für jedes χ unterhalb von X| beträgt der Funktionswert auf der Ordinate null. Für jeden Meßwert zwischen dem ersten (i = 1) und dem vorletzten Meßwert (i = k-1) muß die empirische Verteilungsfunktion neu bestimmt werden. An den Sprungstellen, das heißt zwischen den einzelnen diskreten Merkmalswerten, erhöht sich der Funktionswert F ( x ) um die zu diesem Merkmalswert gehörende relative Häufigkeit h¡. Es entsteht eine sogenannte Treppenfunktion, wobei an den Sprungstellen immer der obere Wert der Verteilungsfunktion an der Stelle Xj dargestellt wird. Abbildung 6.4. stellt eine solche Treppenfunktion für das folgende

6. EINDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN

83

Beispiel dar. Innerhalb einer Klasse bleibt der Funktionswert F(x) konstant. Der Wert der Summenhäufigkeitsfunktion F(x) nimmt für die letzte Klasse k (oder den höchsten Meßwert) den Wert 1 an. Beispiel: Ein Professor der Politikwissenschaft stellt während der mündlichen Nebenfachprüfung jedem Prüfungskandidaten 6 Fragen. Im Laufe eines Jahres prüfte er insgesamt 40 Studenten und notierte sich die Anzahl der richtig beantworteten Fragen. Das Ergebnis ist in Tabelle 6.5. dargestellt: Tabelle 6.5.: Die Häufigkeit richtig beantworteter Fragen in Prüfungen Richtige Fragen

A n z a h l d e r S t u d e n t e n n¡

r e l a t i v e H ä u f i g k e i t h¡

kumulierte relative H ä u f i g k e i t H¡

1

5

0,125

0,125

2

8

0,200

0,325

3

10

0,250

0,575

4

10

0,250

0,825

5

5

0,125

0,950

6

2

0,050

1,0

Σ

40

1,0

Es ist zu beachten, daß sowohl diskrete als auch stetige Merkmalsausprägungen möglich sind. Bei diskreten Merkmalen ist die Verteilungsfunktion F(x) eine Treppenfunktion mit Sprungstellen, während bei stetigen Merkmalen die Verteilungsfunktion F(x) als eine monoton wachsende Funktion ohne Sprungstellen dargestellt werden kann. Dieser Kurvenverlauf wird nur dadurch ermöglicht, daß man eine gleichmäßige Verteilung der Merkmalswerte innerhalb der einzelnen Klassen annimmt. Eine solche Funktion ohne Sprungstellen bezeichnet man auch als Polygonzug der relativen Summenhäufigkeiten (vgl. Abbildung 6.5.). Abbildung 6.4. zeigt die Verteilungsfunktion F(x) für diskrete Merkmale sowie den Zusammenhang zwischen der Verteilungsfunktion und der Häufigkeitsfunktion h(x). Diese Häufigkeitsfunktion wird über die relativen Häufigkeiten definiert:

6.6.

ih(X;) für χ = x¡ h(x) = ·ί [0 für χ = sonstige

, heißt Häufigkeitsfunktion.

Die Funktionswerte für diese Funktion müssen aus der jeweiligen Tabelle der relativen Häufigkeiten übernommen werden. Der untere Teil von Abbildung 6.4. stellt eine solche Häufigkeitsfunktion dar. Konkret kann man aus der Verteilungsfunktion F(x) ablesen, wie groß der Anteil der Prüfungskandidaten ist, die eine bestimmte Anzahl an Fragen richtig beant-

84

STATISTIK FÜR POLÌTIKWISSENSCHAFTLER

wortet haben. Möchte man zum Beispiel wissen, wie hoch der Anteil der Studenten ist, die höchstens 3 Fragen richtig beantwortet haben, läßt sich dies für den Funktionswert für χ = 3 an der Ordinate ablesen (der Anteil entspricht 57,5 Prozent der geprüften Studenten; vgl. Tabelle 6.5.). Wie aus der Formel 6.5. erkennbar, ist die Verteilungsfunktion abschnittsweise definiert. Für Werte die kleiner dem kleinsten Meßwert Xi sind, beträgt der Funktionswert 0. Für Meßwerte zwischen dem ersten Wert (i = 1) und dem vorletzten Wert (k-1) muß die Verteilungsfunktion immer neu berechnet werden, indem man die relative Häufigkeit des i-ten Meßwertes zu den vorherigen kumulierten Häufigkeiten hinzuaddiert. Für x-Werte größer oder gleich dem größten Meßwert beträgt die Verteilungsfunktion dann 1 (bei offenen Randklassen). Abbildung 6.4.:

Der Zusammenhang zwischen der Verteilungsfunktion (Treppenfunktion) und den relativen Häufigkeiten

F(x) 1,0

0,8

- -

0,2

- -

richtige Fragen

0 h(x)

- -

I

0,4 - -

I

0,6

0,2

4-

- -

t Η

1 2

I 1

I 1 3

richtige Fragen

1 4

1 5

h 6

x

Die Verteilungsfunktion und die Häufigkeitsfunktion hängen eng zusammen, da sie ja aus denselben Daten gewonnen werden. Die Verteilungsfunktion F(x) kann aus der Häufigkeitsfunktion h(x) abgeleitet werden, da die Sprunghöhen der Treppenfunktion gleich den relativen Häufigkeiten an der entsprechenden Stelle x¡ sind. Umgekehrt lassen sich durch Differenzenbildung die relativen Häufigkeiten aus der Verteilungsfunktion ermitteln, indem der Wert der Verteilungsfunktion an der Stelle x¡_i von dem Wert der Verteilungsfunktion an der Stelle x¡ subtrahiert wird: h(x¡) = F(x¡) - F(x¡_i).

6 . EINDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN

85

Die empirische Verteilungsfunktion F(x) des quantitativen Merkmals χ wird als die kumulierte relative Häufigkeit derjenigen statistischen Einheiten bezeichnet, deren Merkmalswerte χ kleiner oder gleich x¡ sind. Folgendes Beispiel von Einkommensdaten (Monatseinkommen) soll zur Illustration für stetige Merkmale dienen. Zu beachten ist, daß stetige beziehungsweise approximativ-stetige Merkmale viele Merkmalsausprägungen haben. Aus Gründen der Übersichtlichkeit werden sie deshalb in Klassen zusammengefaßt. Eine Konsequenz daraus ist, daß die absoluten und relativen Häufigkeiten nur noch für einzelne Klassen und nicht mehr für spezielle Merkmalswerte innerhalb der Klassen (vgl. Tabelle 6.5.) berechnet werden können. Tabelle 6.5.: Beispiel einer fiktiven Einkommensverteilung Einkommensklassen

absolute

relative

Häufigkeit nj

H ä u f i g k e i t h¡

Prozentwerte

kumulierte relative Häufigkeit H(x¡)

0 DM < EK
nx = X x , . I m Beispiel der Tabelle 7.4 galt η = 6 und χ = 7. Daraus er¡=1

gibt sich η χ = 4 2 , also genau der Wert wie bei der Summierung der Merkmalswerte.

7.2.4. Das geometrische Mittel Das geometrische Mittel spielt in den Sozialwissenschaften und in der Politikwissenschaft - im Vergleich zu den bisher behandelten Lageparametern - keine große Rolle. Es kommt lediglich in der Mittelwertberechnung von Wachstumsraten zur Anwendung. Das geometrische Mittel erfordert metrischskalierte Daten. Generell wird es dort verwendet, wo

7 . V E R T E I L U N G S M A ß Z A H L E N BEI U N I V A R I A T E N H Ä U F I G K E I T S V E R T E I L U N G E N

103

die Gesamtänderung der Merkmalsausprägungen nicht durch eine Summe, sondern durch ein Produkt beschrieben wird, beispielsweise bei prozentualen Veränderungen des Bruttosozialprodukts gegenüber dem Vorjahr oder bei Lohnzuwächsen. Das geometrische Mittel G ist gegenüber dem Einfluß von Extremwerten robuster als das arithmetische Mittel.

7.6.

G = n/x, ·χ 2 ·...·χ„ = ^ Π χ ί

·

Während beim arithmetischen Mittel der griechische Buchstabe Σ (Sigma) anzeigt, daß die Beobachtungswerte zu addieren sind (Summenzeichen), schreibt das griechische Symbol Π (Pi) die Multiplikation der Beobachtungswerte vor (Multiplikationszeichen). Betrachtet man den Durchschnitt relativer Änderungen, das heißt Wachstumsraten, dann ist x¡ = der Wachstumsfaktor. Dies ist ein wichtiger Punkt: Das geometrische Mittel ist nicht mit den Wachstumsraten, sondern mit den Wachstumsfaktoren zu berechnen. Der Wachstumsfaktor ist definiert als x¡ = 1 + ρ/100, wobei ρ, die jährliche Wachstumsrate ist. Folgendes Beispiel soll die Berechnungsweise des geometrischen Mittels G verdeutlichen. Tabelle 7.5.: Veränderung des BSP in der Bundesrepublik Deutschland gegenüber dem Vorjahr in Prozent Jahr

%-Veränderung des BSP gegenüber dem Vorjahr (in Preisen von 1985)

Wachstumsfaktor

LN des Wachstumsfaktors

1983

1,9

1,019

0,0188

1984

3,1

1,031

0,0305

1985

1,8

1,018

0,0178

1986

2,2

1,022

0,0218

1987

1,5

1,015

0,0149

1988

3,7

1,037

0,0363

1989

4,0

1,040

0,0392

1990

4,9

1,049

0,0478

1991

3,6

1,036

0,0354

1992

0,9

1,009

0,0090

Π = 1,312

Σ 0,2716

Die Berechnung ergibt G =

,019 · 1,031 · ... · 1,009 = 1,02753.

Die durchschnittliche jährliche Wachstumsrate erhält man dann einfach durch Rückrechnung Pi

= (x¡ - l) · 100 = (1,02753 - 1) · 100 = 2,753. Das durchschnittliche jährliche Wachstum im

Zeitraum von 1984 bis 1992 beträgt daher 2,753%. Zum Vergleich liefert das arithmetische Mittel einen Wert von 2,76, der sachlogisch jedoch nicht sinnvoll ist.

104

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Zur Kontrolle und mitunter auch zur einfacheren Ermittlung der jahresdurchschnittlichen Wachstumsrate kann man das geometrische Mittel durch Logarithmieren der Wachstumsfaktoren berechnen. Aus der Gleichung 7.6. für das geometrischen Mittel G erhält man dann 1 folgende Gleichung: log G = — (log χ, + log x 2 + ... + l o g x n ) = — > log x] . η η i= | Zwischen den beiden Mittelwerten besteht folgender Zusammenhang: Der Logarithmus des geometrischen Mittels ist gleich dem arithmetischen Mittel der Logarithmen der einzelnen Merkmalswerte (also der Wachstumsfaktoren). Deshalb bezeichnet man G auch als logarithmisches Mittel. In unserem Beispiel ergibt sich als Logarithmus (es wurde der natürliche Logarithmus verwendet) LN G = 0,02716 (= 0,1 · 0,2716; siehe Tabelle 7.5.). Durch die Umkehrfunktion (hier die Exponentialfunktion) gelangt man zu G = e 0 · 0 2 7 1 6 = 1,02753 für den Wachstumsfaktor. Wie man sieht, sind die jahresdurchschnittlichen Wachstumsfaktoren und damit auch die Wachstumsraten identisch.

7.2.5. Das harmonische Mittel Das harmonische Mittel hat in der Praxis nur eine sehr geringe Bedeutung. Es gibt jedoch Fälle, bei denen dieser weitgehend unbekannte Mittelwert angewendet werden muß, weil jede andere Art der Mittelwertbildung zu unsinnigen Ergebnissen führen würde. Erforderlich ist für das harmonische Mittel - wie bei χ und G - metrischskaliertes Datenmaterial. Wichtigste Anwendung ist die Mittlung von Geschwindigkeiten. Beispiel: Ein Lastwagenfahrer fährt die Strecke von Heidelberg nach Frankfurt, die genau 75 km lang sein soll, mit einer konstanten Geschwindigkeit von 100 km/h. Auf dem Rückweg erreicht er wegen zähflüssigen Verkehrs auf der A5 zwischen Darmstadt und Heidelberg nur eine Geschwindigkeit von 50 km/h. Eine Bestimmung der Durchschnittsgeschwindigkeit unter Verwendung des arithmetischen Mittels wäre hier nicht zulässig; χ würde 0,5 (100 km/h + 50 km/h) = 75 km/h betragen. Warum ist das arithmetische Mittel nicht zulässig? Bei einer Durchschnittsgeschwindigkeit von 75 km/h würde der Lastwagenfahrer für die Gesamtstrecke von 150 km genau 2 Stunden benötigen. Die tatsächlich verbrauchte Zeit beträgt jedoch 2 Stunden und 15 Minuten, nämlich 45 Minuten für den Hinweg und 1 Stunde 30 Minuten für den Rückweg. Zur Ermittlung der Durchschnittsgeschwindigkeit anhand der Einzelgeschwindigkeiten ist daher ein anderer Weg zu gehen. Die Gesamtstrecke S ist in Beziehung zu der für die Gesamtstrecke

7. VERTEILUNGSMAßZAHLEN BEI UN1VARIATEN HÄUFIGKEITSVERTEILUNGEN

105

insgesamt benötigten Zeit Τ zu setzen, um so die Durchschnittsgeschwindigkeit V zu erhalten: V = S/T = 150 km/ 2,25 h = 66,67 kmh. Die durchschnittliche Geschwindigkeit des LKWFahrers beträgt demnach 66,67 Stundenkilometer. Allgemein lautet die Formel für das harmonische Mittel H für Einzelwerte:

Beispiel: Ein Professor der Soziologie erhielt für ein Semester einen Lehrauftrag in einer 100 km entfernten Stadt. Insgesamt hielt der Professor 10 Vorlesungen. Bei seinen Anreisen erzielte er folgende Durchschnittsgeschwindigkeiten (in km/h): 50; 60; 66; 70; 75; 80; 85; 90; 92; 95. Wie groß ist die mittlere Geschwindigkeit? Die Berechnung nach der Formel für das _ 10 harmonische Mittel liefert: H = -¡ ¡ ¡ - = 10/0,136 = 73,42 km/h. 50 + 60 +···+ 95

7.2.6. Sonstige Mittelwerte Neben den bereits erwähnten Mittelwerten gibt es noch eine ganze Reihe weiterer Mittelwerte, wie das quadratische Mittel, das antiharmonische Mittel, der Scheidewert, der schwerste Wert Τ sowie die Quantile. Sie besitzen kaum praktische Relevanz in den Sozialwissenschaften und werden deshalb nur am Rande erwähnt. Für ihre Berechnung sei im übrigen auf die statistische Fachliteratur verwiesen (Menges 1982). Von einiger Bedeutung sind lediglich die Quantile, die jedoch nur eine Verallgemeinerung des Medians sind. Quantile geben an, an welcher Stelle eine gewisse Prozentzahl der Merkmalswerte von den übrigen Merkmalswerten getrennt wird. Interessiert man sich für das erste Viertel der Merkmalswerte, so teilt man die geordnete Grundgesamtheit in Quartile. Es gibt eine ganze Reihe unterschiedlicher Quantile (vgl. Tabelle 7.6.). Da Quantile auch die Verteilung der Merkmalswerte darstellen, sollen sie bei den Streuungsparametern genauer dargestellt werden.

106

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 7.6.: Verschiedene Quantile Art d e s Quantiis

A n z a h l der Intervalle

Zentile

100

Vingintile

20

D e z i le

10

Quintile

5

Quartile

4

Terzile

3

Median

2

7.2.7. Lageregeln der Mittelwerte Wie bereits im Kapitel 6.5 angesprochen wurde, gibt es unterschiedliche Verteilungsformen. Je nach Verteilungsform kann man nun Aussagen über die Lage des arithmetischen Mittels, des Medians (Ζ) und des Modus (xmod) treffen. 1. Bei genau symmetrischer Verteilung gilt:

χ = Ζ = xraod .

2. Bei rechtssteiler Verteilung gilt:

χ < Ζ < x mod .

3. Bei linkssteiler Verteilung gilt:

χ > Ζ > xmod .

Man bezeichnet diese drei Regeln bezüglich der Relation von Modus, Median und arithmetischem Mittel auch als Fechnersche Lageregel. Abbildung 7.3. veranschaulicht diese Zusammenhänge für rechts- und linkssteile Häufigkeitsverteilungen. Im Fall einer symmetrischen, eingipfligen Verteilung fallen alle drei Lageparameter zusammen. Abbildung 7.3.: Lage der Mittelwerte für verschiedene Häufigkeitspolygone

linkschiefe (rechtssteile) Verteilung

rechtsschiefe (linkssteile) Verteilung

7 . V E R T E I L U N G S M A ß Z A H L E N BEI U N I V A R I A T E N H Ä U F I G K E I T S V E R T E I L U N G E N

107

7.3. Streuungsparameter Mittelwerte werden in der täglichen Praxis am häufigsten verwendet, um Verteilungen zu kennzeichnen. Allerdings liefern sie nur eine unvollständige Beschreibung der Häufigkeitsverteilung, da durch Mittelwerte keine Aussage über die Abweichung der betreffenden Merkmalswerte von dem entsprechenden Lageparameter getroffen wird. Sie beschreiben eine Grundgesamtheit daher nur unvollständig. Streuungsmaße (synonym: Dispersions- oder Variationsmaße) liefern zusätzliche Informationen über eine Verteilung. Zwei symmetrische Verteilungen können zwar das gleiche arithmetische Mittel, jedoch sehr unterschiedliche Streuungen aufweisen. Der Begriff Streuung bezieht sich darauf, ob die Merkmalswerte eng beieinander liegen oder weit über den Bereich der Merkmalsskala verteilt sind. Die im folgenden behandelten Streuungsmaße beruhen entweder auf der Abstandsmessung geeigneter Ranggrößen (Spannweite, Quantilsabstand) oder auf der Abstandsmessung der Merkmalsausprägungen von einem Mittelwert (mittlere absolute Abweichung, Varianz, Standardabweichung). Daneben kann man noch die Unterscheidung treffen, ob die Maße absolute (z.B. die Varianz) oder relative Streuungsmaße (z.B. der Variationskoeffizient) sind. Letztere Streuungsmaße sind dimensionslos. Während Maße der zentralen Tendenz angeben, wie sich die gesamte Verteilung am besten durch einen Wert repräsentieren läßt, geben die Streuungsmaße darüber Auskunft, wie gut oder schlecht eine Verteilung durch ein zentrales Lagemaß repräsentiert werden kann.

7.3.1. Die Spannweite R (Range) Eine gleichermaßen einfache wie grobe Maßzahl zur Messung der Streuung der Merkmalswerte ist die Spannweite R (engl, range). Die Spannweite R ist definiert als Differenz zwischen dem größten und kleinsten vorkommenden Merkmalswert einer statistischen Gesamtheit. Zur Berechnung der Spannweite müssen mindestens ordinalskalierte Merkmale vorliegen. Mathematisch kann man R wie folgt definieren: 7.8.

R = Xjfmax) - Xi(min) ·

Dabei ist x¡(max) der größte Wert einer Meßwertreihe und x¡(min) der kleinste Meßwert. Beispiel: Es sollen die Staatsquoten (Gesamtausgaben des Staates in Prozent des BIP)

STATISTIK FÜR POLITIKWISSENSCHAFTLER

108

des Jahres 1990 in ausgewählten westlichen Industrieländern verglichen werden. Tabelle 7.7.: Staatsquoten westlicher Industrieländer im Jahre 1990 Land

Staatsquote

Land

Staatsquote

Belgien

55,2

Kanada

46,9

Dänemark

58,4

Luxemburg

50,0

Deutschland

46,0

Niederlande

55,6

Finnland

41,2

Norwegen

54,8

Frankreich

49,9

Österreich

49,6

Griechenland

50,9

Portugal

42,9

Großbritannien

42,1

Schweden

61,4

Irland

43,1

Schweiz

30,7

Italien

53,0

Spanien

42,7

Japan

32,3

USA

35,4

Quelle: OECD-Economic

Outlook.

Wie man nach der Tabelle entnehmen kann, hat die Schweiz die kleinste Staatsquote mit 30,7 Prozent in Relation zum Bruttoinlandsprodukt und Schweden die höchste Staatsquote mit 61,4 Prozent. Die Spannweite zwischen dem Minimum und dem Maximum beträgt demnach R = 61,4 - 30,7 = 30,7 (Prozentpunkte). Im internationalen Vergleich betrug der Durchschnitt der Staatsquoten im Jahr 1990 47,1, womit Deutschland im Jahr der Deutschen Einheit knapp unterhalb des arithmetischen Mittels lag. Abbildung 7.4.: Histogramm für Staatsquoten 1990 in westlichen Industrieländern Anzahl der Fälle

6

5

wIS¡ρ

4

lllllllp

3

2

1 0

émËs

ágllllllP eiiii •¡¡¡¡J 35,0

•¡¡¡¡ρ

mmmm

¡j¡¡¡¡¡¡¡§ 40,0 45,0 50,0 Staatsquote in % des BIP

55,0

60,0

Für klassierte Daten kann anhand der Abbildung 7.4. in Form eines Histogrammes die Berechnung der Spannweite nachvollzogen werden (Ausgangsdaten stammen aus Tabelle

7. VERTEILUNGSMABZAHLEN BEI UNIVARIATEN HÄUFIGKEITSVERTEILUNGEN

109

7.7.)· Es gibt insgesamt 7 Klassen, mit einer Klassenbreite von 5 Einheiten. An der Ordinate kann man die Besetzungszahl der einzelnen Klassen ablesen. Auf Grund der graphischen Darstellung ist die Spannweite größer als in der Realität. Die Klassenuntergrenze der kleinsten Klasse beginnt bei 27,5, während die höchste Klassenobergrenze bei 62,5 endet. Demnach beträgt hier die Spannweite 35. Für gruppierte Daten lautet daher die Formel für die Spannweite R = x k u - χ / mit xku = Obergrenze der obersten Klasse k und x / = Untergrenze der ersten Klasse. Die Spannweite R hat folgende Charakteristika: 1. Ihre Aussagekraft wird dadurch eingeschränkt, daß sie nur aus zwei Werten der Grundgesamtheit berechnet wird. Es gibt also einen hohen Informationsverlust. Handelt es sich bei diesen zwei Werten um Ausreißer, so kann R untypisch und wenig aussagekräftig sein. 2. Spannweiten verschiedener Grundgesamtheiten können nur dann sinnvoll verglichen werden, wenn sie die gleiche Anzahl an Fällen besitzen. Trotz dieser Einschränkungen ist die Spannweite zwar ein einfaches, aber sinnvolles Streuungsmaß. Bei der Überprüfung von Rohdaten einer Datenmatrix ist sie ein taugliches Instrument zur Identifizierung von Ausreißern. Ebenso ist die Spannweite ein leicht verständliches und eingängiges Maß für vielfältige Vergleichszwecke.

7.3.2. Quantilsabstände Quantile können als Lageparameter (s.o.) oder als Streuungsmaße verwendet werden. Desgleichen kann man die Quantile auch als Streuungsmaße verwenden. Am gebräuchlichsten ist der Quartilsabstand QA, der auch Hälftespielraum genannt wird. Quartile teilen die Merkmalsträger in 4 gleiche Intervalle ein. Der Quartilsabstand gibt das Intervall auf der Merkmalsachse zwischen dem ersten Quartil Q j und dem dritten Quartil Q3 an: 7.9.

QA = Q3 - Qi , heißt Quartilsabstand oder Interquartilrange. Der Quartilsabstand QA ist somit definiert als Abstand zwischen dem 25% und 75%

Perzentil, das heißt die mittleren 50% einer Verteilung liegen in diesem Intervall.

110

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 7.8.: Quartile der Staatsquoten westlicher Industrieländer Quartil 1

Quartil 2

Quartil 3

Quartil 4

Schweiz

Spanien

Österreich

Norwegen

Japan

Portugal

Frankreich

Belgien

USA

Irland

Luxemburg

Niederlande

Finnland

Deutschland

Griechenland

Dänemark

Großbritannien

Kanada

Italien

Schweden

Das Konzept der Quantile ist eine Verallgemeinerung des Median-Konzepts, das heißt man benötigt mindestens ordinalskalierte Daten. Der Quartilsabstand hat die Eigenschaft, daß er im Gegensatz zur Spannweite von Extremwerten unbeeinflußt bleibt. Allerdings fließt nicht die Größe der Merkmalsausprägungen als Information in die Berechnung ein, sondern die Anzahl der Merkmalsträger. Der Quartilsabstand findet dort Verwendung, wo bei einer Häufigkeitsverteilung nur der mittlere Bereich von Interesse ist. Die 25% links von Q j und die 25% rechts von Q3 haben für die Analyse weniger Bedeutung, wobei insgesamt der deskriptive Aspekt bei diesem Konzept stark im Vordergrund steht. Wenn man zurück zu dem Beispiel der Staatsquoten westlicher Industrieländer geht (Daten der Tabelle 7.7.) und die Fälle nach den aufsteigenden Staatsquoten ordnet, so erhält man vier Quartile. Bei 20 Fällen fallen in jedes Quartil 5 Fälle. Das Ergebnis ist aus politikwissenschaftlicher Sicht interessant: Im obersten Quartil finden sich vor allem skandinavische Wohlfahrtsstaaten (Ausnahme: Finnland!) sowie Benelux-Länder (Luxemburg folgt im dritten Quartil). Geringe Staatsquoten weisen vor allem die Länder auf, die lange Zeit konservativ regiert wurden sowie anglo-amerikanische Länder (vgl. Tabelle 7.8.). Die Berechnung der Quartile Q j und Q3 erfolgt ähnlich der des Medians. Das erste Quartil teilt die Summe der Merkmalsträger (= Fälle) in das Verhältnis 1 zu 3. Unterhalb von Q1 liegen 25% aller Merkmalsträger und oberhalb 75%. Das dritte Quartil teilt - analog - die Merkmalsträger in das Verhältnis 3 zu 1, das heißt, unterhalb von Q3 liegen 75% und oberhalb 25% aller Merkmalsträger. Zur Berechnung müssen die Merkmalswerte zunächst in eine Rangordnung gebracht werden. Wenn l/4(n + 1) eine ganze Zahl ist, dann ist Q j der Merkmalswert mit der Rangnummer [l/4(n +1)]. Ist 3/4(n +1) eine ganze Zahl, dann ist Q3 der Merkmalswert mit der Rangnummer [3/4(n +1)]. Komplizierter ist die Berechnung der Quartile, wenn l/4(n + 1) und 3/4(n + 1) keine ganzen Zahlen, sondern ungerade Zahlen sind. Man hat hier zwei Optionen:

7 . VERTEILUNOSMAOZAHLEN BEI UNIVARIATEN HÄUFIGKEITSVERTEILUNGEN

1.

111

Man berechnet das arithmetischen Mittel aus den Merkmal s werten der Rangnummern zwischen denen das interessierende Quartil liegt. Diese Werte werden auch als Tuckey's Hinges bezeichnet. Formal: Qi= (x^ + x | i + j ) /2, mit k = erste ganze Zahl unterhalb von l/4(n + 1) und k + 1 = erste ganze Zahl oberhalb von l/4(n + 1) . Für die Werte von Q3 wird entsprechend verfahren. In unserem Beispiel der Staatsquoten beträgt daher Qj = (42,1 + 42,7)/2 = 42,4 ; und Q3 = (53,0 + 54,8)/2 = 53,9.

2.

Der Wert für das erste Quartil Q j wird nach folgender Gleichung berechnet:

Qi = xk + ^(xk+i - x k). wobei k wieder die erste ganze Zahl unterhalb von l/4(n+l) ist. Für das dritte Quartil Q3 wird wiederum entsprechend vorgegangen: 3

Qs = xk + 4(xk+i - xk). mit k als erste ganze Zahl unterhalb von 3/4(n+l). Für das Beispiel der Staatsquoten ergeben sich folgende Werte: Q j = 42,1 + 0,25(42,7 - 42,1) = 42,25 und für Q 3 = 53,0 + 0,75(54,8 - 53,0) = 54,35. Diese Art der Berechnung der Quartile bezeichnet man als „Haverage". Standardsoftwarepakete wie SPSS für Windows berechnen auf beide Arten die Quartile, so daß es dem Anwender überlassen bleibt, für welche Version er sich entscheidet. Schließlich gibt es noch den Kelley-Range (KR), der von seinem Aufbau mit dem Quartilsabstand verwandt ist, allerdings nur für mindestens intervallskalierte Daten zulässig ist. Der KelleyRange ist die Hälfte der Abstandes zwischen dem neunten und dem ersten Dezil [= 90% und 10% Perzentil (PZ)] KR = (PZ 9 0 - PZ 10 )/2.

7.3.3. Die mittlere absolute Abweichung D Die mittlere absolute Abweichung ist ein Streuungsmaß, das unter Verwendung der Abstände der Beobachtungsweite von einem Lagemaß gebildet wird. Es sind hier zwei Varianten möglich: Man kann entweder die Abstände der Beobachtungswerte (x¡) vom arithmetischen Mittel oder die Abstände der Beobachtungswerte vom Median betrachten. Wie bereits bei der Behandlung des arithmetischen Mittels vorgestellt, ist die Summe der Abweichungen der Beobachtungswerte vom arithmetischen Mittel χ stets gleich 0. Daher verwendet man zur Kon-

STATISTIK FÜR POLITIKWISSENSCHAFTLER

struktion der mittleren Abweichung D j ¡ die Absolutbeträge der Abweichungen:

Es handelt sich hierbei also um die durchschnittliche absolute Abweichung vom arithmetischen Mittel (mittlere durchschnittliche Abweichung D x ) . Die durchschnittliche Abweichung kann ebenfalls aus den Abständen der Beobachtungswerte vom Median definiert werden. Bei einzelnen Beobachtungswerten ist die durchschnittliche Abweichung vom Median durch folgende Gleichung definiert:

Hierbei macht man sich die Minimumeigenschaft des Medians (vgl. Kapitel 7.2.2.) zunutze, da die durchschnittliche Abweichung aller Merkmalsrealisationen durch den Median minimiert wird. Folgendes Beispiel soll die Berechnungen verdeutlichen. Die Werte stellen dabei noch einmal die Redezeiten von Abgeordneten in einer Debatte dar. Der Arbeitstabelle 7.9. zufolge, in der die zu untersuchende Datenreihe von 9 Merkmalswerten dargestellt ist, ergibt sich als Summe der gesamten absoluten Abweichungen vom Mittelwert 32. Nach der Formel D- = — Σ n

| x i ~~ x| folg 1 daraus eine mittlere absolute Abweichung D x

= 32 / 9 = 3,56.

i=l

Was sagt dieser Wert aus? Im Durchschnitt weichen die Redezeiten der Abgeordneten 3,56 Minuten vom arithmetischen Mittel ab. Wie man sieht, ist die mittlere absolute Abweichung einfach zu berechnen und leicht zu interpretieren. In der vierten Spalte der Arbeitstabelle sieht man die Berechnung der Abweichungen vom arithmetischen Mittel ohne Absolutbeträge. Definitionsgemäß wird die Schwerpunkteigenschaft des arithmetischen Mittels bestätigt, die Summe der Abweichungen der Beobachtungswerte vom arithmetischen Mittel ist 0. Für die mittlere absolute Abweichung vom Median Dx wird analog vorgegangen. Nach 1 -A der Formel D 5 = — V !x¡ - x|. gilt: D ; = 31 / 9 = 3,44. Die Interpretation lautet: Die η i=i Redezeiten der Abgeordneten weichen durchschnittlich um 3,44 Minuten vom Median, der 7 Minuten beträgt, ab.

7. VERTEILUNGSMAßZAHLEN BEI UNIVARIATEN HÄUFIGKEITSVERTEILUNGEN

113

Tabelle 7.9.: Arbeitstabelle zur Berechnung der mittleren absoluten Abweichung x¡

x

2

-x

i

X, -

l

x |

xj

-

X

2-8 = -6

12 - 8 1 = 6 14 - 8 1 = 4

12 -7 = 5 14 - 7 = 3

7

Is - 8 1 = 3 16 - 8 1 = 2 i 7- 8 1 = 1

Is - 7 = 2 16 - 7 = 1 17 - 7 = 0

10

lio - 8 1 = 2

lio - 7

= 3

io-

8=2

11

111 -7 = 4 112 - 7 = 5

li -

8=3

12

1 H- 8 1 = 3 1 12- 8 ! = 4

12-

8 = 4

15

15 - 8 1 = 7

4 5 6

1

Σ 32

lis

-7

4-8 = -4 5-8 = -3 6-8 = - 2 7-8 = - 1

=8

15- 8 = 7

Σ 31

Σ0

Trotz der genannten Vorteile der mittleren absoluten Abweichung, wie die einfache Berechnung und Interpretation sowie der Minimumeigenschaft bei Verwendung des Medians, ist dieser Streuungsparameter relativ unbekannt. In der Praxis kommen vor allem die Varianz und die Standardabweichung zur Anwendung.

7.3.4. Varianz und Standardabweichung Der gebräuchlichste Mittelwert für metrischskalierte Merkmale (bei nicht zu asymmetrischen Verteilungen) ist das arithmetische Mittel. Das am häufigsten verwendete Streuungsmaß für metrischskalierte Merkmale ist die Varianz oder die Wurzel aus der Varianz: die Standardabweichung. Beide beziehen sich auf das arithmetische Mittel. Wie oben gezeigt, ist der Ausdruck Σ ( x¡ - χ ) immer gleich 0. Verwendet man dagegen die quadratischen Abweichungen vom arithmetischen Mittel, erhält man die empirische Varianz S , die auch als mittlere quadratische Abweichung bezeichnet wird. Durch die Quadrierung werden die negativen Vorzeichen und die Nullwerteigenschaft beseitigt. Bei der Varianz werden die quadratischen Abweichungen der Beobachtungswerte vom arithmetischen Mittel summiert und anschließend gemittelt:

7.12.

S2 = - ¿ (

X j

-x)

2

.

Man bezeichnet die empirische Varianz auch als Streuung, da sie die mittlere quadratische Abweichung vom arithmetischen Mittel χ angibt. Die Quadratwurzel aus der Varianz

114

STATISTIK FÜR POLITIKWISSENSCHAFTLER

heißt Standardabweichung S:

7.13.

S = V S T = .. - ¿ ( X i - X ) V n i=l

2

.

Mit Hilfe der bereits bekannten Zahlen soll die Berechnung der Varianz und der Standardabweichung verdeutlicht werden. Wie aus der dritten Spalte der Tabelle 7.10. zu entnehmen, beträgt die Summe der quadrierten Abweichungen vom arithmetischen Mittel 144. Die 1 ° Anzahl der Merkmalsträger ist 9. Nach der Formel S 2 = — Y , ( x ¡ - x) 2 beträgt die Varianz S 2 = 144/9 = 16. Für die Standardabweichung ergibt sich deshalb ein Wert von 4: S = VS7 = ^

¿

(x¡ - x ) 2

= VÎ6 =4.

Der Begriff der Standardabweichung entspricht dem anschaulichen Begriff der Streuung eher als die Varianz. Wird die Abweichung jedes Einzelwertes vom Mittelwert verdoppelt, dann verdoppelt sich auch die Standardabweichung, während sich die Varianz vervierfacht. Dies bedeutet, daß größere Abweichungen vom arithmetischen Mittelwert bei der Varianz stärker gewichtet werden als bei der Standardabweichung. Tabelle 7.10.: Arbeitstabelle zur Berechnung der Varianz xi

Xi

-

X

(x¡

-

χ)

2

2

2-8 = -6

(2- 8)2 = 36

4

4-8 = -4

(4- 8) 2 = 16

5

5 - 8= -3

(5 - 8)2 = 9

6

6 - 8 = -2

(6 - 8)2 = 4

7

7-8 = - 1

(7 - 8)2 = 1

10

io-

8=2

(10 - 8)2 = 4

11

li -

8=3

(Π - 8)2 = 9

12

12- 8 = 4

(12- 8)2 = 16

15

15 - 8 = 7

(15- 8)2 = 49

Σ 72

ΣΟ

Σ 144

Insgesamt kann festgestellt werden, daß Standardabweichung und Varianz eine geringe sachlogische Bedeutung aufweisen, obwohl sie mit am häufigsten zur Darstellung der Streuung verwendet werden. Für die Festlegung von Vertrauensintervallen in der schließenden Sta-

7 . VERTEILUNGSMABZAHLEN BEI UNIVARIATEN HÄUFIGKEITSVERTEILUNGEN

115

tistik spielen diese Größen jedoch eine gewisse Rolle (vgl. Kapitel 14). Eine Eigenschaft ist, daß die Standardabweichung die Dimension des betrachteten Merkmals, also DM als Einheit bei Einkommen, hat. Sie ist eine rein rechnerische Größe, mit deren Hilfe man durchschnittliche Abweichungen der Merkmalswerte um das arithmetische Mittel abgrenzen kann.

7.3.5. Der Variationskoeffizient Für den Vergleich der Variabilität verschiedener Häufigkeitsverteilungen sind absolute Streuungsmaße oft ungeeignet. Dies ist insbesondere dann der Fall, wenn verschiedene Datensätze miteinander verglichen werden sollen, deren Merkmalswerte unterschiedliche Maßeinheiten haben. Zum Zweck der Vergleichbarkeit wurde mit dem Variationskoeffizient V (engl. Coefficient of Variation CV) ein relatives Streuungsmaß entwickelt. Alle anderen bisher betrachteten Streuungsparameter waren absolute Streuungsmaße. Den Variationskoeffizienten erhält man, indem man die Standardabweichung durch das arithmetische Mittel dividiert. Für metrischskalierte Merkmale - und nur für die ist er sinnvoll zu bilden - ist er maßstabsunabhängig und wird als Maßzahl der relativen Streuung um den Mittelwert interpretiert. Die Berechnung erfolgt nach folgender Formel:

7.14.

S V = = . χ Oft wird der Quotient mit 100 multipliziert und gibt dann an, wieviel Prozent des Mit-

telwertes die Standardabweichung beträgt. Anders formuliert drückt der Variationskoeffizient die Standardabweichung in Mittelwertseinheiten aus. Für das Beispiel der Redezeiten der AbS geordneten beträgt V = — = 4/8 = 0,5, das heißt, die Streuung der Merkmalswerte beträgt 50 χ Prozent ihres Mittelwertes. Der Variationskoeffizient ist nicht zu empfehlen, wenn der Mittelwert negativ ist und nahe bei 0 liegt. Für einen Mittelwert von 0 ist der Variationskoeffizient nicht definiert und für kleine Werte bei 0 kann V sehr große Werte annehmen. Der Vorteil liegt in der Dimensionslosigkeit und der guten Anwendbarkeit für Vergleichszwecke.

116

STATISTIK FÜR POLITIKWISSENSCHAFTLER

7.3.6. Der Boxplot (Box-and-Whiskers Plot) Der Boxplot ist ein grafisches Untersuchungsinstrument, das für die explorative Datenanalyse von John Tuckey entwickelt wurde. Neben dem Stem-and-Leaf Plot und dem Histogramm ist der Boxplot (Kastendiagramm) das dritte wichtige Instrument der explorativen Datenanalyse. Der Boxplot ist eine komprimierte grafische Darstellung eines Datensatzes. Unter Verwendung von Maßzahlen, die auf dem Median basieren, soll ein visueller Eindruck von der Datenstruktur vermittelt werden. Anstatt die eigentlichen Werte zu zeigen, stellt der Boxplot zusammenfassende Statistiken der Verteilung grafisch dar. Er zeigt den Median, das erste und dritte Quartil und Werte, die weit von den übrigen Werten abweichen, sogenannte Ausreißer oder Extremwerte. Die folgende Abbildung 7.5. stellt ein kommentiertes Schema eines Boxplots dar. Die untere Grenze des Kastens ist das 25. Perzentil (= 1. Quartil) und die obere Grenze das 75. Perzentil (= 3. Quartil). Die waagrechte Linie innerhalb des Kästchens repräsentiert den Median. Fünfzig Prozent der Fälle besitzen Werte innerhalb des Kastens. Die Länge des Kastens entspricht dem Abstand zwischen dem 1. und 3. Quartil. Abbildung 7.5.: Schema eines Boxplots mehr als 3 Kastenlängen vom 3. Quartil entfernt (Extremwert) mehr als 1,5 Kastenlängen vom 3. Quartil entfernt (Ausreißer)

o größter Wert, der kein Ausreißer ist

3. Quartil (75. Perzentil) 50% der Fälle haben Werte innerhalb des Kastens

Median

1. Quartil (25. Perzentil)

kleinster Wert, der kein Ausreißer ist mehr als 1,5 Kastenlängen vom 1. Quartil entfernt (Ausreißer)

o *

mehr als 3 Kastenlängen vom 1. Quartil entfernt (Extremwert)

7 . VERTEILUNOSMABZAHLEN BEI UNIVARIATEN HÄUFIGKEITSVERTEILUNGEN

117

Der Boxplot enthält zwei Gruppen von Fällen mit entlegenen Werten. Fälle mit Werten, die weiter als 3 Kastenlängen vom oberen oder unteren Rand des Kastens entfernt sind, werden Extremwerte genannt. Sie werden durch ein Sternchen (*) gekennzeichnet. Fälle mit Werten, die 1,5 bis 3 Kastenlängen vom oberen oder unteren Kastenrand entfernt sind, werden als Ausreißer bezeichnet und durch einen Kreis gekennzeichnet. Die größten und kleinsten beobachteten Werte, die keine Ausreißer sind, werden ebenfalls gezeigt. Zwischen diesen Werten und den Kastenenden werden Linien gezogen (whiskers = engl. Barthaare). Welche Aussagen kann man anhand des Boxplots über die Daten treffen? Aus dem Median läßt sich die Lage der Daten bestimmen. Aus der Länge des Kästchens kann man auf die Ausdehnung und die Variabilität der Daten schließen. Befindet sich der Median nicht im Zentrum des Kästchens, dann sind die beobachteten Werte asymmetrisch verteilt. Wenn der Median dem unteren Rand des Kastens näher ist als dem oberen, dann sind die Daten rechtsschief (linkssteil). Ist der Median dem oberen Rand näher als dem unteren, ist das Gegenteil der Fall, die Verteilung ist linksschief (rechtssteil). Die Länge an den Enden der Verteilung wird durch die Länge der Linien und die Lage der extremen Werte angezeigt. Boxplots sind besonders geeignet für den Vergleich der Verteilung von Werten in mehreren Gruppen. Man vergleicht dann mehrere nebeneinander liegende Boxplots. In Abbildung 7.6. ist ein derartiger Boxplot für die Staatsquoten (das sind die Staatsausgaben in Relation zum Bruttoinlandsprodukt) in 17 westlichen Industrieländern im Zeitraum von 1960 bis 1992 dargestellt. Dabei gibt η die Anzahl der Fälle für jedes Land an. Abbildung 7.6.: Boxplots für die Staatsquoten 17 westlicher Industrieländer (1960 bis 1992) Staatsausgaben in Relation zum BIP

n= 55

AUS

53

BEL

53

55

CAN DAN

55 D

55

FIN

55

FRA

55

IRL

55

ITA

55

JAP

Länder Datenquelle: O E C D Economic Outlook (verschiedene Jahrgänge)

55

NL

55

NOR

55

OST



SUI

55

SWE

55

UK

55"

USA

118

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Ein Vergleich der Boxplots, wie in Abbildung 7.6., ist informativ. Dieser zeigt an, in welchen Ländern die Staatsquoten relativ hoch sind und in welchen Ländern sich im Zeitablauf große Veränderungen ergeben haben. Man sieht deutlich, daß vor allem in den skandinavischen Ländern die Staatsquoten hoch sind und sich durch große Variation auszeichnen, die auf einem ansteigenden Trend der Staatsausgaben zurückzuführen ist. Ein reiner Querschnittsvergleich in einem einzigen Boxplot für ein Jahr und alle Länder würde dagegen keine Rückschlüsse zulassen, welche Staaten sich durch hohe Staatsquoten auszeichnen.

7.3.7. Maße der Gestalt Neben Mittelwerten und Streuungsmaßen läßt sich eine Häufigkeitsverteilung noch durch Parameter charakterisieren, die etwas über die Gestalt, also die Form der Verteilung, aussagen (Formparameter). Eine Verteilung, die nicht symmetrisch ist und mehr Fälle nach einem Ende der Verteilung hin als nach dem anderen hat, wird schief genannt. Wie wir bereits gesehen haben, gibt es rechts- und linksschiefe Verteilungen. Ein anderes Merkmal der Form einer Verteilung ist die Wölbung (auch Kurtosis oder Exzeß). Wenn die Fälle in einer Verteilung sich stärker als bei der Normalverteilung um einen Zentralpunkt häufen, hat die Verteilung einen höheren Gipfel als die Normalverteilung und ist hochgipflig (= schmal gewölbt, leptokurtisch). Wenn die Fälle sich schwächer als bei einer Normalverteilung -häufen, die Kurve also flacher ist, wird die Verteilung flachgipflig (= breit gewölbt, platykurtisch) genannt. Normalverteilungen sind mittelgewölbt (= mesokurtisch). Abbildung 7.7. zeigt eine Normalverteilung und eine flachgipflige Verteilung mit demselben Mittelwert im Vergleich. Abbildung 7.7.: Verteilungsformen

7 . V E R T E I L U N G S M A ß Z A H L E N BEI U N I V A R I A T E N H Ä U F I G K E I T S V E R T E I L U N G E N

119

Obwohl die Untersuchung eines Histogramms oder eines Häufigkeitspolygons (wie in Abbildung 7.7.) einige Hinweise auf die Schiefe (Skewness) und die Wölbung (Kurtosis) bietet, ist es oft wünschenswert, formale Indizes zu berechnen, die diese Eigenschaften messen. Die Werte für Skewness (Schiefe) und Kurtosis (Wölbung) sind 0, wenn die beobachtete Verteilung exakt normal ist. Positive Werte für Schiefe weisen auf eine rechtsschiefe (linkssteile) Verteilung hin, negative auf eine linksschiefe (rechtssteile). Positive Werte für die Wölbung weisen auf eine Verteilung mit einem höheren und schmaleren Gipfel als die Normalverteilung hin. Negative Werte für die Kurtosis weisen auf eine flachgewölbte Verteilung hin. Wie man bereits bei der Fechnerschen Lageregel (Kapitel 7.2.7.) gesehen hat, lassen sich die Verteilungsformen durch die Relationen von arithmetischem Mittel, Median (Z) und Modus (xm0d) charakterisieren. Es galt: 1. Symmetrie:

χ = Ζ = x mod ,

2. Rechtsschiefe (linkssteil):

χ > Ζ > xmod,

3. Linksschiefe (rechtssteil):

χ < Ζ < x mod ,

Zur Berechnung der Maßzahlen für die Schiefe und Wölbung muß man das Konzept der Momente einführen: 1. Das erste gewöhnliche Moment ist das arithmetische Mittel. 2. Das zweite zentrale Moment ist die Varianz. 3. Das dritte zentrale Moment gibt die Schiefe einer Verteilung an. 4. Das vierte zentrale Moment dient zur Messung der Wölbung einer Verteilung. Die Definition für das gewöhnliche v-te Moment lautet m v :

7.15.

1 " m v = - Υ χ" . η Ηί

Für ν = 1 ist mi das arithmetische Mittel. Das v-te zentrale Moment ist wie folgt definiert:

7.16.

1 n μ , = - Σ (x¡ - m , ) v . η ¡=i

Berechnet man den Wert μ 2 , ν ist also gleich 2, dann ist μ 2 die bereits bekannte Varianz. Mit Hilfe der zentralen Momente und des ersten gewöhnlichen Moments werden die Maßzahlen für Schiefe und Wölbung berechnet. Das Schiefemaß (nach Bowley, Charlier und Fisher) ist wie folgt definiert:

120

STATISTIK FÜR POLITIKWISSENSCHAFTLER

7.17.

a

3

= ^ .

Die Berechnung für die Schiefe erfolgt nach folgender Regel: das dritte zentrale Moment wird durch die Standardabweichung hoch drei dividiert. Man erhält dadurch eine dimensionslose Zahl. Bei einer symmetrischen Verteilung wird a 3 gleich 0. Bei einer rechtsschiefen (linkssteilen) Verteilung wird a 3 positiv, bei einer linksschiefen (rechtssteilen) Verteilung entsprechend negativ. Die Wölbung, die auf dem vierten zentralen Moment beruht, wird nach folgender Formel berechnet:

7.18.

a

4

= ^ f - 3 .

Dieser Parameter ist das standardisierte Wölbungsmaß nach Fischer und wie die Maßzahl für die Schiefe dimensionslos. Es gilt: 1. 0C4 = 0 , die Verteilung ist mittelgewölbt (= normal), 2. α 4 > 0 , die Verteilung ist hochgewölbt (leptokurtisch), 3. c*4 < 0 , die Verteilung ist flachgewölbt (platykurtisch). Zur Veranschaulichung sollen diese Maßzahlen mit den Zahlen der Debattenredezeiten durchgerechnet werden (Tabelle 7.11.). Tabelle 7.11.: Arbeitstabelle zur Berechnung der Schiefe und der Wölbung "i

("i - χ) 3

(x¡ - χ) 4

2

(2 - 8)3 = - 216

(2- 8) 4 = 1296

4

(4 - 8)3 = - 64

(4 - 8)4 = 256

5

(5 - 8)3 = - 27

(5- 8)4 = 81

6

(6 - 8)3 = - 8

(6- 8) 4 = 16

7

(7 - 8)3 = - 1

(7 - 8)4 = 1

10

8)3

(10 -

=8

(10- 8) 4 = 16

11

(11 -8) 3 = 27

(11 - 8)4 = 81

12

(12 - 8)3 = 64

(12- 8)4 = 256

15

(15- 8)3 = 343

(15 - 8)4 = 2401

Σ 72

Σ 126

Σ 4404

7. VERTEILUNGSMAßZAHLEN BEI UNIVARIATEN HÄUFIGKEITSVERTEILUNGEN

121

1 " Das dritte zentrale Moment bestimmt sich nach der Formel μ ν = — ^ (x¡ — m, ) v , mit η i=i μ 3 = 126/9 = 14. Für das Schiefemaß gilt dann a 3 = %

= 14/43 = 0,219. Die Standardabwei-

S chung für diese Datenreihe beträgt - wie bereits berechnet - 4. Die Schiefe ist positiv, woraus folgt, daß hier eine rechtsschiefe (= linkssteile Verteilung) vorliegt. Für das vierte zentrale Moment ergibt sich analog μ 4 = 4404/9 = 489,33. Für die Kurtosis folgt nach der Formel a 4 = - ^ f - 3 = (489,33/256) - 3 = -1,09. Nach obiger Entscheidungsregel folgt daraus, daß die Verteilung flachgewölbt ist. Für die „tagtägliche" empirische Sozialforschung sind diese beiden Maße von nachrangiger Bedeutung. Trotzdem haben sie ihre Berechtigung, da man durch sie Informationen über die Form der Verteilung erhält. Erst durch das Wissen über eine statistische Verteilung ist es, unter formal statistischen Gesichtspunkten erlaubt, gewisse statistische Verfahren anzuwenden und daraus Schlußfolgerungen zu ziehen.

7.4. Verhältniszahlen Nach den Mittelwerten und den Streuungsparametern wenden wir uns nun einer weiteren Kategorie von Maßzahlen zu: den Verhältniszahlen. Diese Verhältniszahlen können weiter in Gliederungszahlen (= Quoten), Beziehungszahlen und Meßzahlen unterteilt werden (vgl. Abbildung 7.1.). Für den Politikwissenschaftler sind diese Verhältniszahlen von großer Bedeutung, da oft erst durch die Bildung von Verhältnissen (Relationen) sinnvolle Vergleiche möglich sind. Bei Verhältniszahlen werden immer statistische Massen zueinander in Beziehung gesetzt.

7.4.1. Gliederungszahlen Gliederungszahlen oder Quoten sind dadurch gekennzeichnet, daß eine Teilmasse zu ihrer Gesamtmasse ins Verhältnis gesetzt wird. Das Besondere ist die inhaltliche Verknüpfung des Zählers mit dem Nenner. Gliederungszahlen werden in vielfacher Art und Weise gebildet. Die Arbeitslosenquote ist ein prominentes Beispiel einer Gliederungszahl. Die Berechnung

122

STATISTIK FÜR POLITIKWISSENSCHAFTLER

einer Gliederungszahl q¡ (Quote) sieht formal so aus:

7.19.

n(Mj) q. = — — - , ' n(M)

4

dabei ist n(M¡) eine statistische Teilmasse der Gesamtmasse (= Population) n(M). Die Arbeitslosenquote ist in Deutschland beispielsweise als das Verhältnis der registrierten Arbeitslosen zu den abhängigen Erwerbspersonen definiert. Die statistische Gesamtmasse sind die abhängigen Erwerbspersonen, was Anlaß zur Kritik der Berechnung dieser Quote gibt. Selbständige Unternehmer, die oftmals ein großes Arbeitsplatzrisiko tragen, tauchen im Nenner nicht auf. Andererseits müßte eigentlich im Zähler auch die sogenannte „Stille Reserve" auftauchen. Dies sind Personen, die eigentlich arbeiten würden, wenn sie einen Arbeitsplatz fänden. Zu dieser Gruppe gehören beispielsweise Personen, die sich bei der Arbeitsverwaltung nicht melden, obwohl sie arbeiten wollen. Laut dem Datenreport 1997 des Statistischen Bundesamtes (Statistisches Bundesamt 1997: 54) gab es in Deutschland im Jahr 1995 insgesamt 9.931.726 Schüler an allgemeinbildenden Schulen. Davon entfielen auf Hauptschulen 1.123.509 Schüler, auf Realschulen I.175.168 und auf Gymnasien 2.164.625 Schüler. Der Rest verteilte sich auf Grund-, Sonderund Gesamtschulen sowie sonstige Schularten. Eine Berechnung der Gliederungszahlen ergibt für drei weiterführenden Schultypen folgende Gliederungszahlen. , , Hauptschüler 1.123.509 Anteil der Hauptschüler an allen Schülern = = = 0,113 v alle Schüler 9.931.726 , , , Realschüler 1.175.168 Anteil der Realschüler an allen Schülern = = = 0,118 alle Schüler 9.931.726 Anteil der Gymnasiasten an allen Schülern = 3

Gymnasiasten alle Schüler

=

2.164.625 9.931.726

= 0,218

Insgesamt befinden sich 11,3% aller Schüler in Deutschland auf einer Hauptschule, I I , 8 % auf einer Realschule und 21,8% auf einem Gymnasium. Der Rest der Schüler verteilt sich auf Grund-, Sonder- und Gesamtschulen, freie Waldorfschulen sowie auf sonstige Schularten. Quoten informieren also über die Struktur und Zusammensetzung einer statistischen Masse, da die Teilmasse eine Teilmenge der Gesamtmasse ist.

7 . VERTEILUNGSMABZAHLEN BEI UNIVARIATEN HÄUFIGKEITSVERTEILUNGEN

123

7.4.2. Beziehungszahlen Bei Beziehungszahlen werden wie bei Quoten statistische Massen in Beziehung zueinander gesetzt, wobei hier der Zähler keine Teilmenge des Nenners ist. Die Berechnung ist einfach, da man lediglich zwei statistische Massen in Relation setzt, die sachlich und inhaltlich in einer sinnvollen Beziehung zueinander stehen.

7.20.

n(M) bMT=-V n(T) '

dabei ist n(M) der Umfang einer statistischen Masse und n(T) der Umfang einer anderen statistischen Masse, der in einer sachlogischen Beziehung zu n(M) steht. Die Beziehungszahlen lassen sich weiter in drei verschiedene Kategorien unterteilen: Häufigkeitsziffern, Dichteziffern und Verursachungsziffern. In Kapitel 4 wurden bereits Bewegungs- und Bestandsmassen vorgestellt. Diese beiden Massearten werden bei den Häufigkeitsziffern wieder wichtig. Eine Häufigkeitsziffer wird nämlich durch das Verhältnis einer Bewegungs- zu ihrer korrespondierenden Bestandsmasse gebildet. Prominentestes Beispiel ist die Geburtenziffer, bei der die Anzahl der Lebendgeburten in Relation zur Wohnbevölkerung gesetzt wird. Eine Dichteziffer setzt eine Masse in das Verhältnis zu einer anderen Masse, die ihr „Milieu" kennzeichnet. Gemeint ist damit eine geographische Einheit, wie zum Beispiel die Fläche eines Landes, die als Bezugsgröße dient. Beispiel wäre die Bevölkerungsdichte, bei der die Zahl der Einwohner in Relation zur Fläche eines Landes gesetzt wird. Für die Bundesrepublik Deutschland gestaltet sich die Bevölkerungsdichte zum 31.12.1995 folgendermaßen:

Bevölkerungsdichte = 6

Zahl der Einwohner Fläche

=

81.817.000 , τ = 229,18 Einwohner 1pro km . 357.000 km 2

Der dritte Typ einer Beziehungszahl ist die Verursachungsziffer. Hierbei wird eine Masse zu einer anderen statistischen Masse in Beziehung gesetzt, die sie verursacht. Das Bruttoinlandsprodukt je Einwohner wäre hierfür ein Beispiel, die Staatsausgabenquote, das heißt die Staatsausgaben pro Einwohner, ein weiteres.

124

STATISTIK FÜR POLITIKWISSENSCHAFTLER

7.4.3. Meßzahlen Meßzahlen werden verwendet, um Vergleiche im Zeitverlauf durchzuführen. Meßzahlen hängen eng mit den Indexzahlen zusammen, die allerdings von ihrer Zahlenlogik her schwieriger zu berechnen sind. Dagegen ist die mathematische Berechnung von Meßzahlen einfach. Man bezieht den Wert eines Berichtsjahres xt auf eine gewählte Basisperiode x t0 (Gleichung 7.21.).

7.21.

-^-100, l0

X

Mit dieser Formel können alle Beobachtungswerte einer Zeitreihe auf ein Basisjahr umgerechnet werden. Damit kann die prozentuale Veränderung im Berichtsjahr xt gegenüber dem Basisjahr angegeben werden. Solche Meßziffem werden für Preisvergleiche oder auch für die Deskription der Entwicklung von Zeitreihen angewendet. Jede Zeitreihe kann somit auf eine Anfangsperiode basiert werden. Diese Art der Berechnung bezeichnet man auch als Meßzahlen (oder Meßziffern) mit konstanter Basis. In Tabelle 7.12. sind die Staatsausgaben für die Bundesrepublik Deutschland nach der Deutschen Einheit sowie die prozentualen Veränderungen zur Basis 1991 dargestellt (vgl. dritte Spalte). Tabelle 7.12.: Entwicklung der Staatsausgaben in Deutschland nach 1991 Jahr

Ausgaben der öffentlichen Haushalte in Milliarden DM

Veränderung der Staatsausgaben zur konstanten Basis 1991

Veränderung der Staatsausgaben mit gleitender Basis

1991

972,3

100,0

100,0

1992

1069,5

110,0

110,0

1993

1122,6

115,5

105,0

1994

1167,0

120,0

104,0

1995

1199,6

123,4

102,8

1996

1184,3

121,8

98,7

1997

1198,0

123,2

101,2

Quelle: Bundesministerium

für Finanzen:

Finanzbericht

1998 (BMF 1997: 102).

Problematisch ist die Wahl eines geeigneten Basisjahres. Würde man das Basisjahr 1990 wählen, dann hätte man einen sehr viel stärkeren Anstieg der Staatsausgaben zu verzeichnen. In diesem Jahr betrugen die Staatsausgaben 818,5 Milliarden DM. Aufgrund des ökonomischen „Vereinigungsschocks" stiegen die finanziellen Lasten in den Folgejahren stark an. Ein niedriger Wert für ein Basisjahr weist deshalb einen vergleichsweise hohen prozentualen Anstieg in den Folgejahren aus. Ein Basisjahr mit einem relativ hohen Wert ist dann zu wählen,

7 . VERTEILUNGSMAßZAHLEN BEI UNIVARIATEN HÄUFIGKEITSVERTEILUNGEN

125

wenn man den Anstieg einer Zeitreihe gering erscheinen lassen möchte. Je nach politischem Interesse kann man nun ein Basisjahr wählen, das das eigene Argument am stärksten unterstützt. Ein solches Vorgehen ist aus der Perspektive der wissenschaftlichen Objektivität und Neutralität zu kritisieren. Um vor solchen statistischen Manipulationen zu schützen, muß daher ein „normales" Basisjahr gewählt werden. Ein weiteres Problem ist der Vergleich mehrerer Zeitreihen für verschiedene Länder. Für ein Land, z.B. Frankreich, mag ein bestimmtes Jahr (z.B. 1990) normal sein, während dies für ein anderes Land, z.B. Deutschland, keineswegs gegeben sein muß. Eine zweite Art der Berechnung von Meßziffern sind solche mit gleitender Basis (auch Kettenmeßziffern genannt). Diese werden berechnet, um die Veränderung der Zeitreihe (z.B. von Preisen oder Ausgaben) gegenüber der vorangegangenen Periode darzustellen. Das Basisjahr ist also die Vorperiode. In dem Staatsausgabenbeispiel liegt folgende Ausgabenreihe vor, wobei sich die Indizes auf die einzelnen Perioden beziehen: a 0 , ai , a 2 , a 3 , a4 , a 5 , a 6 . Die Veränderungen der Zeitreihe, d.h. die Wachstumsrate der Ausgaben (oder Preise) gegenüber dem Vorjahr (oder der Vorperiode), wird folgendermaßen bestimmt:

100, - ^ - 1 0 0 , - ^ 1 0 0 , - ^ - 1 0 0 , - ^ - 1 0 0 , - ^ 1 0 0 , - ^ - 1 0 0 . a0 a, a2 a3 a4 a5 Die vierte Spalte in Tabelle 7.12. stellt die Berechnung für die Staatsausgaben in Deutschland zwischen 1991 und 1997 mit gleitender Basis dar. Hier sind die Veränderungen gegenüber dem Vorjahr abzulesen. Ein Vergleich der Staatsausgaben von 1994 zu denen von 1993 weist eine Steigerung der Ausgaben von 4% aus. Dagegen sind im Jahr 1996 die Ausgaben gegenüber dem Vorjahr um 1,3% gesunken. Möchte man mit Wachstumsraten argumentieren, dann sind die Meßzahlen mit gleitender Basis denen mit konstanter Basis eindeutig überlegen.

126

STATISTIK FÜR POLITIKWISSENSCHAFTLER

8. Konzentrationsmaße Bei vielen wirtschafts- und sozialwissenschaftlichen Phänomenen spielt die Analyse von Konzentrationserscheinungen eine große Rolle. Konzentrationsmaße, die exakt messen, was sie messen sollen (Validität), können daher einen nützlichen Beitrag für die Wirtschaftspolitik und die politische Diskussion leisten. Insbesondere Fragen der Gerechtigkeit können, losgelöst von ihrer normativen Ebene, mit geeigneten Maßzahlen besser behandelt werden. Definition: Unter Konzentration versteht man die Ungleichheit der Verteilung einer Gesamtsumme von Merkmalsausprägungen auf die Merkmalsträger beziehungsweise die Häufung bestimmter Merkmalsausprägungen innerhalb einer Gruppe von Merkmalsträgern.

Konzentration im wirtschaftlichen Sinne kann zweierlei bedeuten: Zum einen, die Ballung von Verfügungsmacht und Marktanteilen auf wenige Merkmalsträger, zum anderen, die Existenz erheblicher Größenunterschiede zwischen den Merkmalsträgern, was den Aspekt der Ungleichheit beschreibt. In der Literatur wird darüber hinaus zwischen absoluter und relativer Konzentration unterschieden. Eine Aussage im Sinne der relativen Konzentration ist folgende: „1,7% der Bevölkerung haben mehr als 70% des Produktivvermögens in ihrem Besitz." (Siebke 1968) Sowohl die Merkmalsträger als auch die Merkmalsausprägungen sind durch Prozentangaben relativiert. Eine Aussage im Sinne der absoluten Konzentration wäre dagegen: „In einem bestimmten Markt haben 5 Unternehmen einen Marktanteil von 90%." Die Merkmalsträger sind in absoluter Zahl angegeben. Von absoluter Konzentration spricht man, wenn der größte Teil der Merkmalssumme auf eine geringe (absolute) Zahl von Merkmalsträgern entfällt. Relative Konzentration (auch Disparität genannt) ist gegeben, wenn der größte Teil der Merkmalssumme auf einen kleinen Anteil der Merkmalsträger aufgeteilt ist. Von vollständiger Konzentration spricht man, wenn die gesamte Merkmalssumme auf einen einzigen Merkmalsträger entfällt. In einem solchen Fall fordert man für das zugehörige Konzentrationsmaß, daß dieses einen Wert von Eins annehmen muß. Voraussetzung für die Berechnung von Konzentrationsmaßen ist, daß es sich bei den Daten um nicht-negative und mindestens intervallskalierte Variablen handelt.

8. KONZENTRATIONSMAßE

127

8.1. Die Lorenzkurve Wichtigstes graphisches Hilfsmittel zur Erkennung von Konzentrationstendenzen ist die Lorenzkurve. Die Berechnung und Konstruktion einer Lorenzkurve soll im folgenden, anhand mehrerer Schritte, dargestellt werden: 1.

Zuerst berechnet man für jede Untersuchungseinheit (bei Gruppen für jede Untersuchungsgruppe), welchen Anteil sie an der gesamten Merkmalssumme aufbringt.

2.

Bei der Lorenzkurve werden die η (nicht-negativen) Einzelwerte (oder Gruppen) in aufsteigender Reihenfolge geordnet: xj ^ x 2 ^ ... :S x n , das heißt, man reiht die Untersuchungseinheiten nach der Größe der von ihnen aufgebrachten Anteile auf.

3.

In einem quadratischen Schaubild werden dann auf der Abszisse (= X-Achse) die kumulierten Anteile der Merkmalsträger und auf der Ordinate (= Y-Achse) die kumulierten Anteile der gesamten Merkmalssumme abgetragen. Achseneinheiten können die kumulierten relativen Häufigkeiten oder die kumulierten Prozentwerte sein.

4.

Die Punkte für die einzelnen Untersuchungseinheiten - respektive der Gruppen - werden im nächsten Schritt linear verbunden, wobei der Nullpunkt den ersten Punkt darstellt. Diese Verbindungslinie nennt man Lorenzkurve. An ihr kann man ablesen, welcher Prozentsatz der Untersuchungseinheiten welchen Prozentsatz der gesamten Merkmalssumme aufbringt.

5.

Die Lorenzkurve kann zwei Extremwerte annehmen. Falls keine Konzentration vorliegt, liegen alle Punkte auf einer Gleichverteilungsgeraden - der Diagonalen -, die vom Ursprung aus mit der Steigung 1 ansteigt. Diese Verteilung ist am egalitärsten, das heißt, jede Untersuchungseinheit besitzt genau den gleichen Anteil am Untersuchungsgegenstand. Wenn vollständige Konzentration vorliegt, dann bringt eine Untersuchungseinheit die gesamte Merkmalssumme auf. Die Lorenzkurve entspricht dann dem Dreieck unterhalb der Diagonalen.

6.

In der Regel liegt die Lorenzkurve zwischen diesen beiden Extremen. Je größer die Ungleichheit, desto stärker „hängt" die Lorenzkurve durch. Das sozioökonomische Panel von 1984 für die Bundesrepublik Deutschland ergab für

das Haushaltsnettoeinkommen folgende Verteilung (Tabelle 8.1.) über die Einkommensquintile der Haushalte. Das fünfte Quintil (5) ist dasjenige mit dem höchsten Einkommen. 7% aller Haushalte erhalten 20% des verfügbaren Einkommens.

128

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 8.1.: Daten zur Konstruktion der Lorenzkurve Einkommens-

P r o z e n t der

K u m u l i e r t e r Anteil d e r

A n t e i l an der M e r k m a l s -

K u m u l i e r t e r A n t e i l der

quintil

Haushalte

M e r k m a l s t r ä g e r u¡

summe (Einkommen)

M e r k m a l s s u m m e v¡

1

39

39

0,2

20

2

24

63

0,2

40

3

17

80

0,2

60

4

13

93

0,2

80

5

7

100

0,2

100

Quelle: Statistisches

Bundesamt

(Hrsg.): Datenreport

1989, S. 394, 1989.

Auf jede Gruppe der Merkmalsträger, in dem vorliegenden Beispiel die einzelnen Haushaltskategorien, entfällt 2 0 % des Einkommens. Im untersten Einkommensquintil befinden sich immerhin 3 9 % aller Haushalte. Im obersten Einkommensquintil genügen bereits 7 % aller Haushalte, um die gleiche Summe aufzubringen. Gemäß der Zuordnungsvorschrift werden die Gruppen in aufsteigender Reihenfolge geordnet. Zwar bringen alle Gruppen gleich viel Einkommen auf (jeweils 20%), doch die dazu benötigte Zahl der Haushalte nimmt mit steigendem Einkommen ab. Deswegen wird entlang der Einkommensquintile sortiert (vgl. Tabelle 8.1.). Im nächsten Schritt werden auf der Abszisse der Anteil der kumulierten Merkmalsträger und auf der Ordinate deren Anteil an der gesamten Merkmalssumme abgetragen und dann miteinander verbunden (vgl. Abbildung 8.1). Abbildung 8.1.: Darstellung einer Lorenzkurve k u m u l i e r t e A n t e i l e der M e r k m a l s s u m m e ( h i e r das E i n k o m m e n )

Als Einheiten an den beiden Achsen wurden die Prozentanteile verwendet. Genauso sind .auch die relativen Häufigkeiten zulässig. Man sieht, daß die Einkommensverteilung für das

129

8. KONZENTRATIONSMAßE

Jahr 1984 von der Gleichverteilung der Einkommen, die nur eine theoretische Fiktion ist, abweicht. Je mehr die Lorenzkurve durchhängt, desto ungleicher ist die interessierende Variable (z.B. Vermögen oder Einkommen) verteilt. Formal kann man die Konstruktion der Lorenzkurve ebenfalls darstellen. Der Anteilswert v, gibt den Anteil an der gesamten Merkmalssumme an, den die i kleinsten (= Umsatzschwächsten, Ärmsten, etc.) auf sich vereinigen (Gleichung 8.1.).

Σ*.

8.1.

v¡ =

Kumulierte Merkmalssumme bis Kategorie k



Gesamte Merkmalssumme

Σχι i=l

Dabei gibt k die Anzahl bis zu einer bestimmten Merkmalsklasse an und η die Gesamtzahl aller Merkmalsklassen. Dieser Anteilswert v, wird zum Anteilswert u¡ in Beziehung gesetzt, wobei u¡ der kumulierte Anteil dieser Merkmalsträger ist, mit u¡ = k/n (k = kumulierte Zahl der Merkmalsträger bis

Klasse

k

und

η

=

Gesamtanzahl

der

Merkmalsträger).

Die

einzelnen

Werte

(Kombinationen) werden dann in ein (u,v)-Koordinatensystem eingetragen, wobei der Punkt (0,0) der Anfangspunkt ist. Man erhält dann folgende (n+1) Punkte: (0,0) = (u 0 , v 0 ); (U|, Vj); ....; (u n , v n ) = (1,1). Die Lorenzkurve bezeichnet dann den Streckenzug, der durch diese (n+1) Punkte verläuft. Folgende Punkte gilt es zu beachten: 1. Sind nur die Klassenhäufigkeiten und die Klassengrenzen bekannt, so behilft man sich, indem man die auf die einzelnen Klassen entfallende Merkmalssumme durch das Produkt aus Klassenmitte und Klassenhäufigkeit ersetzt. 2. Bei Lorenzkurven, die aus klassierten Daten konstruiert wurden, interpretiert man die Funktionswerte nicht nur an den Knickstellen, sondern auch an allen Zwischenstellen in der üblichen Weise. Zusammenfassend gilt: Je näher sich eine Lorenzkurve der Diagonalen annähert, um so weniger Konzentration liegt vor. Nähert sie sich der Grenzlinie, also den Achsen unterhalb der Diagonalen des Dreiecks, an, desto größer ist die Konzentration.

130

STATISTIK FÜR POLITIKWISSENSCHAFTLER

8.2. Der Gini-Koeffizient Die Lorenzkurve ist anschaulich und einfach zu konstruieren. Sie eignet sich für Vergleiche im Querschnitt oder im Längsschnitt über die Zeit, indem man zwei Lorenzkurven in dasselbe Schaubild einträgt. Allerdings sind zwei Lorenzkurven nicht vergleichbar, wenn sie sich schneiden. Zudem läßt sich durch bloße Inspektion der Lorenzkurve keine Maßzahl angeben, die den Grad der Ungleichheit mißt. Eine Maßzahl, deren Konstruktion auf der Lorenzkurve beruht, ist der Gini-Index, der die Information über die Konzentration in eine einzige Maßzahl verdichtet. Der Gini-Index G ist wie folgt definiert:

8.2.

G =

Fläche zwischen der Hauptdiagonalen und der Lorenzkurve Fläche unterhalb der Hauptdiagonalen

Für den Gini-Index gilt 0 < G ^ 1. Allerdings kann nach dieser Definition der Maximalwert von 1 niemals erreicht werden, da er nach der Formel G max = (n-l)/n ist. Besitzt von 10 Personen beispielsweise eine Person das gesamte Vermögen, dann kann der Gini-Index den Wert von 0,9 nicht übersteigen. Der Maximalwert von 1 sollte genau dann realisiert werden, wenn ein einziger der η Merkmalsträger die gesamte Merkmalssumme besitzt. Deswegen führt man eine Normierung durch, indem man G durch G max dividiert. So erhält man für η > 1 den normierten Gini-Index: G = [n/(n-l)] · G. Für große Fallzahlen braucht diese Normierung nicht durchgeführt zu werden. Für die Berechnung des Gini-Koeffizienten kommt es wiederum darauf an, in welcher Form die Daten vorliegen: Entweder als Urliste mit den exakten Merkmalsrealisationen, als relative Häufigkeiten oder in klassierter Form. Für die Ermittlung des Gini-Index (sowohl G als auch G ) aus einer Urliste, also aus nichtklassierten Ausgangsdaten, läßt sich folgende Formel 8.3. verwenden:

2 £ i - x i - ( n + l ) £ x¡ 8.3.

G:

Η

i=l

i=i

n_+

χ

η iΣ . =l

η

mit i = Rangplatz der aufsteigend geordneten Merkmalsrealisationen, η = Anzahl der Fälle und Xj = absolute Merkmalswerte.

131

8. KONZENTRATIONSMAßE

Liegen die Daten als relative Häufigkeiten vor, dann ist Gleichung 8.4. anzuwenden.

¿(2i-l)h¡ 8.4.

G = —

mit h¡ =

X· 1

n

-1

= relative Häufigkeit.

Σ*. i=l

Für den ersten Fall gehen wir davon aus, daß 10 Personen über unterschiedliche Vermögen (gemessen in tausend DM) verfügen. Dabei sind die Untersuchungspersonen schon in aufsteigender Reihenfolge geordnet - ein Erfordernis zur Bestimmung des Gini-Koeffizienten nach Gleichung 8.3. Das Vermögen verteilt sich wie in Tabelle 8.2. auf die 10 Untersuchungspersonen. Für die Bestimmung des Gini-Koeffizienten nach der Formel für die absoluten Häufigkeiten sind nur die ersten drei Spalten der Tabelle 8.2. relevant. Setzt man die Werte in die zweite Formel von Gleichung 8.3. ein, ergibt sich ein Gini-Koeffizient von 0,43:

G =

2 1759

10+1

10-230

10

= 1,53-1,1 = 0,43

Für kleine Fallzahlen ist der Gini-Index noch zu modifizieren, indem G mit n/(n-l) multipliziert wird: G = n/(n-l) · G = 1,11 · 0,43 = 0,48. Dieser Wert spiegelt eher eine ungleiche Vermögensverteilung wider. Tabelle 8.2. Vermögen von 10 Personen Person i (Rangplatz)

Vermögen (in Rangplatz mal tausend DM) x¡ Vermögen i · x¡

relativer Anteil am Vermögen h¡

(2·ί - l).h¡

2·ί

(1)

4

4

0,0174

2

0,0174

(2)

8

16

0,0348

4

0,1044

(3)

10

30

0,0435

6

0,2175

(4)

12

48

0,0522

8

0,3654

(5)

15

75

0,0652

10

0,5868

(6)

16

96

0,0696

12

0,7656

(7)

20

140

0,0870

14

1,1310

(8)

30

240

0,1304

16

1,9560

(9)

40

360

0,1739

18

2,9563

(10)

75

750

0,3261

20

6,1959

Σ 230

Σ 1759

Σ 1,000

Σ 14,2963

132

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Wenn die Daten in Form von relativen Häufigkeiten vorliegen, kann man den Gini-Index nach Gleichung 8.4. bestimmen. Es empfiehlt sich dabei, eine Arbeitstabelle anzulegen(vgl. Spalten 3 bis 6 der Tabelle 8.2.). Zunächst werden für das Vermögensbeispiel die Anteile, die jeder Haushalt an der gesamten Vermögenssumme aufbringt, bestimmt. Dies sind die relativen Häufigkeiten. Anschließend werden die Rangplätze mit 2 multipliziert. Von diesem Produkt subtrahiert man 1, und der ganze Term wird mit den jeweiligen relativen Häufigkeiten multipliziert. Diese Summe wird schließlich durch die Zahl der Beobachtungsfälle dividiert und hiervon 1 subtrahiert.

¿ (21-1^, ' G = — η

14 293 1= G = — - 1 = 1,43 -1 =0,43. 10

Nach dem Korrekturverfahren beträgt G* dann 0,47. Für die Ermittlung des Gini-Index aus klassifiziertem Datenmaterial kann folgende Gleichung verwendet werden: k

G = Σ h¡ '( u i-i ¡=i

8.5.

+ u

¡)

-

1>

mit k = Klassenanzahl.

Für die klassifizierten Beispieldaten soll die Berechnung anhand der Daten für die Einkommensverteilung der Bundesrepublik im Jahr 1984 durchgeführt werden. Die Daten aus Tabelle 8.1. sind in der Tabelle 8.3. wieder verwendet worden (als relative Häufigkeiten). Tabelle 8.3.: Berechnung des Gini-Koeffizienten Einkommens-

Prozent der

quintil

Haushalte

Kumulierter Anteil der Merkm a l s t r ä g e r Uj

Kumulierter

Σ u¡ +

Uj.i

A n t e i l bis

zu Uj.j

Anteil an der Merkmals-

( u i + u¡.i) · h¡

s u m m e hj

1

0,39

0,39

0,00

0,39

0,2

0,078

2

0,24

0,63

0,39

1,02

0,2

0,204

3

0,17

0,80

0,63

1,43

0,2

0,286

4

0,13

0,93

0,80

1,73

0,2

0,346

5

0,07

1,00

0,93

1,93

0,2

0,386 1,300

Zur Berechnung des Gini-Index empfiehlt sich erneut eine Arbeitstabelle. Die kumulierten Anteile der Merkmalsträger u¡ werden für jede Klasse mit den kumulierten Anteilen bis zur Klasse u¡.i addiert. Anschließend wird diese Summe mit den relativen Häufigkeiten gewichtet, die jede Klasse an der Merkmalssumme aufbringt (= h¡). Nach der Formel

133

8. KONZENTRATIONSMAßE

G

k = Σ

h

i ( u i-i + u ¡ ) - l ergibt sich daher G = 1,3 - 1 = 0 , 3 .

Auch wenn der Gini-Index das bekannteste Konzentrationsmaß darstellt, gibt es dennoch eine Reihe von Kritikpunkten: 1.

Es lassen sich spezielle Situationen konstruieren, in denen der Gini-Koeffizient nicht das gewünschte Verhalten zeigt, das heißt, der Index zeigt gleiche Werte für offensichtlich unterschiedliche

Verteilungen

an.

Dies

läßt

sich

anhand

Abbildung

8.2.

veranschaulichen. Beide Lorenzkurven liefern einen Gini-Index von 0,5. Die Flächen zwischen der Diagonalen und den beiden Lorenzkurven sind identisch. Dabei bedeutet die erste Verteilungssituation (Verteilung 1), daß die Hälfte der betrachteten Population kein Einkommen aufweist, während sämtliches Einkommen gleichmäßig auf die zweite Hälfte der Bevölkerung verteilt ist. Im zweiten Fall (Verteilung 2) entfällt auf eine Person die Hälfte des Volkseinkommens,

während sich die zweite Hälfte des

Volkseinkommens auf η-1 Personen verteilt. Abildung 8.2.: Verschiedene Lorenzkurven für identische Gini-Indizes k u m u l i e r t e r Anteil der M e r k m a l s s u m m e

2.

Der Gini-Index bewertet ausschließlich relative Konzentrationen. Ob ein Markt von 2 oder 200 gleich großen Firmen beliefert wird, führt zum gleichen Gini-Index von jeweils 0, da die Umsätze gleich verteilt sind. Allerdings liegt in der einen Situation eine Duopolstellung und in der anderen Situation eine polypolistische Marktform vor. Der

134

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Gini-Koeffizient sagt daher, wie schon die Lorenzkurve, nichts über die absolute Konzentration aus. Im Hinblick auf die Einkommensmessung ist zusätzlich eine Indikatorendiskussion angebracht. Einkommensdaten können durch verschiedene Faktoren beeinflußt werden. Zunächst ist relevant, was überhaupt die abhängige Variable ist. Wird das Brutto-, das Nettoeinkommen nach Steuern oder gar das verfügbare Einkommen untersucht? Insbesondere sind Steuern, Sozialabgaben, Transfers und Übertragungen sowie „Naturaleinkommen" zu berücksichtigen. Ferner ist von Bedeutung, auf welche Merkmalsträger sich die Einkommensmessung bezieht, also entweder auf den Haushalt, die Familie oder auf Einzelpersonen. Sind die Daten gewichtet, wenn man den Haushalt und die Familie betrachtet? Und welches Gewichtungsschema wird verwendet? Diese Frage ist deshalb von Belang, weil Ehepaare und Kinder nicht gleichviel konsumieren wie eine einzelne Erwerbsperson - der Ökonom spricht hier von „Skalenerträgen" im Konsum. Desweiteren stellen sich Probleme, wie der Ausschluß bestimmter Personengruppen (Arme, Obdachlose), ungenaue Angaben der Befragten oder das Problem der zeitlichen Erfassung von Einkommen. Beispielsweise kann Einkommen bei Unternehmern, das bereits im laufenden lahr erwirtschaftet wurde, erst im kommenden Jahr anfallen. Einkommensmessung ist daher nicht immer eindeutig und ein schwieriges Unterfangen. Die verwendeten Konzepte sollten aus diesem Grund offengelegt werden.

Abbildung 8.3: Niedrige Entlohnung und Einkommensungleichheit im Vergleich A n t e i l d e r B e s c h ä f t i g e n m i t g e r i n g e r E n t l o h n u n g i n 1994 ( Q u e l l e : O E C D 1 9 9 6 b ) 30

20

10 —1ÍÉL FIN · SWE

0 0,22

0,24

0,26

0,28

0,30

0,32

0,34

0,36

E i n k o m m e n s u n g l e i c h h e i t g e m e s s e n d u r c h den G i n i - K o e f f i z i e n t ( A n f a n g der 9 0 e r J a h r e ) Quelle: L u x e m b o u r g Income Study; Smeeding and Gottschalk (1995)

Der Gini-Index findet weite Anwendung. In vergleichender Perspektive ist es interessant,

8. KONZENTRATIONSMAßE

135

welche Länder eine höhere Einkommensungleichheit aufweisen. Abbildung 8.3. zeigt ein Streudiagramm für zwei Variablen, den Anteil der Beschäftigten mit geringer Entlohnung (im Jahr 1994) und das Niveau der Gini-Indizes für 13 westliche Industrieländer. Dabei definiert sich ein Beschäftigter mit geringer Entlohnung als solcher, wenn er weniger als zwei Drittel des Medianeinkommens der Vollbeschäftigten verdient. Der Gini-Index bezieht sich auf das verfügbare Familieneinkommen (nach Steuern und Transfers). Die einzelnen Familienmitglieder wurden dabei gewichtet (Smeeding und Gottschalk 1995: 10). Hintergrund dieser im Streudiagramm sichtbaren engen Beziehung, ist die Vermutung, daß ein hoher Anteil schlecht entlohnter Jobs zu einer hohen Einkommensungleichheit führt. In der Tat findet diese Hypothese Bestätigung. Bemerkenswert ist die Reihenfolge der verschiedenen Länder im Hinblick auf die Einkommensgleichheit. An der Spitze rangieren die skandinavischen, sozialdemokratisch geprägten Länder, dicht gefolgt von eher katholisch geprägten Ländern mit sowohl starken christdemokratischen als auch linken Parteien. Deutschland schneidet im internationalen Vergleich nicht schlecht ab und gehört mit zu den egalitärsten Ländern. Am unteren Ende der Skala befinden sich Länder, die eher liberal und marktwirtschaftlicher ausgerichtet sind, wie die USA, die Schweiz, Australien oder das Vereinigte Königreich. Ein Indiz für das Spannungsgefüge zwischen Gleichheit und Effizienz.

8.3. Weitere relative Konzentrationsmaße Neben dem Gini-Index als bekanntestem Index der relativen Konzentrationsmessung sollen im folgenden zwei weitere relative Konzentrationsmaße diskutiert werden: der Robin Hood Index und die Dezil-Verhältnisse.

8.3.1. Der Robin Hood Index Ein vergleichsweiser unbekannter Indikator ist der „Robin Hood Index (RHI)". Der Name rührt daher, weil mit diesem Indikator die Summe ermittelt wird, die den „Reichen" weggenommen und an die „Armen" verteilt werden muß, um eine gleiche Einkommensverteilung zu erzielen. Der Robin Hood Index berechnet sich wie folgt: Man ermittelt zunächst für jedes Einkommensdezil, das nach dem Einkommen aufsteigend sortiert ist, den Anteil, den es am Gesamteinkommen aufbringt. Zweitens berechnet man für jedes Einkommensdezil den Anteil,

136

STATISTIK FÜR POLITIKWISSENSCHAFTLER

der über 10% des Einkommens hinausgeht. Schließlich werden diese Überschüsse addiert. Die Summe der Überschüsse ergibt den RHI. In der deutschsprachigen Literatur wird der RHI unter dem Namen maximaler Nivellierungssatz (Wehrt 1984: 133ff.) oder Schutzkoeffizient (von der Lippe 1993: 181) diskutiert. Tabelle 8.4.: Berechnung des Robin Hood Index Einkommensdezil (10% der Bevölkerung)

Anteil des jeweiligen Dezils am verfügbaren Einkommen xk

Überschuß über 10% des verfügbaren Einkornmens ( χ - x k )

Kumuliertes Einkommen bei Gleichverteilung g¡

Kumulierte Differenz g¡ - ν Merkmalssumme v¡ (kumuliertes Einkommen)

1. Dezil

3,5

-

10

3,5

6,5

2. Dezil

5,0

-

20

8,5

11,5

3. Dezil

6,1

-

30

14,6

15,4

4. Dezil

7,5

-

40

22,1

17,9

5. Dezil

8,6

-

50

30,7

19,3

6. Dezil

9,4

-

60

40,1

19,9

7. Dezil

10,2

0,2

70

50,3

19,7

8. Dezil

12,6

2,6

80

62,9

17,1

9. Dezil

16,8

6,8

90

79,7

10,3

20,3

10,3

100

100,0

0,0

Σ 100,0

Σ 19,9

10. Dezil

Das Beispiel in Tabelle 8.4. dient zur Erläuterung des Robin Hood Index. Für die einzelnen Einkommensdezile, die ihrer Größe nach geordnet sind, werden die jeweiligen Anteile am interessierenden Merkmal, also dem Einkommen bestimmt. Diese Daten erhält man entweder aus Sekundärstatistiken oder aus einer eigenen empirischen Primäruntersuchung. Anschließend wird der Überschuß über 10% der Merkmalssumme bestimmt und aufsummiert (Spalte 3). Die Summe der Überschüsse beträgt 19,9% des gesamten Einkommens, respektive 0,199 wenn die relativen Häufigkeiten betrachtet werden. Dieser Betrag müßte also den Wohlhabenden abgenommen werden, um es den Ärmeren zu geben, damit eine Gleichverteilung der Einkommen entstehen könnte. Formal: η

8.6.

RHI =

= —

νχ

Σ κ k=l

= 0,199 ,

100

dabei ist i* der Index jenes Merkmalswertes, der gerade noch kleiner oder gleich dem arithmetischen Mittel des Merkmalswerte ist (in dem Beispiel also 10). Die Anzahl aller Klassen wird mit η bezeichnet (hier ebenfalls 10, da Dezile betrachtet werden). Der Anteil der jeweili-

8- KONZENTRATIONSMAßE

137

gen Klasse an der Merkmalssumme ist x^. Nach Einsetzen in Gleichung 8.6. beträgt der umzuverteilende Anteil 19,9% an der gesamten Merkmalssumme. Eine Berechnung des RHI für Deutschland, basierend auf der ALLBUS Befragung für 1994, liefert im übrigen einen Wert von 17,32% (n = 1514). Das heißt, 17,32% des Nettoeinkommens nach Steuern und Transferzahlungen, müßten umverteilt werden, um eine völlig egalitäre Einkommensverteilung in Deutschland herzustellen. Abbildung 8.4.: Graphische Ermittlung des Robin Hood Index kumulierter Anteil der M e r k m a l s s u m m e

Kumulierte Anteile der M e r k m a l s t r ä g e r (Dezile)

Graphisch kann man die Umverteilungsmasse aus einem Vergleich zwischen der Lorenzkurve und der Gleichverteilungskurve ermitteln. An der Stelle, an der die Tangente an der Lorenzkurve die Steigung 1 annimmt, also dieselbe Steigung wie die Gleichverteilungskurve aufweist, ist der Abstand zwischen beiden Verteilungskurven maximal. Die graphische Ermittlung des RHI führt ebenfalls zu dem Abstand von 19,9% des gesamten Einkommens. Dies läßt sich auch tabellarisch nachweisen. In der vierten Spalte der Tabelle 8.4. sind zuerst die kumulierten Anteile der Einkommen bei einer Gleichverteilung der Einkommen abgetragen, und in der fünften Spalte sind die kumulierten Anteile der empirischen Einkommensverteilung. Im nächsten Schritt bildet man die Differenz zwischen beiden Spalten. Dort, wo die Differenz maximal wird, kann man die Umverteilungsmasse ablesen. Wie erwartet, ist der Wert mit 19,9% in Spalte 6 maximal und identisch mit der vorangegangenen Lösung.

138

STATISTIK FÜR POLITIKWISSENSCHAFTLER

8.3.2. Verhältnis der Dezile Zur Charakterisierung der Einkommensverteilung können verschiedene Maße berechnet werden: Die gesamte Ungleichheit der Einkommensverteilung wird mit dem Gini-Index ausgedrückt, der bei völliger Gleichverteilung 0 beträgt und bei totaler Ungleichverteilung den Wert 1 annimmt. Daneben können die sogenannten Verhältnisse der Dezile (Dezil-Ratios) ermittelt werden. Dabei wird die betreffende Grundgesamtheit in zehn gleich große Gruppen aufgeteilt. Jedes Dezil umfaßt also 10% der untersuchten Personen, wobei diese nach der Höhe ihres Einkommens sortiert sind. Die Dezil-Ratios ergeben sich aus dem Verhältnis der Einkommensbeträge (in DM), die die verschiedenen Einkommensdezile voneinander trennen. So gibt beispielsweise das Dezil-Ratio 90:10 (auch D9 : D l ) das Verhältnis der unteren Einkommensgrenze des obersten Dezils (d.h. der reichsten 10% der Bevölkerung) zu der oberen Grenze des untersten Dezils (d.h. der ärmsten 10% der Bevölkerung) an. Andere Verhältnisse, die auf ähnliche Art und Weise gebildet werden können, sind das 90:50 und 50:10 Dezilverhältnis. Die so ermittelten Kennzahlen dienen dem Vergleich zwischen den oberen und unteren Einkommensbereichen der Bevölkerung. Tabelle 8.5.: Dezilverhältnis D9 : D l im internationalen Vergleich Norwegen

1,98

Italien

2,80

Schweden

2,13

Neuseeland

3,04

Dänemark

2,17

Japan

3,04

Belgien

2,25

Frankreich

3,26

Finnlar.J

2,29

Großbritannien

3,33

Deutschland

2,32

Österreich

3,58

Niederlande

2,59

Kanada

4,02

Schweiz

2,71

Portugal

4,05

Australien

2,79

USA

4,16

Anmerkung: Es werden Bruttoeinkommen für vollbeschäfiigte auf das Jahr 1994. Quelle: OECD (1996b: 61 f.)

Arbeitnehmer

betrachtet.

Die Daten beziehen

sich

Wie sieht die Ungleichheit im internationalen Vergleich basierend auf den Daten für das Bruttoeinkommen für vollbeschäftigte Arbeiter und Angestellte aus, wenn man Dezil-Ratios (Tabelle 8.5.) berechnet? Für 18 demokratische Industrieländer in dieser Tabelle ergibt sich ein ähnliches Bild wie zuvor für die Gini-Koeffizienten. Die Ungleichheit ist am größten in den USA, während die skandinavischen Länder am besten abschneiden. Die Bundesrepublik Deutschland landet wieder im vorderen Mittelfeld und weist somit eine vergleichsweise egalitäre Einkommensverteilung auf. Es gilt jedoch zu beachten, daß sich die beiden untersuchten

8. KONZENTRATIONSMAßE

139

Variablen unterscheiden, so daß der Vergleich zwischen den Gini-Koeffizienten und den Dezil-Ratios nur eingeschränkt möglich ist. Für einen umfassenden Vergleich der Einkommensverteilung sollten allerdings mehrere Indikatoren herangezogen werden.

8.4. Einkommensungleichheit in Deutschland Die bisher erörterten Maßzahlen erlauben es, die Einkommensverteilung in Deutschland zu untersuchen. In den vorangegangenen Abschnitten wurde bereits deutlich, daß Deutschland im internationalen Vergleich mit zu den egalitärsten Industrienationen gehört. Die Perspektive eines Querschnittsvergleichs zwischen den Ländern ist aber nur eine Seite der Medaille. Weitere wichtige Informationen sind die Entwicklung im Zeitablauf sowie die Situation für Teilgruppen innerhalb der Gesellschaft (vgl. Tabelle 8.6.). Gemessen am Gini-Koeffizienten ist die Einkommensungleichheit der gesamtdeutschen Bevölkerung von 1995 verglichen mit der westdeutschen Bevölkerung von 1985 nahezu konstant geblieben (von 0,272 auf 0,271). In Haushalten ohne Ausländer nahm die Ungleichheit dagegen etwas zu (von 0,269 aus 0,275), während sie in Haushalten mit Ausländern abnahm (von 0,284 auf 0,276). Allerdings ist das Durchschnittseinkommen der Ausländerhaushalte vergleichsweise niedrig und hat sich im Untersuchungszeitraum sogar noch weiter verringert. Eine etwas größere Ungleichheit findet man in Haushalten mit Zuwanderern. Auffällig ist die hohe Gleichheit der Einkommensverteilung in Ostdeutschland, die für Gesamtdeutschland einen ungleichheitsreduzierenden Effekt hat. Die Dezil-Ratios ermöglichen eine genauere Analyse der Struktur der Einkommensverteilung. Die Einkommen von Haushalten ohne Ausländer sind im Durchschnitt nicht nur höher, sondern auch anders verteilt. Einkommen von Ausländerhaushalten sind in den höheren Einkommensbereichen ungleicher verteilt als bei Haushalten ohne Ausländer (Vergleich der Dezil-Ratios 90:10 und 90:50). Zwischen 1985 und 1995 nahm dieser Unterschied sogar noch weiter zu. Zuwanderer erhöhen generell die Ungleichheit der Einkommensverteilung, insbesondere im unteren Einkommensbereich, was angesichts vergleichsweise niedrigerer Qualifikationsniveaus vieler Zuwanderer nicht weiter verwundern kann.

140

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 8.6.: Einkommensungleichheit in Deutschland 1985 und 1995 Netto-Äquivalenzeinkommen (1) und Einkommensungleichheit in Westdeutschland und Deutschland insgesamt 1985 und 1995 - in Preisen von 1995 1985 1995

Insg.

Netto-Äquivalenzeinkommen in DM/Monat (Mittelwert)

Westdeutschland In HausIn Haushalten ohne halten mit Ausländer Ausländern

Westdeutschland Ohne HausMit Haushalte von halten von Zuwanderern Zuwanderern (2) (2)

(Insgesamt=100)

1553 (3) 100,0

1574 (3) 101, 3

1339 (3) 86,3

Dezil-Ratio (4) 90 : 10 90 : 50 50 : 10

3,35 1, 80 1, 86

3,29 1, 80 1, 83

3,40 1, 96 1,73

3,29 1,80 1, 82

3,37 1,80 1,88

Gini-Koeffizient ,

0,272

0,269

0,284

0, 277

0,281

Personen (Mill.)

60, 1

54, 9

5,2

58,7

65,7

Insg.

Netto-Äquivalenzeinkommen DM/Monat (Mittelwert) (Insgesamt=100 )

1836 100,0

1995 Deutschland Westdeutschland In HausIn Haushalten ohne halten mit Ausländer Ausländern

1944 100,0

In Haushalten von Zuwanderern

1883 100, 0

Ostdeutschland

1973

1547

1396

1648

107,4

84, 2

76,0

89,7

Dezil-Ratio (4) 90 : 10 90 : 50 50 : 10

3,23 1,76 1, 84

3, 19 1,78 1, 80

3,42 1, 81 1, 89

3 , 44 1, 87 1, 83

2 , 76 1,56 1, 77

Gini-Koeffizient

0,271

0,275

0,276

0,276

0, 215

Personen (Mill.)

81,2

54,8

3,9

7,2

15, 3

Anmerkungen: (1 ) Äquivalenzeinkommen sind unter Bedarfsgesichtspunkten modifizierte Pro-Kopf-Einkommen. Die Bedarfs gewichte sind abgeleitet aus den aktualisierten Regelsatzproportionen des Bundessozialhilfegesetzes (BSHG) vom Juli 1990. Die Einkommen in Ostdeutschland sind bereinigt um Preisniveauunterschiede zwischen Ost- und Westdeutschland (+12,9 vH). (2) Als Zuwanderer gelten: Übersiedler aus der DDR vor Juni 1990, OstWest-Migranten seit Juli 1990, Aussiedler, Asylbewerber und Flüchtlinge, Familiennachzüge, Sonstige. (3) DM in Preisen von 1995 bei einer Veränderung des Preisindex für die Lebenshaltung privater Haushalte seit 1985 um +24,7 v.H. (4) Die Dezil-Ratio gibt das Verhältnis von höheren zu niedrigeren Einkommensschwellen an. Eine Einkommensschwelle von 90 grenzt die reichsten 10 vH der Bevölkerung ab, ein Wert von 50 (Median) trennt die Hälfte der Bevölkerung mit höheren Einkommen von der Hälfte mit niedrigeren Einkommen; ein Wert von 10 grenzt die ärmsten 10 vH der Bevölkerung ab. Quelle: Sozioökonomisches Panel 1985 und 1995; Berechnungen des D1W, DIW-Wochenbericht 50/1996.

8. KONZENTRATIONSMAßE

141

8.5. Absolute Konzentrationsmaße Der Gini-Index ist das gebräuchlichste Instrument bei der Messung der relativen Konzentration. Im Gegensatz dazu geht es bei der Messung der absoluten Konzentration darum, ob ein Großteil der Merkmalssumme auf eine geringe Zahl von Merkmalsträgern verteilt ist. Da nur eine geringe Zahl von Merkmalsträgern betrachtet wird, bezieht sich die Analyse sinnvollerweise auf η Einzelwerte und nicht auf gruppierte Daten. Zwei Maßzahlen sind hier von Bedeutung: die Konzentrationsrate und der Herfindahl-Index.

8.5.1. Die Konzentrationsrate Zunächst liegen die x¡ Merkmalswerte der η Merkmalsträger in einer Urliste vor. Diese Merkmalswerte ordnen wir nach der Größe ihrer Merkmalsausprägungen, beginnend mit dem größten: χ, ^ x 2 > ... > xn . Geht man von Anteilswerten aus, das heißt den relativen Häufigkeiten oder Prozentwerten ρ , werden diese ebenfalls in absteigender Reihenfolge geordnet: ρ, > p2 > ... > pn . Die Konzentrationsrate C ra gibt an, wie groß der Anteil an der gesamten Merkmalssumme ist, der auf diejenigen Merkmalsträger mit den m größten Ausprägungen entfällt. m

Σ "ι 8.7.

C

m

= ^ ,

Σ χ, i =1

mit m = interessierende größte Ausprägungen. Je nach Fragestellung nimmt man m = 2, 3 oder 5, das heißt, man bestimmt den Anteil der zwei, drei oder fünf größten Merkmalsträger. Auch für die Politische Wissenschaft kann dieser Indikator nutzbar gemacht werden. Eine mögliche Fragestellung wäre der Vergleich der Konzentration von Parteiensystemen. Im folgenden soll die Frage untersucht werden, ob sich die Konzentration im bundesdeutschen Parteiensystem von der ersten Bundestagswahl 1949 über den Anfang der fünfziger Jahre bis hin zur zweiten gesamtdeutschen Wahl 1994 verändert hat (Tabelle 8.7.). Dazu werden die Wahlergebnisse von 1949, 1953, 1965, 1972, 1983 und 1994 verglichen. Anschließend werden die Größen C2 und C3 berechnet.

142

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 8.7.: Zweitstimmenanteile politischer Parteien bei Bundestagswahlen 1949-1994 1949

1953

1965

1972

1983

1994

CDU/CSU

31,0 %

45,2 %

47,6 %

44,9 %

48,8 %

41,5 %

SPD

29,2 %

28,8 %

39,3 %

45,8 %

38,2 %

36,4 %

FDP

11,9%

9,5 %

9,5 %

8,4%

7,0%

6,9%

-

-

-

-

5,6%

7,3%

3,6%

0,9%

0,4 %

7,9%

Grüne Sonstige

27,9 %

16,5 %

Es ergeben sich folgende Konzentrationsraten für das Parteiensystem der Bundesrepublik Deutschland für die untersuchten Jahre: c 2 (1949)

= (31,0 + 29,2)/ 100 = 0,602

C3 (1949)

= (31,0 + 29,2+ 11,9) /100 = 0,717

c 2 (1953)

= (45,2 + 28,8)/ 100 = 0,740

C3 (1953)

= (45,2+ 28,8+ 9,5)/ 100 = 0,835

C2 (1965) = (47,6 + 39,3)/ 100 = 0,869

C3 (1965)

= (47,6 + 39,3 +9,5)/ 100 = 0,964

C2 (1972) = (45,8 + 44,9)/ 100 = 0,907

C3 (1972)

= (45,8 + 44,9 + 8,4)/ 100 =0,991

C 2 (1983) = (48,8+ 38,2)/ 100 = 0,870

C3 (1983)

= (48,8 + 38,2 + 7,0)/ 100 =0,940

C2 (1994) = (41,5 + 36,4)/ 100 = 0,779

C3 (1994)

= (41,5 + 36,4 + 7,3)/ 100 =0,852

Die Werte für die verschiedenen Konzentrationsraten weisen darauf hin, daß zunächst ein Konzentrationsprozeß im bundesdeutschen Parteiensystem stattfand. Dieser erreichte bei den Bundestagswahlen 1972 (für C3) und 1976 (für C2) seinen Höhepunkt. So entfielen 1972 99,1% der gültigen Stimmen auf die drei größten Parteien. Anschließend begann ein Dekonzentrationsprozeß, der sich im Auftauchen der Grünen in den Achtzigern manifestierte. Im Zuge der Deutschen Einheit war weiterhin, mit dem Erfolg der PDS in den neuen Bundesländern, eine Regionalisierung des Parteiensystems zu beobachten, so daß inzwischen ein FünfParteiensystem in Deutschland existiert. Bei der Berechnung der Konzentrationsraten ist darauf zu achten, daß unter der Rubrik „Sonstige" teilweise höhere Werte erscheinen als bei der drittstärksten Partei. In keinem Fall war jedoch tatsächlich eine Partei dieser Rubrik stärker als die F D P respektive die Grünen, die 1994 drittstärkste Kraft im Parlament wurden. Aus wahlsoziologischer Sicht sind die Befunde gleichfalls interessant. Auch wenn es eine Verringerung der Konzentration des Parteiensystems nach 1972 gab, ist diese nicht übermäßig groß. Man kann also die einflußreiche These von S.M. Lipset und Stein Rokkan - zumindest teilweise - aufrechterhalten, die von „frozen party systems" (Lipset und Rokkan 1967) gesprochen haben, und dies trotz des Auftauchens der Grünen und der PDS. Die These der eingefrorenen Parteiensysteme besagt, daß es keine oder nur eine geringe Veränderung der Parteiensysteme gibt. In der Tat bleiben die großen Parteien weiterhin dominierend, müssen aber eine Abschmelzung ihres Wählerbestandes hinnehmen.

143

8. KONZENTRATIONSMAßE

Die Berechnung der Konzentrationsrate ist wegen ihrer Einfachheit und Verständlichkeit weit verbreitet. Analog zur Lorenzkurve ist es auch möglich, eine Konzentrationskurve aus den kumulierten Konzentrationsraten zu erstellen. Allerdings hat die Konzentrationsrate den Nachteil, daß die Berechnung auf ein - oft willkürlich - festgelegtes m beschränkt bleibt und damit nicht alle in der Verteilung enthaltenen Informationen ausgeschöpft werden. Auf diese Weise können unterschiedliche Konzentrationserscheinungen zur gleichen Maßzahl führen.

8.5.2. Der Herfindahl-Index Bei der Konzentrationsrate wird nur ein Teil der Werte zur Berechnung der Maßzahl verwendet. Der Herfindahl-Index beseitigt diesen Mangel. Er berücksichtigt alle Merkmalsrealisationen. Formal: η

Σ*? 8.8.

Η =

( Σ χ,)2 i=1

η

Für die relativen Häufigkeiten h gilt: H = ^ h f . i=l

Der Herfindahl-Index nimmt den maximalen Wert von 1 an, wenn ein Merkmalsträger die ganze Merkmalssumme besitzt und alle anderen η-1 Merkmalsträger die Merkmalssumme von 0 auf sich vereinigen. Der minimale Wert von 1/n ergibt sich bei gleichmäßiger Verteilung, wenn jeder Merkmalsträger genau gleich viel der Merkmalssumme auf sich vereinigt. Generell gilt also: 1/n ^ H < 1. Daraus folgt, daß der Herfindahl-Index nie den gewünschten Minimalwert von 0 erreicht. Tabelle 8.8: Zuschüsse (in Millionen) an parteinahe Stiftungen im Jahr 1994 Zuschüsse

(xi) 2

relative Häufigkeit (h¡)

(hi) 2

1994 (Xi) Friedrich-Ebert-Stiftung

58,319

3401,106

0,332

0,110

Friedrich-Naumann-Stiftung

24,994

624,700

0,142

0,020

Konrad-Adenauer-Stiftung

58,319

3401,106

0,332

0,110

Hans-Seidl-Stiftung

24,994

624,700

0,142

0,020

9,165

83,997

0,052

Σ 175,791

Σ 8135,609

Regenbogen-Stiftung

Quelle:

Olzog und Liese (1995:

49).

Σ 1,0

0,003 Σ 0,263

144

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Als Grundlage für die Berechnung des Herfindahl-Index dienen Daten für das Jahr 1994 über die Zuschüsse des Bundes an die parteinahen Stiftungen. Forschungsfrage ist dabei, ob es eine besondere Konzentration dieser Zuschüsse gibt. Anders als bei der Konzentrationsrate kommt es beim Herfindahl-Index nicht auf die Reihenfolge der Merkmalsanteile an. Bei Einsetzen der Werte aus Tabelle 8.8. ergibt sich:

Η =

η y χ2 f\ ' Λ ( Σ

x

=

8135,609 ! (175,791) 2

= 0,263 .

i)

i=l

Für den zweiten Weg über die relativen Häufigkeiten ist der Wert direkt aus der Arbeitstabelle abzulesen. Wie erwartet, ist er identisch mit dem zuvor ermittelten Wert. Auf Basis dieser Maßzahl läßt sich nun sagen, daß die Zuschüsse relativ gleichmäßig unter die parteinahen Stiftungen verteilt werden, d.h. jede Klientel wird annähernd gleich bedacht, wobei die Stiftungen der beiden großen Parteien etwas generöser bedient werden. Der minimale Wert von Η beträgt im vorliegenden Beispiel nämlich 1/n = 0,2, während das Maximum 1,0 ist. Es sind jedoch keine Aussagen möglich über die Höhe der Zuschüsse, die nur direkt beurteilt werden können. Eine besondere Eigenschaft betrifft die mathematische Verwandtschaft mit dem in Kapitel 7 vorgestellten Variationskoeffizienten V. Zwischen beiden Koeffizienten läßt sich eine Beziehung herstellen, wobei gilt: Η = [(V 2 + 1) / η]. Unter dem Namen Rae-Index (Rae 1968: 413ff.) hat der Herfindahl-Index Eingang in die Politikwissenschaft gefunden. Der Rae-Index hat bei der Charakterisierung von Parteiensystemen große Bedeutung erlangt, denn er mißt die Fraktionalisierung eines Parteiensystems, das heißt die numerische Zersplitterung des Parteiensystems. Dabei kann als Datengrundlage der prozentuale Stimmenanteil in Wahlen oder die Sitzverteilung in den Parlamenten betrachtet werden. Der Rae-Index ist dann wie folgt definiert: 8.9.

Rae = ( 1 - Σ p¡2) .

mit p¡ = prozentualer Stimmenanteil (= relative Häufigkeit) der Partei i. Die Umformung zur herkömmlichen Herfindahlformel findet aus Gründen der Anschaulichkeit statt: Je größer der Rae-Index, desto stärker ist die Fraktionalisierung. Als Beispiel dienen wieder die Wahlergebnisse in Deutschland. Bei der formalen Berechnung des Index ist zu beachten, daß sich unter der Rubrik „Sonstige" in der Regel mehrere Parteien befinden.

145

8. KONZENTRATIONSMAßE

Diese sind bei der Ermittlung dann jeweils einzeln zu berücksichtigen. Lediglich wenn der Stimmenanteil der „Sonstigen" gering ist, kann darauf verzichtet werden. Für das Jahr 1983 ergibt sich beispielsweise eine vergleichsweise geringe Fraktionalisierung: = 1 - (0,4882 + 0,382* + 0.0702 + 0,0562 + 0,0052) = 1 - 0,392 = 0,608

RAE (1983)

Führt man die Berechnungen für alle Wahlen in Deutschland durch, ergibt sich das gleiche Bild wie bei der Konzentrationsrate. Zunächst fand ein Konzentrationsprozeß gefolgt von einem Dekonzentrationsprozeß statt. Die Konzentration des Parteiensystems ist, trotz eines Fünf-Parteiensystems, weiter auf sehr hohem Niveau, wenn sie sich auch leicht verringert hat. In Tabelle 8.9. sind für 18 westliche Industrieländer die durchschnittlichen Fraktionalisierungsindizes dargestellt. Sie wurden für alle nationalen Wahlen für den Zeitraum von 1945 bis zum 1993 berechnet. Ein klassisches Zweiparteiensystem mit zwei annähernd gleich großen Parteien sollte einen Wert von ungefähr 0,5 aufweisen. Diesem Idealtypus kommen die USA am nächsten. Die Bundesrepublik weist ein vergleichsweise gering fragmentiertes Parteiensystem auf. Lange Zeit sprach man daher von einem 214 oder 2Vz Parteiensystem. Tabelle 8.9.: Durchschnittliche Fraktionalisierung in 18 Industrieländern (1945 bis 1993) Rang

LAND

(1)

USA

RAEINDEX 0,53

(2)

Neuseeland

(3)

RAEINDEX

Rang

LAND

(10)

Schweiz

0,71

0,60

(11)

Schweden

0,71

Österreich

0,60

(12)

Italien

0,75

(4)

Großbritannien

0,62

(13)

Norwegen

0,75

(5)

Australien

0,64

(14)

Belgien

0,77

(6)

Deutschland

0,64

(15)

Dänemark

0,78

(7)

Kanada

0,67

(16)

Frankreich

0,79

(8)

Irland

0,67

(17)

Niederlande

0,79

(9)

Japan

0,70

(18)

Finnland

0,82

Anmerkung: Berechnung aus den Stimmenanteilen in nationalen Wahlen. Es werden die Durchschnitte der RaeIndizes betrachtet.

Ein weiterer Index zur Charakterisierung von Parteiensystemen, der auf den HerfindahlIndex basiert, ist der Index der Anzahl der effektiven Parteien (AZP). Er ist eng verwandt mit dem Rae-Index und wurde von Laakso und Taagepera (Laakso und Taagepera 1979) vorgeschlagen. Dieser Indikator gibt den relativen Einfluß der Parteien auf der Basis ihrer Größe an. Formal: 8.10.

AZP = 1 / (Σ pi2) ,

mit ρ, = Prozentanteil (relative Häufigkeit) einer Partei i.

146

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Abbildung 8.5: Anzahl der effektiven Parteien in der BRD (1949-1994)

Würden nur zwei gleichgroße Parteien in einem Land auftreten, dann nimmt der Indikator den Wert 2 an, was auf ein Zweiparteiensystem hinweist. Für ein atomisiertes Parteiensystem strebt der Indikator gegen 0, ohne ihn zu erreichen. Anhand Abbildung 8.5. kann die angesprochene Entwicklung des Parteiensystems in der Bundesrepublik Deutschland, mit Phasen der Konzentration und Dekonzentration, nachvollzogen werden. Sowohl die Konzentrationsrate als auch der Herfindahl-Index finden in der Praxis häufige Anwendung. In der Bundesrepublik zum Beispiel bei der Monopolkomission und dem Kartellamt. Nach dem Gesetz gegen Wettbewerbsbeschränkungen (GWB §22) gelten beispielsweise als kritische Konzentrationen C t > 1/3, C 3 > 1/2, C 5 > 2/3.

9 . Z W E I D I M E N S I O N A L E HÄUFIGKEITSVERTEILUNGEN

147

9. Zweidimensionale Häufigkeitsverteilungen Bisher wurden Verfahren und Maßzahlen vorgestellt, die bei der Untersuchung eindimensionaler Verteilungen (= univariater Verteilungen) eingesetzt werden. Bei der Betrachtung von zwei Merkmalen mit ihren jeweiligen Ausprägungen erhält man zweidimensionale (bivariate) Häufigkeitsverteilungen. Dabei können die Merkmale jeweils nominal-, ordinaloder metrischskaliert sein. Die Analyse zweidimensionaler Merkmale ist für die Wirtschafts- und Sozialwissenschaft von besonderer Bedeutung, da sich nahezu jeder Beitrag der modernen Forschung auf die Untersuchung von Beziehungen zwischen verschiedenen Variablen bezieht. Betrachtet man die Beziehungen zwischen zwei Variablen, spricht man von bivariaten Zusammenhängen, analysiert man mehr als zwei Variablen, so führt man eine multivariate Untersuchung durch. Je nach Skalenniveau kann man die Zusammenhänge unterschiedlich bezeichnen: Kontingenz, Assoziation und Korrelation. Ähnlich wie die univariaten Verteilungen lassen sich auch bivariate Verteilungen mit Maßzahlen charakterisieren. Diese Maßzahlen sollen in Kapitel 10 vorgestellt werden. Im vorliegenden Kapitel sollen die notwendigen „Vorarbeiten" dazu geleistet werden. Unter anderem wird der Aufbau und Inhalt einer zweidimensionalen Häufigkeitstabelle beschrieben werden. Für die Konstruktion einer bivariaten Tabelle sind zunächst die Skalenniveaus relevant: 1. bei nominalskalierten Variablen spricht man von einer Kontingenztabelle, 2. bei ordinalskalierten Variablen spricht man von einer Assoziationstabelle, 3. bei metrischskalierten Variablen spricht man von einer Korrelationstabelle. Jede zweidimensionale Häufigkeitstabelle ist nach bestimmten Grundsätzen organisiert: 1. Die Vorspalte der Tabelle enthält die Ausprägungen des ersten Merkmals A. 2. Die Kopfzeile der Tabelle enthält die Ausprägungen des zweiten Merkmals B. Diese beiden Merkmale werden mit A (oder X) und Β (oder Y) bezeichnet und haben die Merkmalsausprägungen: Α = (Αι, A2, ... , An) und Β = (Bi, B2, ..., B m ). Aus Gründen der Konvention trägt man in die Kopfzeile die Variable Β und in die Vorspalte die Variable A ein. Die Tabelle besitzt Zeilen (englisch = rows) und Spalten (englisch = columns) sowie Zellen. Es gibt nun für die Tabelle folgende mögliche Eintragungen in die Zellen: 1. Die absoluten Häufigkeiten n¡j, das heißt die tatsächliche Anzahl der Beobachtungswerte.

148

STATISTIK FÜR POLITIKWISSENSCHAFTLER

2. Die Zeilenprozente (row percentage). 3. Die Spaltenprozente (column percentage). 4. Die relativen Häufigkeiten h,j (Tabellenprozente = total percentage), die als Prozentsatz der Gesamtzahl aller Fälle in der Tabelle ausgedrückt werden. In der Regel werden die absoluten oder relativen Häufigkeiten verwendet, während die beiden anderen Prozentwerte nur als zusätzliche Informationen dienen und aus den absoluten Häufigkeiten ermittelt werden können. Die folgende Tabelle verdeutlicht die Systematik einer zweidimensionalen Häufigkeitstabelle. Tabelle 9.1.: Tabellarische Darstellung des zweidimensionalen Merkmals Α χ Β M e r k m a l Β mit 1 < j < m Merkmal A

Bi

B2...

...

Bj

...

Zeilensumme B

m

m

1 ± 0,7 auffindbar. Allerdings gibt es keine verbindlichen Grenzwerte, ab denen hohe Interkorrelationen als problematisch anzusehen sind.

238

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 11.5.: Interkorrelationen der unabhängigen Variablen Erwerbsquote 1980

Umfang der Teilzeitarbeit 1993

Erwerbsquote 1980

1,00

Umfang der Teilzeitarbeit 1993

0,305

1,00

Einkommensungleichheit 1993

-0,329

-0,280

Anmerkungen:

n— 18 Fälle. Interkorrelationen

der unabhängigen

Einkommensungleichheit 1993

1,00 Variablen aus Abbildung

II.8.

Mit Hilfe des sogenannten Klein-Tests, bei dem für jede unabhängige Variable eine Regressionsschätzung auf die anderen unabhängigen Variablen durchgeführt wird, kann ebenfalls Multikollinearität identifiziert werden. In Tabelle 11.6. wurde dieser Test für alle unabhängigen Variablen durchgeführt. Tabelle 11.6.: Ergebnisse des Klein-Tests Erwerbsquote 1980

Einkommensungleichheit 1993

Umfang der Teilzeitarbeit 1993

Anmerkung:

Konstante

Einkommensungleichheit 1993

Umfang der Teilzeitarbeit 1993

68,87

-1,96

0,21

Konstante

Erwerbsquote 1980

Umfang der Teilzeitarbeit 1993

4,73

-0,02

-0,02

Konstante

Einkommensungleichheit 1993

Erwerbsquote 1980

9,30

-2,98

0,27

Dargestellt sind neben dem R2 die unstandardisierten

R 2 = 0,129

R 2 = 0,144

R 2 = 0,157

Regressionskoeffizienten.

Die Toleranz ist der Anteil an der Varianz einer Variablen, zu dem die anderen unabhängigen Variablen in der Gleichung nicht beitragen. Eine Variable mit sehr geringer Toleranz trägt wenig zum Informationsgehalt eines Modells bei und kann zu Problemen bei der Berechnung führen. Sie wird für eine unabhängige Variable als 1 minus R2 berechnet, wenn sie von den anderen unabhängigen Variablen, die bereits in die Analyse miteingegangen sind, vorhergesagt wird. Diese Determinationskoeffizienten sind direkt aus Tabelle 11.6. abzulesen (Spalte 5). Eine weitere Kontrollstatistik ist der Varianzinflationsfaktor (VIF). Er ist der reziproke Wert der Toleranz. Mit zunehmendem Varianzinflationsfaktor steigt auch die Varianz des Regressionskoeffizienten, wodurch eine instabile Schätzgleichung entsteht. Je höher die VIF-Werte, desto größer wird das Problem der Multikollinearität. Für die unabhängigen Variablen des Beispiels ergeben sich folgende Toleranz- und VIF-Werte:

239

11. REGRESSIONSANALYSE

Toleranz

VIF

Erwerbsquote 1980

-0,129 = 0,871

1 / Toleranz = 1,148

Einkommensungleichheit 1993

-0,144 = 0,856

1 / Toleranz = 1,168

Umfang der Teilzeitarbeit 1993

-0,157 = 0,843

1 / Toleranz = 1,186

Aufgrund dieser Kontrollstatistiken kann man davon ausgehen, daß Multikollinearität in der untersuchten Regression kein ernsthaftes Problem darstellt.

11.2.3. Das Problem der Heteroskedastizität Heteroskedastizität beschreibt die nicht-konstante Variation eines Residuums über die Werte einer Vorhersagevariable. Heteroskedastizität bedeutet also ungleiche Varianz der Residuen. Dies zeigt sich in einer typischen keilförmigen Streuung der Residuen, wenn man diese gegen die unabhängige Variable in einem Streudiagramm abträgt, die für die Heteroskedastizität verantwortlich ist. Aber selbst in einem normalen Streudiagramm kann man Heteroskedastizität identifizieren (Abbildung 11.9.). Heteroskedastizität verursacht eine Verletzung einer der Grundannahmen der linearen Regression und zwar die der konstanten Varianz der Störterme (Homoskedastizität). Ursachen für Heteroskedastizität, die vor allem bei Querschnittsregressionen auftaucht, können verschiedene Phänomene sein. Bei bestimmten unabhängigen Variablen wird bei hohen Merkmalsausprägungen - unter sonst gleichen Umständen - die Varianz größer sein. Klassisches Beispiel wären Einkommensbestandteile oder Ausgabenkomponenten. Die Varianz in den Ausgaben wird bei wohlhabenden Personen größer sein als bei Armen, deren frei verfügbares Einkommen gering ist. Heteroskedastizität kann aber auch durch Datenaggregation verursacht werden. Bei Durchschnitten von gruppierten Daten wird die Varianz mit steigender Gruppengröße (oder Größe des Samples) geringer werden (Wonnacott und Wonnacott 1990: 200). Schließlich kann Heteroskedastizität auch noch durch Meßfehler und Meßungenauigkeiten verursacht werden. Beispielsweise wird die amtliche Statistik in reichen Ländern besser ausgebaut sein als in ärmeren Ländern. Die Messung von Größen wie dem Bruttosozialprodukt kann dadurch beeinflußt werden, weil das BSP bei vielen ärmeren Staaten nur auf einfachen Erhebungen und Schätzungen beruht. Die Konsequenzen der Heteroskedastizität sind ähnlich wie die der Autokorrelation. Die Schätzer sind zwar unverzerrt (unbiased), dafür aber nicht mehr effizient, was Auswirkungen auf den Signifikanztest nach sich zieht. Ein Schätzer wird dann als effizient bezeichnet, wenn

240

STATISTIK FÜR POLITIKWISSENSCHAFTLER

er für eine gegebene Stichprobengröße eine geringere Varianz aufweist als alle anderen nichtverzerrten Schätzer. Der Standardfehler kann unterschätzt und die t-Statistik deshalb größer werden. Die Schätzer sind in diesem Fall nicht mehr effizient. Das bedeutet, daß es andere nichtverzerrte Schätzer mit einer geringeren Varianz der Residuen gibt. Heteroskedastizität läßt sich auf verschiedene Weise identifizieren. Man kann zum einen die Residualplots oder die Regressionsgleichung anschauen und versuchen, durch Inspektion dieser Graphiken eine typische Keilform in den Residuen zu finden. Zur Darstellung dieser Keilform (siehe Abbildung 11.9.) wurden die (fiktiven) Monatsnettoeinkommen einer Stichprobe von 40 Mitarbeitern eines Unternehmens sowie deren jährliche Urlaubsausgaben betrachtet. Mit zunehmendem Einkommen steigt die Varianz dieser Ausgabenkomponente. Dieses typische Muster in den Residuen ist im Streudiagramm 11.9. eindeutig zu beobachten, unter anderem für Untersuchungsperson 39. U m auf Heteroskedastizität zu testen, kann der White-Test (White 1980; Greene 1993': 392; Pindyck und Rubinfeld 1991: 136) verwandt werden. Die Nullhypothese lautet Ho = Homoskedastizität und die Alternativhypothese Hi: Keine Homoskedastizität (= Heteroskedastizität). Der Test verläuft wie folgt: Die quadrierten Residuen (Y) werden auf die unabhängigen Variablen der ursprünglichen Regressionsgleichung, auf die quadrierten unabhängigen Variablen sowie auf beliebig höhere Potenzen der unabhängigen Variablen regressiert. Im vorliegenden Beispiel ist nur eine unabhängige Variable (das Monatsnettoeinkommen der Befragten) vorhanden. Die Test-Statistik ist Chi-Quadrat und der Wert der Test-Statistik ergibt sich aus n*R 2 (dieser geschätzten Gleichung). Für einen hohen Wert, der größer als der kritische Wert der Chi-Quadrat Verteilung (95% Vertrauenswahrscheinlichkeit) ist, wird die Nullhypothese abgelehnt. Die Test-Statistik hat k-1 Freiheitsgrade (mit k = Zahl der Regressoren ohne die Konstante). Führt man diese Regression mit drei unabhängigen Variablen durch, d.h. das Einkommen (Xi), das quadrierte Einkommen (X2) und das mit dem Faktor 3 potenzierte Einkommen (X3), erhält man einen Determinationskoeffizienten von R 2 = 0,598. Multipliziert mit η = 40 ergibt sich ein Chi-Quadrat von χ 2 = 23,92. Der kritische χ 2 -Wert aus der Chi-Quadrat-Tabelle beträgt für zwei Freiheitsgrade (vgl. Greene 1993: 732) und einer 95% Vertrauenswahrscheinlichkeit für die Nullhypothese 5,99. Da der Testwert größer als dieser kritische Testwert ist, wird die Nullhypothese abgelehnt und die Alternativhypothese angenommen. Es liegt somit Heteroskedastizität vor, was schon aus dem Streudiagramm ersichtlich war.

241

11. REGRESSIONSANALYSE

Abbildung 11.9.: Heteroskedastizität der Residuen 4000·

Ausgaben für Urlaub (DM)

3000-

2000-

1000-

0 0

1000

2000

3000

4000

5000

6000

Monatsnettoeinkommen in D M

Ein weiterer Test ist der Goldfeld-Quandt Test, bei dem man zunächst die Beobachtungen in zwei Gruppen aufteilt. Unter der Annahme der Homoskedastizität muß die Varianz der Residuen in beiden Gruppen identisch sein. Bei Heteroskedastizität muß die Varianz in beiden Gruppen differieren. Bei dem Test werden die Werte für eine unabhängige Variable X nach aufsteigenden Werten geordnet. Dadurch können wir die Beobachtungswerte in zwei Gruppen unterteilen. Falls die Fallzahl und damit die Freiheitsgrade groß sind, können in der Mitte des geordneten Datensatzes die mittleren Fälle entfernt werden. Die Regressionsgleichung wird dann für beide Untergruppen separat geschätzt. Die Summe der quadrierten Residuen wird dann für beide Gruppen in das Verhältnis gesetzt. Die Nullhypothese ist Homoskedastizität und folgt einer F-Verteilung mit ni - k (Zählerfreiheitsgrade) und n j - k Freiheitsgraden (Nennerfreiheitsgrade). Dabei sind ni und Π2 die jeweiligen Gruppengrößen und k ist die Anzahl der Regressoren inklusive des Achsenabschnittes. Große F-Werte führen zu einer Zurückweisung der Nullhypothese. Ordnet man die Beispieldaten nach dem aufsteigendem Monatseinkommen und teilt den Datensatz in zwei gleich große Gruppen mit ni = 17 und n2 = 17 (d.h. die 6 mittleren Fälle wurden eliminiert) und schätzt dann für jede dieser beiden Untergruppen nochmals die Regression, dann erhält man folgenden F-Wert: Ρ

RSSj RSS,

Quadrierte Residuen der Gruppe mit hohen Einkommen Quadrierte Residuen der Gruppe mit niedrigem Einkommen

^

^

242

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Der theoretische F-Wert aus einer F-Tabelle zur Annahme der Nullhypothese bei einer 95%-Vertrauenswahrscheinlichkeit ist F ^ , = 2,40, bei jeweils 15 Zähler- und Nennerfreiheitsgraden (nj - 2 = 17 - 2) (Greene 1993: 734). Da der empirische F-Wert mit 27,79 deutlich größer ist, wird die Nullhypothese der Homoskedastizität verworfen, womit auch dieser Test zu dem Ergebnis führt, daß Heteroskedastizität vorliegt. Inhaltlich bedeutet dies, daß die Residuen in der Gruppe der Personen mit hohen Einkommen weitaus stärker streuen, als in der Gruppe mit geringem Einkommen. Mithin ist auch die Erklärungskraft der Regression innerhalb dieser Gruppe geringer. Für die multivariate Regression aus Abbildung 11.8., zur Erklärung der Beschäftigungshöhe des Jahres 1994, führen übrigens alle drei Testverfahren zu dem Ergebnis, daß keine Heteroskedastizität vorliegt. Allerdings sind die Tests bei geringen Fallzahlen, wie in diesem multivariaten Beispiel, problembehaftet. Wie kann man Heteroskedastizität beseitigen? Das regressionsanalytische Verfahren zur Beseitigung dieses Phänomens ist die sogenannte GLS-Regression (generalised least squares Regression). Die Darstellung ihrer Anwendung, würde den Umfang dieser Einführung deutlich sprengen. Der interessierte Leser sei daher auf die einschlägige Fachliteratur verwiesen (Assenmacher 1995; Greene 1993; Johnston 1991; Pindyck und Rubinfeld 1991).

11.2.4. Die Identifikation von Ausreißern Die einfachste Art der Identifikation von Ausreißern ist die Inspektion eines Streudiagramms. Beobachtungspunkte, die weit von der Regressionsgeraden entfernt liegen, sind als Ausreißer anzusehen. Einen ersten Hinweis können auch univariate Maßzahlen und Darstellungsverfahren, wie das Stem-and-Leaf Diagramm oder der Boxplot geben. Fälle, die dort schon als Extremwerte und Ausreißer identifiziert wurden, sind mit hoher Wahrscheinlichkeit auch Ausreißer in Regressionsgleichungen. In Abbildung 11.10. ist ein solcher Ausreißer (Italien) gut zu erkennen. Das Streudiagramm stellt die Beziehung zwischen dem „Index der Wahlhäufigkeit" (ELEC2), der das Verhältnis der tatsächlichen Wahlen zu den erwarteten Wahlen im Untersuchungszeitraum angibt, mit dem durchschnittlichen Haushaltsdefizit (DIFFER) in 21 westlichen Industrienationen dar. In Analogie zu der Hypothese des politischen Konjunkturzyklus kann man erwarten, daß mit zunehmender Wahlhäufigkeit die Staatsverschuldung steigt (Wagschal 1996: 195ff.). Streu-

243

11. REGRESSIONSANALYSE

diagramm 11.10. illustriert dieses Kausal Verhältnis. Die langfristige Wahlhäufigkeit korreliert mittelstark mit dem durchschnittlichen Haushaltsdefizit des Gesamtstaates (r = -0,54). Das heißt, je häufiger - im Vergleich zu dem, was an Wahlen zu erwarten gewesen wäre - gewählt wird, desto höher sind die Defizitquoten. Abbildung 11.10.: Durchschnittliches Haushaltsdefizit und Wahlhäufigkeit DIFFER (durchschnittliches Haushaltsdefizit aller öffentlichen Haushalte 1973-1992)

5 4 3 2 1 0 -1

SUI NOll IJN ^^^SWE

AUS • ·F

-2

JAP • SEA

-3 -4 -5

usa



n •' p

—,

UK ·

DAN • CAN •

-6

BEL •

-7

POI ·

GRE •

IRL

-8



9 -10

-11 -12

ITA • ,8

1~0

1~2 1,4 ELEC2 (1960-1992)

r = -0,54 r = -0,67 (ohne Italien) 1~6

1,8

Index der Wahlhäufigkeit (= tatsächliche Anzahl der Wahlen / erwartete Anzahl der Wahlen) Datenquelle: OECD-Wirtschaftsausblick, Mackie und Rose (1991) und Electoral Studies. Eigene Berechnungen.

Anmerkung:

Entnommen aus Wagschal 1996: 196.

Die Korrelationen verbessern sich stark, wenn man den Fall Italien aus der Berechnung ausschließt (r = -0,67). Wie ist der Ausreißer Italien zu erklären? Italien zeichnete sich während der gesamten Nachkriegsperiode mit Abstand durch die meisten Regierungsbildungen aus (53 bis 1993). Diese gouvermentale Schwäche manifestierte sich allerdings nicht in Neuwahlen, sondern in stets wechselnden Koalitionsregierungen: Der Koalitionsverfall war die häufigste Ursache für die Regierungsauflösung. In anderen Ländern determiniert dagegen hauptsächlich der Wahltermin die Zahl der Kabinette. Die Intention des Indikators „Wahlhäufigkeit" ist es jedoch, die „Systemschwäche" eines Landes zu messen. Im politischen System Italiens ist der Regierungswechsel nicht durch Wahlen ausgelöst worden, sondern durch die Veränderungen der Regierungskoalitionen, so daß der untersuchte Indikator als Stabilitätsgröße für Italien ungeeignet ist. Liegt eine solche fundierte Begründung vor, dann ist es legitim, den Ausreißer aus der Untersuchung dieses funktionalen Zusammenhangs herauszunehmen. Andererseits verringern sich so die Fallzahlen (und damit die Freiheitsgrade), und unter Umständen wird dabei ein wichtiger und interessanter Fall eliminiert. Identifizieren kann man Ausreißer beziehungsweise Fälle, die einen großen Einfluß auf

244

STATISTIK FÜR POLITIKWISSENSCHAFTLER

die Regressionsgerade haben, durch die Berechnung von sogenannten „Hebelwerten" in Regressionsgleichungen (leverage values). Sie geben den Einfluß einzelner Fälle auf die vermutete lineare Beziehung an. Der Hebelwert eines Falles beschreibt den Effekt des beobachteten auf den dazugehörigen vorhergesagten Wert. Der Hebelwert kann zwischen 0 und (n-l)/n liegen, wobei als Durchschnitt k/n (k = Anzahl der Regressoren, η = Anzahl der Fälle) erwartet wird. Hebelwerte unter 0,2 sind unproblematisch, zwischen 0,2 und 0,5 ist Vorsicht geboten, Werte über 2k/n oder über 0,5 sind kritisch. Fälle mit hohen Hebelwerten sollten aus der statistischen Untersuchung ausgeschlossen werden, da die Ergebnisse sonst nicht valide sind, sondern durch den einflußreichen Fall beeinflußt werden. Bei der Berechnung der Regression mit Hilfe eines Softwareprogramms kann man sich die Hebelwerte automatisch berechnen lassen, so z.B. bei SPSS. Das Programm SYST AT warnt sogar bei Fällen mit großen Hebelwerten. Für die multivariate Regression zur Erklärung der Erwerbsquote des Jahres 1994 (vgl. Abbildung 11.8.) weisen die Niederlande einen hohen Hebelwert von 0,61 auf, obwohl man nur einen Wert von 0,17 (= 3/18) für jeden Fall erwarten würde. Dies liegt daran, daß die Niederlande im Jahr 1980 die niedrigste Erwerbsquote und 1993 die höchste Teilzeiterwerbsquote aufwiesen, wobei beide Werte einen relativ großen Abstand zu dem jeweiligen arithmetischen Mittel hatten. Eng verwandt mit dem Hebelwert ist die Mahalanobis-Distanz, die wiederum den Abstand eines Falles von seinem Mittelwert (bei der unabhängigen Variablen) in Betracht zieht. Dividiert man die Mahalanobis-Distanz durch den Faktor (n - 1), dann erhält man den Hebelwert. Je größer der Abstand eines Falles von dem Mittelwert der unabhängigen Variablen ist, desto größer wird die Mahalanobis-Distanz. Formal gilt für den bivariaten Fall:

11.20.

mit MH| = Mahalanobis-Distanz, Sx = Standardabweichung von χ und χ = arithmetisches Mittel von X. Für das Einkommensbeispiel aus Abbildung 11.9. beträgt der Mittelwert für das monatliche Nettoeinkommen 3051,25 DM bei einer Standardabweichung von 1038,02. Aus der Gleichung 11.17. folgt daraus direkt, daß die Personen, die am weitesten von χ entfernt sind, also die Personen mit einem Einkommen von 1000 DM und 5000 DM, die größte Mahalanobis-Distanz aufweisen. Schließlich dient noch als eine weitere Kontrollstatistik, die einflußreiche Fälle identifi-

11. REGRESSIONSANALYSE

245

ziert, der Cook-Abstand, der ebenfalls auf Anforderung von den gängigen Statistikprogrammen berechnet wird. Ein großer Cook-Abstand weist auf einen bedeutenden Fall hin, der die Regressionsgleichung massiv beeinflussen kann. Um das Problem der Ausreißer und der einflußreichen Fälle in den Griff zu bekommen, gibt es verschiedene Möglichkeiten: 1.

Man schließt den Extremwert aus dem Datensatz aus (siehe oben), was jedoch sachlich manchmal nicht gerechtfertigt ist.

2.

Man führt zwei Regressionsgleichungen an, einmal mit den Ausreißern und einmal ohne.

3.

Man transformiert die Variablen, z.B. durch logarithmieren, so daß aus einem nichtlinearen Zusammenhang ein linearer Zusammenhang wird.

4.

Man erhebt mehr Beobachtungsfälle, um zu stabileren Ergebnissen zu kommen.

246

STATISTIK FÜR POLITIKWISSENSCHAFTLER

12. Clusteranalyse 12.1. Ziele der Clusteranalyse Eine Möglichkeit, systematische Ähnlichkeiten zwischen Ländern herauszufinden, ist die Clusteranalyse. Für die vergleichende Politikwissenschaft erlangt diese Methode eine immer größer werdende Bedeutung. In der Vergangenheit sind eine Reihe von Publikationen erschienen, die versuchten, verschiedene „Länderfamilien" (Castles 1993) oder Wohlfahrtsstaatstypen (Esping-Andersen 1990) zu identifizieren. Allerdings kam in keiner dieser Studien die Clusteranalyse zur Anwendung, obwohl sie das wichtigste Verfahren zur Gruppenbildung darstellt. Zwar kann man „Länderfamilien" auch nach geographischen und sprachlichen Gesichtspunkten

differenzieren

(z.B.

die

skandinavischen,

die

deutschsprachigen,

die

„lateinischen" oder die anglo-amerikanischen Länder), doch bietet diese Unterscheidungsform keine Gewähr dafür, daß die sozio-ökonomischen und politischen Daten insgesamt diese Klassifizierungen bestätigen. Das „sich berufen" auf einzelne Daten mag zwar bei gewissen Fragestellungen ertragreich sein, zum Beispiel bei der Frage, ob die deutschsprachigen Länder eine hohe Preisniveaustabilität aufweisen, doch könnte bei Integration anderer Variablen (Staatsausgaben, Arbeitslosigkeit, parteipolitische Färbung von Regierungen u.a.m.) dieses Bild wieder völlig anders aussehen. So hat Esping-Andersen (1990) herausgefunden, daß die Schweiz und Deutschland unterschiedlichen Wohlfahrtsstaatstypen angehören. Das heißt, daß trotz räumlicher und sprachlicher Nähe die institutionellen Muster und die Organisation des sozialen Sicherungssystems hier unterschiedlich sind. Im „Families of Nations" Ansatz von Castles und anderen (Castles 1993) werden dagegen Deutschland, die Schweiz und Österreich als eine Länderfamilie behandelt. Ziel bei der Clusteranalyse ist es, Ähnlichkeiten zwischen den Ländern herauszufinden, so daß die einzelnen Gruppenmitglieder möglichst ähnliche Eigenschaften aufweisen. Zwischen den Gruppen soll allerdings so wenig Ähnlichkeit wie möglich bestehen. Ein charakteristisches Merkmal der Clusteranalyse ist die gleichzeitige Heranziehung aller wichtigen vorliegenden Eigenschaften zur Gruppenbildung (Backhaus et al. 1990: 116), so daß 1. die Klassifikationsobjekte eines Clusters so homogen (ähnlich) wie möglich sind; 2. die Heterogenität zwischen den Clustern so groß wie möglich ist. Was läßt sich alles klassifizieren? Die Clusteranalyse kann als Klassifikationsobjekte zum Beispiel Personen, Wähler, Unternehmen, Organisationen, Länder sowie Variablen zum

247

12. D I E CLUSTER AN ALYSE

Gegenstand haben. Bacher (1996: 6) unterscheidet generell zwischen Objekten und Variablen. Ist man, wie in der Marktforschung, an Konsumenten interessiert, werden Käufertypologien gebildet. Ebenso kann man Wählertypologien auf der Basis von Befragungen, z.B. in Stammwähler, Wechselwähler und solche mit hoher oder niedriger Parteineigung, bilden. Aber nicht nur Merkmalsträger können mit Hilfe der Clusteranalyse zu Gruppen mit ähnlichen Eigenschaften zusammengefaßt werden. Ebenso ist es möglich, Variablen zu ähnlichen Variablengruppen zu bündeln, indem beispielsweise hoch korrelierte sozioökonomische und demographische Variablen zusammengefaßt werden. Anhand einer Datenmatrix (Abbildung 12.1.) werden die Klassifikationsmöglichkeiten der Clusteranalyse dargestellt. Abbildung 12.1.: Klassifikationsmöglichkeiten bei der Clusteranalyse Variablen (= Spalten einer Datenmatrix) VI ... Vn

Objekte

DATENMATRIX

Objektorientierte Cluster-

(= Zeilen der Datenmatrix)

analyse (Ähnliche Fälle wer-

Fall 1

den zu Clustern zusammengefaßt)

Fall η >t

Variablenorientierte Clusteranalyse (Ahnliche Variablen werden zusammengefaßt) Anmerkungen:

in Anlehnung an Bacher (1996: 7)

Für die Durchführung einer Clusteranalyse müssen a priori mehrere Entscheidungen getroffen werden. Zunächst muß festgelegt werden, welche Ähnlichkeits- und Distanzmaße zu verwenden sind, mit deren Hilfe die Abstände zwischen den einzelnen Klassifizierungsobjekten quantifiziert werden können. Die Auswahl des Ähnlichkeitsmaßes kann das Ergebnis beeinflussen und hängt zudem von dem vorliegenden Skalenniveau ab. Im Anschluß an die Festlegung des Ähnlichkeitsmaßes ist das Clusterverfahren zu wählen, nach dem die Objekte fusioniert werden. Insgesamt kann man zwischen hierarchischen und nicht-hierarchischen Verfahren unterscheiden, wobei hier ausführlich nur die gebräuchlicheren hierarchischen Verfahren dargestellt werden. Jedes statistische Verfahren weist Vor- und Nachteile auf, so auch die Clusteranalyse.

248

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Clusterverfahren sind Heuristiken, also anwendungsorientierte Problemlösungsverfahren. Die zu treffenden Entscheidungen hinsichtlich der Distanzmaße und der Fusionierungsvorschriften sind oft mehr oder weniger willkürlich. In der Literatur werden eine Unmenge entsprechender Verfahren und Methoden diskutiert. Eine vollständige Darstellung dieser Clustermethoden, wie bei Bacher (1996), würde den Rahmen eines einführenden Lehrbuches sprengen. Dargestellt werden hier daher nur die gängigen Distanz- und Ähnlichkeitsmaße sowie die wichtigsten hierarchischen Fusionierungsverfahren (= Fusionierungsalgorithmen) zur Bildung der Cluster. Verschiedene Clustermethoden können zu verschiedenen Lösungen bei ein und demselben Datensatz führen. Für Anwender ist dies ein unerwünschter Nebeneffekt, weshalb die getroffenen Entscheidungen immer offen gelegt werden sollten, so daß der Leser die Modellspezifikation nachvollziehen kann. Die Clusteranalyse versucht Strukturen innerhalb eines Datensatzes aufzudecken. Andererseits zwingt die Clusteranalyse den Daten eine Struktur auf. Es werden also immer Gruppen von Objekten entdeckt und zugeordnet. Der Politikwissenschaftler sollte daher beurteilen lernen, ob die Klassifizierung tatsächlich real oder nur der Methode geschuldet ist. Dabei beziehen sich die folgenden Ausführungen und Beispiele auf die Klassifikation von Objekten, sind aber analog auch auf Variablen anwendbar.

12.2. Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße erlauben es, die Übereinstimmungen oder die Unterschiede zwischen den Klassifikationsobjekten zu berechnen. Hohe Werte bei einem Ähnlichkeitsmaß weisen auf Gemeinsamkeiten hin, niedrige Werte dagegen auf eine Nichtübereinstimmung der Objekte oder Variablen. Distanzmaße messen die Verschiedenheit zweier Objekte. Je größer der Wert für ein Distanzmaß, desto unähnlicher sind sich zwei Objekte. Bei der Berechnung der einzelnen Maßzahlen ist wiederum das jeweilige Skalenniveau der einzelnen Variablen zu berücksichtigen.

12.2.1. Ähnlichkeitsmaße Das einfachste Skalenniveau ist das Nominalskalenniveau. In Kapitel 10 wurden bereits Assoziationsmaße, wie der Phi-Koeffizient vorgestellt, die auch als Ähnlichkeitsmaße dienen können. Ebenso kann bei intervallskaliertem Datenmaterial der Pearson-Korrelationskoeffi-

1 2 . DIE C L U S T E R A N A L Y S E

249

zient als Ähnlichkeitsmaß berechnet werden. Dies hat zur Folge, daß sich die erste Klasse der Ähnlichkeitsmaße aus den verschiedenen - bereits bekannten - Korrelationskoeffizienten zusammensetzt, wobei Phi und der Pearson-Korrelationskoeffizient die gebräuchlichsten Maßzahlen sind. Bei einer objektorientierten Clusteranalyse, bei der Ähnlichkeiten zwischen Fällen berechnet werden, spricht man allerdings von einer Q-Korrelation. Eine weitere Kategorie neben den Korrelationskoeffizienten bilden die Ähnlichkeitsmaße. Insbesondere sind hier diejenigen Maße von Relevanz, die der dichotomen Struktur von Variablen Rechnung tragen. Eine dichotome oder binäre Struktur der Daten, deren Merkmalsrealisationen 1 oder 0 annehmen, kommt vergleichsweise häufig in den Sozialwissenschaften vor. Ein Beispiel wäre die Frage „Haben Sie einen Schulabschluß" (Ja/Nein) oder die Fragestellung, ob ein Land eine Monarchie ist oder ob es ein Verhältniswahlsystem aufweist. Die binäre Kodierung einer Variablen ist die einfachste Darstellungsweise von Daten. Jede ordinale und metrische Variable kann in ein dichotomes Merkmal transformiert werden. Liegen zum Beispiel Einkommensdaten - gemessen in DM - vor, dann kann man die Merkmalsträger in zwei Gruppen mit niedrigen und hohen Einkommen unterteilen, wobei das Trennungskriterium das arithmetische Mittel oder der Median sein kann. Tabelle 12.1.: 2x2-Tabelle zur Berechnung von Ähnlichkeitsmaßen Objekt 2

Objekt 1 Eigenschaft

Eigenschaft vorhanden (1)

Eigenschaft nicht vorhanden (0)

Summe Σ

a

b

a+b

c

d

c +d

a+ c

b+d

ΣΣ = a +b +c +d

vorhanden (1) Eigenschaft nicht vorhanden (0) Summe

Ausgehend von Tabelle 12.1. lassen sich verschiedene Formeln zur Berechnung von Ähnlichkeitsmaßen angeben. Die präsentierten Beispiele beziehen sich auf Ähnlichkeiten zwischen Objekten. Dabei entsprechen die Symbole in den Gleichungen von Tabelle 12.2. der Notation von Tabelle 12.1. In Tabelle 12.2. werden sechs verschiedene Ähnlichkeitsmaße präsentiert. In der Literatur (Backhaus et al. 1990, Bacher 1996) werden darüberhinaus noch andere Maße diskutiert. Die einzelnen Maße unterscheiden sich aber nur durch die unterschiedlichen Gewichtungsfaktoren. Im Zähler erscheinen bei allen Koeffizienten die Summe

250

STATISTIK FÜR POLITIKWISSENSCHAFTLER

der gemeinsamen (positiven) Übereinstimmungen der beiden Merkmale (d.h. Feld a mit jeweils einer 1) sowie manchmal noch die Summe der gemeinsamen Abwesenheiten (= gemeinsame Absenzen, Feld d mit jeweils einer 0). Beide Häufigkeiten können in den Formeln noch gewichtet werden. Im Nenner tauchen immer die Häufigkeiten der Nichtübereinstimmungen, das sind die (1,0) und (0,1) Kombinationen, auf. Je nach Formel werden noch die (gewichteten) gemeinsamen Übereinstimmungen und die gemeinsamen Absenzen mit in die Formel einbezogen. Tabelle 12.2.: Ähnlichkeitsmaße für dichotome Variablen Ähnlichkeitsmaß

Definition

Erläuterung

Rüssel & Rao (RR)

RR = a / S

Mißt den Anteil gemeinsamer Übereinstimmungen. Gemeinsame Absenzen (d.h. jeweils 0 bei den Merkmalsausprägungen) sind aus dem Zähler ausgeschlossen. In den Nenner gehen alle Merkmalskombinationen ein.

Simple Matching

SMK = (a + d) / S

Koeffizient der einfachen Anpassung. Gibt das Verhältnis aller Übereinstimmungen zu der Summe aus Übereinstimmungen und Nichtübereinstimmungen an.

Jaccard I

Rogers & Tanimoto

Dice

ji =

r.™ RT =

D=

Sokal & Sneath I

a

a+ b + c

c,.!

a + d a + d + 2(b + c)

2 3

2a+ b+ c

2(a + d) 2(a + d) + b + c

Dieser Koeffizient mißt den relativen Anteil gemeinsamer Eigenschaften (d.h. jeweils eine 1) bezogen auf die Merkmalskombinationen, die mindestens eine 1 aufweisen. Gemeinsame Absenzen tauchen weder im Zähler noch im Nenner auf. Nichtübereinstimmungen werden im Nenner doppelt gewichtet. Gemeinsame Übereinstimmungen erscheinen sowohl im Zähler als auch im Nenner. Gemeinsame Absenzen werden vom Zähler und Nenner ausgeschlossen. Gemeinsame Übereinstimmungen werden dagegen doppelt gewichtet. Objekte, die nur eine Eigenschaft aufweisen, werden im Nenner nur einfach gewichtet. Alle Übereinstimmungen stehen im Zähler und Nenner und werden jeweils doppelt gewichtet. Objekte, die nur eine Eigenschaft aufweisen, werden im Nenner nur einfach gewichtet.

Quelle: Steinhausen und Langer (¡977: 55). Backhaus et al. (1990: 120) und Bacher (1996: 203). Die Notation bezieht sich auf die Felderanordnung gemäß Tabelle 12.2. Bei Bacher wird der Sokal & Sneath 1 als Sokal & Sneath II bezeichnet. Ich folge hier der Notation analog zum Programmpaket SPSS. Deshalb ist es wichtig sich immer die Berechnungsformel der einzelnen Koeffizienten anzusehen.

Wie sieht die Berechnung solcher Ähnlichkeitsmaße praktisch aus? In Tabelle 12.3. sind als Beispieldaten die konstitutionellen Strukturen westlicher, demokratischer Industrieländer anhand dichotomer Variablen dargestellt. Die Variablen stellen die Frage nach dem Staatsoberhaupt, der Zahl der Kammern im Parlament, dem Wahlsystem, dem Staatsaufbau, der EU-Mitgliedschaft, der Schwierigkeit von Verfassungsänderungen, der juristischen Normen-

251

12. DIE CLUSTER AN ALYSE

kontrolle von Gesetzen durch ein Verfassungsgericht, einer unabhängigen Zentralbank, der formalen Wahl des Regierungsschefs, der Zersplitterung des Parteiensystems sowie der Erfordernis zum Rücktritt der Regierung nach einer verlorenen Vertrauensabstimmung. Tabelle 12.3.: Konstitutionelle Strukturen demokratischer Industrieländer (Stand 1995) LAND

Monarch als Staatsoberhaupt

Präsident als Staatsoberhaupt

Australien

1

0

1

1

0

0

Belgien

1

0

1

1

1

1

Dänemark

1

0

0

0

1

1

Deutschland

0

1

1

1

1

1

Finnland

0

1

0

0

1

1

Frankreich

0

I

1

0

0

1

Griechenland

0

1

0

0

1

1

Irland

0

1

1

0

1

1

Italien

0

1

1

0

1

1

Japan

1

0

1

0

0

0

Kanada

1

0

1

1

0

0

Neuseeland

1

0

0

0

1

0

Niederlande

1

0

1

0

1

1

Norwegen

1

0

0

0

1

0

Österreich

0

1

1

1

1

1

Portugal

0

1

0

0

1

1

Schweden

1

0

0

0

I

1

Schweiz

0

1

1

1

1

0

Spanien

1

0

1

1

1

1

UK

1

0

1

0

0

1

USA

0

1

1

1

0

0

LAND

Schwieriges Verfahren zur Verfassungsänderung

Zweikammersystem (1 = J a )

Juristische Überprüfung von Gesetzen

Unabhängige Zentralbank (1 = Unabhän-

(1 - Ja)

gig)

Föderalismus (I = Ja)

Formale Wahl des Regierungschefs erforderlich

Wahlsystem (0 = Mehr.ws; 1 = Verh.ws.)

Fraktionalisierung des Parteiensystems (1 = Hoch)

EU-Mitglied in 1 9 9 6 ( 1 = Ja)

Rücktritt nach verlorener Vertrauensabstimmung

Australien

1

1

0

0

0

1

Belgien

1

1

0

0

1

1

Dänemark

0

I

0

0

I

Deutschland

1

1

1

1

Finnland

1

0

0

0

1

0

Frankreich

1

1

0

0

1

0

Griechenland

1

1

0

1

Irland

0

1

0

1

1

1

Italien

0

1

0

1

1

1

Japan

1

1

1

0

0

1

Kanada

1

1

0

0

0

1

Neuseeland

1

0

0

0

0

0

Niederlande

1

1

0

0

1

1

Norwegen

1

1

0

0

1

1

Österreich

1

1

1

0

0

1 1

1 1

1

Portugal

1

1

0

1

1

Schweden

0

0

0

0

1

I

Schweiz

1

0

1

0

1

0

Spanien

0

1

0

I

1

1

UK

0

0

0

0

0

0

USA

0

1

1

0

0

0

252

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Das Vorhandensein einer Eigenschaft wird mit einer 1 und die Abwesenheit mit einer 0 kodiert. Auf Basis dieser Variablen, die Teile der Verfassungsstruktur und des Institutionengefiiges der einzelnen Länder abbilden, soll nun mit Hilfe der vorgestellten Ähnlichkeitsmaße entschieden werden, ob einzelne Länder ein ähnliches oder ein unterschiedliches Institutionengefüge aufweisen. Um die Ähnlichkeit zwischen zwei Objekten zu berechnen, müssen immer Paarvergleiche durchgeführt werden. Bei den 21 Fällen der Tabelle 12.3. müßte man 210 Paarvergleiche berechnen (d.h. es gibt I

I = n(n-l)/2 = „n über 2" Kombinationsmög-

lichkeiten), um sämtliche Objekte untereinander hinsichtlich ihrer Eigenschaften zu vergleichen. Exemplarisch soll dies aber lediglich für Deutschland, Schweiz und Österreich durchgeführt werden, um zumindest partiell die eingangs gestellte Forschungsfrage zu beantworten, ob diese drei Länder, hinsichtlich ihrer institutioneller Strukturen, einer „Länderfamilie" angehören. Tabelle 12.4.: Die deutschsprachigen Länder im Vergleich 12.4.a.

Österreich Eigenschaft vorhanden (1)

Eigenschaft nicht vorhanden (0)

Summe

Eigenschaft vorhanden (1)

9

1

10

Eigenschaft nicht vorhanden (0)

0

2

2

Summe

9

3

12

Eigenschaft vorhanden (1)

Eigenschaft nicht vorhanden (0)

Summe

Eigenschaft vorhanden(1)

6

4

10

Eigenschaft nicht vorhanden (0)

1

1

2

Summe

7

5

12

Eigenschaft vorhanden (1)

Eigenschaft nicht vorhanden (0)

Summe

Eigenschaft vorhanden (1)

6

1

7

Eigenschaft nicht vorhanden (0)

3

2

5

Summe

9

3

12

Deutschland

12.4.b.

Deutschland

Schweiz

12.4.C.

Schweiz

Österreich

Mit Hilfe der Daten aus Tabelle 12.3. kann man die Kreuztabellen für die Vergleiche der

12. DIF. CLUSTERANAI.YSE

253

einzelnen Länder (Objekte) gewinnen. Diese Kreuztabellen sind für die drei notwendigen Vergleiche zwischen den deutschsprachigen Ländern in Tabelle 12.4. dargestellt. Die Ermittlung der Ähnlichkeitsmaße erfolgt dann nur noch durch Einsetzen in die Formeln aus Tabelle 12.2. Für den Koeffizient nach Rüssel und Rao ergeben sich die folgenden Werte 9/12 = 0,75;

RRD/SUI

RRD/Ö

=

= 6/12 = 0,5 und RR S ui/ö = 6/12 = 0,5. Hinsichtlich der konstitutionellen

Struktur sind sich Deutschland und Österreich wesentlich ähnlicher als jeweils mit der Schweiz. Zwischen Deutschland und Österreich gibt es nicht nur überwiegend Deckung im Hinblick auf die gemeinsamen Übereinstimmungen (insgesamt neun), sondern auch zwei gemeinsame Absenzen (kein Monarch und kein zersplittertes Parteiensystem). Lediglich bei der formalen Wahl des Regierungschefs gibt es Unterschiede: Der Bundeskanzler in Österreich benötigt nicht die formale Bestätigung durch das Parlament. Für alle sechs Ähnlichkeitsmaße ergeben sich folgende Werte: Tabelle 12.5.: Ähnlichkeitsmaße für die deutschsprachigen Länder Rüssel & Rao

D

Simple Matching

Ö

D

Ö

Jaccard 1

D

Rogers & Tanimoto D

Ö

Dice

Ö

D

Sokal & Sneath I

Ö

D

Ö

ö

0,75

-

0,92

-

0,90

-

0,85

-

0,95

-

0,96

-

SUI

0,50

0,50

0,58

0,67

0,55

0,60

0,41

0,50

0,71

0,75

0,74

0,80

Hohe Werte für Ähnlichkeitsmaße lassen auf eine hohe Übereinstimmung zwischen den Objekten schließen, wobei die Spannweite aller sechs Maßzahlen zwischen 0 und 1 liegt. Für Deutschland und Österreich kommt man, unter Berücksichtigung aller Ähnlichkeitsmaße, zu dem Befund, daß beide Länder sehr ähnliche institutionelle Strukturen aufweisen. Dagegen unterscheiden sich Deutschland und Österreich stärker von der Schweiz. Andererseits weist Österreich insgesamt, zusammen mit den USA und Finnland (!), von allen untersuchten Ländern die höchste institutionelle Ähnlichkeit mit der Schweiz auf. Welches Ähnlichkeitsmaß auszuwählen ist, läßt sich nicht verallgemeinernd sagen. Die einzelnen Formeln gewichten gemeinsame Übereinstimmungen und gemeinsame Absenzen unterschiedlich. Bei echten Dichotomien wie dem Geschlecht, hat die fehlende Merkmalsausprägung dieselbe Aussagekraft wie deren Vorhandensein. Bei anderen Dichotomien liegen die Dinge nicht so klar. Das Kriterium Unabhängige Zentralbank mit den Ausprägungen Ja/Nein ist nur bei der Bejahung eindeutig. Theoretisch könnte ein Nein zwei verschiedene Aussagen beinhalten: Die Zentralbank ist tatsächlich abhängig oder es ist keine Zentralbank vorhanden wie in Luxemburg. Insofern besitzt das (positive) Vorhandensein einer Merkmalsausprägung oftmals eine stärkere Erklärungskraft als die gemeinsame Abwesenheit. Bei einem (interkulturellen) Vergleich

254

STATISTIK FÜR POLITIKWISSENSCHAFTLER

zweier Länder kann eine „ 0 " bei dem Merkmal „Das Staatsoberhaupt ist ein Präsident" mehrerlei bedeuten: Das Staatsoberhaupt kann ein Monarch sein oder aber ein Militärdiktator, der nicht formal das'Amt eines Präsidenten inne hat. In einem solchen Fall ist die gemeinsame Absenz keine substantielle Ähnlichkeit zwischen den Objekten, sondern ein gravierender Unterschied. Daher sollten die Ähnlichkeitsmaße nach inhaltlichen Überlegungen ausgewählt werden. Die Maßzahlen nach Rüssel & Rao, Jaccard I und Dice berücksichtigen nur die gemeinsamen Übereinstimmungen, während der Simple Matching-Koeffizient, der Koeffizient nach Rogers & Tanimoto und jener nach Sokal & Sneath I zusätzlich die gemeinsame Abwesenheit von Eigenschaften mit einbeziehen. W i e sehen die Befunde bei einer Berechnung aller 210 möglichen Ähnlichkeitsmaße aus? Welche Länder sind sich am ähnlichsten, welche am unähnlichsten? Stützt man seine Ergebnisse auf das Ähnlichkeitsmaß nach Rüssel und Rao, das nur die gemeinsamen Übereinstimmungen, aber nicht die gemeinsamen Absenzen berücksichtigt, dann sind von allen möglichen Kombinationen Deutschland und Österreich hinsichtlich ihrer konstitutionellen und institutionellen Struktur am ähnlichsten (RR = 0,75). Es folgen die Länderkombinationen Irland/Italien, Niederlande/Belgien und Spanien/Belgien mit einem RR-Wert von jeweils 0,67. Am unähnlichsten sind sich Schweden und die U S A sowie Neuseeland und die USA. In keinem Fall gibt es eine positive gemeinsame Übereinstimmung, so daß der Rüssel & RaoKoeffizient den Wert 0 annimmt. Im Gegensatz zum Rüssel & Rao-Koeffizient berücksichtigt der Simple Matching-Koeffizient ( S M K ) nicht nur gemeinsame Übereinstimmungen, sondern auch gemeinsame Absenzen. Demzufolge werden die Werte stets höher sein. Berechnet man diese Maßzahl, dann ergibt sich die größte Ähnlichkeit zwischen Kanada und Australien sowie Italien und Irland ( S M K = 1,00). Das bedeutet, daß bei einem Paarvergleich stets alle Übereinstimmungen und Absenzen

identisch

sind.

Anschließend

folgen

die

Länderpaare

Niederlande/Belgien,

Deutschland/Österreich, Portugal/Griechenland und Schweden/Dänemark ( S M K = 0,92). Das unähnlichste Länderpaar bilden Schweden und die USA mit S M K = 0,17. Wie man sieht, gibt es durchaus Unterschiede in den Ergebnissen und bei der Berechnung der verschiedenen Maßzahlen. Der Anwender muß daher die Bedeutung der Absenzen richtig einschätzen und dann entscheiden, welche der Formeln aus Tabelle 12.2. für sein Forschungsvorhaben die richtige ist.

255

12. DIE CLUSTERANALYSE

12.2.2. Distanzmaße Bei den Ähnlichkeitsmaßen zeigen hohe Werte eine große Ähnlichkeit zwischen den Objekten und Variablen an. Bei Distanzmaßen (D-Maße) ist dies umgekehrt: Niedrige Werte weisen auf hohe Gemeinsamkeiten hin, während hohe Werte eine große Verschiedenheit bedeuten. Distanzmaße haben keine theoretische Obergrenze und sind abhängig von den Maßeinheiten. Dabei sollten die Daten mindestens intervallskaliert sein. Grundlage der Distanzmaße ist die Abstandsmessung zwischen zwei Objekten auf der Basis verschiedener Variablen. Eines der populärsten Distanzmaße ist die City-Block-Metrik (synonym: TaxifahrerMetrik). Sie wird berechnet, indem man die Differenz bei jeder Eigenschaft (Variablen) für ein Objektpaar bildet und die sich ergebenden absoluten Differenzwerte addiert.

d P T Y = Σ χ. . km . . ki i= 1

12.1.

χ

. mi

wobei sich die Subindizes k und m auf die Fälle beziehen und der Subindex i auf eine bestimmte Variable (i = 1 bis η Variablen). Zum Beispiel kann

die Distanz zwischen den Parteien k (SPD) und m (CDU) sein

und Xki, xm¡ der Wert der Variablen i (z.B. der programmatische Schwerpunkt für ein PolicyIssue) für die Parteien k und m. In der Politikwissenschaft findet dieses Verfahren tatsächlich bei der Messung von ideologischen Distanzen verschiedener Parteien im Hinblick auf unterschiedliche Politikfelder ihre Anwendung (vgl. Laver und Hunt 1992: 19). Tabelle 12.6.: Parteipositionen in Deutschland auf einer Links-Rechts-Skala PARTEI

CDU/CSU

Steuern und öffentliche Ausgaben

Umfang des öffentlichen Eigentums

Außenpolitik

Sozialmoral

13,53

13,56

9,83

14,42

SPD

6,53

8,13

4,61

6,68

FDP

15,68

17,38

6,61

6,84

5,21

7,13

4,00

2,90

Grüne

Quelle: Laver und Hunt (1992: I97f.). Die Werte entsprechen den Durchschnitten der Klassifikation ten auf einem Links-Rechts-Schema. Von 81 befragten Experten haben 19 geantwortet.

von Exper-

Exemplarisch soll dies für die ideologische Distanz zwischen den Parteien in Deutschland Ende der achtziger Jahre anhand der Daten von Laver und Hunt (1992) vorgeführt werden (vgl. Tabelle 12.6.). Laver und Hunt befragten Experten, die anhand von acht Politikfeldern (Policy-Bereichen) die ideologische Positionierung der Parteien in ihrem jeweiligen Land

256

STATISTIK FÜR POLITIKWISSENSCHAFTLER

auf einer Links-Rechts-Skala von 1 bis 20 festzulegen hatten. Hohe Werte entsprechen einer ideologisch rechten Position bezüglich der einzelnen Issues. Von diesen acht Politikfeldern wurden nun die vier wichtigsten ausgewählt, um die programmatische Distanz der einzelnen Parteien in Deutschland zu ermitteln: 1) Steuern und öffentliche Ausgaben; 2) der Umfang öffentlichen Eigentums; 3) Außenpolitik, insbesondere die Haltung der Parteien zur UDSSR; 4) Sozialmoral, insbesondere die Haltung zu Abtreibung und Homosexualität. Alle anderen Policy-Bereiche dieser Studie sind von nachrangiger Bedeutung und wurden aus Darstellungsgründen von der Berechnung der Distanzen ausgenommen. Die Daten beziehen sich auf das Jahr 1989. Wie stellt sich die Distanz zwischen SPD und CDU/CSU dar? Die Distanz ergibt sich durch das Einsetzen der einzelnen Werte in die Gleichung 12.1.: dci,y(CDU-sPD)

= (113,53 - 6,53] + |13,56 - 8,13| + |9,83 - 4,61| + 114,42 - 6,68|) = 25,39 . Die Di-

stanzen für die einzelnen Parteien nach der City-Block-Metrik ergeben sich folgendermaßen: 12.7a.: Distanzen politischer Parteien (City-Block-Metrik) Partei

CDU/CSU

SPD

SPD

25,39

FDP

16,77

20,56

Grüne

32,10

6,71

FDP

27,27

Ende der achtziger Jahre bestand die größte ideologische Distanz im bundesdeutschen Parteiensystem nach Meinung der befragten Experten zwischen der CDU/CSU und den Grünen, während sich die Grünen und die SPD 1989 ideologisch sehr nahestanden. „Qualitativ" arbeitende Politikwissenschaftler werden einwenden, daß dies nichts neues unter der Sonne sei, sondern altbekannt ist. Allerdings verkennt dies die ertragreiche Anwendung der Distanzmaße. Welcher Politikwissenschaftler wäre in der Lage, die ideologischen Distanzen zwischen den Parteien in allen westlichen Demokratien auf Grund seiner Beobachtungen zu beurteilen, oder womöglich gar noch festzustellen, wie sich die Abstände über einen längeren Zeitraum hinweg entwickelt haben? Dies wird erst mit Hilfe der Distanzmaße möglich, wobei die ideologische Distanz zwischen den einzelnen Parteien nicht nur auf der Basis von Expertenurteilen, sondern auch durch die Auswertung von Parteiprogrammen abgeschätzt werden kann.

1 2 . DIECLUSTERANALYSE

257

Graphisch kann man die City-Block-Metrik für zwei Variablen in einem zweidimensionalen Koordinatensystem darstellen (vgl. Abbildung 12.2.). Die Distanz ist definiert als die Summe der rechtwinkligen Abstände. Die synonyme Bezeichnung Taxifahrer-Metrik rührt daher, daß man wie ein Taxifahrer bei der Fahrt von Punkt A nach Punkt Β die zueinander rechtwinklig verlaufenden Straßen abfahren muß, um genau diese Distanz zu überwinden. Die nächsten beiden vorzustellenden Distanzmaße sind die euklidische und die quadrierte euklidsche Distanz. Die Distanzen sind nach dem griechischen Mathematiker Euklid benannt, der um 300 vor Christus lebte und als einer der Begründer der Geometrie gilt. Die euklidische Distanz wird wie folgt definiert:

d ? U K L = J Σ (χ.· km AL_ j ki

12.2.

χ

·) 2 mi

wobei sich die Subindizes k und m auf die Fälle (Objekte) und der Subindex i auf eine bestimmte Variable (i = 1 bis η Variablen) beziehen. Die euklidische Distanz wird als die Quadratwurzel aus der Summe der quadrierten Werteabstände für jede Variable berechnet. Die quadrierte euklidische Distanz wird nach Formel 12.3. berechnet:

12.3.

dQEUKL =

km

J . . i= 1

(

ki

_

χ

)2

mi

mit den Subindizes k und m für die Fälle (Objekte) und der Subindex i die Variablen. Die quadrierte euklidische Distanz zwischen zwei Objekten - in unserem Beispiel zwei Parteien - ist definiert als die Summe der quadrierten Wertedifferenzen für jede Variable. Für die euklidische Distanz zwischen CDU und SPD ergibt sich: dEUKL(CDu-sPD) = [(13,53 - 6,53)2 + (13,56 - 8,13)2 + (9,83 - 4,61)2 + (14,42 - 6,68) 2 f 2 = 12,87. Für die übrigen Parteikombinationen gelten bei Einsetzen in die Gleichung 12.2. die euklidische Distanzen in Tabelle 12.7b.: 12.7b.: Distanzen politischer Parteien (euklidische Distanz) SPD

Partei

CDU/CSU

SPD

12,87

FDP

9,33

13,16

16,65

4,17

Grüne

FDP

15,40

Die quadrierte euklidische Distanz ist - ex definitione - das Quadrat dieser einzelnen Werte.

258

STATISTIK FÜR POLITIKWISSENSCHAFTLER

12.7c.: Distanzen politischer Parteien (quadrierte euklidische Distanz) Partei

CDU/CSU

SPD

SPD

165,64

FDP

87,04

173,31

277,27

17,40

Grüne

FDP

237,02

Ergeben sich Unterschiede zwischen den euklidischen Distanzen und der City-BlockMetrik? Die Reihenfolge der Ähnlichkeiten beziehungsweise Verschiedenheiten zwischen den einzelnen Parteien ist bei den beiden euklidischen Distanzen gleich, da die Quadrierung nur eine monotone Transformation darstellt, die die Reihenfolge unverändert läßt. Allerdings ergibt sich im Vergleich zur City-Block-Metrik ein Unterschied. Die Reihenfolge der Unähnlichkeit der einzelnen Paarvergleiche variiert in einer Position. Folgende Reihung würde sich bei der City-Block-Metrik ergeben: 1. Grüne-CDU/CSU, 2. Grüne-FDP, 3. SPD-CDU/CSU, 4. FDP-SPD, 5. CDU/CSU-FDP, 6. SPD-Grüne. Auf Grundlage der euklidischen Distanzen ergibt sich dagegen folgende Reihung: 1. Grüne-CDU/CSU, 2. Grüne-FDP, 3. FDP-SPD, 4. SPD-CDU/CSU, 5. CDU/CSU-FDP, 6. SPD-Grüne. Das heißt Platz 3 und Platz 4 sind vertauscht. Die Wahl des Distanzmaßes beeinflußt damit die Reihenfolge der Ähnlichkeit der Klassifikationsobjekte. Ursache ist die unterschiedliche Gewichtung der Distanzen. Bei der City-Block-Metrik gehen die Unterschiede gleichgewichtig in die Formel ein, während bei den euklidischen Distanzen größere Abweichungen der Objekte stärker gewichtet werden. Im übrigen sind alle drei dargestellten Metriken Spezialfälle der allgemeinen Minkowski-Metrik: 1 12.4.

d.Minkowski km

η

Σ i= 1

χ, . ki

χ

mi

dabei beziehen sich die Subindizes k und m wiederum auf die Fälle und der Subindex i auf eine bestimmte Variable (i = 1 bis η Variablen). Der Metrikparameter r bestimmt das jeweilige Distanzmaß. Ist r = 1, dann ist die Minkowski-Metrik die City-Block-Metrik. Bei r = 2 wird die Formel zur euklidischen Distanz. Wenn sich die beiden Exponenten unterscheiden und dabei der Faktor 1/r = 1 (d.h. die Wurzel = 1) und r = 2 (d.h. der Exponent = 2) ist, dann erhält man die quadrierte euklidische Distanz. Wie kann man sich den Unterschied zwischen der City-Block-Metrik und der euklidischen Distanz graphisch vorstellen? Dazu wollen wir uns die ideologische Distanz zwischen der SPD und der FDP, beruhend auf zwei Politikdimensionen, anschauen. Die erste Politik-

1 2 . D I E CLUSTER ANALYSE

259

dimension ist die Haltung der Parteien zum Umfang der Staatsausgaben und gegenüber Steuersenkungen. Die zweite Dimension ist der präferierte Umfang des öffentlichen Eigentums. Hohe Werte spiegeln eine eher „rechte" oder - in diesem Beispiel - eher marktwirtschaftliche Lösungspräferenz wieder. Für die erste Dimension erhält die FDP von den befragten Experten durchschnittlich 15,68 Punkte, während die SPD 6,53 Punkte erzielt. Der Wert auf der zweiten Dimension liegt für die FDP bei 17,38 und für die SPD bei 8,13 (vgl. Abbildung 12.2.). Die Distanz zwischen SPD und FDP kann nun mit den verschiedenen Metriken berechnet werden. Bei der City-Block-Metrik hat man sich die Distanzberechnung wie die Fahrt eines Taxis um die Häuserblocks in Manhattan vorzustellen. Die Distanz nach der City-BlockMetrik ist nichts anderes als die Summe der absoluten Abstände für die einzelnen Variablen: D c i , y spD-FDP

= 115,68 - 6,531 + 117,38 - 8,131 = 9,15 + 9,25 = 18,40.

Denkt man in den Kategorien der euklidischen Distanz, dann kann die Distanz im zweidimensionalen Raum nach dem Satz von Pythagoras berechnet werden (a2 + b2 = c2). Die Distanz zwischen SPD und FDP ist für die zwei untersuchten Politikdimensionen nichts anderes als die Wurzel aus den beiden quadrierten Abständen (gleich der Länge der Hypothenuse): DEUKLSPD-FDP = [(15,68 - 6,53)2 + (17,38 - 8,13) 2 f = (9,152 + 9,25 2 f 2 = 13,01. Abbildung 12.2.: Die ideologische Distanz zwischen der SPD und der FDP Erhöhung der Staatsausgaben (1) versus Steuersenkung (20)

(8,13)

(17,38)

Für öffentliches Eigentum ( 1 ) versus gegen öffentliches Eigentum (20)

Welche der beiden Distanzen zu wählen ist, muß auf Grund theoretischer Überlegungen entschieden werden. In unserem Beispiel scheint die euklidische Distanz, die die direkte Ent-

260

STATISTIK FÜR POLITIKWISSENSCHAFTLER

fernung zwischen zwei Punkten angibt, intuitiv plausibler als die Distanz basierend auf der City-Block-Metrik, die die Summe aller Absolutabstände in sämtlichen Dimensionen ist. Die graphische Darstellung dieser Distanzmaße wird allerdings bei mehr als zwei Dimensionen schier unmöglich. Um diese Metriken anwenden zu können, ist darauf zu achten, daß vergleichbare Maßeinheiten vorliegen. Wenn unterschiedliche Maßeinheiten vorhanden sind, dann müssen die Variablen zunächst vor der eigentlichen Distanzberechnung standardisiert werden. Dabei informieren standardisierte Werte (z-Werte) über die Zahl der Standardabweichungseinheiten, um die ein Wert den Mittelwert unter- bzw. überschreitet. Die Standardisierung der Variablen wird über die sogenannte z-Transformation erreicht, die die Eigenschaft besitzt, daß die standardisierten Werte den Mittelwert 0 und die Standardabweichung 1 aufweisen. Im Prinzip sind hier mehrere Varianten der Standardisierung möglich, zum Beispiel auf ein Intervall von 0 bis 1. Mit Hilfe der standardisierten Werte und einer (auszuwählenden) Metrik berechnet man dann die Distanzmatrix. Die Berechnung der z-Werte für eine Variable erfolgt nach folgender Formel:

mit Xij = Wert der Variablen j für Fall i (z.B. für ein Land oder eine Partei), Xj = arithmetisches Mittel der Variablen j und Sj = Standardabweichung der Variablen j. In Tabelle 12.8. sind als Beispieldaten für die Berechnung der z-Werte wichtige ökonomische Schlüsselgrößen der sieben wirtschaftsstärksten westlichen Industrieländer (G7Länder) aufgeführt. Die vier zu untersuchenden Variablen sind das Wirtschaftswachstum, die Arbeitslosenquote, die Inflationsrate und die Staatsverschuldung - jeweils bezogen auf das Jahr 1995. Alle Indikatoren haben unterschiedliche Maßeinheiten und Größenordnungen. Würde man keine Standardisierungen durchführen, hätte dies später Auswirkungen für die Lösung der Clusteranalyse, da Variablen mit großen Maßeinheiten, in unserem Beispiel die Staatsverschuldung, ein überproportionales Gewicht erhalten würden. Setzt man die empirischen Werte der Aggregatstatistik in die Gleichung 12.5. ein, erhält man die in Tabelle 12.8. dargestellten z-Werte. Für die USA und die Variable Wirtschaftswachstum (Wiwa) ergibt x

sich: zUSA;Ww> -

USA;Wiwa~ xWiwa

2,00 - 2,10

S\Viwa

0,64

-0,16.

261

12. DIECLUSTERANALYSE

Tabelle 12.8.: Berechnung von z-Werten für Wirtschaftsdaten in den G7-Länder (1995) LAND

Reales WirtschaftsWachstum Original

Arbeitslosenquote

Inflation

Staatsschuldenquote in Prozent des BIP

7,-Wert

Original

z-Wert

Original

z-Wert

Original

z-Wert

USA

2,00

-0,16

5,60

-0,91

2,80

0,20

64,30

-0,58

Japan

0,90

-1,88

3,20

-1,67

-0,10

-1,51

80,70

0,10

Deutschland

1,90

-0,31

9,40

0,28

1,80

-0,39

61,60

-0,69

Frankreich

2,20

0,16

11,70

1,00

1,70

-0,45

60,00

-0,76

5,40

1,73

122,00

1,81

Italien

3,00

1,41

12,00

1,09

Großbritannien Kanada

2,40

0,47

8,20

-0,10

3,40

0,56

60,00

-,076

2,30

0,31

9,50

0,31

2,20

-0,15

99,60

0,88

Arith. Mittel

2,10

0,00

8,51

0,00

2,46

0,00

78,31

0,00

Standardabweichung

0,64

1,00

3,19

1,00

1,70

1,00

24,20

1,00

Anmerkung:

Die Daten beziehen

sich auf das Jahr 19951 OECD Economic

Outlook Nr. 60, Dezember

1996).

Welche Optionen stehen zur Verfügung, wenn die Variablen verschiedene Skalenniveaus aufweisen? Eine Möglichkeit bietet die Transformation von Variablen mit einem hohen Skalenniveau in Variablen mit einem niedrigen Skalenniveau. Die einfachste Transformation wäre die Dichotomisierung. Diese binäre Codierung geht natürlich mit einem Informationsverlust einher und ist daher nicht unproblematisch. Eine weitere Möglichkeit besteht in der getrennten Berechnung der Distanz- und Ähnlichkeitsmaße für die jeweiligen Skalenniveaus. Anschließend faßt man die so berechneten Teilindizes zu einem Gesamtindex zusammen. Dabei können die einzelnen Teildistanzmaße gewichtet oder ungewichtet aggregiert werden. Wann sollte man Distanz- oder Ähnlichkeitsmaße verwenden? Wenn der absolute Abstand zwischen den Objekten von Bedeutung ist, sollten Distanzmaße berechnet werden. Ähnlichkeitsmaße sind dann zu verwenden, wenn das Profil der untersuchten Fälle von Interesse ist. Dabei ist das Niveau der Variablen nur von untergeordneter Bedeutung.

12.3. Verfahren zur Gruppenbildung Bisher wurde in diesem Kapitel der Frage nachgegangen, wie Objekte zu charakterisieren und ihre Ähnlichkeitsstruktur zu bestimmen sind. Dabei wurden zwei verschiedene Typen von Maßzahlen vorgestellt: die Ähnlichkeitsmaße und die Distanzmaße. Es soll sich nun der Frage zugewandt werden, wie man auf der Basis dieser Ähnlichkeitsstrukturen Cluster bilden kann. Hier gibt es verschiedene Verfahren (vgl. Aldenderfer und Blashfield 1984). Mit den

262

STATISTIK FÜR POLITIKWISSENSCHAFTLER

gebräuchlichsten Verfahren, den hierarchisch agglomerativen Verfahren, werden wir uns im folgenden intensiver beschäftigen. Andere Verfahren, wie z.B. partionierende iterative Verfahren werden niir am Rande behandelt. Die hierarchisch agglomerativen Verfahren lassen sich in verschiedene Methoden unterteilen. Jede dieser Methoden besitzt unterschiedliche Eigenschaften und die Verschmelzung (Fusionierung) der einzelnen Klassifikationsobjekte zu Cluster geschieht jeweils nach einer anderen Berechnungsvorschrift. Folgende drei Methoden werden vorgestellt, die lediglich eine Auswahl aus einer großen Zahl anderer Fusionierungsalgorithmen darstellen: • Nächstgelegener Nachbar (single linkage, nearest neighbour) • Entferntester Nachbar (complete linkage, furthest neighbour) • Wards-Methode (Wards method) Die Vorgehensweise zur Verschmelzung der Klassifikationsobjekte, also beispielsweise der Länder oder der Parteien, ist bei allen hierarchisch agglomerativen Verfahren ähnlich. Ausgehend von der feinsten Gruppenaufteilung werden sukzessive möglichst ähnliche Gruppen zu größeren Gruppen verschmolzen. Die nachfolgende systematische Darstellung der Agglomeration (= Anhäufung, Verschmelzung) ist für alle Verfahren gleich. Dabei unterscheiden sich die Verfahren lediglich in der Neuberechnung der Distanzmatrix nach der Fusionierung eines Clusters (Schritt 5). 1. Schritt:

Start mit der feinsten Partition. Die Menge der Klassifikationsobjekte ist in Einergruppen zerlegt, d.h. jedes Objekt stellt ein eigenes Cluster dar.

2. Schritt:

Berechnung der Abstände zwischen den Gruppen, also der Distanz- oder der Ähnlichkeitsmaße.

3. Schritt:

Ermittlung des Gruppenpaares (Clusters) mit dem geringsten Abstand. Dies bedeutet, daß die größte Ähnlichkeit zwischen zwei Clustern festgestellt wird.

4. Schritt:

Verschmelzung des Gruppenpaares mit dem geringsten Abstand zu einem neuen Cluster. Die Zahl der Cluster nimmt damit um 1 ab.

5. Schritt:

Neuberechnung der Abstände zwischen dem neuen Cluster und den restlichen Clustern. Man muß eine reduzierte Distanzmatrix berechnen.

6. Schritt:

Wiederholung der Schritte 3 bis 5 solange, bis alle Klassifikationsobjekte sich in einem Cluster befinden.

Diese Vorgehensweise führt dazu, daß jedes Objekt zweifelsfrei einem Cluster zugeord-

12. DIE CLUSTERANALYSE

263

net werden kann. Es gibt keine Überlappungen zwischen den Clustern, das heißt, ein Objekt taucht nicht in verschiedenen Clustern auf. Nach jedem Durchgang reduziert sich die Zahl der Cluster um 1, bis sich am Ende alle Objekte in einem Cluster befinden. Dabei stellt sich natürlich gleichzeitig die Frage nach der optimalen Clusterzahl. In Kapitel 12.3.4. werden Verfahren behandelt, die es ermöglichen, die beste Clustergröße zu bestimmen.

12.3.1. Das „Single-Linkage" Verfahren Um die Clusterbildung zu illustrieren, wird als Beispiel die Verschmelzung verschiedener Parteien in Frankreich zu Clustern dargestellt. Die Distanzmatrix in Tabelle 12.9. beruht wiederum auf den Expertenbefragungen von Laver und Hunt (1992) hinsichtlich der ideologischen Distanz der Parteien zu vier verschiedenen Politikfeldern. Die Experten klassifizierten die einzelnen Parteien für jede Politikdimension auf einer Skala von 1 bis 20. Je größer der Wert für eine Partei auf einer Dimension, desto „rechter" ist diese. Je „linker" eine Partei, desto kleinere Werte weist sie auf. Mit Hilfe der euklidischen Distanz wurden die Abstände zwischen den Parteien ermittelt (Tabelle 12.9). Tabelle 12.9.: Distanzmatrix (euklidische Distanz) für das französische Parteiensystem PCF PS

10,46

Grüne

13,74

PS

Grüne

MRG

UDF

RPR

3,77

MRG

13,15

4,00

2,45

UDF

21,57

14,00

11,20

10,02

RPR

22,39

15,87

13,43

11,97

3,00

FN

31,51

24,92

22,37

21,15

12,17

10,26

Anmerkungen: Rohdaten aus Laver und Hunt (1992: 188f.); die vier wichtigsten Policy-Bereiche wurden zur Berechnung der Distanzmatrix verwendet. Basis der Distanzmatrix sind Expertenbefragungen zu vier verschiedenen Bereichen der Staatstätigkeit. Die Rohdaten beziehen sich auf das Ende der achtziger Jahre. PCF = Parti Communiste Français (Kommunisten), PS = Parti Socialiste (Sozialisten), MRG = Mouvement Radicale de Gauche (Linksliberale), UDF = Union pour la Démocratie Française (Bürgerlich-liberale), RPR = Rassemblement pour la République (Konservative, Gaullisten).

Das S ingle-Linkage-Verfahren geht wie alle hierachisch agglomerativen Fusionierungsverfahren von der kleinsten Partition aus. Dies heißt, jede Partei ist zunächst ein eigenes Cluster. Ziel ist es nun, ähnliche Parteien zusammenzufassen. Dies kann etwa für die Analyse möglicher Koalitionsbildungen interessant sein. Im Hintergrund steht also ein räumliches Modell von Politik, wie es Anthony Downs (1968) in seiner Ökonomischen Theorie der Demo-

264

STATISTIK FÜR PQUTIKWISSENSCHAFTLER

kratie vertritt. Nachdem damit die ersten beiden Schritte getan wurden, kann im dritten Schritt unserer Fusionierungsvorschrift dasjenige Gruppenpaar (Cluster) mit dem geringsten Abstand identifiziert werden. Die geringste ideologische Distanz liegt zwischen dem linksliberalen MRG (Mouvement Radicale de Gauche) und den Grünen mit einer euklidischen Distanz von 2,45 vor. Diese beiden Parteien werden dann zu einem neuen Cluster verschmolzen (4. Schritt). Nach dieser ersten Fusion müssen im fünften Schritt die Abstände zwischen dem neuen Cluster und den verbliebenen Clustern neu berechnet werden. Hierbei unterscheiden sich die Fusionierungsverfahren voneinander. Das Single-Linkage-Verfahren bestimmt die Distanzen zwischen dem neuen Cluster {Grüne ; MRG} und den verbliebenen Clustern (d.h. Parteien) nach der kleinsten Einzeldistanz der Mitglieder des neuen Clusters mit den übrigen Clustern (Parteien). Formal kann diese Beziehung folgendermaßen ausgedrückt werden: 12.6.

D(A ; Β + C) = min{D(A, B) ; D(A , C)} .

Dabei ist A ein beliebiges, nicht fusioniertes Cluster. Β und C sind das neugebildete Cluster, in unserem Fall {Grüne ; MRG}. D bezeichnet die Distanz. Single-Linkage weist einem neuen Cluster, hier also {Grüne ; MRG}, die kleinste Distanz zu, die sich aus den alten Abständen der Mitglieder dieses Clusters zu einem anderen Klassifikationsobjekt ergeben. Es ergeben sich damit folgende neue Distanzen: D(PCF , Grüne ; MRG)

= m i n ( D ( P C F , Grüne) ; D(PCF , MRG)}

= min{ 13,74 ; 13,15)

=

D(PS , Grüne ; MRG)

= min{D(PS , Grüne) ; D(PS , MRG)}

= min(3,77 ; 4,00}

=

13,15. 3,77.

D(UDF , Grüne ; M R G )

= min{D(UDF , Grüne) ; D(UDF , MRG)}

= min{ 11,20 ; 10,02}

=

10,02.

D(RPR , Grüne ; M R G )

= m i n ( D ( R P R , Grüne) ; D(RPR , MRG)}

= min{ 13,43 ; 11,97}

=

11,97.

D(FN , Grüne ; M R G )

= min{D(FN , Grüne) ; D(FN , MRG)}

= min{22,37 ; 21,15}

=

21,15.

Tabelle 12.9a.: Distanzmatrix nach dem 1. Durchgang für die Fusion nach Single-Linkage PCF PS

10,46

(Grüne ; MRG}

13,15

PS

(Grüne ; MRG}

UDF

RPR

3,77

UDF

21,57

14,00

RPR

22,39

15,87

10,02 11,97

3,00

FN

31,51

24,92

21,15

12,17

10,26

Die Tabelle 12.9a. stellt die neue reduzierte Distanzmatrix nach dem ersten Fusionierungsdurchgang dar. Bis auf die neuberechneten Distanzen bleiben die Distanzen identisch. Deshalb muß man nur die Zeilen und Spalten der verschmolzenen Cluster entfernen und durch

265

1 2 . D I E CLUSTER ANALYSE

die Werte des neugebildeten Clusters erstetzen. Dieses 6-stufige Verfahren wird im folgenden solange wiederholt, bis sich alle Elemente in einem Cluster befinden. Nach dieser Distanzmatrix sind im zweiten Durchgang die Union für die Demokratie Frankreichs (UDF) und die gaullistische Sammlungsbewegung RPR zu vereinigen, da sie die geringste Distanz aller Cluster untereinander aufweisen (D = 3,00). Wieder verringert sich damit die Zahl der Cluster um 1. Es ist wieder eine neue, reduzierte Datenmatrix nach dem Single-Linkage-Verfahren zu berechnen (Tabelle 12.9b.). Tabelle 12.9b.: Distanzmatrix nach dem 2. Durchgang für die Fusion nach Single-Linkage PCF

PS

(Grüne; MRG)

(UDF; RPR)

10,46

PS (Grüne ; MRG}

13,15

3,77

(UDF; RPR)

21,57

14,00

10,02

31,51

24,92

21,15

FN

10,26

Die geringste Distanz (D = 3,77) zwischen zwei Clustern in Tabelle 12.9b. weisen die Cluster (Grüne; MRG} und {PS} auf. Daher werden diese Cluster im dritten Durchgang verschmolzen. Es entsteht wieder eine neue reduzierte Distanzmatrix (Tabelle 12.9c.). Tabelle 12.9c.: Distanzmatrix nach dem 3. Durchgang für die Fusion nach Single-Linkage PCF

(Grüne ; MRG ; PS)

(Grüne ; MRG ; PS)

10,46

(UDF ; RPR)

21,57

10,02

FN

31,51

21,15

(UDF; RPR)

10,26

Im vierten Durchlauf werden nun die beiden größten Cluster verbunden, da sie die geringste Distanz untereinander aufweisen (D = 10,02). Das Cluster besteht nun aus 5 Parteien {Grüne ; MRG ; PS ; UDF ; RPR}. Die neue Distanzmatrix ist Tabelle 12.9d. Tabelle 12.9d.: Distanzmatrix nach dem 4. Durchgang für die Fusion nach Single-Linkage PCF (Grüne ; MRG ; PS ; UDF ; RPR)

10,46

FN

31,51

(Grüne ; MRG ; PS ; UDF ; RPR).

10,26

Die letzten beiden Durchläufe sind aus der Tabelle 12.9d. leicht ersichtlich. Im fünften Durchgang wird die Front National (FN) diesem Cluster zugewiesen und im letzten Schritt die Kommunisten (PCF), da die FN eine etwas niedrigere Distanz zu dem Cluster {Grüne ; MRG ; PS ; UDF ; RPR} aufweist. Insgesamt sind bei η Klassifikationsobjekten (7 Parteien) η -1 Durchgänge zu wiederholen (d.h. 6 in unserem Beispiel). Zuletzt sind alle Klassifikationsobjekte in einem Cluster versammelt. Dies ist natürlich keine optimale Lösung und außerdem

266

STATISTIK FÜR POLITIKWISSENSCHAFTLER

von der Sachlogik her fragwürdig, da das ganze Parteienspektrum von extrem links bis extrem rechts zusammengefaßt wurde. Abbildung 12.3.: Die Single-Linkage Clusterlösungen für die einzelnen Durchgänge

Anmerkung: Die Nummern beziehen sich auf die Zuordnungen nach den einzelnen

Durchgängen.

Welche Eigenschaften hat das Single-Linkage-Verfahren? Während das im nächsten Kapitel vorzustellende Complete-Linkage-Verfahren zu homogenen und kleinen Gruppen neigt, führt das Single-Linkage-Verfahren zu tendenziell großen Gruppen und zu einer vergleichsweise geringen Homogenität der gebildeten Cluster. Man sieht dies in Abbildung 12.3., in der für alle Durchgänge die Zuordnungen graphisch dargestellt sind. Nach vier Durchgängen gibt es drei verschiedene Cluster, wovon zwei nur mit einem Klassifikationsobjekt besetzt sind. Single-Linkage neigt also zu großen Gruppen und zu dem - gut sichtbaren - Phänomen der Kettenbildung. Der Politikwissenschaftler muß bei der Betrachtung der politischen Landschaft Frankreichs jedoch feststellen, daß es zwischen den Kommunisten und Sozialisten, gemessen an solchen Indikatoren wie der Koalitionsfähigkeit, Wahlabsprachen und Regierungsbeteiligung, realiter eine viel größere Ähnlichkeit gibt als zwischen der FN und den bürgerlichen Parteien. Immerhin bildete die PCF 1981 und 1997 zusammen mit den Sozialisten die Regierung, an der im Jahr 1997 auch die Grünen mitbeteiligt sind. Generell kann man sagen, daß für sozialwissenschaftliche Phänomene das Single-Linkage-Verfahren, wegen der Kettenbildung und der geringeren Homogenität in den Clustern, weniger geeignet ist.

12.3.2. Das „Complete Linkage" Verfahren Das zweite Verfahren zur Fusionierung der Merkmalsobjekte ist das Complete-LinkageVerfahren. Im Gegensatz zum Single-Linkage-Verfahren werden hier nicht die geringsten Abstände zur Neubestimmung der Distanzmatix verwendet, sondern die Maximalabstände der

267

12. DIE CLUSTER ANALYSE

Merkmalsträger zueinander. Ausgewählt werden als Cluster dann diejenigen Merkmalskombinationen, bei denen der Abstand minimal ist. Formal: 12.7.

D(A ; Β + C) = max{D(A , B) ; D(A , C)} .

A ist wieder ein beliebiges, nicht fusioniertes Cluster. Β und C stellen ein neugebildetes Cluster dar. D ist die Distanz. Ausgangspunkt bildet wiederum die Distanzmatrix der euklidischen Distanzen der Tabelle 12.9. Verschmolzen werden die beiden Klassifikationsobjekte mit der geringsten Distanz, also die Grünen und der MRG (D = 2,45). Das Complete-Linkage weist im 4. Schritt einem neuen Cluster, hier also zunächst wieder dem Cluster {Grüne ; MRG}, die größte Distanz zu, die sich aus den alten Abständen der Mitglieder dieses Clusters zu einem anderen Klassifikationsobjekt ergibt. Für das Beispiel des französischen Parteiensystems (Daten der Distanzmatrix in Tabelle 12.9.) ergeben sich somit folgende neue Distanzen: D(PCF , Grüne ; MRG)

= max{D(PCF, Grüne) ; D(PCF, MRG)}

= max{ 13,74 ; 13,15}

=

13,74.

D(PS , Grüne ; MRG)

= max{D(PS , Grüne) ; D(PS , MRG)}

= max(3,77 ; 4,00}

=

4,00.

D(UDF, Grüne ; MRG)

= max{D(UDF, Grüne) ; D(UDF, MRG)}

= max{ 11,20 ; 10,02}

=

11,20.

D(RPR , Grüne ; MRG)

= max{D(RPR , Grüne) ; D(RPR , MRG)}

= max{ 13,43 ; 11,97}

=

13,43.

D(FN , Grüne ; MRG)

= max{D(FN , Grüne) ; D(FN , MRG)}

= max(22,37 ; 21,15}

=

22,37.

Tabelle 12.10. stellt die neue reduzierte Distanzmatrix nach dem ersten Fusionierungsdurchgang dar. Die neuberechneten Distanzen unterscheiden sich von denen nach SingleLinkage (vgl. Tabelle 12.9a) in der Weise, daß jetzt die maximalen Abstände und nicht die minimalen Abstände zur Neubestimmung der Distanzmatrix verwendet werden. Tabelle 12.10.: Distanzmatrix nach dem 1. Fusionsdurchgang (Complete-Linkage) PCF PS

PS

{Grüne ; MRG}

UDF

RPR

10,46

{Grüne ; MRG)

13,74

4,00

UDF

21,57

14,00

RPR

22,39

15,87

13,43

3,00

FN

31,51

24,92

22,37

12,17

11,20

10,26

Im zweiten Verschmelzungsdurchgang werden UDF und RPR zu einem Cluster zusammengefaßt, da die Distanz in Tabelle 12.10. zwischen diesen beiden Clustern am kleinsten ist. Es ergibt sich dann folgende reduzierte Datenmatrix (Tabelle 12.11.).

268

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 12.11.: Distanzmatrix nach dem 2. Fusionsdurchgang (Complete-Linkage) PCF PS

PS

{Grüne; MRG)

{UDF;RPR)

10,46

{Grüne; MRG)

13,74

4,00

{ U D F ; RPR)

22,39

15,87

13,43

FN

31,51

24,92

22,37

12,17

Nach dem zweiten Fusionierungsdurchgang wird die PS mit dem Cluster {Grüne ; MRG} mit dem Resultat einer wieder reduzierten Distanzmatrix (Tabelle 12.12.) vereinigt. Tabelle 12.12.: Distanzmatrix nach dem 3. Fusionsdurchgang (Complete-Linkage) PCF

{Grüne; M R G ; PS)

{Grüne; M R G ; PS)

13,74

{UDF;RPR)

22,39

15,87

FN

31,51

24,92

( U D F ; RPR)

12,17

Der weitere Verlauf der Verschmelzung der einzelnen Cluster ist aus Tabelle 12.12. leicht ersichtlich. Die vierte Fusionierung vollzieht sich zwischen dem Front National und dem gemeinsamen Cluster aus UDF und RPR (D = 12,17). Nach der Neuberechnung der Distanzmatrix wird die Kommunistische Partei Frankreichs im fünften Durchgang dem Cluster der anderen Linksparteien, bestehend aus Grüne, MRG und PS, hinzugefügt (D = 13,74). Der letzte Durchlauf der Fusionierung faßt dann alle Parteien zu einem Cluster zusammen. Vergleicht man die beiden Lösungen nach dem Single-Linkage und dem CompleteLinkage-Verfahren, dann weist das Ergebnis nach Complete-Linkage eine größere Homogenität auf. Die PCF wird nicht wie bei dem Single-Linkage-Verfahren erst im letzten Schritt dem Cluster aller Parteien zugeordnet. Die Front National wird dem rechten Lager im vierten Durchgang zugeordnet und nicht wie beim Single-Linkage dem gesamten Lager von PS bis RPR im fünften Durchgang. Die Lösung mit zwei Clustern nach dem Complete-LinkageVerfahren ist für Frankreich politikwissenschaftlich sinnvoller als die Single-Linkage Lösung. Das erste Cluster bilden die vier Linksparteien, während die bürgerlichen Parteien sowie der rechte Front National das zweite Cluster bilden. Im ersten Fall nach Single-Linkage war dagegen die 2-Clusterlösung ein großes Cluster von sechs Parteien mit der PCF als alleiniges Cluster. Allgemein weist das Complete-Linkage-Verfahren die Eigenschaft einer größeren Homogenität und die Neigung zu kleineren Gruppen auf.

269

12. DIE CLUSTER AN ALYSE

12.3.3. Graphische Darstellung der Cluster Ein Instrument zur graphischen Darstellung der verschiedenen Vereinigungsschritte ist das Dendrogramm. Dies ist eine Grafik, die die kombinierten Cluster und die Werte der Koeffizienten des Verschmelzungsschemas bei jedem Schritt anzeigt. Dendrogramm bedeutet Baumdiagramm, was auf die verästelte Darstellungsart der Cluster hinweist. Die Dendrogramme in den Abbildungen 12.4. und 12.5. skalieren dabei die Distanzen, bei denen die einzelnen Cluster verschmolzen wurden, auf Werte zwischen 0 und 25 um. Diese Standardisierung auf das Intervall [0 ; 25] besitzt den Vorteil der besseren Vergleichbarkeit der einzelnen Clusterlösungen, ist aber nicht unbedingt notwendig. Außerdem ist diese Darstellung maßstabs- und größenunabhängig. Allerdings wäre es auch möglich, die exakten Distanzen der einzelnen Verschmelzungsebenen auf der horizontalen Achse abzutragen. Vorteil des Dendrogramms ist die mögliche visuelle Beurteilung der verschiedenen Clusterlösungen. In beiden Dendrogrammen wird die hierarchische Struktur der Kombinationen der Parteien in Cluster sichtbar. Aus den Abbildungen 12.4. und 12.5. geht hervor, daß die Grünen und der MRG die größte Ähnlichkeit aufweisen. Beide Parteien werden zuerst fusioniert. Anschließend werden jeweils die UDF und der RPR zu einem Cluster zusammengefaßt. Auch die dritte Fusionierung ist für beide Verfahren noch identisch: die PS wird zu dem bereits gebildeten Cluster {Grüne ; MRG} hinzugefügt. Während in Abbildung 12.4. im vierten Durchgang die beiden großen Cluster {Grüne ; MRG ; PS} sowie {UDF ; RPR} zusammengefaßt werden, wird in Abbildung 12.5. die FN dem bürgerlichen Cluster angeschlossen. Im fünften Schritt wird dagegen beim Complete-Linkage der PCF dem linken Cluster {Grüne ; MRG ; PS} angegliedert, während die Kettenbildung durch die Inklusion der FN in Abbildung 12.4. deutlich zu Tage tritt. Nach dem letzten Zusammenschluß befinden sich jeweils alle Parteien in einem Cluster. Abbildung 12.4.: Dendrogramm für die Clusterlösung nach dem Single-Linkage-Verfahren Neuskalierte 0

Grüne MRG PS UDF RPR FN PCF

5

10

(normierte) 15

Clusterdistanz 20

25

Π ZZI I

270

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Abbildung 12.5.: Dendrogramm für die Lösung nach dem Complete-Linkage-Verfahren Neuskalierte (normierte) Clusterdistanz 0

Grüne MRG PS PCF UDF RPR FN

5

10

15

20

25

TI

Τ

Für das Dendrogramm (Complete-Linkage) in Abbildung 12.5. soll die Berechnung der normierten Clusterdistanzen vorgeführt werden. Der maximale Wert der Fusionierungsdistanzen beträgt 31,51. Durch eine Dreisatzrechnung werden die einzelnen Distanzen, auf deren die Cluster zusammengeschlossen wurden (vgl. Tabellen 12.10a. bis 12.10c.), auf das Intervall [Ò ; 25] umgerechnet: 1. Fusionierung:

2,45 · 25 / 31,51 =

1,94

2. Fusionierung:

3,00 · 25 / 31,51 =

2,38

3. Fusionierung:

4,00*25/31,51 =

3,17

4. Fusionierung:

12,17 · 25 / 31,51 =

9,66

5. Fusionierung:

13,74 · 25 / 31,51 =

10,90

6. Fusionierung:

31,51 · 25 / 31,51 =

25,00

Die Verschmelzungslösung nach Complete-Linkage sieht in dem Dendrogramm im Vergleich zur Fusionslösung nach dem Single-Linkage-Verfahren deutlich homogener aus. Es stellen sich damit zwei Fragen: 1. Wie bestimmt man die Zahl der Cluster? 2. Wie gut sind die gefundenen Clustereinteilungen?

12.3.4. Die Bestimmung der Clusterzahl Welche Anzahl von Clustern ist optimal? Die Clusteranalyse soll homogene Gruppen entdecken. Daher ist es zweckmäßig schon im Vorfeld zu überlegen, wie viele Gruppen tatsächlich der Wirklichkeit am nächsten kommen. Ein Dendrogramm gibt hier einen ersten Einblick und man kann durch Inspektion der Grafik festlegen, wie viele verschiedene Gruppen (Cluster) in den Daten vorhanden sind. Dazu „schneidet" man die Äste des Baumdiagramms an den Stellen ab, die auf eine eindeutig homogene Lösung hinweisen. Die optimale Cluster-

12. DIE CLDSTERANALYSE

271

zahl ist dann identisch mit der Zahl der abgetrennten Äste des Dendrogramms. Ferner möchte man beurteilen, ob die gefundene und ausgewählte Lösung valide ist, ob also tatsächlich eine sinnvolle Struktur in den Daten entdeckt worden ist. Hierbei kann man zwei Vorgehensweisen unterscheiden: Heuristische Verfahren und formale Tests. Die Inspektion des Dendrogramms und die subjektive Entscheidung auf der Basis des „homogenen Erscheinungsbildes" wäre eine solche einfache Heuristik, die allerdings insgesamt wenig zufriedenstellend ist. Eine weitere Heuristik ist der inverse Scree-Test. Dabei werden in einem Streudiagramm auf der Abszisse (x-Achse) die Zahl der Cluster und auf der Ordinate (y-Achse) die Verschmelzungsniveaus abgetragen. Letztere sind nichts anderes als die einzelnen Distanzen für die entsprechende Fusionsstufe (d.h. die Fusionskoeffizienten). In Abbildung 12.6. ist dieser Test für die Beispieldaten des französischen Parteiensystems und der Verschmelzung nach dem Complete-Linkage-Verfahren dargestellt. Die Zahl der Cluster wird danach bestimmt, wo die Kurve in Abbildung 12.6. einen eindeutigen Knick aufweist. Man bezeichnet diesen Knick auch als Ellbogen. Die Bestimmung der optimalen Clusterzahl nach der Ellbogenheuristik ist nicht ganz eindeutig für unser gewähltes Beispiel. Sowohl die Lösung mit zwei Clustern, also dem linken Cluster bestehend aus PCF, PS, Grüne und MRG und dem rechten Cluster aus UDF, RPR und FN ist sinnvoll als auch die Lösung mit vier Clustern: {PCF}, {PS, Grüne, MRG}, {UDF, RPR} und {FN}. Ähnlich geht eine weitere Heuristik zur Bestimmung der optimalen Clusterzahl vor. Die Zahl der Cluster läßt sich danach festlegen, wo eine deutliche Zunahme im Verschmelzungsniveau, d.h. den Fusionskoeffizienten stattfindet. Dies wäre für das Beispiel anhand der Distanzen für die einzelnen Fusionsstufen oder aber auch aus Abbildung 12.6. abzulesen. Dort wo die Distanzen einen Sprung machen, liegt die optimale Clusterzahl. Wiederum gelangt man zum selben Ergebnis, da die Kurve sowohl bei vier als auch bei zwei Clustern einen Sprung macht, allerdings ist der Zuwachs der Fusionsdistanzen am größten zwischen der 2-Clusterlösung und der 1-Clusterlösung, so daß die 2-Clusterlösung vorgezogen wird. Einen statistischen Test zur Beurteilung eines signifikanten Sprunges des Fusionskoeffizienten findet sich bei Bacher (1996: 249), der für das vorliegende Beispiel die 4-Clusterlösung als signifikant ausweist (von einer Berechnung wird wegen der Komplexität abgesehen).

272

STATISTIK FÜR P O L I T I K W I S S E N S C H A F T L E R

Abbildung 12.6.: Der inverse Scree-Test für das Complete-Linkage Beispiel. ^

Distanz (hier die euklidische Distanz)

30 25 20 Ellbogen 1

15

10 Ellbogen 2

5

0 1

2

3

4

5

6

7

Anzahl der Cluster

Ziel der Clusteranalyse ist es, die Homogenität innerhalb der einzelnen Cluster so groß wie möglich werden zu lassen. Zwischen den Clustern soll dagegen die Unähnlichkeit, also die Heterogenität, maximiert werden. Die Homogenität innerhalb eines Clusters läßt sich mit Hilfe des F-Wertes diagnostizieren. Dieser F-Wert muß für jede Variable innerhalb eines Clusters nach folgender Formel berechnet werden:

12.8.

F=^

.

V(j)

mit V(j,C) = Varianz der Variablen j in einem Cluster C und V(j) = Varianz der Variable j über alle Merkmalsobjekte. Tabelle 12.13.: Parteipositionen in Frankreich auf einer Links-Rechts-Skala von 1-20 PARTEI

Steuern und öffentli- Umfang des öffentliche Ausgaben chen Eigentums

Außenpolitik

Sozialmoral

PCF

2,13

1,47

1,14

7,60

PS

6,73

7,67

7,14

3,87

Grüne

7,50

11,00

8,70

4,15

MRG

8,87

10,14

8,18

5,92

UDF

13,57

16,40

10,93

11,53

RPR

14,00

16,07

11,14

14,47

FN

18,00

18,47

18,86

19,36

Quelle: Laver und Hunt (1992: 187f.). Die Werte entsprechen den Durchschnitten der Klassifikation ten auf einem Links-Rechts-Schema. Von 61 befragten Experten haben 15 geantwortet.

von Exper-

273

12. DIE CLUSTERANALYSE

Je geringer die Streuung innerhalb eines Clusters im Vergleich zur Gesamtstreuung, desto homogener ist die gefundene Lösung. Übersteigt dieser F-Wert den Wert 1, dann ist die Streuung innerhalb des Clusters größer als die Gesamtstreuung, der Zähler ist größer als der Nenner. Dies weist auf eine schlechte Anpassung der Cluster hin. Die Originalwerte der Einstufungen für die Parteien des französischen Parteiensystems sind in Tabelle 12.13 dargestellt. Aus dieser Tabelle können dann die relevanten Maßzahlen, also die Varianzen für die einzelnen Cluster und über alle Fälle berechnet werden. Für die 2-Clusterlösung des französischen Parteiensystems (Complete-Linkage) ergibt sich dabei Tabelle 12.14. Tabelle 12.14. F-Werte für die Fusionslösung nach Complete-Linkage Gesamtvarianz der Variablen

Varianz im Cluster {Grüne ; MRG ; PS ; PCF}

Varianz im Cluster ( UDF ; RPR ; FN )

Steuern und öffentliche Ausgaben

28,80

8,54 O F = 0,30

5,97

Umfang des öffentlichen Eigentums

35,13

18,52 O F = 0,53

1,69 •=> F = 0,05

Außenpolitik

28,36

12,21 ^ F = 0,43

20,42 O F = 0,72

Sozialmoral

33,79

3,00 O F = 0,09

15,64

F = 0,21

F = 0,46

Anmerkung: Berechnung der Varianzen auf Grund der Daten aus Tabelle 12.13. Es wurde die Formel für die empirische Varianz verwendet, die den Nenner um einen Freiheitsgrad verringert.

Alle F-Werte sind kleiner als eins. Vergleicht man die berechneten F-Werte mit jenen für die 2-Clusterlösung nach dem Single-Linkage-Verfahren, dann weist die Complete-Linkage Lösung eine größere Homogenität auf. Kritisch ist bei diesem Test allerdings anzumerken, daß letztendlich nur die Effizienz des Clusterverfahrens bewiesen wurde. Die Clusteranalyse identifiziert - ex definitione - mehr oder weniger homogene Cluster. Genau dies zeigt dieser Test dann auch an (Aldenderfer und Blashfield 1984: 65). Anhand der Befunde aus Tabelle 12.14. kann man auf eine hohe Übereinstimmung der Linksparteien hinsichtlich ihrer Haltung zu Steuer- und Ausgabenpolitik und zur Sozialmoral schließen. Sie präferieren einen umfangreichen Steuerstaat und nehmen eine sehr liberale Haltung zu Fragen der Abtreibung und Homosexualität ein. Größere Unterschiede zeigen sich bei den beiden anderen Politikdimensionen. Bei den drei Rechtsparteien findet sich ebenfalls eine große Ähnlichkeit bei Steuerfragen und zum Umfang des öffentlichen Eigentums. Hier hat eher der Minimalstaat mit einer geringen Leistungs- und Regelungsdichte Vorrang. Eine weitere Testgröße ist der T-Wert. Diese Prüfgröße ist allerdings nicht geeignet, um die Güte einer Clusterlösung zu beurteilen. Sie dient zur Beschreibung der Zusammensetzung

274

STATISTIK FÜR POUTIKWISSENSCHAFTLER

der einzelnen Cluster. χ(ί.ο-χω sa) mit χ (j, C)

= Mittelwert der Variablen j über die Klassifikationsobjekte eines Clusters,

χ (j)

= Mittelwert für die Variable j über alle Klassifikationsobjekte.

s(j)

= Standardabweichung der Variablen j über alle Klassifikationsobjekte.

Negative T-Werte weisen dabei auf eine Überrepräsentation von niedrigen Werten der Variablen in den Clustern hin, während positive T-Werte auf eine Überrepräsentation von hohen Werten in einem Cluster deuten (Backhaus et al. 1990: 150). Deshalb dient dieser TWert vorrangig der Interpretation der Zusammensetzung eines Clusters. Eine verwandte, aber etwas anders berechnete Kontrollstatistik, findet sich bei Bacher (1996: 333). Für das Parteiensystembeispiel ergeben sich für die 2-Clusterlösung immer dieselben Muster für die einzelnen Variablen. In dem gewählten Beispiel wird bei allen vier untersuchten Variablen eine einheitliche Rangfolge unterstellt. Linke Politikpositionen werden niedrig kodiert, während eher rechte Politikpositionen hohe Werte erzielen. Dementsprechend weist das Cluster der vier Linksparteien durchgehend negative T-Werte auf. Sie variieren dabei von -0,59 bis -0,72. Demgegenüber ist es plausibel, daß das rechte Cluster bei allen Politikdimensionen auch hohe positive T-Werte erzielt. Sie streuen von +0,79 bis +0,96. Diese Befunde sind nicht überraschend, sondern stehen im Einklang zu den theoretischen Vermutungen. Rechte Parteien erzielen in den Augen der befragten Experten in allen Politikdimensionen, die ja auf einer Links-Rechts-Skala gemessen werden, höhere Werte als Linksparteien. Bemerkenswert wäre dagegen ein teilweise umgekehrtes Ergebnis, wenn nämlich Linksparteien bei einigen Dimensionen „rechter" als die bürgerlichen Parteien wären. Eine weitere Möglichkeit der Abschätzung der Güte der Lösung wäre die Berechnung der mittleren Unähnlichkeit zwischen den Clustern und innerhalb der Cluster. Dazu berechnet man zunächst das arithmetische Mittel der Distanzen in den einzelnen Clustern ü(k)in, indem die Distanzen aller Kombinationen der Mitglieder eines Clusters gemittelt werden. Die gesamte Unähnlichkeit in den Clustern uin wird als Mittelwert der einzelnen Cluster berechnet ïï(k)in. Anschließend wird das arithmetische Mittel der Distanzen zwischen den Clustern ïï(k)zw berechnet, wobei sämtliche Kombinationen der Merkmalsobjekte eines Clusters mit denjenigen eines anderen Clusters kombiniert werden (vgl. Tabelle 12.15.). Für die gesamte Unähnlichkeit zwischen allen Clustern ü7W müßte man wieder den Durchschnitt aus allen

12. Die C l u s t e r a n a l y s e

275

u(k)zw berechnen. Tabelle 12.15.: Berechnung der mittleren Unähnlichkeit innerhalb und zwischen den Clustern Unähnlichkeit in den Clustern

Euklidische Distanz

1. Cluster:

Unähnlichkeit zwischen den Clustern ( 1 ) und (2)

Euklidische Distanz

PS-UDF

14,00

PS-PCF

10,46

PS-RPR

15,87

Grüne PCF

13,74

PS-FN

24,92

MRG-PCF

13,15

PCF-UDF

21,57

PS-Grüne

3,77

PCF-RPR

22,39

PS-MRG

4,00

PCF-FN

31,51

Grüne-MRG

2,45

GRÜNE-UDF

11,20

ü(l)¡„

7,93

GRÜNE-RPR

13,43

GRÜNE-FN

22,37 10,02

2. Cluster: UDF-RPR

3,00

MRG-UDF

UDF-FN

12,17

MRG-RPR

11,97

RPR-FN

10,26

MRG-FN

21,15

ïï(l,2)„

18,37

ü(2) i n

8,48

Für das Parteienbeispiel beträgt die durchschnittliche Unähnlichkeit in den beiden Clustern ü(l)in = 7,93 und ïï(2)jn = 8,48. Damit ergibt sich eine gesamte durchschnittliche Unähnlichkeit in den Clustern von üin = 8,20. Die durchschnittliche Unähnlichkeit zwischen den Clustern üzw braucht in diesem Beispiel nur aus dem Vergleich zwischen den beiden Clustern berechnet werden: ü(l,2) zw .= 18,37. Zur Beurteilung der Homogenität kann man entweder die Differenz (Homogenitätsmaß g) oder das Verhältnis zwischen den beiden durchschnittlichen Unähnlichkeitsmaßen üzw und üin heranziehen. 12.10.

g=ïï β

12.11.

h = II. / ΰ in zw

zw

-II. . in

Für die Gleichung 12.10. gibt es eine Teststatistik (vgl. Bacher 1996: 255), auf deren Grundlage die Clusterlösung beurteilt werden kann. Dazu muß man einen z-Wert berechnen, der als Quotient aus g und der Standardabweichung s(g) bestimmt wird.

12.12.

s(g)

,

276

STATISTIK FOR POLITIKWISSENSCHAFTLER

mit s(g) = Standardabweichung von g, E(g) = Erwartungswert von g. Ist dieser z-Wert, so die Daumenregel, größer als 2, dann kann die Partition als homogen angesehen werden. Für unser Beispiel beträgt g = ïïzw - ïïin = 18,37 - 8,20 = 10,17. Da wir die Nullhypothese „keine Homogenität" testen, ist der Erwartungswert von g gleich null. Die Standardabweichung von s(g) ist 2,79. Daraus ergibt sich ein z-Wert von 3,64, d.h. die gefundene Clusterlösung liegt über dem Grenzwert von 2. Bei einer einseitigen Fragestellung (vgl. Kapitel 14) liefert die z-Tabelle zur Beurteilung der Frage, ob sich die Differenz signifikant von null unterscheidet, eine Veitrauenswahrscheinlichkeit für den gefundenen z-Wert von 99,9% und liegt damit oberhalb von 95%, weshalb die Lösung als homogen angesehen werden kann.

12.3.5. Weitere hierarchisch-agglomerative Fusionierungsverfahren Ein weiteres Verschmelzungsverfahren, neben den beiden bereits bekannten Verfahren, ist das Ward-Verfahren. Hervorstechendes Merkmal des Ward-Verfahrens ist, daß es als Kriterium für die Zusammenfassung zweier Gruppen nicht mehr die Distanz, sondern die Minimierung eines vorgegebenen Heterogenitätsmaßes verwendet. Ein solches Heterogenitätsmaß ist beispielsweise die Varianz innerhalb eines Clusters. Die Verschmelzung erfolgt dann so, daß die Streuung innerhalb der neuen Gruppe möglichst gering ist. Technisch gesprochen versucht das Ward-Verfahren diejenigen Cluster zu fusionieren, bei denen die Fehlerquadratsumme am geringsten erhöht wird. Dabei werden zuerst die Mittelwerte für jede Variable innerhalb der einzelnen Cluster berechnet. Anschließend wird für jeden Fall die quadrierte Euklidische Distanz zu den Cluster-Mittelwerten berechnet. Diese Distanzen werden über alle Fälle aufsummiert. Bei jedem Schritt sind die beiden zusammengeführten Cluster diejenigen, die die geringste Zunahme in der Gesamtsumme der quadrierten Distanzen innerhalb der Gruppen ergeben (= Fehlerquadratsumme). Das Verfahren nach Ward tendiert zur Bildung möglichst homogener Gruppen und ist für den praktischen Einsatz gut geeignet. Eine Voraussetzung ist aber, daß die Variablen metrisches Skalenniveau aufweisen. Die Berechnung von Hand ist komplizierter als bei den bisherigen Verfahren, ein einfaches Beispiel findet sich bei Bortz (1989: 699ff.). Beim Ward-Verfahren muß die quadrierte euklidsche Distanz verwendet werden, da ansonsten Anforderungen, die an diese Methode gestellt werden, nicht mehr erfüllt werden. Freundlicherweise übernimmt der Computer die Berechnung der Fehlerquadratsummen. Tragen wir diese für unser Beispiel der französischen Parteien auf der Ordinate und die

277

12. D I E CLUSTER ANALYSE

dazugehörige Anzahl der Cluster auf der Abszisse ab, dann erhält man die Abbildung 12.7. Nach dem Ellbogen-Kriterium entscheiden wir uns wieder - wie beim Complete-LinkageVerfahren - für eine 2-Clusterlösung. Abbildung 12.7. Das Ellbogen-Kriterium beim Ward-Verfahren Fehlerquadratsumme

Anzahl der Cluster

Neben den drei vorgestellten hierachisch-agglomerativen Fusionierungsverfahren gibt es noch mehrere andere solcher Verfahren, wie zum Beispiel die Average-Linkage-Verfahren. Einen grundlegend anderen Ansatz verfolgen die partionierenden Verfahren. Diese gehen von einer

gegebenen

Anfangspartition

aus,

die zum

Beispiel

mit einer

hierachischen-

agglomerativen Clusteranalyse mittels Complete-Linkage gewonnen wurde. In einem heuristischen Suchprozeß wird die Minimierung der Fehlerquadratsumme angestrebt. Dabei werden die einzelnen Klassifikationsobjekte in einem Austauschprozeß aus dem Cluster ausgelagert. Durch diesen wiederholten (iterativen) Austausch der Objekte versucht man eine optimale Gruppierung zu erzielen. Das Kriterium der Verringerung der Fehlerquadratsumme dient dabei zur Entscheidung, ob ein Objekt verlagert werden kann. Das Verfahren ist dann beendet, wenn nach der Prüfung sämtlicher Umgruppierungsmöglichkeiten aller Objekte keine Verminderung der Fehlerquadratsumme erreicht werden kann. Dieses Verfahren ist mathematisch sehr aufwendig.

278

STATISTIK FÜR POLITIKWISSENSCHAFTLER

12.4. Die drei Welten des Wohlfahrtsstaates Eine der großen und bahnbrechenden Studien zur Erforschung des Wohlfahrtsstaates in den vergangen Jahren war die Studie „The Three Worlds of Welfare Capitalism" von EspingAndersen (1990). In seiner Untersuchung identifiziert Esping-Andersen drei wohlfahrtsstaatliche Regime: ein „liberales", ein „konservatives" und ein „sozialdemokratisches" Regime. Für die Zuordnung der einzelnen OECD-Länder zu diesen wohlfahrtsstaatlichen Regimen verwendet Esping-Andersen verschiedene Kriterien (vgl. Tabelle 12.16.). Diese sieben unterschiedlichen Variablen messen den Umfang und die Ausgestaltung der sozialen Sicherung in den einzelnen Ländern. Der konservative Wohlfahrtsstaatstyp wird bestimmt durch den Grad an Statussegregation (gemessen an der Anzahl der unterschiedlichen öffentlichen Rentensysteme)

sowie

durch

den

die

Privilegierung

von

Berufsgruppen

reflektierenden

„Etatismusgrad", der über die Staatsausgaben für Beamtenpensionen (in % des Bruttoinlandsproduktes) gemessen wird. Das liberale Wohlfahrtsstaatsregime wird über Variablen abgebildet, die eine starke Markt- und Wettbewerbskomponente bei der Bereitstellung und Finanzierung von Sozialleistungen widerspiegeln. Dies sind die folgenden drei Größen: Der Umfang bedürftigkeitsabhängiger Sozialleistungen, der Anteil der privaten Pensionen (in Prozent aller Pensionsleistungen) sowie der Anteil der privaten Gesundheitsausgaben an den entsprechenden Gesamtausgaben. Das sozialdemokratische Wohlfahrtsstaatsregime zeichnet sich im wesentlichen durch eine universalistische-egalitäre Staatsbürgerversorgung aus. EspingAndersen mißt dies durch zwei Größen: Dem Anteil der Personen zwischen 16 und 64 Jahren, die zum Bezug von Leistungen der Kranken-, Arbeitslosen- und Rentenkassen berechtigt sind, sowie dem durchschnittlichen Verhältnis zwischen der Grundversorgung und den maximalen Leistungssätzen der Kranken-, Arbeitslosen- und Rentenkassen. Die Daten in Tabelle 12.16. sind identisch mit den Originaldaten von Esping-Andersen (1990: 70) und beziehen sich auf das Jahr 1980. Lediglich der Wert für die bedürftigkeitsabhängige Sozialhilfe in Großbritannien wurde nachträglich für die folgenden Darstellungen und die Berechnung der Clusteranalyse erhoben. Die Studie von Esping-Andersen hat viel Lob und Kritik erfahren (vgl. Schmidt 1998). Folgende Ausführungen und die Kritik sind weniger inhaltlicher Natur, denn methodisch motiviert. Esping-Andersen hat für seine Untersuchung keine Clusterverfahren verwendet. Wendet man diese Verfahren auf seine Originaldaten an, ergibt sich eine andere Lösung. Zudem hat Esping-Andersen mehrere Schlüsselentscheidungen getroffen, die seine Klassifikation der

279

12. DIE CLUSTER AN ALYSE

westlichen Industrieländer in verschiedene Wohlfahrtsstaatstypen maßgeblich beeinflussen. Tabelle 12.16.: Ausgangsdaten für die Klassifikation der Wohlfahrtsstaatsregime nach Esping-Andersen. Eigenschaften des konservativen Wohlfahrtsstaats Korporatis Etatismus mus bzw. Statussegregation

Eigenschaften des liberalen Wohlfahrtsstaats Sozialleist- Private Private Geungen (bePensionen sundsheitsdürftigkeitsausgaben geprüft)

Sozialdemokratischer Wohlfahrtsstaat UniversalUnterstützismus ungsleistungen

Australien

1,00

0,70

3,30

30,00

36,00

33,00

1,00

Belgien

5,00

3,00

4,50

8,00

13,00

67,00

0,79

Dänemark

2,00

1,10

1,00

17,00

15,00

87,00

0,99

Deutschland

6,00

2,20

4,90

11,00

20,00

72,00

0,56

Finnland

4,00

2,50

1,90

3,00

21,00

88,00

0,72

10,00

3,10

11,20

8,00

28,00

70,00

0,55

Irland

1,00

2,20

5,90

10,00

6,00

60,00

0,77

Italien

12,00

2,20

9,30

2,00

12,00

59,00

0,52

Japan

7,00

0,90

7,00

23,00

28,00

63,00

0,32

Kanada

2,00

0,20

15,60

38,00

26,00

93,00

0,48

Neuseeland

1,00

0,80

2,30

4,00

18,00

33,00

1,00

Niederlande

3,00

1,80

6,90

13,00

22,00

87,00

0,57

Frankreich

Norwegen

4,00

0,90

2,10

8,00

1,00

95,00

0,69

Österreich

7,00

3,80

2,80

3,00

36,00

72,00

0,52

Schweden

2,00

1,00

1,10

6,00

7,00

90,00

0,82

Schweiz

2,00

1,00

8,80

20,00

35,00

96,00

0,48

UK

2,00

2,00

"(13,5)-

12,00

10,00

76,00

0,64

USA

2,00

1,50

18,20

21,00

57,00

54,00

0,22

Anmerkungen: Daten beziehen sich auf das Jahr ¡980; Quelle: Esping-Andersen (1990: 70). Korporatismus bzw. Statussegregation = gemessen als Anzahl der unterschiedlichen öffentlichen Rentensysteme. Etatismus = gemessen als Staatsausgaben für Pensionen der im öffentlichen Dienst Beschäftigten (in % des Bruttoinlandsproduktes). Bedürftigkeitsabhängige Sozialleistungen = gemessen in Prozent der gesamten Sozialausgaben. Private Pensionen = gemessen in Prozent aller Pensionsleistungen. Private Gesundheitsausgaben = gemessen in Prozent aller Ausgaben für Gesundheit. Universalismus = Anteil der Personen zwischen 16 und 64, die berechtigt sind. Leistungen aus der Kranken-, Arbeitslosen- und Rentenkasse zu beziehen. Unterstützungsleistungen = durchschnittliches Verhältnis zwischen der Grundversorgung und der maximalen Versorgung der Kranken-, Arbeitslosen- und Rentenkassen. a = Wert ist laut Esping-Andersen nicht verfügbar. Der Wert in Klammer stammt aus der OECD-Publikation: Social Assistence in OECD Countries: Country Reports (1996: 405) und dient als Schätzwert für 1980. EspingAndersen (1990: 78) nahm für seine Klassifikation einen (vorsichtigen) Schätzwert von 1,0 an.

Zur Einstufung der westlichen Industrieländer in die drei Wohlfahrtsstaatstypen verwendet Esping-Andersen nicht die Originaldaten aus Tabelle 12.16., sondern er transformiert seine Rohdaten durch Punktzuweisungen in Teilindizes, die zur Bildung des konservativen, liberalen und sozialdemokratischen „Stratifizierungsindex" addiert werden. Stratifizierung meint dabei die Schichtung sozialer Beziehungen durch wohlfahrtsstaatliche Einrichtungen. Dazu bildet er - obwohl er dies nicht explizit anführt - Terzile, das heißt für jede Variable werden drei Gruppen gebildet, die möglichst die gleiche Anzahl von Gruppenmitgliedern aufweisen

280

STATISTIK FÜR POLITIKWISSENSCHAFTLER

s o l l t e n . E s p i n g - A n d e r s e n w e i s t d a b e i d e m ersten T e r z i l (der G r u p p e m i t der h ö c h s t e n M e r k m a l s a u s p r ä g u n g ) i m m e r 4 P u n k t e , d e m z w e i t e n T e r z i l 2 P u n k t e u n d d e m dritten T e r z i l 0 Punkte zu (Esping-Andersen 1990: 77-78). Z u m Z w e c k der Länderklassifikation wurden dann d i e P u n k t z u w e i s u n g e n der e n t s p r e c h e n d e n O p e r a t i o n a l i s i e r u n g s v a r i a b l e n addiert. D a s E r g e b nis nach Esping-Andersen kann der Tabelle 12.17. (Spalten 2 bis 4 ) e n t n o m m e n werden.

T a b e l l e 12.17.: K l a s s i f i k a t i o n e n v o n Industrieländer in W o h l f a h r t s s t a a t s t y p e n Wohlfahrtsstaatstypen nach Einstufung von Esping-Andersen durch Punktzuweisung '

Korrigierte Einstufung nach der Punktzuweisungsmethode von Esping-Andersen b

Konservativ

Liberal

Sozialdemokratisch Konservativ

Stark

Belgien (8)

Kanada(12)

Dänemark (8)

Deutschland (8) Kanada (12)

Deutschland (8) Schweiz (12)

Norwegen (8)

Frankreich (8)

Schweiz (12)

Schweden (8)

Frankreich (8)

USA (12)

Schweden (8)

Italien (8)

USA (12)

Finnland (6)

Italien (8)

Australien (10) Finnland (6)

Österreich (8)

Australien (10)

Niederlande (6)

Österreich (8)

Japan (10)

Niederlande (6)

Japan (10)

Norwegen (6)

Finnland (6)

Frankreich (8)

Australien (4)

Belgien (6)

Frankreich (8)

Australien (4)

Irland (4)

Niederlande (8) Belgien (4)

Finnland (6)

Niederlande (8) Belgien (4)

Japan (4)

Dänemark (6)

Irland (4)

Dänemark (6)

Japan (4)

Deutschland (6) Frankreich (4)

Mittel

Deutschland (4)

Niederlande (4) Deutschland (6) Kanada (4) Norwegen (4)

Liberal

Sozialdemokratisch

Ausprägung

Niederlande (4) Italien (6)

Dänemark (8)

Deutschland (4)

Italien (6)

Neuseeland (4)

UK (6)

Schweiz (4)

Neuseeland (4)

Kanada (4)

UK (4)

Schweiz (4) UK(4)

Schwach

Dänemark (2)

Belgien (4)

Frankreich (2)

Dänemark (2)

Belgien (4)

Irland (2)

Kanada(2)

Finnland (4)

Irland (2)

Norwegen (2)

Finnland (4)

Japan (2)

Neuseeland (2) Österreich (4)

Japan (2)

UK (2)

Irland (4)

Österreich (2)

Australien (0)

Irland (2)

Österreich (2)

USA (2)

Österreich (4)

Italien (0)

Schweden (0)

Neuseeland (2) Italien (0)

Australien (0)

UK(4)

USA (0)

Schweiz (0)

Norwegen (0)

Kanada (0)

Neuseeland (2)

UK (0)

Schweden (0)

USA (0)

USA (0)

Neuseeland (0) Norwegen (0) Schweden (0)

Schweden (0)

Schweiz (0) Anmerkungen: Fettgedruckte Länder in den Spalten 5-7 stellen die Fälle mit fehlerhafter Kodierung dar, eingefärbte Felder markieren Länder, deren Typenzuordnung dadurch verändert wurde, a = Die Werte in Klammern entsprechen den Originalwerten bei Esping-Andersen (1990: 70;) (1990: 74) nach der Zuweisung von Punkten nach Aufteilung der Originalwerte in Terzile (1990: 74). Es werden entlang dem nachstehenden Kodierungsschlüssel (Esping-Andersen 1990: 77-78) 4, 2 oder 0 Punkte zugewiesen, b = Korrigierte Punktzuweisung nach demselben Kodierungsschlüssel. Die zugrundeliegenden Werte stammen aus Tabelle 12.16. Statussegregation (Korporatismus): „0" falls Wert 5. Etatismus: „0" falls Wert < 1; „2" falls 1 < Wert < 2,1; „4" falls Wert > 2,2. Bedürftigkeitsabhängige Sozialleistungen: „0" falls Wert < 3; „2" falls 3 < Wert 16. Private Gesundheitsleistungen: „0" falls Wert < 10; „2" falls 10 < Wert μι

= einseitiger Test

H 0 : μ 0 < μι

Η,: μ 0 < μι

= einseitiger Test

Η 0 : μ 0 > μι

Η,: μ 0 Φ μι

= zweiseitiger Test

Η 0 : μο = μι

Dabei ist μ ein zu schätzender Parameter der Grundgesamtheit, z.B. ein Mittelwert. Die Subindizes von μ beziehen sich dabei nicht auf die Hypothesen Ho und Hj, sondern auf zwei verschiedene Mittelwerte. Die Nullhypothese stellt die Basis dafür dar, von der aus entschieden wird, ob die Alternativhypothese akzeptiert werden kann oder nicht. Wenn die Realität nicht mit der Nullhypothese zu erklären ist, wird sie zugunsten der Alternativhypothese verworfen. Den eigentlichen Hypothesentest kann man nun in fünf Schritte unterteilen: 1.

Aufstellung und Formulierung der Hypothesen.

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

2.

307

Festlegung des Signifikanzniveaus. Im sozialwissenschaftlichen Forschungsprozeß wird im allgemeinen ein Signifikanzniveau von 5% angestrebt, was eine Vertrauenswahrscheinlichkeit von 95% bedeutet. Gebräuchlich sind auch 99%-Vertrauensintervalle (Konfidenzintervalle). „Krumme" Signifikanzniveaus (z.B. ein 7,5% Niveau) lassen die Ergebnisse unglaubwürdig erscheinen und sollten daher nicht gewählt werden. Das Signifikanzniveau ist a priori festzulegen.

3.

Auswahl eines geeigneten statistischen Tests (z.B. der z-Wert).

4.

Berechnung der Prüfgröße. Dies kann z.B. durch die Berechnung der z-Prüfgröße L i_ geschehen, mit: ζ =

5.

σ

Vnr .

Auswertung der Prüfgröße. Es ist zu entscheiden, ob die Nullhypothese angenommen oder verworfen wird. Der berechnete z-Wert ist dann mit dem entsprechenden z-Wert für das vorher festgelegte Signifikanzniveau aus der Standardnormalverteilungstabelle zu vergleichen (vgl. Anhangstabelle 1). Folgendes Beispiel soll die Vorgehensweise veranschaulichen. Die Werbung für das

Magazin „Der Spiegel" postuliert, daß „Spiegelleser mehr wissen". Spiegelleser könnten demnach intelligenter als der Durchschnitt der Bevölkerung sein, so unsere Forschungsfrage. Aus vielen Versuchen weiß man, daß die Intelligenzquotienten normalverteilt für die Bevölkerung sind. Im folgenden soll angenommen werden, daß der Durchschnitt der Intelligenzquotienten der gesamten Bevölkerung bei 100 liegen soll. Die Standardabweichung in der Gesamtbevölkerung möge 20 betragen, das heißt, für die Grundgesamtheit (= Population) beträgt μο = 100 und σ = 20. Um die Forschungsfrage zu überprüfen, müßte man eine Stichprobe von Spiegellesern ziehen und deren durchschnittlichen Intelligenzquotienten mit dem der Grundgesamtheit vergleichen. Zunächst müssen wir unsere Hypothesen aufstellen und formulieren. A priori, ohne Vorkenntnisse über Intelligenz und Zusammensetzung der Spiegelleserschaft, haben wir drei Möglichkeiten unsere Alternativhypothese 1 zu formulieren: 1. Spiegelleser sind intelligenter als der Durchschnitt der Bevölkerung (Η,: μ 0 < μι). Dies ist eine gerichtete Unterschiedshypothese. 2. Der Durchschnitt der Bevölkerung ist intelligenter als der durchschnittliche Spiegelleser (Η,: μ 0 > μ,). 3. Die Intelligenz der Spiegelleser unterscheidet sich vom Durchschnitt der Bevölkerung (H,:

308

STATISTIK FÜR POLITIKWISSENSCHAFTLER

μ 0 Φ μι). Dies ist eine ungerichtete Unterschiedshypothese. Wir vermuten eine vom Durchschnitt der Bevölkerung abweichende durchschnittliche Intelligenz beim Spiegelleser. Diese kann sowohl nach oben als auch nach unten abweichen. Aufgrund unserer Ausgangsvermutung, daß Spiegelleser tatsächlich intelligenter sein dürften, entscheiden wir uns für die Arbeitshypothese 1. Statistisch getestet wird allerdings nicht diese Arbeitshypothese (von der wir glauben, daß sie stimmt), sondern die zu widerlegende Nullhypothese. Die Nullhypothese Ho (H0: μο > μι) lautet deshalb: „Der durchschnittliche Intelligenzquotient der Bundesbürger ist mindestens so groß wie der durchschnittliche Intelligenzquotient der Spiegelleser." Den zweiten Schritt bildet die Festlegung des Signifikanzniveaus, das durch den sogenannten α-Wert bestimmt wird. Hierbei entspricht α inhaltlich der Wahrscheinlichkeit für ein „seltenes" Ereignis, eben dasjenige Ereignis, was uns besonders interessiert. In unserem Beispiel ist dies die höhere Intelligenz der Spiegelleser. Alpha bezeichnet also das Signifikanzniveau zur Zurückweisung der Nullhypothese. Da unsere Rückschlüsse auf die Grundgesamtheit jedoch auf einer Stichprobe beruhen, kann es durchaus sein, daß wir uns irren. Einen solchen Irrtum, der die fälschliche Ablehnung der Nullhypothese zur Folge hätte, bezeichnet man als α-Fehler. Als Konvention hat sich α = 0,05 eingebürgert. Umgekehrt ist γ = 1 - α dieVertrauenswahrscheinlichkeit, die in dem Beispiel 95% beträgt. Abbildung 14.1.: Signifikanzniveau bei der Standardnormalverteilung

kritischer Bereich

|

ζ = -1,96

Annahmebereich

|

kritischer Bereich

ζ = +1,96

Bei einer zweiseitigen Fragestellung - in unserem Beispiel H] = die Intelligenz der Spiegelleser differiert von dem Bevölkerungsdurchschnitt - ist der kritische Bereich auf 2 Flächen

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

309

aufgeteilt (vgl. Abbildung 14.1). Wenn α = 0,05 ist, befinden sich die beiden relevanten Teilflächen an den beiden Enden unterhalb der Dichtefunktion f(z). Beide Teilflächen sind symmetrisch und durch α/2 = 0,025 bestimmt. Verwendet man als Prüfstatistik die zPrüfgröße, dann ist der Referenzwert entweder ζ = -1,96 oder ζ = +1,96. Ein z-Wert, den man aus der Stichprobe berechnet und der in dem Intervall zwischen ζ = ± 1,96 liegt, führt zur Annahme der Nullhypothese. Ist der ermittelte z-Wert dem Betrage nach größer als 1,96, dann führt dies zu einer Ablehnung der Nullhypothese und damit automatisch zur Annahme der Alternativhypothese. In unserem Fall gehen wir jedoch von einer gerichteten Hypothese aus und müssen deshalb einen kritischen Bereich berechnen, der auf einer einseitigen Fragestellung beruht. Die Fläche unter der Normalverteilungskurve ist nicht zweigeteilt, sondern liegt je nach der postulierten Wirkungsrichtung am linken oder rechten Rand unterhalb der Kurve. Bei α = 0,05 stellt der kritische Bereich 5% der Fläche unter der Normalverteilungskurve dar. Um den dazugehörigen z-Wert zu ermitteln, ist eine Tabelle der Standardnormal Verteilung (vgl. Anhangstabelle 1) erforderlich. Bei einem z-Wert von ± 1,65 werden jeweils 5% der Fläche unter der Kurve abgeschnitten. Ziel des Forschers, der die Nullhypothese zurückweisen möchte, ist es deshalb, einen z-Wert größer als +1,65 zu ermitteln, was automatisch zur Annahme der Alternativhypothese („Spiegelleser sind intelligenter") führen würde. Nachdem man sich auf die z-Prüfgröße als statistisches Testverfahren festgelegt hat, muß man nun den z-Wert berechnen. Dieser z-Wert hängt unter anderem von der Größe der gezogenen Stichprobe ab. Dabei gilt: Je größer die Stichprobe ist, desto genauer liegt man am wahren Wert der Grundgesamtheit. Allerdings ist es möglich, viele Stichproben aus der Grundgesamtheit zu ziehen. Die Mittelwerte dieser Stichproben werden dann variieren, aber je mehr Stichproben man zieht, desto näher wird der Mittelwert der Stichproben ebenfalls am exakten Wert der Grundgesamtheit liegen.

14.1.

Die Prüfgröße wird nach der Formel ζ =

χ — μ j— ν η ermittelt. σ

Die beiden Populationsparameter (μ = 100 und σ = 20) sind bekannt. Zufällig wurden aus der Grundgesamtheit 16 Spiegelleser ausgewählt, die sich einem Intelligenztest unterzogen haben. Dabei ergab sich ein Mittelwert von χ = 102. Eingesetzt in die Gleichung 14.1. ergibt das einen z-Wert von 0,4. Dieser Wert ist kleiner als 1,65, und er liegt im Annahmebereich der Nullhypothese bei einer einseitigen Fragestellung. Deshalb ist es nicht möglich, die

310

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Nullhypothese abzulehnen. Im Umkehrschluß bedeutet dies, daß die Alternativhypothese verworfen wird. Inhaltlich bedeutet dies, daß sich Spiegelleser hinsichtlich ihrer Intelligenz nicht vom durchschnittlichen Bundesbürger unterscheiden. Gemessen an einer Gesamtpopulation von mehreren Millionen Bürgern, ist eine Fallzahl von 16 allerdings sehr gering. Je größer unsere Stichprobe ist, desto stabiler werden die Ergebnisse sein. Führen wir eine zweite Zufallsstichprobe aus der Grundgesamtheit der Spiegelleser mit η = 1000 durch, die wiederum einen Mittelwert von χ = 102 hervorbringt, dann beträgt der z-Wert 3,16. Er ist nun größer als der kritische Wert, weshalb die Nullhypothese verworfen und die Alternativhypothese angenommen wird. Demnach besteht also doch ein Unterschied in der Intelligenz zwischen der Bevölkerung und den Spiegellesern. Zwei weitere Anmerkungen müssen an dieser Stelle gemacht werden. Zunächst kann das Festhalten an einem festen vorgegebenen Signifikanzniveau problematisch sein. Der Computer ist in der Lage, die exakten Signifikanzniveaus anzugeben. So kann es sein, daß eine Nullhypothese bei einem berechneten α-Wert von 0,049 verworfen wird, bei einem Wert von 0,051 dagegen nicht. Die Differenz zwischen beiden Größen ist sehr gering, die daraus resultierende Konsequenz der Entscheidung dagegen groß. Oftmals entstehen solche Differenzen gerade in den Sozialwissenschaften - durch Meßfehler, weshalb ein striktes Beharren auf konventionellen Grenzwerten nicht immer sinnvoll ist. Gleichwohl muß zum eigentlichen Testverfahren trotzdem ein gebräuchliches Signifikanzniveau verwendet werden. Zweitens wurde in dem Beispiel nur ein einziges Testverfahren, der Normalverteilungstest, bei der Überprüfung von Mittelwerten dargestellt. In der statistischen Praxis gibt es verschiedene solcher Testverfahren, die auch unterschiedlichen Situationen Rechnung tragen. Im obigen Beispiel waren ja der Mittelwert und die Standardabweichung der Grundgesamtheit bekannt. In der Praxis tauchen dagegen oft solche Situationen auf, in denen dies nicht der Fall ist. Hier müssen dann andere statistische Tests verwendet werden, z.B. ein t-Test oder die t-Statistik zum Test der Regressionskoeffizenten bei der Regressionsgleichung.

14.2. α-Fehler und ß-Fehler Wie wir gesehen haben, können Entscheidungen, die auf den Ergebnissen einer Stichprobe beruhen, auch falsch sein. Hätte man die Entscheidung über die Intelligenz der Spiegelleser nur auf Basis der kleineren Stichprobe gefällt, dann hätte man eine Fehlentscheidung

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

311

getroffen. Man hätte die Nullhypothese beibehalten, obwohl diese falsch gewesen wäre. Dies nennt man einen ß-Fehler. Je nachdem welche der Hypothesen H 0 und H] in der Wirklichkeit richtig ist, kann man zwischen zwei Fehlerarten unterscheiden (vgl. Tabelle 14.1.): 1. H 0 wird fälschlicherweise abgelehnt. Dieser Fehler heißt Fehler 1. Art oder α-Fehler. 2. Die Nullhypothese H 0 wird fälschlicherweise beibehalten. Dies bezeichnet man als Fehler 2. Art oder ß-Fehler. Ein zu lösendes Problem der schließenden Statistik (Inferenzstatistik) ist daher: Wie kann angesichts der erhobenen Daten entschieden werden, welche der beiden Hypothesen richtig ist? Die schließende Statistik versucht daher Wahrscheinlichkeiten für den Fehler 1. Art und den Fehler 2. Art anzugeben. Tabelle 14.1.: Entscheidungssituation beim Hypothesentest: α-Fehler und ß-Fehler Empirisches Faktum (Wirklichkeit) Entscheidung H 0 wird angenommen H 0 wird abgelehnt

H 0 gilt

H, gilt

V

ß-Fehler

α-Fehler

S

Der Fehler 1. Art (OC-Fehler) bedeutet, daß die Nullhypothese verworfen wird, obwohl sie richtig ist. Die Wahrscheinlichkeit eines Fehlers 1. Art ist gleich dem Signifikanzniveau des Tests = α. Beträgt das Signifikanzniveau 5%, dann ist die Vertrauenswahrscheinlichkeit 95% und die Wahrscheinlichkeit Ρ für den Fehler 1. Art ebenfalls 5%. Der Fehler 2. Art (ßFehler) drückt die Wahrscheinlichkeit dafür aus, daß die Nullhypothese beibehalten wird, obwohl tatsächlich („unter der Bedingung der Gültigkeit von Hi") die Gegenhypothese richtig ist. In der Realität können Entscheidungen (z.B. Unternehmensentscheidungen), die auf solchen Fehlern beruhen, durchaus gravierende Kosten nach sich ziehen. Beide Fehlerarten hängen negativ miteinander zusammen: Je größer der Fehler 1. Art, desto kleiner wird der Fehler 2. Art. Auch sozialwissenschaftliche Umfrageinstitute sehen sich mit diesem Dilemma konfrontiert. Wenn beispielsweise der Wahlsieg einer bestimmten Partei vorhergesagt wird, ist man daran interessiert, den ß-Fehler so klein wie möglich werden zu lassen. Ein ß-Fehler würde nämlich den Sieg der anderen Partei bedeuten, was ja nicht der Realität entspricht.

312

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Wie wir gesehen haben, werden Hypothesen anhand von Signifikanztests überprüft. Folgende Zusammenhänge sind dabei zu berücksichtigen: 1. Bei Unterschiedshypothesen wird die statistische Signifikanz - im Sinne einer großen Vertrauenswahrscheinlichkeit - umso größer, je größer die Diskrepanz zwischen dem arithmetischen Mittel der Stichprobe und dem wahren Wert μ der Grundgesamtheit ist. Im obigen Beispiel würde sich dies in einer möglichst großen Differenz zwischen den Durchschnitten der Intelligenzquotienten der Spiegelleser und der Bevölkerung ausdrücken. 2. Das Signifikanzniveau wird - unter sonst gleichen Umständen - umso kleiner (d.h. die Vertrauenswahrscheinlichkeit wird größer), je kleiner die Populationsstreuung (das heißt die Varianz und Standardabweichung) ist. Je enger sich die Merkmalsausprägungen um den tatsächlichen Wert scharen, desto unwahrscheinlicher werden verzerrende Einflüsse von Ausreißern und Extremwerten. Im Extremfall, d.h. wenn keine Streuung vorliegt, bedeutet dies, daß alle Merkmalsausprägungen identisch sind. Jeder Stichprobenmittelwert wird mit der Grundge» samtheit übereinstimmen. 3. Je größer der Stichprobenumfang, desto kleiner wird unter gleichen Bedingungen das Signifikanzniveau (desto größer ist also die Vertrauenswahrscheinlichkeit). Dies ist intuitiv einleuchtend: Je besser eine Stichprobe fundiert ist, desto geringer wird die Wahrscheinlichkeit „neben" dem wahren Wert zu liegen. Allerdings gibt es hier einen trade-off zwischen den Kosten und der statistischen Signifikanz. Umfragen sind im allgemeinen teuer, so daß man versucht, mit möglichst wenigen Befragten die größte mögliche Signifikanz zu erreichen. Statistische Hypothesentests führen nicht zu Wahrheiten, sondern lediglich zu Wahrscheinlichkeitsaussagen, die auch als solche behandelt werden sollten. Statistische Signifikanz läßt sich darüber hinaus leicht erzeugen: Die Hypothesenformulierung spielt eine Rolle, etwa durch die Wahl eines einseitigen oder zweiseitigen Tests. Je größer die Stichprobe, desto bedeutender und einflußreicher werden auch kleine Unterschiede zwischen Mittelwert der Stichprobe und Mittelwert der Grundgesamtheit. Daraus folgt, daß jede Nullhypothese bei genügend großer Stichprobe verworfen werden kann, sofern tatsächlich eine substantielle Differenz besteht. Ein signifikantes Ergebnis bedeutet ferner nicht automatisch, daß es sich um einen wichtigen oder starken Einfluß beziehungsweise Effekt handelt. Bei einer hinreichend großen Stichprobe ist nahezu jeder Effekt signifikant. Deshalb müssen zur Beurteilung der Stärke eines Einflusses andere Indikatoren herangezogen werden. Zur Abschätzung der Stärke eines Effektes sollten zunächst theoretische Überlegungen angestellt werden: Wie groß muß zum

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

313

Beispiel der Regressionskoeffizient sein, damit von einer bedeutenden Wirkung gesprochen werden kann? Eine Beschränkung auf die Signifikanz des Regressionskoeffizienten leistet dies nicht.

14.3. Konfidenzintervalle und Stichprobengröße Der Umfang einer Stichprobe ist für viele Forschungsarbeiten ein wichtiger festzulegender Parameter. Die Stichprobengröße ist dabei ein Kostenfaktor und angesichts knapper Forschungsetats eine Restriktion. Andererseits werden die Ergebnisse mit größeren Fallzahlen auch immer zuverlässiger, so daß für eine möglichst genaue Abschätzung des interessierenden Parameters so viele Fälle wie möglich in die Untersuchung mit eingehen sollten. Hier besteht also ein trade-off zwischen den Kosten und der Genauigkeit einer Schätzung. Abseits dieser Überlegungen stellt sich ferner immer das Problem der Repräsentativität (vgl. Kapitel 4.4), die an jede Stichprobe gestellt wird. Annähernd sichere Aussagen, ein Meßfehlerproblem stellt sich immer, erhält man nur über eine Totalerhebung, so daß Aussagen über Parameter der Grundgesamtheit immer unter Unsicherheit getroffen werden. Ziel muß es daher sein, diese Unsicherheit zu minimieren.

14.3.1. Der Stichprobenfehler des Mittelwertes Im folgenden sollen zum besseren Verständnis der Problematik einige Begriffe und Konzepte der Stichprobenstatistik näher beleuchtet werden. Gehen wir von einer Grundgesamtheit mit einem Mittelwert von μ = 1 und einer Standardabweichung von σ = 0,20 aus (die griechischen Symbole beziehen sich stets auf Parameter der Grundgesamtheit). Aus dieser Grundgesamtheit können wir jetzt eine Stichprobe mit einer Stichprobengröße von η = 200 ziehen. Abbildung 14.2. zeigt das Histogramm einer solchen Zufallsstichprobe. Entsprechend der Situation in der Grundgesamtheit würden wir einen Stichprobenmittelwert von 1 und eine Standardabweichung von 0,2 erwarten. Das empirische Ergebnis weicht allerdings von unseren Erwartungen ab. Der Stichproben wert dieser einen spezifischen Stichprobe ist χ = 1,01 und die Standardabweichung beträgt 0,19. Nun können wir viele solcher Stichproben aus der Grundgesamtheit ziehen. Nur sehr selten wird der Mittelwert mit dem der Grundgesamtheit übereinstimmen, in den meisten Fällen jedoch nicht. Dabei streuen die so gewonnenen Mittelwerte um den wahren Wert der Grundgesamtheit. Je größer die Zahl der Stichproben, desto

314

STATISTIK FÜR POLITIKWISSENSCHAFTLER

näher liegt der Mittelwert dieser Stichprobenverteilung am exakten Populationsmittelwert. Die Streuung der so gewonnenen Mittelwerte bezeichnet man als Standardfehler des Mittelwertes. Zu Übungszwecken wurden neun weitere Zufallsstichproben mit Hilfe eines Computerprogrammes gezogen. Der Mittelwert aller 10 Stichproben betrug. 1,02. In keinem Fall kam es zu einer Übereinstimmung mit dem wahren Wert (was auch zu erwarten war). Nach einem der wichtigsten Sätze der Statistik, dem Zentralen Grenzwertsatz, strebt der Mittelwert dieser Stichprobenverteilung allerdings gegen den wahren Mittelwert μ der Grundgesamtheit. Abbildung 14.2.: Histogramm für eine Zufallsstichprobe

Std.abw. = ,19 Mittel = 1,01 N = 200

Der Standardfehler, d.h. die Streuung der Mittelwerte verschiedener Stichproben, ermöglicht uns nun, Aussagen über die Verteilung der Mittelwerte zu treffen. Er ist definiert als die Standardabweichung der Mittelwerte von gleichgroßen Zufallsstichproben einer Grundgesamtheit.

mit σ = Standardabweichung der Population und η = Stichprobengröße. Je größer die Stichprobe η ist, desto geringer wird der Standardfehler und umso genauer wird unsere Parameterschätzung sein. Die Stichprobenverteilung der Mittelwerte wird normalverteilt sein, d.h. sie wird symmetrisch und in einer Glockenform um μ streuen. Die Zufallsstichprobe in Abbildung 14.2. ist ebenfalls eine solche Normalverteilung, was jedoch der Spezifikation der gezogenen Stichprobe geschuldet ist. Interessant ist, daß selbst bei einer

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

315

Gleichverteilung der einzelnen Variablen die Mittelwerte einer Zufallsstichprobe dieser Variablen normalverteilt sind. Die Standardabweichung der Population wird aber nur in den seltensten Fällen bekannt sein. Deshalb muß man die Streuung der Grundgesamtheit mit Hilfe der Stichprobe schätzen. Die Gleichung für die Schätzung des Standardfehlers bei einer Stichprobe lautet nun:

14.3.

σ5 =

= V^

, Y n(n —1)

mit ô j = Standardfehler einer Stichprobe; χ = arithmetisches Mittel der Stichprobe und x¡ = ein Beobachtungswert aus der Stichprobe. Die Stichprobenvarianz ist wie folgt definiert:

14.4.

σ2 = —

. n-1

Die Verkleinerung des Nenners um 1 muß wegen einer Korrektur der Freiheitsgrade erfolgen. Das Dach auf dem griechischen Symbol Sigma σ bezeichnet eine Schätzgröße für die Stichprobe. Ohne Dach bezieht sich Sigma auf den Wert in der Population. Abbildung 14.3.: Verteilung von Stichprobenmittelwerten

Die Verteilung der nach dem Zufallsprinzip gezogenen Stichprobenmittelwerte (engl, sampling distribution) hat nun die Eigenschaft, daß rund 68% aller Mittelwerte in einem Intervall von ± 1 Einheit des Standardfehlers (= Standardabweichungen der Mittelwerte) liegen. In einem Intervall von + 2 Einheiten des Standardfehlers liegen etwas mehr als 95% aller be-

316

STATISTIK FÜR POUTIKWISSENSCHAFTLER

obachteten Mittelwerte (vgl. Abbildung 14.3). Gehen wir zurück zu unserem Beispiel mit den Spiegellesern. Die beiden Populationsparameter μ = 100 und σ = 20 waren bekannt, was nicht unbedingt dem Normalfall entspricht. Mit Hilfe der Gleichung 14.3. können wir den Standardfehler der Mittelwerte für Stichproben abschätzen. Es bleibt nun die Frage, ob der Mittelwert der Stichprobe tatsächlich dem wahren Wert der Grundgesamtheit nahekommt.

14.3.2. Die Berechnung von Konfidenzintervallen Das

folgende

Beispiel

soll

die

Berechnung

eines

Konfidenzintervalls

(Vertrauensintervalls) für die Schätzung eines Mittelwertes veranschaulichen. In Abbildung 14.4. ist eine Stichprobe für die Intelligenzquotienten einer fiktiven Grundgesamtheit dargestellt, mit einer Stichprobengröße von η = 200, einer Standardabweichung von s = 18,44 und mit einem arithmetische Mittel von x= 95,58. Aufgrund der oben ausgeführten Zusammenhänge weiß man, daß diejenigen Populationsparameter, die einen solchen Mittelwert hervorbringen können, in dem Bereich χ = ± 2σ χ liegen und zwar mit einer Wahrscheinlichkeit von 95,45%. Der Bereich, in dem sich diejenigen Werte befinden, die für den geschätzten Mittelwert der Stichprobe in Frage kommen, heißt Konfidenzintervall (= Vertrauensintervall). Dieses Vertrauensintervall gibt an, innerhalb welcher Grenzen man den Mittelwert in der Population vermuten kann. Abbildung 14.4.: Stichprobe aus einer fiktiven Grundgesamtheit 30

Häufigkeit

25

20

15

10 5

Std.abw. = 18,44 M i t t e l = 95,58 Ν = 200,00

0 % 601 38416 4160,25 =>4161 16641 1040,06 => 1041 66564

320

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Der zweite Fall bezieht sich auf die Größe der Stichprobe bei der Schätzung eines Anteilwertes. Zunächst soll hier die Berechnung der Stichprobengröße und anschließend die Bestimmung des Konfidenzintervalls dargestellt werden. Beispiel: Der CDU wurde durch verschiedene Umfrageinstitute signalisiert, daß der Stimmenanteil der CDU/CSU bei der nächsten Bundestagswahl etwa 40% betragen wird. Die Parteiführung der CDU möchte nun wissen, wie zuverlässig die Schätzung ist und gibt selbst eine Umfrage in Auftrag. Nehmen Sie an, die Parteizentrale der CDU hat Sie beauftragt, selbst eine Zufallsstichprobe durchzuführen. Dabei möchte die CDU nur einen engen Schwankungsbereich von + 0,5 Prozentpunkten um den vermuteten Anteilswert Ρ (= 40%) zulassen. Wie groß wählen Sie ihre Stichprobe, wenn ihr Auftraggeber eine Vertrauenswahrscheinlichkeit von 99% verlangt? Die Berechnung erfolgt nach Formel 14.7.:

14.7.

η =

4-z 2

-P.Q — , KIB2

mit Ρ = Stichprobenanteils wert; Q = 1-P; ζ = z-Wert der Standardnormalverteilung für die korrespondierende Vertrauenswahrscheinlichkeit; KIB = Breite des Konfidenzintervalls. Da alle relevanten Informationen vorhanden sind, ergibt sich für die Stichprobengröße:

η =

2 4·2,58 ·0,4·0,6 : : - = 63901,44 . 2

0,01

Für die Absicherung des Ergebnisses, daß die CDU/CSU bei der kommenden Bundestagswahl, mit einer Wahrscheinlichkeit von 99%, einen Stimmenanteil zwischen 39,5% und 40,5% erhält, müßten Sie 63902 Wahlberechtigte befragen. Der Umfang der Stichprobe ist wieder von der Konfidenzintervallbreite und der Vertrauenswahrscheinlichkeit abhängig. Die dritte Einflußgröße ist der Anteilswert Ρ (= die Wahrscheinlichkeit des Stimmenanteils für die CDU/CSU) und die daraus ableitbare Gegenwahrscheinlichkeit Q (1-P). Je größer Ρ ist, desto größer wird der Stichprobenumfang. Ist Ρ = Q = 0,5, dann ist der Stichprobenumfang, bei Konstanz der anderen Parameter, maximal. Dies ist einleuchtend, da es in einer solchen Pattsituation schwierig ist, den exakten Gewinner (beziehungsweise Stimmenanteil) vorherzusagen. Erst mit zunehmender Stichprobengröße kann diese Unsicherheit verringert werden. Eine Zahl von 63902 zu befragenden Personen ist vergleichsweise groß. Die Umfrageinstitute in der Bundesrepublik arbeiten mit weitaus kleineren Stichproben. Sie erkaufen dies mit Abstrichen bei der Vertrauenswahrscheinlichkeit und der Genauigkeit. Dies bedeutet, daß

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

321

die Konfidenzintervalle größer werden. Die Forschungsgruppe Wahlen befragt in ihren Politbarometerumfragen für das ZDF monatlich rund 1250 Personen. Gibt es hier Unterschiede in den Konfidenzintervallen für die einzelnen Parteien? Falls ja, wie groß sind die Konfidenzintervalle für die folgenden vier Parteien bei einer Vertrauenswahrscheinlichkeit von 95%? Nehmen wir an, die Forschungsgruppe Wahlen schätzt die CDU/CSU auf 40%, die SPD auf 38%, Bündnis 90/Grüne auf 10% und die FDP auf 6%. Die dazugehörigen Konfidenzintervalle werden ähnlich wie bei der Gleichung 14.5. ermittelt. 14.8.

Obere Grenze = Ρ + ζ (α/2) σ % ; untere Grenze = Ρ - ζ ( α / 2 ) · σ % ,

wobei Ó% wieder der Standardfehler - allerdings für Anteilswerte - ist. Der Standardfehler berechnet sich bei Anteilswerten nach der Gleichung:

Eine Voraussetzung für die Anwendung der Formel ist die Erfüllung der folgenden Bedingung: η * Ρ * Q > 9. Da die Anteilswerte binomial (2 Ausprägungen) verteilt sind, d.h. entweder wird eine Partei gewählt oder eben nicht, muß diese Bedingung erfüllt sein, da bei Überschreiten des Grenzwertes die Binomialverteilung durch eine Normalverteilung approximiert werden kann. Für die Parteianteile aus der Politbarometerumfrage ergeben sich dann folgende Konfidenzintervalle: Partei

Vertrauenswahr-

z-Wert

scheinlichkeit

(Zan)

Ρ

Q

σ % (Standard-

ζ- σ %

fehler)

Konfidenzintervall

CDU/CSU

95%

1,96

40%

60%

1,386

2,716

[37,284 ; 42,716]

SPD

95%

1,96

38%

62%

1,372

2,691

[35,309 ; 40,691 ]

Β 90/Grüne

95%

1,96

10%

90%

0,848

1,663

[8,337 ; 11,663]

FDP

95%

1,96

6%

94%

0,672

1,317

[4,683 ; 7,317]

Die Fehlertoleranz bei 1250 Befragten und einem Parteianteil von 40% beträgt nach der Berechnung knapp ± 2,72 Prozentpunkte. Bei einem Parteianteil von 6% liegt die Toleranz bei rund ± 1,32 Prozentpunkten. Es gilt also, daß die Konfidenzintervallbreite mit der Größe des Anteilswertes variiert. Hinsichtlich der Substanz der Ergebnisse sieht man, daß sich die Konfidenzintervalle der Intervallschätzungen für die CDU/CSU und die SPD überschneiden. Daher kann es durchaus sein, daß die SPD am Wahlabend besser abschneidet als die CDU/CSU.

322

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Auch ist ein Sprung der FDP über die 5%-Hürde nicht gesichert. In den Medien werden in der Regel aber nur die prognostizierten Prozentwerte angegeben, wobei nur in den seltensten Fällen die möglicheh Fehlermargen genannt werden. Deshalb besteht durchaus die Möglichkeit einer falschen Vorhersage des Wahlsiegers. Die Ursache dafür muß aber nicht notwendigerweise bei den Umfrageinstituten liegen.

14.4. Der t-Test auf den Unterschied zweier Mittelwerte

A.) t-Test für unterschiedliche Standardabweichungen in den Stichproben Nehmen Sie an, daß eine repräsentative Bevölkerungsumfrage im Jahr 1997 verschiedene durchschnittliche Monatsnettoeinkommen pro Person in West- ( x w = 1900 DM) und Ostdeutschland ( x o = 1700 DM) ergeben hat. Dabei wurden in Westdeutschland 1500 Personen und in Ostdeutschland 700 Personen befragt. Im folgenden soll überprüft werden, ob der Einkommensunterschied zwischen beiden Erhebungsgebieten signifikant ist. Die Standardabweichungen betrugen in Westdeutschland sw = 1600 DM und in Ostdeutschland So = 800 DM. Zur Überprüfung von Mittelwertunterschieden, wie bei dem vorliegenden Problem, bedient man sich des t-Tests. Der t-Test bei unabhängigen Stichproben prüft, ob zwei unabhängige Stichproben aus Populationen mit dem gleichen Mittelwert stammen. Dieser Test kann angewendet werden, um herauszufinden, ob die Wähler und Nicht-Wähler einer Partei über das gleiche durchschnittliche Einkommen verfügen. Zur korrekten Anwendung dieses Tests müssen Beobachtungen zweier unzusammenhängender Gruppen zur Verfügung stehen. Außerdem muß der Mittelwert ein geeigneter zusammenfassender Lageparameter für die Variable sein, die in den zwei Gruppen verglichen werden soll. Mit diesem Test sollten deshalb keine nominal- und ordinalskalierten Variablen verglichen werden. Die Vorgehensweise beim t-Test erfolgt analog zu den zuvor behandelten statistischen Tests. 1. Aufstellung und Formulierung der Hypothesen Hj: Unter der Bevölkerung in Ost- und Westdeutschland existiert ein Unterschied im Durchschnittsnettoeinkommen. Ho: Unter der Bevölkerung in Ost- und Westdeutschland existiert kein Unterschied im Durchschnittsnettoeinkommen.

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

Formal:

H^ μι Φ μ 2

= zweiseitiger Test

323

H 0 : μι = μ 2

Dabei bezieht sich μι auf das westdeutsche und μ 2 auf das ostdeutsche Durchschnittseinkommen. Zunächst wird die Hypothese also als zweiseitige Fragestellung formuliert. Auf der Basis unseres Vorwissens wäre es sogar plausibler, eine gerichtete Fragestellung zu verwenden, da die Frage, wann einheitliche Lebensverhältnisse in Ost und West vorliegen, seit der deutschen Einheit ein zentrales politisches Problem ist. Formal:

Η',: μ] > μ 2

= einseitiger Test

H' 0 : μι < μ 2

2. Festlegung des Signifikanzniveaus Es wird ein Signifikanzniveau von α = 0,05 festgelegt. Die Irrtumswahrscheinlichkeit α ist daher 0,05, und die Veitrauenswahrscheinlichkeit ist 95% (bzw. 0,95). Zur Vermeidung einer Fehlentscheidung der Art, daß die Nullhypothese abgelehnt wird, obwohl sie richtig ist, muß α verringert werden (z.B. auf 0,01). Für große Stichproben geht die t-Verteilung in die Standardnormalverteilung über. Bei einer zweiseitigen Hypothese erhalten wir deshalb als Grenzwert einen t-Wert von 1,96 für eine Irrtumswahrscheinlichkeit von α = 0,05. Für die einseitige Fragestellung beträgt, bei einem Signifikanzniveau von 0,05, der t-Wert für große Fallzahlen 1,65. 3. Auswahl eines geeigneten statistischen Tests Aus der Vielzahl der existierenden Tests wird der t-Test für Mittelwertvergleiche bei unabhängigen Stichproben als geeigneter Test herangezogen. 4. Berechnung der Prüf große Die Prüfgröße für den t-Test wird nach folgender Gleichung berechnet:

Dabei ist χ ι der Mittelwert der ersten Stichprobe (hier Westdeutschland) und χ 2 der Mittelwert der zweiten Stichprobe (Ostdeutschland). Der Mittelwert der ersten Population ist μ! und μ 2 der der zweiten. Da nach der Nullhypothese H 0 : μι = μ 2 ist, das heißt, wir gehen bei der Nullhypothese von keinen Einkommensunterschieden in Ost- und Westdeutschland aus, vereinfacht sich die Formel zu:

324

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Der Zähler ist die Differenz zwischen den Mittelwerten, während im Nenner der Standardfehler der Stichprobenmittelwertdifferenz ( σ ^ ^ ) steht. Er berechnet sich aus den Standardabweichungen der beiden Merkmale der Grundgesamtheit:

14.12.

mit df und ò \ = Schätzungen der Populationsvarianzen (= Standardabweichungen der Stichproben). Bei Einsetzen der Ausgangsdaten in die Prüfgröße erhält man für den Standardfehler:

14.12.'

Dieser Wert für den Standardfehler der Mittelwertdifferenzen ist dann in Gleichung 14.11. einzusetzen. Für den t-Wert ergibt sich: (1900 - 1700) 51,20

'

'

5. Auswertung der Prüfgröße und Beurteilung Für große Stichproben ist die t-Statistik annähernd normalverteilt, weshalb man dann die z-Tabelle (Standardnormalverteilungstabelle) verwenden darf. Da der t-Wert mit 3,91 größer ist als der Grenzwert von t = 1,96, kann die Nullhypothese verworfen werden. Es ist unwahrscheinlich, daß die Differenz zwischen beiden Stichproben rein zufälliger Natur ist. Der Einkommensunterschied im Monatsnettoeinkommen von 200 DM ist also statistisch signifikant. Für die einseitige Fragestellung ist die Aussage sogar noch stärker. Da die Nullhypothese bei einem Grenzwert von 1,65 abgelehnt wird, ist automatisch die Alternativhypothese angenommen. Das Ergebnis lautet: Das Monatsnettoeinkommen in Westdeutschland ist signifikant größer als in Ostdeutschland. Im vorangegangenen Beispiel wurde davon ausgegangen, daß sich die Standardabweichungen der beiden Populationen unterscheiden. Die Anwendung eines weiteren t-Tests setzt aber die Annahme annähernd identischer Standardabweichungen voraus. In diesem Fall lassen sich die Standardabweichungen zur Berechung des Standardfehlers zusammenziehen. Man

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

325

spricht dabei auch von gepoolten Varianzen. Allgemeine Voraussetzung für die Anwendung des t-Tests ist neben der Unabhängigkeit der Stichprobe die Annahme, daß die Stichproben aus einer normalverteilten Grundgesamtheit stammen. Bei kleinen Stichproben muß man den t-Wert für ein gegebenes Signifikanzniveau aus statistischen Tabellen (hier die t-Tabelle vgl. Anhangstabelle 2) entnehmen. Generell bemißt sich bei kleinen Stichproben die Zahl der Freiheitsgrade (df) und bei Vorliegen der Varianzhomogenität für diesen Test nach der Beziehung df = ni + Π2 - 2. Ist die Normalverteilungsannahme oder die Annahme konstanter Standardabweichungen verletzt, sollte man einen verteilungsfreien (synonym: nicht-parametrischen) Test verwenden (vgl. Kapitel 14.5.). B.) t-Testfür konstante Standardabweichungen

in den Stichproben

Beispiel: Ein Politikwissenschaftler möchte die Zufriedenheit der Bürger mit der Demokratie in Ost- und Westdeutschland untersuchen. Dazu befragt er jeweils 20 Personen in beiden Erhebungsgebieten. Seine Arbeitshypothese besteht darin, daß die Demokratiezufriedenheit in den beiden Teilen der Bundesrepublik Deutschlands stark variiert und diese in Westdeutschland höher ist. Die Befragten mußten auf einer Skala von 0 („völlig unzufrieden") bis 100 („vollkommen zufrieden") die Demokratie in Deutschland bewerten. Der Durchschnitt der Demokratiezufriedenheit lag im Westen bei 78,25 und in den fünf neuen Bundesländern bei 61,35. Die Standardabweichungen sind nahezu gleich, wobei in Westdeutschland die Standardabweichung Sw = 16,714 und in Ostdeutschland So = 17,141 betrug. 1. Aufstellung und Formulierung der Hypothesen Der Forscher entscheidet sich für eine einseitige Fragestellung, wobei die Arbeitshypothese H| lautet: Die Demokratiezufriedenheit ist in Westdeutschland größer als in Ostdeutschland. Die Nullhypothese Ho, die getestet wird, lautet: Es gibt keinen Unterschied in der Demokratiezufriedenheit zwischen Ost und West. 2. Festlegung des Signiflkanzniveaus Es wird ein Signifikanzniveau von α = 0,05 festgelegt. 3. Auswahl eines geeigneten statistischen Tests Es wird der t-Test für Mittelwertvergleiche bei unabhängigen Stichproben und konstanten Standardabweichungen der Stichproben verwendet. 4. Berechnung der Prüf große

326

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Die Prüfgröße für den t-Test wird wieder nach den Gleichungen 4.10. beziehungsweise 4.11. (s.o.) berechnet (Beachte: Nach der Nullhypothese gilt H 0 : μι = μ2)·

14.10.

(χ,-χ,)-(μ,-μ,) t= — i

14.11.

t=

(χ,-χ,)) —

Im Unterschied zum Fall mit verschiedenen Standardabweichungen ändert sich bei näherungsweise identischen Standardabweichungen jetzt die Gleichung 14.12. für die Berechnung des Standardfehlers der Differenz der Stichprobenmittelwerte (Gleichung 4.13.):

.... 14 13

·

-

l(n,-l)-df+(na-l)-oj

·

(n,-l)

+

(n2-l)

fi

1

'

Setzt man die Beispielswerte ein, ergibt sich dann folgende Beziehung für den Standardfehler des Stichprobenmittelwertes: ,/.,-»· 14.13.

(20 - 1 ) · 16,7142 + ( 2 0 - 1 ) • 17,141a fi 1 σ^ = >=, • — +— =5,353. \l (20-1) + (20-1) Uo 20 J

Dieser Wert für den Standardfehler der Mittelwertdifferenzen ist dann in Gleichung 14.11. einzusetzen. Für den t-Wert ergibt sich: (78,25 - 61,35) t =

5,353

=3 16

'

·

5. Auswertung der Prüfgröße und Beurteilung Die Zahl der Freiheitsgrade beträgt df = ni + n 2 - 2 = 38. Für 38 Freiheitsgrade und ein Signifikanzniveau von 0,05 liefert eine t-Tabelle (vgl. Anhangstabelle 2) bei einseitiger Fragestellung einen Wert von 1,69. Da dieser Wert deutlich überschritten wird, muß die Nullhypothese, daß es keinen Unterschied in der Demokratiezufriedenheit zwischen Ost- und Westdeutschland gibt, abgelehnt werden. Die Alternativhypothese wird deshalb angenommen. Mit den Daten aus dem ALLBUS 1996 kann einer ähnlichen Fragestellung mit Hilfe von Umfragedaten nachgegangen werden. Dort wurde abgefragt, „wie gut oder schlecht das demokratische System heute in Deutschland funktioniert" (Frage 408 des ALLBUS 1996). Die Standardabweichungen für die beiden Erhebungsgebiete Ost und West sind fast identisch. In der Tat ergibt sich bei Anwendung des t-Tests ein signifikanter Unterschied zwischen der west- und ostdeutschen Bevölkerung, wobei die Westdeutschen dem demokratischen System

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

327

in Deutschland eine höhere Funktionsfähigkeit zuschreiben. C. ) Der t-Testfür gepaarte Stichproben Eine weitere Variante des t-Tests, der manchmal auch als Test von Student, nach dem Pseudonym seines Urhebers William Gösset, bezeichnet wird, ist der t-Test für gepaarte Stichproben. Mit diesem Test wird die Nullhypothese getestet, daß die Daten einer Stichprobe aus einer Population sind, in der die Mittelwerte zweier Variablen gleich sind. Zuvor wurde dagegen getestet, ob sich die Mittelwerte für zwei Gruppen einer Variablen unterschieden haben. Beispiele für gepaarte Stichproben sind die Untersuchung unterschiedlichen Heiratsalters von Ehegatten oder die Links-Rechts-Einstellung von Personen vor und nach einer Wahl. In letzterem Fall spricht man auch von einer Meßwiederholung an einer Stichprobe. Im Gegensatz zu den beiden vorangegangenen Beispielen handelt es sich hier nicht um eine unabhängige, sondern um eine abhängige Stichprobe. Für jeden Merkmalsträger in der Stichprobe gibt es einen dazugehörigen, abhängigen Partner, sei es der Ehepartner im Fall des Heiratsalters oder die Untersuchungsperson selbst im Fall der Meinungsumfrage vor und nach der Wahl. In einem solchen Fall beeinflussen sich die Werte der beiden Variablen gegenseitig. Das Heiratsalter ist eben nicht unabhängig von dem Alter des Partners. Ebenso wird die politische Einstellung nach einer Wahl nicht völlig losgelöst von der Einstellung vor der Wahl sein. Der t-Test für gepaarte Stichproben wird anhand von Daten aus dem ALLBUS 1996, der auf einer Zufallsauswahl für die gesamte Bevölkerung Deutschlands basiert, illustriert. Forschungsfrage soll sein, ob sich das Heiratsalter von Frauen von dem ihrer Ehemänner unterscheidet. Dazu wird das Alter von Ehepaaren verglichen. Im ALLBUS 1996 beträgt das durchschnittliche Alter der befragten verheirateten Frauen χ ρ = 46,98 Jahre bei einer Standardabweichung von Sp = 14,20. Das Durchschnittsalter ihrer Ehemänner beträgt χ m = 49,75 Jahre und die Standardabweichung SM = 14,09 (nF = nM = 1036 = Anzahl der Meßwertpaare). Die Arbeitshypothese lautet, daß Frauen bei ihrer Hochzeit jünger sind als Männer. Getestet wird die Nullhypothese, die keinen Unterschied beim Heiratsalter postuliert. Die Prüfgröße für gepaarte Untersuchungsgruppen (Gleichung 14.14) lautet:

t =

(χ,,-χ2ί)-(μ,-μ2)

beziehungsweise 14.14a. t = — — σ ρ A

Der Term (x n - x 2 ¡ ) ist der Durchschnitt der Differenz der Merkmalsausprägungen je-

328

STATISTIK FÜR POLITIKWISSENSCHAFTLER

des einzelnen Beobachtungspaares. In unserem Fall also das arithmetische Mittel der Differenz des Alters jeder Ehefrau und jedes Ehemannes, das heißt, es werden alle Meßwertpaare betrachtet, die sich in der Stichprobe befinden. Dies ist aber nichts anderes als die Differenz D zwischen den beiden Mittelwerten der beiden Variablen (Alter der Frau χ ι und Alter des Mannes χ 2), weshalb die Gleichung 14.14a. einfacher ist. Die Differenz (μ, - μ 2 ) gibt den Mittelwert des Altersunterschiedes in der Grundgesamtheit zwischen Frauen und Männern an. Nach der aufgestellten Nullhypothese ist dieser Ausdruck gleich 0 und kann deshalb weggelassen werden. Im Nenner der Gleichung 14.14. und 14.14a. steht wieder der Standardfehler. Er berechnet sich aus dem Quotienten der Standardabweichung der gepaarten Beobachtungen 30) kann man die kritischen z-Werte aus der Normalverteilungstabelle zur Überprüfung der Signifikanz heranziehen. Ist wie in dem vorliegenden Beispiel die Zahl der Paardifferenzen kleiner als 30, dann wird das Minimum der Rangsummen aus den positiven und negativen Differenzen zur Überprüfung verwendet. Dazu muß man eine Tabelle für den Wilcoxon-Test (siehe Hochstädter 1991: 653) benutzen. Ein Statistikprogramm gibt dagegen automatisch das Signifikanzniveau an, auf dessen Grundlage man entscheiden kann, ob die Nullhypothese zu verwerfen ist. Bei einem Signifikanzniveau von 5%, einer einseitigen Fragestellung und η = 24 beträgt der kritische Wert aus der WilcoxonTabelle zur Zurückweisung der Nullhypothese 91. Die Nullhypothese (Die Steuerreform hat das verfügbare Einkommen nicht verringert) wird verworfen, wenn gilt:

334

STATISTIK FÜR POLITIKWISSENSCHAFTLER

14.21.

R^ > R min ,

mit R kr = kritischer Wert der Rangsumme aus der Wilcoxon-Tabelle und R mln = Minimum aus den beiden Rangsummen R + und R". Das Minimum aus den beiden Rangsummen betrug für die positiven Paardifferenzen R + = 70,5. Da Rkr > R + (91 > 70,5) gilt, kann bei einer Irrtumswahrscheinlichkeit von 5% die Nullhypothese verworfen werden. Dies führt zur Annahme der Alternativhypothese. Als Ergebnis kann also den Auftraggebern der Untersuchung mitgeteilt werden, daß die Steuerreform das verfügbare Einkommen der Bevölkerung verringert hat. Dieses Resultat sollte für die Wahl eines geeigneten statistischen Tests sensibilisieren. Ein Vergleich der Mittelwerte führt zu dem Ergebnis, daß sich das Durchschnittseinkommen erhöht hat. Die Anwendung eines t-Tests kommt zu dem Schluß, daß sich das Durchschnittseinkommen nicht verändert hat, während das hier am besten geeignete Test verfahren, der Wilcoxon-Test, zu dem Befund führt, daß sich die Einkommen sogar verringert haben.

14.5.2. Der U-Test nach Mann-Whitney Voraussetzung für den U-Test nach Mann-Whitney ist, daß die Stichprobe durch eine Zufallsstichprobe gezogen wurde und daß die Werte für die untersuchte Variable in eine Rangordnung gebracht werden können. Der U-Test wird beim Vergleich zweier unabhängiger Stichproben verwendet und ist das verteilungsfreie Äquivalent zum t-Test, der die strenge Normalverteilungsannahme unterstellt. Zur Anwendung des U-Tests reichen bereits ordinalskalierte Daten. Zur Dlustration des U-Tests wurden (fiktiv) zwei Stichproben aus einer Grundgesamtheit gezogen. Dabei interessiert der Zusammenhang zwischen der Parteineigung und dem Vertrauen in die Zukunft. Beide Variablen werden in den Politbarometer-Umfragen der Forschungsgruppe Wahlen e.V. regelmäßig erhoben, allerdings ist die Variable für das Vertrauen in die Zukunft dort anders kodiert. In Tabelle 14.4. sind die Vertrauensmeßwerte, die von 0 (niedriges Vertrauen) bis 100 (hohes Vertrauen) reichen, für die Wähler von SPD und Grüne sowie der bürgerlichen Parteien CDU/CSU und FDP dargestellt. Arbeitshypothese ist, daß sich die Wähler linker Parteien und bürgerlicher Parteien hinsichtlich ihres Vertrauens in die Zukunft unterscheiden. Unsere Nullhypothese Ho ist deshalb ein zweiseitiger Test, der lediglich einen Unterschied zwischen beiden Variablen testet, ohne die Richtung anzugeben. Zuerst müssen beim U-Test die Werte für alle Merkmalsträger beider Stichproben in eine gemeinsa-

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

335

me Rangreihe gebracht werden. Der Person mit dem geringsten Optimismus (38 Punkte) wird der niedrigste Rangplatz zugewiesen. Diejenige mit dem größten Wert (81 Punkte) erhält den höchsten Rangplatz. Die Summe der Rangplätze für die Linksparteien (RL) und die bürgerlichen Parteien (RB) ist analog nach Gleichung 14.17. bestimmbar:

14.17.

R =

"(" + !)

=

o,5 (20*21) = R L + R B = 89 + 121 = 210.

Dabei ist η die Größe der Stichprobe (hier gleich 20). Von den 20 Untersuchungspersonen sind 8 Wähler der SPD und der Grünen sowie 12 Wähler der CDU/CSU und der FDP. Tabelle 14.4.: Parteineigung und Vertrauen in die Zukunft Wähler der SPD und Grüne Vertrauen in die Zukunft

Rangplatz

38 44 52 54 57 64 73 81

1 4 8 10 12 16 18 20

η= 8

R l = 89

Personen mit höheren Rangplätzen in der anderen Stichprobe 12 10 7 6 5 2 1 0

Σ = 43

Wähler der CDU/CSU und FDP Vertrauen in die Zukunft

40 41 48 49 50 53 56 58 61 62 72 74 n = 12

Rangplatz

2 3 5 6 7 9 11 13 14 15 17 19 R b =121

Personen mit höheren Rangplätzen in der anderen Stichprobe 7 7 6 6 6 5 4 3 3 3 2 1 Σ = 53

Als nächstes werden die beiden Prüfgrößen U und W bestimmt. Da beide eng miteinander zusammenhängen, wird nur U als Testgröße verwendet. Zur Bestimmung dieser Größe muß man auszählen, wie häufig höhere Rangplätze in der anderen Stichprobe auftreten. Die erste Person in der Stichprobe der Wähler der SPD und Grünen hat den Rangplatz 1. Daraus folgt, daß 12 andere Personen einen höheren Rangplatz in der zweiten Stichprobe mit den bürgerlichen Wählern haben (also alle Mitglieder dieser Stichprobe). Die zweite Person in dieser Stichprobe nimmt den Rangplatz 4 ein. In der anderen Stichprobe gibt es 10 Untersuchungspersonen mit einem höheren Rangplatz. Ein solcher Vergleich der Rangplätze zwischen beiden Stichproben ist für alle Untersuchungsfälle durchzuführen (vgl. Spalten 3 und 6 in Tabelle 14.4.). Die Summe der Rangplatzvergleiche für die erste Stichprobe ergibt die Prüfgröße U. Für große Stichproben wird ein solcher Vergleich schnell unübersichtlich. Mittels Gleichung 14.22. läßt sich U einfacher bestimmen.

336

STATISTIK FÜR POLITIKWISSENSCHAFTLER

14.22.

U=n,.n ι 2

2 +

^ t l ) - R , 1 => U = 8-12 + ^ ^ - 8 9 = 43 . 2 2

mit ni und 112 = Stichprobengrößen und R] = Rangplatzsumme für die erste Stichprobe (hier gleich R l ). Für W lautet die Beziehung ähnlich, nur nj und n2 werden vertauscht:

,4.23.

W = n,

2

2

=» W = 8·12 + ® ± 1 > _ 2

1 2 1 =

53 .

Als Kontrolle muß insgesamt gelten: U + W = ni · 112. Für große Stichproben, die Angaben für die Größe variieren hier in der Literatur (vgl. Bortz 1989; Hochstädter 1991; Schaich 1977), kann man eine standardnormalverteilte Prüfgröße ζ errechnen:

,4.24.

Ζ=

συ

Der Erwartungswert μυ, der bei statistischer Unabhängigkeit die gleich große Anzahl von U-Werten für beide Stichproben erwarten läßt, wird nach Gleichung 14.25. bestimmt (Schaich 1977: 250). Ist der empirische U-Wert gleich dem erwarteten U-Wert, bedeutet das, daß sich beide Stichproben hinsichtlich ihrer zentralen Tendenz nicht unterscheiden.

14.25.

μ

υ =

n, · n , 812 - Ι ^ =— =

48.

Als letzter Schritt ist der Standardfehler σ„ aus dem Nenner von 14.24. zu berechnen:

,4.26.

σ, ^ " r " ^ n

2 +

l ) ^ 8 . 1 2 ( 8 + 12 + l ) = 1 2 9 6

Mit den Informationen aus Tabelle 14.4. kann nun die z-Prüfgröße berechnet werden: 43-48 12,96

= -0,3858.

Die kritischen z-Werte für große η sind einer Standardnormalverteilungstabelle zu entnehmen (vgl. Anhangstabelle 1). Als Faustregel weiß man, daß bei einem zweiseitigen Test und einem Signifikanzniveau von 5% der kritische z-Wert ungefähr bei 2 liegt. Unser empirischer z-Wert liegt deutlich darunter, weshalb wir sogar ohne die Hinzuziehung einer Standardnormalverteilungstabelle entscheiden können, daß die Nullhypothese nicht verworfen

14. STATISCHE TESTVERFAHREN UND KONFIDENZINTERVALLE

337

wird, da der empirische z-Wert nicht signifikant ist. Wir entscheiden damit auf der Basis der beiden Stichproben, daß sich das Vertrauen in die Zukunft in der Wählerschaft linker und bürgerlicher Parteien nicht unterscheidet. Führt man diesen Test und Vergleich mit den exakten Daten des Politbarometerdatensatzes der Forschungsgruppe Wahlen zwischen SPD und CDU Wählern durch, so ergibt sich in der Tat kein signifikanter Unterschied in der Einschätzung der zukünftigen wirtschaftlichen Lage (als Indikator für das Vertrauen in die Zukunft). Zwei Probleme stellen sich beim U-Test nach Mann-Whitney: Zum einen sind kleine Stichprobenumfänge ein Problem, und andererseits können gebundene Ränge vorliegen. Für kleine Stichproben können die kritischen U-Werte, wie beim Wilcoxon-Test, aus einer eigenen Tabelle entnommen werden (vgl. Bortz 1989: 850f., Hochstädter 1991: 661). Ist der kritische U-Wert größer als der beobachtete U-Wert, dann muß die Nullhypothese verworfen werden. Für unser Beispiel, wo in der Tat nur kleine Stichproben gegeben sind, liegt der kritische U-Wert bei 22 und ist damit kleiner als der beobachtete, der 43 beträgt. Damit kann die Nullhypothese nicht verworfen werden. Gebundene Ränge treten auf, wenn eine eindeutige Rangplatzzuweisung nicht möglich ist und sich mehrere Untersuchungspersonen einen Rangplatz teilen. Für beide Spezialfälle gibt es Korrektur- und Lösungsverfahren (vgl. Bortz 1989: 180f.). Im praktischen Forschungseinsatz berücksichtigt das verwendete Softwareprogramm diese Probleme automatisch.

338

STATISTIK FÜR POLITIKWISSENSCHAFTLER

15. Die Darstellung quantitativer Informationen Viele Fachbücher weisen das Manko auf, daß sie keine Tabellen und Graphiken enthalten. Oftmals werden auf dutzenden von Seiten Informationen präsentiert, die in Tabellen einfacher, besser, schneller und übersichtlicher präsentiert werden könnten. Man könnte sich die trockene Lektüre ersparen, wenn der Autor seine Informationen ansprechender präsentieren würde. Neben Tabellen lassen sich quantitative Informationen in Graphiken und Schaubildern darstellen. Und diese können mitunter ganze Geschichten erzählen, wenn sie gut gemacht sind. Graphiken geben den Blick auf die Daten frei. Hierbei sind sie Tabellen überlegen, wie das folgende Beispiel zeigt. In Tabelle 15.1. sind insgesamt 8 Datenreihen für 4 Zusammenhänge dargestellt (Anscombe 1973; Tufte 1983: 13). Dabei sind die X-Variablen die unabhängigen Variablen. Für die ersten drei Zusammenhänge sind die Werte für X gleich. Die abhängige Variable wird mit Y bezeichnet. Für alle vier Zusammenhänge sind jeweils die arithmetischen Mittel der X- und Y-Variablen, deren Standardabweichung, die Stärke des Zusammenhangs gemessen durch den Pearson Korrelationskoeffizienten r (r = 0,82), die Regressionsgeraden (Achsenabschnitt und Steigung) sowie die t-Statistiken bis auf mindestens zwei Nachkommastellen identisch. Auf Basis dieser Statistiken könnte man sagen, daß es eine starke lineare Beziehung zwischen X und Y gibt. Tabelle 15.1.: Daten für vier „gleich starke" Zusammenhänge Zusammenhang 1 RIX

R1Y

Zusammenhang 2 R2X

R2Y

Zusammenhang 3 R3X

R3Y

Zusammenhang 4 R4X

R4Y

10,0

8,04

10,0

9,14

10,0

7,46

8,0

8,0

6,95

8,0

8,14

8,0

6,77

8,0

5,76

13,0

7,58

13,0

8,74

13,0

12,74

8,0

7,71 8,84

6,58

9,0

8,81

9,0

8,77

9,0

7,11

8,0

11,0

8,33

11,0

9,26

11,0

7,81

8,0

8,47

14,0

9,96

14,0

8,10

14,0

8,84

8,0

7,04

6,0

7,24

6,0

6,13

6,0

6,08

8,0

5,25

4,0

4,26

4,0

3,10

4,0

5,39

19,0

12,50

12,0

10,84

12,0

9,13

12,0

8,15

8,0

5,56

7,0

4,82

7,0

7,26

7,0

6,42

8,0

7,91

5,0

5,68

5,0

4,74

5,0

5,73

8,0

6,89

Anmerkungen: Für alle vier Zusammenhänge gelten folgende Statistiken: n = 11, X =9,0, Y = 7 , 5 0 , 5 , = 3,317, Sy = 2,03, Pearson's r = 0,82. Die Regressionsgleichung lautet für alle vier Zusammenhänge gleich: Y = 3,00 0,50 X; R2 = 0,82, t- Statistik 4,24. Quelle: Anscombe 1973.

1 5 . D I E D A R S T E L L U N G QUANTITATIVER INFORMATIONEN

339

Obwohl die Daten durch dasselbe lineare Modell beschrieben werden können, sind die Zusammenhänge bei weitem nicht identisch, wie die Streudiagramme in Abbildung 15.1. zeigen. Der erste Zusammenhang gibt wohl am ehesten die funktionale Beziehung wieder, der bei solchen statistischen Kennzahlen zu erwarten (und zu erhoffen) wäre. Die zweite Beziehung ist eindeutig kurvilinear, während der dritte Zusammenhang, bis auf den Ausreißer, eine perfekte lineare Beziehung beschreibt. Beim vierten Streudiagramm kommt die Regressionsgerade nur durch den weit außen liegenden Extremwert zustande. Ohne diesen Wert könnte kein Korrelationskoeffizient berechnet werden, da X eine Konstante wäre.

Abbildung 15.1.: Streudiagramme für vier „gleich starke" Zusammenhänge

Anmerkung: Daten siehe Tabelle 15.1. Der Determinationskoeffizient

ist in allen vier Fällen R2 = 0,67.

Die Gestaltung von guten Graphiken birgt viele Fallen. Für graphische Brillianz gibt es verschiedene Faustregeln, Hinweise und Indikatoren, die die Gestaltung erleichtern sollen. Dank moderner Computertechnologie und leistungsfähiger Software, wie EXCEL, COREL DRAW oder HARVARD GRAPHICS ist es leicht, Schaubilder zu erstellen. Die folgenden Hinweise und Ausführungen beruhen auf einer Reihe von Büchern und Aufsätzen, die sich mit der graphischen Darstellung von Zahlen intensiv beschäftigen (Abels 1981; Huff 1954; Krämer 1994a; Krämer 1995; Monmonier 1996; Schmid 1983; Tufte 1983; Tufte 1990; Wai-

340

STATISTIK FÜR POLITIKWISSENSCHAFTLER

ner 1984; Wainer 1997; Wallgren et al. 1996; Zelazny 1992). Ein Buch sticht allerdings aus dieser Reihe guter Veröffentlichungen hervor, nämlich Edward Tuftes (1983) „The Visual Display of Quantitative Information". Tufte, selbst übrigens Politikwissenschaftler in Yale, hat mit seinem Werk alle nachfolgenden Bücher über Schaubilder und Graphiken beeinflußt. Sogar im Internet sind seine Beispiele (http://www.math.yorku.ca/SCS/Gallery/) für gute und schlechte Schaubilder zu sehen. Abbildung 15.2.: Minards Graphik des Rußland Feldzuges von Napoleon (Park ¿tu]unitwv »M'fMtú. U

l'i— *—.. —

mum

ακΜφΜ*φ·

Quelle: Tufte, Edward: The Visual Display of Quantitative

Information

( Tufte 1983: 176)

A u f Platz 1 der ewigen Bestenliste, so zumindest Tufte (1983: 40) und Wainer (1984: 146), der diese Abbildung als „World's Champion Graph" bezeichnet, kommt eine Graphik von Charles Joseph Minard aus dem Jahr 1861 (vgl. Abbildung 15.2.). Minard, ein französischer Ingenieur, hat in dieser Graphik die ganze Geschichte und Tragödie von Napoleons Rußlandfeldzug (1812-1813) verarbeitet. Ursprünglich war die Graphik zweifarbig. Der Hinweg nach Moskau war beige unterlegt, der Rückzug schwarz. Ausgangspunkt des Feldzuges war der Fluß Njemen, als die „Große Armee" noch 422.000 Soldaten umfaßte. Die Breite der Bänder zeigt dabei die Truppenstärke an. Man sieht, wie die Armee durch Flankenschutz und Schlachten (bei Smolensk) kontinuierlich abnahm, bis sie mit 100.000 Mann Moskau erreichte. Anfang Oktober zog sich Napoleon zurück, nachdem die Russen Moskau, das er als Winterquartier auserkoren hatte, in Brand gesetzt hatten. Schließlich kommt die Armee mit 10.000 Mann in Polen an. Insgesamt sind sechs Variablen in dieser Graphik dargestellt: die Stärke der Armee, die Marschrichtung und ihre jeweilige Position im zweidimensionalen

15. DIE DARSTELLUNG QUANTITATIVER INFORMATIONEN

341

Raum, das Datum und die Temperatur auf dem Rückzug. Außerdem gibt die Graphik noch einschneidende Ereignisse wie den Übergang über die Berezina an. Diese Graphik sagt mehr als 1000 Worte. Nach diesem graphischen „Highlight" sollen zunächst drei quantitative Kriterien vorgestellt werden, die es ermöglichen, die Güte von Schaubildern zu beurteilen. Das erste Kriterium ist die sogenannte Data-Ink-Ratio, die das Verhältnis von Datentinte zur gesamten Tinte im Schaubild angibt (Tufte 1983: 93).

15.1.

Tinte zur Datendarstellung Data-Ink-Ratio = Gesamte Tinte der Graphikdarstellung Auf dem ersten Blick wirkt diese Verhältniszahl merkwürdig. Aber diese Relation macht

durchaus Sinn, denn sie mißt den Anteil von Tinte an der Graphik, der für nichtüberflüssige Datendarstellung verwendet wird. Je kleiner dieses Verhältnis, desto größer ist der Anteil der Graphik, der ohne einen Informationsverlust gelöscht werden kann. Beträgt die Data-InkRatio eins, dann gibt es keine redundanten Informationen, die gelöscht werden können. Niedrige Data-Ink-Verhältnisse sind also ein Indikator für schlechte Graphiken. Ziel einer Graphikdarstellung ist es, möglichst viele Daten schnell, genau, verständlich und eingängig zu zeigen. Niedrige Data-Ink-Ratios verstecken die Daten hinter überflüssigem Beiwerk wie Gitterlinien, verschnörkelten Verzierungen

und sonstigem

Graphikmüll

(chartjunk), der nichts zur eigentlichen Darstellung beiträgt. Chartjunk, ein Begriff, den Tufte geprägt hat, beinhaltet alles, was nicht zur Datendarstellung notwendig ist. In Abbildung 15.3. sind es die eingefügten Cliparts der gut gefüllten Biergläser, die zwar beim Betrachter Durst erwecken, aber nichts zur Erklärung des Schaubildes beitragen. Auch die Gitterlinien sind überflüssig, da der exakte Marktanteil für jeden Balken berichtet wird. Solch abkömmliches Beiwerk findet man häufig in Tageszeitungen, Zeitschriften und Geschäftsberichten von Unternehmen. Dabei besteht manchmal die Funktion der Graphik in solchen Medien weniger in der ungeschminkten Darstellung und Erklärung, sondern in der Selbstdarstellung und der Auflockerung des Textes. Unter Marketing-Aspekten mag dies legitim sein, aber in wissenschaftlichen Abhandlungen sollte man darauf verzichten.

342

STATISTIK FÜR P O L I T I K W I S S E N S C H A F T L E R

Abbildung 15.3.: Biersorten in Deutschland

Quelle: Handelsblau

vom 24.3.1998,

S. 18.

Abbildung 15.3. birgt noch ein anderes Problem: In der Mitte der Ordinate wird ein Teil der Skala verkürzt. Dies fällt auf den ersten Blick gar nicht auf. Für 1982 hat es dadurch aber den Anschein, daß der Exportabsatz nicht sehr weit vom Pilsabsatz entfernt ist. Durch die Veränderung der Skalierung werden große Differenzen auf diese Weise kleiner dargestellt. Dadurch können Wachstums- und Schrumpfungsprozesse überzeichnet werden. Das DataInk-Verhältnis der Abbildung ist überdies gering: für 20 Datenpunkte wird viel Tinte in den verschiedensten Grau-Tönen verwendet. Selbst der gesamte Graphikhintergrund ist unterlegt. Ein weiteres Phänomen bei graphischen Darstellungen liegt darin, daß man über das Auge getäuscht werden kann. Eine Graphik verzerrt nicht die optische Darstellung, wenn sie mit den Zahlen übereinstimmt. Insbesondere bei Piktogrammen, also Schaubildern, bei denen Symbole (z.B. Geldscheine, Ölfässer, Personensymbole) als graphische Elemente verwendet werden, kann es zu Verzerrungen kommen, wenn nicht eindeutig ist, ob man Abstände (Längen), Flächen oder Volumen betrachtet. Flächen oder Volumina sollten nur dann verwendet werden, wenn die Vergleichsgrößen tatsächlich auch Flächen, wie bei Landesgrößen, oder Volumina (z.B. Gefäße) sind. Zudem gibt es Versuche, die gezeigt haben, daß Größenunterschiede vielfach falsch eingeschätzt werden (Krämer 1994a: 115f)· Daher sollten Daten in der Graphik proportional zu ihrer Größe dargestellt werden. Verletzungen dieser Proportionalitätserfordernis mißt Tufte (1983: 57) mit dem sogenannten „Lie Factor" (= Lügenfaktor), der die Verzerrung in der Wahrnehmung der Graphik angibt. Der Lie Factor, oder neutraler Verzerrungsfaktor, gibt das Verhältnis zwischen dem Effekt in der Graphik und dem Effekt in den Daten an.

15. DIE DARSTELLUNG QUANTITATIVER INFORMATIONEN

15.2.

Verzerrungsfaktor ( V F )

=

343

Größeneffekt, der in der Graphik dargestellt wird tatsächlicher Effekt in den Daten

Die Abbildung 15.4., die einem Einführungsbuch in das Regierungssystem der B R D entnommen wurde (Adam 1995: 170), verdeutlicht den Punkt. Für 18 Länder sind die Schuldenquoten mittels Piktogrammen (Kugeln, die wohl die „Last der Verschuldung" repräsentieren sollen), dargestellt. Der Leser hat drei verschiedene Möglichkeiten, die tatsächlichen Schuldengrößen - und damit die Schuldenrelationen - mit dem Auge wahrzunehmen: •

über die Höhe der Kugel,



über die Fläche der Kugel oder



über das Volumen der Kugel.

Abbildung 15.4.: Piktogramm der Staatsschulden 1994 Belgien

Quelle:

Adam (1995:

Staats-Schulden

Öffentliche Verschuldung 1994 In % des Bruttoinlandsprodukts

170).

Abgesehen von dem Chartjunk, wie die spiegelnden Flaggen und die Gliederketten, die nichts zur Erklärung beitragen, kann man nun unterschiedliche Verzerrungsfaktoren für das Schaubild berechnen, j e nachdem wie man die Verhältnisse optisch wahrnimmt. Dazu werden entsprechend der Gleichung 15.2. die jeweiligen Darstellungsverhältnisse in Relation zum Zahlenverhältnis gesetzt. Für das Jahr 1994 war die Staatsschuldenquote in Prozent des BIP in Belgien rund dreimal so groß wie in Norwegen. Nimmt man das Verhältnis über die Kugelhöhe wahr, so wird die Verschuldungsrelation zwischen Belgien und Norwegen zu gering ausgewiesen. Ein Flächenvergleich weist in etwa beide Relationen proportional und damit korrekt aus (die kleine Ungenauigkeit ist wohl auf Meß- und Rundungsfehler zurückzuführen). Ver-

344

STATISTIK FÜR POLITIKWISSENSCHAFTLER

gleicht man die Volumina der Kugeln, so hat man einen Verzerrungsfaktor von 1,69. Das heißt, die Verschuldung von Belgien wird knapp 70 Prozent zu hoch ausgewiesen. Ein hoher Verzerrungsfaktor manipuliert die Wahrnehmung des Graphikkonsumenten. Außerdem ist im vorliegenden Fall die Art der Darstellung schlecht gewählt. Insbesondere ist neben dem Chartjunk und dem Verzerrungsfaktor noch der Wechsel der Leserichtung hinderlich. Die typische Leserichtung ist von links nach rechts, die in diesem Schaubild jedoch zweimal geändert wird. Auch die Fallbeschriftung ist suboptimal, mal werden die Kugeln oberhalb, mal unterhalb und mal rechts beschriftet. Um eine Rangfolge überzeugend zu präsentieren ist ein (sortiertes) Balkendiagramm viel geeigneter. Tabelle 15.2.: Verzerrungsfaktoren im Vergleich Land

Belgien

tatsächliche

H ö h e der K u g e l im

Schuldenquote

Original 1,90 cm

2,835 c m 2

3,591 cm,3

48

1,10cm

0,950 c m 2

0,697 cm 3

1,73

2,98

5,15

0,56

0,98

1,69

Verhältnis

3,04

Verzerrungsfaktor Berechnet

V o l u m e n der Kugel

146

Norwegen

Anmerkung:

Fläche der Kugel

-

aus Abbildung

15.4.

Das dritte Gütekriterium für Graphiken ist die Datendichte einer Graphik, die das Verhältnis der Daten in der Datenmatrix zur Fläche der Graphik angibt.

15.3.

Datendichte =

Zahl der Einträge in der Datenmatrix — - — — — — Fläche der Graphik m cm 2

Je niedriger die Datendichte, desto geringer ist der Informationstransfer. Für das Biersortenbeispiel (Abbildung 15.3) hat die Datenmatrix 24 Einträge. Die Originalgröße der Abbildung im Handelsblatt betrug 15,5 cm · 11,7 cm = 181,35 cm 2 , woraus sich eine Datendichte von 0,13 Datenpunkte pro Quadratzentimeter ergibt. Dies ist nicht viel. Tufte hat 21 Zeitschriften, Fachpublikationen und Zeitungen aus verschiedenen Ländern hinsichtlich ihrer Datendichte ausgewertet (Tufte 1983: 167). Die niedrigste Datendichte wies die russische Prawda auf, gefolgt von der American Political Science Review ( A P S R ) , der führenden politikwissenschaftlichen Zeitschrift in den U S A . Beide hatten eine Datendichte von weniger als 1 pro cm 2 . An der Spitze lag die Zeitschrift Nature, gefolgt von dem Journal of the Royal Statistical Society. Aber auch Tageszeitungen, wie die Times und das Wall Street Journal lagen in der Spitzengruppe. Allerdings sollten die Graphiken - trotz der Prämisse, die Datendichte zu maximieren - nicht überfrachtet werden.

345

15. DIE DARSTELLUNG QUANTITATIVER INFORMATIONEN

Welcher Schaubildtyp ist zu wählen? Die Beantwortung dieser Frage hängt von der Fragestellung und der Art des Vergleichs ab, den man durchführen möchte. Für jeden Vergleichstyp sind unterschiedliche graphische Instrumente geeignet. Tabelle 15.3. gibt typische Beispiele für die einzelnen Vergleichsarten an. Die fünf wichtigsten Vergleichsarten sind nach Zelazny (1992): Strukturvergleich, Rangfolgenvergleich, Zeitreihenvergleich, Häufigkeitsvergleich und der Vergleich von Zusammenhängen (Korrelationsvergleich).

Tabelle 15.3.: Typologie von Vergleichsarten Beispiel

Vergleichsart (Instrumente) sowie Fragestellung 1. Strukturvergleich (Kreis und Stab) Welcher Prozentsatz der Stimmen (oder Anteil) entfällt auf Partei X? Bei einem Strukturvergleich will man wissen, welchen Anteil ein Merkmalsträger an einer Gesamtheit aufbringt. Beispiel: Anteil der Zweitstimmen in der Bundestagswahl 1987.

2. Rangfolgenvergleich (Balkendiagramm) Welche Industrienation hat die höchste/niedrigste Sozialleistungsquote? Der Rangfolgenvergleich ermöglicht Aussagen über die Position eines Merkmalsträgers (z.B. eines Landes) gegenüber allen anderen Merkmalsträgern der Vergleichsgruppe. Es sind Aussagen darüber möglich, ob

Japan USA Portugal Australien Griechenlani Kanada Irland Schweiz Spanien Neuseelanc jroßbriiannien Italien Österreich Belgien

ein Land eine gleich große, eine größere oder kleinere

Norwegen

Sozialleistungsquote als ein anderes aufweist.

Dänemark

15 1 IÍ

1

IS ι 16 1 17 1 20

.1 1 23 1 23 1 25

1 25 1 27 1 27 I 27 1 29 1 30 1

Schweden 0

10

20

30

Sozialieisiungsqunie in Prozent ties BIP

3. Zeitreihenvergleich (Linien und Säulen) Wie häufig wurde in der Schweiz seit 1848 in jedem Jahr direkt vom Volk abgestimmt? Bei einem Zeitreihenvergleich ist die Entwicklung über die Zeit interessant und nicht die Rangfolge der Häufigkeiten. Anhand von Zeitreihen kann man Wachstums-, Veränderungsprozesse und Schwankungen beobachten. Im Beispielschaubild ist die Entwicklung der Abstimmungshäufigkeit im Zeitraum von 1848 bis 1996 in der Schweiz dargestellt. Besonders der Anstieg nach 1968 ist gut sichtbar.

41)

346

STATISTIK FÜR POLITIKWISSENSCHAFTLER

4. Häufigkeitsvergleich (Histogramm. Säulen. Kurve) Wie sieht die Einkommensverteilung in der BRD (alte Länder) 1996 auf der Basis einer Stichprobenumfrage (ALLBUS) aus? Häufigkeitsverteilungen geben an, wie oft (oder selten) ein Ereignis auftritt. Bei Häufigkeitsverteilungen können die Besetzungszahlen der Größenklassen (z.B. bei einer Einkommensverteilung) verglichen werden. Man

1500

erhält einen schnellen Überblick über die (linkssteile)

.34

leistungsquoten und der Einkommensungleichheit in

32

westlichen Industrienationen?

.30

Bei einem Vergleich zweier Variablen wird die Bezie-

.28

negative oder keine Korrelation vor. Hier: Je höher die Sozialausgaben eines Landes, desto geringer ist die Einkommensungleichheit.

7500

9500

11500 13500

Einkommensuiiglgichheit (GinO

5. Korrelationsvergleich (Streudiagramm. Balken)

hung zwischen ihnen betrachtet. Liegt eine positive,

5500

Haushaltsnettoeinkommen in DM

Verteilung.

Wie stark ist der Zusammenhang zwischen den Sozial-

3500

· · '

* »

.26.

•24 •M. 10

* .. · .' 20

' 30

40

Sozialleistungsquote 1990 Das Kreisdiagramm ist eine eher schlechte Darstellungsform, wenn man die Indikatoren Data-Ink-Ratio und Datendichte berücksichtigt. Man sollte die „Torte" nicht in zu viele Tortenstücke aufteilen. Fünf bis sechs Stücke reichen aus. Man kann ja viele kleine Segmente in eine Residualkategorie „Sonstige" zusammenfassen. Der wichtigste Sektor sollte auf „12 Uhr" angeordnet sein und außerdem die hervorstechendste Schraffur erhalten. Überhaupt sind Schraffuren nicht ohne Schwierigkeiten. Viele Softwareprogramme bieten zahlreiche Schraffurtypen an, die aber störend und verzerrend wirken können, bis hin zu einem Auslösen von Flimmereffekten. Für Vergleichszwecke sind Kreisdiagramme schlecht geeignet. Viele Tortendiagramme nebeneinander können verwirrend sein, besonders wenn einzelne Teilsegmente weiter aufgeschlüsselt werden. Balkendiagramme eignen sich gut für Rangordnungsvergleiche. Dazu sollten die Balken nach einem sinnvollen Ordnungskriterium sortiert sein, damit man schnell erfaßt, wer an der Spitze und wer am Ende der jeweiligen Skala liegt. Abbildung 15.5., die die Zinslasten der alten Bundesländer darstellt, wurde einem kleinen Informationsbändchen zur Staatsverschuldung entnommen (Sturm 1993: 50), gibt ein (negatives) Beispiel für eine verwirrende Anordnung (Abbildung 15.5.). Das Bundesland mit der größten Zinslast (Saarland) liegt in der Mitte des Schaubildes. Dann geht es alternierend in der Anordnung nach links (Bremen) und rechts (Nordrhein-Westfalen) weiter. Spätestens nach dem dritten Hin- und Her hat man völlig den

15. D I E D A R S T E L L U N G Q U A N T I T A T I V E R I N F O R M A T I O N E N

347

Überblick verloren. Abbildung 15.5.: Zinslast der Bundesländer

Zinslast der Länder Zinsatsgalain fc * fa gemuteti Alegaban (ritt Btffldesttndor)

Quelle: Sturm (1993: 50).

Die Graphik weist darüber hinaus noch einige andere Fehler auf, die zur Verzerrung der tatsächlichen Größenverhältnisse führen. Neben dem vielen Chartjunk gibt es außerdem in der Graphik keine gemeinsame Grundlinie. Der Zeichner piazierte die Balken auf einem Brett, das sich wohl ob der hohen Zinslast durchbiegen soll. Zunächst einmal hat eine solche Spielerei nichts in einem Schaubild verloren, da dies ja eine implizite politische Wertung darstellt. Zweitens können die Balkenhöhen nicht mehr als zuverlässiger Vergleichsmaßstab herangezogen werden. Das Niveau der oberen Balkengrenze von Bayern liegt oberhalb der Balkengrenze von Nordrhein-Westfalen, obwohl Bayern tatsächlich eine weniger als halb so große Zinslast zu tragen hat! Auch Hamburg scheint eine größere Zinslast als das eigentlich schlechter gestellte Rheinland-Pfalz zu haben. Das fünfte Problem neben der verwirrenden Reihenfolge, dem Chartjunk, der falschen Grundlinie und den unklaren Balkenhöhen, ist in dieser Graphik die fehlende dritte Dimension, die durch die Daten nicht gegeben ist. Zeigen Sie nie, daß Sie einen 3-D-Knopf in einem Computerprogramm drücken können, wenn nicht tatsächlich eine dritte Dimension vorhanden ist! Zu dieser Leistung ist wahrlich jeder fähig. Manchmal hat man den Eindruck, daß nur das vermeintlich gute Graphikdesign und die Leistungsfähigkeit des PC's gezeigt werden sollen. Zu guter Letzt schafft es der Zeichner noch, dem Leser drei verschiedene Perspektiven anzubieten: Für das Saarland die Frontalperspektive, sowie Blickwinkel von links und von rechts. Falls „geschickt" eingesetzt können solche

348

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Perspektivenwechsel Größenverhältnisse und Wachstumsprozesse überzeichnen (Tufte 1983:

Abbildung 15.6.: Wachstumsverzerrung bei Flächendiagrammen 8,0T

7,0· 6,0 1

5.0 4,0·

Abbildung a (TI bis T5 sind unterschiedliche



3.0·

¡UBR

2,0·

IWF1 I BSäPl T5

1,0 0,0 Τ

Zeitpunkte)

Abbildung b Entwicklung von Fläche 4 (F4) mit konstanter Grundlinie

Linien- oder Kurvendiagramme erhalten stets gute Kritiken, wenn es um ihre Eignung als graphisches Darstellungsinstrument geht. Die Entwicklungstendenzen von einer oder mehreren Variablen über viele Dekaden hin darzustellen, erspart viel Textlektüre und prägt sich den meisten Betrachtern visuell gut ein. Zeitreihen lassen sich auch mit Säulen darstellen. Für lange Zeiträume sind aber Linien (Kurven) besser geeignet. In Zeitreihen sollten Geldgrößen in deflationierter und standardisierter Form, z. B. inflationsbereinigt oder auf die Bevölkerung gewichtet, dargestellt werden. Nominale Einheiten sind zu vermeiden. Bei Liniendarstellungen hat man zwei Möglichkeiten, den Trend darzustellen, einmal nur die Linien und ein anderes Mal als Flächendiagramm, bei dem die Flächen unterhalb der Kurve schraffiert werden. Sind in einem Liniendiagramm mehrere Kurven übereinandergelagert, ist darauf zu achten, daß die Graphik nicht zu einem „Spaghetti-Diagramm" wird. Gleiches gilt für das Flächendiagramm, denn zuviele Flächen mit unterschiedlichen Schattierungen und Muster wirken verwirrend. Problematisch ist außerdem, daß ein solches Flächendiagramm, das aus unterschiedlichen Komponenten zusammengesetzt ist, nur für ein Segment eine konstante Basislinie aufweist. Schaubild 15.6. zeigt beispielsweise die Entwicklung von vier verschiedenen Zeitreihen, deren Flächen kumulativ übereinander abgebildet sind. Am sinnvollsten ist es, das größte Segment unten zu piazieren. Durch die Aufschichtung der einzelnen Segmente können jedoch Wachstumsprozesse überzeichnet werden, wie die Gegenüberstellung der Gesamtentwicklung der Summe aller vier Flächen (Abbildung a) mit der letzten Fläche F4 (Abbildung b)

1S. D I E DARSTELLUNG QUANTITATIVER INFORMATIONEN

349

zeigt. Im ersten Fall scheint es so, daß die Kurve, die durch F4 repräsentiert wird, stark ansteigt. Tatsächlich verläuft sie annähernd konstant. Abbildung 15.7.: Die Ausdehnung der Sozialversicherung IX IM

110 !00 M

80 70 60

50

to η ?o w

Quelle: Flora, Alber und Kohl (1977: 738)

Abbildung 15.7., die einem der wichtigsten Aufsätze zur vergleichenden Wohlfahrtsstaatsforschung entnommen wurde, zeigt ein Liniendiagramm (Flora et al. 1977: 738) auf dem kaum etwas sinnvolles zu erkennen ist. Das Schaubild enthält 13 Linien (12 Länderlinien und eine Durchschnittslinie). Davon haben sieben der so abgebildeten Länder die gleiche Linienart und die gleiche Linienstärke, wobei sich die Kurven teilweise überschneiden. Lediglich der Durchschnittstrend ist eindeutig identifizierbar. Damit nicht genug, denn auch die Skalierung ist mißverständlich. Die Autoren sprechen vom Ausdehnungsgrad der Sozialversicherung, wobei sie den Index nur kurz im Text erklären. Dieser Index wird berechnet „aus einem gewichteten Durchschnitt der erfaßten Bevölkerung in allen vier (Sozialversicherungs- U.W.) Systemen (Jeweils gemessen als prozentualer Anteil der Erwerbsbevölkerung)" (Flora et al. 1977: 735). Die genaue Berechnung wird jedoch nicht dargestellt, so daß der unzureichend informierte Leser davon ausgehen muß, daß es sich um den Deckungsgrad der erfaßten Bevölkerung handelt. Allerdings kann es dann nicht sein, daß dieser Index dann Werte über 100% annimmt, wie für Norwegen, Schweden und einige andere Länder. Schließlich ist das

350

S T A T I S T I K FÜR P O L I T I K W I S S E N S C H A F T L E R

Format des Schaubildes schlecht gewählt. In dem Schaubild wird die Entwicklung der Sozialversicherungssysteme über knapp 100 Jahre dargestellt. Anstatt das Diagramm querformatig zu zeichnen, wurtle ein Hochformat gewählt. Gerade Trendverläufe sollten jedoch im Querformat präsentiert werden. Generell sollte das Format eines Diagrammes dem sogenannten „goldenen Schnitt" („Golden Rectangle") entsprechen. Graphiken nach diesem Format sind besonders ästhetisch, so Tufte (1983: 189). Dabei gilt, daß sich die Höhe (a) zur Breite (b) verhält wie die Breite (b) zur Summe aus Breite (b) und Höhe (a): a b Goldener Schnitt : — = b a+b

15.4.

,

mit a = Höhe der Graphik und b = Breite der Graphik. Löst man die Gleichung nach b auf, dann erhält man für a = 1 eine Breite von b = 1,62. Graphiken sollten also rund 1,6 mal breiter als hoch sein, um besonders lesefreundlich zu wirken. Die Mehrzahl aller Schaubilder folgen wohl auch diesem Größenverhältnis. Die Abbildung 15.7. weist dagegen ein Größenverhältnis von 1 : 0,733 auf. Um ein Format entsprechend des goldenen Schnitts zu haben, müßte die Abbildung um mehr als 220 Prozent breiter sein. Gerade bei Trenddarstellungen sollte deswegen auf ein Format geachtet werden, bei dem die Breite größer als die Höhe ist. Abbildung 15.8.: Alters- und Wohnstruktur Österreichs uvuui IB— jahrgOnç

männlich

. ,M Lebensjahr«,

Vigour jtfirgang

weibßch

1000

1*10

1993 IBM

isso

b Gefatene des 2. Weltkrieges

IBM

c

IBM

tum

d Getxjrtenousfat in der Wirtschaftskrise Oer 50er J&re

»το

e Gebtjrtenauafcä Ende des

G*t»*-tonausfai im und nach dem l Waltkrieg

2.

Weitkrieges

f Bóbybocm der frühen Sechzigerjahre IMO ι · ι 80 000 «OOOO

1 40 000 Personen

1 • 20 000

ι

0

ι

0

ι 20000

1 » 40 000 Personen

ι 00 000

Quelle: Österreichisches Statistisches Zentralamt (1995: 45)

1 BO 000

I S . DIE DARSTELLUNG QUANTITATIVER INFORMATIONEN

351

Für Häufigkeitsvergleiche kann man nicht nur Histogramme verwenden, sondern auch Säulen und Häufigkeitspolygone (d.h. Kurven, vgl. Kapitel 6). Eine klare Anordnung von Säulen und Beschriftung, wie in Bevölkerungspyramiden (vgl. Abbildung 15.8.), vermittelt ein plastisches Bild der Bevölkerungsentwicklung in Österreich in diesem Jahrhundert, die mit politischen und sozioökonomischen Ereignissen verbunden ist. Insgesamt sind hier drei Variablen dargestellt: die Anzahl der Personen, das Geschlecht und der Geburtsjahrgang, was ein hohes Qualitätsmerkmal ist. Die Gegenüberstellung von Säulen ist zudem ein mächtiges Instrument, um Zusammenhänge zwischen den einzelnen Kategorien einer Variable zu identifizieren. Für metrischskalierte Daten sollte man ein Streudiagramm verwenden, während sich für nominale und kategoriale Daten Säulendiagramme anbieten. Abbildung 15.9. zeigt die Ergebnisse einer Umfrage, die der Verfasser (und die Teilnehmer seines Statistikkurses) 1995 im Auftrag der Kirchengemeinden Gaiberg/Waldhilsbach, zweier Gemeinden in der Nähe von Heidelberg, durchführte. Eine Frage lautete: „Ist die Kirchenrenovierung in Gaiberg notwendig?". Das Säulendiagramm stellt nun die Prozentverteilungen für die jeweiligen Antwortmöglichkeiten in den beiden Ortschaften dar. Zwar gab es insgesamt eine deutliche Zustimmung für die Kirchenrenovierung, was allerdings daran lag, daß Gaiberg das größere Dorf war, doch die Differenzierung nach Antwortkategorien und Ortschaften (siehe Abbildung 15.8.) enthüllt einen starken Lokalpatriotismus, der im wahrsten Sinne des Wortes „Kirchturmpolitik" widerspiegelt. Abbildung 15.9.: Ist die Kirchenrenovierung in Gaiberg notwendig? Waldhilsbach

Gaiberg

Nicht unbedingt

Gar nicht

Prozent

100

75

50

25

0

25

50

75

100

Anmerkungen: Dargestellt sind die Prozentanteile für die drei Antwortkategorien. Quelle: Fremde Heimat Kirche? Ansichten ihrer Mitglieder in Gaiberg und Waldhilsbach, Ergebnisse der Umfrage (April 1995).

352

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Einer weiteren Manipulation kann man aufsitzen, wenn Zeitreihen nicht adäquat dargestellt sind. Dazu gehört die bewußte Veränderung der Skalierungen der Ordinate und der Abszisse sowie das „Herausschneiden" von Teilen der Achsen. Ferner kann ein und dieselbe Datenreihe auch unterschiedlich gezeigt werden. Staucht man die X-Achse (Abszisse), dann werden Wachstumsprozesse „dynamischer". Vergrößert man die X-Achse, werden die Kurven flacher. Verlängert man die Darstellung auf der Y-Achse (Ordinate), dann werden Entwicklungstrends nicht so stark dargestellt, wie bei einer Verkürzung der Skala.

Abbildung 15.10.: Die Entwicklung des Pro-Kopf-Volkseinkommens (in Dollar) in der Schweiz und Portugal Dollar

30000

10000

Portugal

1976 1978 1980 1982 1984 1986 1988 1990 1992 1994

1976

1978

1980

1982

1984

1986

191

1990

1992

1994

1990

1992

1994

Abbildung b Abbildung a i6Q

Aus^anpsniveau = 100%

200

Ausgangsniveau = 100%

>80. 160.

140. 120.

loo

80. 60 40.

20 0 1976

1978

1980

1982

1984

1986

Abbildung c

1988

1990

1992

1994

1976

1978

1980

1982

1984

1986

Abbildung d

Abbildung 15.10. zeigt vier verschiedene Trendkurven, die aus den selben Daten berechnet wurden. In Abbildung a sind die Niveaus der Volkseinkommen pro Kopf (in Dollar; Maddison 1995) der Schweiz und Portugal im Vergleich dargestellt. Man sieht, die Schweizer haben die reichere Volkswirtschaft. Die absolute Differenz in Dollar ist allerdings dabei nicht

1 5 . D I E DARSTELLUNG QUANTITATIVER INFORMATIONEN

353

kleiner geworden. Jedoch hat sich der relative Abstand des pro Kopf Volkseinkommens (also das Verhältnis der Niveaus) zwischen beiden Volkswirtschaften verringert. Aus dem Vergleich der jährlichen Wachstumsraten (Abbildung b) geht hervor, daß die wirtschaftliche Entwicklung zwischen beiden Ländern ähnlich verlaufen ist, wobei im Durchschnitt Portugal, bedingt durch Aufholprozesse nach Jahrzehnten der Diktatur, höhere Wachstumsraten erzielte. Im dritten Bild (c) werden beide Ausgangsniveaus des Jahres 1976 gleichgesetzt ( = 100). Durch das Gleichsetzen beider Sozialproduktniveaus wird das unterschiedliche Wachstum deutlich. Die Mitteilung an den Leser lautet aber anders: Portugal hat die Schweiz überrundet und der Schweizer Arbeitnehmer sollte bald die Koffer packen, um als Arbeitsemigrant in Portugal tätig zu werden. Je nach Wahl der Darstellungsart, werden verschiedene Informationen transportiert. Der Anstieg in Abbildung c wurde noch bewußt übertrieben, da die Skalierung der Ordinate nicht bei 0, sondern bei 100 beginnt. Beginnt die Skala bei 0, wie in Abbildung d, ist der Anstieg bei weitem nicht so dramatisch. Als weitere Darstellungsformen

kommen noch

Organigramme und

Kartogramme

(Karten) zur Anwendung. Beide Darstellungsarten sind auch für Politikwissenschaftler interessant. Mittels Organigrammen lassen sich die Organisationsstrukturen zwischen Menschen und von Organisationen abbilden. Insbesondere werden Organigramme auch verwendet, um die Strukturen eines politischen Systems abzubilden. Kartogramme zeigen die Datenvariation über geographische Einheiten hinweg. Beispiele wären die Dichtekarten für die regionale Verteilung der Arbeitslosenquoten. Aber auch zur Dlustration von Wahlergebnissen sind Kartogramme hilfreich, indem sie die Identifikation von Hochburgen einer Partei ermöglichen. Die Darstellung erfolgt durch sogenannte Geographische Informationssysteme (GIS). Ursprünglich in der Geographie beheimatet, lassen sich solche Informationssysteme ertragreich für die Sozialwissenschaften nutzen. Bei GIS-Systemen müssen geographische Daten, z.B. die räumlichen Daten für einen Land- oder Wahlkreis, mit den dazugehörigen sozialwissenschaftlichen Daten (z.B. Arbeitslosenquoten oder Wahlergebnissen) gekoppelt werden. Durch die Verknüpfung beider Datensätze in einem der zahlreichen GIS-Softwareprogramme, (vgl. http://www.akgis.de/gis/gis.htm), wird dann die Karte erzeugt. Daß solche Karten viel Information und eine anschauliche Geschichte transportieren können, zeigte bereits die Graphik von Minard über Napoleons Rußlandfeldzug (Abbildung 15.2.). Wie fertigt man nun ein gutes und benutzelfreundliches Schaubild an? Tabelle 15.4. soll hierfür einige Tips geben.

354

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 15.4.: Regeln für die Gestaltung einer benutzerfreundlichen Graphik Was man machen sollte

Was man vermeiden sollte

Wörter sind auszuscfireiben. Rätselhafte und fachspezi-

Viele Abkürzungen zwingen den Leser, diese zu ent-

fische Abkürzungen sind zu vermeiden.

schlüsseln.

Die Leserichtung ist von links nach rechts. Deshalb

Wörter verlaufen vertikal, besonders entlang der Y-

sind die Daten auch so zu beschriften.

Achse (Ordinate). Wörter stehen in verschiedenen Richtungen.

Kleine Erläuterungen helfen, die Daten zu verstehen.

Die Graphik ist „kryptisch" und schwer entschlUsselbar. Man benötigt viele Erläuterungen.

Komplizierte Schattierungen, Schraffuren und Farben

Viele Querverweise erfordern ein Hin und Her zwi-

sind zu vermeiden. Beschriftungen sind direkt in der

schen der Legende und der Graphik.

Graphik zu positionieren. Wenn möglich keine Legende außerhalb der Datendarstellung. Die Graphik soll den Betrachter ansprechen und seine

Die Graphik wirkt abstoßend und uninteressant. Es gibt

Neugierde wecken.

viel Chartjunk (Graphikmüll).

Farben sollten nicht verwendet werden. Falls doch,

Falls doch Farben verwendet werden, dann sind Rot

dann sparsam, so daß auch Farbenblinde etwas mit der

und Grün zu vermeiden.

Graphik anfangen können. Balken müssen eindeutig identifizierbar sein (sparsame

Keine 3-D-Knöpfe drücken, keine Gitterlinien einzie-

Schraffur).

hen. Beschriftung ist zu klobig, zu groß und zu effekt-

Beschriftung ist eindeutig, genau und angemessen.

heischend. Beschriftung in Großbuchstaben mit einer Sans-Serif

Beschriftung ist „normal" mit einer Serif-Schrift Quelle: In Anlehnung

an Tufie (1983:

Schrift

183).

Zusammenfassend gibt es einige allgemeine Hinweise und Bedingungen für gute Graphiken (vgl. auch Tufte 1983: 13, 77, 175, 177; Wallgren et al. 1996). •

Erste und wichtigste Regel: Zeige die Daten!



Der Leser soll angeregt werden, über die eigentliche „Geschichte", die die Daten erzählen, nachzudenken. Zuviel graphisches Design ist verwirrend.



Alles, was den Eindruck der Daten stören kann, ist zu vermieden.



Man sollte versuchen, so viele Zahlen wie möglich auf kleinem Raum zu präsentieren. Für kleine Datensätze sind Tabellen zur Darstellung besser geeignet.



Der Leser soll angeregt werden, die Daten sinnvoll zu vergleichen.

1 5 . D I E D A R S T E L L U N G QUANTITATIVER INFORMATIONEN

355

• Gute Graphiken zeichnen sich dadurch aus, daß interessantes Datenmaterial in einer ansprechenden und gut designten Art und Weise präsentiert wird. Die Graphik soll einem eindeutigen Zweck dienen, z.B. der Deskription oder der Exploration. • Graphiken sollen komplexe Zusammenhänge klar, genau und effizient darstellen. • Gute Graphiken geben den schnellstmöglichen Überblick über die Daten, und zwar mit so wenig Tinte wie möglich auf kleinem Raum. • Gute Graphiken sind meistens multivariate Graphiken. Hervorragende Graphiken zeichnen sich dadurch aus, daß sie nicht versuchen, die Daten zu manipulieren. • Zahlen, die in Graphiken als Flächen dargestellt werden, sollen direkt proportional zu ihrer numerischen Größe abgebildet werden.

356

STATISTIK FÜR POLITIKWISSENSCHAFTLER

16. Studienpraktische Tips und Hinweise Da die Statistik in der Sozialwissenschaft eine Hilfswissenschaft ist, steht die praktische Anwendung in Vordergrund. Am Endpunkt des Forschungsprozesses steht deshalb immer eine Abschlußarbeit, sei es eine Seminar- oder Magisterarbeit, eine Dissertation oder ein wissenschaftlicher Aufsatz. Hier werden dann die empirischen Befunde, die man mit Hilfe der Statistik gewonnen hat, publiziert. Manchen Studierenden fallt es mitunter schwer, sich bis zum Examen mit der wissenschaftlichen Arbeitsweise zurechtzufinden. Die folgenden Hinweise sollen solchen Problemen begegnen, insbesondere im Hinblick auf das Abfassen von Texten. Das zweite Unterkapitel beschäftigt sich mit statistischer Software. Nachdem wir uns langsam dem Ende des Buches nähern, werden sich diejenigen, die bis hierher durchgehalten haben, fragen, welche Statistikprogramme geeignet sind, das Gelernte im alltäglichen Forschungsprozeß anzuwenden. Neben den Bezugsquellen und den Preisen sollen dabei auch die Vor- und Nachteile wichtiger statistischer Softwareprogramme angesprochen werden. Der dritte Teil widmet sich schließlich den Quellen der Informationsbeschaffung, wobei der Schwerpunkt auf solche Institutionen gelegt wird, die selbst empirische Daten erheben oder solche, die Daten dem Nutzer, meist gegen ein Entgelt, zur Verfügung stellen.

16.1. Hinweise zur Abfassung einer Examensarbeit Sind die Daten endlich erhoben und ausgewertet, steht man vor dem Problem, die Befunde ansprechend in einem abschließenden Forschungsbericht zu verpacken. Folgendes Vademekum ist als Ratgeber und Leitfaden zu verstehen, der eine solche Abfassung erleichtern soll. Diese Ratschläge gliedern sich in drei Abschnitte: •

Was man machen sollte, um eine erfolgreiche Abschlußarbeit zu verfassen.



Was man vermeiden sollte.



Eine Orientierungshilfe für Abschlußarbeiten auf der Basis eines Bewertungsschemas. Die ersten beiden Punkte gehen, von einigen Ergänzungen abgesehen, auf eine Publika-

tion Peter Halls mit dem Titel „Helpful Hints for Writing Dissertations in Comparative Politics" (Hall 1990: 596ff.) zurück. Obwohl ursprünglich für Abschlußarbeiten im Bereich der Vergleichenden Regierungslehre konzipiert, lassen sich Halls Ratschläge ohne weiteres auf die anderen Subdisziplinen der Politikwissenschaft übertragen.

16. STUDIENPRAKTISCHE TIPS UND HINWEISE

357

Was man machen sollte (1) Legen Sie besondere Sorgfalt auf die Einleitung und die Zusammenfassung. Für den Leser ergeben sich hier die ersten Eindrücke der Arbeit. (2) Identifizieren Sie die Forschungsfrage und formulieren Sie diese als einen der ersten Punkte in der Einleitung. Warum ist gerade diese Forschungsfrage so bedeutend? (3) Stellen Sie Bezüge zu der fachwissenschaftlichen Literatur her. Ordnen Sie die Studie in den Forschungsstand der Disziplin ein. (4) Geben Sie eine kurze Diskussion und Begründung für die Auswahl der verwendeten Fälle. Sind diese Fälle geeignet, die Hypothesen zu testen? (5) Definieren Sie die zentralen Konzepte und Begriffe der Arbeit. Verwenden Sie diese Begriffe einheitlich und widerspruchsfrei. (6) Zitieren Sie genau. Bei Zitaten sind nicht nur das Erscheinungsjahr, sondern auch die Seitenzahlen anzugeben. Bleiben Sie bei einer konsistenten Zitierweise. (7) Aufbau und Verlauf der Arbeit müssen logischen Prinzipien folgen. Die Kapitel sollten aufeinander aufbauen und Fortschritte im Forschungsprozeß darstellen. Geben Sie am Anfang oder Ende eines Kapitels Hinweise darauf, wo Sie gerade stehen und wohin die Reise gehen soll. (8) Ziehen Sie verallgemeinerungsfähige Schlußfolgerungen über die Bedeutung ihrer Arbeit für die Fachdisziplin und/oder für die Politik. (9) Stellen Sie sicher, daß ihre theoretischen Aussagen durch ihr empirisches Material unterstützt werden.

Was man vermeiden sollte (1) Packen Sie nicht alles, was Sie jemals gelernt haben, in ihre Einleitung und in ihre Arbeit. Kommen Sie zum Punkt, vermeiden Sie Wiederholungen aus Lehrbüchern. (2) Beenden Sie eine 500-Seiten Dissertation nicht mit einer überstürzten und voreilig formulierten Schlußfolgerung. Dies läßt den Eindruck eines nicht substantiellen Forschungsbeitrags entstehen. Andererseits können auch einige wenige prägnant formulierte Seiten mehr Inhalt aufweisen als viele Seiten „Verbalakrobatik".

358

STATISTIK FUR POLITIKWISSENSCHAFTLER

(3) Verdrehen Sie nicht die Ansichten und Meinungen der Autoren, über die Sie arbeiten. Vermeiden Sie jegliche Klischees und Phrasen. Seien Sie genau und fair. /

(4) Versuchen Sie nicht, ihre Arbeit primär auf das Falsifizieren „großer Theorien" auszurichten. Achten Sie auf ihren eigenen theoriegeleiteten Forschungsprozeß. (5) In ihrem Forschungsbericht ist nicht jede empirische Information zu erwähnen. Berichten Sie selektiv und nur die wirklich relevanten Ergebnisse. (6) Schreiben Sie nicht im Stil von Journalisten aus der Regenbogenpresse. Das heißt aber nicht, daß eine Abschlußarbeit trocken geschrieben muß. Sie soll verständlich, genau, angemessen, gefällig, knapp und üblich formuliert sein (Förster 1994: 10). (7) Wiederholen Sie dasselbe Material nicht in verschiedenen Kapiteln. Vermeiden Sie ausufernde Darstellungen. (8) Entwickeln Sie keine hochtrabenden Theorien, für die es keine meßbaren Indikatoren zum Messen gibt (vgl. das Adäquationsproblem in Kapitel 4.3.). Immunisieren Sie ihre Theorie nicht gegen eine mögliche Falsifikation. (9) Versuchen Sie keine bahnbrechenden „Metatheorien" zu entwickeln, die sich später nicht als solche erweisen. Orientieren Sie sich an bereits existierenden Theorien. Vieles erweist sich im nachhinein als doch nicht so neu. Zum Schluß noch ein ganz wichtiger Rat: „Don't get it right, get it written" (Hall 1990). Bringen Sie ihr Wissen und ihre Ergebnisse auch tatsächlich zu Papier. Die Quote angefangener Seminar- und Abschlußarbeiten, die nicht fertiggestellt werden ist hoch. Für viele Studenten türmt sich ein Berg - scheinbar - unüberwindlicher Hindernisse auf. Lassen Sie sich davon nicht verrückt machen, sondern lösen Sie die Probleme in Ruhe! Im nachhinein werden Sie sehen, daß es doch kein Hexenwerk ist, etwas „Gescheites" zu Papier zu bringen.

Wie wird überhaupt eine Abschlußarbeit

bewertet?

Mit Abgabe der Arbeit beginnt das erwartungsvolle Hoffen und Bangen, ob das Endprodukt auch die „Gnade" und Anerkennung des Dozenten findet. Wenn das Ergebnis dann doch nicht so positiv wie erwartet ausfällt, wird dabei den Korrektoren oftmals Willkür unterstellt. Für den Verfasser einer Abschlußarbeit ist es deshalb hilfreich, sich das Anspruchsniveau und die Korrekturrichtlinien seines Dozenten vor Augen zu führen. Die folgenden 14 Punkte sind die Kriterien und Maßstäbe, die der Verfasser an Hausarbeiten stellt. Die meisten Dozenten

16. STUDIENPRAKTISCHE TIPS UND HINWEISE

359

haben sicherlich ähnliche Kriterienkataloge, der vorliegende beruht im wesentlichen auf dem von Manfred Schmidt, der ihn freundlicherweise zur Verfügung stellte. Die Offenlegung des eigenen Anspruchniveaus und der erwarteten Standards macht es den Studierenden leichter, die Benotung nachzuvollziehen, und hilft außerdem, schon im Vorfeld die Qualität der Arbeit zu verbessern. • Unterliegt der Arbeit eine präzise formulierte Fragestellung? Ist diese Fragestellung leicht nachzuvollziehen? • Ist der Aufbau der Arbeit übersichtlich und dem Thema angemessen? Wird in ihm ein roter Faden ersichtlich? • Wird die zugrundegelegte Fragestellung präzise und nachprüfbar beantwortet? • Wie groß ist der Umfang der verarbeiteten Literatur? Wie ist die Qualität der Literaturverarbeitung in der Abhandlung? • Inwieweit ist der Forschungsstand berücksichtigt? • Welche Quellen wurden berücksichtigt? Wie ist die Qualität der Verarbeitung der Quellen in der Arbeit? Finden sich empirische Belege für die getroffenen Aussagen? • Zeichnet sich die Arbeit durch hohen Sachkenntnisstand aus? • Wie groß ist die Methodenkenntnis, und wie ist die Sicherheit in deren Anwendung? • Wie groß ist der Umfang und die Qualität des Begriffs- und Theoriewissens und Sicherheit in der Anwendung der für die Themenstellung in Frage kommenden Fachbegriffe und fachwissenschaftlichen Theorien? • Wie groß ist die Ausbildung des Urteilsvermögens? • Wie gut ist die Präsentation der Arbeit? (Im Hinblick auf die Qualität der schriftlichen Ausdrucksfähigkeit, der Verständlichkeit, der angemessenen Form der Abhandlung, der Fehleranzahl und des Layouts). • Sind Formalien wie die Zitierweise, Inhalts- und Literaturverzeichnis eingehalten? • Finden sich in der Arbeit bemerkenswerte Innovationen? Wodurch zeichnet sich die Arbeit besonders aus? • Sonstige Starken oder Schwächen der Arbeit. Nicht immer sind alle Punkte für die Bewertung einer Seminararbeit heranzuziehen.

360

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Aber spätestens bei einer Examensarbeit wird der Dozent alle Bewertungspunkte ausschöpfen können. Erfüllt der Autor einer Abschlußarbeit diese Kriterien im Großen und Ganzen dann, wird mit Sicherheit in der Bewertung nichts schief gehen.

16.2. Statistische Software Das Handwerkszeug der Sozialwissenschaftler für die Durchführung von Analysen ist die statistische Software. Große Datensätze lassen sich nur mit Hilfe der elektronischen Datenverarbeitung analysieren, aber selbst bei kleinen Datensätzen ist der Computer schon dem menschlichen Rechenvermögen überlegen. Mittlerweile ist der Computer selbst bei den Studenten Standard, ein Zustand, der vor einigen Jahren eher noch die Ausnahme war. Durch preisgünstige und leistungsfähige Hardware können nunmehr Studierende EDV-Programme zu Hause einsetzen, die vor einem Jahrzehnt nur auf Großrechnern der Universitätsrechenzentren verfügbar waren. In dem gleichem Maße und in einer ähnlichen Geschwindigkeit wie sich die Hardware verbessert hat, wurde auch die statistische Software verbessert und anwendungsfreundlicher gestaltet. Viele ältere Statistikprogramme liefen nur auf der DOS-Betriebsebene, während heute die Windows-Ebene Standard ist. Wenige Programme sind auch für die UNIX-Ebene erhältlich, die auf Großrechnern eine gängige Plattform ist, aber auf der Anwenderebene kaum eine Rolle spielt. Insgesamt unterliegt der Statistiksoftwaremarkt einer permanenten Änderung, denn einige wichtige Hersteller wurden von anderen aufgekauft, beispielsweise wurden die Programme SYSTAT und BMDP von dem Anbieter SPSS erworben. Neue Programme und Programmversionen tauchen auf dem Markt auf und andere verschwinden wieder. Gute Statistikprogramme sollten drei Dinge leisten können: • Sie sollten für die Dateneingabe und die Datenverwaltung geeignet sein. • Ihre eigentliche Aufgabe, die Datenanalyse (Datenauswertung), sollte erfüllt werden. • Die Ergebnisse sollten mittels Tabellen und Graphiken präsentiert werden können. Nicht alle Programme erfüllen diese drei Kriterien gleichermaßen. Das Problem des Datenimports und des Datenexports ist nicht bei allen Programmen gleich gut gelöst, da die Anzahl der Schnittstellen zu anderen Programmen und Dateiformaten variiert. Ebenso gibt es bei der Datenanalyse Unterschiede zwischen den Programmen, wenn man die Zahl der implementierten Routinen betrachtet. Schließlich produzieren einige Programme nur unzulängliche

I 6 . S T U D I E N P R A K T I S C H E TIPS U N D H I N W E I S E

361

Graphiken, was nachteilig ist, da man die Daten dann wieder konvertieren muß, um mit ihnen in einem Graphikprogramm zu arbeiten. Um die verschiedenen Statistikprogramme zu beurteilen, kann man Vergleichstests heranziehen, die in wissenschaftlichen Publikationen (Sensch 1995; Hilbert et al. 1996), Computerzeitschriften (wie in der C't, Chip u.a.) sowie im Internet (http://www.cern.ch/PTGroup/ Papers/AimarThesis/) veröffentlicht wurden. Oft werben die Anbieter auch selbst mit solchen Vergleichstests, oder Softwarehäuser, die verschiedene Programme anbieten, geben detaillierte Produktinformationen (z.B. Timberlake Consultants in England oder Progamma in den Niederlanden: http://www.timberlake.co.uk/ bzw. http://indyl.gamma.rug.nl/). Softwareprogramme kann man nach verschiedenen Kriterien beurteilen und bewerten, wie Handlichkeit, Anwenderfreundlichkeit, Möglichkeiten der Graphikdarstellung, Anzahl der Statistikprozeduren, Anzahl der möglichen Fälle und Variablen, der Flexibilität durch eigene Programmierung, der Dokumentation und den mitgelieferten Handbüchern, der Online Hilfe, dem Datenaustausch zu anderen Programmen oder der Möglichkeit der Dateneingabe und Datentransformation im Datenblatt (Spreadsheet). Ferner sind Restriktionen im Hinblick auf die Festplattenkapazität und die Anforderungen an Rechnergeschwindigkeit sowie Arbeitsspeicher zu berücksichtigen. Je nach Zielgruppe und Status, wie Anfänger, Fortgeschrittener, Wissenschaftler oder privates Unternehmen kann das Ergebnis eines solchen Vergleichstests variieren. Zudem hängt das Ergebnis auch von der zeitlichen Präsenz auf dem Markt ab, denn neue und damit verbesserte Versionen besitzen Vorteile gegenüber schon länger auf dem Markt befindlichen Versionen. Schließlich sagen solche Vergleichtests auch wenig darüber aus, wie der Anwender mit dem Produkt zurechtkommt. Wie bei Automobilen scheint es auch in diesem Bereich eine große Markentreue zu geben: Versuchen Sie nie, einen SAS-Anhänger von eventuellen Vorzügen bei SPSS zu überzeugen (oder umgekehrt). Das verursacht lange Diskussionen. Insofern soll an dieser Stelle keine Kaufempfehlung für ein Produkt gegeben werden. Jedes Programm hat seine Vor- und Nachteile. Bevor man sich allerdings zum Kauf einer Vollversion entschließt, sollte man sich eine Demoversion des Anbieters zuschicken lassen oder eine preisgünstige Studentenversion erwerben, die in den meisten Fällen für die eigentliche empirische Untersuchung ausreicht. Manchmal gibt es auch Sonderaktionen, bei denen das Programm billiger angeboten wird. Ferner kann man noch das Beratungsangebot der Universitätsrechenzentren in Anspruch nehmen, wo kompetentes Fachpersonal für solche Dienstleistungen zuständig ist. In vielen Fällen kann man dort auch Campuslizenzen großer Softwarean-

362

STATISTIK FÜR POLITIKWISSENSCHAFTLER

bieter erwerben. Diese Programme sind um ein vielfaches billiger, zwar zeitlich befristet, aber trotzdem ohne Einschränkung funktionsfähige Vollversionen. Für manchen Anwender ist ein weiteres wichtiges Kriterium, ob die Software in deutscher Sprache erhältlich ist (z.B. SPSS, STATGRAPHICS, STATISTICA, ALMO). Tabelle 16.1. bietet eine Übersicht derjenigen Programme, mit denen man in der Regel nichts falsch machen kann. Alle diese Programme, bis auf RATS (ein Spezialprogramm für die Zeitreihenanalyse), sind Standardpakete, die einen großen Statistikbereich abdecken. Die meisten Statistikprogramme haben eine modulare Konzeption. Das SAS System ist beispielsweise ein integriertes System mehrerer Softwareprodukte. Es gibt SAS-Base als Basismodul sowie für weitergehende Probleme Spezialmodule, so zum Beispiel auch für Kartogramme und Geographische Informationssysteme (GIS). Gleiches gilt auch für SPSS und STATGRAPHICS. Im Fall von SPSS kann dann eine Anschaffung schnell teuer werden, denn das Basismodul kostet 2500 DM und jedes weitere Modul 1100 DM. Aber auch SAS ist mit einer regulären Jahresmiete von rund 3000 DM kaum erschwinglich. Für Hochschulen und Wissenschaftler gibt es aber großzügige Rabatte. Deswegen ist es ratsam, auf die angesprochenen Campuslizenzen zurückzugreifen, bei denen Vollversionen günstig gemietet werden können. Tabelle 16.1.: Gängige Softwarepakete im Überblick Aktuelles Produkt /Preis A L M O für Windows Preis: 4 5 0 DM

RATS für Windows (Version 4.01) Preis ca. 500 D M

SAS Preis: Jährlicher Mietpreis: 2500 DM im Erstjahr (1100 DM im Folgejahr); Module 1500 DM/750 DM (Erst-/Folgejahr) SPSS für Windows (Version 7.5)

Kommentar

Anbieter

- Hilfreich für spezielle Anwendungsprobleme, da viele Beispielrechnungen - Vergleichsweise preiswert - Für Anfänger geeignet - Gut für Clusteranalyse

Prof. Dr. Kurt Holm Am Schlößlberg 8 4060 Leonding Österreich

- Spezialprogramm für Zeitreihenanalyse - komplexes Programm (eigene Befehlssprache) - Für Fortgeschrittene

Estima 1800 Sherman Avenue Evanstan II 60201 USA http://www.estima.com/

- Leistungsfähiges, weitverbreitetes und sehr mächtiges Softwareprogramm - Schwierig für Anfänger - An einigen Hochschulorten gibt es Campuslizenzen

SAS Institute G m b H In der Neckarhelle 162 69118 Heidelberg Telefon: 06221-1 51 23 E-mail: [email protected] http://www.sas.com/

- Das Standardsoftwarepaket an deutschen Hochschulen - Preisgünstige (aber leistungsbe-

SPSS GmbH Software Rosenheimer Str. 30 81669 München

363

16. STUDIENPRAKTISCHE TIPS UND HINWEISE

Preis: Basismodul 2500 DM jedes weitere Modul 1100 DM STATA für Windows (Version 5.0)

grenzte) Studentenversion - An vielen Hochschulorten gibt es Campuslizenzen

Tel.: 089 - 4890740 email: [email protected] http://www.spss.com/germany/

- Leistungsfähiges Programm - Eher für Fortgeschrittene - Flexible Software

Dittrich & Partner GmbH Prinzenstraße 2 42697 Solingen Tel: 0212 - 3390200 http://www.stata.com/

- Sehr benutzerfreundliches Anwendungsprogramm - Für Anfänger geeignet - Gute Graphiken - Gutes Preis-/Leistungsverhältnis

ISE Data GmbH Kaiserleistr. 55 63067 Offenbach am Main Tel.:069 - 800 766-00 E-mail [email protected] http://www.manu.com/statgraphics/

- Umfangreiches Statistikprogramm - Für Anfänger geeignet - Leistungsbegrenzte Studentenversion (199 DM) - Gute Graphikoptionen

StatSoft GmbH Hoheluftchaussee 112 20253 Hamburg Tel.: 040 - 46 88 660 e-mail: [email protected] http://www.statsoftinc.com/

- Leistungsfähiges Statistikprogramm - Preisgünstige (aber leistungsbegrenzte) Studentenversion - Selten Campuslizenzen - Für Anfänger geeignet

Statcon Bertram Schäfer In der Strenge 1 37213 Witzenhausen Tel: 05542 - 933090

Preis: ca. 1100 DM.

STATGRAPHICS Plus für Windows (Version 3.1.) Preis: ca. 1400 DM (Basismodul) weitere Module 850 DM

STATISTICA 5.1. (StatSoft) Preis: ca. 2150 DM

SYSTAT für Windows (Version 7.0) Preis: ca. 2100 DM

Anmerkungen: Die Übersicht und die Anmerkungen beziehen sich nur auf die Windowsversionen. Für einige Programme sind auch Versionen für Macintosh und DOS verfügbar.

Die Programme in Tabelle 16.1. stellen nur eine kleine Auswahl sämtlicher Statistikprogramme dar. Allerdings sind dort die Gängigsten, d.h. die Marktführer, sowie die Besten, zumindest nach den Vergleichstests, aufgeführt. Aber es gibt durchaus noch weitere preisgünstige Programme, die ein hohes Preis-/Leistungsverhältnis aufweisen und die für herkömmliche Untersuchungszwecke ausreichen. Für besondere Anwendungsprobleme, wie z.B. für eine QCA-Analyse

(QCA),

für

Strukturgleichungsmodelle

(LISREL)

oder

Inhaltsanalyse

(TEXTPACK) sind wieder spezielle Softwareprogramme notwendig. In der Regel reichen die dargestellten Programme für die Mehrzahl der Forschungsfragen jedoch aus. Ein Vorwurf vieler Anhänger der „reinen statistischen Lehre", die manche anwenderfreundlichen Statistikprogramme deswegen ablehnen, weil faktisch ohne Statistikkentnisse die kompliziertesten Verfahren eingesetzt werden können, leuchtet nicht sonderlich ein. Natürlich sollte vor der Arbeit mit solchen Programmen eine fundierte Statistikausbildung absolviert werden. Aber keiner lehnt ja das Autofahren ab, nur weil ab und zu mal jemand ohne Führerschein Auto fahrt.

364

STATISTIK FÜR POLITIKWISSENSCHAFTLER

16.3. Hilfreiche Adressen zur Informationsbeschaffung Recherchen sind zeitaufwendig. Studierende sind immer auf der Suche nach Literatur und - falls sie empirisch arbeiten müssen - nach Daten. Für Literaturrecherchen stehen CDROM Datenbanken in den Universitätsbibliotheken zur Verfügung. Ebenso sind Bibliotheksverbünde im Internet online, so daß man hier gleichzeitig in den Beständen verschiedener Bibliotheken recherchieren kann, zum Beispiel: • Der Verbund süddeutscher Bibliotheken: http://www.swbv.uni-konstanz.de/index.html • Der Verbund norddeutscher Bibliotheken: http://www.brzn.de/cgi-bin/ Auf diesen Internet-Seiten findet man weitere Links zu anderen Bibliotheken. Vorteil der beiden Verbünde ist, daß für Fernleihen Signatur und Standort ermittelt werden können und diese teilweise sogar gleichzeitig über das Internet bestellt werden können. Datenbestände, Literaturhinweise, Graue Literatur und Forschungsprojekte können gleichfalls über das Internet recherchiert werden. Sowohl auf nationaler als auch auf internationaler Ebene kann man zu seinem Projekt nach Quellen und Daten im WWW forschen, da inzwischen viele Institutionen eigene Hompages besitzen. Im Zweifelsfall kann man auf Suchmaschinen wie Yahoo (http://www.yahoo.com/), Lycos (http://www.lycos.de/) und Dino (http://www.dino-online.de/) zurückgreifen.

16.3.1. Nationale Informationsquellen Die nachstehenden Anschriften und die jeweils angebotenen Dienste können einen Teil der Recherche zeitlich verkürzen, wobei die Liste nur einen kleinen Teil möglicher Informationsquellen repräsentiert. Da sich das Informationsangebot immer wieder verändert und zumindest im Internet weiter stark ausgebaut wird und außerdem die Informationsbedürfnisse variieren, können für einzelne Forschungsfragen andere Quellen relevant sein. Adressen öffentlicher Institutionen und wichtiger Privatpersonen finden sich in gedruckter Form umfassend im jährlich aktualisierten Taschenbuch des Öffentlichen Lebens (Oeckl 1998). Hilfreich für Internet-Recherchen ist das übersichtlich gegliederte „Dino-Verzeichnis" im Internet, aber auch auf der ausgezeichneten Internet-Homepage des Instituts für Politische Wissenschaft der Universität Heidelberg finden sich viele Links zu politikwissenschaftlichen Informationsquellen (http://www.rzuser.uni-heidelberg.de/~ggl/).

16. STUDIENPRAKTISCHE TIPS UND HINWEISE

365

Tabelle 16.2.: Wichtige nationale Informationsanbieter Institution

Erhobene Daten & Dienste

Postanschrift / Internetadresse

Deutsches Institut für Wirtschafts- Wirtschaftsdaten, Sozioökonomi- Königin-Luise-Str. 5 forschung (DIW) sches Panel (SOEP) 14195 Berlin (Dahlem) http://www.diw-berlin.de/ EMNID-Institut GmbH & CO

Meinungsumfragen

Stieghorster Str. 90 33605 Bielefeld http://www.emnid.teuto.de/

Forschungsgruppe Wahlen (FGW)

Wahlanalysen, Wahlumfragen

N7, 13-15 68161 Mannheim

Gesellschaft für Marketing-, Kommunikations- und Sozialforschung (GFM-Getas)

Sozialwissenschaftliche Umfragen, Marktforschung

Langelohstraße 134 22549 Hamburg http://www.gfm-getas.de/

Informationszentrum Sozialwissenschaften (IZ)

Forschungsprojektdatenbank (Foris), Literaturdatenbank (Solis), Auftragsrecherchen

Bonn: Lennéstr. 30 53113 Bonn Berlin: Schiffbauerdamm 19 10117 Berlin http://www.bonn.iz-soz.de/

Institut der Deutschen Wirtschaft (IW)

Datenbanken, Wirtschaftsdaten

Gustav-Heinemann-Ufer 84-8 50968 Köln http://www.iw-koeln.de/

Institut für Arbeitsmarkt- und Berufsforschung (IAB)

Datenbanken zu Institutionen, Forschungsprojekten und Literatur mit dem Schwerpunkt Arbeitsmarkt

Regensburger Str. 104 90327 Nürnberg http://www.iab.de/

Statistisches Bundesamt (StBA)

Allgemeine Statistiken, Online-Bestellung von Daten

Gustav-Stresemann Ring 11 65189 Wiesbaden http://www.statistik-bund.de/

Verzeichnis der Internet-Adressen der Bundesregierung, der Bundesministerien und der Bundesländer

Politische Daten

Postanschriften sind unter folgendem Link (oder im Oeckl 1998) zu ermitteln: http://www.laum.uni-hannover.de/ iln/bibliotheken/bundesamter.html

Zentralarchiv für empirische Sozialforschung (ZA)

Datenarchiv, Bereitstellung von Datensätzen für Sekundäranalysen, Forschungsberatung

Bachemer Str. 40 50931 Köln

Zentrum für Umfragen, Methoden und Analysen (ZUMA)

Sozialwissenschaftliche Umfragen; Eurobarometer, Beratung bei Umfragen

http://www.za.uni-koeln.de/ Β 2,1 68059 Mannheim http://www.zuma-mannheim.de/

16.3.2. Internationale Informationsquellen Wie im nationalen Kontext gilt auch im internationalen Bereich, daß es eine Vielzahl von Daten- und Informationsanbietern gibt. Die Auswahl der Institutionen ist deshalb von ihrem Nutzen für eine vergleichende Politikforschung bestimmt.

366

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Tabelle 16.3: Wichtige internationale Datenquellen und Informationsanbieter Institution

Erhobene Daten & Dienste

Postanschrift / Internetadresse

Organisation for Economic Cooperation and Development (OECD)

Bereitstellung von Daten, Literaturrecherche

2, rue André-Pascal 75775 Paris C E D E X 16 Frankreich http://www.oecd.org/

Statistisches Bundesamt (StBA): Links zu den statistischen Ämtern der Welt

Allgemeine Statistiken

http://www.statistikbund.de/allg/d/d_stlink.htm

International Social Survey Programme (ISSP)

International koordinierte Einstellungsbefragung in den Teilnahmeländern

Die Daten sind über das Zentralarchiv (ZA) in Köln zugänglich. http://www.issp.org/

Eurobarometer

Einstellungsumfragen in Europa

ZEUS im MZES Universität Mannheim Postfach 103462 68131 Mannheim http://zeus.mzes.uni-mannheim.de/

Luxembourg Income Studies (LIS)

Daten zur Einkommensverteilung LIS at CEPS/INSTEAD im internationalen Vergleich Β.P. 48 L-4501 Differdange Luxemburg http://lissy.ceps.lu/index.htm

The Inter-university Consortium for Political and Social Research (ICPSR)

Weltgrößtes Datenarchiv für sozialwissenschaftliche Umfragen

The University of Michigan Institute for Social Research P . O . B o x 1248 Ann Arbor, MI 48106-1248 USA http://www.icpsr.umich.edu/

UK Data Archive University of Essex

Größtes Datenarchiv in Großbritannien, Externe Recherchemöglichkeiten

University of Essex Wivenhoe Park Colchester, Essex C 0 4 3SQ United Kingdom http://dawww.essex.ac.uk/

Worldbank

Informationen und Publikationen zum Schwerpunkt Entwicklungsländer

1818 Η Street, N.W., Washington D.C., 20433 USA http://www.worldbank.org/

Internationaler Währungsfond (IMF)

Publikationen, Datenbestände, Recherche

Publication Services International Monetary Fund Washington, D.C. 20431 USA http://www.imf.org/

367

ANHANGSTABELLEN

Anhangstabelle 1: Standardnormalverteilung Signifikanzniveaus ζ

2-seitig

1-seitig

Signifikanzniveaus ζ

2-seitig

1-seitig

Signifikanzniveaus ζ

2-seitig

1-seitig

0,00

1,000

0,500

1,21

0,226

0,113

1,62

0,105

0,053

0,05

0,960

0,480

1,22

0,222

0,111

1,63

0,103

0,052

0,10

0,920

0,460

1,23

0,219

0,109

1,64

0,101

0,051

0,15

0,881

0,440

1,24

0,215

0,107

1,65

0,099

0,049

0,20

0,841

0,421

1,25

0,211

0,106

1,66

0,097

0,048

0,25

0,803

0,401

1,26

0,208

0,104

1,67

0,095

0,047

0,30

0,764

0,382

1,27

0,204

0,102

1,68

0,093

0,046

0,35

0,726

0,363

1,28

0,201

0,100

1,69

0,091

0,046

0,40

0,689

0,345

1,29

0,197

0,099

1,70

0,089

0,045

0,45

0,653

0,326

1,30

0,194

0,097

1,71

0,087

0,044

0,50

0,617

0,309

1,31

0,190

0,095

1,72

0,085

0,043

0,55

0,582

0,291

1,32

0,187

0,093

1,73

0,084

0,042

0,60

0,549

0,274

1,33

0,184

0,092

1,74

0,082

0,041

0,65

0,516

0,258

1,34

0,180

0,090

1,75

0,080

0,040

0,70

0,484

0,242

1,35

0,177

0,089

1,76

0,078

0,039

0,75

0,453

0,227

1,36

0,174

0,087

1,77

0,077

0,038

0,80

0,424

0,212

1,37

0,171

0,085

1,78

0,075

0,038

0,85

0,395

0,198

1,38

0,168

0,084

1,79

0,073

0,037

0,90

0,368

0,184

1,39

0,165

0,082

1,80

0,072

0,036

0,95

0,342

0,171

1,40

0,162

0,081

1,81

0,070

0,035

1,00

0,317

0,159

1,41

0,159

0,079

1,82

0,069

0,034

1,01

0,312

0,156

1,42

0,156

0,078

1,83

0,067

0,034

1,02

0,308

0,154

1,43

0,153

0,076

1,84

0,066

0,033

1,03

0,303

0,152

1,44

0,150

0,075

1,85

0,064

0,032

1,04

0,298

0,149

1,45

0,147

0,074

1,86

0,063

0,031

1,05

0,294

0,147

1,46

0,144

0,072

1,87

0,061

0,031

1,06

0,289

0,145

1,47

0,142

0,071

1,88

0,060

0,030

1,07

0,285

0,142

1,48

0,139

0,069

1,89

0,059

0,029

1,08

0,280

0,140

1,49

0,136

0,068

1,90

0,057

0,029

1,09

0,276

0,138

1,50

0,134

0,067

1,91

0,056

0,028

1,10

0,271

0,136

1,51

0,131

0,066

1,92

0,055

0,027

1,11

0,267

0,133

1,52

0,129

0,064

1,93

0,054

0,027

1,12

0,263

0,131

1,53

0,126

0,063

1,94

0,052

0,026

1,13

0,258

0,129

1,54

0,124

0,062

1,95

0,051

0,026

1,14

0,254

0,127

1,55

0,121

0,061

1,96

0,050

0,025

1,15

0,250

0,125

1,56

0,119

0,059

1,97

0,049

0,024

1,16

0,246

0,123

1,57

0,116

0,058

1,98

0,048

0,024

1,17

0,242

0,121

1,58

0,114

0,057

1,99

0,047

0,023

1,18

0,238

0,119

1,59

0,112

0,056

2,00

0,046

0,023

1,19

0,234

0,117

1,60

0,110

0,055

2,01

0,044

0,022

1,20

0,230

0,115

1,61

0,107

0,054

2,02

0,043

0,022

368

STATISTIK FÜR POLITIKWISSENSCHAFTLER

Signifikanzniveaus ζ

2-seitig

1-seitig

Signifikanzniveaus ζ

2-seitig

1-seitig

Signifikanzniveaus ζ

2-seitig

1 -seitig

2,03

0,042

0,021

2,25

0,024

0,012

2,47

0,013

0,007

2,04

0,041

0,021

2,26

0,024

0,012

2,48

0,012

0,007

2,05

0,040

0,020

2,27

0,023

0,012

2,49

0,012

0,006

2,06

0,039

0,020

2,28

0,023

0,011

2,50

0,012

0,006

2,07

0,038

0,019

2,29

0,022

0,011

2,51

0,012

0,006

2,08

0,038

0,019

2,30

0,021

0,011

2,52

0,012

0,006

2,09

0,037

0,018

2,31

0,021

0,010

2,53

0,011

0,006

2,10

0,036

0,018

2,32

0,020

0,010

2,54

0,011

0,006

2,11

0,035

0,017

2,33

0,020

0,010

2,55

0,011

0,005

2,12

0,034

0,017

2,34

0,020

0,010

2,56

0,010

0,005

2,13

0,033

0,017

2,35

0,019

0,009

2,57

0,010

0,005

2,14

0,032

0,016

2,36

0,018

0,009

2,59

0,010

0,005

2,15

0,032

0,016

2,37

0,017

0,009

2,59

0,010

0,005

2,16

0,031

0,015

2,38

0,016

0,009

2,60

0,009

0,005

2,17

0,030

0,015

2,39

0,016

0,008

2,70

0,007

0,003

2,18

0,029

0,015

2,40

0,016

0,008

2,90

0,005

0,003

2,19

0,029

0,014

2,41

0,015

0,008

2,90

0,004

0,002

2,20

0,028

0,014

2,42

0,015

0,008

3,00

0,003

0,001

2,21

0,027

0,014

2,43

0,014

0,008

3,50