Psychologische Diagnostik und Intervention : mit ... 58 Tabellen ; [mit 3 neuen Anwendungsfeldern] [4., vollst. überarb. und erw. Aufl] 9783540284628, 3540284621, 9783540285076, 3540285075

2,113 182 7MB

German Pages [626] Year 2006

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Psychologische Diagnostik und Intervention : mit ... 58 Tabellen ; [mit 3 neuen Anwendungsfeldern] [4., vollst. überarb. und erw. Aufl]
 9783540284628, 3540284621, 9783540285076, 3540285075

Citation preview

Springer-Lehrbuch

Manfred Amelang Lothar Schmidt-Atzert

Psychologische Diagnostik und Intervention 4., vollständig überarbeitete und erweiterte Auflage

Unter Mitarbeit von Thomas Fydrich und Helfried Moosbrugger Mitbegründet von Prof. Dr. Werner Zielinski

Mit 114 Abbildungen und 58 Tabellen

123

Autoren

Prof. Dr. Manfred Amelang

Prof. Dr. Lothar Schmidt-Atzert

Psychologisches Institut Universität Heidelberg Hauptstr. 47-51 69117 Heidelberg [email protected]

Fachbereich Psychologie der Philipps-Universität Marburg Gutenbergstraße 18 35032 Marburg [email protected]

Mitbegründet von Prof. Dr. Werner Zielinski Mitautoren

Prof. Dr. Thomas Fydrich

Prof. Dr. Helfried Moosbrugger

Institut für Psychologie Humboldt-Universität zu Berlin Rudower Chaussee 19 12485 Berlin [email protected]

Institut für Psychologie Universität Frankfurt am Main Mertonstraße 17 60054 Frankfurt a.M. [email protected]

ISBN-10 3-540-28462-1 ISBN-13 978-3-540-28462-8 Springer Medizin Verlag Heidelberg Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer Medizin Verlag. Ein Unternehmen von Springer Science+Business Media springer.de © Springer Medizin Verlag Heidelberg 2006 Printed in Italy Die Wiedergabe von Gebrauchsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutzgesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Produkthaftung: Für Angaben über Dosierungsanweisungen und Applikationsformen kann vom Verlag keine Gewähr übernommen werden. Derartige Angaben müssen vom jeweiligen Anwender im Einzelfall anhand anderer Literaturstellen auf ihre Richtigkeit überprüft werden. Planung: Dr. Svenja Wahl Projektmanagement: Michael Barton Copyediting: Kerstin Barton, Heidelberg Satz: Fotosatz-Service Köhler GmbH, Würzburg Umschlaggestaltung: deblik, Berlin SPIN 1101 3075 Gedruckt auf säurefreiem Papier

2126 – 5 4 3 2 1 0

V

Vorwort zur 4. Auflage Im Vorfeld der Überarbeitung des Textes für eine aktualisierte Neu-Auflage erwies es sich bald als zweckmäßig, einen jüngeren Kollegen für die Mitarbeit zu gewinnen. Darauf angesprochen, sagte Lothar Schmidt-Atzert ohne Umschweife zu. Insbesondere von seiner spezifischen Expertise und Kompetenz profitieren die Modifikationen und Ergänzungen des nunmehr vorgelegten Textes. Das betrifft unter anderem die Darstellung des psychodiagnostischen Interviews und der früher nicht behandelten Anwendungsfelder Forensische Psychologie, Verkehrspsychologie und Neuropsychologie. Des Weiteren geht auf seine Initiative eine geänderte Schwerpunktsetzung innerhalb des Kapitels »Ausgewählte Beispiele diagnostischer Verfahren« zurück; wurden in früheren Auflagen relativ viele Tests erwähnt, findet jetzt eine Fokussierung auf eine geringere Zahl von Verfahren statt, und zwar solchen mit einer zentralen Bedeutung im Sinne von Prototypen, die jedoch im Sinne von Rezensionen eingehender gewürdigt werden. Von ihm stammt auch die Anregung, zu einzelnen Anwendungsfeldern ausgewählte Experten in Form von Interviews zu Wort kommen zu lassen. Soweit die Erläuterungen des Senior-Autors. Nun der Ausblick und die Danksagungen von uns beiden als den neu zusammengespannten Autoren: Wir sind zuversichtlich, dass die oben geschilderten Veränderungen sowie die allfälligen Aktualisierungen das Buch für Studierende und all jene Interessenten, die sich in Fragen der psychologischen Diagnostik und Intervention einen fundierten Überblick verschaffen möchten, noch wertvoller gemacht haben. Bei unseren Arbeiten haben uns unsere Mitarbeiter und Mitarbeiterinnen Ricarda Steinmayr (Heidelberg) sowie Stefan Krumm, Antje Rohrlack und Dorothea Stanjek (Marburg) dankenswerter Weise Hilfestellung geleistet. Auch wäre es ohne die kompetente Unterstützung von Ulrike Basten, Birgit Koopmann und Antje Rohrlack nicht möglich gewesen, in der verfügbaren Zeit das Sachwortverzeichnis in der nun realisierten Differenziertheit zu erstellen. Dank schulden wir zudem jenen Leserinnen, die uns auf inhaltliche Unstimmigkeiten, Satzfehler oder offene Fragen aufmerksam gemacht haben: Regine Asseburg, Friederike Meyer, Sarah Martiny, Katrin Giel und Renate Madsen. Nicht zuletzt danken wir Dr. Svenja Wahl als der zuständigen Lektorin des Springer-Verlages für ihre ebenso freundliche wie tatkräftige Unterstützung bei der Formulierung und Umsetzung der gestellten Aufgabe sowie der Copy-Editorin Kerstin Barton für ihre Umsicht und Präzision im Vorfeld der Drucklegung. Heidelberg und Marburg im November 2005 Manfred Amelang Lothar Schmidt-Atzert

VII

Vorwort zur 1. Auflage Die neue Rahmenprüfungsordnung für das Fach Psychologie sowie die daran ansetzenden hochschulspezifischen Prüfungsordnungen und Studienpläne sehen eine Verklammerung von Psychologischer Diagnostik und Intervention vor. Damit soll deutlich gemacht werden, daß sich Psychologische Diagnostik nicht in der Beschreibung bestimmter Gegebenheiten erschöpfen darf, sondern stets im Hinblick auf konkrete Fragestellungen erfolgt und deshalb starke Handlungs- oder Interventionsimplikationen aufweist. Für diese Verknüpfung von Psychologischer Diagnostik und Intervention fehlt es unseres Erachtens an kompakten Darstellungen – ungeachtet der zahlreichen und z. T. qualitativ exzeptionellen Behandlungen von jedem einzelnen der beiden Teilgebiete in der Literatur. Der hiermit vorgelegte Text richtet sich ausdrücklich und primär an Studierende des Faches Psychologie. Unsere Konzeption ging dahin, den Umfang auf das für ein Prüfungsfach Zentrale und wirklich unabdingbar Notwendige zu beschränken. Inhaltlich sollte der Stoff eine nach Möglichkeit optimale Mischung aus methodischen Prinzipien, instrumentellen Fakten und Informationen über Anwendungen bzw. Interventionsbereiche darstellen. Die Menge des Stoffes sollte so bemessen sein, daß sie im Zuge der Vorbereitung auf eine Prüfung auch wirklich bewältigt und die Materie angemessen verarbeitet werden kann. Das bedeutete in didaktischer Hinsicht unter anderem, daß die Darstellung nicht durch mögliche „Ziselierungen«, also Quer- und Tiefenverweise sowie Belege jeder einzelnen Feststellung mit Zitaten anderer Autoren usw., belastet werden durfte. Solche Zusatzinformationen sind zwar für wissenschaftliches Arbeiten unerläßlich, würden jedoch den eher linearen Duktus eines Lehrbuches etwas beeinträchtigen und damit die Lektüre erschweren. Um die Rezeption weiter zu erleichtern, haben wir Merksätze, Randbemerkungen und Übungsfragen vorgesehen. Obwohl die Planungen für das Buchprojekt längere Zeit zurückreichen, erfolgte seine Realisierung dann doch für einen von uns (M.A.) unter erheblichem Zeitdruck und erschwert durch den Umstand, simultan auch anderweitigen Dienstverpflichtungen entsprechen zu müssen. Um so dankbarer sind wir deshalb für die tatkräftige und umsichtige Unterstützung, die wir von selten unserer Mitarbeiterinnen und Mitarbeiter sowie Hilfskräfte, insbesondere in der Endphase der Fertigstellung, auf ganz verschiedene Weise erfahren haben: Karin Holthausen und – mehr noch – Dorothea Benz besorgten die Schreibarbeiten, Heiner Rindermann, Jörg Müller und Nicole Petrow setzten die Formeln, Abbildungen und Tabellen, Claudia Schmidt-Rathjens und Jochen Czemmel arbeiteten die Rechenbeispiele für die Gütekriterien aus, Margarete Edelmann und Gerhard Rothmann halfen mit Literaturexzerpten und Übersichten aus dem ABO-Bereich, Viktor Oubaid erstellte einen großen Teil der Randbemerkungen und Übungsfragen, Sabine Pöhlitz war für das Literaturverzeichnis und dessen Kongruenz zum laufenden Text verantwortlich, Claudia Müller für die Grundstruktur des Stichwortverzeichnisses - und die Koordination für all das sowie dessen Endredaktion lag in den Händen von Claudia Krüger. Ihnen allen danken wir auch an dieser Stelle ganz herzlich und fügen hinzu, daß für verbleibende Unzulänglichkeiten selbstverständlich wir allein die Verantwortung tragen.

VIII

Vorwort zur 1. Auflage

Ohne das nachhaltige Interesse des Verlages in Gestalt von Heike Berger und den von ihr ausgehenden Anregungen und zeitlichen Vorstellungen wäre das Projekt weder in der nun vorliegenden Form noch zum jetzigen Zeitpunkt erschienen. Auch ihr danken wir sowie der Lektorin Dr. Regine Körkel-Hinkfoth für ihre vorzügliche Korrekturarbeit. Heidelberg, im September 1994 Manfred Amelang Werner Zielinski

IX

Inhaltsverzeichnis 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 2 2.1 2.1.1 2.1.2 2.1.3 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7 2.3 2.3.1 2.3.2 2.3.3

Einleitung . . . . . . . . . . . . . . . . . . . . . .

1 2 4 7

Definition . . . . . . . . . . . . . . . . . . . . . . Aufgabenbereiche und Fragestellungen . . . Arten von Diagnostik . . . . . . . . . . . . . . . Modellannahmen: Eigenschafts- und Verhaltensdiagnostik . . . . . . . . . . . . . . . Diagnostische Strategien. . . . . . . . . . . . . Meilensteine in der Geschichte der psychologischen Diagnostik . . . . . . . . . . . . . . . Gesetzliche Rahmenbestimmungen . . . . .

16 20

Grundlagen diagnostischer Verfahren . .

25

Voraussetzungen und theoretische Basis psychometrischer Tests . . . . . . . . . . . . . Die klassische Testtheorie (KTT) . . . . . . . Item-Response-Theorie (IRT) . . . . . . . . . Grundlagen kriteriumsorientierter Tests . . Konstruktionsprinzipien psychometrischer Tests . . . . . . . . . . . . . . . . . . . . . . . . . Rationale Konstruktion . . . . . . . . . . . . . Externale Konstruktion . . . . . . . . . . . . . Induktive Konstruktion . . . . . . . . . . . . . Der Prototypenansatz . . . . . . . . . . . . . . Weitere Ansätze . . . . . . . . . . . . . . . . . Vergleichende Würdigung . . . . . . . . . . . Grundzüge von Itemanalysen. . . . . . . . . Gütekriterien psychometrischer Tests und ihre Bestimmung . . . . . . . . . . . . . . . . . Hauptgütekriterien . . . . . . . . . . . . . . . Nebengütekriterien . . . . . . . . . . . . . . . Wechselbeziehungen zwischen Gütekriterien . . . . . . . . . . . . . . . . . . .

8 15

. . . .

26 33 64 89

. . . . . . . .

94 94 98 102 105 108 110 111

. . .

135 138 161

3.2.4 Verfahren zur Erfassung aktueller . . . .

286 292 295 298

. . . . .

302 303 306 313 321

. . . . . .

321 322 324 327 329 336 339

. . . .

344 345 355 362

Erhebungsstrategien . . . . . . . . . . . . . . . . . . . . . . . . . .

367 368 369

. . . . . .

371

. . . . . .

373

. . . . . .

373

5 5.1 5.2 5.3

Der diagnostische Prozess . . . . . . . . . .

379 380 381 385

6

Zuordnungs- und Klassifikationsstrategien . . . . . . . . . . . . . . . . . . . . . .

6.1 6.2

Arten diagnostischer Entscheidungen . . . . Kompensatorische und konjunktive Entscheidungsstrategien . . . . . . . . . . . . .

3.2.5 3.2.6 3.2.7 3.3 3.3.1 3.3.2 3.4 3.5 3.5.1 3.5.2 3.5.3 3.6 3.6.1 3.6.2 3.6.3 3.7 3.7.1 3.7.2 3.7.3 4 4.1 4.2 4.3 4.4

.

174

4.5 3 Diagnostische Verfahren . . . . . . . . . . . 3.1 Leistungstests. . . . . . . . . . . . . . . . . . . . 3.1.1 Aufmerksamkeits- und Konzentrations3.1.2 3.1.3 3.1.4 3.1.5 3.2 3.2.1 3.2.2 3.2.3

tests . . . . . . . . . . . . . . . . . . . Intelligenztests . . . . . . . . . . . . Spezielle Fähigkeitstests . . . . . . Entwicklungstests . . . . . . . . . . Schultests . . . . . . . . . . . . . . . Persönlichkeitsfragebogen . . . . Persönlichkeit und Temperament Allgemeines zu Fragebogen. . . . Persönlichkeitstestsysteme . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

181 182 184 200 228 232 238 240 240 241 250

Zustände . . . . . . . . . . . . . . . . . . . . . . Verfahren zur Erfassung von Interessen . . Verfahren zur Erfassung der Motivation . . Handlungskontrolle (Volition). . . . . . . . . Nichtsprachliche und Objektive Persönlichkeitstests . . . . . . . . . . . . . . . Nichtsprachliche Persönlichkeitstests . . . . Objektive Persönlichkeitstests . . . . . . . . Projektive Verfahren . . . . . . . . . . . . . . . Verhaltensbeobachtung . . . . . . . . . . . . Arten systematischer Verhaltensbeobachtung . . . . . . . . . . . . . . . . . . . Arten der Datenregistrierung . . . . . . . . . Gütekriterien von Beobachtungsverfahren Diagnostisches Interview. . . . . . . . . . . . Standardisierte Interviews . . . . . . . . . . . Interviews selbst konstruieren . . . . . . . . Techniken der Gesprächsführung . . . . . . Gruppendiagnostik (Interaktionsdiagnostik) . . . . . . . . . . . . Paardiagnostik . . . . . . . . . . . . . . . . . . Familiendiagnostik. . . . . . . . . . . . . . . . Teamdiagnostik. . . . . . . . . . . . . . . . . .

Gruppen- vs. Einzeltestung . . . . . Die Gestaltung der Testsituation . . Unimodale vs. multimodale Datenerfassung. . . . . . . . . . . . . . . . . Einstufige vs. mehrstufige Datenerhebung . . . . . . . . . . . . . . . . Messung von Veränderungen und Unterschieden . . . . . . . . . . . . .

Modellvorstellungen . . . . . . . . . . . . . . . Das diagnostische Urteil . . . . . . . . . . . . . Das diagnostische Gutachten . . . . . . . . . .

395 396 399

X

Inhaltsverzeichnis

6.3

Einstufige vs. mehrstufige Entscheidungsstrategien . . . . . . . . . . . . . . . . . . . . . Entscheidungsfehler. . . . . . . . . . . . . . . Festsetzung von Testtrennwerten . . . . . . Nutzenerwägungen . . . . . . . . . . . . . . . Abschließende Bemerkungen . . . . . . . .

6.4 6.5 6.6 6.7

9.2 . . . . .

401 404 408 410 415

9.2.1 9.2.2 9.2.3

7 7.1 7.1.1 7.1.2 7.1.3 7.1.4 7.2

7.3

8

8.1 8.1.1 8.1.2 8.2 8.2.1 8.2.2 8.3

8.4 8.5

Probleme und Differenzierungen von Prognosen . . . . . . . . . . . . . . . . . . Kontextuale Faktoren und technische Verbesserungen . . . . . . . . . . . . . . . . . . Verhaltensvariabilität . . . . . . . . . . . . . . . Aktuelle Selbstaufmerksamkeit. . . . . . . . . Aggregation von Maßen . . . . . . . . . . . . . Validität ohne Stabilität . . . . . . . . . . . . . . Moderation: Identifikation von Personengruppen mit einer besonders hohen Vorhersagbarkeit . . . . . . . . . . . . . . . . . . . . . . Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression . . . . . . . .

Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations(ABO-)Psychologie . . . . . . . . . . . . . . . . Diagnostik und Entwicklung von Organisationen . . . . . . . . . . . . . . Organisationsdiagnostik . . . . . . . . Organisationsentwicklung. . . . . . . Personalbeurteilung. . . . . . . . . . . (Berufs-)Eignungsdiagnostik . . . . . Exkurs: Assessment Center. . . . . . . Personalentwicklung . . . . . . . . . . Tätigkeitsbezogene Diagnostik und Intervention . . . . . . . . . . . . . . . . Diagnostik und Intervention bei Gruppen . . . . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

419

9.2.4

420 420 423 424 425

9.2.5 9.3 10

Diagnostik und Intervention in der Klinischen Psychologie . . . . . . . . . . . . .

10.1

Aufgaben der klinisch-psychologischen Diagnostik . . . . . . . . . . . . . . . . . . . . . . Rahmenbedingungen für klinisch-psychologische Diagnostik und Intervention. . . . . Das diagnostische Gespräch. . . . . . . . . . . Psychische Störungen und ihre Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . Klassifikation psychischer Störungen . . . . . Diagnostische Verfahren . . . . . . . . . . . . . Verhaltenstheoretisch und kognitiv orientierte Fragebogenverfahren . . . . . . . Beobachtungsmethoden. . . . . . . . . . . . . Problem-, Verhaltens- und Plananalyse als Ansatz der kognitiv-verhaltenstherapeutischen Diagnostik . . . . . . . . . . . . . . Persönlichkeitstests in der Klinischen Psychologie und Psychotherapie . . . . . . . . Verfahren und Ansätze auf klientenzentrierter, psychodynamischer, systemischer und interpersoneller Grundlage . . . . . . . . Diagnostische Methoden der Biologischen Psychologie, Neuropsychologie und Psychophysiologie . . . . . . . . . . . . . . . . . . . . . Verbindung von Diagnostik und Intervention: Die Indikation . . . . . . . . . . . . . . . . Klinisch-psychologische Intervention . . . . . Kognitiv-verhaltenstherapeutische Interventionsverfahren . . . . . . . . . . . . . . . . . Psychodynamische Verfahren und klientenzentrierte Gesprächspsychotherapie . . . . . Erfolgskontrolle und Qualitätssicherung . . . Kriterium der klinisch bedeutsamen Verbesserung . . . . . . . . . . . . . . . . . . . .

427

10.1.1 432

10.1.2 10.2 439

. . . . . . .

440 440 442 444 445 458 466

. . . . .

468

. . . . .

472

10.2.1 10.3 10.3.1 10.3.2 10.3.3

10.3.4 10.3.5

10.3.6 9

Diagnostik und Intervention in der Pädagogischen Psychologie . . . . . . . . .

9.1

Diagnostik und Intervention bei der Schullaufbahnberatung . . . . . . . . . . . . . Diagnostik und Intervention beim Schuleintritt. . . . . . . . . . . . . . . . . . . . . . . . . Diagnostik und Intervention bei der Sonderschulüberweisung . . . . . . . . . . . . . . . . . Diagnostik beim Übertritt in weiterführende Schulen . . . . . . . . . . . . . . . . . . . . . . . . Diagnostik beim Übertritt in den tertiären Bildungsbereich . . . . . . . . . . . . . . . . . .

9.1.1 9.1.2 9.1.3 9.1.4

475

10.4 476 476

10.5 10.5.1

477

10.5.2

479

10.6 10.6.1

480

Diagnostik und Intervention bei individueller Schülerhilfe. . . . . . . . . . . . . Diagnostik und Beeinflussung der benötigten Lernzeit . . . . . . . . . . . . . . . . Diagnostik und Beeinflussung der aufgewendeten Lernzeit . . . . . . . . . . . . . . . . . Diagnostik und Beeinflussung von Instruktionsverständnis . . . . . . . . . . . . . . . . . . Diagnostik und Verbesserung des Unterrichts . . . . . . . . . . . . . . . . . . . . . . Diagnostik und Beeinflussung von Kontextfaktoren . . . . . . . . . . . . . . . . . . . . . . . Hochbegabtendiagnostik . . . . . . . . . . . .

481 482 482 483 483 484 485

495 496 498 499 501 502 507 507 509

511 514

515

518 521 524 524 526 527 529

XI

Inhaltsverzeichnis

11

Diagnostik und Intervention in weiteren Anwendungsfeldern . . . . . . . . . . . . . .

11.1 11.2 11.3

Neuropsychologische Diagnostik . . . . . . . Rechtspsychologische Diagnostik . . . . . . . Verkehrspsychologische Diagnostik . . . . . .

533 534 543 554

Anhang . . . . . . . . . . . . . . . . . . . . . . .

561

Literaturverzeichnis . . . . . . . . . . . . . .

567

Sachverzeichnis . . . . . . . . . . . . . . . . .

000

1 1 Einleitung 1.1

Definition

–2

1.2

Aufgabenbereiche und Fragestellungen – 4

1.3

Arten von Diagnostik – 7

1.4

Modellannahmen: Eigenschafts- und Verhaltensdiagnostik – 8

1.5

Diagnostische Strategien – 15

1.6

Meilensteine in der Geschichte der psychologischen Diagnostik – 16

1.7

Gesetzliche Rahmenbestimmungen

– 20

2

Kapitel 1 · Einleitung

1.1

Definition

1

Psychologische Diagnostik

Wie viele andere Begriffe in der Psychologie so haben auch diejenigen von Diagnose und Diagnostik ihre Wurzeln im Griechischen, wo das Verb »diagignoskein« eine kognitive Funktion mit den Bedeutungen »gründlich kennen lernen«, »entscheiden« und »beschließen« bezeichnet. Sieht man sich in der wissenschaftlichen Literatur nach Definitionen um, so findet man gewöhnlich Hinweise darauf, dass es sich bei Diagnostik um eine Methodenlehre handele, die im Dienste der Praktischen Psychologie stehe (Wellek, 1955) und das Ziel habe, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964). Sehr viel präzisere Angaben macht Leichner (1979), wenn er die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten Bedingungen sieht. Jäger und Petermann (1992, S. 11) fassen psychologische Diagnostik als System von Regeln, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten auf, mit deren Hilfe sowohl 4 psychologisch relevante Charakteristika von Merkmalsträgern gewonnen als auch 4 die erhobenen Daten zu einem diagnostischen Urteil integriert werden sollen, und zwar 4 mit dem Ziel einer Vorbereitung von Entscheidungen sowie Prognosen und deren Evaluation. Als Merkmalsträger kommen in Betracht: 4 Einzelpersonen, 4 Personengruppen, 4 Institutionen, 4 Situationen und 4 Gegenstände. An einer solchen Konzeptualisierung gefallen 2 Aspekte: 1. die Finalität, d. h. die Zielgerichtetheit von Psychodiagnostik, 2. das weite Spektrum der in Betracht gezogenen Merkmalsträger.

Zielgerichtetheit von Psychodiagnostik Diagnostik zur Behandlung

Diagnostik zur Beratung

Ad 1. Diagnostik wird nicht etwa um ihrer selbst willen betrieben, sondern weil es

bestimmte unerwünschte Zustände zu beheben bzw. erwünschte Gegebenheiten zu erhalten gilt. Eine solche Struktur liegt vor, wenn etwa ein Proband mit einer Verhaltensstörung um Hilfe bittet. Deren Erscheinungsform, Verursachung und Auslösung müssen zunächst eingehender ergründet werden, um auf den gewonnenen Erkenntnissen dann ein geeignetes Behandlungsprogramm aufzubauen, mit dessen Hilfe schließlich »Normalität« angestrebt wird; ob und inwieweit dieser Zustand schließlich erreicht wird, muss durch erneute Diagnostik ermittelt werden. In einem anderen Fall fragt vielleicht eine Abiturientin in einer Beratungsstelle danach, welche Studienrichtung oder Berufstätigkeit im Hinblick auf ihr Begabungsprofil »richtig« bzw. optimal sei. Auch hierbei muss zunächst der Ist-Zustand geprüft und zu einem Soll-Zustand (etwa: Erfolg im Studium oder Beruf) in Beziehung gesetzt werden. Dies macht den Rückgriff auf bestimmte Schlussfolgerungen notwendig (7 unten). Die Beispiele lassen sich beliebig fortsetzen. Ihre Gemeinsamkeit besteht darin, dass spezifische Aufgabenstellungen den Einsatz eines wissenschaftlichen Instrumentariums

3

1.1 · Definition

geboten erscheinen lassen, um zu einer Diagnose zu gelangen. Daran anknüpfend werden Erwägungen angestellt, welche Maßnahmen indiziert sind, um einen antizipierten Zustand zu erreichen. Nach der Anwendung der »Behandlung« (Therapie, Training, Platzierung, Empfehlung o. Ä.) oder auch begleitend zu ihr werden neue Informationen im Sinne von Diagnosen gesammelt, um festzustellen, ob sich die Differenz zwischen Ist- und Soll-Zustand im intendierten Sinne verringert hat. Aus der Medizin ist dieses Prozedere hinlänglich bekannt; dort kommt es bei Diagnose und Diagnostik vorrangig darauf an, Krankheiten zu erkennen und sie bestimmten Ursachen zuzuordnen. Lautet bei einer Schwellung des Mittelhandknochens beispielsweise die Diagnose »Entzündung«, so mag eine Behandlung in Form des Auflegens von Eisstücken verordnet werden. Am Rückgang der Schwellung ist die Richtigkeit der Kombination von Diagnose und Therapie ablesbar. Wären dagegen keinerlei Besserungen zu beobachten, so mag dies Anlass zu einer Revidierung der Diagnose (z. B. im Sinne von »bösartige Geschwulst«) mit dementsprechend anderer Intervention sein (z. B. Applikation von Kortison). Die Finalität impliziert, dass nicht nur festgestellt wird, welche Gegebenheiten im Augenblick vorliegen (»Was ist?«) und ggf. welche Umstände dafür maßgeblich sind (»Was war?« bzw. »Woher?« oder »Warum?«), sondern auch, was in Zukunft geschehen soll (»Wohin?«).

1

Diagnostik auf dem Weg vom Ist- zum Sollzustand

Was ist? Warum? Wohin?

Ad 2. Die Generalisierung auf andere Merkmalsträger als nur Personen erweitert das

Spektrum diagnostischer Problemstellungen ganz erheblich. Namentlich bei den Bemühungen um eine Evaluation immer weiterer Bereiche in Wirtschaft, Staat und Wissenschaft müssen Verwaltungs- und Produktionsabläufe, hergestellte Güter und erbrachte Dienstleistungen sowie deren Akzeptanz durch potenzielle Abnehmer im weitesten Sinne bewertet werden, des Weiteren wissenschaftliche Leistungen, die Qualität von Lehrveranstaltungen usw. (also entweder materielle oder abstrakte Gegebenheiten), darüber hinaus Ereignisse und Prozesse, und zwar häufig von einem hohen Komplexitätsgrad – all dies setzt eine fundierte Bestandsaufnahme oder Diagnose voraus. Gleichwohl werden es meist Menschen sein, die den Gegenstand psychologischer Diagnostik ausmachen. Im Hinblick darauf ist aber an der Begriffserläuterung von Jäger und Petermann (1992) zu kritisieren, dass sie die eher »typischen« Merkmalsausprägungen, also die Charakteristika, in den Mittelpunkt rückt und veränderungsorientierte Ansätze nicht explizit herausstellt. Unter Berücksichtigung dieses Gesichtspunktes definieren wir Psychodiagnostik folgendermaßen: Definition Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psychologie. Soweit Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, interindividuelle Unterschiede im Verhalten und Erleben sowie intraindividuelle Merkmale und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, hinlänglich präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren evtl. Veränderungen in definierten Situationen möglich werden.

Für gegenständliche oder abstrakte Merkmalsträger, deren Beschaffenheit u. a. dadurch diagnostiziert wird, dass Personen Urteile über ihre Wahrnehmungen und Eindrücke liefern, gilt diese Definition sinngemäß.

Bewertung von Gegebenheiten, Ereignissen und Prozessen

Definition der Psychodiagnostik

4

1

Kapitel 1 · Einleitung

. Abb. 1.1. Das diagnostische Dreieck. (Aus Hossiep & Wottawa, 1993, S. 132)

Wirtschaftliche Rahmenbedingungen

Technische Rahmenbedingungen

Exploration Differentielle Interview

Sozial-

Befragung

Ψ Ψ Ψ

Motivations-

Methoden

Grundlagen Kognitions-

Fragebogen Psychologische Diagnostik

Testverfahren

Sprach-

Ψ

Organisations- Forensische

Ψ

Ψ

Entwicklungs- Ψ

Verhaltensbeobachtung

Arbeits-

Ψ

Ψ

Pädag.

Klinische

Ψ

Ψ

Anwendungen

Kulturelle Rahmenbedingungen

Bereitstellung von Entscheidungshilfen

Hier wie dort besteht das Ziel der Erkenntnisbemühungen darin, bei konkreten Fragestellungen wissenschaftlich fundierte Entscheidungshilfen für unterschiedliche Handlungs- und/oder Behandlungsmöglichkeiten bereitzustellen. Die psychologische Diagnostik konstruiert und verwendet hierzu spezielle Verfahren, die nicht nur im Hinblick auf ihre praktische Brauchbarkeit, sondern auch in Bezug auf ihre theoretische Fundierung fortwährend kritisch zu überprüfen sind. Die theoretische Begründung bedeutet den Rekurs auf die wissenschaftlichen Ergebnisse der (Gesamt-)Psychologie, deren Stand in den einzelnen Teildisziplinen dokumentiert wird. Methoden, Anwendungen und Grundlagen konstituieren somit die 3 Seiten einer Art »Spannungsfeld, in dem psychologische Diagnostik entsteht und fruchtbar wird« (Hossiep & Wottawa, 1993, S. 132; . Abb. 1.1). 1.2

ABO-Psychologie

Soziale Rahmenbedingungen

Aufgabenbereiche und Fragestellungen

Nach der obigen Definition werden die Aufgabenbereiche und Fragestellungen der Diagnostik von ihren Anwendungsbereichen bestimmt. Diese lassen sich grob gliedern nach den Bereichen Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie, Pädagogische Psychologie und Klinische Psychologie. Fragestellungen aus der ABO-Psychologie sind die Unterstützung der Ausbildungsund Berufswahl, Auswahl und Weiterqualifizierung von Beschäftigten, Piloten oder Füh-

5

1.2 · Aufgabenbereiche und Fragestellungen

rungskräften, des Weiteren auch die Diagnostik von Organisationen, Institutionen und geschäftlichen Abläufen. Im Rahmen der Pädagogischen Psychologie geht es um die Feststellung der Schulfähigkeit, die Eignung für weiterführende Schulen und Studiengänge, Überprüfung der Sonderschulbedürftigkeit, Erfassung der Eignung für Förder- oder Umschulungsmaßnahmen und die Überprüfung von deren Erfolg sowie um Erziehungsprobleme in Schule und Familie. Die Klinische Psychologie versucht mit Hilfe diagnostischer Methoden, den Verursachungsbedingungen psychischer Störungen auf die Spur zu kommen und Ansatzpunkte für Interventionsmaßnahmen zu finden. Beispiele für Fragestellungen sind Abhängigkeiten, Depressionen, Angststörungen, psychophysiologische Störungen (z. B. Asthma, Bluthochdruck), Essstörungen, Partnerschaftsprobleme, Störungen des Sexualverhaltens und der Stressverarbeitung, um nur einige zu nennen. Daneben bestehen traditionell weitere Anwendungsfelder. So gehört es beispielsweise seit langem zu den Aufgaben der Forensischen Psychologie, fundierte Aussagen über die strafrechtliche Verantwortlichkeit eines Täters oder – im Falle von Minderjährigen – dessen Deliktfähigkeit zu machen, des Weiteren über die Glaubwürdigkeit von Zeugen, die Geschäftsfähigkeit bestimmter Personen oder die Bewährungsprognose von Inhaftierten für den Fall ihrer Freilassung. In jedem Fall sind spezifische diagnostische Verfahren nötig. In der Markt- und Werbepsychologie stehen hingegen häufiger Produkte im Mittelpunkt des Interesses. So soll z. B. die Anmutungsqualität eines neuen Artikels oder einer Anzeige ermittelt werden, um die Aussichten auf positive Wirkungen bei den potenziellen Kunden zu optimieren. Analoge Problemstrukturen liegen mitunter in der Ökologischen Psychologie vor, wenn es darum geht, die subjektiven Eindrücke zu diagnostizieren, die durch Wohn-, Arbeits- und Schulumwelten bei den jeweiligen Bewohnern hervorgerufen werden. Im Falle der Verkehrspsychologie besteht – neben der Erfassung der Fähigkeit zum Führen von Fahrzeugen – eine häufig wiederkehrende Problemstellung darin, Ampeln und Schilder so zu platzieren, dass sie gut wahrgenommen werden können, und Kreuzungen und Straßen so zu gestalten, dass die Risiken von Unfällen gemindert werden. In der Pharmakopsychologie interessieren vor allem Präparate mit ihren Haupt- und Nebenwirkungen. In der Gesundheitspsychologie schließlich, um die Reihe von Beispielen abzuschließen, mag die Wirksamkeit eines Programmes zur Einschätzung bestimmter Medikationen oder Diäten Gegenstand diagnostischer Untersuchungen sein. Wie die Auflistung möglicher Beispiele gezeigt hat, handelt es sich bei den Merkmalsträgern, über die diagnostische Informationen eingeholt werden sollen, entweder (direkt) um Individuen bzw. Gruppen von Personen, oder die Merkmalsträger bestehen aus materiellen Substraten, Objekten mit »Dingcharakter« sowie mitunter auch aus Prozessen in Institutionen oder sozialen Gruppen. In diesem Fall manifestieren sich deren Wirkungen erst in der Interaktion mit Menschen. Deshalb müssen deren körperliche und – was hier mehr interessiert – psychische Korrelate in Form von Kognitionen, Einstellungen, Emotionen und Verhaltensweisen registriert werden. Neben Fragestellungen der geschilderten Art, die durch die Suche nach der optimalen Treatmentwahl dem Idealbild von den Aufgaben der psychologischen Diagnostik am nächsten kommen, existiert noch durch eine Reihe völlig anderer Vorgaben oder Motive ein gewisser gesellschaftlicher Bedarf an Diagnostik (nach Wottawa & Hossiep, 1987):

1

Pädagogische Psychologie

Klinische Psychologie

Forensische Psychologie

Markt- und Werbepsychologie

Ökologische Psychologie Verkehrspsychologie

Pharmakopsychologie Gesundheitspsychologie

6

1

Kapitel 1 · Einleitung

Wege der Selbstdiagnostik

Probleme der Selbstdiagnostik

Streben nach Selbsterkenntnis

Viele Menschen interessieren sich, besonders in Zeiten krisenhafter Umstellungen in ihrem Leben, bei denen Fragen des Warum und Wohin eine größere Rolle spielen, besonders nachhaltig für die eigene Person, ihren Charakter, ihre Potenziale und Verhaltensgewohnheiten. Der Blick in selbstverfasste Tagebücher mag dabei hilfreich sein; objektiveren Aufschluss aber dürften i. Allg. Gespräche mit Außenstehenden über das Selbst liefern. Großer Beliebtheit erfreuen sich in diesem Zusammenhang die mehr oder weniger ausgearbeiteten Tests in Publikationen der verschiedensten Art. Ein nicht geringes Problem besteht bei der Selbstdiagnostik darin, dass selbst unter Verwendung brauchbarer Verfahren ein Verständnis für die psychologischen Fachtermini zur Bezeichnung einzelner Konstrukte nicht garantiert werden kann und es offen bleibt, welche Schlussfolgerungen die betreffende Person schließlich aus ihrer Diagnose für sich zieht. Bedürfnis nach Unsicherheitsreduktion

Mitmenschen erzeugen Unsicherheit

Frühe Versuche einer Ausdrucksdiagnostik

Seit jeher erleben Mitmenschen u. a. auch Unsicherheit dahingehend, was von ihnen ggf. zu erwarten oder zu befürchten sei. Eine rasche und richtige Diagnose des Gegenübers stellt in diesem Zusammenhang die Voraussetzung für ein angemessenes eigenes Verhalten dar. Schon frühzeitig sind deshalb Zeichen propagiert worden, um aus der äußeren Beschaffenheit auf den Charakter schließen zu können (z. B. »Fuchs-« oder »Habichtgesicht«, »Ohren wie ein Esel«, »Behaarung wie ein Tier« u. Ä.). Auch die wissenschaftliche Fortführung in Gestalt der Phrenologie, d. h. aus der Form des Schädels auf die Ausprägung von bestimmten Sinnen zu schließen, war nicht erfolgreich. Demgegenüber hat die Analyse von Mimik und Gestik – d. h. der dynamischen Elemente der körperlichen Erscheinung – mit dem Ziel, aus deren Deutung die Persönlichkeit zu erkennen, nicht an Bedeutung verloren. Ein Teil dieser Ausdruckspsychologie ist im Übrigen auch die Graphologie. Trotz einer Reihe einschlägiger Lehrbücher (z. B. Lersch, 1948; Gruhle, 1948) und außerordentlich instruktiver Darstellungen von Detailproblemen (z. B. Rohracher, 1965) handelt es sich bei der individuellen Ausgestaltung der Ausdrucksdiagnostik (soweit es also nicht nur um das richtige Verständnis von situativen Verhaltensvarianten wie Lachen oder Weinen geht) insgesamt wohl heute noch mehr um Intuition und persönliche Kunst als um fundierte Wissenschaft. Wunsch nach Rechtfertigung

Diskriminierung von Gruppen

Mitunter liefern diagnostische Informationen über einzelne oder Gruppen von Personen wie Andersgläubige, Farbige, Behinderte oder Ausländer, denen gegenüber (aus welchen Gründen auch immer) tiefsitzende Ressentiments erlebt werden mögen, gleichsam die Rationalisierung für die bestehenden Vorurteile. Oft genug werden die niedrigeren Punktwerte solcher Personen in verbalen Tests (wie etwa die durchschnittlichen Minderleistungen von Schwarzen gegenüber Weißen in allgemeinen IQ-Tests) durch die Unfairness von Tests produziert, d. h. die Resultate stellen letztlich eine Konsequenz ideologisch motivierten Wunschdenkens dar. Ungeachtet einer solchen Genese erweisen sich entsprechende Rechtfertigungen als relativ verbreitet, weil sie einen bequemen Weg darstellen, selektiv diskriminierend zu wirken, ohne kognitive Inkonsistenz erleben zu müssen. Verwaltung von Mangelzuständen

Diagnostik zu Auswahlzwecken

Immer wieder kommt es vor, dass verfügbare Ressourcen nicht ausreichen, um die Nachfrage zu befriedigen. Ein Beispiel dafür mögen Studien- und Arbeitsplätze bilden.

7

1.3 · Arten von Diagnostik

In diesen Fällen scheint es so zu sein, als ob die Verteilung der knappen Güter auf der Basis von psychodiagnostischen Informationen von der öffentlichen Meinung eher akzeptiert würde, weil als »gerechter« empfunden, als wenn nach Zufall, Anciennität oder Vorleistungen entschieden wird. Für Hossiep und Wottawa (1993, S. 135) benötigen gerade demokratische Gesellschaften rationale, nach wissenschaftlichen Methoden entwickelte Selektionsverfahren für verantwortungsvolle Positionen; mit Hinweis auf Hersch (1974) sei leistungsbezogene Selektion daher »kein Gegensatz, sondern die Grundlage einer funktionierenden Demokratie«. Oft läuft die Frage eines Einsatzes von Tests in diesem Zusammenhang auf die Frage hinaus, ob der Nutzen (im Sinne einer Verbesserung der Prognose) und der Gewinn an Prestige (durch das Einsetzen einer auf rationalen Prinzipien aufbauenden Technik) die Kosten (in Einheiten von Geld, Zeit, Mühen, Einschränkung von Gleichheitsidealen u. Ä.) aufwiegen. 1.3

1

Kosten und Nutzen

Arten von Diagnostik

Die bereits auf den ersten Blick sehr differenzierenden Anwendungsfelder unterscheiden sich auch systematisch nach der Art der dort zum Einsatz kommenden Diagnostik. Im Bereich der ABO- und pädagogischen Psychologie handelt es sich vorwiegend um sog. institutionelle Diagnostik, die nach Cronbach und Gleser (1965) in Institutionen mit häufig wiederkehrenden gleichbleibenden Fragestellungen praktiziert wird, während individuelle Diagnostik vor allem in der klinischen Psychologie betrieben wird, wo sehr spezielle und häufig wechselnde Problemstellungen dominieren (. Abb. 1.2). Institutionelle Diagnostik ist primär Selektionsdiagnostik. Als Personenselektion (Pawlik, 1976) will sie geeignete Personen für bestimmte Anforderungen (Arbeitsplatz, Schulart, Studienfach) ermitteln. Als Bedingungsselektion versucht sie, geeignete Bedingungen auszuwählen, unter denen eine Person mit bestimmten Eignungsmerk-

Klinische Psychologie

Institutionell

Individuell

häufig

häufig

Selektionsdiagnostik

Personenselektion

Bedingungsselektion

(= Konkurrenzauslese)

(= Eignungsdiagnostik)

Modifikationsdiagnostik

Verhaltensmodifikation

Selektion von Personen oder Bedingungen

. Abb. 1.2. Verschiedene Arten psychologischer Diagnostik

Arten von Diagnostik

ABO- und Pädagogische Psychologie

Diagnostik: Institutionell oder individuell

Bedingungsmodifikation

8

Kapitel 1 · Einleitung

1 Modifikation von Verhalten oder Bedingungen

malen erfolgreich sein kann (Platzierung von Bewerbern auf geeignete Arbeitsplätze, Berufsempfehlung). Individuelle Diagnostik im Rahmen klinisch-psychologischer Fragestellungen ist dagegen vornehmlich Modifikationsdiagnostik. Sie soll entweder ermitteln, welche spezifischen Verhaltensweisen einer Person verändert werden müssen (Verhaltensmodifikation; z. B. Modifikation aggressiven Verhaltens bei Erziehungsschwierigkeiten) oder welche externen Bedingungen zu ändern sind (Bedingungsmodifikation; z. B. im Rahmen einer Familientherapie bei Erziehungsschwierigkeiten), um ein Problemverhalten abzubauen. 1.4

Eigenschaften werden als stabil angesehen

Verhalten wird als veränderbar angesehen

Eigenschaften (»traits«) stellen hypothetische Konstrukte dar

Eigenschaften werden aus beobachtbarem Verhalten erschlossen

Modellannahmen: Eigenschafts- und Verhaltensdiagnostik

Eine Selektionsdiagnostik, die Personen aufgrund von Eignungsmerkmalen akzeptiert oder ablehnt bzw. bestimmten Arbeitsplätzen zuweist, geht davon aus, dass sich Personen hinsichtlich ihrer eignungsrelevanten Eigenschaften miteinander vergleichen lassen. Die fraglichen Eigenschaften, deren Genese von eher sekundärem Interesse ist, werden als über die Zeit hinweg relativ stabil und situationsinvariant angesehen, sodass die Diagnose ihres Ausprägungsgrades in gewisser Weise die Fortschreibung eines IstZustandes erlaubt und somit Prognosen auf zukünftiges Verhalten zulässt. Der situationale Kontext spielt dabei eine untergeordnete Rolle. Im Gegensatz hierzu geht eine Modifikationsdiagnostik davon aus, dass Verhalten erlernt und damit prinzipiell veränderbar ist und in Abhängigkeit von seinem situationalen Kontext variiert. Dementsprechend richtet sich das Interesse stärker auf Situationen, die ein Verhalten bedingen und aufrechterhalten, des Weiteren auf intrapsychische Veränderungen sowie auf Ansatzpunkte, um ein Problemverhalten zu modifizieren. Diese verschiedenen, hier nur grob umrissenen diagnostischen Strategien und Zielsetzungen rekurrieren dabei auf 2 grundsätzlich verschiedene Modelle oder Prinzipien, die mit Eigenschafts- bzw. Verhaltensdiagnostik bezeichnet werden. Die grundlegende Annahme eigenschaftstheoretischer Konzepte besteht darin, dass sich das Erleben und Verhalten von Menschen in Form von Eigenschaften (»traits«) beschreiben lässt. Diese werden aufgefasst als »relativ breite und zeitlich stabile Dispositionen zu bestimmten Verhaltensweisen, die konsistent in verschiedenen Situationen auftreten« (Amelang & Bartussek, 1990, S. 61 ff.). Eigenschaften sind nicht direkt beobachtbar. Sie stellen hypothetische, gedankliche, konstruierte Gebilde dar, somit Konstrukte, die aus direkt beobachtbaren Verhaltensäußerungen nur erschlossen werden. Wenn wir beispielsweise beobachten, wie ein Kind 4 einem Huhn die Federn ausreißt, 4 sein Spielzeug zerstört, 4 einen Kameraden schlägt und 4 einer erwachsenen Person Schimpfworte nachruft (alles konkrete Verhaltensweisen!), dann »denken« wir wahrscheinlich an die nicht direkt beobachtbare Eigenschaft »Aggressivität«. Mit anderen Worten: Wir ordnen sehr verschiedene Verhaltensweisen, die vom Ablauf und den beteiligten Körperteilen nur wenig miteinander zu tun haben mögen, nach bestimmten Gesichtspunkten zu Kategorien oder Klassen, welche nach unserem Dafürhalten etwas gemeinsam haben. Des Weiteren bezeichnen wir die so gebildeten Kategorien mit Eigenschaftsnamen und nehmen innerhalb der Kategorien eine mehr oder weniger explizite Skalierung nach

9

1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik

Häufigkeits- und Intensitätsgesichtspunkten vor: Wer viele der fraglichen Verhaltensweisen und/oder diese in stärkerer Penetranz zeigt, »hat« eine stärkere Ausprägung auf der »dahinterstehenden«, von uns nur gedachten Eigenschaftsdimension. Die Zusammenfassung der jeweiligen Verhaltensweisen in den besagten Kategorien erfolgt aus Gründen der Ökonomie: Um jemanden zu charakterisieren, bedarf es nicht mehr des Auflistens zahlreicher einzelner Verhaltensweisen, sondern es genügt die Nennung des betreffenden Attributes. Die Verhaltensweisen haben für die Eigenschaften die Funktion von Indikatoren, d. h., sie stehen dazu in einem Verhältnis wie Zeichen zu Bezeichnetem. (Da aber das Indizierte nur aus den Indikatoren erschlossen wird, wäre es unzulässig, das Erste als ursächlich für das Zweite anzusehen, etwa nach dem Prinzip: Der Täter hat gestohlen, weil er ein Dieb ist, oder ein Mitmensch raucht, weil er ein Raucher ist, usw. Ein derartiger Schluss wäre tautologisch, denn in einem solchen Fall würde dasjenige, was aus Verhaltensweisen nur erschlossen wird, zur Ursache eben dessen gemacht, was die Grundlage der Schlussfolgerung ist.) Nach der eigenschaftstheoretischen Konzeption von Persönlichkeit besteht der zweckmäßigste Weg zur Vorhersage des künftigen Verhaltens von Personen darin, deren Eigenschaften im Zuge psychodiagnostischer Bemühungen genau zu erfassen. Aus der zentralen Annahme der transsituativen Konsistenz des Verhaltens resultiert die Vorhersage, dass sich eine Person gemäß ihrer Eigenschaftsausprägungen verhält, und zwar relativ unbeeinflusst vom jeweiligen situativen Kontext. Ein relativ hoher Punktwert in einem Ängstlichkeitstest spräche dafür, dass der betreffende Proband die Eigenschaft aufweist, ängstlich zu sein. Aus diesem Ergebnis lässt sich prognostizieren, dass er auch unter bestimmten anderen, im Test nicht notwendigerweise erfassten Umständen »ängstlich« reagieren wird, also z. B. vor einem wilden Tier weglaufen oder nicht von einem 10-m-Turm ins Schwimmbecken springen wird (. Abb. 1.3). Diesen Modellvorstellungen liegt somit eine Art Analogieschluss zugrunde, was die Inferenz von den Indikatoren der Prädiktorvariablen auf das angeht, was als Kriterium diagnostiziert und prognostiziert werden soll. Für diese Schlussfolgerung bedarf es (zunächst) nicht der Voraussetzung, dass ein Zusammenhang zwischen Test und Kri-

1

Verhaltensweisen fungieren als Indikatoren für Eigenschaften

Schlussfolgerung aus Eigenschaften auf zukünftiges Verhalten

Prinzip des Analogieschlusses

. Abb. 1.3. Eigenschaftsdiagnostik ist z. B. dort relevant, wo nicht alle kritischen Situationen simuliert werden können

10

Kapitel 1 · Einleitung

1

Vorhersagen für bedeutungsvolle Situationen gewünscht

Indikatoren müssen repräsentativ sein

Validierung von Tests für verschiedene Personengruppen

Normorientierte Messung als Bezugsrahmen: Vergleich mit einer Population

terium empirisch nachgewiesen ist (wenngleich sich die Zweckmäßigkeit des Schlusses auf Dauer durch entsprechende Evidenzen erweisen sollte). In verschiedenen Bereichen von Gesellschaft und Wirtschaft wurden denn auch seit alters her immer wieder Vorhersagen auf der Basis dieses Modells angestellt, obwohl entweder aus prinzipiellen Gründen oder nur vorläufig und vorübergehend der unterstellte Zusammenhang empirisch (noch) nicht aufgezeigt werden konnte. Beispiele dafür mögen jene Fälle liefern, in denen für kaum simulierbare Aufgaben (wie z. B. dem Verhalten von Kontrollpersonal bei unerwarteten Störungen eines Kernkraftwerkes) gleichwohl die vermutlich bestgeeigneten Personen ausgewählt werden müssen und es sehr lange dauern kann, bis später einmal – wenn überhaupt – irgendwelche »Bewährungsmaße« anfallen. Das allgemeine Kennzeichen einer derartigen Konstellation besteht darin, Vorhersagen für bedeutungsvolle Situationen machen zu müssen, für die aber die im Alltag anfallenden Beobachtungsgelegenheiten nur eine unzureichende Basis liefern (7 Abschn. 1.6). Solche Gelegenheiten bestanden etwa bei den Prüfungen für Anwärter auf Staatsposten im alten China oder bei der Auswahl von Beamten in England für den Dienst in den Kolonien. Auch die weithin gebräuchliche Verwendung von Biografien, Schulnoten und Intelligenzpunktwerten als geradezu universellen Orientierungsgrößen für den »allgemeinen Berufserfolg« beruht primär auf diesem Analogieschluss. Die zur Messung der jeweiligen Eigenschaft herangezogenen Aufgaben bzw. die in ihnen thematisierten Verhaltenstrends (z. B. »Gehen Sie gern auf Parties?«, »Übernehmen Sie bei gemeinsamen Aktionen gern die Führung?« usw.) müssen repräsentativ für die interessierende Eigenschaft sein. Inwieweit dieses Kriterium bei der Entwicklung von Tests dann auch erfolgreich eingehalten worden ist, erweist sich an der empirisch zu überprüfenden Validität eines Verfahrens (7 dazu unten): Hier wird – zwar durchaus unterschiedlich im Fall einzelner Skalen, aber doch in einer prinzipiell stets gleichen Vorgehensweise – festgestellt, inwieweit die eigenschaftstheoretischen Werte der Testung mit Einschätzungen derselben Eigenschaft von anderer Seite (z. B. Lehrer, Vorgesetzte, Kameraden usw.) oder mit gänzlich anderen Indikatoren für die Eigenschaftsausprägungen, etwa aus objektiven Verhaltensmanifestationen (wie Krankheiten, Unfälle, berufliche Position und dergleichen), übereinstimmen. Diese Validierung mag dann entweder eine Verrechnungsvorschrift für die diagnostischen Indikatoren (z. B. Subtests einer Batterie von Skalen) ergeben, die – im Hinblick auf einen maximalen korrelativen Zusammenhang mit dem Kriterium – für alle Personen gleich ist. In einem solchen Fall mögen zwar die einzeln erfassten Variablen in multiplen Korrelationen unterschiedliche Gewichtungsfaktoren erhalten; diese Gewichtungsfaktoren gelten dann aber für alle Personen bzw. Personengruppen. Unterschiede in den verrechneten Testergebnissen für einzelne Personen beruhen dann allein auf interindividuellen Unterschieden in der gemessenen Ausprägung der diagnostizierten Merkmale. Oder es müssen Subgruppen von Personen voneinander unterschieden werden, für die verschiedene Verrechnungsvorschriften gelten (d. h. gemäß der Gruppenzugehörigkeit verschiedene Gewichtungsfaktoren für die einzelnen Variablen in multiplen Korrelationen), weil aufgrund psychologischer Faktoren die Funktionalität der einzelnen Eigenschaften variiert. Dies ist beispielsweise für die sog. »over-« und »underachiever«, erfolgs- und misserfolgsorientierte Probanden, Personen mit unterschiedlichen Lebenserfahrungen und Temperamenten der Fall (7 dazu ausführlicher Abschn. 7.2). Ungeachtet solcher Konsequenzen eines empirischen Aufzeigens des korrelativen Zusammenhanges zwischen Index und Indiziertem (Test und Kriterium) ist der Bezugsrahmen der eigenschaftstheoretischen Vorgehensweise die normorientierte Mes-

11

1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik

1

sung: Zwischen den einzelnen Verhaltensweisen werden je nach Auftretenshäufigkeit oder -intensität quantitative Abstufungen getroffen. Die individuellen Messwerte stehen so für die jeweilige Ausprägung in der betreffenden Dimension im Vergleich zur Population. Aus der Kenntnis und dem Verständnis der Eigenschaften (als den »grundlegenden Strukturmerkmalen«) leitet somit der trait-orientierte Diagnostiker die Erwartung ab, späteres Verhalten vorhersagen zu können. Demgegenüber wählen Verhaltenstheoretiker einen sehr pragmatischen und direkteren Zugang, indem sie aus konkret beobachtetem Verhalten auch nur dieses vorhersagen wollen: ! »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372).

Nicht was eine Person an Eigenschaften im Sinne der Traitansätze »hat« oder von was sie, etwa im Sinne der psychodynamischen Betrachtungsweise, »getrieben« wird, steht im Vordergrund des Interesses verhaltenstheoretischer Analysen, sondern was diese Person in verschiedenen Situationen »tut« (nach Mischel, 1968, S. 10).

Verhaltenstheoretischer Ansatz

! Die Persönlichkeit ist lediglich eine »intervenierende Variable, die definiert ist durch die Wahrscheinlichkeit, mit der eine Person bestimmte Verhaltenstendenzen in einer Reihe von Situationen ihres täglichen Lebens manifestiert« (Goldfried & Kent, 1976, S. 9).

Einer solchen Begriffsumschreibung gemäß ist beim Versuch, die Persönlichkeit zu beschreiben und ihr Verhalten vorherzusagen, weniger nach »signs« (Indikatoren, Anzeichen) für den Charakter als mehr nach einem repräsentativen »sample« (Stichproben, Beispiele) von Verhaltensweisen zu suchen (die Unterscheidung zwischen Zeichen- und Stichprobenfunktion von Items geht auf Goodenough, 1949, zurück). Im Gegensatz zur herkömmlichen Messung von Eigenschaften bestehen die Tests der verhaltenstheoretischen Schule demnach aus Stichproben des vorherzusagenden (Kriteriums-)Verhaltens selbst (. Abb. 1.4). . Abb. 1.4. Aus Beobachtungen von Verhaltensweisen in »kritischen« Situationen kann man auf zukünftiges Verhalten in ähnlichen Situationen schließen

12

Kapitel 1 · Einleitung

1

Prinzip des Induktionsschlusses

Beispiele dafür sind z. B. Farbtüchtigkeitsbestimmungen (bei denen die Probanden unterschiedliche Farben gleicher Helligkeit erkennen müssen) oder die Prüfung von Kenntnissen der Straßenverkehrsgesetze (wo in den theoretischen Prüfungen zur Erlangung der Fahrerlaubnis die Kandidaten zu gezeichneten oder geschilderten Szenarien aus dem Verkehrsgeschehen Stellung nehmen sollen). Des Weiteren lässt man die geforderte Tätigkeit auch direkt ausüben, wie z. B. in der praktischen Führerscheinprüfung ein Fahrzeug bewegen oder bei der Entscheidung über die Besetzung einer Schreibkraftstelle die Bewerber während einer Zeit schreiben, um dabei Geschwindigkeit und Richtigkeit der Arbeitsleistung beobachten zu können. Der Schluss ist dabei ein solcher der Induktion, d. h. es wird davon ausgegangen, dass das hier und jetzt (= speziell) gezeigte Verhalten auch zu anderen Anlässen (= allgemein) auftritt. Zwar ist dieser Schluss nicht logisch zwingend, doch wird man in zahlreichen Fällen auf die Verlässlichkeit eines solchen Vorgehens bauen dürfen. Da es mitunter unökonomisch und langwierig ist, Beobachtungen in natürlichen Situationen anzustellen, werden diese gewöhnlich in der experimentellen Anordnung des Rollenspiels »nachgestellt«. Gebräuchlich ist auch die Auswertung von verbalen Äußerungen des Individuums über seine Reaktionsweisen in spezifischer Umgebung. Ein Beispiel für den eigenschaftstheoretischen Ansatz soll das eben Ausgeführte veranschaulichen: Beispiel

Bestimmte Deutungen im Rorschach-Test gelten als Indikatoren für Angst. Wenn ein Proband im Thematischen Apperzeptionstest Geschichten liefert, in denen böse Mitmenschen dem »Helden« Schaden zufügen, dieser vom Pech verfolgt ist, zaudert oder starke Aggressionen zeigt, wird man auch dieses als Zeichen seiner habituellen Ängstlichkeit werten. Der Rückschluss auf die Ausprägung in der Dimension »Ängstlichkeit« soll sodann über das Verständnis der Personen hinaus eine Vorhersage von deren zukünftigem Verhalten gewährleisten. Eine solche Prognose ist u. a. belastet durch die Unsicherheit der Beziehung zwischen Index und Indiziertem; denn dass die Antwort »Blut« auf Angst hinweist, die Deutung einer weißen Fläche eine negativistische Haltung indiziert (s. Hörmann, 1964), muss noch durch gesonderte Validitätsstudien erwiesen werden.

Anders gelagert sind die Verhältnisse bei der verhaltenstheoretisch beeinflussten Gewinnung von Informationen über den Einzelnen. Hier wird nach Möglichkeit eine »angemessene Repräsentation von Reizsituationen« (Goldfried & Kent, 1976) hergestellt. Für die Messung von Angst bedeutet das z. B., dass solche Stimulationsbedingungen mit Hilfe von 4 Filmen, 4 Dias oder 4 verbalen Beschreibungen Inhaltsvalidität wichtig

realisiert werden, die repräsentativ für Angstinduktion sind. Entsprechend spielt das Konzept der Inhaltsvalidität für verhaltenstheoretische Tests eine wichtige Rolle (zu den Details s. Schulte, 1976; Pawlik, 1976). Als besonders fruchtbar hat sich der verhaltenstheoretische Ansatz bei der Modifikation von Verhaltensweisen erwiesen. Die eigenschaftsorientierte Diagnostik verfolgt als Hauptziel eine Klassifikation von Personen gemäß ihrer Messwerte in taxonomische

13

1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik

Einheiten (wie z. B. »Schizophrenie«, »Paranoia« und dergleichen), woraus aber noch keinerlei Handlungsanweisungen für eine Beeinflussung des Verhaltens resultieren. Dagegen liefert der lerntheoretische Ansatz Informationen, die aufgrund ihrer höheren Spezifität und Situationsbezogenheit wesentlich mehr Bedeutung für jegliche Intervention besitzen. Das zentrale Instrument zur Erfassung der situativen Faktoren, die das Verhalten kontrollieren und hervorbringen, stellt dabei die funktionale Analyse (Kanfer & Saslow, 1976, S. 34 ff.) dar. Inzwischen gehört diese Methode zum Standardrepertoire jeder lerntheoretisch betriebenen Therapie. Sie beinhaltet eine Untersuchung 4 des Kontextes, in dem ein kritisches Verhalten (z. B. Bettnässen) auftritt, 4 der Qualität und Intensität des kritischen Verhaltens, 4 der Folgen des Verhaltens für den Betreffenden und seine Umwelt, 4 der Möglichkeiten der Person und ihrer Umwelt für eine Modifikation und schließlich 4 der möglichen Rückwirkungen einer Verhaltensänderung auf den Betreffenden und seine Umwelt.

Lerntheoretischer Ansatz Funktionale Verhaltensanalyse

Die Informationen für die funktionale Verhaltensanalyse werden gewonnen aus 4 Interviews mit dem Probanden oder Patienten selbst sowie Bekannten der zu diagnostizierenden Person, 4 Testergebnissen und Verhaltensbeobachtungen, 4 einer Erkundung der Vorgeschichte des Klienten und anderen Quellen. Der damit verfolgte Ansatz geht davon aus, »dass eine Beschreibung des problematischen Verhaltens, seiner kontrollierenden Bedingungen und der Mittel, durch die es geändert werden kann, die angemessensten ›Erklärungen‹ für das Verhalten … sind« (Kanfer & Saslow, 1976, S. 35). Sofern das Verhalten selbst die Grundlage von Verhaltensvorhersagen ist, verfügen verhaltenstheoretische (und damit behavioristische) Methoden über einige offenkundige Vorzüge: Absichtliche oder unabsichtliche Verfälschungen sind weniger wahrscheinlich, da es schwerer fallen dürfte, das Verhalten selbst und nicht nur einen Bericht darüber zu verfälschen. Ferner ergibt sich in geringerem Maße als bei den eigenschaftsorientierten Messungen die Frage nach der Fairness von Tests (s. dazu Möbus, 1978; Wottawa & Amelang, 1980; Bartussek, 1982). Schließlich ist auch der zunehmend kritisch beurteilte Gesichtspunkt einer Wahrung der persönlichen Intimität und individuellen »Privatheit« (Kruse, 1980) weniger akut, da nicht in die »Tiefen« einer Person eingedrungen wird (s. Sherman, 1979, S. 238/39).

Vorzüge des verhaltenstheoretischen Ansatzes

Einige Beispiele für verhaltenstheoretische Methoden

Zur Untersuchung des individuellen »Belohnungsaufschubs« (»delay of gratification«) muss sich der Proband zwischen einem weniger wertvollen Gegenstand, der sofort erhältlich ist, und einem wertvolleren, der aber erst nach Ablauf einer Zeit zur Verfügung steht, entscheiden. Von den in der Testsituation mit ganz verschiedenen Objekten realisierten Entscheidungen (z. B. 5 DM jetzt gegenüber 10 DM in 2 Wochen) wird angenommen, dass sie in derselben Weise auch außerhalb der Untersuchungssituation erfolgen würden. Sehr verbreitet ist die Technik des »behavior sampling«, und zwar vor allem in der Klinischen Psychologie. Dort stellt häufig das Personal einer therapeutischen Institution im Hinblick auf die Behandlung eingehende Verhaltensbeobachtungen an.

1

»Behavior sampling« in der Klinischen Psychologie

14

1

Kapitel 1 · Einleitung

Beispiel für Fragebogen . Abb. 1.5. Auszug aus dem »Fear Survey Schedule FSS« und dem »Rathus Assertiveness Schedule RAS«

Rollenspiel

Fragebogen

Beispiel Fear Survey Schedule (FSS) »Die Stichworte in diesem Fragebogen beziehen sich auf Dinge und Erfahrungen, die Angst oder unangenehme Gefühle hervorrufen können. Machen Sie bitte für alle Stichworte jeweils an der Stelle der Punkteskala ein Kreuz, die am besten den Grad Ihrer zurzeit bestehenden Angst beschreibt.« gar ein deutsehr nicht wenig lich stark stark Würmer      Tote Tiere      Leute mit Missbildungen      Eine Straße überqueren      Weite offene Räume      Laute Stimmen      Einem Kampf zusehen      Menschliches Blut      Bei einer Operation zusehen      (Aus Schulte, 1976, S. 256) Rathus Assertiveness Schedule (RAS) Geben Sie an, wie charakteristisch jede der nachfolgenden Fragestellungen für Sie ist. + 3 sehr charakteristisch, sehr zutreffen ⯗ – 3 sehr uncharakteristisch, sehr unzutreffend »Die meisten Leute sind aggressiver und zeigen mehr Durchsetzungsvermögen als ich.« »Wenn ich um etwas gebeten werde, bestehe ich darauf, zu erfahren, warum.« »Über schlechten Service im Restaurant oder woanders beschwere ich mich.« (Nach Rathus & Nenid, 1977, S. 137–139)

Verschiedene Hilfsmittel erleichtern dabei die Registrierung von Häufigkeit und Dauer der interessierenden Verhaltenskategorien (z. B. Sitzen, Gehen, Lachen, Reden usw.). In aller Regel werden die gebildeten Klassen möglichst »verrichtungsnah« definiert, um die externen Beobachter hinsichtlich der von ihnen geforderten Kategorisierungsleistungen nicht zu überfordern, oder um nicht mehr als unvermeidlich subjektive Momente einfließen zu lassen. Eine weitere Variante zur Gewinnung von verhaltenstheoretisch relevanten Informationen stellt das Rollenspiel dar. Im Allgemeinen wird darauf zurückgegriffen, um in kurzer Zeit Anhaltspunkte über Verhalten in Situationen zu gewinnen, für die selten Gelegenheit zur Beobachtung besteht (z. B. Interaktionen zwischen Ehepartnern unter bestimmten Stressbedingungen). Was selbstbeobachtetes Verhalten angeht, so sind auch vor dem Hintergrund der Verhaltenstheorien zahlreiche Fragebogen entstanden. Einige beschäftigen sich mit dem Angstgehalt verschiedener Situationen. Eine besonders große Verbreitung im klinischen Bereich hat das von Wolpe und Lang (1964) publizierte »Fear Survey Schedule (FSS)« erfahren (. Abb. 1.5). Die Grundprinzipien der oben dargelegten Modellvorstellungen zusammenfassend, stellt sich der Zusammenhang zwischen Prädiktoren und Kriterien (Indikatoren und Indiziertem sensu Wottawa & Hossiep, 1987) wie in . Abb. 1.6 grafisch veranschaulicht dar.

15

1.5 · Diagnostische Strategien

1

. Abb. 1.6. Grundprinzipien diagnostischer Modelle zum Zusammenhang zwischen Index und Indiziertem

1.5

Diagnostische Strategien

Aus den im vorangegangenen Kapitel dargelegten unterschiedlichen Modellannahmen von Eigenschafts- und Verhaltensdiagnostik resultieren nach Pawlik (1976) auch unterschiedliche diagnostische Strategien: Selektionsdiagnostik kann sich als Statusdiagnostik auf die einmalige Feststellung eines Ist-Zustandes beschränken, da zeitstabile Eigenschaften Prognosen bereits nach einmaliger Messung ermöglichen. Die Testuntersuchung liefert anhand einer Stichprobe von Testitems einen Schätzwert der selektionsrelevanten Eigenschaft. Ihr Ausprägungsgrad soll in Relation zu einer Vergleichsnorm Handhabe für geeignete Entscheidungen liefern.

Statusdiagnostik: Einmalige Feststellung eines Ist-Zustandes

! Selektionsdiagnostik ist somit normorientierte Statusdiagnostik zur Schätzung des Ausprägungsgrades von Eigenschaften.

Modifikationsdiagnostik muss nach ihrem Selbstverständnis dagegen Prozessdiagnostik sein und Veränderungen des Verhaltens durch wiederholte Untersuchungen zu erfassen suchen. Die Annahme einer situativen Abhängigkeit des Verhaltens verbietet die Beschränkung des diagnostischen Prozesses auf eine begrenzte Verhaltensstichprobe. Sie erfordert statt dessen eine systematische Inventarisierung des gesamten für die Fragestellung relevanten Verhaltensrepertoires zur Erfassung situationsbedingter Variationen. Aber nicht Differenzen zu einer Vergleichsnorm, sondern die Distanz zu einem definierten Kriterium bestimmen Beginn und Ende von Interventionsmaßnahmen. ! Modifikationsdiagnostik ist folglich kriteriumsorientierte Prozessdiagnostik.

Pawlik (1976, S. 23) hat die unterschiedlichen Dimensionen und Zielsetzungen, die mit den genannten Modellannahmen verbunden sind, in einer Übersicht zusammengefasst (. Tab. 1.1). Nach seiner Analyse lassen sich selektionsorientierte Eigenschaftsdiagnostik und verhaltensbezogene Modifikationsdiagnostik relativ gut voneinander abheben und halbwegs eindeutig unterschiedlichen psychologischen Arbeitsfeldern zuordnen.

Prozessdiagnostik: Wiederholte Untersuchungen erfassen Verhaltensänderungen

16

Kapitel 1 · Einleitung

1

. Tabelle 1.1. Unterschiede zwischen Eigenschafts- und Verhaltensdiagnostik. (Nach Pawlik, 1976, S. 236)

Überschneidung diagnostischer Aufgaben in den Anwendungsfeldern

Ist-Zustand (diagnostisch oder prognostisch)

2. Normorientierte Diagnostik

(Inter-)individuelle Unterschiede

Verhaltensstichprobe → Eigenschaftswert



3. Testen Inventarisieren

Verhaltensrepertoire (-hierarchie)

4. Diagnostik als Messung

Schätzung eines Eigenschaftswertes ⇔

Individuelle Position relativ zu einem Verhaltenskriterium



Kriterienorientierte Diagnostik





Veränderungsmessung





1. Statusdiagnostik ⇔

Diagnostische Zielsetzung

Prozessdiagnostik

Diagnostik als Information für und über Behandlung

Entscheidungs- und Behandlungsoptimierung

Eigenschaftsdiagnostik findet man überwiegend dort, wo eignungsdiagnostische Entscheidungen getroffen werden, Modifikationsdiagnostik vor allem im Bereich der Klinischen Psychologie. Aber bereits in der Pädagogischen Psychologie überschneiden sich die diagnostischen Aufgaben. Selektionsdiagnostik findet vor allem in Fragen der Schullaufbahndiagnostik Anwendung, während Modifikationsdiagnostik bei der Untersuchung gestörter Lernprozesse sowie zur Planung und Evaluation pädagogischer Behandlungsmaßnahmen erforderlich wird. Selbst in der betrieblichen Eignungsdiagnostik sind die Fronten nicht mehr ganz klar. So fordern Triebe und Ulich (1977) zur Optimierung eignungsdiagnostischer Selektionen eine Prozessdiagnostik mit zwischengeschalteter Lernphase. Andererseits werden auch in der Klinischen Psychologie Selektionen dort vorgenommen, wo die Zuteilung von Behandlungsalternativen an das Vorliegen bestimmter Voraussetzungen gebunden ist. Insgesamt gesehen ist das Schema von Pawlik hilfreich für eine Klassifikation der sehr großen Zahl psychologischer Verfahren mit ganz unterschiedlicher Basis rationaler und theoriebezogener Konstruktionsgesichtspunkte und der unterschiedlichen Zielsetzungen ihres Einsatzes. 1.6

Grundlagenfach: Diffentielle Psychologie und Persönlichkeitsforschung

Dimension

Meilensteine in der Geschichte der psychologischen Diagnostik

Wie eingangs dargelegt wurde, handelt es sich bei der psychologischen Diagnostik um eine primär anwendungsorientierte Disziplin. Das »dazugehörige« Grundlagenfach ist die Differentielle Psychologie und Persönlichkeitsforschung. Beide Fächer sind sehr eng miteinander verflochten (s. Bartussek & Amelang, 1992): Hier wie dort kommt es darauf an, Unterschiede zwischen und innerhalb von Personen zu beschreiben mit dem Ziel, das augenblickliche Verhalten erklären und zukünftiges prognostizieren zu

17

1.6 · Meilensteine in der Geschichte der psychologischen Diagnostik

können. Die Persönlichkeitsforschung liefert dabei u. a. die inhaltlichen Theorien, von denen ausgehend bestimmte Operationalisierungen vorgenommen werden. Die theoretischen Konzepte regen aber nicht nur zu den jeweiligen Messungen an, sondern verleihen ihnen auch erst einen Sinn. Umgekehrt wirken die Messungen auf den Inhalt der gedanklichen Konstruktionen zurück und kontrollieren sie, nehmen ihnen ihre prinzipielle Beliebigkeit durch die Konfrontation mit empirischen Gegebenheiten. Insofern bedingen Theorie und Empirie einander wechselseitig. Die Differentielle Psychologie benötigt für die objektive Erfassung von intra- und interindividuellen Unterschieden hinreichend präzise Instrumente. Demgegenüber bezieht die psychologische Diagnostik oft genug aus dieser Grundlagendisziplin entscheidende Impulse über die Gestaltung der Verfahren. Umgekehrt beeinflussen die mit den Tests gemachten Erfahrungen rekursiv die unterlegten Theorien in dem Sinne, dass verschiedentlich Modifikationen vorgenommen oder ursprüngliche Vorstellungen gänzlich zugunsten besser geeigneter Rahmenüberlegungen aufgegeben werden müssen. Aufgrund dieser unauflöslichen Verwandtschaft ist die Geschichte der psychologischen Diagnostik weithin identisch mit derjenigen der Differentiellen Psychologie. Das eben Dargelegte zur Struktur und wechselseitigen Bedingtheit von Grundlagen und Anwendung kann mit einer häufig zitierten Begebenheit aus dem Alten Testament belegt werden: Beispiel

Wir lesen im Buch der Richter, dass Gideon sich auf Gottes Geheiß an seine 32 000 Krieger mit dem Aufruf wandte: »Wer blöde und verzagt ist, der kehre um!« Nicht weniger als 22 000 der so Angesprochenen sahen die Kombination der beiden Eigenschaften dumm und feige bei sich selbst gegeben und traten die Heimreise an. Eine weitere Anweisung ging dahin, die Verbliebenen ans Wasser zu führen und diejenigen gesondert zu stellen, die auf die Knie fielen, um zu trinken bzw. die mit ihrer Zunge das Wasser leckten in der Art, wie dies die Hunde tun. Das letztere Verhalten zeigten ganze 300 Mann. Sie allein bildeten die Truppe.

Die damit vorgenommene Auslese der mutmaßlich bestgeeigneten Kämpfer war offenkundig nach den richtigen Prinzipien erfolgt, denn mit ihrer Hilfe wurde der Feldzug schließlich gewonnen (s. Amelang, 1985). Beispiel

Eine andere Art erfolgreicher Selektion fand während eines Zeitraumes von nicht weniger als 3000 Jahren in China statt. Dort mussten die Beamten jedes Jahr ihre Eignung zum Führen der Amtsgeschäfte in verschiedenen Prüfungen unter Beweis stellen, deren Resultate über die Alternativen Beförderung und Entlassung entschieden. Die Bewerber um Staatsposten wurden in den Künsten Musizieren, Bogenschießen, Reiten, Schreiben, Rechnen und Beherrschung der Umgangsformen im öffentlichen wie privaten Leben geprüft.

Dieses Auswahlverfahren kann deshalb als erfolgreich gelten, weil China im Unterschied zu Europa keine erbliche Führerschicht kannte und die beträchtliche Stabilität innerhalb des Reiches über eine lange Zeit vom administrativen Apparat geleistet werden musste.

Theorie und Empirie bedingen einander

1

18

1

Kapitel 1 · Einleitung

Tests schaffen Beobachtungsgelegenheiten 2 Elemente: Theorie und empirische Überprüfung

Repräsentations- vs. Korrelationsschluss

Tests können zur Lösung von Problemen beitragen

Beide Beispiele sind aufschlussreich in mehrfacher Hinsicht: Sie führen vor Augen, dass die Anfänge einer Bestimmung komplexer individueller Persönlichkeitsunterschiede mit Hilfe von »Tests« als Folge der Notwendigkeit verstanden werden können, das Verhalten in bedeutungsvollen Bewährungssituationen vorhersagen zu müssen, für die aber die im Alltag anfallenden Beobachtungsgelegenheiten nicht ausreichen. Darüber hinaus lassen die antiken Ereignisse bereits in Konturen die beiden Elemente von Theorie einerseits und darauf aufbauenden Methoden sowie der empirischen Überprüfung andererseits erkennen: Nur vor dem Hintergrund der (gewiss vernünftigen!) Annahme, dass die Teilnahme an einem Feldzug oder die Übertragung eines hohen Amtes ein gewisses Mindestmaß an intellektueller Leistungsfähigkeit erfordert (= Theorie), machte es Sinn, danach zu fragen, bzw. Situationen herzustellen, die eine Beobachtung des als relevant erachteten Verhaltens erlaubten (= Messung). Die Richtigkeit des Vorgehens war später am Erfolg der Unternehmung abzulesen, in den Beispielen also an dem Resultat der kriegerischen Auseinandersetzung bzw. an der Stabilität der staatlichen Verwaltung (= Bewährung). Das Verhältnis zwischen Indikator und Indiziertem stellt sich dabei in sehr unterschiedlicher Weise dar: Bei den Prüfungen im alten China und auch denen in England zur Auswahl der Kolonialbeamten für den Dienst in Ägypten oder Indien war das beobachtete Verhalten eine Stichprobe (= Sample) aus dem später verlangten Verhalten (Repräsentationsschluss des verhaltenstheoretischen Ansatzes). Hingegen stand das Trinkverhalten offenbar nur aufgrund einer Erfahrungs- oder Erwartungsregel in Beziehung mit Verhaltensweisen, die im Kampf erwünscht waren (Korrelationsschluss). Der Reaktion auf Gideons Aufruf lagen Selbsteinstufungen auf den beiden Dimensionen »Intelligenz« und »Tapferkeit« im Sinne der eigenschaftstheoretischen Perspektive zugrunde. Diese Urteile beruhten ihrerseits auf früheren und für die inferierte Eigenschaft mehr oder minder prototypischen Verhaltensweisen (Sign-, Zeichen- oder Indikatorfunktion). Mehrere bedeutsame Instrumentenentwicklungen sind eine Folge des Umstandes, dass gesellschaftliche, ökonomische oder soziale Probleme gleichsam von außen an das Fach herangetragen wurden in der Erwartung, durch den Einsatz geeigneter Tests zu einer Lösung der Probleme beitragen zu können. In der Neuzeit zählen dazu u. a. folgende Verfahren: 4 Die Staffeltests von Binet und Simon aus den Jahren 1908–1911 zur Erfassung allgemeiner Intelligenz. Ihre Entwicklung und ihr breiter Einsatz wurde durch einen Erlass des französischen Unterrichtsministeriums begünstigt, wonach die Einweisung von Kindern in Sonderschulen nur gestützt auf medizinisch-pädagogische Gutachten vorgenommen werden durfte. 4 Das Personal Data Sheet von Woodworth (1918) ist eine Sammlung von 116 Fragen (z. B. »Schrecken Sie nachts aus dem Schlaf?« oder »Haben Sie hin und wieder starke Kopfschmerzen?«). Mit ihrer Hilfe sollten die langwierigen Psychiaterinterviews ersetzt werden, die während des Ersten Weltkrieges mit Soldaten des amerikanischen Expeditionskorps geführt wurden, um jene Rekruten zu erkennen, die den Belastungen des Militärdienstes wegen psychischer Instabilität voraussichtlich nicht gewachsen sein würden. 4 Der Formdeuteversuch von Rorschach (1921), der seinerzeit als Hilfsmittel für die Diagnostik von Schizophrenie konzeptualisiert wurde. 4 Der Test für Medizinische Studiengänge TMS. Er wurde im Auftrag der Kultusministerkonferenz der Länder von Trost et al. (1978) unter der Vorgabe entwickelt, möglichst jene Dimensionen der Studieneignung zu erfassen, die nicht bereits durch

19

1.6 · Meilensteine in der Geschichte der psychologischen Diagnostik

1

die Abiturnote abgedeckt sind. Der TMS wurde in den Jahren 1986 bis 1996 bei der Auswahl der Bewerber für einen Studienplatz im Fach Medizin routinemäßig eingesetzt und laufend aktualisiert. Neben solchen Entwicklungen, für die die entscheidenden Impulse »von außen« kamen, lassen sich bedeutsame Beiträge ausmachen, die dem Zeitgeist, dem Genius herausragender Personen oder bestimmten Forschungsströmungen entsprangen, also »von innen«, aus der Differentiellen Psychologie kamen und wichtige Anwendungsimplikationen aufweisen. Dazu zählen z. B.: 4 Die Theorien über die Struktur der Intelligenz, die – je nachdem, ob ein Generalfaktor oder verschieden viele, entweder unabhängige oder hierarchisch organisierte Faktoren angenommen werden – ganz unterschiedliche Testverfahren hervorgebracht haben. Beispiele hierfür sind die Progressiven Matrizen von Raven (1965, . Abb. 1.7) zur Messung von Allgemeiner Intelligenz, der Culture-fair-Test, um die fluide Kompo-

Tests, die direkt aus den Fragestellungen der Differentiellen Psychologie hervorgehen

. Abb. 1.7. Beispiel einer Aufgabe des Raven Progressiven Matrizentests zur Erfassung der Allgemeinen Intelligenz

20

Kapitel 1 · Einleitung

nente von Cattells Zweifaktorenmodell zu treffen (Weiß, 1991), die Primärfaktoren von Thurstone und das im deutschen Sprachraum daraus abgeleitete Verfahren »Prüfsystem für die Schul- und Bildungsberatung (PSB)« von Horn (1969), die Skalen von Guilford, und zwar insbesondere jene zur Erfassung der Sozialen Intelligenz, und schließlich der »Berliner Intelligenztest« von Jäger et al. (1984). 4 Die Theorien und Modelle über die Persönlichkeitsmerkmale im engeren Sinne, nach denen teils von 3 (Eysenck, 1957), 5 (Costa & McCrae, 1989) oder 16 Faktoren (Cattell, 1972) ausgegangen wird. Die daraus erwachsenen Testsysteme enthalten dementsprechend eine unterschiedliche Zahl von Skalen. 4 Die Vorstellung über die Charakteristika und Organisation von Temperamenten als jenen Eigenschaften, die sich vor allem in der energetischen Ebene des Verhaltens und in Zeitmerkmalen von Reaktionen niederschlagen. Das von Strelau (1983) vorgestellte Temperament Inventory weist 3 rational konzipierte Dimensionen auf, und zwar »Stärke der Exzitation«, »Stärke der Inhibition« und »Mobilität nervlicher Prozesse«. 4 Aus der sog. Interaktionismusdebatte zum Zusammenwirken von Person- und Situationsfaktoren sind sog. Stimulus-Response-(S-R-)Fragebögen hervorgegangen. Bei ihnen werden nicht nur mehrere Situationsszenarien (z. B. »Sie gehen durch einen dunklen Wald« oder »Sie befinden sich auf einem belebten Platz«), sondern auch verschiedene Reaktionsmodi (wie z. B. »Ich habe Angst« oder »Ich bekomme feuchte Hände« und dergleichen) vorgegeben. Eines der ersten Instrumente dieser Gattung stammt von Endler et al. (1962). Im deutschen Sprachraum hat u. a. Becker (1987) mit dem Interaktions-Angstfragebogen einen solchen Test konzipiert.

1

1.7 Psychodiagnostik unterliegt rechtlichen Bestimmungen

Gesetzliche Rahmenbestimmungen

Wie die meisten Bereiche des öffentlichen und beruflichen Lebens unterliegt auch die psychologische Diagnostik einer ganzen Reihe rechtlicher Bestimmungen. Diese sind teils sehr allgemeiner Art, wie der Schutz der Menschenwürde durch Artikel 1 des Grundgesetzes und die Formulierung der Freiheitsrechte in Artikel 2:

Artikel 1 (1) des Grundgesetzes: »Die Würde des Menschen ist unantastbar. Sie zu achten und zu schützen ist Verpflichtung aller staatlichen Gewalt …« Artikel 2 (1) und (2): »Jeder hat das Recht auf die freie Entfaltung seiner Persönlichkeit, soweit er nicht die Rechte anderer verletzt … Jeder hat das Recht auf Leben und körperliche Unversehrtheit. Die Freiheit der Person ist unverletzlich …«

Anwendung der gesetzlichen Bestimmungen

Schutz der Vertraulichkeit

Die in diesen Gesetzen geregelten Sachverhalte sind dann zu beachten, wenn Personen, die im Verdacht schwerwiegender Verfehlungen stehen, psychodiagnostisch untersucht werden sollen, um damit Fragen der Motivation, Schuld- und Zurechnungsfähigkeit sowie der Legalbewährung einer Klärung näher zu bringen. Teilweise gelten die Bestimmungen dem Schutz vor Verletzung der Vertraulichkeit beim Umgang mit psychodiagnostischen Informationen. So lautet § 203 des Strafgesetzbuches (7 Übersicht nächste Seite):

21

1.7 · Gesetzliche Rahmenbestimmungen

1

(1) Verletzung von Privatgeheimnissen »Wer unbefugt ein fremdes Geheimnis, namentlich ein zum persönlichen Lebensbereich gehörendes Geheimnis oder ein Betriebs- oder Geschäftsgeheimnis, offenbart, das ihm als 1. Arzt… 2. Berufspsychologen mit staatlich anerkannter wissenschaftlicher Abschlussprüfung anvertraut worden oder sonst bekannt geworden ist, wird mit Freiheitsstrafe bis zu einem Jahr oder mit Geldstrafe bestraft.«

In Ziffer (3) wird festgestellt, dass den unter (1) Genannten »ihre berufsmäßig tätigen Gehilfen und die Personen gleich (stehen), die bei ihnen zur Vorbereitung auf den Beruf tätig sind«. Dazu gehören also Assistenten, Praktikanten und auch Studierende. Sogar im privaten Umgang unterliegen z. B. Studierende dieser Vertraulichkeit, wenn sie z. B. von Freunden in ihrer Eigenschaft als »Studierende der Psychologie« angesprochen werden. Ziffer (4) bestimmt, dass die Absätze (1) bis (3) auch anzuwenden sind, »wenn der Täter das fremde Geheimnis nach dem Tode des Betroffenen unbefugt offenbart«. Die Intentionen dieser Bestimmungen sind eindeutig und bedürfen keiner Erläuterung: Jede Weitergabe von Informationen »nach außen« ist strafbedroht. Dennoch mögen psychodiagnostisch tätige Diplompsychologen, ihre Assistenten und studentischen Praktikanten in gewisse Schwierigkeiten geraten, wenn sie – damit gleichsam im »Innenverhältnis« – z. B. bei gutachterlichen Äußerungen in Sorgerechtsfällen der jeweils anderen »Partei« dasjenige zur Kenntnis bringen, was sie in einer Atmosphäre des Vertrauens und der Offenheit von einem Elternteil, einem Kind oder dessen Geschwistern erfahren haben. Andererseits können Psychologen gezwungen werden, Informationen preiszugeben, die ihnen bei Wahrnehmung ihrer beruflichen Aufgaben zugänglich gemacht werden. Paragraf 53 der Strafprozessordnung sieht zwar ein Zeugnisverweigerungsrecht für eine ganze Reihe von Berufen (wie Ärzte, Apotheker, Abgeordnete, Geistliche, Rechtsanwälte, Steuerberater u. a.) vor, nicht aber für Psychologen. Noch spezifischer für die psychologische Diagnostik sind die §§ 94 und 95 des Betriebsverfassungsgesetzes, weil darin diagnostische Verfahren und allgemeine Beurteilungsgrundsätze direkt angesprochen werden:

94 (1) »Personalfragebögen bedürfen der Zustimmung des Betriebsrates … (2) Absatz 1 gilt entsprechend für persönliche Angaben in schriftlichen Arbeitsverträgen, die allgemein für den Betrieb verwendet werden sollen, sowie für die Aufstellung allgemeiner Beurteilungsgrundsätze. 95 (1) Richtlinien über die personelle Auswahl bei Versetzungen, Umgruppierungen und Kündigungen bedürfen der Zustimmung des Betriebsrates. (2) In Betrieben mit mehr als 1000 Arbeitnehmern kann der Betriebsrat die Aufstellung von Richtlinien über die bei Maßnahmen des Absatzes 1 Satz 1 zu beachtenden fachlichen und persönlichen Voraussetzungen und sozialen Gesichtspunkte verlangen…«

Bestimmungen gelten auch für z. B. Studierende

Weitergabe von Informationen ist strafbar Dilemma zwischen Innen- und Außenverhältnis

Psychologen haben kein Zeugnisverweigerungsrecht

22

Kapitel 1 · Einleitung

Die Psychodiagnostik bedarf also sowohl in ihrer spezifischen Ausgestaltung, soweit darunter »Personalfragebogen« zu rubrizieren sind, als auch in den allgemeinen Grundsätzen, nach welchen Gesichtspunkten Auswahl und Versetzung erfolgen sollen, (auch) der Zustimmung des Betriebsrates. Der Betriebsrat hat jedoch kein Mitbestimmungsrecht bei der Festlegung oder Konstruktion eines Auswahlverfahrens für externe Bewerber. Auch darf er die Untersuchungsergebnisse nicht einsehen, wenn der Arbeitgeber die Diagnostik veranlasst hat. Hossiep und Wottawa (1993, S. 135) verweisen darüber hinaus noch auf eine »Vielzahl ausgearbeiteter Regelungen zum informationellen Selbstbestimmungsrecht, das im Zusammenhang mit Persönlichkeitstests (vor allem projektiven Verfahren) von Bedeutung ist.«

1

Weiterführende Literatur

Zur weiteren Vertiefung in das Thema »Rechtsfragen psychologischer Diagnostik« eignen sich u. a. die Bücher von Gaul (1990) und Zuschlag (1992). Übungsfragen ? 1. Welches sind die Merkmalsträger

psychologischer Diagnostik?

2. Welches sind die Aufgaben psychologischer Diagnostik?

3. Wie unterscheiden sich Eigenschafts- und Verhaltensdiagnostik voneinander, sowohl auf konzeptueller als auch messtechnischer Ebene?

! Ad 1. Merkmalsträger können Individuen, Personengruppen

und Institutionen sein, aber auch Situationen und Gegenstände, deren Wirkungen sich in der Interaktion mit Menschen manifestieren. Ad 2. Ihre Aufgabe besteht darin, interindividuelle Unterschiede im Verhalten und Erleben und intraindividuelle Merkmale und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, dass hinlänglich präzise Vorhersagen künftigen Erlebens und Verhaltens und deren eventueller Veränderungen möglich sind. Ad 3. Eigenschaftstheoretische Konzepte gehen von der Annahme aus, dass das Erleben und Verhalten von Menschen sich in Eigenschaften (»traits«) beschreiben lässt, die über die Zeit relativ stabile und situationsinvariante Dispositionen zu bestimmten Verhaltensweisen darstellen. Entsprechend ist die Vorgehensweise der Eigenschaftsdiagnostik, einen »Ist-Zustand« zu diagnostizieren, von dem aus auf zukünftiges ähnliches Verhalten geschlossen werden kann, unter der (theoretischen) Annahme, dass sich eine Person gemäß ihrer Eigenschaftsausprägung verhalten wird. Der zweckmäßigste Weg ist in diesem Fall das möglichst genaue Erfassen der in Frage stehenden Eigenschaften als grundlegenden Strukturmerkmalen. Verhaltenstheoretische Konzepte betonen hingegen die Situationsspezifität des Verhaltens. Im Gegensatz zur Eigenschaftsdiagnostik bestehen die Tests der verhaltenstheoretischen Schule aus Stichproben des vorherzusagenden Kriteriumsverhaltens selbst. Entsprechend wird auf die angemessene Darstellung der Reizsituation (hohe Inhaltsvalidität) besonderer Wert gelegt, etwa durch Dias, Filmmaterial, verbale Beschreibungen und auch durch Rollenspiele.

23

1.7 · Gesetzliche Rahmenbestimmungen

4. Warum muss eine Modifikationsdiagnostik immer Prozessdiagnostik sein?

5. Können Psychologen in einem Gerichtsverfahren im Zweifelsfall gezwungen werden, Informationen preiszugeben?

1

Ad 4. Die Annahme der situativen Abhängigkeit des Verhaltens

verbietet die Beschränkung des diagnostischen Prozesses auf eine begrenzte Verhaltensstichprobe (Erfassung eines Ist-Zustandes) und erfordert statt dessen eine Erfassung eben jener situationsbedingten Variationen, die etwa die Distanz zu einem definierten Kriterium vor und nach einer Intervention ermöglichen (Verhaltensänderung). Ad 5. Ja, denn § 53 der StPO sieht ein Zeugnisverweigerungsrecht für Psychologen nicht vor.

2 2 Grundlagen diagnostischer Verfahren 2.1

Voraussetzungen und theoretische Basis psychometrischer Tests – 26

2.1.1 Die klassische Testtheorie (KTT) – 33 2.1.2 Item-Response-Theorie (IRT) – 64 2.1.3 Grundlagen kriteriumsorientierter Tests – 89

2.2

Konstruktionsprinzipien psychometrischer Tests – 94

2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7

Rationale Konstruktion – 94 Externale Konstruktion – 98 Induktive Konstruktion – 102 Der Prototypenansatz – 105 Weitere Ansätze – 108 Vergleichende Würdigung – 110 Grundzüge von Itemanalysen – 111

2.3

Gütekriterien psychometrischer Tests und ihre Bestimmung – 135

2.3.1 Hauptgütekriterien – 138 2.3.2 Nebengütekriterien – 161 2.3.3 Wechselbeziehungen zwischen Gütekriterien

– 174

26

Kapitel 2 · Grundlagen diagnostischer Verfahren

Voraussetzungen und theoretische Basis psychometrischer Tests

2.1

2

2.1.1

2.1.2

2.1.3

Herstellung genau definierter situativer Bedingungen

Realisierung meist nur einer Stimuluskonfiguration

Die klassische Testtheorie (KTT) – 33 2.1.1.1 Zentrale Definitionen – 33 2.1.1.2 Der Standardmessfehler – 36 2.1.1.3 Minderungskorrekturen und Reliabilitätsindex – 39 2.1.1.4 Reliabilität und Testlänge – 44 2.1.1.5 Implikationen für die psychodiagnostische Praxis – 48 2.1.1.6 Kritik an der KTT – 60 Item-Response-Theorie (IRT) – 64 2.1.2.1 Grundüberlegungen der Item-Response-Theorie – 65 2.1.2.2 Dichotome Latent-Trait-Modelle – 68 2.1.2.3 Weitere Modelle der IRT – 82 Grundlagen kriteriumsorientierter Tests – 89 2.1.3.1 Die Generierung inhaltsvalider Itemmengen – 89 2.1.3.2 Die Setzung sachgerechter Normen – 89 2.1.3.3 Die Ermittlung zufallskritischer Trennwerte – 90 2.1.3.4 Weitere Probleme kriteriumsorientierter Tests – 92

Alle diagnostischen Verfahren gehen davon aus, dass Unterschiede bestehen und diese gemessen werden können. Im Sinne der eingangs dargelegten Aufgabenfelder der Psychologischen Diagnostik betreffen diese Unterschiede solche zwischen Personen, Objekten, Behandlungen, Institutionen usw. Weil die interindividuelle Perspektive, wie historische Analysen zeigen, den Beginn ernsthafter Bemühungen um die psychodiagnostische Erfassung von Merkmalsausprägungen bestimmt hat und auch heute noch im Vordergrund der beruflichen Routinetätigkeit vieler Psychologen steht, folgt die nachfolgende Darstellung hauptsächlich diesem Gesichtspunkt. Die einzelnen thematisierten Überlegungen, Prinzipien und Probleme gelten in den Grundzügen jedoch auch für andere diagnostische Problembereiche. Wie immer die zu leistende Differenzierung inhaltlich auch beschaffen sein mag, weisen die dafür denkbaren Ansätze doch eine Reihe von wesentlichen Gemeinsamkeiten auf: Ein bedeutsamer Gesichtspunkt besteht darin, dass genau definierte situative Bedingungen hergestellt werden, die in Verbindung mit der gegebenen Instruktion und den interessierenden Persönlichkeitsmerkmalen als Auslöser oder Determinanten des beobachtbaren, diagnostisch relevanten Verhaltens gelten. In der Unterscheidung zwischen der unabhängigen Variablen (meist eine experimentell manipulierte Stimulusdimension) und der abhängigen Variablen (gewöhnlich die Beobachtungsgröße, also ein morphologisches oder Verhaltensmerkmal) wird diese Betrachtungsweise deutlich. Wenn etwa bei 10 min Zeitvorgabe doppelt so viele Aufgaben richtig beantwortet werden wie bei 5 min, so liegt es nahe, die unterschiedliche Zeit der Bearbeitung als Erklärung für die unter beiden Bedingungen verschiedenen Lösungshäufigkeiten heranzuziehen. In aller Regel verzichtet die Psychodiagnostik jedoch auf die Variation der Situationsfaktoren, wie sie für die Experimentelle (Allgemeine) Psychologie kennzeichnend ist, und greift lediglich eine bestimmte Stimuluskonfiguration aus dem Universum möglicher Faktorenkombinationen heraus. Die unter einer solchen Bedingung, in nur

27

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

einem Feld eines imaginären Versuchs- oder Erhebungsplanes mit unendlicher Zahl an Faktoren und Abstufungen (z. B. Typen und Schwierigkeiten von Aufgaben, Zeitbemessung, Instruktion usw.), zwischen den Individuen noch auftretenden Verhaltensunterschiede liefern den Gegenstand bzw. Ansatzpunkt der personenzentrierten Psychodiagnostik. Miteinander vergleichbar und damit sinnvoll sind die ermittelten Punktwerte als quantitative Äquivalente für das beobachtete Verhalten (in Einheiten richtig gelöster Aufgaben, mit »Ja« beantworteter Fragen zu bestimmten Persönlichkeitsausprägungen usw.) verschiedener Personen nur dann, wenn die Bedingungen, unter denen eben dieses Verhalten provoziert wurde, bei allen Individuen identisch oder doch weitgehend ähnlich sind. Wenn beispielsweise der eine Bewerber während 15 min 20 komplexe Denkprobleme löst, wo der andere innerhalb von 20 min 23 richtige Antworten liefert, kann die unterschiedliche Trefferrate nicht im Sinne einer unterschiedlichen Fertigkeit der beiden Probanden verstanden werden. Analog dazu sind niedrige Punktwerte in einem Leistungstest nicht im Sinne unzureichender Konzentration zu werten, wenn der Testperson während der Bearbeitung der Bleistift abgebrochen ist und sie deshalb die richtigen Lösungen nicht kennzeichnen konnte oder wenn sie durch störende Geräusche, einen unruhigen Nachbarn, unzureichende Lichtverhältnisse oder das Beschlagen der Brille bei der Bearbeitung der Aufgaben behindert war, während andere Probanden durch keinen dieser Faktoren beeinträchtigt wurden. Die Konstanz bzw. Identität der Bedingungen oder Standardisierung ist somit eine Grundvoraussetzung für die Ermittlung und sinnvolle Interpretation jeglicher interindividueller Unterschiede. Exkurs

Zur Bedingungskonstanz in der psychologischen Diagnostik In der einschlägigen Literatur wird regelmäßig darauf hingewiesen, dass die Konstanz der Durchführungsbedingungen einerseits zwar unabdingbar sei, andererseits aber doch nie so recht gegeben sei. Um der daraus resultierenden misslichen Lage zu begegnen, haben Sader und Keil (1966) die vorliegenden Untersuchungen gesichtet und daran ansetzend konkrete Ratschläge für den diagnostischen Praktiker abgeleitet. Ihrer Übersicht zufolge gibt es teils empirische, teils experimentelle Belege dafür, dass u. a. die Ich-Beteiligung der Probanden, deren Erfolg und Misserfolg sowie Testangst, Lob und Tadel von Seiten des Testleiters, des Weiteren allgemeine Eigenschaften und konkrete Verhaltensweisen des Diagnostikers, wahrgenommener Zeitdruck, Messintention und Testmotivation sowie unterschiedliche Vorübung und absichtliche Verfälschung die Ergebnisse beeinflussen und damit die strikte Standardisierung in Frage stellen. Allerdings sind in vielen der geschilderten Fälle die beobachteten Effekte durch extreme Manipulationen zustande gekommen, mit deren Hilfe die potenzielle Wirksamkeit des jeweiligen Faktors nachgewiesen werden sollte. Bei sachgemäßer Testvorgabe wäre deren Auftreten ganz unwahrscheinlich. Auch muss zwischen der statistischen Signifikanz eines Effektes und dessen praktischer inhaltlicher Relevanz unterschieden werden. Eine der Schlussfolgerungen der Autoren lautet daher, dass ungeachtet der referierten Effekte von einer für praktische Belange durchaus hinreichenden Bedingungskonstanz ausgegangen werden könne. »Stabilitäts- und Validitätsdaten der Größenordnung, wie sie in der Tat vorliegen, wären nicht möglich, wenn nicht Versuchsbedingungen im diagnosti6

Konstanz der Bedingungen notwendig

2

28

Kapitel 2 · Grundlagen diagnostischer Verfahren

schen Experiment in einem gewissen und nicht unbeträchtlichen Maße konstant gehalten werden könnten« (Sader & Keil, 1966, S. 299). Die Vorschläge für die praktische Umsetzung reichen von der Rezipierung der relevanten Literatur über eine sachgerechte Befragung im Anschluss an durchgeführte Untersuchungen bis zu einer sorgfältigen Ausnutzung der Möglichkeiten zur allgemeinen Gestaltung der Gesamtsituation. Diese kann in einer Einleitungsansprache, Zwischenerläuterungen oder sogar in der Vorschaltung von Anwärmtests bestehen, wo dies geboten erscheint. Auch die nachträgliche Korrektur von Testergebnissen ist in solchen Fällen möglich, wo sich Fehler sachwidrig ausgewirkt haben mögen. Im konkreten Einzelfall werden solche Ratschläge nur bedingt weiterhelfen, weshalb sich der Diagnostiker dann zwangsläufig auf allgemeine wissenschaftliche Standards und wohl auch auf »den gesunden Menschenverstand (verlassen muss), wenn dieses der Sachlage nach geboten erscheint.« (Sader & Keil, 1966, S. 301).

2

Idealfall: Sensitivität gegenüber interessierenden Faktoren

Idealfall: Robustheit gegen andere (störende) Faktoren

Differenzierung am größten bei Aufgaben mittlerer Schwierigkeit

Bei herkömmlichen Tests, die eine spezifische Variante von Bedingungen zur Provokation von Stichproben des Verhaltens darstellen, ist der Forderung nach Standardisierung durch Gleichheit des Materials, Identität der Instruktionen, genauen Anleitungen zur Durchführung und Auswertung usw. Rechnung getragen. Dennoch ist evident, dass nicht alle denkbaren Einzelfaktoren oder Störgrößen strikt kontrolliert werden können. In dem Maße, in dem sich Bedingungen der Kontrolle des Untersuchungsleiters entziehen, wird die Objektivität eines diagnostischen Verfahrens beeinträchtigt, d. h. dessen Unabhängigkeit von der Person des Testleiters und den damit möglicherweise verbundenen Besonderheiten in ihren verschiedenen Aspekten der Durchführung, Auswertung und Interpretation. Dies muss letztlich auch Minderungen der Reliabilität und Validität zur Folge haben (7 Abschn. 2.3.3). Im Idealfall erweist sich die gewählte Methode der Datengewinnung als hoch sensitiv gegenüber den Phänomenen oder Variablen, an denen man aus theoretischen Gründen interessiert ist, aber als robust und unempfindlich gegenüber allen anderen Faktoren (Pervin, 1970, S. 73). Die mit Hilfe von Tests realisierten Bedingungen werden i. Allg. so festgesetzt, dass die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik maximal ist. Diese Differenzierung, die ebenfalls eine Grundvoraussetzung jeder Gewinnung von sinnvollen Informationen darstellt, ist dann am größten, wenn Tests oder ihre Bestandteile (einzelne Aufgaben, Untertests usw.) eine mittlere Lösungswahrscheinlichkeit aufweisen für jene Fähigkeits- oder Merkmalsausprägungen, in denen eine Diskriminierung vorgesehen ist. Dies kann mit einem Beispiel verdeutlicht werden: Beispiel

Wenn eine bestimmte Aufgabe von 50 Probanden aus einer Stichprobe von N = 100 Personen gelöst wird, so differenziert diese Aufgabe nicht nur zwischen den 50 Probanden mit der richtigen und den restlichen 50 Probanden mit der falschen oder gar keiner Antwort, sondern zwischen jedem der 50 Probanden, die das Item richtig beantworten und jedem der 50 Probanden, bei denen das nicht der Fall ist. Eine solche Aufgabe hat somit insgesamt 50 × 50 = 2500 Unterscheidungen getroffen.

Diese nur auf den ersten Blick überraschende Tatsache hat Lienert (1989) außerordentlich instruktiv in einem Szenario veranschaulicht, in dem jeder der »Verlierer« jedem

29

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

der »Gewinner« (Personen ohne bzw. mit richtigen Lösungen) zu dessen »Erfolg« durch Händedruck oder Schulterklopfen gratuliert hat. Im Falle des obigen Beispiels wäre das gleichbedeutend mit 2500 einzelnen Handreichungen. Wenn andererseits ein Item in einem Kenntnis-, Persönlichkeits- oder Interessentest nur von 20 der 100 Probanden in einer bestimmten Richtung beantwortet wird, so unterscheidet es zwischen 20 × 80 = 1600 Probandenpaaren. Noch schwierigere (oder auch leichtere) Aufgaben in Leistungstests bzw. solche mit sehr seltenen (oder auch häufigen) Beantwortungen sind trotz ihrer damit gegebenen verminderten Differenzierungskraft in der Gesamtpopulation in fast allen Verfahren enthalten, weil mit ihrer Hilfe auch in den Teilpopulationen »sehr guter« bzw. »sehr schlechter« Probanden (mit Ausprägungen in den Extrembereichen der jeweiligen Dimension) zwischen den Merkmalsträgern unterschieden werden kann, d. h. auch in den Extrembereichen ist eine mittlere Lösungswahrscheinlichkeit, bezogen auf die dortige Merkmalsausprägung, optimal. Ohne jeden Nutzen für eine Differenzierung sind solche Items, die überhaupt nicht streuen, d. h. nur einen invarianten Testpunktwert (meist 0 oder 1, »ja« oder »nein« usw.) liefern. Diese bedeuten lediglich das Hinzufügen (oder Weglassen) eines für alle Merkmalsträger konstanten Betrages auf der jeweiligen Dimension. Sofern ihnen nicht eine besondere Funktion zukommt, z. B. als »Eisbrecher« (»Möchten Sie, dass Ihr Leben schön ist?«) oder zur Überprüfung einer angemessenen Handhabung der Bearbeitungsmodalitäten und des Antwortblattes (»Haben Sie die Instruktion verstanden?«) oder zur Verschleierung der Messintention der anderen Items, wird auf sie deshalb aus Ökonomiegründen gewöhnlich verzichtet. Aus diesen Erwägungen geht auch hervor, dass in jenen Fällen, wo Aufgaben bei der Ermittlung des Gesamtpunktwertes gleich gewichtet werden (etwa 1 Punkt im Sinne des Merkmals bei jeder logisch richtigen Lösung oder einer symptomatisch relevanten Antwort verrechnet wird), gleichwohl eine implizite Gewichtung stattfindet, und zwar nach dem Beitrag, den das Item an der Variation des Gesamtpunktwertes leistet, also seiner Differenzierungskraft. In der Gewichtigkeit noch vorgeordnet ist die Forderung nach Objektivität der psychodiagnostisch relevanten Information, egal ob es sich dabei um das Ausdrucksverhalten von Personen, deren Berichte über Träume, Gefühle und Erlebnisse, um Testdaten oder Registrierungen physiologischer Reaktionen handelt. Nur dasjenige kann Gegenstand einer empirischen Wissenschaft und konkret einer diagnostischen Methode sein, was die Voraussetzung erfüllt, ein sog. »öffentlicher Sachverhalt« (Herrmann, 1976) und damit prinzipiell anderen Personen zugänglich zu sein. Außerdem muss es der Bedingung entsprechen, objektiv zu sein, d. h. es muss von mehreren Beobachtern in hinreichender Weise als gleich wahrgenommen oder eingeschätzt werden und damit möglichst weitgehend unabhängig von der Person des Beobachters sein. Im Falle einer Feststellung der Zahl richtiger Lösungen in einem Kenntnistest werden 2 Auswerter, von Flüchtigkeitsfehlern vielleicht abgesehen, vollständige wechselseitige Übereinstimmung aufweisen. Dies wird besonders dann der Fall sein, wenn die richtigen Antworten unter den angebotenen Mehrfachwahlen nur angekreuzt zu werden brauchen und für die Auswertung eine Schablone zur Verfügung steht. Viel schwerer dürfte aber Konkordanz zu erzielen sein, wenn beispielsweise aufgrund des Ausdrucksverhaltens beurteilt werden soll, ob ein Proband als »gehemmt« oder aber als »beherrscht« anzusehen ist, weil hier bei der Einordnung der Beobachtungsdaten sehr viel stärker auch interpretative Elemente mit einfließen (. Abb. 2.1). (Auf die unterschiedlichen Aspekte von Objektivität und ihrer numerischen Bestimmung wird unter 7 Abschn. 2.3 detaillierter eingegangen.)

2

Funktion nichtdifferenzierender Items

Gewichtung von Items gemäß ihrer Differenzierung

Objektivität = Unabhängigkeit vom Testleiter

30

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.1. Bei projektiven Verfahren wie z. B. dem TAT ist sowohl die Durchführung als auch die Auswertung nicht unabhängig von der Person des Testleiters

Reliabilität = Messgenauigkeit als »rein« technisches Kriterium

Stabilität Abhängigkeit des diagnostischen Ansatzes von der theoretischen Einbettung

Sollen die sich in den Messwerten niederschlagenden Merkmalsausprägungen als charakteristisch für die betreffenden Personen, Objekte, Sachverhalte usw. gelten, müssen sie reliabel sein, d. h. richtig im Sinne formaler Exaktheit, wobei davon abgesehen wird, ob die vorgenommene Messung auch dasjenige Merkmal getroffen hat, das Ziel der Messung war. Das heißt, es sollten – in Analogie zum Anspruch der theoretischen Reproduzierbarkeit von Resultaten aus der experimentellen Psychologie – bei einer erneuten Realisierung der betreffenden Bedingungskonstellationen bei den erfassten Merkmalsträgern in etwa dieselben Verhaltensäußerungen auftreten. Verschiedene Gründe (darunter Einflüsse durch Übung und Gedächtnis) stehen einer derartigen direkten Wiederholung aber oftmals entgegen. Es sind deshalb mehrere methodische Alternativen zur Bestimmung der Reliabilität entwickelt worden (7 dazu mehr im Abschn. 2.3.1.2). Im Fall der gleichwohl mitunter besonders aussagekräftigen Wiederholungsuntersuchungen läuft die Forderung nach Reliabilität auf eine möglichst hohe Korrelation zwischen den aus verschiedenen Beobachtungszeitpunkten rührenden Messwerten ein und derselben Stichprobe von Merkmalsträgern hinaus; hier spricht man dann von Stabilität (als einem besonderen Aspekt der Reliabilität). Einen Sinn erhalten die in den Miniatursituationen von Tests oder im größeren Rahmen von »natural settings« gewonnenen Messwerte meist erst durch den Bezug auf eine Theorie. Schon der Inhalt theoretischer Konzeptionen bestimmt in gewissem Ausmaß die Technik der Informationsgewinnung und die Art der zu erhebenden Messwerte. Unmittelbar augenfällig wird das bei einem Vergleich zwischen der bereits erwähnten sog. Verhaltens- und Eigenschaftsdiagnostik: Im ersten Fall stellen die Beobachtungsgrößen nur eine nach Möglichkeit repräsentative Stichprobe aus der viel größeren Population gleichartiger Verhaltensweisen dar, im zweiten stehen sie stellvertretend für die Ausprägung von bestimmten Eigenschaften, indizieren also etwas qualitativ völlig Andersartiges (Unterscheidung zwischen »sample« und »sign«). Da es sich bei den (»Dispositions-«)Eigenschaften um hypothetische Konstrukte, also erdachte Gebilde handelt, hängt es weitgehend vom Inhalt der jeweiligen Theorie ab, welche Indikatoren als angemessen gelten können. Wenn beispielsweise davon ausgegangen wird, dass die davon Betroffenen selbst über die Intensität erlebter Konflikte

31

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

berichten können, erscheinen direkte Fragen danach zweckmäßig. Hingegen liegen völlig andere Zugänge nahe, z. B. solche über projektive Verfahren mit dementsprechend fundamental anderen diagnostischen »Anzeichen«, wenn der Theorie zufolge die Konflikte unbewusst ablaufen und damit per definitionem ein davon Betroffener selbst nichts weiß und daher auch keine Auskünfte erteilen kann. Die Brauchbarkeit der vorgenommenen Messoperationen sowie diejenige der damit erhaltenen Resultate muss sich sodann im Kontext weiterer Informationen erweisen, d. h., die Empirie wirkt zurück auf die Theorie und kontrolliert gleichsam die aus ihr abgeleiteten Aussagen. Theorie und Empirie bedingen einander gegenseitig und stehen so in einem Verhältnis wechselseitiger Abhängigkeit. Übertragen auf psychodiagnostische Verfahren läuft dies i. Allg. auf die Forderung nach dem Nachweis der Validität oder Gültigkeit hinaus. Das heißt, durch gezielte zusätzliche Untersuchungen müssen Hinweise dahingehend erbracht werden, dass der Test tatsächlich dasjenige misst, das er messen soll oder die Konstrukteure zu messen vorgeben (. Abb. 2.2; Validierung). Beispielsweise wird man bei einem neuen Intelligenztest auch prüfen, ob seine Ergebnisse mit denjenigen bereits bewährter Verfahren in groben Zügen übereinstimmen (nicht hingegen perfekt damit korrespondieren, da das neu entwickelte Verfahren ja bestimmte Unzulänglichkeiten der schon eingeführten Tests überwinden soll) und ob Korrelationen mit Maßen für Schul- und Berufserfolg sowie Schätzungen von Bekannten oder Freunden bestehen. Auf eine solche Validierung kann, worauf bereits an dieser Stelle hingewiesen werden soll, dann verzichtet werden, wenn ein Test nach der sog. externalen Methode entwickelt wurde. Wenn es z. B. darauf ankommt, die Gruppe der potenziell unfallgefährdeten Personen in einer Fabrik zu identifizieren (um sie gesondert zu schulen oder an Arbeitsplätze mit einem situativ geringeren Risiko zu versetzen), mag die Strategie der Skalenkonstruktion darin bestehen, eine möglichst umfangreiche und inhaltlich breit gefächerte Liste von Items zunächst 2 Gruppen von Probanden vorzugeben, von denen die eine mit Unfällen belastet ist und die andere nicht. . Abb. 2.2. Praktische Fahrprüfungen haben logischerweise eine hohe Validität zur Messung des Fahrverhaltens im Straßenverkehr

32

Kapitel 2 · Grundlagen diagnostischer Verfahren

Jene Items eignen sich dabei zur Erkennung von »Unfällern«, die zwischen den beiden Stichproben überzufällig differenzieren, bei denen also das Beantwortungsverhalten der Probanden mit und ohne Unfälle signifikant verschieden voneinander ist. Diese Unterschiede müssen auch in einer sog. Kreuzvalidierung mit 2 neuen Stichproben von Probanden erhalten bleiben. Die beiden Kategorien von Unfällern bzw. Nichtunfällern sind gleichsam soziale, betriebliche und ökonomische Realitäten, denen der Diagnostiker aus verschiedenen Gründen gerecht werden muss. Bei dem Versuch, dieses zu tun, mag er sich auf psychologische Theorien zur Genese von Unfällen und zum »Wesen« und der »Natur« von Unfällen stützen (wonach etwa geringe Konzentration und hohe Ablenkbarkeit sowie Impulsivität eine Rolle spielen). Er kann darauf aber auch verzichten und »blind-analytisch« einen Itempool zusammenstellen, in der Hoffnung, darin auch potenziell differenzierungskräftige Fragen oder Aufgaben eingeschlossen zu haben. Inwieweit diese Erwartung gerechtfertigt ist, erweist sich dann anhand der Beantwortungen beider Gruppen. Falls Unterschiede auftreten (und den Kreuzvalidierungen standhalten), ist die Validität gleichsam konstitutives Element der Skalenkonstruktion, ohne dass in derartigen Fällen in nennenswerter Weise auf inhaltliche Theorien rekurriert werden müsste.

2

Fazit 4 Um die Messwerte aus psychodiagnostischen Verfahren intra- und interindivi-

duell miteinander vergleichen zu können, müssen die Durchführungsbedingungen strikt konstant gehalten werden (Standardisierung). 4 Zweckmäßigerweise sollten der Test und die Durchführungsbedingungen so gestaltet werden, dass sie im diagnostisch interessierenden Verhalten die Merkmalsträger maximal voneinander unterscheiden (Differenzierung). 4 Die zwischen den Merkmalsträgern auftretende Variation ist nur dann diagnostisch brauchbar, wenn die beobachteten Unterschiede objektiv und messgenau (oder exakt) zu registrieren sind (Objektivität und Reliabilität). Ein Aspekt der Reliabilität ist die Stabilität über der Zeit. 4 Da viele Tests hypothetische Konstrukte erfassen sollen, ist es unverzichtbar, weitere, von der Testung selbst unabhängige Informationen über dasjenige einzuholen, was der Test zu messen vorgibt (Validierung).

Übungsfrage ? Benennen und cha-

rakterisieren Sie die wichtigsten Grundvoraussetzungen für die Ermittlung und Interpretation von individuellen Unterschieden.

! Die wichtigsten Grundvoraussetzungen sind Standardisierung, Differenzierung,

Objektivität, Reliabilität und Validität. Die Standardisierung bezeichnet die Konstanz bzw. Identität der Untersuchungsbedingungen. Eine Standardisierung kann erreicht werden, wenn etwa gleiches Material, identische Instruktionen und genaue Anleitungen zur Durchführung der Untersuchung verwendet werden. Des Weiteren muss ein Verfahren die Fähigkeit zur Differenzierung besitzen. Die mit Hilfe des Test realisierten Untersuchungsbedingungen sollten so festgesetzt werden, dass die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik maximal ist. Um in ausreichendem Maße zu differenzieren, sollte die gewählte Methode zur Datengewinnung (im Idealfall) also hoch sensitiv gegenüber den interessierenden Merkmalen, aber robust gegenüber allen anderen Faktoren sein. Damit etwa ein Leistungstest (oder einzelne Untertests, Aufgaben etc.) hinreichend differenziert, verwendet man Aufgaben, die eine mittlere Lö-

33

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

sungswahrscheinlichkeit für den jeweiligen Abschnitt der Merkmalsausprägung aufweisen. Die zwischen den Merkmalsträgern auftretende Variation muss objektiv erfassbar sein (Objektivität). Um diese Voraussetzung zu erfüllen, muss eine gegebene Testleistung unabhängig von der Person des Untersuchungsleiters registriert werden können. Dies kann erreicht werden, indem bindende Verfahrensvorschriften zur Vorgabe der Tests und ihrer Auswertung festgelegt werden. Wenn die sich in Messwerten niederschlagenden Merkmalsausprägungen als charakteristisch für eine Person oder ein Objekt gelten sollen, müssen sie reliabel sein (Reliabilität oder Messgenauigkeit). Dieser Gesichtspunkt kann dann als erfüllt angesehen werden, wenn beobachtete Unterschiede stabil sind, d. h., wenn eine Wiederholung der Messung unter gleichen Bedingungen und an denselben Objekten oder Personen zu denselben Ergebnissen führt. Die Brauchbarkeit der in Messungen erhaltenen Resultate muss sich im Kontext weiterer Informationen erweisen. Durch gezielte zusätzliche Untersuchungen müssen Hinweise dafür erbracht werden, dass der Test auch wirklich das misst, was er messen soll (Validität oder Gültigkeit). Die Validität einer Messung kann durch den Vergleich mit einem für den betreffenden Sachverhalt relevanten äußeren Merkmal (Kriterium) oder dessen Entsprechung (anderer Test o. Ä.) bestimmt werden.

Die klassische Testtheorie (KTT)

2.1.1

Zentrale Definitionen Die überwiegende Zahl der gebräuchlichen Tests ist nach den Regeln der sog. klassischen Testtheorie (KTT) konzipiert worden. Diese geht zurück auf das Werk von Gulliksen (1950), das seinerseits den vorläufigen Abschluss einer Entwicklung markierte, in deren Verlauf man sich um die mathematisch-statistische Fundierung der Konstruktion und Interpretation von Tests bemühte. Zwischenzeitlich ist die Entwicklung verständlicherweise weitergegangen, wobei insbesondere die Arbeiten von Novick (1966) zur präzisen Unterscheidung von Axiomen und Folgerungen sowie von Zimmerman (1975) zur mathematischen Form wichtige Meilensteine setzten. Umfassend ist die Logik der KTT bei Steyer und Eid (1993) dargestellt, die allerdings eine andere Notation als die hier gewählte verwenden. Das Attribut »klassisch« soll auf die Anciennität dieser formalen Theorie ebenso verweisen wie darauf, dass zwischenzeitlich mit der probabilistischen Testtheorie ein modernerer Ansatz formuliert wurde, der verschiedene Nachteile der KTT zu vermeiden sucht. Gleichwohl stellt die KTT auch heute noch eine wichtige Grundlage für die Konstruktion von Tests und den Umgang mit den daraus gewonnenen Messwerten dar. Der Ausgangspunkt für die Entwicklung der KTT war die Feststellung von Spearman (1910), dass messfehlerbehaftete Variablen miteinander niedriger korrelieren müssen, als sie es ohne Fehlerbehaftetheit tun würden. Einige Setzungen oder Definitionen (»Axiome«) der KTT können für solche und ähnliche Feststellungen die Erklärung liefern: 1. Jeder beobachtete Wert xtj einer Person j im Test t setzt sich additiv zusammen aus einem wahren Wert wtj dieser Person j und einem Fehlerwert etj:

2.1.1.1

x tj = w tj + e tj

(2.1)

Begriff

Axiome der KTT

34

Kapitel 2 · Grundlagen diagnostischer Verfahren

Messfehler überlagert wahren Wert

2 Konzept des Messfehlers

Messfehler als Zufallsvariable

Der Fehlerwert oder Messfehler wird somit als eine Größe angesehen, die sich beim Vorgang des Messens über den »eigentlichen« oder wahren Wert (Idealbild der klassischen Physik) legt und den beobachteten, durch eine Testung erhaltenen Wert vom wahren Wert mehr oder weniger stark abweichen lässt. Inhaltlich umfasst das Konzept des Messfehlers die Gesamtheit aller unsystematischen und nicht kontrollierbaren oder vorhersagbaren Einflussgrößen, die auf das Messergebnis einwirken können, wie z. B. positive oder negative Stimmungen, Konzentrationsstörungen, Ablenkungen, besondere Frische oder Müdigkeit, des Weiteren Tageszeit, Klima, Raumatmosphäre, die Gegenwart oder Abwesenheit von Sitznachbarn. Kurz gesagt bezieht es alles mit ein, was das Testverhalten in der einen oder anderen Richtung beeinflusst, ohne in der je spezifischen Art und Weise erneut bei anderen Probanden in genau derselben Weise aufzutreten. 2. Für jede Testperson stellt der Messfehler eine Zufallsvariable mit dem Erwartungswert (Mittelwert) Null und endlicher Varianz se2 dar, die für alle Personen gleich ist. Daraus folgt, dass die Summe der Fehlerwerte einer Person bei unendlich häufiger Messwiederholung unter identischen Bedingungen sowie die Summe der Fehlerwerte bei einmaliger Messung an unendlich vielen Personen Null ergeben muss: ∞



j =1

t =1

∑etji = 0; ∑etji = 0

Unabhängigkeit der Fehlerwerte

(2.2)

Sicher ist die Annahme der Bedingungskonstanz auch bei oftmaliger Wiederholung eines Tests nur eine Fiktion, da beispielsweise in Leistungsprüfungen mit Gedächtnis- und Übungseffekten gerechnet werden muss und schon die zweite Durchführung deshalb nur noch bedingt mit der ersten zu vergleichen ist. Es erleichtert vielleicht die Akzeptanz der Axiome, die nicht aus einer psychologischen Theorie oder auch nur nach psychologischer Reflexion abgeleitet sind, wenn an die vielfache Vorgabe eines Verfahrens gedacht wird, bei dem Übungseffekte keine Rolle spielen und sich die Probanden nicht an ihre einmal gegebene Antwort gebunden fühlen. Das gilt etwa bei Fragebogen zur Erfassung von aktuellen Zuständen; zumindest denkbar wäre es in diesem Fall, in dem Mittelwert aus der vielfach wiederholten Testung die »typische« (= »wahre«) Stimmung zu sehen. 3. Die Fehlerwerte etj sind unabhängig von den wahren Werten des Tests t oder eines anderen Tests u sowie von den Fehlerwerten euj eines anderen Tests u, sodass zwischen den Fehlerwerten von 2 Tests also nur Nullkorrelationen bestehen. ret wt = 0 ret wu = 0 ret eu = 0

(2.3)

oder, was das gleiche bedeutet, cov (et, wt) = 0,

cov(et, wu) = 0,

cov(et, eu) = 0

r = Korrelation, cov = Kovarianz. Die Kovarianz cov(x,y) zwischen 2 Variablen x und y entspricht dem über die Messwerte gemittelten Abweichungsprodukt

35

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

cov(x,y) = wobei

∑xy , N

2

(2.4)

x = X – Mx , y = Y – My .

N = Zahl der Beobachtungen, Mx = Mittelwert von X, My = Mittelwert von Y. Bei einer Standardisierung des Abweichungsproduktes erhält man bekanntlich den Produkt-Moment-Korrelationskoeffizienten rxy = rxy =

∑xy

sx ⋅ sy ⋅ N cov(x, y ) sx ⋅ sy

,

(2.5)

,

Für die Kovarianz kann deshalb auch geschrieben werden

cov(x,y) = rxy ⋅ s x ⋅ s y .

(2.6)

Was für den einzelnen Messwert und dessen additive Zusammensetzung aus wahrem und Fehlerwert gilt, lässt sich in Analogie zu (2.1) auch auf die Varianz der beobachteten Werte übertragen s xt 2 = s wt 2 + s et 2 .

(2.7)

Die Varianz der beobachteten Werte lässt sich demzufolge aufspalten oder fraktionieren in Varianzanteile zu Lasten der wahren Messwerte und solche zu Lasten der Fehler. Analog dazu lässt sich auch die Kovarianz zwischen additiv zusammengesetzten Variablen in verschiedene Kovarianzanteile zerlegen. Für die Kovarianz cov (xt, xt’) der Testwerte xt und xt’ aus der ersten und einer wiederholten Durchführung des Tests t unter identischen Bedingungen würde das nach (2.1) der Kovarianz der entsprechend zusammengesetzten Werte cov (wt + et), (wt’ + et’) gleichkommen. Diese lässt sich in 4 Anteile wie folgt zerlegen:

Zerlegung der Varianz

Zerlegung der Kovarianz

cov (x t , x t ′ ) = cov (w t , w t ′ ) + cov (w t , e t ′ ) + cov (w t ′ , e t ) + cov (e t , e t ′ ). (2.8)

Da jeder Kovarianzanteil, in dem et oder et’ enthalten ist, nach (2.3) gleich Null sein muss, ergibt sich, dass die Kovarianz der beobachteten Werte cov (xt, xt’) gleich ist der Kovarianz der wahren Werte cov (wt, wt’): cov (x t , x t ′ ) = cov (w t , w t ′ ).

(2.9)

Da die wahren Werte wt und wt’ desselben Tests aus 2maliger Testung (gemäß 2.1) identisch sind, ist die Kovarianz cov (wt, wt’) identisch mit der Varianz der wahren Werte swt2 (also der wahren Varianz) in dem von Test t erfassten Merkmal:

Identität der Kovarianz wahrer und beobachteter Werte

36

Kapitel 2 · Grundlagen diagnostischer Verfahren

cov (w t , w t ′ ) = s wt 2 (wegen w t = w t ′ ),

(2.10)

woraus folgt, dass cov (w t , w t ′ ) = s wt 2 (wegen w t = w t ′ ), [vgl. (2.6) und (2.9)]. Die Varianz der in einem Test t auftretenden wahren Werte ist also identisch sowohl mit der Kovarianz der wahren Werte mit sich selbst als auch derjenigen der Testwerte aus einer ersten und einer wiederholten Vorgabe des Verfahrens. Fragen wir uns nun nach der Korrelation des Tests t mit sich selbst, die, wie oben ausgeführt, einen Aspekt der Reliabilität, nämlich die Retestreliabilität oder Stabilität rtt definiert, so gilt entsprechend (2.5)

2

rtt = Reliabilität als Quotient aus wahrer und Testwertevarianz

cov (x t x t ′ ) . s xt ⋅ s xt ′

(2.11)

Weil aber nach (2.9) und (2.10) cov (w t , w t ′ ) = s wt 2 und weil wegen der Annahme der Wiederholung des Tests t unter völlig vergleichbaren Bedingungen auch sxt = sxt’ sein muss und deshalb s xt ⋅ s xt ′ = sxt2, gilt rtt =

s wt 2 s xt 2

(2.12)

Die Formel (2.12) stellt die wichtigste Ableitung aus den Annahmen der klassischen Testtheorie dar. Definition Die Reliabilität gibt den Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte an.

Ein Reliabilitätskoeffizient von beispielsweise rtt = .80 bedeutet demzufolge, dass die beobachtete Testwertevarianz zu 80% auf wahre Unterschiede zwischen den Testpersonen zurückzuführen ist und zu 20% auf Fehlervarianz beruht. 2.1.1.2

Der Standardmessfehler + set2 [vgl. (2.7)],

Da sxt2 = swt2

ist swt2 = sxt2 - set2. Setzt man die Differenz in (2.12) ein, erhält man rtt =

s xt 2 − s et 2

s xt 2 s et 2 = 1- 2 . s xt

Durch Umstellung von (2.12) kann man auch schreiben

s wt 2 = rtt ⋅ s xt 2 .

(2.13)

37

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

Das Produkt in (2.7) eingesetzt ergibt s xt 2 = rtt ⋅ s xt 2 + s et 2 , s et 2 = s xt 2 - (s xt 2 ⋅ rtt ) s et 2 = s xt 2 (1 - rtt ) s et = s xt ⋅

(nach Umstellen), (nach Vereinfachung),

1-rtt

(2.14)

Mit Formel (2.14) ist der Standardmessfehler eines Tests t bestimmt.

Standardmessfehler

Definition Der Standardmessfehler ist derjenige Anteil an der Streuung eines Tests, der zu Lasten seiner (gewöhnlich nicht perfekten, also »unvollständigen«) Zuverlässigkeit geht.

Wie aus dem Term ersichtlich ist, hängt der Standardmessfehler von der Streuung und dem Reliabilitätskoeffizienten ab. Bei einer perfekten Reliabilität von rtt = 1.0 wird das gesamte Produkt Null und damit auch der Standardmessfehler. Im Falle von rtt = 0, also dem vollständigen Fehlen von wahrer Varianz an der Gesamtvarianz sxt2, entspricht der Standardmessfehler dagegen der Streuung der beobachteten Werte. Diese beruhen dann ausschließlich (wie es bei rtt = 0 nicht anders sein kann) auf dem Einfluss von Fehlerfaktoren. Der Standardmessfehler set gibt die Streuung der beobachteten Werte xt um die entsprechenden wahren Werte wt sowohl 4 über alle Testpersonen bei einmaliger Testung als auch 4 für eine Testperson bei oftmaliger Testung unter (nur theoretisch möglichen) identischen Bedingungen an. Um das Letztere zu vertiefen: Angenommen, der wahre Wert wtj einer Person j in einem Test t sei aus irgendwelchen Gründen bekannt und der betreffenden Person würde der besagte Test immer wieder unter identischen Bedingungen vorgegeben. In diesem Fall würden die auftretenden Messwerte, weil fehlerbehaftet, vom wahren Wert teils in der einen, teils in der anderen Richtung abweichen. Insgesamt würde die Verteilung (sofern die Konstanz der Bedingungen wirklich gewährleistet werden könnte und die Fluktuationen nur zufalls- oder fehlerbedingt sind) derjenigen einer Normalverteilung entsprechen, und zwar mit dem wahren Wert wtj der untersuchten Person als Mittelwert und dem Standardmessfehler set als Standardabweichung. Diese Modellvorstellungen sind in . Abb. 2.3 grafisch veranschaulicht. Der Bereich, in dem die beobachteten Testwerte xtj um den wahren Wert streuen, wird als Erwartungsbereich oder Mutungsintervall bezeichnet. Gemäß den relativen Häufigkeiten unter den einzelnen Abschnitten der Standardnormalverteilung liegen im Bereich von M±1 Standardabweichung (hier also wtj ± 1 set) 34% + 34% = 68% der Fallzahlen. Mit anderen Worten: Wenn der wahre Wert bekannt ist, liegen von den faktisch beobachtbaren Messwerten voraussichtlich ca. 68% in dem Bereich, der durch den Standardmessfehler in beiden Richtungen auf der Merkmalsdimension um den wahren Wert abgesteckt wird. Allgemein wird die untere Grenze utj und obere Grenze otj des Erwartungsbereiches nach der folgenden Formel bestimmt:

Bedeutung des Standardmessfehlers

Erwartungsbereich für beobachtete Werte

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.3. Theoretische Wahrscheinlichkeitsverteilung des zufälligen Messfehlers; utj und otj für α = 5%

2

Wahrscheinlichkeitsdichte

38

Set

α –

α –

2

Utj

2

Wtj

Otj

Erwartungsbereich

u tj = w tj − zα /2 ⋅ s et otj = w tj + zα /2 ⋅ s et

(2.15)

Darin bedeutet zα/2 jenen Abszissenwert in der Standardnormalverteilung, dessen Ordinate am linken oder rechten Ende der Standardnormalverteilung genau α/2 der Gesamtfläche unter der Verteilungskurve abschneidet (zα/2 = ± 1,96 für α = 5%). Üblicherweise steht der wahre Wert eines Probanden aber nicht zur Verfügung. Eine oftmalige Testung kann allenfalls als (Gedanken-)Experiment verstanden werden, um den wahren Wert zu bestimmen. Er würde unter der fiktiven Annahme gleichbleibender Rahmenbedingungen dann nämlich identisch sein mit dem Mittelwert aller beobachteten Werte. Das in der psychodiagnostischen Praxis wiederkehrende Problem besteht allerdings darin, etwas über den Bereich auszusagen, in dem ausgehend von der einmaligen Untersuchung eines Probanden dessen wahrer Wert vermutet werden kann. Darüber wird später Näheres auszuführen sein (7 Abschn. 2.1.1.5, Festlegung des Erwartungsbereiches). Fazit 4 Den Axiomen der KTT zufolge überlagern Fehlerkomponenten die wahren Werte. Bei wiederholter Testung ein und desselben Probanden mit einem bestimmten Test und der einmaligen Untersuchung vieler Probanden mit einem Verfahren mitteln sich die Fehlerwerte zu Null. Wahrer und Fehlerwert sind unkorreliert. 4 Die Reliabilität eines Tests ist das Verhältnis der Varianz der wahren Werte zur Varianz der beobachteten Werte. 4 Der Standardmessfehler ist definiert als der Anteil der durch »unvollständige« Zuverlässigkeit bedingten Fehlerkomponente an der Streuung der beobachteten Testwerte.

Differenzierendes zum Standardmessfehler

Wie oben dargelegt wurde, geht eine der Setzungen dahin, dass der Messfehler bei allen Testpersonen (und das bedeutet: auf allen Abschnitten des Messwertekontinuums)

39

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

gleich groß ist. Das ist gegenintuitiv, weshalb es Bemühungen gegeben hat, den Standardmessfehler spezifisch für verschiedene Merkmalsausprägungen oder für verschiedene »score levels« zu bestimmen. s et cond = [X(k - X)/(k - 1)]1/2

(2.16)

2

Bestimmung des Standardmessfehlers gesondert für verschiedene Merkmalsausprägungen

X = Rohwert einer Testperson k = Zahl der Items in einem Test Die nach dieser Formel ermittelten Standardmessfehler scheinen unter bestimmten Bedingungen überhöht zu sein. Deshalb hat Keats (1957) den Vorschlag einer Modifikation gemacht, in dem der Ausdruck von Lord in der nachfolgenden Weise um einen Term ergänzt wird, der die Reteststabilität und die Inter-Item-Konsistenz berücksichtigt: s et cond’ = [X(k - X)/(k - 1) - (1 - rtt /1 - rii )]1/2

rtt rii

(2.17)

= Reteststabilität = Inter-Item-Konsistenz

Anhand von vier Skalen des Minnesota Multiphasic Personality Inventory (MMPI, 7 Abschn. 3.2.3) haben Saltstone, Skinner und Tremblay (2001) geprüft, welche der drei

Ansätze (= Formeln) am besten den empirisch gefundenen Messwerte-Differenzen zwischen der Erst- und einer Wiederholungstestung gerecht wird. Die Modelltests stützten sich dabei sowohl auf die Messwerte der Gesamtstichprobe als auch auf diejenigen aus (einer Kombination von) zweitem und dritten Quartil sowie auf diejenigen aus erstem und viertem Quartil. Die Resultate waren insofern konsistent, als bei Heranziehung der Gesamtstichprobe die Benutzung der Formel von Keats in allen vier Skalen die geringsten absoluten Differenzen zwischen tatsächlichen und geschätzten Werten aufwiesen, gefolgt von der klassischen Definition des Standardmessfehlers. Unter den beiden anderen Bedingungen (d. h. Betrachtung der mehr oder minder extremen Testwerte), bei denen sich wegen der hier eher wahrscheinlichen Regression zur Mitte generell größere Messfehler einstellten, war der Ansatz von Keats immer noch der präziseste, doch war in einigen Skalen Lords Formel dem herkömmlichen Standardmessfehler etwas überlegen. Insgesamt waren die Unterschiede zwischen den drei Ansätzen mit ca. 0,2 bis 0,3 Rohpunktwerten gering und deshalb mehr von theoretischem als praktischem Interesse. Minderungskorrekturen und Reliabilitätsindex Schon Spearman (1910) thematisierte das Problem, welchen Einfluss die Fehlerbehaftetheit von Messwerten auf die Höhe der Korrelation zwischen 2 Variablen hat. Ganz konkret lautet die Frage, ob sich die Korrelation rwtwu zwischen den wahren Werten von 2 Tests (oder Variablen) t und u bestimmen lässt, wenn deren Reliabilitäten rtt und ruu sowie die Korrelation der beobachteten Werte rxtxu beider Tests bekannt sind. Die Herleitung der Antwort ist vergleichsweise einfach: In sinngemäßer Anwendung der in (2.5) dargelegten allgemeinen Definition auf das hier anstehende Problem schreiben wir:

Modelltests zum Vergleich der verschiedenen Ansätze

2.1.1.3

rwtwu =

cov(w t ,w u ) , s wt ⋅ s wu

wegen (2.9) gilt, dass cov (wt, wu) = cov (xt, xu).

(2.18)

Zur Korrelation zwischen den wahren Werten von 2 Tests

40

Kapitel 2 · Grundlagen diagnostischer Verfahren

Ferner lässt sich durch Radizierung und Umstellung von (2.12) herleiten, dass s wt = s xt ⋅ rtt und s wu = s xu ⋅ ruu .

2

Daraus ergibt sich die Formel rwtwu =

cov(x t ,x u ) sxt ⋅ rtt ⋅s xu ⋅ ruu

(2.19)

Da nach (2.5) und (2.18) die standardisierte Kovarianz dem Korrelationskoeffizienten entspricht, vereinfacht sich (2.19) zu rwtwu =

Minderungskorrektur

rxtxu rtt ⋅ ruu

(2.20)

Die Formel wurde von Spearman (1910) »correction for attenuation« genannt und von Lienert (1989) mit »Minderungskorrektur« übersetzt. Definition Die Minderungskorrektur liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren Reliabilitätskoeffizienten bekannt sind. Damit wird gleichsam die »Minderung« korrigiert, der Korrelationskoeffizienten unterliegen, wenn die miteinander korrelierten Messwerte fehlerbehaftet sind.

Beispiel

Test t: Test u: Frage:

rtt = .90, ruu = .80, rxtxu = .50. rwtwu = ? .50 .90 ⋅ .80 .50 = .72 .50 = = .59. .85

Nach (2.20): rwtwu =

Aussage: Die Korrelation zwischen den wahren Werten der Tests t und u beträgt ca. 0.59. Der Koeffizient rxtxu ist kleiner als .59, weil mindestens einer der Tests (in diesem Fall beide Tests) nicht absolut reliabel ist.

Die Formel (2.20) zeigt darüber hinaus, dass die Korrelation von 2 messfehlerbehafteten Variablen nicht größer ausfallen kann als das geometrische Mittel rtt ⋅ ruu der beiden Reliabilitätskoeffizienten dieser Variablen, denn durch Umstellung von (2.20) erhält man: rxtxu = rwtwu ⋅

rtt ⋅ ruu

41

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Maximal könnte die Korrelation zwischen den wahren Werten in den Tests t und u den Wert r = 1,0 erreichen. Dann bliebe auf der rechten Seite noch das Produkt der beiden Wurzelausdrücke. Im Falle des obigen Beispiels würde das eine Obergrenze von .90 ⋅ .80 = .85 bedeuten. Dieser Herleitung kommt primär eine theoretische Bedeutung zu insofern, als sie die Frage nach der Korrelation der wahren Werte beantwortet; sie weist aber auch Implikationen für die Validierung von Tests gegenüber externen Kriterien (z. B. Fremdeinschätzungen des von dem Test zu erfassenden Merkmals, Schul- und Ausbildungserfolge, Unfallraten, Krankheits- und Fehlzeiten usw.) auf. Angesichts der häufig genug allenfalls moderaten Korrelationen zwischen Test- und Kriteriumswerten (grundsätzlich indiziert mit rtc) mag die Frage auftauchen, welche Faktoren allgemein für das Verfehlen höherer Validitätskoeffizienten verantwortlich sind und ob eine relativ leicht zu bewerkstelligende technische Verfeinerung, wie die Erhöhung der Zuverlässigkeit des Tests durch dessen Verlängerung (zu den Einzelheiten 7 Abschn 2.1.1.4), die Aussicht auf deutliche Verbesserungen eröffnet. Die gleichen Erwägungen sind natürlich auch relevant für die Kriteriumsdimension (. Abb. 2.4). Hier können durch Hinzunahme weiterer Einschätzer, durch die Erweiterung des Beobachtungsintervalls und die Verlängerung des Beurteilungskataloges i. Allg. ebenfalls die Reliabilität der Kriteriumswerte erhöht und dadurch die Voraussetzungen für eine hinlängliche Validität verbessert werden. Im Hinblick auf solche Fälle einer doppelten Minderungskorrektur werden in Formel (2.20) folgerichtig die dafür relevanten Terme eingesetzt bzw. nur andere Notationen insofern verwendet, als anstelle der Variablen u nunmehr die Kriteriumsdimension c tritt:

2

Praktische Bedeutung von Minderungskorrekturen

Doppelte Minderungskorrektur

. Abb. 2.4. Die Validität von Tests zur Vorhersage des Schulerfolgs wird einerseits durch »fehlerhafte« Messwerte beeinflusst, andererseits durch inkongruente Konstrukte und schwer erfassbare Rahmenbedingungen

42

Kapitel 2 · Grundlagen diagnostischer Verfahren

c+t

2

corr rtc =

rtc rtt ⋅ rcc

(2.22)

c+tcorr rtc=Test-/Kriteriumskorrelation

(= Validität), korrigiert für die unzureichende Reliabilität des Tests und die unzureichende Reliabilität des Kriteriums. Beispiel

Angenommen, ein Test zur Erfassung von Intelligenz korreliere im Mittel mehrerer Klassen mit dem Urteil der Lehrkräfte über die intellektuelle Befähigung der Kinder zu rtc = .60. Der Test weise eine Zuverlässigkeit von rtt = .90 auf, das Kriterium nur eine solche von rcc = .50. Nach (2.20) resultiert daraus c+ t

.60 .90 ⋅ .50 .60 = .45 .60 = = .90. .67

corr rtc =

Aussage: Wären Test und Kriterium absolut zuverlässig (= doppelte Minderungskorrektur), würde sich ein Zusammenhang von rtc = .90 ergeben.

Praktische Grenzen von Minderungskorrekturen

Einfache Minderungskorrektur

Da die Reliabilitätskoeffizienten jeweils im Nenner stehen, fällt die Korrektur des Korrelationskoeffizienten um so drastischer aus, je niedriger die empirisch ermittelten Reliabilitätskoeffizienten sind (sog. »Verdünnungsparadox«). So wäre bei einer Reliabilität des Kriteriums von rcc = .70 die korrigierte Validität (also hypothetisch für den Fall einer absoluten Reliabilität von Test und Kriterium) im eben angeführten Beispiel nur auf t+ccorr rtc = .76 gestiegen. In vielen Fällen erscheint es ungerechtfertigt, die Validität durch eine Minderungskorrektur von sowohl der Test- als auch der Kriteriumsdimension anzuheben. So mag die weitere Verlängerung eines bereits umfangreichen Tests (und die damit gegebene Aussicht auf Reliabilitätserhöhung) angesichts der damit für die Probanden verbundenen Belastungen nicht zumutbar sein, zumal dann nicht, wenn die Reliabilität bereits hoch und damit der zu erwartende Zugewinn gering ist (7 unten). Zudem gilt für bestimmte Kriterien, dass wegen einer Vielzahl von zufälligen Situationsfaktoren die persönliche – und damit aus individuellen Unterschieden vorhersagbare – Komponente vergleichsweise in den Hintergrund tritt, wie es für verschiedene Unfall- und Krankheitsmaße zutrifft. Mit ausschließlich technischen Verbesserungen, die auf die Reliabilität abzielen, ist deshalb kaum zum Erfolg zu gelangen. Gleichwohl bleibt hier wie dort das Problem der zugrunde liegenden Systemstrukturen bestehen und die theoretische Frage, welchen Beitrag die Unzuverlässigkeit einer der beiden miteinander korrelierten Dimensionen im Sinne einer Beeinträchtigung der Validität leistet. Für diesen Fall der einfachen Minderungskorrektur reduziert sich in Formel (2.22) der Nenner auf jene Variablen, deren Unzuverlässigkeit aus theoretischen und praktischen Gründen interessiert, behebbar erscheint und korrigiert werden soll. Die jeweils andere Variable bleibt außer Betracht. Das bedeutet, es wird deren absolute Reliabilität unterstellt.

43

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

Beispiel

Für den im vorangegangenen Fall erwähnten Intelligenztest und dessen Zusammenhang mit dem Kriterium von Fremdeinschätzungen soll die Validität nur für die unzureichende Reliabilität des Kriteriums minderungskorrigiert werden. rtc = .60 rcc = .50

c

corr rtc =

rtc .60 .60 = = = .85 rcc .50 .71

Aussage: Gelänge es, die Reliabilität des Kriteriums auf rtt = 1.0 zu steigern (= einfache Minderungskorrektur), würde sich unter sonst gleichen Verhältnissen die Validität auf rtc = .85 verbessern.

Aus dem Vergleich der einfachen mit der doppelten Minderungskorrektur (korrigierte rtc = .85 bzw. .90) geht im Übrigen hervor, dass die Korrektur logischerweise relativ wenig ändert, wenn die Reliabilität der Variablen bereits sehr hoch ist, wie es für die meisten Leistungstests und auch für viele Fragebögen durchaus die Regel ist. Die Minderungsoder Attenuationskorrekturen sind primär wichtig für das Verständnis der KTT und der vor ihrem Hintergrund beschriebenen Wechselbeziehungen. Ihre praktische Bedeutung beschränkt sich auf solche Fälle, in denen mit Gewissheit davon ausgegangen werden kann, dass das interessierende Merkmal eine größere Stabilität oder Reliabilität aufweist als die für die Testung vorgenommenen Operationalisierungen und/oder das zur Validierung herangezogene Gültigkeitskriterium. Das letztere (die unzureichende Reliabilität eines Kriteriums) trifft sicher zu für das oben gewählte Beispiel der intellektuellen Begabung, deren hohe Konstanz unter regulären Bedingungen selbst über eine längere Zeitspanne als gesichert gilt und jedenfalls reliabler ist als die Einschätzungen von Außenstehenden. Das Problemfeld von Obergrenzen für korrelative Zusammenhänge zwischen Variablen – aufgrund mangelnder Zuverlässigkeit – vorläufig abschließend, soll noch folgende Überlegung angestellt werden: Eine Limitierung der kriteriumsbezogenen Validität eines Tests muss sich schon daraus ergeben, dass er nicht enger mit irgendeiner anderen Variablen korrelieren kann als mit seinen wahren Werten. Diese Korrelation stellt im Falle unkorrelierter Fehler mithin eine theoretische Höchstmarke für jegliche Validitätskoeffizienten eines Verfahrens dar. Sie bemisst sich als rxtwt =

cov (x t , w t ) . s xt ⋅ s wt

(2.23)

Da die Kovarianz cov (et, wt) gemäß dem 3. Axiom gleich Null ist, bleibt von den konzeptuellen Teilkomponenten der Kovarianz in (2.23) nur cov (wt, wt’). Diese wiederum ist gemäß (2.10) gleichbedeutend mit swt2. Das bedeutet: Sie bemisst sich als rxtwt =

s wt 2 s wt = . s xt ⋅ s wt s xt

(2.24)

Korrelation der Testscores mit den wahren Werten

44

Kapitel 2 · Grundlagen diagnostischer Verfahren

Nun ist aus (2.12) bekannt, dass die Reliabilität als das Verhältnis der Varianz von wahren zu beobachteten Werten gilt, hier aber Standardabweichungen, also die Quadratwurzeln daraus, vorliegen. Mithin kann auch geschrieben werden:

2

rxtwt = rtt

(2.25)

Dieser Ausdruck bezeichnet den sog. Reliabilitätsindex. ! Die Validität kann maximal die Wurzel aus der Zuverlässigkeit betragen. Höhere Koeffizienten müssten auf Artefakten beruhen. Beispiel

Bei einer Reliabilität des Tests t von rtt = .81 liegt die Obergrenze für korrelative Wechselbeziehungen (z. B. Kriteriumsvalidität) bei der Wurzel aus der Reliabilität: rtt = .81 = .90.

Fazit 4 Aus der Annahme unkorrelierter Fehler folgt, dass die Überlagerung der wahren

4 4

4

4

Werte durch Messfehler den zwischen 2 Variablen bestehenden korrelativen Zusammenhang mindert. Das Ausmaß der Minderung ist abhängig von der Größe des Messfehlers, der sich seinerseits in der mehr oder weniger hohen Reliabilität ausdrückt. Um den Einfluss der Unzuverlässigkeit auf die Höhe von Korrelationen zwischen Variablen abzuschätzen bzw. um die Korrelation der wahren Werte abzuschätzen, stehen Minderungskorrekturen zur Verfügung. Angewendet auf das Problem der Validität eines Tests gegenüber einem Kriterium entspricht der einfach minderungskorrigierte Validitätskoeffizient derjenigen Validität, die der Test haben würde, wenn entweder der Test oder das Kriterium absolut zuverlässig wäre. Der doppelt minderungskorrigierte Validitätskoeffizient steht für jene Validität, die sich errechnen würde für den Fall, dass Test und Kriterium maximal zuverlässig wären. Eine Variable (ein Test) kann mit einer anderen Variablen nicht höher korrelieren als mit ihren wahren Werten. Die Obergrenze dafür definiert der sog. Reliabilitätsindex als Wurzel aus der Reliabilität.

Reliabilität und Testlänge Eine weitere Ableitung aus der KTT betrifft die Abhängigkeit der Reliabilität eines Tests von dessen Länge, und zwar ausgedrückt als Zahl der Aufgaben, aus denen der Test besteht (. Abb. 2.5). Die schon auf intuitiver Basis ableitbare Erwartung, dass sich mit zunehmender Zahl von Items zu ein und demselben Merkmalsbereich eine Art Fehlerausgleich einstellen und damit die Messung immer präziser werde, ergibt sich auch aus den Annahmen der KTT, und zwar denjenigen zur vollständigen oder perfekten Korrelation zwischen wahren Werten ein- und desselben Tests und der Nullkorrelation zwischen Fehlerwerten. Zum Beweis sei zunächst allgemein auf die Additivität von Varianzen eingegangen. Als Beispiel denke man sich einen Pool von Aufgaben zur Erfassung einer bestimmten 2.1.1.4

Addition von Messwerten homogener Tests

45

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

. Abb. 2.5. Die Verlängerung von Tests zur Erhöhung der Reliabilität findet ihre Grenzen in der Zumutbarkeit für die Probanden

Merkmalsdimension, der in einer Stichprobe von Personen die Messwerte Xt liefere. Des Weiteren stünde eine andere Menge von Aufgaben zur Verfügung, die dasselbe Merkmal erfassen sollen, also homogen zur erstgenannten Gruppe sind und – derselben Personenstichprobe vorgegeben – die Messwerte Xu liefern. Gefragt ist, wie groß die Varianz der pro Testperson aufsummierten Werte (Xt + Xu) ausfällt. Zur Vereinfachung schreiben wir xt = Xt - Mt bzw. xu = Xu - Mu, verwenden also die individuellen Differenzwerte zum Mittelwert der jeweiligen Verteilungen. Die allgemeine Formel für die Varianz lautet: sx2 =

∑x 2 .

(2.26)

N

Für die individuellen Summenwerte (xt + xu) gilt deshalb s(xt + xu)2 =

∑(x t + x u )2 N

∑x t 2 + ∑x u 2 + 2 ∑x t ⋅ x u = N

∑x t 2 + ∑x u 2 + 2 ∑x t ⋅ x u =

N N 2 ∑x t ⋅ x u . = s xt 2 + s xu 2 + N N

Aus (2.4) ist bekannt, dass der letzte Summand 2mal der Kovarianz zwischen den beiden Messwertreihen entspricht und im Sinne von (2.6) deshalb auch geschrieben werden kann: s(xt + xu)2 = s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu

(2.27)

Additivität von Varianzen

46

Kapitel 2 · Grundlagen diagnostischer Verfahren

! Die Varianz von individuell summierten Werten ergibt sich somit aus der Summe der Einzelvarianzen und 2mal der Kovarianz zwischen den Messwertreihen.

Die in (2.27) wiedergegebene Additivitätsregel gilt für die beobachteten Werte. Unterstellt man, es lägen die wahren Messwerte bzw. die daraus errechneten Varianzen vor, so resultiert daraus bei der weiteren notwendigen Annahme der Gleichheit von swt und swu und der weiteren Annahme einer Korrelation von rwtwu = 1 die folgende Gleichung

2

s(wt + wu)2 = s wt 2 + s wu 2 + 2 ⋅1 ⋅ s wt ⋅ s wu = 2 sw2 + 2 sw2 = 4 sw2 . ! Eine Verdoppelung des Tests in Einheiten von homogenen Aufgaben führt also zu einer Vervierfachung der wahren Varianz.

Was geschieht demgegenüber mit der Fehlervarianz? Prinzipiell das gleiche, nur korrelieren die Fehler aus den beiden Testhälften per definitionem zu Null miteinander. Dadurch wird der 2. Summand zur Gänze Null: s(et + eu)2 = set2 + seu2 + 2 · 0 · set · seu = 2 se2 . ! Die Verdoppelung des Tests bewirkt somit eine Verdoppelung der Fehlervarianz.

Höhere Reliabilitäten durch Verlängerung von Tests

Herleitung des Reliabilitätszuwachses

Wie oben gezeigt wurde, steht bei der Verlängerung eines Tests um den Faktor 2 einer Vervierfachung der Varianz der wahren Werte nur eine Verdoppelung der Fehlervarianz gegenüber, d. h. die Varianz der wahren Werte an der Testwertevarianz reichert sich stärker an als diejenige der Fehler. Daraus resultiert, da die Reliabilität gemäß (2.12) als Anteil der wahren Varianz an der Gesamtvarianz definiert ist, für die Verlängerung von Tests die Erwartung höherer Reliabilitäten – eine Ableitung, die im übrigen empirisch gut bestätigt wird. Danach erzielen bei den verschiedenen Methoden einer Bestimmung der Reliabilität die längeren Verfahren durchweg höhere Koeffizienten als die kürzeren. Welche Reliabilitätszuwächse im Einzelnen zu erwarten sind, ist aus folgender Ableitung ersichtlich: Gemäß (2.12) ist s wt 2 oder s xt 2 s xt 2 -s et 2 rtt = . s xt 2 Bei Verdoppelung des Tests: rtt =

corr rtt =

s(xt + xu)2 - s(et + eu)2 s(xt + xu)2

(gemäß (2.27)) =

s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu -(s et 2 + s eu 2 + 2 reteu ⋅ s et ⋅ s eu ) . s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu

47

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Unter der Annahme, dass sxt2 = sxu2 und set2 = seu2, gilt: =

2 s x 2 + 2 rxtxu ⋅ s x 2 - 2 se 2 - 2 reteu ⋅ se 2 2 s x 2 + 2 rxtxu ⋅ s x 2

weil 2 reteu · se2 = 0, folgt =

2 s x 2 (1 + rxtxu ) - 2 s e 2 2 s x 2 (1 + rxtxu )

weil se2 = sx2 (1 - rxtxu) [siehe Herleitung 2.14], folgt =

2 s x 2 [(1 + rxtxu ) - (1 - rxtxu )] 2 s x 2 (1 + rxtxu )

corr rtt =

2 rxtxu . 1 + rxtxu

(2.28)

Beispiel

Die Zuverlässigkeit einer Testskala betrage rtt = 0.60. Bei einer Verlängerung um den Faktor 2 (= Verdoppelung) resultiert eine Reliabilität gemäß (2.28) von 2 ⋅ .60 corr rtt = = .75. 1 + .60

In allgemeiner Form lautet die Formel wie folgt: corr rtt =

k ⋅ rtt 1 + (k - 1) rtt

Spearman-BrownFormel

(2.29)

Nach ihren Autoren heißt der Ausdruck »Spearman-Brown-Formel« (Lienert, 1989, S.143 ff.). . Abb. 2.6 veranschaulicht den in der Spearman-Brown-Formel definierten Zusammenhang. Aus ihr geht hervor, dass der Reliabilitätszuwachs bei niedriger (Ausgangs-)Reliabilität (z. B. rtt = .50) am größten ist, hier der stärkste Anstieg aller Kurven auftritt, und bei hohen Verlängerungsfaktoren niedriger liegt. Wie mehrfach festgestellt wurde, müssen zur Anwendung der Formel die jeweiligen Testteile homogen oder einander äquivalent sein. Ist diese Voraussetzung nicht erfüllt, bedarf es differenzierterer Ansätze (s. dazu z. B. Lienert, 1989, S. 119 f.; Lord & Novick, 1974). Die Prinzipien der Spearman-Brown-Formel gelten nicht nur für die Verlängerung, sondern auch für die Verkürzung von Skalen. Während eine der denkbaren Fragen im Sinne der erstgenannten Richtung etwa lautet, um welchen Faktor man eine Skala verlängern muss, um eine angestrebte Reliabilität zu erzielen, kann die Umkehrung in der Überlegung bestehen, wie kurz ggf. der Test ausfallen darf (etwa aus Zeitund Kostengründen), wenn eine bestimmte Reliabilität nicht unterschritten werden soll. Um solchen Problemen gerecht werden zu können, empfiehlt es sich, in der Spearman-Brown-Formel den Faktor k durch n zu ersetzen, wobei n = Zahl der Items nach Korrektur/Zahl der Items vor Korrektur.

Verkürzung von Tests

2

48

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.6. Zusammenhang zwischen Ausgangsreliabilität, Testverlängerung (Faktor k) und neuer Reliabilität

1.0 .9 r "=

.9

r "=

.8

.8 = r"

.7 = r"

.6 = r"

.7

.6

.5

.5 1

2

3

4

5

Veränderungsfaktor k

Beispiel

Ein Test enthalte in der momentan vorliegenden Form 100 Items und weise eine Reliabilität von rtt = .90 auf. Es stellt sich die Frage, auf welches Niveau die Zuverlässigkeit absinkt, wenn aus Ökonomiegründen auf 40 Items verzichtet wird. 60 3 n= = = 0,6 100 5 0,6 • .90 corr rtt = 1+ (0,6 - 1) ⋅ .90 .54 = = .84. .64 Bei einer Verkürzung von 100 auf 60 Items (was einem Faktor k = 0,6 entspricht) würde die Reliabilität auf rtt = .84 sinken. Fazit Somit lässt sich festhalten, dass die Reliabilitätstheorie innerhalb der KTT einen gesetzmäßigen Zusammenhang zwischen der Länge von Tests und deren Zuverlässigkeit postuliert. Dieser Zusammenhang ist durch die Empirie gut bestätigt, was für die Brauchbarkeit der (für sich selbst nicht überprüfbaren) Axiome und sonstigen Rahmenüberlegungen der KTT spricht.

2.1.1.5 Implikationen für die psychodiagnostische Praxis Festlegung des Erwartungsbereiches Interpretation beobachteter Testwerte

Bei der Herleitung des Standardmessfehlers ist bereits dessen eminent wichtige Bedeutung für die Handhabung bzw. Interpretation erhaltener Testwerte angesprochen worden. Weil jeder Messwert fehlerbehaftet ist, wenn der zugrunde liegende Test nicht absolut zuverlässig ist, verbietet es sich, den ermittelten individuellen Score etwa gleichzusetzen mit dem wahren Wert des Probanden. Vielmehr ist ein Unsicherheitsbereich in Rechnung zu stellen, in dem der wahre Wert vermutet werden kann. Dafür liefern die Reliabilität und der daraus abgeleitete Standardmessfehler wichtige Anhaltspunkte.

49

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

In . Abb. 2.3 ist das Konzept desjenigen Bereiches grafisch veranschaulicht, in dem beobachtete Werte um einen wahren Wert streuen. Je nachdem, mit welcher relativen Sicherheit eine Feststellung getroffen werden soll, wird man diesen Erwartungsbereich verschieden breit ansetzen. Ist beispielsweise eine große Sicherheit bzw. geringe Irrtumswahrscheinlichkeit der jeweiligen Feststellung notwendig (etwa weil die Konsequenzen einer darauf aufbauenden Entscheidung für die Testperson oder die testende Institution erheblich sind), muss dementsprechend fast die gesamte Breite des Erwartungsbereiches in Betracht gezogen werden als jenes Intervall, in dem der beobachtete Wert bei Bekanntheit des wahren Wertes voraussichtlich liegen wird. So liegen 68% der Fälle im Bereich von Xwt ± 1 · set , 95% im Bereich von Xwt ± 1,96 · set , usw. Mit Hilfe des Konzeptes vom Erwartungsbereich kann beispielsweise die Hypothese geprüft werden, ob der Intelligenzquotient (IQ) der Testperson j Xtj = 110, der mit dem Test t gemessen wurde, mit 95% Sicherheit (oder 5% Irrtumswahrscheinlichkeit) für eine überdurchschnittliche Intelligenz des Probanden spricht oder eine Qualifizierung im Sinne von »überdurchschnittlich« nicht gerechtfertigt ist. Der Test sei so geeicht, dass sein Mittelwert Mxt = Mwt = 100 IQ-Punkte beträgt und sich die Streuung der beobachteten Testwerte auf sxt = 15 IQ-Punkte beläuft. Solche Werte entsprechen der üblichen Eichung von allgemeinen Intelligenztests. Die Reliabilität des Tests t sei rtt = .84, was ebenfalls eine geläufige Größe darstellt. Der Standardmessfehler wäre dann nach (2.14)

2

Gewünschte Entscheidungssicherheit

Beispiel: Erwartungsbereich für einen Intelligenzquotienten

s et = 15 IQ-Punkte ⋅ 1-.84 = 15 ⋅ 0.4 = 6 IQ-Punkte.

Für einen Probanden mit dem wahren Wert Wtj = 100 ergäben sich somit nach (2.15) folgende Grenzen des Erwartungsbereiches (auch »Confidence Limit«: CL) bei einer vorab festgesetzten, tolerierbaren Fehlerwahrscheinlichkeit von α = 5%: utj = 100 – 1,96 · 6 = 100 – 11,76 = 88, otj = 100 + 1,96 · 6 = 100 + 11,76 = 112. Der Erwartungsbereich für die Streuung der beobachtbaren Testwerte bei einem wahren Wert Wtj = 100 erstreckt sich somit bei der gegebenen Reliabilität und dem angenommenen Irrtumsniveau von 88 bis 112. Er schließt damit den tatsächlich beobachteten Testwert des Probanden ein. Deshalb muss die Hypothese, es handele sich um überdurchschnittliche Intelligenz, mit 5% Irrtumswahrscheinlichkeit verworfen werden. Unter den gegebenen Rahmenbedingungen wäre für »überdurchschnittlich«, also besser als Mxt = 100, ein individueller Score von Xtj = 113 mindestens erforderlich. An diesem Beispiel wird deutlich, wie überraschend groß auch bei bewährten Instrumenten die bestehenden Erwartungsbereiche ausfallen. Eine Reliabilität von rtt = .84 und eine Streuung von s = 15 besagen nichts anderes, als dass für 95 von 100 Personen, die einen identischen wahren Wert Wt in Test t aufweisen, die beobachteten Testwerte Xt in den Grenzen Wt ± 11,76 IQ-Punkte zu liegen kommen, also in einem Bereich, der nicht weniger als 23 Einheiten umfasst. Die restlichen 5% der Personen lägen noch außerhalb dieses Bereiches. Eine hohe Reliabilität oder Messgenauigkeit ist des-

Breite von Erwartungsbereichen

50

Kapitel 2 · Grundlagen diagnostischer Verfahren

2 Suche nach dem wahren Wert

halb eminent wichtig für die gesamte empirische Psychologie und speziell für die psychologische Diagnostik. Gelänge es, etwa durch Hinzunahme weiterer Aufgaben in den Test, dessen Reliabilität auf rtt = .95 zu erhöhen, käme das mit ca. ± 6,5 = 13 Punkten insgesamt ungefähr einer Halbierung des Erwartungsbereiches gleich. Doch auch dieser Betrag muss noch als unakzeptabel hoch für individuelle Entscheidungen gelten. Nun liegt der wahre Wert in aller Regel nicht vor. Vielmehr soll er aufgrund der Testung erst bestimmt und das heißt hier: Möglichst genau eingegrenzt werden. Ausgehend von den bisherigen Erörterungen liegt es deshalb nahe, einen umgekehrten Schluss derart vorzunehmen, dass nicht von den wahren Werten auf den Erwartungsbereich der beobachteten geschlossen wird, sondern, ausgehend von den beobachteten Testscores, um diese ein Vertrauensintervall (CL) berechnet wird, in dem der wahre Wert liegen müsste, und zwar nach der Regel CL = X tj ± zα /2 ⋅ s et

(2.30)

CL = Erwartungsbereich oder Vertrauensintervall oder Mutungsbereich, Xtj = beobachteter Wert eines Probanden j in Test t, zα/2 = Irrtumswahrscheinlichkeit (z-Wert für eine vorgegebene Häufigkeit in der Standardnormalverteilung), set = Standardmessfehler. Wie unschwer festzustellen ist, gleicht die Formel (2.30) dem Inhalt von (2.15), nur mit dem Unterschied, dass dort von dem wahren und hier von dem beobachteten Wert ausgegangen wird. Beispiel

Ausgehend von den Rahmendaten aus dem Beispiel im Anschluss an . Abb. 2.3 stellt sich nunmehr die Frage, ob ein Xtj = 110 mit p < 5% vom Mittelwert Mxt = 100 verschieden ist. Da die Reliabilität und Streuung übernommen werden sollen (rtt = 0.84; sxt = 15) muss auch das Mutungsintervall mit CL = 2 · 11,76 (für beide Richtungen) so ausfallen wie im vorangegangenen Beispiel. Die Aussage lautet aber jetzt: Bei einem beobachteten Wert von Xtj = 110 reicht das Intervall, in dem mit 95% Sicherheit der wahre Wert zu erwarten ist, von 98 bis 122. Von daher kann nicht mit Gewissheit davon ausgegangen werden, dass im besagten Fall eine überdurchschnittliche Intelligenz vorliegt.

Entgegen der nahezu invarianten Darstellung in den einschlägigen Lehrbüchern (s. Lienert, 1989; Fisseni, 1990), wie sie auch oben zunächst gegeben wurde, besteht die Bestimmung des Vertrauensintervalles bei der Eingrenzung des wahren Wertes aber nicht einfach in der Umkehrung des Schlusses, der zur Ermittlung des Erwartungsbereiches beobachteter Werte in Kenntnis der wahren führt, sondern stellt ein etwas komplizierteres Schlussverfahren dar (s. Dudek, 1979). Dieses berücksichtigt, dass die wahren Werte im Schnitt näher am Mittelwert der Testwerte Mxt liegen als die beobachteten Testwerte und diese Regression zur Mitte in Rechnung gestellt werden muss. Dadurch ist ein Präzisionsgewinn möglich, der einen etwas niedrigeren Standardmessfehler anzunehmen erlaubt, nämlich

51

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

s w et = s xt rtt (1 - rtt )

(2.14a)

sw et = Standardmessfehler bei der Schätzung der wahren Werte auf der Basis von beobachteten Testscores, sxt = Streuung der beobachteten Werte, rtt = Reliabilität. Das damit gegebene bzw. schätzbare Unsicherheitsintervall ist also um den geschätzten wahren Wert und nicht um den beobachteten anzunehmen. Da die Prinzipien von Regressionschlüssen erst unten (7 Abschn. 2.1.1.5, »Vorhersage auf der Basis von Testwerten«) erörtert werden, ist es für das nachfolgende Beispiel notwendig, aus der detaillierten Herleitung, auf die hier ausdrücklich verwiesen sei, einige Formeln vorzuziehen. Beispiel

Die Rahmendaten seien dieselben wie im vorangegangenen Beispiel: Xtj = 110, Mxt = 100, rtt = .84. Gesucht wird der wahre Wert und dessen Erwartungsbereich. Die Rahmendaten werden in Analogie zu (2.38) und (2.39) eingesetzt in die allgemeine Formel: X w = Mxt + rxtwt

s wt (X tj - Mxt ) s xt

Es gelten: Für rxtwt die Obergrenze rtt [7 (2.25)] Für s wt = s xt ⋅ rtt [7 im Anschluss an (2.18)] X w = Mxt + .84 ⋅

15 ⋅ .84 (110 − 100 ) 15

Xw =100+8,4 =108,4. s w et = 15 • .84 (1 - .84) [7 (2.14a)] = 15 • 0,1344 = 5,5.

Das Intervall, in dem mit 5% Irrtumswahrscheinlichkeit der wahre Wert zu vermuten ist, beträgt demzufolge 1,96 · 5,5 = 10,8, und es erstreckt sich von 108,4 – 10,8 ≈ 97 bis 108,4 + 10,8 ≈ 119. Die Abweichungen von den Schätzungen im vorangegangenen Beispiel beziehen sich somit auf die hier geringere Breite des Vertrauensbereiches und dessen Lokalisierung um den (regredierten) wahren Wert.

2

52

Kapitel 2 · Grundlagen diagnostischer Verfahren

Fazit Unter Heranziehung des Konzeptes vom Erwartungsbereich wird in einer Art Umkehrschluss dazu und in grober Annäherung der wahre Wert in einem Unsicherheitsintervall vermutet, das um den beobachteten Testwert »gelegt« bzw. gedacht wird, und zwar in beiden Richtungen gleich weit. Die Berücksichtigung der Tatsache, dass die wahren Werte im allgemeinen zum Mittelwert der Verteilung regredieren, erlaubt eine etwas präzisere Festlegung des Unsicherheitsintervalles.

2

Ermittlung von Unterschieden zwischen zwei Testpunktwerten Unterschiede von Mittelwerten

Stichprobenfehler des Mittelwertes

Eine der häufig von der Statistik zu bearbeitenden Fragen geht dahin, ob sich die Mittelwerte von zwei Personenstichproben in einer Variablen V überzufällig voneinander unterscheiden oder ob eine festgestellte Differenz nur durch Zufallseinfluss zu erklären ist. In diesem Fall wären unsystematische und damit Fehlerfaktoren, die bei einer erneuten Stichprobenziehung nicht in derselben Weise auftreten würden, für den beobachteten Unterschied verantwortlich zu machen. In der psychodiagnostischen Praxis stellen sich ganz ähnliche Probleme insofern, als die beobachteten Testwerte (ebenfalls) fehlerbehaftet sind und bei einer erneuten Untersuchung (unter hypothetisch gleichbleibenden Bedingungen) etwas anders ausfallen mögen. Auch die bei einmaliger Testung erhaltenen Scores stellen gleichsam eine Stichprobe aus der Gesamtheit aller Werte dar, die sich um den wahren Wert verteilen. Bei der Prüfung von Mittelwertsdifferenzen aus Stichproben nimmt der sog. Stichprobenfehler des Mittelwertes eine zentrale Rolle ein: sM =

sx N

(2.31)

sx = Streuung der Messwerte, Ν = Zahl der Messwerte. > Der Stichprobenfehler des Mittelwertes beschreibt den Bereich, in dem bei zufälliger Ziehung von Stichproben aus einer Grundgesamtheit deren Mittelwerte variieren, nämlich M ± sM.

Die Streuung der Stichprobenmittelwerte um den Mittelwert der Mittelwerte entspricht diesem Stichprobenfehler, dessen Quadrat s M2 = s x 2 /N Fehlervarianz des Mittelwertes

als »Fehlervarianz« des Mittelwertes bezeichnet wird. Unter Bezugnahme auf die Standardnormalverteilung bedeutet das, dass im Bereich von ±1 sM um den Populationsmittelwert (34% + 34% =) 68% der Mittelwerte für Stichproben variieren werden. Die Fehlervarianz für die Differenz der Stichprobenmittelwerte zweier verschiedener unabhängiger Stichproben ist gleich deren Summe, also sMDiff2 = s(M1 + M2)2 = sM12 + sM22 oder, nach Radizierung, lautet der Ausdruck für den Stichprobenfehler der Differenz von zwei Mittelwerten

53

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

s MDiff = s M12 + s M22

(2.32)

sM12, sM22 = Fehlervarianz der Mittelwerte in Stichprobe 1 bzw. 2. Diese Formel beschreibt die Streuung der Differenzen von je zwei Stichprobenmittelwerten um den wahren Wert Null. Gegen diese Größe werden, multipliziert mit dem z-Wert für die vorgegebene Irrtumswahrscheinlichkeit, empirische Differenzen geprüft. Für die »Stichprobe« der bei einmaliger Testung eines oder mehrerer Probanden erhaltenen individuellen Messwerte ist der Standardmessfehler die Prüfgröße. Im Fall von zwei miteinander zu vergleichenden Testscores muss in Analogie zum obigen Vorgehen die Summe der beiden Fehlerterme gebildet werden: s eDiff = s e12 + s e22 .

(2.33)

se12, se22 = quadrierte Standardmessfehler für Stichprobe 1 bzw. 2. Bei Annahme der Gleichheit von se12 und se22: s eDiff = 2s e 2 Da s e 2 = s x 2 ⋅ (1 - rtt ) , folgt s eDiff

= 2 s x 2 (1- rtt ) . = s x 2 (1 - rtt ) .

(2.34)

sx = Streuung der Testwerte. Diese Formel beschreibt die durch mangelnde Zuverlässigkeit (also durch Fehlereinflüsse) auftretende Streuung zwischen beobachteten Werten, denen ein und derselbe wahre Wert zugrunde liegt. In 68% der Fälle treten somit Differenzen auf, deren Ausmaß der Gleichung (2.34) entspricht. In den restlichen 32% sind die Differenzen noch größer. Gegen diese Größe müssen die beobachteten Testwertedifferenzen geprüft werden. Die »kritische Differenz« (DKrit), die empirisch übertroffen werden muss, um als bedeutsam zu gelten, bemisst sich nach DKrit = zα /2 ⋅ s eDiff

(2.34)

Beispiel

In einem Intelligenztest t mit der Standardabweichung sx = 10 habe ein Proband A den Wert xtA = 120, ein Proband B den Wert xtB = 108 erzielt. Die Zuverlässigkeit des Tests betrage rtt = .90. Frage: Unterscheiden sich beide Werte überzufällig voneinander? (p < 5%). DKritxtA-xtB = 1,96 ⋅10 2 (1 - .90) = 9.

Da die empirische Differenz (120-108=12) größer ist als die kritische, kann mit 5% Irrtumswahrscheinlichkeit davon ausgegangen werden, dass die beiden Probanden sich voneinander unterscheiden, die Differenz also nicht durch die Unzuverlässigkeit des Tests zu erklären ist.

Kritische Differenz

2

54

Kapitel 2 · Grundlagen diagnostischer Verfahren

Wie ersichtlich, lässt sich mit (2.35) auch die Wahrscheinlichkeit für das Auftreten einer bestimmten, empirisch ermittelten Differenz ermitteln. Dafür muss die Formel lediglich umgestellt werden:

2

Wahrscheinlichkeit einer bestimmten Differenz

zα /2 =

DKrit X t1 - X t2 = . s eDiff s eDiff

(2.36)

Xt1, Xt2 = Testwerte 1 und 2. Beispiel

Für die Daten aus dem vorigen Beispiel wird die Gleichung wie folgt lauten: zα =

120 - 108 12 = = 2,6. seDiff 4,5

Die Wahrscheinlichkeit, dass bei einer Zuverlässigkeit von rtt = .90 und einer Streuung von sx = 10 eine Differenz von 12 oder mehr zwischen zwei Testwerten auftritt, entspricht einem z-Wert von 2,6, d. h. nur in ca. 1% aller Fälle ist mit einem derartigen Ergebnis zu rechnen. Aus diesem Grunde erscheint es gerechtfertigt, von einem wahren Leistungsunterschied der beiden Probanden auszugehen.

Wiederholte Testung

Differenzen in verschiedenen Skalen

Grundsätzlich ist der Ansatz nach (2.35) auch anwendbar auf Testwerte, die ein Proband bei der wiederholten Vorgabe in ein und demselben Test erzielt hat. Solche Fragestellungen spielen überall dort eine große Rolle, wo die Bedeutsamkeit einer Veränderung gegen Zufallseinflüsse abgesichert werden soll, aufgrund einer zwischenzeitlich erfahrenen Ausbildung, einer Therapie oder eines Rehabilitationsprogrammes. Kaum weniger wichtig ist schließlich der Problemkreis einer zufallskritischen Absicherung von Testwertedifferenzen in verschiedenen Skalen. Hauptsächlich im Bereich der Intelligenz- und Interessendiagnostik interessiert häufig, in welchen Dimensionen eine Testperson relative »Stärken« oder »Schwächen« zeigt, um auf dieser Erkenntnis aufbauend einen angemessenen Rat für die bestgeeignete Berufswahl oder dergleichen geben zu können. Denkbar ist auch die Kontrastierung von Scores, die vielleicht zu ganz verschiedenen Zeitpunkten erhoben wurden, zwar mit ein und derselben Skala, die aber doch zu den beiden Zeitpunkten nachweislich unterschiedlich reliabel gewesen sein mag. In dem einen wie dem anderen Fall erfordert das den Vergleich von Werten aus verschiedenen Variablen mit unterschiedlicher Reliabilität. Bei gleicher Streuung in den miteinander verglichenen Variablen führt die Summation der beiden Standardmessfehler zu folgender Formel: DKrit = zα /2 ⋅ s x 2 - (rtt1 + rtt2 )

= Streuung der Testwerte, sx rtt1, rtt2 = Reliabilität der Skalen 1 bzw. 2.

(2.37)

55

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Beispiel

Im Intelligenz-Struktur-Test von Amthauer (1953) habe ein Proband im Subtest AN (Analogien) den Wert XtAN = 108, in RA (Rechenaufgaben) den Wert XtRA = 125 erzielt. Beide Skalen sind auf sx = 10 normiert. rttAN = .86, rttRA = .92. Frage: Weichen die beiden Werte signifikant voneinander ab? (p < 5%). D = 1,96 · 10 √976 2 – (.86 + .92) krit

= 19,6 ⋅ 0,22

= 9,2 Da die empirische Differenz (125 - 108 =17) die kritische Differenz übersteigt, liegt ein bedeutsamer Unterschied zwischen beiden Werten vor. Der Proband ist im Hinblick auf numerisch-mathematische Intelligenz leistungsfähiger als im schlussfolgernden Denken.

Die getrennte Berücksichtigung der beiden Reliabilitätskoeffizienten in (2.37) läuft, wovon man sich leicht überzeugen kann, auf deren Poolung hinaus. Das heißt, die Verwendung des gemittelten Reliabilitätskoeffizienten in (2.34) führt praktisch zu denselben Ergebnissen wie deren gesonderte Heranziehung in (2.37).

Poolung von Reliabilitätskoeffizienten

Vorhersage auf der Basis von Testwerten

Testwerte stellen gewöhnlich quantitative Einheiten zur Kategorisierung des relativen Grades der jeweiligen Merkmalsausprägung dar. Insofern liefern sie unmittelbare Informationen im Sinne einer Diagnose. Ein IQ-Punktwert von XtjA = 130 steht für eine höhere allgemeine Intelligenz als ein solcher von XtjB = 115. Standardwerte von XtjC = 105 und XtjD = 90 in einem Fragebogen zur Ängstlichkeit indizieren, dass der erste Proband sehr viel ängstlicher im Vergleich zum zweiten ist usw. Sofern die betreffenden Messwerte gegeneinander inferenzstatistisch abgesichert sind, unterscheiden sich somit auch die damit getroffenen »Diagnosen« im Sinne einer quantitativen Bestimmung der individuellen Position auf der Merkmalsdimension: 130 ist signifikant verschieden von 115, das gleiche trifft zu für die Differenz von 105 und 90 usw. In der Regel wird man sich mit solch einfachen Diagnosen aber nicht begnügen können, weil die Testung häufig genug nur mit dem Ziel vorgenommen wurde, daraus Konsequenzen abzuleiten. Diese können darin bestehen, den Probanden eine wissenschaftlich hinreichend fundierte Empfehlung zur Schul- oder Berufswahl zu geben, die Ausichten abzuklären, ob angesichts der Angstsymptomatik eine psychoanalytische oder eine verhaltenstherapeutische Behandlung angezeigt ist usw. Ein solches Vorgehen impliziert stets auch Prognosen, denn der Rat, eine Berufsausbildung zu beginnen (statt die Universität zu besuchen) oder sich einer »großen« Psychoanalyse zu unterziehen (statt an einer Gruppentherapie teilzunehmen) usw. beruht – sofern er begründet ist – stets auf der Aussicht oder der Vorhersage, dass die Testperson in dem betreffenden »Treatment« den für sie optimalen Erfolg haben wird. Die Grundlage derartiger Prognosen liefern korrelative Studien zwischen Tests auf der einen Seite und Maßen für Erfolg und Bewährung auf der anderen, oder allgemeiner: zwischen Prädiktor- und Kriteriumsvariablen. Nur wenn die entsprechenden Korrelationen signifikant und die Koeffizienten idealerweise zudem von »hinreichender« Höhe sind, die Tests also in einem Mindestmaß Validität für das anstehende Prognoseproblem aufweisen, kann der Diagnostiker hinreichend gesicherte, also von Common-sense-Erwägungen und Losentscheidungen deutlich abgehobene, Vorhersagen ableiten.

Bedeutung und Verwendung von Testwerten

Korrelation zwischen Prädiktor- und Kriteriumsverhalten

2

56

Kapitel 2 · Grundlagen diagnostischer Verfahren

2 Regressionsgrade

Im Fall von kontinuierlich-quantitativer Abstufung sowohl der Prädiktor- als auch der Kriteriumsvariablen geschieht dies auf der Basis der Regressionsrechnung. Das heißt, nach der Methode der kleinsten Quadrate wird in das Korrelationsellipsoid der Prädiktor-Kriteriums-Beziehung jene Gerade gelegt, von der über alle Merkmalsträger hinweg die Summe der quadrierten Abweichungen parallel zur Ordinate ein Minimum bildet. Diese Linie heißt Regressionsgerade. Ihre allgemeine Gleichung lautet ˘ = a + b yx X Ŷ Y

(2.38a)

Ŷ = vorauszusagender Wert X = unabhängiger (= Prädiktor-)Wert a = Konstante (Schnittpunkt der Regressionsgeraden mit der Ordinaten), byx = Steigungskoeffizient der Geraden (Winkel zur Abszisse), hier im Sinne der Indizierung als »Regression von y auf x«. Die Gleichung für die Verwendung von Rohwerten lautet:

˘ = rxy s y (X i − X ) + Y Ŷ Y sx

Steigungskoeffizient

(2.38b)

Der Terminus »Regression« stammt von Galton (1869), der bereits frühzeitig feststellte, dass die Körperlängen von Vätern und Söhnen positiv korreliert sind. Auch wenn die Maße beider Generationen in Standardwerten ausgedrückt wurden, war zu beobachten, dass die Kinder vom Mittelwert ihrer Gruppe weniger stark abwichen als die Eltern sich von ihrer Bezugsgruppe unterschieden. Das damit gegebene »Zurückfallen« bezeichnete er als »regression« (in diesem Fall als »law of filial regression«). Es stellt ein Beispiel einer nicht perfekten Korrelation dar. Würde die Korrelation perfekt gewesen sein, müssten einer Standardabweichung im Merkmal X auch eine solche in Y entsprechen. Um das Ausmaß dieses Regressionseffektes in einer bestimmten Größe auszudrücken, setzte man einfach die Zahl der Einheiten ins Verhältnis, die man in X weitergehen musste, damit sich in Y ein Anstieg von einer Einheit ergab. Am Beispiel der Regression der Kinder (Y) auf die Eltern (X) errechnete sich ein Regressionskoeffizient (seinerzeit r genannt) von b = 0.5. Der Steigungskoeffizient wird wie folgt ermittelt: b yx =

∑xy .

x2 x = X – Mx , y = Y – My . b yx = r

sy (zur Herleitung 7 Anhang). sx

(2.39a)

Die Konstante a wird folgendermaßen bestimmt:

a = Y − b yx ⋅ X

(2.39b)

57

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Mit Hilfe der Regressionsgeraden werden die Kriteriumswerte »vorhergesagt«, genauer: Ausgehend von einer notwendigerweise vorliegenden Untersuchung zum Zusammenhang zwischen Prädiktor- und Kriteriumsvariablen wird unterstellt, dass sich seit der Durchführung der besagten Erhebung an den Rahmenbedingungen nichts Wichtiges geändert habe, also Mittelwerte und Streuungen in den Variablen momentan ebenso unverändert gelten wie die dazwischen bestehende Korrelation. Weiterhin wird angenommen, dass der anstehende Proband als einer der Angehörigen der seinerzeitigen Stichprobe gelten kann und deshalb für jede Klasse von X-Werten die »zugehörige« Klasse von Y-Werten »prognostiziert« werden kann, also jene, die pro X-Klasse am häufigsten war. Völlig abgesehen von den Zweifeln, die oftmals in bezug auf das Zutreffen dieser Voraussetzungen gerechtfertigt erscheinen, sind bei einem solchen Vorgehen spezifische Fehler unvermeidbar. Diese resultieren aus dem Umstand, dass für jeden Testscore nach Maßgabe der Regressionsgeraden jeweils nur ein bestimmter Kriteriumswert vorhergesagt wird, eben der mittlere (und gewöhnlich häufigste) der betreffenden Klasse. Die Kriteriumswerte streuen aber pro X-Klasse um die Regressionsgerade, wie aus . Abb. 2.7 ersichtlich ist, mehr oder weniger stark. Diese Streuung der tatsächlichen Werte um die vorhergesagten (und zwar parallel zur Ordinaten!), somit der Fehler, der sich dadurch einstellt, dass für jeden Testwert der Mittelwert der zugehörigen Klasse von Kriteriumswerten vorhergesagt wird, wird ausgedrückt im sog. »Standardschätzfehler« (zu dessen Ableitung 7 Anhang): s est = s y 1 - rtc 2

(2.40)

2

Vorhersage von Kriteriumswerten

Standardschätzfehlter

sest = Fehler bei Vorhersage- (= Schätz-)Problemen, sy = Standardabweichung der Kriteriumswerte, rtc = Validitätskoeffizient (Korrelation zwischen Test und Kriterium). Der Standardschätzfehler ist so groß wie die Streuung der Kriteriumswerte, wenn zwischen Test und Kriterium nur eine Nullkorrelation besteht. In einem solchen Fall muss die Strategie darin bestehen, für jeden Testwert X den Mittelwert aus allen Y-Werten vorherzusagen; dann würden zwar beträchtliche Fehler auftreten, doch würden diese über alle Merkmalsträger hinweg noch ein relatives Minimum darstellen. Umgekehrt . Abb. 2.7. Variation der Kriteriumswerte parallel zur Ordinate um die Regressionsgerade. Die Standardabweichung der tatsächlich aufgetretenen um die mittels der Regressionsgeraden vorhergesagten Werte ist der Standardschätzfehler (Abb. modifiziert nach Schuler, 1996, S. 49)

58

Kapitel 2 · Grundlagen diagnostischer Verfahren

ist der Standardschätzfehler Null, wenn die Korrelation rtc = 1.0 beträgt. In diesem Fall, wo keine Streuung um die Regressionsgerade vorliegt, würde man für jeden Testwert Xt, sofern beide Variablen den gleichen Maßstab aufweisen (Standardwerte), denselben Wert auch für Yt prädizieren.

2

Beispiel

Ein Grundschüler habe in dem Intelligenz-Struktur-Test (IST) von Amthauer (1953) einen Gesamtwert Xi = 130 erzielt. Welchen Erfolg (in Einheiten von Schulnoten) wird er voraussichtlich auf einer weiterführenden Schule erreichen? (sx = 10) Der Mittelwert der Schulnoten betrage My = 3,0, deren Standardabweichung sy = 1,0. Unterstellt werde für die Schulnoten das Niveau von Intervall-Skalen. Die Korrelation IST-Gesamtwert/Schulnoten sei mit rtc = –.6 ermittelt worden (negatives Vorzeichen wegen der Polung der Noten, derzufolge hohen Ziffern niedrige Leistungen entsprechen). Nach (2.38) Yest = byx (Xi – Mx) + My . Gemäß (2.39) byx = –.60 · 0,1 = –0,06. Yest = – 0,06 (130 – 100) + 3 = 1,2. Damit wäre die mittlere Schulnote 1,2 vorherzusagen. Allerdings ist diese Schätzung mit einer Unsicherheit behaftet. Deren Ausmaß bemisst sich nach (2.40). Mit 5% Irrtumswahrscheinlichkeit wird die tatsächliche Note im Bereich von Yest ± 1,96 · sest liegen, also Yest = 1,2 ± 1,96 ⋅1 1 - 0.602 = 1,2 ± 1,6.

Mit p < 5% wird die mittlere Schulnote im Bereich von 1,0 bis 2,8 liegen.

Nur am Rande sei darauf hingewiesen, dass sich die Fehlervarianz vonVorhersagewerten (also das Quadrat des Standardschätzfehlers) als die Summe der quadrierten Standardmessfehler aus (2.14) und (2.14a; S. 51) ergibt: Fehlervarianz von Vorhersagewerten

s est 2 = s et 2 + s w et 2 = s x 2 (1- rtt ) + s x 2 rtt (1 - rtt ) = s x 2 - s x 2 ⋅rrtt + s x 2 (rtt - rtt 2 ) = s x 2 - s x 2 ⋅ rtt + s x 2 ⋅ rtt - s x 2 ⋅ rtt 2 = s x 2 - s x 2 ⋅ rtt 2 s est = s x 1- rtt 2 .

Hier ist nur von rtt Gebrauch gemacht worden (nicht von rtc), wie es notwendig ist, wenn man auf der Basis einer Ersttestung etwa das Vertrauensintervall für den Score in einer Retestung festlegen möchte. Wie schon bei den Testwerten selbst (»Diagnose«) wird häufig auch bei den daraus abgeleiteten Prognosen eine Entscheidung darüber zu treffen sein, ob sich zwei vorhergesagte Werte überzufällig voneinander unterschieden. In direkter Analogie zu der Herleitung von (2.33) muss für diese Fragestellung der Stichprobenfehler der Differenz von zwei Standardschätzfehlern als Prüfgröße ermittelt werden:

59

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Beispiel

Außer einem Schüler mit dem Standardwert von XA = 130 gebe es einen Klassenkameraden mit XB = 110. Alle anderen Rahmendaten seien identisch mit denen aus dem vorangegangenen Beispiel. Fragestellung: Werden sich die beiden Schüler voneinander überzufällig in ihren aus den Testwerten vorhergesagten Schulnoten unterscheiden? Nach (2.42) muss die Differenz in den Kriteriumswerten mindestens betragen DKrit est = 1,96 ⋅1⋅ 2 (1 - .602 ) = 2,2.

Die für Schüler A vorhergesagte Schulnote beträgt 1,2 (7 vorangegangenes Beispiel); für Schüler B muss gerechnet werden Yest = –0,06 (110 – 100) + 3 = 2,4. Die empirische Differenz beträgt (2,4 – 1,2) = 1,2; sie liegt damit unter der zufallskritischen Größe von 2,2. Das bedeutet, dass sich die Schüler in ihren Schulnoten mit 5% Irrtumswahrscheinlichkeit nicht voneinander unterscheiden. Die Wahrscheinlichkeit eines Auftretens der beobachteten Differenz von 1,2 beträgt im übrigen analog zu (2.35) DKrit est sestDiff 12 , = = 1,06 113 ,

zα /2 =

und ist, wie schon aus dem Vergleich von DKrit est und Demp hervorging, weit entfernt von »seltenen« Ereignissen.

s estDiff = s est12 + s est22 , = 2 s est22 .

sest12, sest22 = quadrierte Standardschätzfehler für Stichprobe 1 bzw. 2. Für sest (2.36) einsetzen: = 2 s y 2 (1 - rtc 2 ) . s estDiff = s y 2 (1 - rtc 2 )

(2.41)

Inhaltlich beschreibt diese Formel die durch mangelnde Validität auftretende Streuung von Differenzen zwischen je zwei vorhergesagten Werten, deren Prädiktion auf identischen Testscores beruht. Die Unterschiede zwischen den vorhergesagten Werten müssen somit größer sein als diese Fehlerstreuung, um als »wahre« Unterschiede gelten zu können: DKrit est = zα /2 ⋅ s estDiff

DKrit est wird auch als »kritische Differenz der Eignung« bezeichnet.

(2.42) Kritische Differenz der Eignung

2

60

Kapitel 2 · Grundlagen diagnostischer Verfahren

Kritik an der KTT Gegenüber der klassischen Testtheorie sind verschiedene Einwände vorgebracht worden. Einige davon sind in Ergänzung der bereits gegebenen Darstellung nachfolgend aufgelistet worden, ohne dass die vorgenommene Reihung Gewichtungsfaktoren implizieren soll: 4 Die Setzungen oder Axiome der KTT sind empirisch nicht überprüfbar, einige davon (z. B. die Annahme einer Nullkorrelation zwischen wahrem und Fehlerwert) sind gegenintuitiv. 4 Die Annahme einer intraindividuellen Invarianz der wahren Werte einer Person ist nur vertretbar bei kurzen Zeiträumen und auch da nur für bestimmte Merkmalsbereiche. So liegen zahlreiche Befunde darüber vor, dass sich Leistungs- und Persönlichkeitsmerkmale während der Kindheit und Jugend ebenso verändern wie im höheren Lebensalter und verschiedene Einflussnahmen (wie Schulung und Unterweisung oder Teilnahme an psychotherapeutischen Programmen) auf eine bedeutsame Modifikation abheben. Bei der Erfassung von stimmungs-, müdigkeits- und tageszeitabhängigen Variablen erweist sich das Theorem der Konstanz wahrer Werte als Fiktion. 4 Die KTT setzt mindestens Intervall-Skalen-Niveau voraus. Bei manchen Tests ist allerdings fraglich, ob diese Qualität erreicht wird. Jedenfalls ist deren Überprüfung außerordentlich aufwendig und ihrerseits an einige nicht weiter überprüfbare Voraussetzungen gebunden (z. B. Normalverteilung der Merkmalsausprägungen des jeweiligen Konstruktes, also losgelöst von deren Erfassung mit Hilfe des betreffenden Tests). 4 Die Parameter der KTT sind populations- oder stichprobenabhängig. Je nach der Heterogenität oder Homogenität der herangezogenen Personenstichprobe in bezug auf das untersuchte Merkmal fallen die ermittelten Reliabilitätskoeffizienten eher hoch oder eher niedrig aus. Das resultiert aus der Regel, wonach Korrelationen zwischen zwei Merkmalsdimensionen an Höhe verlieren, wenn beispielsweise die extrem hohen und extrem niedrigen Werte eliminiert werden. In solchen Fällen verändert sich die Gestalt des bivariaten Korrelationsellipsoides in dem Sinne, dass seine Erstreckung reduziert wird, der Durchmesser aber in etwa gleich bleibt, was einen niedrigeren Zusammenhang bedeutet. Von daher stellt sich die Frage der Generalisierbarkeit und im Zusammenhang damit diejenige nach einer Verbindlichkeit von Resultaten. Diese Frage ergibt sich auch deshalb, weil es, wie noch zu zeigen sein wird, ganz verschiedene Techniken einer Bestimmung der Reliabilität für ein und dasselbe Verfahren gibt, mit der Folge von häufig genug sehr verschiedenen Ergebnissen. 4 Die Populationsabhängigkeit wirft weitere Probleme in einer ganz anderen Richtung auf: Verschiedene Beobachtungen weisen darauf hin, dass es innerhalb größerer Gruppen von Personen mehrere Substichproben mit unterschiedlicher Reliabilität und Validität ihrer Messwerte gibt. Bei den betreffenden Unterschieden handelt es sich mehrheitlich nicht um methodische Artefakte, sondern um Effekte, die mit Hilfe elaborierter psychologischer Theorien gut erklärbar sind (z. B. Schmitt, 1992). Daraus resultiert aber zwangsläufig die Einsicht, dass die Fehlerschätzungen primär für eine »Metastichprobe« gelten, die ihrerseits in Subgruppen mit divergierenden Fehlervarianzen zerfällt. Je nach der Gruppenzugehörigkeit einer Person wären im Einzelfall auch ganz unterschiedliche Schätzungen von wahren und Prädiktionswerten vorzunehmen. Die Zunahme an Präzision der individuellen Vorhersage durch die Heranziehung von Statistiken, also an Stichproben gewonnenen Kennwerten, erweist sich als Scheingewinn und der vermeintliche Vorteil als äußerst trügerisch. 2.1.1.6

2

61

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

4

Auf schwerwiegende und grundsätzliche Bedenken muss die eben bereits angesprochene Übertragbarkeit von gruppenstatistischen Kennwerten auf den Einzelfall immer dann stoßen, wenn die Reliabilität und/oder Validität niedriger als 1.0 liegen – was praktisch immer der Fall ist. Denn: Definition »Mathematische Wahrscheinlichkeitsaussagen beziehen sich (…) per definitionem nicht auf Einzelfälle, sondern auf Klassen von Elementen mit bestimmtem Umfang« (Holzkamp, 1966, S. 28).

Sofern die Korrelationen, auf denen Vorhersagen aufbauen, gegenüber dem Wert rtc = 1.0 absinken – und dabei spielt es überhaupt keine Rolle, um wieviel – bleibt zwar die Spezifikation des mittleren Vorhersagefehlers für die Gruppe als Ganzes bestehen. Aber die Möglichkeit einer Festlegung des Prädiktionsfehlers auf der Ebene des einzelnen Messwertträgers ist nicht nur vermindert, sondern faktisch als Unding entlarvt. Gruppenstatistische Daten erlauben keine Feststellung darüber, dass etwas »for each of many individuals« der Fall ist (Lamiell, 1987). Der sich durch Missachtung dieser Einsicht gleichwohl immer wieder einstellende Interpretationsfehler wurde bereits von William James um die Jahrhundertwende als Trugschluss beschrieben. Einige Testtheoretiker (z. B. Paunonen & Jackson, 1986) versuchen, einen Ausweg aus der geschilderten Problematik aufzuzeigen, indem sie eine statistische Hilfskonstruktion heranziehen. Dabei wird der beobachtete individuelle Wert als Stichprobe aus der Gesamtverteilung vieler weiterer Werte einer Person aufgefasst. Der »wahre Wert« wird – Kern der Theorie – als Mittelwert der hypothetischen Verteilung interpretiert. Holzkamp (1966) bezeichnet das als eine Verschiebung des Problems, da sich hier erneut die Frage nach der Lage des ermittelten Testwertes einer Person in Relation zum wahren Wert innerhalb der nun intraindividuell (anstelle: interindividuell) variierenden Werte ergebe. Beispiel

Was sagen gruppenstatistische Kennwerte über den Einzelfall aus? Psychologische Testverfahren basieren in ihrer theoretischen Konzeption, ihrer Konstruktion und ihren Gütekriterien auf gruppenstatistischen Kennwerten. Wenn es um die Analyse von Einzelfällen geht, ist die Aussagekraft solcher Kennwerte begrenzt, da sie für sich genommen auf den Einzelfall nicht angewandt werden können. Diese Grenzen sind allerdings nicht nur im Kontext der Testdiagnostik zu bedenken, sondern vielmehr überall dort, wo gruppenstatistische Untersuchungen vorliegen – und damit in fast allen Bereichen von psychologischer Forschung. Die Problematik einer Übertragung von Aggregatdaten auf Einzelfälle soll am Beispiel von Korrelationskoeffizienten verdeutlicht werden: Korrelationskoeffizienten erfassen einen zwischen Variablen bestehenden Zusammenhang in einem numerischen Wert zusammen. Mit Ausnahme einer Korrelation von r = +1,0 und r = –1,0 enthalten sie keine Informationen darüber, inwieweit sie auch auf einzelne Personen übertragen werden können. Dies verdeutlicht ein auf Grawe (1991) zurückgehendes Beispiel einer »unechten« Nullkorrelation (. Abb. 2.8). In . Abb. 2.8 lassen sich zwei Gruppen von Personen erkennen, für die unterschiedliche funktionale Zusammenhänge zwischen den Variablen »Symptomre-

6

2

62

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.8. Beispiel für eine »unechte« Nullkorrelation, die sich aus drei Subgruppen mit unterschiedlichen Zusammenhängen ergibt. (Nach Grawe, 1991, S. 96) . Abb. 2.9. Beispiel für eine »echte« Nullkorrelation, als Ausdruck eines fehlenden Zusammenhangs zwischen beiden Variablen. (Nach Grawe, 1991, S. 97)

. Abb. 2.8

. Abb. 2.9

duktion« und »Abnahme familiärer Spannungen« gelten (positiv für A, E, F und H, negativ für B, D, C und G). Hier resultiert die Nullkorrelation für die Gesamtgruppe aus der wechselseitigen Überlagerung einer positiven und negativen Korrelation bei Subgruppen. Eine Nullkorrelation kann jedoch auch dafür stehen, dass die untersuchten Merkmale auch in Teilgruppen nichts miteinander zu tun haben, wie dieses in . Abb. 2.9 veranschaulicht ist. Hier wie dort – und auch bei allen anderen Koeffizienten, die niedriger liegen als ±1,0 – sagt der an der Gesamtgruppe ermittelte Koeffizient nichts aus über die Gegebenheiten in etwaigen Teilgruppen oder gar bei einzelnen Individuen. Obwohl diese Regeln in Fachkreisen allgemein bekannt sind, hat doch erstmals Hake (2000) gezeigt, dass sogar Berufspraktiker und angehende Psychologen im Umgang mit gruppenstatistischen Kennwerten unzulässigen Schlussfolgerungen unterliegen. Sie konfrontierte Personalfachleute, eignungsdiagnostisch tätige Berater und Studenten der Psychologie in einem Interview mit einer Reihe von Szenarien, in denen die Bedeutung gruppenstatistischer Kennwerte für Einzelfälle abgeschätzt und begründet werden sollte. Eine der Aufgabenstellungen bestand beispielsweise darin, die folgenden Aussagen im Verhältnis zueinander zu bewerten: »Die vielschichtige Eigenschaft der Intelligenz beruht vor allem auf den Erbanlagen. Zu etwa 70% gleichen sich die IQs der eineiigen Zwillinge. 70% der IQUnterschiede in der breiten Bevölkerung sind damit auf unterschiedliche Gene zurückzuführen: Wenn dort einer dümmer ist als der andere, hat er das zu zwei Dritteln seinen Genen zu verdanken.« 6

63

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Bei den ersten drei Sätzen handelt es sich um gruppenbezogene Aussagen. Der letzte, hervorgehobene, einzelfallbezogene Satz soll sich aus den vorhergehenden Aussagen ergeben. Diese Schlussfolgerung ist jedoch unzulässig, da Unterschiede in der Intelligenz sich per definitionem nur auf Aggregate, also Gruppen von Personen, nicht aber auf einzelne Personen innerhalb der Aggregate beziehen. Nichtsdestotrotz nahmen 62,5% der Psychologiestudenten, 58,3% der Personalfachleute und 33,3% der Berater einzelfallbezogene Interpretationen des Kennwertes vor. Auch im Umgang mit anderen gruppenstatistischen Kennwerten traten in den Untersuchungsgruppen zahlreiche Fehlinterpretationen auf. »Stellen Sie sich vor, die prädiktive Validität der psychologischen Tests, die Sie in Ihrem Unternehmen verwenden, hätte sich erhöht. Denken Sie, dass Sie mit den verbesserten Tests eine präzisere Prognose für den Einzelfall treffen können?« Nur jeweils 16,5% der Personalfachleute und Berater sowie 43,8% der Studenten zeigten ein angemessenes Problembewusstsein: Der Korrelationskoeffizient und damit auch der Standardschätzfehler bezieht sich auf eine Klasse von Elementen, also auf ein Aggregat, nicht hingegen auf einzelne Elemente der Klasse. Hieraus ergibt sich, dass der Grad der Vorhersagegenauigkeit für den Einzelfall nicht bestimmt werden kann. Das Problem besteht also nicht darin, dass sich die in einer Regressionsgleichung zum Ausdruck gebrachte Gesetzmäßigkeit nicht fehlerlos auf Einzelfälle anwenden lässt, sondern dass sie auf Einzelfallebene keine Aussage zulässt, weil dort der Vorhersagefehler nicht spezifizierbar ist. Dieses wiederum bedeutet nicht, dass Vorhersagen im Kontext von Regressionsanalysen keinen Nutzen aufweisen. Vielmehr wurzeln statistische Vorhersagemodelle in der Vorstellung, »that maximizing predictive accuracy means minimizing errors of prediction in the long run, i.e. on the average« (Lamiell, 1987, S. 114). Von daher wäre es völlig abwegig, auf die Anwendung der statistischen Vorhersageprinzipien bei wiederkehrenden Vorhersageproblemen verzichten zu wollen.

Jeder einzelne dieser Kritikpunkte ist gravierend, in der Gesamtheit scheinen sie von erdrückendem Gewicht zu sein. Der Widerspruch zwischen gruppenstatistischem Sinn und individueller Verwendung lässt sich nicht überbrücken. Was dagegen gehalten werden kann ist vor allem ein pragmatisches Argument: Die nach den Prinzipien der KTT entwickelten Verfahren haben sich in der psychodiagnostischen Handhabung mehr oder weniger gut bewährt (Michel & Conrad, 1982, S. 25), d. h. die Tests erlauben die differenzierte und objektive sowie reliable Beschreibung von intra- und interindividuellen Unterschieden. Zwar verfehlt die Validität vielfach das erstrebenswert hohe Ausmaß, doch muss damit das anderenfalls verfügbare Instrumentarium verglichen werden: Entscheidungen nach Gutdünken oder Los, des Weiteren vielleicht auch auf der Basis von Verfahren, deren Konstruktion und psychometrische Gütekriterien keinerlei wissenschaftlichen Ansprüchen standhalten, können keine vernünftige Alternative sein.

Pragmatische Argumente für die KTT

2

64

Kapitel 2 · Grundlagen diagnostischer Verfahren

Übungsfragen

(zu Abschn. 2.1.1)

2

? 1. Welches sind die Axiome der

! Ad 1. Jeder beobachtete Testwert setzt sich konzeptuell zusammen

KTT und die wichtigsten damit verbundenen Implikationen?

2. Was bedeuten Standardmessund Standardschätzfehler? Wofür sind sie von eminenter Bedeutung?

3. Warum kommt es bei der Verlängerung von Tests zu einem Anstieg der Reliabilität?

4. Was sind Minderungskorrekturen und wofür benötigen wir sie?

2.1.2

aus einer Komponente zugunsten der wahren Merkmalsausprägung und einer anderen zu Lasten von Fehlerfaktoren. Die Fehlerwerte mitteln sich über viele Testungen aus, so dass der beobachtete Mittelwert (aus vielen Testungen eines Probanden oder aus der einmaligen Untersuchung vieler Probanden) dem wahren Wert bzw. dem Mittelwert der wahren Werte entspricht. Wahrer Wert und Fehler sind unkorreliert. Bei einer wiederholten Untersuchung mit ein und demselben Test entspricht die beobachtete Korrelation zwischen den beiden Durchführungen (= Retestreliabilität) dem Anteil der wahren Varianz an der Gesamtvarianz. Ad 2. Der Standardmessfehler ist ein Maß für den Anteil der Fehlerstreuung an der Streuung von Testwerten, der Standardschätzfehler ein solches für den Anteil der Fehlerstreuung an den Werten, die auf regressionsanalytischer Basis, von Testscores ausgehend, geschätzt (= »vorhergesagt«) werden. Beide Ausdrücke erlauben die Bestimmung von Konfidenzintervallen für die wahren Werte aus den diagnostizierten bzw. prognostizierten Scores und damit eine zufallskritische Absicherung beobachteter Differenzen. Ad 3. Die Varianz individuell addierter Testwerte stellt die Summe der Varianz aus den Einzeltests dar, zu der zusätzlich 2mal die Kovarianz zwischen den Einzelmaßen hinzugefügt werden muss. Für die wahren Testwerte ist diese Kovarianz so groß wie die Varianz der Einzelmaße, für die Fehlerwerte ist sie Null. Aus diesem Grunde kommt es beispielsweise bei Verdoppelung eines homogenen Tests zu einer Vervierfachung der wahren und einer Verdoppelung der Fehlervarianz, was einer Erhöhung der Reliabilität entspricht. Ad 4. Minderungskorrekturen liefern Schätzungen für den korrelativen Zusammenhang messfehlerbereinigter Variablen. Vorwiegend sind sie für das theoretische Verständnis von Bedeutung, dienen aber auch praktischen Belangen, wenn es um die Steigerung von Validitätskoeffizienten durch technische Maßnahmen geht, die entweder auf der Test- oder/und der Kriteriumsseite ansetzen.

Item-Response-Theorie (IRT) Helfried Moosbrugger

Mit der Klassischen Testtheorie (KTT) verfügt die Psychodiagnostik über einen bewährten Ansatz zur Beurteilung der Reliabilität von Messinstrumenten. Dennoch bleiben zumindest drei wesentliche Fragen unbeantwortet: Erstens ist die Skalendignität der untersuchten Merkmale meist nicht genau anzugeben, zweitens erweisen sich die gefundenen Kennwerte als stichprobenabhängig, so dass unklar bleibt, welche Aussagen zulässig sind, und drittens kann nicht überprüft

65

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

werden, ob die Testitems bezüglich des (der) jeweils untersuchten Merkmals (Merkmale) homogen sind, weshalb die untersuchten Merkmale nur operational definiert werden können. Um die mit der KTT einhergehenden Probleme zu überwinden, wurde die sog. Item-Response-Theorie (IRT) konzipiert, welche auf einer wesentlich strengeren Annahmenbasis als die KTT beruht. (Neben der international etablierten Bezeichnung »Item-Response-Theorie« ist in Europa auch die Bezeichnung »Probabilistische Testtheorie«, s. z. B. Fischer, 1974; Kubinger, 1992 gebräuchlich.) Gelingt es, Tests in der Weise zu konstruieren, dass sie den Annahmen der IRT genügen, so ergeben sich – je nach Modell – verschiedene psychodiagnostische Vorzüge (s. u.). Grundüberlegungen der Item-Response-Theorie Die Item-Response-Theorie (Lord, 1980; Hambleton & Swaminathan, 1985; Fischer, 1996) geht explizit der Frage nach, welche Rückschlüsse auf interessierende Einstellungs- oder Fähigkeitsmerkmale gezogen werden können, wenn von den Probanden lediglich Antworten (responses) auf diverse Testitems vorliegen. »Die IRT ist aus dem Versuch entstanden, diese Frage innerhalb eines bestimmten formalen Rahmens zu präzisieren und Antworten darauf unter verschiedenen restriktiven Voraussetzungen zu geben« (Fischer, 1996, S. 673). In der IRT wird als grundsätzliche Annahme zunächst zwischen zwei Ebenen von Variablen unterschieden, und zwar zwischen manifesten Variablen und latenten Variablen.

2.1.2.1

Definition Bei den manifesten Variablen handelt es sich im Kontext der IRT um das beobachtbare Antwortverhalten auf verschiedene Testitems, bei den latenten Variablen hingegen um nicht beobachtbare dahinterliegende Fähigkeiten oder Dispositionen, von welchen das manifeste Verhalten als abhängig angesehen wird.

Wenn wir nun hypothetisch annehmen, dass es eine latente Variable ξ sei, welche die Verhaltensvariation mehrerer manifester Variablen (Testitems, Indikatorvariablen) erzeugt, so wird sich dies in beobachtbaren Korrelationen zwischen den Testitems niederschlagen. Will man in Umkehrung dieser Überlegung von manifesten Variablen auf eine potentiell dahinterliegende latente Variable ξ zurückschließen, müssen als notwendige, aber nicht hinreichende Bedingung mehrere untereinander korrelierende Testitems als Datenbasis vorliegen. Doch nur, wenn die Testitems Indikatoren der latenten Variablen ξ sind, kann die latente Variable als »Ursache« für die Korrelation zwischen den manifesten Variablen angesehen werden. Man bezeichnet die Items dann als »homogen« bezüglich der latenten Variablen ξ. Folglich stellt sich nun die Frage, wann von einer solchen Itemhomogenität ausgegangen werden darf. Eine wesentliche Bedingung zur Präzisierung dessen, was unter Itemhomogenität zu verstehen ist, stellt die sogenannte »lokale stochastische Unabhängigkeit« dar. Wenn alle Items Manifestationen ein- und derselben latenten Dimension sein sollen, so werden ihre Korrelationen nur durch die Unterschiede in der latenten Dimension ξ hervorgerufen. Diese Verursachung kann überprüft werden, indem man die latente Dimension auf einem bestimmten Wert (auf einer lokalen Stufe, z. B. ξv oder ξw) konstant hält. Sind die Items homogen, so muss sich nun die lokale stochastische Unabhängigkeit zeigen, welche darin besteht, dass die Korrelationen zwischen den Items auf

Manifeste und latente Variablen

2

66

Kapitel 2 · Grundlagen diagnostischer Verfahren

diesen Stufen verschwinden. Folglich kann bei Vorliegen der lokalen stochastischen Unabhängigkeit auf Itemhomogenität bezüglich ξ geschlossen werden. Man stelle sich nun das im 7 Beispiel genannte Vierfelderschema in zwei Personengruppen gleichen Umfangs aufgeteilt vor. Die eine habe auf einer potentiellen latenten Variablen ξ, welche den Zusammenhang erklären soll, eine niedrigere Ausprägung ξv, die andere hingegen eine höhere Ausprägung ξw (. Tab. 2.1, unterer Teil). Nimmt man nunmehr auf jeder der beiden latenten Stufen eine lokale Betrachtung der Rand- und Verbundwahrscheinlichkeiten vor, so sieht man an den Randwahrscheinlichkeiten, dass für Personen mit ξ = ξv die bedingte Wahrscheinlichkeit, dem Item i bzw. j zuzustimmen, auf p(i + | ξv) = .30 bzw. p(j + | ξv) = .10 gefallen ist; andererseits ist für Personen mit ξ = ξw die bedingte Wahrscheinlichkeit, dem Item i bzw. j zuzustimmen, auf p(i + | ξw) = .90 bzw. p(j + | ξw) = .70 gestiegen (jeweils verglichen mit den unbedingten Randwahrscheinlichkeiten p(i+) = .60 bzw. p(j+) = .40). Da die lokalen Verbundwahrscheinlichkeiten dem Multiplikationstheorem für unabhängige Ereignisse nun folgen, ist die Bedingung der lokalen stochastischen Unabhängigkeit

2

p((i +, j+)|ξ ) = p(i + |ξ ) ⋅ p(j + |ξ )

(2.43)

erfüllt: Sowohl für Personen mit niedriger als auch für Personen mit hoher Merkmalsausprägung auf der latenten Dimension sind die Korrelationen zwischen den beiden Items verschwunden (rij|ξv = rij|ξw = 0). (Diese Überlegung lässt sich auf beliebig viele Stufen der latenten Variablen ξ sowie auf jede nichtleere Teilmenge einer beliebig großen Itemmenge verallgemeinern, s. z. B. Moosbrugger, 1984, S. 76.) Deshalb können wir die beiden Items als homogen in bezug auf die latente Variable ξ auffassen. Hiermit wäre gezeigt, dass die Variation in den beiden Items auf eine latente Variable zurückgeführt werden kann, und zwar hier auf das Merkmal »Emotionalität« (FPI-R, Skala N). Indikatoren der latenten Variablen

! Testitems, welche die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen,

bezeichnet man auch als Indikatoren der latenten Variablen. Beispiel

Ein Beispiel möge den Gedankengang verdeutlichen: Gegeben seien zwei Testitems i und j mit dichotomem Beantwortungsmodus »stimmt (+)« bzw. »stimmt nicht (–)«, z. B. das Item 49 »Termindruck und Hektik lösen bei mir körperliche Beschwerden aus« und das Item 106 »Es gibt Zeiten, in denen ich ganz traurig und niedergedrückt bin« aus der revidierten Fassung des Freiburger Persönlichkeitsinventars FPI-R (Fahrenberg et al. 1994). Die Zustimmungs-, Ablehnungs- und Verbundwahrscheinlichkeiten für diese beiden Items sind in . Tab. 2.1 wiedergegeben: Betrachtet man zunächst im oberen Teil von Tab. 2.1 die Randwahrscheinlichkeiten der beiden Items, so erkennt man, dass das Item i das leichtere Item ist (Zustimmungswahrscheinlichkeit p(i+) = .60), das Item j hingegen das schwierigere (Zustimmungswahrscheinlichkeit p(j+) = .40). (Vgl. 7 Abschn. 2.2.7.1: Bei Persönlichkeitsfragebögen bezieht sich die »Itemschwierigkeit« nicht auf eine »richtige« Antwort, sondern auf den Anteil der Probanden, die im Sinne einer »höheren« Merkmalsausprägung geantwortet haben.) Die Anwendung des Multiplikationstheorems für 6

67

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

. Tabelle 2.1a–c. Zustimmungs-, Ablehnungs- und Verbundwahrscheinlichkeiten von zwei korrelierten Testitems i und j mit dichotomem (+/–) Antwortmodus, zunächst (a) ohne Berücksichtigung einer dahinterliegenden latenten Variablen x, sodann (b, c) bei lokaler Betrachtung auf den Stufen ξv und ξw, auf denen sich die lokale stochastische Unabhängigkeit zeigt a

Item i

b

Item i

c

Item i

Item j

+



+

.33

.27

.60



.07

.33

.40

.40

.60

Für ξ = ξV

Item j +



+

.03

.27

.30



.07

.63

.70

.10

.90

Für ξ = ξW

Item j +



+

.63

.27

.90



.07

.03

.10

.70

.30

unabhängige Ereignisse auf eine beliebige Zelle des Vierfelderschemas, z. B. auf p(i+)xp (j+) = .60 × .40 = .24, und der Vergleich mit der Verbundwahrscheinlichkeit derselben Zelle, hier p(i+, j+) = .33, machen deutlich, dass die Zustimmung zu Item j von der Zustimmung zu Item i nicht unabhängig ist, da bei Unabhängigkeit die Bedingung p(i+)xp(j+) = p(i+, j+) hätte erfüllt sein müssen; vielmehr führt die Analyse aller Antworten auf die beiden Items zu einer deutlichen Korrelation von rij = 0.375 (Phi-Koeffizient).

Gründlichkeitshalber sei angemerkt, dass die Erfüllung der Bedingung der lokalen stochastischen Unabhängigkeit keineswegs trivial ist. Hätte man die Stichprobe nicht nach dem Merkmal »Emotionalität« geteilt, sondern z. B. nach »Extraversion«, so wären in jeder der beiden Teilstichproben ähnliche Korrelationen wie in der ungeteilten Stichprobe verblieben. Um in der immer größer werdenden Menge von IRT-Modellen zu einer übersichtlicheren Einteilung zu gelangen, wurden von verschiedenen Autoren durchaus verschiedene Einteilungsgesichtspunkte gewählt: So gehen etwa Weiss und Davison (1981) von der Anzahl der Modellparameter aus, Moosbrugger (1984) von der Art der itemcharakteristischen Funktion, Rost (1996) von der Variablenart der manifesten und latenten Variablen und Müller (1997) von der Separierbarkeit der Modellparameter. Im Sinne der Unterteilung nach der Variablenart erscheint es für die

Einteilungsgesichtspunkte von IRTModellen

2

68

Kapitel 2 · Grundlagen diagnostischer Verfahren

hier gewählte Darstellung zunächst hinreichend, die Gruppe der Latent-Trait-Modelle herauszugreifen, welche von kontinuierlichen latenten Variablen ausgehen und am einfachsten für Testitems mit einem dichotomen Antwortmodus dargestellt werden können. Im 7 Abschn. 2.1.2.3 werden dann weitere Modelle der IRT vorgestellt.

2

Dichotome Latent-Trait-Modelle Innerhalb der psychologischen Diagnostik sind gegenwärtig Latent-Trait-Modelle am gebräuchlichsten. Sie stehen in gutem Einklang mit »den intuitiven psychologischen Vorstellungen über das Wesen einer latenten Eigenschaft (eines Traits) als einer nicht begrenzten, stetig veränderlichen (reellwertigen) Variablen, von deren individueller Ausprägung die Wahrscheinlichkeit des manifesten Verhaltens der getesteten Person systematisch abhängt; aufgrund dieser Abhängigkeit kann der Trait zur ›Erklärung‹ von Verhaltensunterschieden herangezogen werden. Je nachdem, welche Annahmen man im Detail über die Art des Zusammenhanges zwischen dem latenten Trait und der Verhaltenswahrscheinlichkeit macht, resultieren IRT-Modelle mit z. T. recht verschiedenen Eigenschaften« (Fischer, 1996, S. 673). Latent-Trait-Modelle gehen davon aus, dass sowohl die Ausprägungen verschiedener Probanden auf den latenten Traits als auch die traitbezogenen Anforderungen der Items an die Personen jeweils durch einen Parameter, nämlich einen einzelnen numerischen Kennwert, charakterisiert werden können. Ersterer wird als Personenparameter ξv bezeichnet (Fähigkeits-, Einstellungs-, Dispositionsparameter, nämlich die Fähigkeit des Probanden v hinsichtlich des latenten Traits), letzterer als Itemparameter σi (Schwierigkeits- bzw. Anforderungsparameter, nämlich die Anforderung, welche das Item i an die zu untersuchende Fähigkeit der Person stellt). Üblicherweise werden die numerischen Ausprägungen der beiden Parameter auf einer gemeinsamen Skala (»joint scale«) angegeben. Manche Modelle ergänzen noch einen Itemdiskriminationsparameter λi. 2.1.2.2

Traits und Verhalten

Modellparameter für Personen und Item

Itemcharakteristische Funktion (IC-Funktion)

Annahmen über das Antwortverhalten

Eine Angabe über die numerische Ausprägung dieser Parameter wird erst nach Festlegung der itemcharakteristischen Funktion (IC-Funktion) möglich, welche empirisch überprüfbare Annahmen über das manifeste Antwortverhalten auf die Testitems in Abhängigkeit von der Ausprägung der latenten Traits in Form einer mathematischen Gleichung beschreibt. Durch Variation der IC-Funktion ergeben sich verschiedene spezifische Testmodelle, innerhalb derer grundsätzlich deterministische von probabilistischen Modellen unterschieden werden können (vgl. z. B. Roskam, 1996, S. 431). Definition Deterministische Modelle gehen davon aus, dass das Antwortverhalten der Probanden durch die Item- und Personenparameter vollständig bestimmt ist. Probabilistische Modelle hingegen nehmen eine stochastische Beziehung zwischen dem Antwortverhalten des Probanden und den Personen- und Itemparametern an.

Deterministische Modelle

Deterministische Modelle. Der einfachste Fall einer IC-Funktion liegt vor, wenn man annimmt, dass es für jedes dichotom beantwortete Item einen bestimmten Wert auf der

ξ-Skala gibt, ab dem das Item gelöst wird (bzw. dem Item zugestimmt wird). Genau diese Annahme trifft das sogenannte Skalogramm-Modell (Guttman, 1950), welches

69

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

. Abb. 2.10. Guttman-Skala mit drei Items. Für jedes Item steigt an einer bestimmten Stelle der latenten Variablen ξ die Lösungswahrscheinlichkeit p(i+) von 0 auf 1. (Nach Stelzl, 1993, S. 144)

als Vorläufer der später entwickelten probabilistischen Latent-Trait-Modelle angesehen werden kann. Sofern man die Items nach ihrer Schwierigkeit reiht, besagt das Skalogramm-Modell, »dass eine einheitliche Ordnung von Personen und Items existiert. Diese Ordnung hat die Eigenschaft, dass eine Person, die auf ein bestimmtes Item positiv reagiert, auch auf alle vorhergehenden Items positiv reagiert. Ferner wird eine Person, die auf ein bestimmtes Item negativ reagiert, auch auf alle nachfolgenden Items negativ reagieren« (Roskam, 1996, S. 436). . Abb. 2.10 illustriert ein solches Beispiel. Beispiel

Eine einfache Illustration des Guttman-Modells kann am Beispiel der Ermittlung des Körpergewichts gegeben werden. Befragt man eine Person, die z. B. 78 kg schwer ist, mittels mehrerer Items über ihr Gewicht in der Weise, dass in jedem Item eine Gewichtsschwelle angegeben ist, z. B. »Sind Sie leichter als 60 kg?«, »Sind Sie leichter als 70 kg?« (80 kg, usw.), so wird die Wahrscheinlichkeit, der Frage zuzustimmen, bei einem bestimmten Item (80 kg) von Null auf Eins springen. Die Schwierigkeit dieses Items ist dann ein Indikator für die Ausprägung der latenten Variablen ξ.

Sofern die Items dem Guttman-Modell folgen, was man an modellkonformen Reaktionsmustern erkennt, findet man den Skalenwert einer Person einfach als die Rangzahl jenes Items der Itemmenge, ab dem der Proband positiv reagiert hat (hier 3), und zwar unabhängig von den Reaktionen der anderen untersuchten Probanden. Da hier nur ordinale Reihungsinformationen der Itemschwierigkeiten vorliegen, sind aber keine Aussagen über Distanzen möglich, weder zwischen den Items noch zwischen den Personen. Auch wenn das Guttman-Modell auf den ersten Blick nicht nur einfach, sondern auch plausibel erscheint, so gilt es dennoch festzustellen, dass es als IRT-Modell für psychodiagnostische Daten in der Regel nicht tauglich ist: Die Modellkonformität der Daten wäre nämlich immer dann zu verwerfen, wenn Probanden ein schwierigeres Item lösen, obwohl sie an einem leichteren gescheitert sind. Deshalb wurden bereits von Guttman selbst »Reproduzierbarkeitskoeffizienten« eingeführt, welche davon abhängen, wieviele Rangplatzvertauschungen vorliegen; sie erlauben eine Beurteilung, ob die Modellabweichungen noch als tolerierbar angesehen werden können, oder ob die Annahme der Itemhomogenität verworfen werden muss (7 Abschn. 2.2.7.3). Probabilistische Modelle. In probabilistischen Modellen werden anstelle der Guttmanschen

Treppenfunktion in der Regel monoton steigende Funktionen als IC-Funktion angenommen. Die IC-Funktion ordnet jeder Ausprägung der latenten Variablen ξ eine

Beispiel für ein Guttman-Modell

Anwendungsprobleme des Guttman-Modell

Probabilistische Modelle

70

Kapitel 2 · Grundlagen diagnostischer Verfahren

2

Logistische Funktion

Beispiel: BirnbaumModell

Wahrscheinlichkeit p(i + | ξ) zu, mit der ein bestimmtes Item i gelöst (bzw. dem Item zugestimmt) wird. Deterministische Modelle, bei denen nur die Lösungswahrscheinlichkeiten Null und Eins vorkommen (vgl. oben), können als Grenzfall eines probabilistischen Modells aufgefasst werden. Probabilistische Latent-Trait-Modelle wurden in ihren Grundlagen von Lord und Novick (1968), von Birnbaum (1968) und von Rasch (1960) entwickelt. Alle drei Ansätze treffen ähnliche Annahmen zur Beschreibung der Beziehung zwischen manifestem Verhalten und latenter Merkmalsausprägung: Lord und Novick verwenden als IC-Funktion in ihrem »Normal-Ogiven-Modell« die Summenfunktion der Normalverteilung, die beiden anderen Ansätze verwenden hingegen die ähnlich verlaufende, aber mathematisch leichter handhabbare »logistische Funktion«. (Eine theoretische Begründung logistischer Modelle gibt z. B. Fischer, 1996, S. 678–682.) Zur näheren Beschreibung der logistischen Funktion gehen wir von einem dichotomen (+/–) Antwortungsmodus aus, bei dem der Antwort »+« einer Person v auf das Item i der numerische Wert ξvi = 1 und der Antwort »–« der numerische Wert ξvi = 0 zugewiesen wird. Durch die logistische IC-Funktion wird die Reaktionswahrscheinlichkeit p(ξvi) einer Person v auf das Item i in Abhängigkeit vom Personenparameter ξv, dem Itemschwierigkeitsparameter σi und dem Itemdiskriminationsparameter λi festgelegt. Die allgemeine Form der logistischen Funktion findet im Birnbaum-Modell Verwendung (Birnbaum, 1968) und wird durch folgende Gleichung beschrieben (mit exp als Schreibweise für die Exponentialfunktion): p(x vi ) =

exp(x vi λi (ξ v -σ i )) 1 + exp (λi (ξ v -σ i ))

(2.44)

Der Fähigkeitsparameter ξv bezeichnet die Merkmalsausprägung von Person v auf der latenten Dimension ξ. Der Schwierigkeitsparameter σi gibt an, wie weit links (leichte Items) bzw. wie weit rechts (schwierige Items) die IC-Funktion des Items i auf der gemeinsamen Skala von σ und ξ zu liegen kommt. Vom Diskriminationsparameter λi hängt für jedes Item die Steilheit der IC-Funktion ab, welche im Wendepunkt mit λi/4 ihr Maximum erreicht. Die charakteristische Form der logistischen Funktion ist in . Abb. 2.11 wiedergegeben (weitere Erläuterungen im folgenden Abschn. über das dichotome Rasch-Modell).

. Abb. 2.11. Logistische IC-Funktion. Die Lösungswahrscheinlichkeit p(xvi = 1) steigt mit zunehmender Merkmalsausprägung ξ monoton an. Für das hier veranschaulichte Item wurden die Parameter willkürlich auf σi = –1.25 und λi = 0.8 festgelegt

71

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Während das Birnbaum-Modell für die verschiedenen Items logistische IC-Funktionen mit verschiedenen Steigungen (charakterisiert durch die jeweiligen Diskriminationsparameter λi) zulässt, hält das dichotome Rasch-Modell (Rasch, 1960) alle Diskriminationsparameter λi auf dem Wert 1 konstant, was zu weiteren vorteilhaften Modelleigenschaften führt. . Abb. 2.12 veranschaulicht den Unterschied der IC-Funktionen im Rasch- und im Birnbaum-Modell. Dichotomes Rasch-Modell Definition Als Rasch-Modelle bezeichnet man eine Gruppe von probabilistischen Latent-TraitModellen, welche neben der lokalen stochastischen Unabhängigkeit über weitere vorteilhafte Modelleigenschaften verfügen. Zu nennen sind vor allem die erschöpfenden Statistiken, die Stichprobenunabhängigkeit der Parameterschätzungen und die spezifische Objektivität der Vergleiche.

Das dichotome Rasch-Modell ist das einfachste Modell aus der Gruppe der RaschModelle. Wegen λi = 1 resultiert für das dichotome Rasch-Modell eine gegenber dem Birnbaum-Modell vereinfachte Modellgleichung: p(x vi ) =

exp(x vi (ξ v -σ i )) 1 + exp (ξ v - σ i )

(2.45)

Die Modellgleichung enthält für jede der dichotomen Reaktionen (Lösung/Nichtlösung) Wahrscheinlichkeitsaussagen: Für (xvi =1) erhält man die Lösungswahrscheinlichkeit p(x vi = 1) =

exp(ξ v -σ i ) 1 + exp(ξ v -σ i )

(2.46)

und für (xvi = 0) unter Benutzung von exp(0) = 1 die Wahrscheinlichkeit, das Item nicht lösen zu können (Gegenwahrscheinlichkeit) p(x vi = 0) =

1 1 + exp(ξ v -σ i )

(2.47)

. Abb. 2.12. Unterschiede zwischen IC-Funktionen im Rasch- und im Birnbaum-Modell. Die ICFunktionen der Items 1,2 und 3 entsprechen dem Rasch-Modell, eine Hinzunahme von Item 4 wäre nur im Birnbaum-Modell möglich. In keines der beiden Modelle würde Item 5 mit einer unregelmäßig monoton steigenden IC-Funktion passen. (Nach Stelzl, 1993, S. 146)

Modellgleichung

2

72

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

Fallunterscheidung

Erschöpfende Statistiken

Auf die Frage, wie sich die Lösungswahrscheinlichkeit mit variierenden Parameterwerten ändert, wird man rasch feststellen, dass die Differenz ξv-σi die entscheidende Größe ist. Eine Fallunterscheidung mit bestimmten Werten von σi soll das Verständnis der Modellgleichung erleichtern: 4 Für σi = ξv ergibt sich aus exp(0)/(1 + exp(0)) die Lösungswahrscheinlichkeit 1/2. Die Schwierigkeit eines Items σi ist auf der gemeinsamen Skala von Schwierigkeit und Fähigkeit (7 oben) gerade als jene Fähigkeitsausprägung ξv definiert, welche mit einer Lösungswahrscheinlichkeit p(xvi = 1) = 1/2 einhergeht. An dieser Stelle hat die logistische Funktion ihren Wendepunkt. 4 Für σi < ξv wird die Schwierigkeit des Items von der Fähigkeit des Probanden betroffen, die Lösungswahrscheinlichkeit steigt an (p(xvi = 1) > 1/2) und geht bei entsprechend großer Fähigkeit asymptotisch gegen 1. 4 Für σi > ξv übersteigt die Schwierigkeit des Items die Fähigkeit des Probanden, die Lösungswahrscheinlichkeit fällt ab (p(xvi = 1) < 1/2) und geht bei entsprechend geringer Fähigkeit asymptotisch gegen 0. Parameterschätzung. Die Schätzung der Parameter nimmt ihren Ausgang bei den einzelnen Reaktionen xvi aller Personen auf alle Items, welche in einer Datenmatrix X gesammelt werden, in der die i = 1 … k Items die Spalten und die v = 1 … n Personen die Zeilen bilden (. Tab. 2.2). Liegt Rasch-Homogenität vor, so ergibt sich als besonderer Vorteil des Modells, dass die Anzahl der Items, die von einer Person gelöst wurden (die Zeilensummenscores), eine erschöpfende (suffiziente) Statistik für den Personenparameter der betreffenden Person bildet. Umgekehrt sind im Rasch-Modell die Spaltensummenscores erschöpfende Statistiken für die Schwierigkeitsparameter der Items.

. Tabelle 2.2. Datenmatrix X mit den Antworten xvi der Personen v auf die Items i, in welcher die i = 1…k Items die Spalten und die v = 1…n Personen die Zeilen bilden

Person

Item

Zeilensumme

1

2



i



k

1

2



i



k

k

1

∑x1i i=1 k

2

x1k

∑x 2i







xvi



xvk

∑x vi













xni



xnk

∑xni

x11

x12



x1i













v

xv1

xv2









n

xn1

xn2

n

n

i=1

k

i=1

k

Spaltensumme

∑x v1 v =1

∑x v 2 v =1

n



∑x vi v =1

n



∑x vk v =1

i=1

73

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

! Bei Modellkonformität ist es also für die Schätzung der Parameter gleichgültig, welche

Items von welchen Personen gelöst wurden, entscheidend ist nur die Anzahl.

Läge hingegen keine Modellkonformität vor, so wären Randsummen keine geeigneten Statistiken über die Personen bzw. Items. Eine der wesentlichen Aufgaben der RaschModellanalyse besteht deshalb in der empirischen Überprüfung der Frage, ob Modellkonformität gegeben ist oder nicht (7 Abschn. 2.1.2.3, »Modelltests«). Unter Benutzung der Modellgleichung für die Wahrscheinlichkeiten der einzelnen Itemantworten xvi ergibt sich die Wahrscheinlichkeit für die gesamte Datenmatrix X wegen der lokalen stochastischen Unabhängigkeit durch systematisch wiederholtes Anwenden des Multiplikationstheorems für unabhängige Ereignisse wie folgt: n

k

L = p (X) = ∏ ∏ p (x vi )

(2.48)

v =1 i =1

Dieser Ausdruck über die Wahrscheinlichkeit aller beobachteten Daten unter den Modellannahmen wird als Likelihoodfunktion bezeichnet. Beispiel

Testitems Zur Illustration der Parameterschätzung und der Likelihoodfunktion nehmen wir an, es hätten 3 Personen 2 dichotome bearbeitet und dabei folgendes Antwortverhalten (Datenmatrix X) gezeigt: Beispiel-Datenmatrix X mit den Antworten xvi der Personen v auf die Items i

1 Person 2 3 Spaltensumme

Item 1 x11 = 1 x21 = 1 x31 = 0 Σxv1 = 2

2 x12 = 1 x22 = 0 x32 = 0 Σxv2 = 1

Zeilensumme Σx1i = 2 Σx2i = 1 Σx3i = 0

Anmerkung: xvi = 1 bedeutet »Item bejaht bzw. gelöst« und xvi = 0: »Item nicht bejaht bzw. nicht gelöst«. Es stellt sich nun die Frage, welche Werte der dahinterliegenden Item- und Personenparameter eine solche Datenmatrix erzeugt haben. Hierfür suchen wir nach der maximalen Likelihood für die Datenmatrix X, indem wir geeignete Werte für die Itemparameter und Personenparameter auswählen. Natürlich gibt es viele Möglichkeiten, die Werte für die Parameter zu wählen, von denen einige zu einer höheren, andere hingegen nur zu einer niedrigen Likelihood für die beobachtete Datenmatrix führen. Zur Veranschaulichung wählen wir zunächst günstige Parameterwerte und vergleichen die resultierende Likelihood sodann mit der Likelihood von ungünstigen Parameterwerten. Um günstige Parameterwerte zu finden, stellen wir zunächst fest, dass Item 1 offensichtlich leichter zu bejahen ist als Item 2. Deshalb wählen wir für Item 1 einen niedrigeren Schwierigkeitsparameter (σ1 = –1) und für Item 2 einen höheren (σ2 = +1). 6

Likelihoodfunktion

2

74

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

Darüber hinaus stellen wir fest, dass Person 1 offensichtlich eine höhere Merkmalsausprägung als Person 2 und Person 3 aufweist. Deshalb wählen wir für Person 1 einen hohen Personenparameter (ξ1 = 2), für Person 2 einen mittleren (ξ2 = 0) und für Person 3 einen niedrigen (ξ3 = –2). Im dichotomen Rasch-Modell würde folgende Likelihood resultieren, die durch Einsetzen der beobachteten Daten xvi und der gewählten Parameterschätzungen (ξv, σi) in die Likelihoodfunktion L für die Datenmatrix X berechnet werden kann: n

k

L = p(X ) = ∏∏p( xvi) ; wobei p( xvi) = v =1 i=1

exp( xvi(ξ v − σ i)) (vgl. 2.45) 1+ exp(ξ v − σ i)

L=

exp( x11(ξ 1 − σ 1)) exp( x12(ξ 1 − σ 2 )) exp( x 21(ξ 2 − σ 1)) exp( x 22(ξ 2 − σ 2 )) exp( x 31(ξ 3 − σ 1)) exp( x 32(ξ 3 − σ 2 )) ⋅ ⋅ ⋅ ⋅ ⋅ 1+ exp(ξ 1 − σ 1) 1+ exp(ξ 1 − σ 2 ) 1+ exp(ξ 2 − σ 1) 1+ exp(ξ 2 − σ 2 ) 1+ exp(ξ 3 − σ 1) 1+ exp(ξ 3 − σ 2 )

L=

exp(1(2 − ( −1))) exp(1(2 − 1)) exp(1(0 − ( −1))) exp(0(0 − 1)) exp(0(( −2) − ( −1))) exp(0(( −2) − 1)) ⋅ ⋅ ⋅ ⋅ ⋅ 1+ exp(2 − ( −1)) 1+ exp(2 − 1) 1+ exp(0 − ( −1)) 1+ exp(0 − 1) 1+ exp(( −2) − ( −1)) 1+ exp(( −2) − 1)

L ≈ 0,953 ⋅ 0,731 ⋅ 0,731 ⋅ 0,731 ⋅ 0,731 ⋅ 0,953 ≈ 0,259 .

Wie man sieht, ist die Likelihood für die gesamte Datenmatrix mit L ≈ 0,259 verhältnismäßig hoch; sie resultiert aus dem Produkt der Wahrscheinlichkeiten p(xvi) für die empirisch beobachteten Antworten xvi der Datenmatrix X unter der Bedingung der gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = 2, ξ2 = 0 und ξ3 = –2. Wahrscheinlichkeiten p(xvi) der Antworten xvi der Personen v auf die Items i (unter der Bedingung der gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = 2, ξ2 = 0 und ξ3 = –2) Item 1 2 Personen 1 0,953 0,731 2 0,731 0,731 3 0,731 0,953 Man erkennt, dass die gewählten Parameter zu hohen Wahrscheinlichkeiten für die empirischen Daten führen, sodass davon ausgegangen werden kann, dass es sich eher um passende Parameterschätzungen handelt. Hätten wir hingegen für die besseren Probanden die schlechteren Personenparameter und umgekehrt gewählt, also ξ1 = –2, ξ2 = 0 und ξ3 = 2, so würden wir eine Likelihood von L ≈ 0,00009 erhalten, die als Produkt folgender Wahrscheinlichkeiten p(xvi) resultiert: Wahrscheinlichkeiten p(xvi) der Antworten xvi der Personen v auf die Items i (unter der Bedingung der gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = –2, ξ2 = 0 und ξ3 = 2) Item 1 2 Personen 1 0,269 0,047 2 0,731 0,731 3 0,047 0,269 6

75

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Man erkennt, dass ungünstige Parameter nun zu deutlich niedrigeren Wahrscheinlichkeiten für die empirischen Daten führen, woraus geschlossen werden kann, dass es sich hier um unpassende Parameterschätzungen handelt. Die Höhe der Likelihood variiert also in Abhängigkeit von den gewählten Parameterschätzungen. Sie erreicht das für eine gegebene Datenmatrix mögliche Maximum dann, wenn im Wege der Parameterschätzung optimale Werte für die Personen- und Itemparameter gefunden werden.

Nach Einsetzen der Modellgleichung in die Likelihoodfunktion (7 Beispiel) lässt sich die Gleichung in der Weise umformen, dass die einzelnen Reaktionen der Personen auf die Items zugunsten der Zeilen- und Spaltensummenscores der Datenmatrix verschwinden. (Eine genaue Ableitung liefert Rost, 1996, S. 129.) Bei Modellkonformität hängt die Wahrscheinlichkeit der Daten also nicht davon ab, welche Personen welche Items gelöst haben, sondern lediglich davon, wie oft ein Item gelöst wurde, bzw. wieviele Items eine Person lösen konnte. Die Modelleigenschaften des Rasch-Modells ermöglichen als weiteren Vorteil die Separierbarkeit der Parameter. Sie erlaubt es, eine Likelihoodfunktion zu spezifizieren, die nur mehr Itemparameter enthält, aber keine Personenparameter. (Eine genaue Ableitung liefert Rost, 1996, S. 130–133.) ! Diese vorteilhafte Eigenschaft des Rasch-Modells bedeutet, dass man Itemparameter schätzen kann, ohne die Personenparameter zu kennen und ohne Annahmen über deren Verteilung treffen zu müssen. Diese Eigenschaft wird auch als Stichprobenunabhängigkeit der Parameterschätzungen bezeichnet.

Die Itemparameter werden üblicherweise nach der Conditional Maximum-Likelihood-Methode (CML-Methode) geschätzt, welche im Unterschied zur unbedingten Maximum-Likelihood-Methode die Konsistenz der Schätzung nicht beeinträchtigt (zum genaueren Verfahren s. Andersen, 1980, S. 245–249; Fischer, 1983, S. 624–628 oder Molenaar, 1995). Die mathematische Ableitung ist aufwendig und soll hier nicht dargestellt werden; die rechnerische Durchführung erfordert Computerunterstützung, z. B. in Form des Rechnerprogramms WINMIRA (Davier & Rost, o. J.). Dabei werden die Itemparameter solange verändert, bis die bedingte Likelihood für die Datenmatrix (. Tab. 2.2) ihr Maximum erreicht. Mit anderen Worten bedeutet dies, dass die Itemparameter so bestimmt werden, dass für die empirisch beobachtete Datenmatrix eine bestmögliche Anpassung resultiert. Eine ausführliche und gut nachvollziehbare Darstellung der Maximum-Likelihood-Parameterschätzungen gibt Rost, 2004, S. 309-317). Sind die Itemparameter bestimmt, so könnten bei Modellkonformität bereits die Zeilensummenscores der Probanden Hinweise auf die Ausprägung der latenten Variablen liefern. »Da die Schätzwerte für die Personenparameter letztlich nur eine monotone Transformation der Trefferzahlen sind (je mehr Treffer, desto höher der geschätzte Personenparameter), ist im allgemeinen wohl nicht zu erwarten, dass sich an den Korrelationen des Tests mit Außenkriterien viel ändert, wenn man die geschätzten Personenparameter anstelle der Trefferzahl zur Vorhersage benutzt. Das zeigte sich z. B. beim Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens (MTP von Conrad, Baumann & Mohr, 1980), bei dem sowohl für die Trefferzahl als auch für die geschätzten Personenparameter Kriteriumskorrelationen berechnet wurden. Die Unterschiede in den Korrelationen waren gering und unsystematisch.« (Stelzl,

Stichprobenunabhängigkeit

Schätzung der Itemparameter

Schätzung der Personenparameter

2

76

Kapitel 2 · Grundlagen diagnostischer Verfahren

2

Intervallskalierung

1993, S. 150). Dies macht deutlich, dass nicht für jede Person ein eigener, sondern für alle Personen mit demselben Zeilensummenscore ein gemeinsamer Schätzwert für den Personenparameter bestimmt werden kann, welcher in der Testpraxis aus einer Tabelle abgelesen wird. Für die Zeilensummenscores verbliebe allerdings der Nachteil, dass sie nicht direkt mit den Schwierigkeitsparametern auf einer gemeinsamen Skala verglichen werden könnten. Zur Bestimmung der Personenparameter werden deshalb den jeweiligen Zeilensummenscores mit Hilfe der Maximum-Likelihood-Schätzung diejenigen Werte von ξ zugeordnet, für welche das beobachtete Reaktionsverhalten auf die Items am wahrscheinlichsten ist (vgl. Steyer & Eid, 1993, S. 276–278). Bei Personen, die kein Item gelöst haben, weil der Test für sie zu schwierig war (Zeilensummenscore 0), und ebenso bei Personen, die alle Items gelöst haben, weil der Test für sie zu einfach war (Zeilensummenscore k bei k Items), sind die Personenparameter nicht genau bestimmbar, weil sie gegen –∞ bzw. +∞ tendieren. Ihnen können aber im Wege bestimmter Normierungen (s. Rost, 1996, S. 307–308, Weighted- ML-Methode) entsprechende Parameter zugewiesen werden. Die Modellgleichung des Rasch-Modells ist eindeutig bis auf positiv-lineare Transformationen. Daraus ergibt sich für die gemeinsame Skala von ξ und σ und somit auch für die latente Variable ξ die Dignität einer Intervallskala (vgl. Fischer, 1996, S. 686) mit frei wählbarem Nullpunkt. Die Itemparameter werden in der Regel auf den Mittelwert Null normiert, wodurch negative Werte von σ leichte Items charakterisieren, positive Werte hingegen schwierige Items. Mit der Normierung der Itemparameter liegt auch die Skala der Personenparameter fest. Negative Personenparameter zeigen an, dass die Probanden im untersuchten Aufgabenbereich geringe Merkmalsausprägungen aufweisen, positive Personenparameter sprechen für hohe Merkmalsausprägungen. Die Parameterwerte auf der gemeinsamen Skala fallen in der Regel im Intervall zwischen –3 und +3 an. Empirische Modelltests. Bevor mit einem nach dem Rasch-Modell konstruierten Test

Überprüfung der Modellkonformität

Graphischer Modelltest

psychodiagnostische Messungen vorgenommen werden, gilt es zu überprüfen, ob Modellkonformität vorliegt. Nur dann können nämlich die günstigen Eigenschaften des Rasch-Modells – wie schon oben erwähnt – auch tatsächlich in Anspruch genommen werden. Diese Modellkonformität kann im Wege empirischer Modellkontrollen überprüft werden. Das einfachste Vorgehen besteht darin, die postulierte Stichprobenunabhängigkeit zu hinterfragen und die Probandenstichprobe nach einem relevanten Kriterium (z. B. Alter, Geschlecht, Sozialisation, etc., oder nach dem untersuchten Persönlichkeitsmerkmal selbst, vgl. dazu aber auch den Abschn. »Mixed-Rasch-Modell«) in zwei oder mehrere Substichproben zu unterteilen und in jeder der Substichproben getrennte Itemparameterschätzungen vorzunehmen. Auf diese Weise gewinnt man jeweils zwei Werte für σi, welche bei Modellkonformität nicht bzw. nur zufällig voneinander abweichen sollen. Einen ersten Überblick verschafft man sich mit dem graphischen Modelltest, bei dem die beiden Itemparameterschätzungen in einem bivariaten Streuungsdiagramm gegeneinander abgetragen werden (s. Lord, 1980, S. 37). Je näher die Itemparameter an der Hauptdiagonalen zu liegen kommen, desto größer ist die Stichprobenunabhängigkeit und desto eindeutiger die Rasch-Homogenität. Systematische Abweichungen würden hingegen Hinweise liefern auf modellinkonforme Wechselwirkungen zwischen der Itemschwierigkeit und jenem Kriterium, nach welchem die Stichprobe geteilt worden war. Ein gelungenes Beispiel zeigt . Abb. 2.13.

77

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

. Abb. 2.13. Graphischer Modelltest: Gegenüberstellung der nach dem RaschModell geschätzten Itemparameter der Testskala »Alltagswissen« aus dem Adaptiven Intelligenz Diagnostikum (AID; Kubinger & Wurst, 1991), einerseits für Kinder aus Deutschland und der Schweiz (Abszisse, Stichprobe 1), andererseits für Kinder aus Österreich (Ordinate, Stichprobe 2). (Nach Kubinger, 1995, S. 70)

Will man sich nicht mit der graphischen Kontrolle begnügen, sondern die Modellkonformität numerisch fassen, so wird häufig der Likelihood-Quotienten-Test von Andersen (1973) eingesetzt, welcher für beide Teilstichproben CML-Schätzungen durchführt und diese mittels Signifikanztest auf Unterschiedlichkeit prüft, wobei das Beibehalten der Nullhypothese für, das Verwerfen gegen die Modellkonformität spricht. Sofern Differenzen nur bei einzelnen Items auftreten, kann nach Aussonderung oder Überarbeitung abermals überprüft werden, ob nunmehr Modellkonformität vorliegt. Dazu sollten möglichst neue Daten herangezogen werden. (Über weitere Optimierungsmöglichkeiten durch Itemselektion wie auch über »item-fit-Indices« s. Rost, 1996, S. 363–380.) Personenselektion. Mängel eines Tests hinsichtlich der Modellkonformität können auch darauf zurückzuführen sein, dass einzelne Probanden auf die Testitems nicht in angemessener Weise reagieren, sondern vielmehr untypische Bearbeitungsstile zeigen: Akquieszenz, Schwindeln, Raten, soziale Desirabilität und arbiträres Verhalten wären hier als Gründe ebenso aufzuführen wie Sprachschwierigkeiten und mangelndes oder unterschiedliches Instruktionsverständnis. Solche Personen mit abweichenden Verhaltensstilen, welche möglichst auch transsituativ durch andere Testskalen abgesichert sein sollten, müssen gegebenenfalls ausgesondert werden, um die Personenstichprobe hinsichtlich ihres Bearbeitungsstiles zu homogenisieren. Eine solche Personenselektion macht sich die Tatsache zunutze, dass sich inadäquate Bearbeitungsstile in auffälligen Antwortmustern (»aberrant response patterns«) manifestieren können, denen unter Modellgültigkeit nur eine sehr geringe Auftretens-

LikelihoodQuotienten-Tests

Personenselektion

78

Kapitel 2 · Grundlagen diagnostischer Verfahren

2

»Person-fit-indices«

wahrscheinlichkeit zukommt. Ein deutlich abweichendes Antwortmuster läge beispielweise vor, wenn eine Person die meisten leichten Items eines Tests verneint, die meisten der schwierigen Items aber bejaht. Die beiden Itemgruppen würden für ein- und dieselbe Person dann zu sehr unterschiedlichen Schlussfolgerungen hinsichtlich der latenten Fähigkeit führen, denn die Reaktionen auf die leichten Items würden eine sehr niedrige, die Reaktionen auf die schwierigen Items hingegen eine sehr hohe Merkmalsausprägung nahelegen. Bei der Testanwendung sollte im diagnostischen Einzelfall stets geprüft werden, ob sich der einzelne Proband »modellkonform« verhalten hat oder nicht. Dazu wurden »person-fit-indices« (auch »caution-indices«) entwickelt, welche auf der Basis der Antwortmuster eine Beurteilung erlauben, ob es sich um plausible oder um unplausible Testergebnisse handelt. Während etliche Verfahren aus verschiedenen Gründen nur eingeschränkt empfohlen werden können (s. Fischer, 1996, S. 692), erweisen sich die auf der Likelihoodfunktion basierenden Ansätze von Molenaar und Hoijtink (1990), Tarnai und Rost (1990) sowie von Klauer (1991) als wissenschaftlich gut fundiert. Fällt ein »person-fit-index« zu ungünstig aus, so ist bei dem jeweiligen Testergebnis Vorsicht angezeigt; die Testinterpretation sollte dann entweder unterlassen oder nur mit entsprechender Umsicht vorgenommen werden. (Für weitere Informationen zu »person-fitindices« s. Klauer, 1995, für Optimierungsmöglichkeiten durch Personenselektion s. Rost, 1996, S. 381–389.) Anstelle einer vorschnellen Personenselektion sollte aber auch überlegt werden, ob das modellinkonforme Verhalten eine relevante Information im Sinne der differentiellen Psychologie darstellt. So können gerade niedrige »person-fit-indices« ein Hinweis dafür sein, dass man es mit Probanden zu tun hat, deren Arbeitsstil anders ist als jener der Mehrheit. Diese Überlegung findet beispielsweise in der Sportpsychologie Anwendung zur Identifikation von Personen, welche über die Gabe verfügen, ihre Leistung unter Belastung zu steigern (. Abb. 2.14, s. z. B. Guttmann & Etlinger, 1991). Spezifische Objektivität. Nach erfolgreicher Überprüfung der Modellkonformität kann davon ausgegangen werden, dass die IC-Funktionen aller Items die gleiche Form aufweisen

und lediglich entlang der ξ-Achse parallel verschoben sind. ! Dieser Aspekt ermöglicht die sogenannte spezifische Objektivität der Vergleiche, welche bedeutet, dass der Schwierigkeitsunterschied zweier Items (σi – σj) unabhängig davon festgestellt werden kann, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden (. Abb. 2.15).

In Umkehrung dieser Überlegung sind aber auch Vergleiche zwischen Personen spezifisch objektiv: Die Unterschiede zwischen den Personenparametern (ξv – ξw) können unabhängig von den verwendeten Items festgestellt werden. Informationsfunktion. Die Unabhängigkeit der Personenvergleiche von den verwen-

deten Items macht deutlich, dass grundsätzlich alle Items eines homogenen Itempools zur Erfassung der verschiedenen Merkmalsausprägungen geeignet sind; dennoch darf aber nicht der Eindruck entstehen, dass folglich jedes Item gleich viel Information über die Merkmalsausprägungen verschiedener Personen zu liefern vermag. Vielmehr macht die logistische IC-Funktion (. Abb. 2.11) deutlich, dass die Lösungswahrscheinlichkeit p(xvi = 1) ihren stärksten Zuwachs gerade dann aufweist, wenn die Itemschwierigkeit σi mit der Merkmalsausprägung ξv übereinstimmt. Will man also mit einem bestimmten Item Vergleiche zwischen zwei Personen mit der Merkmalsdifferenz δ vornehmen, so

79

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

. Abb. 2.14. Einige Menschen zeigen einen »untypischen« Verhaltensstil, indem sie ihre Leistung unter Belastung steigern können

. Abb. 2.15. IC-Funktionen zweier Rasch-homogener Items mit den Schwierigkeitsparametern σ1 = 0 und σ2 = 2. Die Differenz δ = |σ1 – σ2| ist unabhängig von ξ feststellbar. (Nach Steyer & Eid, 1993, S. 222)

sind nur dann deutliche Unterschiede in der Lösungswahrscheinlichkeit p(xvi = 1) zu erwarten, wenn die Fähigkeiten im Bereich der Itemschwierigkeit liegen. Weichen hingegen die Fähigkeiten von der Itemschwierigkeit deutlich ab, so fallen die Unterschiede im Lösungsverhalten viel geringer aus, wie . Abb. 2.16 zeigt. Untersucht man die Unterschiede im Lösungsverhalten systematisch für immer kleiner werdende Merkmalsdifferenzen, so erhält man als Grenzfall den Differentialquotienten, welcher die Steigung der IC-Funktion angibt. Die Steigung, die beim dichotomen Rasch-Modell als Iteminformationsfunktion bezeichnet werden kann, variiert mit der Differenz zwischen Fähigkeit und Itemschwierigkeit (. Abb. 2.16). Wie man sieht, erreicht die Iteminformationsfunktion bei ξv = σi ihr Maximum und fällt nach beiden Seiten mit zunehmender Differenz zwischen ξv und σi zunächst lang-

Iteminformationsfunktion

80

Kapitel 2 · Grundlagen diagnostischer Verfahren

2

. Abb. 2.16. Lösungswahrscheinlichkeit p(xvi = 1) und Informationsfunktion Ii eines Rasch-homogenen Items mit der Itemschwierigkeit σi in Abhängigkeit von ξv. Im Fall a (links) führt die Fähigkeitsdifferenz δ =| ξ1– ξ2| zu großen Unterschieden in der Lösungswahrscheinlichkeit, im Fall b (rechts) hingegen zu geringen Unterschieden. Die Iteminformationsfunktion variiert mit dem Grad der Übereinstimmung zwischen Schwierigkeit und Fähigkeit

sam, dann beschleunigt und wieder verlangsamt asymptotisch gegen Null ab. Die numerische Ausprägung Ii der Iteminformationsfunktion eines bestimmten Items i ist festgelegt durch exp(ξ v -σ i ) (1 + exp(ξ v -σ i ))2 = p(x vi = 1|ξ v ) ⋅ p(x vi = 0|ξ v )

Ii =

Testgesamtinformation und Konfidenzintervall für ξv

(2.49)

(vgl. Fischer, 1974, S. 295) und entspricht für die jeweilige Merkmalsausprägung ξv dem Produkt aus bedingter Lösungs- und Nichtlösungswahrscheinlichkeit des Items. Für einen aus k Items bestehenden Test lässt sich – infolge der lokalen stochastischen Unabhängigkeit (7 oben) additiv – die Testgesamtinformation I als Summe der einzelnen Item-Informationsbeträge berechnen: k

I = ∑ Ii

(2.50)

i =1

Mit Hilfe der Gesamtinformation I kann die Genauigkeit der Personenparameterschätzung ξv als asymptotisches 95%-Konfidenzintervall kalkuliert werden (vgl. Fischer, 1983, S. 609): 1.96 1.96 ≤ ξ v ≤ ξ˘v + ξ˘v − I I

(2.51)

Die Testgenauigkeit wird um so größer, je höher die Testinformation I ausfällt. Diese kann sowohl durch Vermehrung der Itemanzahl oder/und durch Vergrößerung der einzelnen additiven Iteminformationsbeträge Ii gesteigert werden.

81

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

. Abb. 2.17. Beim adaptiven Testen wird die Auswahl der Testitems dem Fähigkeitsniveau der Probanden angepasst

Adaptives Testen. Um eine genaue Bestimmung der Personenparameter in allen Bereichen der latenten Merkmalsausprägungen vornehmen zu können, ist es gut und wünschens-

wert, über einen großen Itempool mit entsprechend breit gestreuten Schwierigkeitsparametern zu verfügen. Werden alle diese Items beim jeweiligen Probanden zur Anwendung gebracht, so geht damit eine entsprechend lange Testdauer einher (. Abb. 2.17). Vergegenwärtigt man sich aber, dass nur solche Items, deren Schwierigkeit mit der Fähigkeit des Probanden hinreichend übereinstimmen, wesentlich zur Testgesamtinformation beitragen, die anderen Items hingegen nicht, so wird deutlich, dass alle jene Items, welche für den betreffenden Probanden allzu schwierig oder auch allzu leicht sind, fast keine Information liefern, weshalb sie bei der Testvorgabe einfach weggelassen werden könnten, ohne die Testgenauigkeit beträchtlich zu verringern. Genau diese Idee macht sich das adaptive Testen zu eigen: Zur Steigerung der Testökonomie werden bei den einzelnen Probanden nur diejenigen Testitems zur Anwendung gebracht, welche für das Fähigkeitsniveau des einzelnen Probanden eine hohe Messgenauigkeit (Iteminformation) aufweisen. Auf die anderen Items wird hingegen verzichtet. Solche adaptiven Strategien erfordern einen IRT-homogenen Itempool und können entweder manuell mit Hilfe geeigneter Verzweigungen (»branched testing«) in Paper-pencil-Tests (z. B. Adaptives Intelligenz Diagnostikum AID, Kubinger & Wurst, 1991) oder auch durch »Hochrechnen« des individuellen Personenparameterwertes nach entsprechend maßgeschneiderter Auswahl der Itemschwierigkeit (»tailored testing«) in computerbasierten Testverfahren (z. B. Frankfurter Adaptiver Konzentrationsleistungs-Test FAKT, Moosbrugger & Heyden, 1997) realisiert werden. Näheres zum adaptiven Testen siehe z. B. in Fischer (1983), Kubinger (1987, 1996), Kisser (1992) oder Stelzl (1993).

Adaptives Testen

82

Kapitel 2 · Grundlagen diagnostischer Verfahren

Weitere Modelle der IRT Neben den genannten dichotomen Latent-Trait-Modellen umfasst das Gebiet der IRT heute eine Vielzahl weiterer Modelle. Verglichen mit dem dichotomen Rasch-Modell sind diese in der Regel ebenfalls probabilistisch, unterscheiden sich aber u. a. durch die Art der manifesten und/ oder latenten Variablen und die Art der verwendeten Modellparameter. Die in der IRT zentrale Annahme der lokalen stochastischen Unabhängigkeit (7 oben) gilt sinngemäß auch hier. Die meisten der im Folgenden skizzierten Modelle lassen sich als Weiterentwicklungen des dichotomen Rasch-Modells interpretieren, andere haben ihre eigene Geschichte. Diese Darstellung will grundlegende Ansätze aufzeigen und erhebt keinen Anspruch auf Vollständigkeit. 2.1.2.3

2

Polytome Latent-Trait-Modelle Erweiterung auf polytome Items Polytomes Rasch-Modell

Eindimensionaler Spezialfall

Interpretation des eindimensionalen polytomen Rasch-Modells

Ratingskalenmodell von Andrich

Rasch (1961) hat sein dichotomes Modell auf den Fall polytomer (d. h. mehrkategorieller) Items erweitert. Da es sich um Items mit nominalen Kategorien handeln kann (z. B. Signierungen bei Fragen mit freier Beantwortung), ist das polytome Rasch-Modell im allgemeinsten Fall mehrdimensional: Abgesehen von einer Referenzkategorie wird für jede Kategorie ein eigener Personen- und ein eigener Itemparameter eingeführt. Obwohl wieder spezifisch objektive Vergleiche möglich sind und Verfahren zur Parameterschätzung und Modellkontrolle existieren (z. B. Fischer, 1974, 1983; Fischer & Molenaar, 1995), gibt es doch bislang nur wenige empirische Anwendungen (z. B. Fischer & Spada, 1973). Ein Anwendungsproblem besteht unter anderem darin, dass bei vielen Personen bestimmte Kategorien gar nicht vorkommen (Rost, 1996). Von größerer praktischer Bedeutung ist zur Zeit der eindimensionale Spezialfall des polytomen Rasch-Modells, in dem sich die Antwortkategorien im Sinne einer Rangskala ordnen lassen. Eine solche eindimensionale Ordnung wird in der Regel a priori angenommen; sie kann aber auch durch die Anwendung des mehrdimensionalen polytomen Modells empirisch nahegelegt werden. Das zugehörige Modell enthält nur einen Personen- und einen Itemparameter, die wie im dichotomen Fall z. B. als Fähigkeit (allgemeiner: Merkmalsausprägung) bzw. als Schwierigkeit interpretierbar sind, sowie zusätzlich für jede Kategorie eine Gewichtszahl und einen Parameter, der als Aufforderungscharakter der jeweiligen Kategorie bezeichnet werden kann (Fischer, 1974, 1983). Spezifisch objektive Vergleiche sind hier nur möglich, wenn die Gewichtszahlen nicht geschätzt, sondern im Einklang mit der Rangordnung der Kategorien »gleichabständig« vorgegeben werden (Andersen, 1995). Gewichtungen der Form 0, 1, 2, … o. Ä. für Stufenantwortaufgaben und Ratingskalen sind auch bei »klassischer« Auswertung üblich, jedoch fehlt dort fast immer ihre Legitimation mangels Einbettung in ein empirisch prüfbares Modell. Andrich (1978) gelang es, das eindimensionale polytome Rasch-Modell auf der Basis dichotomer Latent-Trait-Modelle zu interpretieren. In seiner Darstellung werden die manifesten Kategoriengrenzen durch sog. Schwellen auf der latenten Dimension repräsentiert, die sich ähnlich wie dichotome Items durch Diskriminations- und Schwierigkeitsparameter beschreiben lassen. Dabei zeigte sich, dass die oben hervorgehobene gleichabständige Gewichtung nur dann resultiert, wenn man gleich diskriminierende Schwellen annimmt. Im Ratingskalenmodell von Andrich (z. B. Rost, 1996) werden folglich alle Diskriminationsparameter gleich Eins gesetzt und die Kategorien mit fortlaufenden ganzen Zahlen (0, 1, 2, …) gewichtet. Der Aufforderungscharakter der Kategorien hingegen hängt auch von den relativen Positionen der Schwellen ab. Eindimensionale polytome Modelle lassen sich durch Kategoriencharakteristiken veranschaulichen, die die Wahrscheinlichkeiten für alle möglichen Antworten als

83

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

. Abb. 2.18. Kategoriencharakteristiken eines vierkategoriellen Items. (Nach Rost, 1996, S. 197)

Funktion des Personenparameters zeigen. . Abbildung 2.18 kann als Illustration des Ratingskalenmodells für den Fall von vier Antwortkategorien dienen. Wird im Ratingskalenmodell der Personenparameter variiert, durchläuft die jeweils wahrscheinlichste Antwort die gesamte Ratingskala. Die Positionen der Schwellen auf dem latenten Kontinuum ergeben sich aus den Schnittpunkten der Kurven benachbarter Kategorien. (Das dichotome Rasch-Modell ist als Spezialfall im Ratingskalenmodell enthalten: Allgemein ist die Itemcharakteristik bei dichotomen Latent-Trait-Modellen nichts anderes als die Kategoriencharakteristik der positiven oder symptomatischen Kategorie.) Im Ratingskalenmodell wirken die Schwierigkeiten der Items und die für alle Items gleichen relativen Schwierigkeiten der Schwellen im Sinne von Haupteffekten additiv zusammen. Die in . Abb. 2.18 gezeigte Kurvenschar wäre bei einem leichteren Item lediglich insgesamt nach links, bei einem schwereren Item nach rechts verschoben. Die wesentlichen Merkmale von Rasch-Modellen (z. B. Summenwerte als erschöpfende Statistiken für die Modellparameter, Existenz konsistenter Schätzverfahren) bleiben jedoch erhalten, wenn auch »Interaktionseffekte« derart zugelassen werden, dass die relativen Positionen der Schwellen, ja sogar die Anzahl der Kategorien, von Item zu Item schwanken können. Masters (1982) konzipierte dieses sehr allgemeine Modell zunächst für Leistungstests mit abgestufter Bewertung der Antworten und nannte es dementsprechend Partial-credit-Modell. Es eignet sich aber auch als Bezugsrahmen für eine Reihe spezieller »Rasch-Modelle« mit geordneten Kategorien (Wright & Masters, 1982; Masters & Wright, 1984; Rost, 1988), sodass die neutrale Bezeichnung ordinales Rasch-Modell (Rost, 1996) angemessener erscheint. Eine Verallgemeinerung auf kontinuierliche Ratingskalen entwickelte Müller (1987, 1997). Für nähere Einzelheiten der vorgeschlagenen Spezialfälle und mögliche Anwendungen kann hier nur auf die angegebene Literatur verwiesen werden. Latent-Class-Modelle ! Während die latenten Variablen in Latent-Trait-Modellen stets als kontinuierlich oder quantitativ angenommen werden, beruhen Latent-Class-Modelle auf der Annahme qualitativer latenter Variablen zur Charakterisierung von Personenunterschieden.

Dieser Ansatz wurde schon 1950 von Lazarsfeld eingeführt und als Latent-Class-Analyse (LCA) bezeichnet (Lazarsfeld & Henry, 1968). Doch erst nachdem wesentliche Probleme der Parameterschätzung von Goodman (1974) gelöst werden konnten, erlebte die LCA eine »Renaissance« (Formann, 1984, S. 6), welche mit einem zunehmenden Interesse an »qualitativen Daten« korrespondiert. Mittlerweile können Latent-ClassModelle in der IRT gleichberechtigt neben Latent-Trait-Modelle gestellt werden (Rost, 1988, 1996). Explizite oder implizite Typenkonzepte in der psychologischen Diagnostik (s. Moosbrugger & Frank, 1995; Rost, 1995) sind ein potentieller Anwendungsbereich (Moosbrugger & Frank, 1992, 7 Kap. 4.3.1).

2

84

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.19. Klassenspezifische Lösungswahrscheinlichkeiten dreier dichotomer Items bei vier latenten Klassen. (Nach Rost, 1996, S. 149)

LCA dichotomer Items

Verallgemeinerung der LCA

Beim einfachsten Latent-Class-Modell, der LCA dichotomer Items (z. B. Formann, 1984), wird davon ausgegangen, dass die Lösungswahrscheinlichkeit eines Items in nominalskalierten latenten Klassen (Personengruppen) unterschiedlich sein kann (. Abb. 2.19). Diese klassenspezifischen Lösungswahrscheinlichkeiten stellen das Gegenstück zur Itemcharakteristik bei dichotomen Latent-Trait-Modellen dar; sie sind auch für die inhaltliche Charakterisierung der Klassen von Bedeutung. Innerhalb der Klassen wird wieder die stochastische Unabhängigkeit der Items angenommen. Die Parametrisierung von Latent-Class-Modellen unterscheidet sich relativ stark von der vergleichbarer Latent-Trait-Modelle. Generell muss die Anzahl der latenten Klassen hypothetisch vorgegeben werden (hier besteht eine Analogie zur Anzahl der Faktoren in der exploratorischen Faktorenanalyse), wohingegen sich die relativen Klassengrößen in einer Population empirisch schätzen lassen. In der dichotomen LCA können die klassenspezifischen Lösungswahrscheinlichkeiten als Itemparameter aufgefasst und ebenfalls geschätzt werden. Mit den genannten Größen lässt sich berechnen, mit welchen Wahrscheinlichkeiten eine Person mit einem bestimmten Antwortmuster (die Anzahl der gelösten Items stellt hier keine erschöpfende Statistik dar und reicht folglich nicht aus!) den verschiedenen latenten Klassen angehört. Eine Klassenzuordnung der Personen ist also nur probabilistisch möglich; sie ist das Gegenstück zur Schätzung der Personenparameter bei Latent-Trait-Modellen. Ob die gewählte Klassenanzahl einem empirischen Datensatz angemessen ist, kann mit Hilfe von Likelihoodquotiententests und informationstheoretischen Maßen wie dem Akaike’s Information Criterion (AIC; s. Rost, 1996) beurteilt werden. Diese Kriterien kommen bei Modellvergleichen in der IRT ganz allgemein in Betracht. Anders als bei Latent-Trait-Modellen bereitet die Verallgemeinerung auf polytome Items keine prinzipiellen Schwierigkeiten, auch nicht im Fall nominaler Antwortkategorien (Formann, 1984; Rost, 1996). Allerdings steigt die Anzahl der Modellparameter mit wachsender Anzahl der Items, Antwortkategorien und/oder Klassen so schnell an, dass zu ihrer Schätzung auch »große« Stichproben (z. B. 1000 Personen) bald nicht mehr ausreichen würden. Abgesehen davon wären solche Modelle nicht mehr ökonomisch und die Ergebnisse kaum noch interpretierbar. Schon bei dichotomen Items besteht die Möglichkeit, die Anzahl der Modellparameter durch inhaltlich sinnvolle Nebenbedingungen zu reduzieren, was zu restringierten Latent-Class-Modellen führt (Formann, 1984). Für den Fall polytomer Items mit ordinalen Kategorien hat Rost (1988) gezeigt, dass die aus dem Ratingskalenmodell von Andrich bekannte Idee latenter Schwellen (7 oben) in die LCA übertragen werden kann, was ebenfalls Parameterrestriktionen bzw. -reduktionen liefert. Analog zum ordinalen Rasch-Modell resultiert so eine latente Klassenanalyse ordinaler Daten. Sie darf nicht mit dem Begriff geordneter Klassen verwechselt werden: Bei dichotomen

85

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Items lassen sich die Klassen manchmal derart in eine Rangreihe bringen, dass die Lösungswahrscheinlichkeiten aller Items von Klasse zu Klasse ansteigen (Näheres s. Rost, 1996). Mixed-Rasch-Modelle

Herkömmliche Rasch-Modelle setzen Stichprobenunabhängigkeit (z. B. van den Wollenberg, 1988) bzw. Rasch-Homogenität (7 oben) in dem Sinne voraus, dass die Items bei allen getesteten Personen dasselbe Merkmal erfassen sollen. Gelegentlich erweist es sich aber als nicht haltbar, für die gesamte Personenstichprobe dieselben Itemparameterwerte anzunehmen; in einem solchen Fall müßten für verschiedene Teilstichproben unterschiedliche Itemparameter zugelassen werden. Zur Kontrolle eignen sich Modellgeltungstests wie der bereits erwähnte Likelihoodquotiententest von Andersen (1973), der die Gleichheit der Itemparameter des dichotomen Rasch-Modells in manifesten Teilstichproben der Personen überprüft. Solche Modellkontrollen sind im allgemeinen gut interpretierbar, enthalten aber die Gefahr, dass relevante Teilungskriterien übersehen werden. Einen Ausweg bieten »Mixed-Rasch-Modelle« (Rost, 1990, 1996), welche auch als Mischverteilungsmodelle bezeichnet werden. Sie beruhen auf der LCA und lassen dementsprechend die Möglichkeit zu, dass nur innerhalb zunächst nicht bekannter latenter Klassen Rasch-Homogenität gegeben ist. Anders als bei der LCA dürfen sich die Personen einer Klasse aber wie bei Rasch-Modellen hinsichtlich ihrer Merkmalsausprägungen unterscheiden. Bei dichotomen Items werden folglich anstelle klassenspezifischer Lösungswahrscheinlichkeiten klassenspezifische Itemcharakteristiken angenommen, deren Schwierigkeitsparameter aber zwischen den Klassen unterschiedlich sein dürfen. Mixed-Rasch-Modelle lassen sich auch als Modelltests zur Überprüfung herkömmlicher Rasch-Modelle nutzen. Spricht in einer empirischen Anwendung viel für das Vorliegen mehrerer latenter Klassen, kann dies z. B. auf unterschiedliche Lösungsstrategien oder Antwortstile der Personen hindeuten und eine Modifikation der inhaltlichen Modellvorstellungen nahelegen, z. B. in der Weise, dass Personen mit zuvor mäßigem »person-fit« nunmehr als eigenständige Klasse mit homogenem Antwortverhalten identifiziert werden können (s. Köller, 1993). Aus der Sicht der LCA ist an Mischverteilungsmodelle zu denken, wenn in einer Typologie bestimmte Typen als polar (z. B. Amelang & Bartussek, 1990) konzipiert sind. Als konkretes Anwendungsbeispiel sei der Vergleich zweier Geschlechtsrollentypologien durch Strauß, Köller und Möller (1996) genannt, bei dem ordinale, LatentClass- und Mixed- Rasch-Modelle zum Einsatz kamen, also fast alle bisher skizzierten Arten komplexerer IRT-Modelle. Linear-logistische Modelle ! Die Grundidee linear-logistischer Modelle besteht darin, die Itemparameter in IRTModellen näher zu erklären, indem sie als Linearkombination einer geringeren Anzahl von Basisparametern aufgefasst werden.

In psychologisch-inhaltlicher Hinsicht ermöglichen linear-logistische Modelle Erweiterungen gewöhnlicher IRT-Modelle, weil sich die Basisparameter z. B. auf die Schwierigkeit kognitiver Operationen beziehen können, die hypothetisch zur Bearbeitung der Testitems erforderlich sind. Mit welchem Gewicht eine Operation an einem Item beteiligt ist (z. B. einmal, zweimal, oder auch gar nicht), muss inhaltlich begründet vorab festgelegt

2

86

Kapitel 2 · Grundlagen diagnostischer Verfahren

2 Linear-logistisches Testmodell

Veränderungsmessung

werden. Ein so spezifiziertes linear-logistisches Modell kann wegen der geringeren Parameteranzahl nur gültig sein, wenn als notwendige (aber nicht hinreichende) Bedingung auch für das zugehörige logistische IRT-Modell ohne die lineare Zerlegung Modellkonformität besteht. In formaler Hinsicht sind linear-logistische Modelle also Spezialfälle von IRT-Modellen. Sie zwingen zu einer gründlichen Analyse der Struktur von Testaufgaben und sind daher besonders für Konstruktvalidierungen bedeutsam. Scheiblechner (1972) und Fischer (1973, 1995b) haben das dichotome Rasch-Modell zum linear-logistischen Testmodell (LLTM) erweitert, indem sie die Schwierigkeitsparameter als Linearkombination von Basisparametern darstellen. Als Anwendungsbeispiel für das LLTM sei ein Test zur Messung des räumlichen Vorstellungsvermögens von Gittler (1990) angeführt, der das Prinzip der aus dem IST 70 bekannten Würfelaufgaben (Amthauer, 1970) aufgreift und diese verbessert. Als relevante Strukturmerkmale erwiesen sich hier unter anderem die Anzahl der (mentalen) Dreh- oder Kippbewegungen, Symmetrieeigenschaften der Muster auf den Würfelflächen und die Position des Lösungswürfels im Multiple-choice-Antwortformat. Zusätzlich spielt der Lernzuwachs während des Tests eine Rolle, was insbesondere beim adaptiven Testen zu beachten ist (Fischer, 1983; Gittler & Wild, 1988). Die Zerlegung der Itemparameter in eine Linearkombination von Basisparametern ist auch bei erweiterten Rasch-Modellen sowie bei Latent-Class-Modellen möglich. Das lineare Ratingskalenmodell (Fischer & Parzer, 1991) und das lineare Partial-creditModell (Glas & Verhelst, 1989; Fischer & Ponocny, 1995) basieren auf entsprechenden ordinalen Rasch-Modellen. Bei der linear-logistischen LCA für dichotome Items (Formann, 1984) werden die Itemparameter, nämlich die klassenspezifischen Lösungswahrscheinlichkeiten, erst nach einer logistischen Transformation zerlegt, um der Beschränkung auf den Wertebereich zwischen Null und Eins zu entgehen. Der Fall polytomer Items wird z. B. von Formann (1993) behandelt. Linear-logistische Modelle sind insgesamt flexibler, als hier dargestellt werden kann. Insbesondere sind sie auch im Fall mehrerer Messzeitpunkte einsetzbar, sodass sich im Rahmen der IRT auch Fragestellungen der Veränderungsmessung untersuchen lassen (z. B. Fischer, 1974, 1995a; Fischer & Ponocny, 1995). Dabei ist es nötig, zunächst zwischen verschiedenen Arten von Veränderungshypothesen zu unterscheiden (Rost & Spada, 1983; Rost, 1996). Geht es beispielsweise um den Nachweis »globaler« Veränderungen aufgrund einer pädagogischen oder therapeutischen Intervention, so stellt dies insofern eine strenge Form einer Veränderungshypothese dar, als für alle Personen und bei allen Items (Verhaltensmerkmalen, Symptomen) der gleiche Effekt erwartet wird. Da hierdurch der differenziell-psychologische Aspekt in den Hintergrund tritt, erscheint die Forderung nach »spezifisch objektiven Vergleichen« zwischen Personen in einem solchen Fall entbehrlich. Hier kann das von Fischer (z. B. 1983, 1995a) vorgeschlagene »linear logistic model with relaxed assumptions« (LLRA) eingesetzt werden, welches ohne die für Rasch-Modelle charakteristische Annahme der Eindimensionalität bzw. Homogenität der Items auskommt. Gelungene Testkonstruktionen

Als erfolgreiche Testkonstruktionen bzw. Modellüberprüfungen von Rasch-Modellen können (ohne Anspruch auf Vollständigkeit oder Repräsentativität) folgende Entwicklungen genannt werden: 4 Gesellschaftspolitische Einstellungsskalen von Wakenhut (1974); 4 Wiener Matrizen-Test (WMT) von Formann und Piswanger (1979);

87

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

4 4 4 4 4 4 4 4 4 4

Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens (MTP) von Conrad, Baumann und Mohr (1980); Psychosomatischer Einstellungs-Fragebogen (PEF) von Hehl und Wirsching (1983); Loneliness-Skala von Dejong-Gierveld und Kamphuis (1985); Dreidimensionaler Würfeltest (3DW) von Gittler (1990); Adaptives Intelligenz Diagnostikum (AID) von Kubinger und Wurst (1991); Freiburger Beschwerden-Liste (FBL-K) von Piel, Hautzinger und ScherbarthRoschmann (1991); Wortschatztest (WST) von Schmidt und Metzler (1992); Mehrfachwahl-Wortschatztests (WMT) von Metzler und Schmidt (1992); Begriffs-Bildungs-Test (BBT) von Kubinger, Fischer und Schuhfried (1993); Frankfurter Adaptiver Konzentrationsleistungs-Test (FAKT) von Moosbrugger und Heyden (1997). Fazit Die klassische Testtheorie wird heute von der Item-Response-Theorie mehr und mehr überholt. Konnte die klassische Testtheorie als Messfehlertheorie im wesentlichen Antworten zur Reliabilität von Messungen liefern, so stellt die IRT die explizite Beziehung zwischen dem Antwortverhalten von Personen und den dahinterliegenden latenten Merkmalen her. Die Separierbarkeit von Item- und Personenparametern ermöglicht die empirische Überprüfung der Skalierbarkeit, der Eindimensionalität sowie der Item- und der Personenhomogenität. Insbesondere das Konzept der spezifischen Objektivität der Vergleiche sensu Rasch trägt wesentlich zum Verständnis psychodiagnostischer Messungen bei und liefert die methodische Grundlage für das adaptive Testen, welches vor allem in computerbasierter Form auch experimentelle Psychodiagnostik ermöglicht. Durch die besondere Eignung zur Veränderungsmessung wie auch durch den linear-logistischen Modellansatz stellen moderne IRTModelle schließlich einen Brückenschlag von der diagnostischen Psychologie zur allgemeinen Psychologie her. Auch differentielle Aspekte der Psychodiagnostik können mit Hilfe von Mixed-Rasch-Modellen untersucht werden.

Weiterführende Literatur

Die testtheoretischen Grundlagen von IRT-Modellen sind ausführlich bei Fischer (1974, 1983 und 1996) sowie Rost (1988, 1996) abgehandelt. Prozessuale Aspekte stehen bei Scheiblechner (1996) im Vordergrund. Die Verbindung zur Messtheorie wird insbesondere von Steyer und Eid (1993) hergestellt. Ein Handbuch zur IRT haben van der Linden und Hambleton (1996) herausgegeben. Über die Weiterentwicklung von IRT-Modellen für diskrete und kontinuierliche Ratingskalen informiert Müller (1997). Verschiedene Anwendungen von IRT-Modellen sind bei Fischer (1978), Kubinger (1988), Rost und Strauß (1992), Fischer und Molenaar (1995) oder Rost und Langeheine (1996) aufgeführt.

2

88

Kapitel 2 · Grundlagen diagnostischer Verfahren

Übungsfragen

(zu Abschn. 2.1.2)

2

? 1. Was versteht man unter »lokaler

! Ad 1. Lokale stochastische Unabhängigkeit liegt dann vor, wenn

stochastischer Unabhängigkeit«?

die Korrelation von manifesten Variablen verschwindet, wenn man sie auf den einzelnen Stufen der latenten Variablen untersucht: Ursache der Korrelation ist die latente Variable. Ad 2. Die IC-Funktion (itemcharakteristische Funktion) beschreibt die Beziehung zwischen dem latenten Merkmal und dem Reaktionsverhalten auf ein dichotomes Item in Form einer Wahrscheinlichkeitsaussage. Ad 3. Bei deterministischen Modellen sind die Lösungswahrscheinlichkeiten für die einzelnen Items immer Null oder Eins, während bei probabilistischen Modellen Lösungswahrscheinlichkeiten in allen Abstufungen zwischen Null und Eins auftreten können. Ad 4. Spezifische Objektivität: Alle IC-Funktionen weisen die gleiche Form auf und sind lediglich entlang der ξ-Achse parallel verschoben. Der Schwierigkeitsunterschied zweier Items (σi – σj) kann unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden. In Umkehrung sind auch Vergleiche zwischen Personen (ξv – ξw) unabhängig von den verwendeten Items. Die Stichprobenunabhängigkeit bedeutet, dass die Itemparameter unabhängig von den Personen und die Personenparameter unabhängig von den Items geschätzt werden können. Ad 5. Bei den einzelnen Probanden werden nur diejenigen Testitems zur Anwendung gebracht, die für das Fähigkeitsniveau des einzelnen Probanden eine hohe Messgenauigkeit (Iteminformation) aufweisen. Ad 6. Man unterscheidet das mehrdimensionale und das eindimensionale polytome Rasch-Modell. Im eindimensionalen Spezialfall des polytomen Modells lassen sich die Antwortkategorien auf einer Rangskala anordnen. Ad 7. In Latent-Class-Modellen werden Personenunterschiede auf qualitative latente Variablen zurückgeführt, im Unterschied zu Latent-Trait-Modellen, welche von quantitativen latenten Variablen ausgehen. Ad 8. Linear-logistische Modelle versuchen, die Schwierigkeitsparameter der Items auf solche Basisoperationen zurückzuführen, welche für eine erfolgreiche Bearbeitung des Items notwendig sind. Jeder der Schwierigkeitsparameter wird als Linearkombination einer möglichst geringen Anzahl von Basisparametern ausgedrückt.

2. Was beschreibt eine IC-Funktion?

3. Worin besteht der Unterschied zwischen deterministischen und probabilistischen Modellen?

4. Erläutern Sie die Begriffe »Spezifische Objektivität« und »Stichprobenunabhängigkeit«.

5. Was versteht man unter »adaptivem Testen«?

6. Welche Fälle können im polytomen Rasch-Modell unterschieden werden?

7. Worin unterscheiden sich LatentClass-Modelle von Latent-TraitModellen? 8. Worin besteht die Grundidee linearlogistischer Modelle?

89

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

Grundlagen kriteriumsorientierter Tests

2.1.3

Kriteriumsorientierte Tests unterscheiden sich von Tests auf der Grundlage der klassischen wie der probabilistischen Testtheorie. Definition Kriteriumsorientierte Tests sind inhaltsvalide Testverfahren, die nicht die Position einer Person in Relation zu einer Vergleichsnorm, sondern das Erreichen oder Verfehlen eines konkreten Kriteriums ermitteln wollen.

Mit dieser Definition sind mehrere Aufgaben- und Problemgebiete dieser Verfahren angeschnitten, mit denen sich die folgenden Abschnitte befassen.

Probleme kriteriumsorientierter Tests: 4 die Generierung inhaltsvalider Itemmengen, 4 die Setzung sachgerechter Kriterien (Normwerte), 4 die zufallskritische Zuordnung einer Person in die Klassen der Könner oder

Probleme kriteriumsorientierter Tests

Nichtkönner.

Die Generierung inhaltsvalider Itemmengen Diese Prozedur ist innerhalb der klassischen Testtheorie nicht neu und nach Lienert (1967a) unproblematisch, wenn, wie bei Kenntnistests oder Verhaltensinventaren, die Testaufgaben selbst das bestmögliche Kriterium darstellen. Eine Sammlung derartiger Aufgaben ist logischerweise valide. Bei weniger eindeutigen Beziehungen zwischen Aufgaben und Kriterium können Experten bei der Klassifikation zu Rate gezogen werden. Am eindeutigsten bestimmbar ist die Inhaltsvalidität von Itemsammlungen, die das Universum der Kriteriumsleistungen umfassen. Diese Grundmenge ist z. B. bei einem Rechentest, der die Addition der Mengen 1-4 im Zahlenraum bis 10 überprüfen soll, vollständig zu erfassen. Ist das Universum der Kriteriumsleistungen jedoch größer, muss dafür gesorgt werden, dass die ausgewählten Aufgaben eine repräsentative Stichprobe der Grundmenge darstellen. Diese ist am leichtesten durch Zufallsauswahl zu ermitteln. Bei heterogenen Grundmengen empfiehlt sich die Aufgliederung in homogene Teilmengen, aus denen dann Zufallsstichproben zu ziehen wären. Weitere Details zur systematischen Gewinnung inhaltsvalider Itemmengen berichtet Klauer (1987).

2.1.3.1

Die Setzung sachgerechter Normen Kriterien im Sinne unserer Definition sind Normwerte, die von den zu untersuchenden Personen erreicht werden sollen. Sie können Lehrplänen entstammen, wie die Lehrziele für ein Fach einer bestimmten Klassenstufe, von Behörden festgesetzt werden, wie bei der theoretischen Führerscheinprüfung, oder als Therapieziele zwischen Klient und Therapeut vereinbart werden. Immer stellt sich die Frage nach ihrer sachlichen Rechtfertigung wie nach ihrer Realitätsangemessenheit. Sachlich gerechtfertigt erscheinen Kriterien, die nachweislich zur Erreichung nachfolgender Kriterien erforderlich sind (. Abb. 2.20). Das trifft für curriculare Normen zumindest teilweise zu, desgleichen auch für die theoretische Führerscheinprüfung, die

Testaufgaben als bestmögliches Kriterium

Testaufgaben als repräsentative Stichproben

2.1.3.2

Kriterien als Normwerte

Sachliche Rechtfertigung

90

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.20. Die Setzung einer »sachgerechten« Promille-Grenze gegen Alkohol im Straßenverkehr wird auch von der öffentlichen Meinung stark beeinflusst

Realitätsangemessenheit

notwendige Kenntnisse für das richtige Verhalten im Straßenverkehr abfragen soll. Frei vereinbarte Therapieziele erhalten ihre sachliche Rechtfertigung dagegen aus dem persönlichen Wunsch des Klienten nach Veränderung bzw. Verbesserung. Die Frage der Realitätsangemessenheit betrifft das Problem der Schwierigkeit der Anforderungen. So sind kriteriale Anforderungen, denen Schüler der Gymnasien der 50er und 60er Jahre gewachsen waren, für die heutigen Massengymnasien sicher zu hoch angesetzt und müssen nach unten korrigiert werden. Andererseits sind die Anforderungen im Straßenverkehr oder beispielsweise des Medizinerberufs heute sicher höher einzuschätzen und erfordern schärfere Prüfkriterien, sodass die Realitätsangemessenheit von Kriterien immer aufs Neue überprüft und ggf. korrigiert werden muss. Bei Therapiezielen ist es Aufgabe des Therapeuten, dafür zu sorgen, dass der Klient sich keine unrealistischen Ziele setzt, selbst wenn seine Bezugsgruppe ihm diese nahelegt. Die Ermittlung zufallskritischer Trennwerte Zur Unterscheidung erfolgreicher von nicht erfolgreichen Testpersonen bedarf es der Festsetzung von Trennwerten, die eine zufallsunabhängige Klassifikation erlauben. Grundsätzlich ist nach Klauer (1987) davon auszugehen, dass Könner praktisch keine Fehler in der prüfungsrelevanten Kriterienklasse machen. Da zufällig begangene Irrtümer aber nicht auszuschließen sind, ist eine 100%ige Trefferquote ein zu hartes Kriterium. Die sich hieraus ergebende Frage ist, wie viele Aufgaben eine Person lösen muss, um unter Berücksichtigung von Zufallseinflüssen als Könner eingestuft zu werden. Eine Lösungsmöglichkeit besteht in der Einschaltung von Experten, die den Trennwert festlegen. Ihre Erfahrung ist jedoch nur ein Ersatz für empirische Untersuchungen, die z. B. prüfen könnten, welchen Kompetenzgrad eine instruierte Gruppe gegenüber einer Kontrollgruppe erreicht. Die einfachste Lösung besteht nach Klauer (1987) darin, einen bestimmten Irrtumsgrad analog den klassischen Irrtumswahrscheinlichkeiten von 5 oder 10% zuzugestehen, sodass derjenige als kompetent gelten kann, der 95 oder 90% der gestellten Aufgaben löst. Eine solche einfache Setzung ist nicht artifizieller als die in der klassischen Testtheorie übliche, doch lässt sie die Tatsache außer acht, dass die Reliabilität eines Tests mit seiner Länge variiert. 2.1.3.3

Trennwerte zur Klassifikation

Expertenurteil vs. Irrtumsgrad

91

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

Beispiel

Angenommen, ein kriteriumsorientierter Test habe 15 Aufgaben und das Zielkriterium betrage, da 100%ige Lösungen unwahrscheinlich sind, 90%. . Tabelle 2.3. Aus den bei Klauer (1987) und Kleber (1979) abgedruckten Binomialtabellen (hier ein Ausschnitt) lässt sich für jede Lösungsmenge der zugehörige Vertrauensbereich ablesen

Anzahl

Vertrauensbereich in % bei 5% Irrtumswahrscheinlichkeit

9 10 11

32,3 – 86,7 38,4 – 88,2 44,9 – 92,2

Während bei 9 und 10 Aufgabenlösungen die oberen Vertrauensgrenzen das Zielkriterium unterschreiten, kann bei 11 Lösungen nicht mehr ausgeschlossen werden, dass der wahre Wert der Testperson bei einer Irrtumswahrscheinlichkeit von 5% nicht über dem definierten Zielkriterium von 90% liegt. Die Lösungsmenge 11 ist damit die Mindestzahl von Lösungen, die ein Könner erreicht haben sollte.

Einen Ausweg weist das von Klauer (1972) entwickelte Einfehlermodell auf der Grundlage der Binomialverteilung. Es stellt für variable Aufgabenmengen tabellierte Vertrauensgrenzen für unterschiedliche Kompetenzgrade und Irrtumswahrscheinlichkeiten bereit und ermöglicht so die Ermittlung desjenigen Trennwertes, von dem an nicht mehr ausgeschlossen werden kann, dass die getestete Person zur Gruppe der Könner gehört (. Tab. 2.3; s. a. Kleber, 1979). Die Anwendung des Binomialmodells ist jedoch an das Vorliegen bestimmter Bedingungen geknüpft. Es lässt nur binäre Ereignisse zu, fordert die stochastische Unabhängigkeit der einzelnen Aufgabenlösungen und setzt die Gleichwahrscheinlichkeit der binären Ereignisse voraus. Von diesen 3 Bedingungen ist die erste durch die Beschränkung auf richtige und falsche Antworten am leichtesten zu erfüllen. Stochastische Unabhängigkeit setzt voraus, dass die Lösungswahrscheinlichkeiten einzelner Aufgaben von denen anderer Aufgaben unabhängig sind. Sie verbietet Sequenzen aufeinander bezogener Teilaufgaben, ist aber auch durch externe Faktoren wie Ermüdung durch lange Testreihen oder Feedback auf vorausgegangene Aufgabenlösungen zu verletzen. Die 3. Bedingung erfordert entweder die Verwendung gleich schwieriger Items oder Zufallsstichproben von Items für jede einzelne Testperson (Klauer, 1987). Bei eng umgrenzten Kriterienbereichen ist es i. Allg. leichter, diese Voraussetzung zu erfüllen. Sind größere Schwierigkeitsdifferenzen nicht zu vermeiden, böte sich zumindest bei computergesteuertem Testen die Möglichkeit zur Zufallsauswahl von Testitems. Die Reliabilität von Binomialtests mit Items vergleichbarer Schwierigkeit lässt sich nach der Kuder-Richardson-Formel 21 aus der Kenntnis von Mittelwert, Streuung und Itemanzahl ermitteln (Lienert, 1989). Durch Umformung kann aus dieser Formel errechnet werden, wie viele Items ein Test haben muss, um eine vorgegebene Reliabilität zu erreichen. Anstelle der so erfassten inneren Konsistenz eines kriterienorientierten Tests ist nach Meinung verschiedener Autoren die Stabilität der Klassifikation in Könner und

Bedingungen für das Binomialmodell

Reliabilität von Binomialtests

2

92

Kapitel 2 · Grundlagen diagnostischer Verfahren

Nichtkönner der angemessenere Reliabilitätskennwert. Sie kann mittels paralleler Verfahren, durch einfache Retestung sowie mit Hilfe der Testhalbierungsmethode geprüft werden. Da Paralleltests nicht einfach zu erstellen sind und Testwiederholungen gerade im pädagogischen Bereich leicht Lern- und Erinnerungseffekte auslösen, bietet sich die Testhalbierungsmethode als das am leichtesten zu handhabende Verfahren an, zumal es nur eine Testung voraussetzt.

2

Weitere Probleme kriteriumsorientierter Tests Die bei den klassischen Methoden zur Ermittlung der Reliabilität übliche Korrelationsrechnung kann bei kriteriumsorientierten Tests dann versagen, wenn nahezu alle Personen das Kriterium erreichen und damit als Könner klassifiziert werden. Die Varianzen der Testwerte tendieren dann gegen Null und als Folge davon auch die varianzabhängigen Korrelationskoeffizienten. Dieser theoretisch mögliche und idealtypisch erwünschte Fall ist in der Praxis allerdings äußerst selten. Um ihm zu begegnen, hat Fricke (1972) einen Koeffizienten entwickelt, der die Zahl der übereinstimmenden Klassifikationen einfach in Relation zu der Zahl der Entscheidungen setzt. Kritik an Unzulänglichkeiten dieses Koeffizienten hat zur Entwicklung weiterer Verfahren geführt, über die Klauer (1987) ausführlich informiert. Auch das einfache Binomialmodell von Klauer wurde inzwischen modifiziert. Weiterentwicklungen wie das Betabinomialmodell, Latent-class-Modelle oder Item-response-Modelle sind entweder mit hohem Zeitaufwand oder anderen Nachteilen verbunden oder in ihrer Entwicklung noch nicht weit genug gediehen, so dass sie für die praktische Arbeit noch nicht in Frage kommen, wie Klauer (1987) meint. Binomialmodelle scheinen deshalb wegen ihrer einfachen Handhabbarkeit derzeit für die Praxis am besten geeignet. Der Aufwand bei der Testkonstruktion könnte nämlich ein Grund dafür sein, dass nach 20jähriger Diskussion noch kein kriteriumsorientierter Test auf dem deutschen Testmarkt ist, der nach den aktuellen Regeln der Kunst entwickelt wurde. Ein weiterer Grund hierfür könnte auch in der Enge der Kriteriumsbereiche zu suchen sein, die eine solche Vielzahl von Testentwicklungen erfordert, dass für Testverlage der Aufwand in keinem vernünftigen Verhältnis zum erwarteten Absatz steht. Für diese Interpretation spricht, dass inzwischen zahlreiche informelle kriteriumsorientierte Tests als integrale Bestandteile schulischer Unterrichtswerke existieren (Kleber, 1979), über deren Konstruktionsprinzipien jedoch wenig bekannt ist. Zugleich benutzen Lehrer immer häufiger selbst erstellte Lernzielkontrollen, die durchaus als kriteriumsorientierte Lehrzieltests einzustufen wären, wenn sie den diskutierten Konstruktionsprinzipien genügen würden. Einem großen Bedarf an derartigen Verfahren steht derzeit kein entsprechendes professionelles Angebot gegenüber. Es ist vielmehr zu befürchten, dass die steigenden theoretischen Ansprüche an die Güte kriteriumsorientierter Tests dazu führen, dass auch in Zukunft niemand die mit einer anspruchsvollen Testkonstruktion verbundenen Mühen auf sich nehmen wird. Eine Lösung dieses Problems könnte in der Bereitstellung einfacher Faustformeln und Anweisungen zur fachgerechten Erstellung kriteriumsorientierter informeller Tests bestehen, wie dies Klauer (1972) bereits versucht hat. Hier wird einem Lehrer z. B. auch mitgeteilt, wie er die Ergebnisse mehrerer lehrzielorientierter Tests nicht nur zur Lernzielkontrolle verwenden, sondern auch zur Berechnung der geforderten Benotung heranziehen kann. 2.1.3.4

Probleme kriteriumsorientierter Tests

Koeffizient übereinstimmender Klassifikation

Binomialmodelle derzeit am besten geeignet

Informelle kriteriumsorientierte Tests

Weiterführende Literatur

Eine kurze, aber gut lesbare Einführung zum Thema findet sich bei Kleber (1979). Umfangreicher sind die Arbeiten von Klauer et al. (1972) und Fricke (1974). Das Lehr-

93

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

buch von Klauer (1987) ist die differenzierteste Monographie zu diesem Thema, die auch den aktuellen Stand der Weiterentwicklungen auf statistischem Gebiet reflektiert. Übungsfragen

(zu Abschn. 2.1.3) ? 1. Wodurch unterscheiden

sich kriteriumsorientierte Tests von klassischen normorientierten Verfahren? 2. Welche Probleme ergeben sich bei der Konstruktion kriteriumsorientierter Tests? 3. Wie lässt sich das Erreichen eines Lernkriteriums zufallskritisch absichern? 4. Welche Probleme können sich bei der Ermittlung von Gütekriterien bei kriteriumsorientierten Tests ergeben?

! Ad 1. Sie wollen nicht Konstrukte oder Traits erfassen, sondern ein

konkretes Kriteriumsverhalten. Sie sind nicht konstruktvalide, sondern inhaltsvalide. Vor allem wollen sie nicht die Position einer Person in Relation zu einer Vergleichsstichprobe ermitteln, sondern in bezug auf ein konkretes Verhaltenskriterium. Ad 2. Es sind inhaltsvalide Itemmengen zu generieren, die eine repräsentative Stichprobe der Grundmenge darstellen. Ferner müssen kriteriale Normen gesetzt werden, die sachlich gerechtfertigt und realitätsangemessen sind. Ad 3. Auf der Grundlage der Binomialverteilung lässt sich mit Hilfe von Tabellen je nach gewählter Irrtumswahrscheinlichkeit für jede Itemzahl diejenige Aufgabenmenge ermitteln, die ein Könner mindestens gelöst haben muss. Ad 4. Die üblichen korrelationsstatistischen Maße versagen, wenn nahezu alle Personen das Kriterium erreichen. Die Varianzen der Testwerte tendieren dann gegen Null und als Folge davon auch die varianzabhängigen Korrelationskoeffizienten. Um diesem Problem zu begegnen, hat Fricke (1972) einen Koeffizienten entwickelt, der die Zahl der übereinstimmenden Klassifikationen in Relation zu der Zahl der Entscheidungen setzt.

94

Kapitel 2 · Grundlagen diagnostischer Verfahren

2.2

2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7

2

2.2.1

Vorliegen einer Theorie zur Beschreibung von Personen

Definition und Spezifikation des interessierenden Konstrukts

Validität der Verfahren gegenüber den Indikatoren

Konstruktionsprinzipien psychometrischer Tests Rationale Konstruktion – 94 Externale Konstruktion – 98 Induktive Konstruktion – 102 Der Prototypenansatz – 105 Weitere Ansätze – 108 Vergleichende Würdigung – 110 Grundzüge von Itemanalysen – 111 2.2.7.1 Schwierigkeit – 114 2.2.7.2 Trennschärfe – 121 2.2.7.3 Homogenität im Sinne der klassischen Testtheorie 2.2.7.4 Andere Homogenitäts-Konzepte – 130

– 128

Rationale Konstruktion

Gleichsam das »Herzstück« einer Skalenentwicklung nach der sog. rationalen oder deduktiven Methode ist das Vorliegen einer Theorie darüber, wie sich Personen beschreiben lassen und voneinander unterscheiden. So wird bei den bereits unter 7 Abschn. 1.4 erwähnten »trait-theoretischen« Ansätzen versucht, die Stabilität und Konsistenz des Verhaltens gedanklich in den übergreifenden Kategorien von Verhaltensbereitschaften und Dispositionen, also Eigenschaften, zu organisieren. Letztlich handelt es sich dabei um hypothetische Klassen oder Gruppierungen, die mit Namen wie »Intelligenz«, »Kreativität«, »Ängstlichkeit« oder »Leistungsmotivation« usw. belegt werden. Innerhalb dieser Kategorien wird je nach der Häufigkeit und/oder Intensität der beobachteten Verhaltensweisen eine quantitative Abstufung vorgenommen. Die aus dieser Skalierung resultierenden individuellen Messwerte stehen für die jeweilige Ausprägung in der hypothetischen Disposition. Die theoretischen Vorstellungen über die Breite und den Inhalt der Konstruktkategorien mögen sehr verschieden sein, was ihren Elaborations- und Differenzierungsgrad betrifft. Im einfachsten Fall wird unterstellt, dass es möglich ist, jede Eigenschaft, für die es einen Namen gibt, zu messen, d. h. einen Test dafür zu entwickeln. Ausgehend von Bezeichnungen, die geeignet sind, Persönlichkeitszüge zu beschreiben, wird üblicherweise das interessierende Konstrukt vorab näher spezifiziert und definiert. So können dabei schon »auf den zweiten Blick« bestimmte Subkategorien voneinander unterschieden werden. Beispielsweise lassen sich bei dem globalen Konstrukt »Geselligkeit« die beiden Aspekte von Kontaktbedürfnis und Kontaktfähigkeit unterschieden, um der Motivation und Fertigkeit der Aufnahme von Kontakten einerseits sowie den Gegebenheiten bei deren Aufrechterhaltung andererseits Rechnung zu tragen. Bei der definitorischen Eingrenzung des Konstruktes ist es unerlässlich, auch über die Verhaltensweisen nachzudenken, die dafür als Indikatoren in Betracht kommen. Nehmen wir an, jemand befasse sich mit dem Konstrukt »schulische Leistungsfähigkeit«. Schüler mit einer hohen Ausprägung in dieser Dimension sollten besonders gut rechnen und fehlerfrei schreiben können; darüber hinaus sollten sie sich in Geschichte und Geographie auskennen sowie die angebotenen Fremdsprachen hinreichend beherrschen usw. Für jeden dieser Teilbereiche werden, diesen Vorüberlegungen entspre-

95

2.2 · Konstruktionsprinzipien psychometrischer Tests

chend, mehrere geeignet erscheinende Aufgaben in Skalen oder Subtests zusammengestellt, deren Gesamtheit die Testbatterie für schulische Leistungsfähigkeit ergibt. Die Summe der in der verfügbaren Zeit von einem Probanden gelösten mathematischen, orthographischen, historischen und geographischen Aufgaben bilden seinen individuellen Messwert (= Score). An einer größeren Gruppe von Personen muss sodann mit Hilfe bestimmter Analysemethoden ermittelt werden, ob das Zusammenfügen zu Skalen gerechtfertigt war und ob die abgebildeten Unterschiede über die Zeit hinweg stabil oder reliabel sind und mit anderen Indikatoren für das in Frage stehende Konstrukt korrelieren (zu diesen Schritten vgl. 7 Abschn. 2.2.6). Im Falle des Schulleistungstests muss z. B. eine hinreichend hohe Korrelation mit den Schulnoten bestehen, d. h. das Verfahren muss valide gegenüber diesem Kriterium sein, um die Qualifikation als »Schulleistungstest« zu rechtfertigen. Ganz ähnlich ist das Vorgehen innerhalb des Temperaments- und Persönlichkeitsbereiches. Nehmen wir an, dort sei das Konstrukt »Hilfsbereitschaft« ins Auge gefasst worden. Gemäß den explizierten Vorstellungen gehöre dazu unterstützendes Verhalten in der Familie, gegenüber Freunden, Nachbarn und Fremden, des Weiteren die Bereitschaft, Geld oder Blut für wohltätige Zwecke usw. zu spenden. Im einfachsten Fall können direkte Fragen nach eben solchen Merkmalen formuliert und in einem entsprechenden Test aneinandergereiht werden. Aufwendiger ist es, sich nicht auf die verbale Beantwortung derartiger Fragen zu verlassen, sondern eigens Beobachtungen zu den einzelnen Aspekten anzustellen und etwa zu prüfen, wie intensiv sich jemand um die Erledigung der schulischen Hausaufgaben seiner Kinder kümmert, dem Freund bei der Reparatur seines Motorrades hilft, Blut spendet usw. Jedes dieser Einzelmerkmale mag für sich dabei durchaus auch indikativ für andere Konstrukte sein. Beispielsweise kann die Mitarbeit an den Hausaufgaben auch als Zeichen eines hohen sozialen Ehrgeizes und der Furcht vor dem Stigma eines möglichen »Sitzenbleibens« der Kinder gewertet werden, das Schrauben an der Maschine als Ausfluß technisch-handwerklicher Interessen, das Spenden von Blut als Folge der Notwendigkeit, die eigene Barschaft etwas aufzubessern usw. In der Zusammenschau der Einzelbeobachtungen dürften jedoch solche Erklärungsalternativen an Gewicht verlieren. Um dennoch sicher zu sein, dass mit den Fragen bzw. Verhaltensbeobachtungen auch das jeweils interessierende (und nicht ein völlig anderes) Konstrukt getroffen wird, bedarf es der Validierung rational entwickelter Skalen. Viele Skalen im Leistungsbereich sind nach der rationalen Methode entwickelt worden, so z. B. der Intelligenztest von Wechsler (1958) für Erwachsene (HAWIE) und auch für Kinder (HAWIK; . Abb. 2.21, zu den deutschen Adaptationen s. Tewes, 1983, bzw. Priester, 1958; zu den Details 7 Abschn. 3.1.2), die Kreativitätstests von Guilford (1976), bei deren Konzipierung das »Structure of Intellect-Modell« Pate stand, des Weiteren viele der sog. allgemeinen Leistungstests (Bartenwerfer, 1964, 1983), darunter insbesondere solche für Aufmerksamkeit und Konzentration (7 Abschn. 3.1.1) und Tests zur Prüfung psychomotorischer Fertigkeiten (z. B. Fleishman & Hempel, 1955). Aus dem Persönlichkeitsbereich im engeren Sinne zählt auch das bereits unter den historischen Meilensteinen erwähnte »Personal Data Sheet« von Woodworth (1918) (7 Abschn. 1.6) zu den nach rationalen Prinzipien konstruierten Verfahren und insbesondere die bekannte »Manifest Anxiety Scale« von Taylor (1953), Vorläufer und Vorbild vieler heute gebräuchlicher Ängstlichkeitstests. Ausgehend von einer definitorischen Bestimmung des Konstruktes sammelte die Autorin dafür zunächst einen Pool von 200 geeignet erscheinenden Items. Nur jene Fragen aber, für die innerhalb einer Gruppe von klinischen Psychologen Konsens dahingehend bestand, dass der Iteminhalt mit der Umschreibung des Konstruktes vereinbar war, bildeten die endgültige Skala.

Zusammenstellung von Skalen/Subtests zu Testbatterien

Beobachtung vs. Beantwortung

Validierung der Skalen nötig

Beispiele rational konstruierter Verfahren

2

96

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.21. Titelblatt des HAWIK-R-Protokollbogens

2

Beispiel

Nach der rationalen (oder auch deduktiven) Methode konzipierte eine Autorengruppe am Heidelberger Institut eine Skala zur Erfassung von Kohärenzsinn. Ausgangspunkt dafür war die definitorische Umschreibung von Antonovsky (1982), der »sense of coherence« bezeichnet hatte als »eine globale Orientierung, die zum Ausdruck bringt, in welchem Umfang man ein generalisiertes, überdauerndes und dynamisches Gefühl des Vertrauens besitzt, dass die eigene innere und äußere Umwelt vorhersagbar ist und dass mit großer Wahrscheinlichkeit die Dinge sich so entwickeln werden, wie man es vernünftigerweise erwarten kann« (Übersetzung von Becker, 1982, S. 10). Darüber hinaus standen Exzerpte aus den Arbeiten von Antonovsky zu diesem Konstrukt zur Verfügung. Vier Experten formulierten zunächst unabhängig voneinander, später in einem Diskussionsprozess 26 Items, die schließlich 200 Personen zur Beantwortung vorgegeben wurden. Die Resultate sind in . Tab. 2.4 wiedergegeben. 6

2

97

2.2 · Konstruktionsprinzipien psychometrischer Tests

. Tabelle 2.4. 26 Items zum Kohärenzsinn. Die fett gedruckten Items wurden aufgrund unbefriedigender Koeffizienten (rit1,0 beträgt (z. B. für P = 50: 1,253; für P = 99: 3,733), resultieren bei gleichem Material höhere Koeffizienten, wenn man anstelle von rpbis den biserialen Koeffizienten errechnet. Mitunter liegen Konstellationen vor, in denen auch das Kriterium eine echt-alternative oder dichotome Datenqualität aufweist, was ggf. die Benutzung eines PunktVierfelder- bzw. tetrachorischen Korrelationskoeffizienten notwendig macht. Diese

123

2.2 · Konstruktionsprinzipien psychometrischer Tests

Fälle gehören jedoch vorwiegend in den Bereich der Itemauswahl nach der externalen Methode und somit zur Bestimmung der Itemvalidität, weshalb hier nicht näher auf sie eingegangen werden soll. . Tabelle 2.7 gibt die Datenmatrix für 8 Items einer Optimismusskala wieder, die von 8 Personen auf 5fach abgestuften Skalen beantwortet wurden. Bei den Resultaten handelt es sich um eine Zufallsauswahl aus der mehr als 3000 Probanden umfassenden Studie von Schmidt-Rathjens et al. (1997). Im Falle der biserialen Korrelation erfolgte die Dichotomisierung am Median der jeweiligen Itembeantwortung. Für die Berechnung der punkt-biserialen Koeffizienten wurde »so getan, als ob« es sich um echt-alternative Klassen handele (. Tab. 2.8). Gleichfalls nur erwähnt werden sollen die Begriffe der konvergenten und diskriminanten Trennschärfe, mit denen die Korrelationen mit dem Summenscore bzw. demjenigen einer anderen Skala bezeichnet werden. Im Regelfall wird man im Sinne der Konvergenz eher hohe und für die Diskriminanz eher niedrige Koeffizienten anstreben, mit einer möglichst großen numerischen Differenz zwischen den jeweiligen Werten. Wird darauf nicht in ausreichendem Maße geachtet, korrelieren Items einer Skala möglicherweise stärker mit dem Gesamtpunktwert anderer Skalen, was zumindest die Frage einer richtigen Zuordnung der Items zu den Skalen aufwirft. Bei früheren Formen des 16 PF-Fragebogentests war das häufiger zu beobachten (s. Greif, 1970). Mit Hilfe der Faktorenanalyse auf Itembasis lassen sich simultan beide Kriterien erreichen, d. h. einerseits eine ordentliche Homogenität innerhalb der Skalen bei deren gleichzeitiger relativer Unabhängigkeit voneinander. In den geschilderten Berechnungsmodalitäten geht jede Itembeantwortung je einmal in die beiden miteinander korrelierten Messwertreihen ein: Auf seiten des Items als originales Datum, auf seiten des Skalenscores als Summand, der beiträgt. Infolge der damit gegebenen algebraischen Abhängigkeit (die Korrelation ist partiell auch Beispiel . Tabelle 2.7. Antworten von 8 Probanden zu den 8 Optimismusitems aus dem Life Orientation Test (LOT) von Scheier und Carver (1985)

Pbn

Item 1

Item 2

Item 3

Item 4

Item 5

Item 6

Item 7

Item 8

Mittelwert

1 2 3 4 5 6 7 8

4 4 2 3 4 1 2 4

3 4 2 2 3 2 2 2

3 3 1 3 1 2 1 1

4 2 1 1 3 2 4 4

3 2 1 4 2 3 2 1

1 3 1 1 3 2 2 4

4 2 2 4 3 2 1 1

4 2 1 2 2 4 4 4

3.250 2.750 1.375 2.500 2.625 2.250 2.250 2.625

1. 2. 3. 4. 5. 6. 7. 8.

In unsicheren Zeiten erwarte ich gewöhnlich das Beste. Wenn etwas bei mir schiefgehen kann, so geht es auch schief. (umpolen) Ich betrachte die Dinge immer von ihrer guten Seite. Ich blicke immer optimistisch in die Zukunft. Ich erwarte fast nie, dass alles nach meinem Wunsch verläuft. (umpolen) Die Dinge nehmen nie ihren Verlauf so, wie ich es mir wünschte. (umpolen) Ich glaube an das Sprichwort: »Auf Regen folgt Sonnenschein.« Ich rechne fast nie damit, dass mir Gutes widerfährt. (umpolen)

Konvergente und diskriminante Trennschärfe

Faktorenanalyse zur besseren Zuordnung der Items

2

124

Kapitel 2 · Grundlagen diagnostischer Verfahren

Beispiel . Tabelle 2.8. Trennschärfekoeffizienten für die Daten in . Tab. 2.7, ermittelt nach 2 verschiedenen Korrelationsberechnungen

2

Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8

Part-whole-Korrektur

Biseriale Koeffizienten

Punkt-biseriale Koeffizienten

1.05 .79 .71 .61 .40 .40 .64 .37

.61 .53 .41 .21 .13 .10 .30 .00

eine Korrelation der Variablen mit sich selbst) sind die erhaltenen Koeffizienten überhöht gegenüber einer Berechnungsart, in der diese partielle Identität mit Hilfe der sog. Teil-Ganzheit-(Part-whole-)Korrektur bereinigt wird. Das Prinzip der Aufhebung besteht darin, den Skalenscore jeweils um den Beitrag desjenigen Items zu bereinigen oder zu eliminieren, dessen Trennschärfe zu ermitteln ist. Dafür liegen gesonderte Formeln vor (s. McNemar, 1962, S. 139), auf deren Anwendung üblicherweise bei größeren Datenmengen zurückgegriffen wird. Hier genügt es, die Grundzüge an einem Beispiel zu veranschaulichen (. Tab. 2.9). ! Generell wirkt sich der Einfluss der Part-whole-Korrektur um so geringer aus, 5 je größer die Zahl von Items ist (weil mit zunehmender Länge einer Skala der Beitrag jedes einzelnen Items relativ geringer wird), 5 je homogener die Skala ist (weil in homogenen Skalen die übrigen Items weitgehend ähnliches erfassen und es deshalb auf den Beitrag eines bestimmten Items weniger stark ankommt).

Beispiel

An einer Zufallsstichprobe von N = 8 Probanden wurden die 8 Items aus dem StateTrait-Ärgerausdrucks-Inventar (STAXI) von Schwenkmezger et al. (1992) zur Erfassung von Anger In (AI), also der Tendenz, Ärger in sich hineinzufressen, hinsichtlich ihrer Trennschärfe analysiert. Die Items lauten wie folgt: 1. Ich fresse Dinge in mich hinein. 2. Ich koche innerlich, zeige es aber nicht. 3. Ich empfinde Groll, rede aber mit niemandem darüber. 4. Ich bin ärgerlicher, als ich es zugeben möchte. 5. Ich bin weit mehr erzürnt, als andere es wahrnehmen. 6. Ich könnte platzen, aber ich lasse es niemanden merken. 7. Ich ziehe mich von anderen Menschen zurück. 8. Ich bin ärgerlicher, als ich es mir anmerken lasse. 6

125

2.2 · Konstruktionsprinzipien psychometrischer Tests

. Tabelle 2.9. Die 8 Items der AI-Skala (8 Pbn), individuelle Skalenscores, Part-whole-Korrelationen r(t-i) und Korrelationen r, bei denen das Item im Gesamtwert noch enthalten ist

Items

Skalenscore

Pbn

1

2

3

4

5

6

7

8

1 2 3 4 5 6 7 8 r(t-i) r

4 4 2 3 4 1 2 2 .61 .77

3 4 2 2 3 2 2 2 .81 .87

2 3 1 2 1 2 1 1 .47 .60

2 2 1 1 3 2 1 1 .77 .83

3 2 1 1 2 3 2 1 .52 .66

1 2 1 1 3 2 2 2 .13 .29

4 2 2 2 2 2 1 1 .47 .63

2 2 1 2 2 2 2 2 .42 .49

21 21 11 14 20 16 13 12

An einer Stichprobe von N = 1.216 Personen aus der Erhebung von Schmidt-Rathjens et al. (1994) ergaben sich die folgenden Koeffizienten:

Items

r(t-i) r

1

2

3

4

5

6

7

8

.55 .69

.59 .71

.56 .68

.52 .64

.59 .71

.52 .65

.37 .53

.56 .67

Wie aus dem Vergleich von r(t-1) und r ersichtlich ist, liegen die Part-whole-Koeffizienten erwartungsgemäß bei allen Items niedriger als die nichtkorrigierten Werte. Die Differenzen sind auch bei der wesentlich größeren Personenstichprobe in etwa dieselben.

Wie die oben angeführten Daten der Optimismusskala zeigen, weisen hier die Effekte der Teil-Ganzheits-Korrektur nur ein vergleichsweise geringes Ausmaß auf. Auch wenn der Arbeitsaufwand von daher mitunter in keinem vernünftigen Verhältnis zum Erkenntnisgewinn zu stehen scheint, sollte doch aus grundsätzlichen Erwägungen heraus stets auf der Part-whole-Korrektur bestanden werden. Implikationen

Sieht man einmal von den Extremwerten P = 0 und P = 100 ab, wo mangels Streuung in den Aufgabenbeantwortungen eine Korrelation nicht bestimmbar ist, so ermöglichen in den anderen Fällen alle Werte von P die maximale Trennschärfe von rit = 1.0. Das gilt nicht nur für kontinuierliche, sondern auch für binär abgestufte Itembeantwortungen. Unabdingbare Voraussetzungen sind im letzteren Fall allerdings, dass nicht nur die vom Item vorgenommene Trennung mit derjenigen der Gesamtskala übereinstimmt, sondern auch der Phi-Koeffizient benutzt wird und für die Berechnung des Zusammenhanges die Aufteilung der Probandenstichprobe gemäß der Schwierigkeit des jeweiligen Items vorgenommen wird (z. B. bei P = 10 in zwei Gruppen von 10% mit höheren und 90% mit niedrigeren Testleistungen; s. Moosbrugger & Zistler, 1993). Dieses sei veranschaulicht für den Fall, dass ein Item P = 10 mit dem Gesamttestwert korreliert, der (ebenfalls) eine Aufteilung von 10:90 (Löser zu NichtLöser) aufweist:

2

126

Kapitel 2 · Grundlagen diagnostischer Verfahren

Gesamttest

2

+ –

Item + 10 10

Empirischer Zusammenhang von Trennschärfe und Schwierigkeit

Höhe der Trennschärfewerte bei hoher Homogenität

. Abb. 2.29. Der Zusammenhang zwischen Grundquote und Korrelationskoeffizient bei sich nicht überlappenden Verteilungen der Testwerte von 2 Gruppen. (Aus Hollmann, 1993, S. 39)

– 90 90

10 90 100

Auch bei extremer Schiefe der beiden Randverteilungen ist also eine perfekte Korrelation möglich. Empirisch stellt sich jedoch meist eine umgekehrt u-förmige Beziehung in dem Sinne dar, dass mit sehr niedrigen und sehr hohen Schwierigkeiten eher mäßige, mit mittleren Werten von P eher hohe Trennschärfen einhergehen. Einer der Gründe dafür mag in methodischen Limitierungen zu suchen sein: Für die Berechnung der Trennschärfen binär gestufter Items wurde häufig der punkt-biseriale Koeffizient herangezogen, und die Trennung der Stichprobe erfolgte am Median. In solchen Fällen ist der Maximalwert von 1.0 im Regelfall selbst dann nicht mehr erreichbar, wenn der Testwert eine perfekte Trennung der beiden Gruppen von Itembeantwortungen leistet. Hollmann (1993) hat dazu Modellrechnungen durchgeführt und für den Spezialfall einer Gleichverteilung (jeder Testwert von 1 bis 100 trat nur einmal auf) gezeigt, dass die Trennschärfe maximal den Wert rit = 0.866 erreichen kann (. Abb. 2.29). Je nach dem Verhältnis der Varianzen innerhalb und zwischen den Gruppen resultieren andere Obergrenzen. Von erheblichem Belang für die Höhe der Trennschärfe sind vor allem die Interkorrelationen eines Items mit den übrigen Aufgaben. Nur wenn die anderen Items das gleiche messen wie das jeweils betrachtete Item, also bei hohen Interkorrelationen und damit einer hohen Homogenität, sind auch eher hohe Trennschärfenindizes möglich. Eine Interkorrelation zwischen den Items, etwa in der Nähe von rj = 1,0 oder nur wenig darunter, setzt aber exakt gleiche Schwierigkeiten voraus, denn wenn ein Item häufiger gelöst wird als ein anderes, ist eine derart hohe Interkorrelation nicht möglich. Mit anderen Worten führt bereits die Variation von Schwierigkeitskoeffizienten zwischen den Items einer Skala zu einer Reduktion der Interkorrelationen und damit zu Einbußen an Homogenität bzw. zu einem Gewinn an Heterogenität. Als Produkt mit der Streuung [7 (2.67)] bildet der Trennschärfenindex den sog. Stabilitätsindex:

127

2.2 · Konstruktionsprinzipien psychometrischer Tests

SI = rit ⋅ si

2

(2.72)

SI = Stabilitätsindex, rit = Trennschärfe, si = Standardabweichung der Aufgabe. Wie leicht zu erkennen ist, erreicht der Stabilitätsindex ein Maximum, wenn sowohl die Trennschärfe als auch die Aufgabenstreuung ihrerseits maximal sind, d. h. unter den Bedingungen rit = 1,0 und si = 0,5 resultiert ein Wert für SI = 0,5. (Um diesen Wert in Analogie zu einem Korrelationskoeffizienten zu setzen, bedarf es der Multiplikation mit dem Faktor 2.) Wie schon bei der Erörterung des Schwierigkeitskoeffizienten dargelegt wurde, sind P-Werte um 50 für die Differenzierung von großer Bedeutung; allerdings tragen sie nichts zur Stabilität des Items – und mittelbar zu jener der Skala – bei, wenn nicht zugleich das Item trennscharf ist, also die Differenzierung des Items mit jener aus dem Mittel der übrigen Items im großen und ganzen übereinstimmt. Andererseits leistet jedoch auch ein Item mit hoher Trennschärfe, aber extremer Schwierigkeit keinen substantiellen Beitrag zur Gesamtstabilität des Tests, weil dann der Zugewinn an Differenzierung (und das bedeutet letztlich: Streuung der Skalenscores) nur minimal ist. Auch in einem ganz anderen Maße erfolgt die simultane Berücksichtigung von Trennschärfe und Aufgabenstreuung, nämlich in Form des sog. »Selektionskennwertes« (Lienert, 1989, S. 141 ff.), bei dem Trennschärfe und (doppelte) Aufgabenstreuung ins Verhältnis gesetzt werden: Sel =

rit 2 ⋅ si

Maximale Stabilität bei maximaler Trennschärfe und maximaler Aufgabenstreuung

Selektionskennwert

(2.73)

Sel = Selektionskennwert. Diese Formel ist entwickelt worden, um eine Orientierungshilfe bei der Selektion ungeeigneter Aufgaben bei homogenen Niveautests zu haben. Gewöhnlich sind Tests einer solchen Provenienz durch konfligierende Ziele gekennzeichnet: Einerseits sollen die Items hoch trennscharf sein, andererseits die Schwierigkeitsgrade möglichst weit streuen, damit (auch in den Randbereichen) eine möglichst gute Differenzierung gewährleistet ist und viele Merkmalsabstufungen auftreten. ! Bei der Auswahl von Items für die Testendform gehen die Vorgaben deshalb gewöhnlich dahin, 5 Items mit niedriger Trennschärfe auszuscheiden, selbst wenn ihre Schwierigkeit optimal ist, also im Mittelbereich liegt, und umgekehrt 5 Items mit hoher Trennschärfe zu behalten, selbst wenn sie extrem schwierig oder leicht sind.

Das Prinzip von Sel besteht nun darin, dass bei niedrigen Werten von Sel die betreffenden Items ausgeschieden werden, ohne dass dabei die Gefahr besteht, auf diesem Wege zuviele Items mit extremer Schwierigkeit zu verlieren. Da die Trennschärfe im Zähler des Quotienten steht, wächst Sel mit steigender Trennschärfe, legt also unter sonst gleichen Voraussetzungen (d. h. bei Konstanz des Schwierigkeitsgrades) eine Auswahl zugunsten der trennschärferen Items nahe. Was hingegen die Aufgabenstreuung angeht, so ist diese, wie oben bereits dargelegt, bei

Auswahl von Items für die Testendform

Verhältnis von Selektionskennwert, Trennschärfe und Aufgabenstreuung

128

Kapitel 2 · Grundlagen diagnostischer Verfahren

mittleren Schwierigkeitsgraden hoch. Sie bewirkt, da sie im Nenner steht, unter diesen Gegebenheiten (also P zwischen 40 und 60) eine Minderung des Quotienten oder umgekehrt: Extreme (hoch oder niedrige) Schwierigkeiten führen zu hohen Werten von Sel, d. h. Items mit extremen Schwierigkeiten haben eine größere Chance, nach Maßgabe des Selektionskennwertes ausgewählt zu werden als solche mittlerer Schwierigkeit.

2

Beispiel

Fall A: Trennschärfe variiert, Schwierigkeit konstant (hier: P = 50): Item 1: rit1 = .60, Item 2: rit2 = .40, .60 = .60 , 2 .50 ⋅ .50 .40 = = .40. 2 .50 ⋅ .50

Sel′1 = Sel′2

Fall B: Trennschärfe konstant (hier: rit = .50), Schwierigkeit variiert: Item 3: P = 80, Item 4: P = 50, .50 = .63. 2 .80 ⋅ .20 .50 = = .50. 2 .50 ⋅ .50

Sel′3 = Sel′4

Im Fall A würde der Selektionskennwert nahelegen, eher Item 1 als Item 2 in die Endform des Tests zu übernehmen, im Fall B eher Item 3 als Item 4.

Ungeachtet der geschilderten Regeln mag es im konkreten Einzelfall auf die spezifischen Intentionen der Testkonstruktion ankommen, nach welchen Gesichtspunkten Aufgaben ausgewählt werden. So könnte es wichtig sein, bestimmte Items wegen der darin enthaltenen Thematik (also inhaltlicher und nicht formaler Kriterien) zusätzlich aufzunehmen, oder im Hinblick auf das zu erwartende Fertigkeitsniveau der Probanden eine für die spezifische Gruppe mittlere Schwierigkeit anzustreben usw. Welche Gegebenheiten auch immer vorliegen: Obwohl der Selektionskennwert eine objektive Auswahlentscheidung nahelegt, würde es sich doch empfehlen, jeweils auch auf die darin enthaltenen einzelnen Komponenten, also Trennschärfe und Schwierigkeit, gesondert zu achten. Homogenität im Sinne der klassischen Testtheorie Bei der Homogenität handelt es sich um ein Kriterium, das im Unterschied zur Schwierigkeit und weniger noch als die Trennschärfe nur auf ein bestimmtes Item angewendet werden kann. Vielmehr erfolgt hier ein Bezug auf die Gegebenheiten auch bei anderen Items, so dass es meist auf dasselbe hinausläuft, von Homogenität der Items bzw. von Homogenität einer Skala zu sprechen. Gemeint ist hiermit das Ausmaß von formaler und inhaltlicher Einheitlichkeit. Sofern der Itemtypus gleich bleibt und dessen Inhalt offenkundig ein- und demselben Aspekt einer Merkmalsdimension gilt, sind die Items (und damit die Skala, die sie konstituieren) homogen (. Abb. 2.30). 2.2.7.3

Homogenität als Ausmaß formaler und inhaltlicher Einheitlichkeit

129

2.2 · Konstruktionsprinzipien psychometrischer Tests

2

. Abb. 2.30. Items z. B. zur Wahrnehmungsgeschwindigkeit (Perceptual Speed) – hier: Untertest »Beobachtung« aus dem Wilde-Intelligenz-Test (WIT) – sind in der Regel homogen

Das ist der Fall bei Konzentrationstests wie dem d2 von Brickenkamp (1981) oder dem Konzentrations-Leistungs-Test (KLT) von Düker und Lienert (1965), des Weiteren auch bei Verfahren zur Erfassung spezieller Aspekte der Intelligenz, wie beispielsweise dem Figure-Reasoning-Test (FRT) von Daniels (1967), allen Rechen-, Analogie- und räumlichen Vorstellungstests usw. Im Persönlichkeitsbereich zählen dazu Skalen zur Erfassung von Gewohnheiten oder solche auf dem Niveau von primären Traits. Mit homogenen Skalen lassen sich nur eng umschriebene Merkmalsaspekte erfassen, eben weil die Items mehr oder weniger immer dasselbe messen. Umgekehrt steht der Begriff Heterogenität für formative und inhaltliche Vielgestaltigkeit der Items. In einem solchen Fall ist intendiert, durch Variation der Itembeschaffenheit (z. B. Ergänzungs- oder Mehrfachwahlaufgaben) und/oder inhaltlicher Bereiche (z. B. verbale und arithmetische Fragen) ein möglichst breites Spektrum von Verhaltensmanifestationen abzudecken. Entsprechend dienen solche Verfahren der Erfassung eher globaler Dimensionen wie der Allgemeinen Intelligenz, beispielsweise mit

Beispiele homogener Skalen

Heterogene Verfahren zur Erfassung globaler Dimensionen Beispiele heterogener Verfahren

130

Kapitel 2 · Grundlagen diagnostischer Verfahren

2 Skalenkonstruktion und Ausmaß der Homogenität

Operationalisierung der Homogenität

Hilfe der Systeme von Binet oder Wechsler. Aus dem Temperamentsbereich zählen alle Fragebogen zu den sekundären Traits oder auch »types« zu dieser Kategorie, darunter z. B. auch das Eysenck-Personality-Inventory (EPI; Eysenck 1970) zur Erfassung der Dimensionen Extraversion, Neurotizismus und Psychotizismus, des Weiteren auch die Sekundärfaktoren Maskulinität und Extraversion/Introversion innerhalb des Freiburger Persönlichkeitsinventares (FPI) von Fahrenberg et al. (1989). Eine hohe Homogenität resultiert zwangsläufig aus der induktiven Skalenkonstruktion. Das geschieht besonders dann, wenn dabei auch Faktorenanalysen herangezogen und damit »faktorreine« Dimensionen generiert wurden, d. h. solche, die nicht nur in sich homogen, sondern auch wechselweise voneinander unabhängig sind. Meist führt auch die Entwicklung nach deduktiven Prinzipien zu homogenen Skalen. Hingegen entstehen bei der Anwendung der externalen Strategie eher heterogene Tests. Auf die spezifischen Eigenschaften der aus diesen unterschiedlichen Methoden erwachsenen Skalen ist bereits an anderer Stelle eingegangen worden (7 Abschn. 2.2.6). Was die Operationalisierung von Homogenität vs. Heterogenität angeht, so sind dafür verschiedene Maße vorgeschlagen worden. Dem Duktus der bisherigen Ausführungen entspricht am ehesten eine quantitative Fassung im Sinne der korrelativen Übereinstimmung eines Items mit den anderen Items der Skala, z. B. als Mittelwert der Korrelationen eines Items mit allen anderen Aufgaben der Skala. Entsprechend bemisst sich die Homogenität der Skala als Mittelwert aus den einzelnen (gemittelten) Korrelationen. . Tabelle 2.10 gibt dafür ein Beispiel. Andere Homogenitäts-Konzepte Über korrelative Definitionen der Homogenität hinaus führt das Konzept von Guttman (1950). Diesem zufolge sind Skalen dann homogen, wenn jene Probanden, die 2.2.7.4

Homogenitätskonzept von Guttman

. Tabelle 2.10. Interkorrelationen zwischen den 8 Items der schon in . Tab. 2.7 erwähnten Optimismusskala. Oberhalb der Diagonalen die Werte für männliche Probanden (N zwischen 2.435 und 2.444), unterhalb der Diagonalen die Werte für weibliche Probanden (N zwischen 2.633 und 2.659). In der letzten Spalte bzw. Zeile die Mittelwerte der Interkorrelationen (Mittelwerte nach Fishers Z-Standardisierung)

Items

1

2

3

1

1.00

–0.9

2

–.02

3

4

5

6

7

8

Mittelwert

.23

.26

–.02

–.10

.15

–.02

.06

1.00

.02

.08

.12

.34

–.03

.29

.11

.27

.08

1.00

.53

–.04

.01

.26

.05

.16

4

.25

.13

.59

1.00

.01

.09

.26

.13

.21

5

–.01

.14

–.06

–.03

1.00

.20

–.03

.17

.06

6

–.03

.32

.06

–.12

.19

1.00

.01

.35

.13

7

.21

–.03

.32

.34

–.03

–.02

1.00

.05

.10

8

–.01

.29

.16

.22

.20

.38

.11

1.00

.15

.10

.14

.22

.25

.06

.16

.17

.20

Mittelwert

.12 .16

131

2.2 · Konstruktionsprinzipien psychometrischer Tests

. Tabelle 2.11. Typen von Antworten, die bei einer Befragung von N = 1000 Unteroffizieren nach ihrer Einstellung zum Heer aufgetreten sind

Items

Pbn

1

2

3

4

5

6

7

8

1. Glauben Sie, dass das Heer im allgemeinen gut organisiert ist? (gut = +)

+

+

+



+







2. Glauben Sie, dass Sie nach Ihrer Entlassung eine freundliche oder eine unfreundliche Einstellung zum Heer mit sich nehmen werden? (freundlich = +)

+

+







+

+



3. Glauben Sie, dass das Heer sich nach besten Kräften um das Wohlergehen seiner Angehörigen bemüht hat? (ja = +)

+







+

+



+

Summe X

3

2

1

0

2

2

1

1

ein Item bestimmter Schwierigkeit lösen, auch alle Items geringerer (»darunterliegender«) Schwierigkeit meistern. Das schwerste noch gelöste Item kennzeichnet demgemäß die individuelle Leistungsfähigkeit. Da diese Leistung hinreicht, um das betreffende Item zu schaffen, muss sie (»erst recht«) genügen, um alle leichteren ebenfalls zu lösen. Derartige Erwägungen sind auch übertragbar auf den Bereich der Einstellungsmessung, aus dem zur Explikation der maßgeblichen Prinzipien die Daten in . Tab. 2.11 stammen. Wiedergegeben sind die Antworten von 1000 Unteroffizieren, die gegen Ende des Zweiten Weltkrieges nach ihrer Einstellung zum Heer befragt wurden. Aus den Zeilensummen geht hervor, dass Äußerung 3, die eine am meisten positive Einstellung thematisiert, am wenigsten häufig bestätigt wurde, gefolgt von 2, die ihrerseits etwas positiver ist als 1. Angesichts einer derartigen Abstufung darf erwartet werden, dass alle Probanden, die 3 akzeptieren, auch 2 und 1 bejahen, und alle Probanden, die der Einstellung 2 zustimmen, dieses auch bei 1 so tun. Von daher wären nur die 4 »reinen« Antworttypen mit den Ziffern 1 bis 4 in der Tabelle zu gewärtigen, für die in der Zusammenschau ein Dreiecksmuster der Beantwortungen charakteristisch ist. In der Tat folgt ein sehr großer Teil der Probanden (nämlich N = 808 oder 80,8%) dieser Erwartungsregel. Für diese Gruppe ist die fragliche Skala im strengen Sinne homogen. Die restlichen Befragungspersonen haben offenkundig bei der Beantwortung der einzelnen Items noch andere Gesichtspunkte herangezogen und somit den »Reproduzierbarkeitskoeffizienten« von 0,808 unter jene Grenze von 0,9 gedrückt, die von Guttman (1950) als Minimum für eine Qualifizierung von Skalen im Sinne von »homogen« definiert wurde. Hinter der überzeugenden Logik dieses Ansatzes bleibt leider der empirische Ertrag sehr weit zurück. Nur im Einstellungsbereich ist es gelungen, etwa für Ethnozentrismus und für soziale Distanz gegenüber spezifischen Minoritäten hinreichend homogene Skalen zu konzipieren. Hingegen fehlen vergleichbare Instrumente im Leistungsbereich fast vollständig. Die Darlegung der Guttman-Prinzipien erleichtert das Verständnis für den Ansatz und die Schätzformel von Loevinger (1947) zur Bestimmung von Homogenität:

Bisher nur wenige Guttman-homogene Skalen konzipiert

2

132

Kapitel 2 · Grundlagen diagnostischer Verfahren

Ht =

2

N (∑X 2 −∑X) + ∑Ni 2 − (∑X)2 2 N (∑Ni − ∑X ) + ∑Ni 2 − (∑X)2

(2.74)

N = Anzahl der Probanden, X = Rohwert eines Probanden, i = Schwierigkeitsrangplatz einer Aufgabe. (Von den insgesamt n Aufgaben erhält die leichteste den Rangplatz 1, die schwierigste den Rangplatz n), Ni = Anzahl der Probanden, die die Aufgabe mit dem Rangplatz i richtig beantwortet haben.

Varianzanteile und Homogenität

Diese Konzeption ist strenggenommen nur für reine Niveautests sinnvoll. Es wird davon ausgegangen, dass es bei völlig homogenen Tests nicht vorkommen darf, dass von einem oder mehreren Probanden eine schwere Aufgabe gelöst wird, leichtere aber nicht gelöst werden können. Eine Ausnahme ist dann möglich, wenn zufällige Fehler vorliegen oder es sich um Heterogenität handelt. Das heißt, die Aufgaben unterscheiden sich nicht nur hinsichtlich ihrer Schwierigkeit, sondern auch in Bezug auf dasjenige, was sie erfassen. Konzeptuell soll diese Schätzung der Homogenität folgende Varianzanteile erfassen: Ht =

Vx - Vhet . Vhom - Vhet

(2.75)

Vx = Varianz der Testwerte, Vhet ; Vhom= Varianz eines vollkommen heterogenen bzw. homogenen Tests mit gleicher Verteilung der Aufgabenschwierigkeiten. Beispiel

Obwohl primär für Leistungstests gedacht, ist der Ansatz auch anwendbar auf den Bereich sozialer Einstellungen. Für den Fall der oben bereits geschilderten Befragung von Soldaten ergibt sich folgende Matrix (. Tab. 2.12) . Tabelle 2.12. Matrix der Antworten von N=1000 Soldaten. (Vergl. zum Inhalt der Items . Tab. 2.11.) Aufgetretene Antworttypen

Item

1

2

3

4

5

6

7

8

Ni

Ni2

1 2 3

+ + +

+ + –

+ – –

– – –

+ – +

– + +

– + –

– – +

641 374 254

410881 139876 64516

641 748 762

615273

2151

X X2 Anzahl X·A X2 · A

3 9

2 4

1 1

0 0

2 4

2 4

1 1

1 1

130 390 1170

165 330 660

259 259 259

254 0 0

87 174 348

11 22 44

68 68 68

26 26 26

iNi

1000 1269 2575

Anzahl = Häufigkeit, mit der jeder der Antworttypen aufgetreten ist. X = Rohwert (als die Summe der Bejahungen). Ht = 1000(2575 – 1269) + 615273 – 12692/2000(2151 – 1269) + 615273 – 12692 = 0.404. Die aus der Tabelle entnommenen Summenwerte, in die Formel eingesetzt, ergeben einen Homogenitätsindex von Ht = 0.404.

133

2.2 · Konstruktionsprinzipien psychometrischer Tests

Ausgangspunkt dafür ist die Überlegung, dass homogene Tests stets höhere Varianzen aufweisen als heterogene. Das geschieht deshalb, weil bei der Addition der Varianzkomponenten infolge der eher hohen Interkorrelationen zwischen den homogenen Items zusätzlich zu den Varianzen der einzelnen Items noch größere Kovarianzterme hinzukommen, eben diese aber bei heterogenen Tests fehlen bzw. sehr viel niedriger ausfallen (7 Abschn. 2.1.1). Eine weitere bedeutende Definition erfährt die Homogenität im Rahmen des RaschModells (7 Abschn. 2.1.2): Die gegenüber dem Guttman-Modell wesentlich realitätsnäheren Modellannahmen erlauben die Anwendung spezieller Modelltests, mit deren Hilfe eine empirisch belegbare Antwort auf die Frage gegeben werden kann, ob und welche Testitems als Indikatoren des zu untersuchenden latenten Traits (Disposition, Einstellung oder Fähigkeit) aufgefasst werden können. Beispiele für gelungene Testkonstruktionen nach dem Rasch-Modell finden sich in 7 Abschn. 2.1.2.

2

Homogene Tests haben höhere Varianzen als heterogene

Homogenität nach dem Rasch-Modell

Übungsfragen

(zu Abschnitt 2.2) ? 1. Erläutern Sie die Grundzüge der 4 wesentlichen Konstruktionsprinzipien psychologischer Testverfahren (rationale, externale, induktive und prototypische Methode).

! Ad 1. Ausgangspunkt der »rationalen« Skalenkonstruktion ist das Vor-

liegen einer Theorie darüber, wie sich Personen hinsichtlich bestimmter Merkmale (z. B. »Geselligkeit« oder »Ängstlichkeit«) beschreiben und unterscheiden lassen. Ausgehend von Bezeichnungen, die geeignet sind, Persönlichkeitszüge zu beschreiben, wird zunächst das Konstrukt näher definiert und spezifiziert (»Geselligkeit« wird etwa spezifiziert in die Subgruppen »Kontaktfähigkeit« und »Kontaktbedürfnis«). Für jeden Bereich werden sodann Items in Form von Aufgaben oder Fragen nach möglichen Verhaltensweisen zu Skalen oder Subtests zusammengestellt, die dafür als Indikatoren in Betracht kommen. Ansatzpunktder»externalen«oderkriteriumsbezogenenSkalenkonstruktion ist das Vorliegen verschiedener Gruppen von Personen als Teil der sozialen Realität. Den Mitgliedern der Gruppen wird eine möglichst große und inhaltlich breit gefächerte Zahl von Items zur Beantwortung vorgelegt, in der Erwartung, dass sich darunter einige befinden, die zwischen den Gruppen empirisch diskriminieren, also eine unterschiedliche Lösungswahrscheinlichkeit zeigen. Diese Items werden sodann selegiert und zu Skalen zusammengestellt, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination einer Kreuzvalidierung an weiteren Personen standhält. Die »induktive« Methode stützt sich auf die Korrelationsrechnung. Die Orientierung erfolgt also weder an einer bestimmten Theorie noch an einer vorfindbaren Personengruppe: die Items werden vielmehr »blindanalytisch« zu Skalen gruppiert, die miteinander hoch korrelieren und damit eine gemeinsame Dimension konstituieren. Bei der Konstruktion umfangreicher Testsysteme wird das Ziel insofern erweitert, als zur Forderung nach hohen Korrelationen innerhalb einer Skala noch diejenige nach niedrigen Korrelationen mit den Items anderer Skalen hinzukommt. Gewöhnlich werden diese Teilziele simultan durch die Anwendung faktorenanalytischer Techniken erreicht. Der »Prototypenansatz« hat als Ausgangsbasis die Feststellung, dass die Objekte der Umwelt von uns in verschieden breiten Kategorien gruppiert

134

Kapitel 2 · Grundlagen diagnostischer Verfahren

2

2. Wie wirkt sich das Konstruktionsprinzip des Testverfahrens/der Skala auf die Homogenität aus?

3. Wozu dienen die Begriffe »Schwierigkeit« und »Trennschärfe« und wie werden sie definiert?

4. Was versteht man unter einer Part-whole-Korrektur und wozu dient sie?

5. Wann muss der Schwierigkeitsindex einer Zufallskorrektur unterzogen werden? Um welchen Anteil wird dabei korrigiert?

werden. Innerhalb der Kategorie gibt es Objekte, die das Gemeinsame der Klasse in besonderer Klarheit darstellen. Gesucht wird also nach der »Zentralität« eines Objektes bezogen auf eine Kategorie. Beispiel für die Methode ist der »Act Frequency Approach« von Buss und Craik (1980). Zunächst sollen Probanden bei diesem Ansatz in einer Generierungsphase an diejenigen Personen aus ihrem Umfeld denken, bei denen eine in Frage stehende Eigenschaft besonders ausgeprägt ist. Die Probanden sollen dann konkrete Verhaltensweisen (Acts) nennen, die sie bei diesen Personen beobachtet haben und die ihrer Meinung nach indikativ für die in Frage stehende Eigenschaft sind. Im nächsten Schritt werden die so erhaltenen Items einer anderen Probandengruppe vorgelegt mit der Instruktion, die Prototypizität der Items in Hinsicht auf das Merkmal einzuschätzen. Ad 2. In induktiv (oder faktorenanalytisch) konzipierten Tests steht die Korrelation der Items miteinander im Vordergrund, bei der externalen Methode dagegen die Korrelation mit einem Außenkriterium. Als Konsequenz daraus ergibt sich eine hohe Homogenität im ersteren, eine niedrigere im letzteren Fall. Meist führt auch die Konstruktion nach deduktiven Prinzipien (rationale Konstruktion) zu einer hohen Homogenität. Ad 3. Der Begriff der »Schwierigkeit« macht in Form des Schwierigkeitsindex eine Aussage darüber, wie groß der relative Anteil von Probanden ist, die eine Antwort im Sinne des untersuchten Merkmals geben. Bei Leistungstests bedeutet das: Die richtige Lösung liefern, bei Persönlichkeitstests: Eine Antwort geben, die indikativ für eine höhere Merkmalsausprägung ist. Die »Trennschärfe« einer Aufgabe ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Probanden in »Löser« und »Nichtlöser« durch das Item mit demjenigen durch die Skala als Ganzes übereinstimmt. Sie wird definiert als die Korrelation der Itembeantwortung mit dem Summenwert der Skala. Je nachdem, in welcher Form die Informationen aus den miteinander korrelierten Messreihen vorliegen, sind verschiedene Koeffizienten angemessen. Normalerweise sind dies: der ProduktMoment-Korrelationskoeffizient von Pearson-Bravais bei kontinuierlichen Antwortskalen und eine Berechnung mit Hilfe des punkt-biserialen Korrelationskoeffizienten bei Antworten in dichotomer Form. Mittlere »Schwierigkeitswerte« (um P=50) begünstigen hohe Trennschärfe und Homogenität. Ad 4. Bei der Berechnung der Korrelationskoeffizienten geht jede Itembeantwortung je einmal in die beiden miteinander korrelierten Messwertreihen ein: Auf seiten des Items als originales Datum, auf seiten des Skalenscores als Summand, der zum Skalenscore beiträgt. Die daraus resultierende algebraische Abhängigkeit überhöht die erhaltenen Koeffizienten, weil die Variable partiell mit sich selbst korreliert wird. Diese partielle Identität wird mittels der Part-whole-Korrektur bereinigt, indem der Skalenscore jeweils um den Betrag desjenigen Items bereinigt wird, dessen Trennschärfe zu ermitteln ist. Ad 5. Der Schwierigkeitsindex muss einer Zufallskorrektur unterzogen werden, wenn bei gebundener Beantwortung nur wenig Antwortalternativen vorliegen. Es wird versucht, um den Anteil zufällig richtiger Antworten zu korrigieren.

135

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2.3

Gütekriterien psychometrischer Tests und ihre Bestimmung 2.3.1

2.3.2

2.3.3

Hauptgütekriterien – 138 2.3.1.1 Objektivität – 138 2.3.1.2 Reliabilität oder Zuverlässigkeit – 141 2.3.1.3 Validität oder Gültigkeit – 149 Nebengütekriterien – 161 2.3.2.1 Normierung – 162 2.3.2.2 Testfairness – 167 Wechselbeziehungen zwischen Gütekriterien – 174

In ihrer spezifischen Bündelung oder Kombination konstituieren die einzelnen Items bestimmte Skalen oder Tests. Um deren psychometrische Eigenschaften beschreiben zu können, sind verschiedene Kriterien entwickelt worden. Prinzipiell lassen sich diese Beurteilungsmaßstäbe zwar auch auf jedes der Items selbst anwenden, doch dient gerade die Zusammenfassung von Items zu Skalen dem Ziel, eben dadurch die möglichen Unzulänglichkeiten einer punktuell-singulären Messung auf Itemebene zu überwinden und für den Itemverband als Ganzes ein qualitativ höheres Niveau zu erreichen, als es für jedes Einzelelement gegeben ist. Beispielsweise ist für die Reliabilität bereits gezeigt worden (7 Abschn. 2.1.1.4), dass bei der Addition mehrerer Itembeantwortungen ein stärkeres Anwachsen der Varianzkomponenten zugunsten der wahren Merkmalsunterschiede relativ zu den Fehleranteilen zu erwarten ist und dadurch das Ganze in gewisser Weise mehr darstellt als die Summe seiner Teile. Der Katalog einschlägiger Kriterien ist nicht verbindlich definiert. Ein vergleichsweise breites Spektrum von Bewertungsmaßstäben haben Amelang et al. für das Testkuratorium der Föderation Deutscher Psychologenverbände (1986) erarbeitet (7 unten). Die darin thematisierten Anforderungen an die Qualität psychologischer Tests sind vielfältig und können deshalb kaum jemals von einem einzigen Verfahren in gleichem Ausmaß erfüllt werden, zumal sie nicht alle miteinander vereinbar sind. Bei der umfassenden Beurteilung einer diagnostischen Methode kommt es deshalb in gewissen Grenzen auf die jeweils vorliegenden Umstände, Bedingungen und Zielsetzungen an, mit der Folge einer fallweise etwas unterschiedlichen Gewichtung der einzelnen Kriterien. Die Berücksichtigung von Fragestellung und Kontextbedingungen erweitert aber den Kriterienkatalog derart wesentlich, dass letztlich der gesamte diagnostische Prozess bestimmten Anforderungen genügen muss. Diese sind in den Standards für pädagogisches und psychologisches Testen (Häcker, Leutner & Amelang, 1998) festgehalten; ausführlich werden darin unter anderem auch die Standards für eine fachlich kompetente Testanwendung und für spezifische Vorgehensweisen definiert. Speziell für die Bewerberauslese mittels Leistungstestungen sind die einzelnen Schritte der Eignungsfeststellung inzwischen durch eine Normierung nach DIN-Prinzipien geregelt worden. Einer der dafür maßgeblichen Gedanken bestand darin, mit einer DIN-Norm einen Beitrag zum »Verbraucherschutz« im weitesten Sinne zu leisten, also im Falle psychologisch-diagnostischer Dienstleistungen den Interessenten oder Auftraggeber vor unseriösen Angeboten zu schützen. Mit dem Einbezug von Kontextbedingungen wird eine gewisse Flexibilität in der Handhabung der Bewertungsmaßstäbe eingeräumt; dieses gilt aber für die einzelnen Kriterien in unterschiedlicher Weise: Denn von zentraler Bedeutung für die Qualität

Kriterienkatalog zur Testbeurteilung

Gewichtung der Gütekriterien bei der Beurteilung

2

136

Kapitel 2 · Grundlagen diagnostischer Verfahren

Beschreibung der einzelnen Kriterien für die Testbeurteilung Testkuratorium der Föderation Deutscher Psychologenverbände

2

Präambel Grundsätze der Beurteilung nach diesen Kriterien

Kriterien zu den Grundlagen eines Tests

Kriterien zur Durchführung eines Tests

Im Folgenden werden einige Gesichtspunkte angegeben, die bei der Beurteilung eines Testverfahrens von Bedeutung sind. Teilweise handelt es sich bei den genannten Aspekten um widersprüchliche Forderungen, denen kaum jemals von einem Testverfahren gleichermaßen Rechnung getragen werden kann. Bei der Beurteilung einer diagnostischen Methode kommt es auf die jeweils besonderen Umstände, Bedingungen und Zielsetzungen an, die aber deutlich zu erkennen und nachvollziehbar sein müssen; vor diesem Hintergrund werden die genannten Kriterien im Einzelfall zu gewichten sein. Grundlage für die Testbewertung ist prinzipiell das Testmanual; dieses muss so beschaffen sein, dass die wichtigsten Aussagen zu den für die Beurteilung relevanten Punkten daraus erarbeitet werden können. 1. Testgrundlage 1.1. Diagnostische Zielsetzung. Die Angaben zu diesem Punkt sollen es dem Benutzer ermöglichen, den Beitrag des Verfahrens zu einer diagnostischen Entscheidungsfindung zu erkennen. Dies betrifft sowohl den prinzipiellen diagnostischen Ansatz (etwa Zustandsdiagnostik, Veränderungsmessungen) als auch den vom Testautor intendierten Beitrag im Rahmen einer umfassenderen diagnostischen Informationssammlung. Wenn das Verfahren von seiner Zielsetzung oder vom aktuellen Entwicklungsstand her nicht für eine Einzelfalldiagnostik geeignet, sondern nur für Forschungszwecke vorgesehen ist, sollte dies explizit angegeben werden. 1.2. Theoretische Grundlagen. Hier ist deutlich zu machen, in welcher Weise das Verfahren auf den Ergebnissen der wissenschaftlichen Psychologie aufbaut. Die relevante Grundkonzeption muss ohne zusätzliche Sekundärliteratur erkennbar sein. Modifikationen etablierter theoretischer Vorstellungen durch den Testautor sind besonders deutlich zu machen. 1.3. Nachvollziehbarkeit der Testkonstruktion. Der Benutzer muss durch die Angaben zu diesem Punkt in angemessener, ausführlicher und verständlicher Weise in die Lage versetzt werden, die einzelnen Arbeitsschritte bei der Erstellung der Testmaterialien kritisch zu bewerten. Hierzu gehören insbesondere Angaben über die Veränderung bzw. Selektion von ursprünglich aus theoretischen Überlegungen heraus zusammengestellten Indikatorenmengen. 2. Testdurchführung 2.1. Durchführungsobjektivität. Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Vorschriften der Testinstruktion und aller übrigen Durchführungsbedingungen gesichert ist. 2.2. Transparenz. Das Ausmaß, in dem aus der Beschaffenheit eines Verfahrens die Spezifität und dessen Messfunktion und Auswertung ersichtlich sind. 2.3. Zumutbarkeit. Das Ausmaß, in dem ein Test (absolut und relativ zu dem aus der Anwendung des Verfahrens resultierenden Nutzen) die getestete Person in zeitlicher, psychischer (insbesondere »energetisch«-motivational und emotional) sowie körperlicher Hinsicht beansprucht. 2.4. Verfälschbarkeit. Das Ausmaß, in dem ein Test die individuelle Kontrolle über Art und Inhalt der verlangten bzw. gelieferten Informationen ermöglicht. 6

137

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2.5. Störanfälligkeit. Das Ausmaß, in dem ein Test zur Erfassung habitueller Merkmalsunterschiede unempfindlich gegenüber aktuellen Zuständen der Person und situativen Faktoren der Umgebung ist. 3. Testverwertung 3.1. Auswertungsobjektivität. Das Ausmaß, in dem die Auswertung des Tests unabhängig von personenbedingten oder apparativen Störquellen ist. 3.2. Zuverlässigkeit. Messgenauigkeit oder Grad der Erklärbarkeit der beobachteten interindividuellen Unterschiede der Testergebnisse durch tatsächliche psychische Merkmalsunterschiede, untersucht etwa als Stabilität, Äquivalenz oder interne Konsistenz. Für die Bewertung ist die Angabe der verwendeten Berechnungsverfahren erforderlich. 3.3. Gültigkeit. Das Ausmaß der Treffsicherheit oder diagnostischen Valenz, mit dem der Test Rückschlüsse auf Verhalten außerhalb der Testsituation oder auf den Ausprägungsgrad des dem Testverhalten zugrundeliegenden Konstruktes ermöglicht. Bei der Testbeurteilung ist besonderes Schwergewicht auf die Ergebnisse zum Bereich der Kriteriumsvalidität zu legen. 3.4. Normierung. Ausmaß und Qualität der populationsspezifischen Bezugsgrößen zur Interpretation von Personenparametern, insbesondere zur Bestimmung der relativen Position einer Testperson in bezug auf (u. a. verschiedene) Populationsverteilungen von Testwerten. 3.5. Bandbreite. Ausmaß der Enge oder Vielfalt des Verfahrens gegenüber unterschiedlichen Fragestellungen, Gruppen- oder Prognosezeiträumen. 3.6. Informationsausschöpfung. Menge und Qualität der Indikatoren, die bezogen auf verschiedene Ziele, Anlässe oder Probandengruppen begründet aus den Testantworten abgeleitet werden. 3.7. Änderungssensitivität. Möglichkeiten und Grade der Veränderungsmessung durch dieses Verfahren, insbesondere im Rahmen von Zeitreihenvergleichen. 4. Testevaluation 4.1. Ökonomie. Das Ausmaß, in dem ein Test bei der Durchführung, Auswertung und Anschaffung als kostengünstig zu bewerten ist. 4.2. Fairness. Ausmaß einer eventuell bestehenden systematischen Diskriminierung bestimmter Testpersonen, z. B. aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit, bei der Abschätzung von Kriteriumswerten. 4.3. Akzeptanz. Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolistische Überzeugungen gegen einen Test angeführt werden. 4.4. Vergleichbarkeit. Ausmaß der partiellen Übereinstimmung mit anderen Untersuchungsverfahren sowie die abweichenden Aspekte, Schwerpunkte oder Inhalte. Eine vermutete Sonderstellung bzw. Novität des Verfahrens ist besonders herauszustellen. 4.5. Bewährung. Systematische Aufarbeitung und Bewertung der mit dem Test gesammelten Erfahrungen, z. B. bezogen auf bestimmte Personengruppen oder diagnostische Ziele. 5. Äußere Testgestaltung Die Verständlichkeit des Testmanuals, die probandenfreundliche Gestaltung der übrigen Testmaterialien sowie die Übereinstimmung von Titel und werblicher Darstellung mit dem tatsächlichen Testinhalt werden bei der Beurteilung herangezogen.

2

Kriterien zur Verwertung eines Tests

Kriterien zur Evaluation eines Tests

Kriterien zur äußeren Gestaltung eines Tests

138

Kapitel 2 · Grundlagen diagnostischer Verfahren

von Tests sind i. Allg. die sog. Hauptgütekriterien, nämlich Objektivität, Reliabilität und Validität, auf die fast ohne Einschränkung ein strenger Maßstab anzulegen ist. Diese Kriterien betreffen zudem schwerpunktmäßig technische Eigenschaften, welche die Instrumente mehr oder weniger unabhängig von den Rahmenbedingungen eines Einsatzes und von den anstehenden diagnostischen Entscheidungen kennzeichnen.

2

2.3.1

Hauptgütekriterien

2.3.1.1

Objektivität

Definition Objektivität steht für das Ausmaß, in dem die Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind.

Je nach der Phase, in der sich ein möglicher Einfluss des Testleiters auswirken kann, werden verschiedene Aspekte der Objektivität unterschieden. 1. Durchführungsobjektivität. Sie bezeichnet den Grad, in dem mehr oder weniger

Durchführungsobjektivität durch Standardisierung der Testsituation

Quantitative Bestimmung der Durchführungsobjektivität

zufällige Variationen im Verhalten des Testleiters und der von ihm hergestellten Durchführungsbedingungen zu Variationen im Verhalten der Testpersonen führen. Um eine höchstmögliche Invarianz des Testleiterverhaltens zu gewährleisten, wird eine maximale Standardisierung der Testsituation angestrebt. Dazu gehören, was eigentlich keiner weiteren Erwähnung bedarf, nicht nur identische Testmaterialien und Zeitvorgaben, sondern auch die Abfassung der Instruktion in schriftlicher Form und die Ausarbeitung von Regeln, wie ggf. auf Nachfragen oder Störungen zu reagieren ist, usw. In der Konsequenz läuft die strikte Standardisierung der Durchführung auf eine Minimalisierung der sozialen Interaktion zwischen dem Testleiter und den Testpersonen hinaus, was aber bei projektiven Tests meist nicht möglich ist. Die quantitative Bestimmung der Durchführungsobjektivität stößt auf erhebliche Schwierigkeiten. In der Literatur findet sich vielfach die Anregung, die Testergebnisse ein und derselben Probanden in ein und demselben Test aus Untersuchungen mit verschiedenen Testleitern zu interkorrelieren und den Mittelwert aus den resultierenden Koeffizienten als beste Schätzung für die Durchführungsobjektivität zu nehmen. In derartigen Ergebnissen würden sich jedoch auch die Einflüsse von seiten einer unzureichenden Reliabilität niederschlagen (weshalb es durchaus als angemessen erscheint, Objektivität als einen Teilaspekt der Reliabilität aufzufassen). Abgesehen davon wäre ein Prozedere kaum zu akzeptieren, bei dem immer neue Testleiter von denselben Testteilnehmern immer dasselbe verlangen. Aus diesen Gründen fehlen gewöhnlich quantitative Angaben zur Durchführungsobjektivität. Sie darf als hoch angesehen werden, wenn alle Bedingungen festgelegt sind, die sich plausiblerweise auf das Testverhalten auswirken können, und wenn darüber hinaus angenommen wird, dass Wetterlage, Jahreszeit, Wochentag, Tageszeit und ökologischer Mikroraum nur unerhebliche Einflüsse aufweisen. 2. Auswertungsobjektivität. Dieser Aspekt der Objektivität gibt das Ausmaß an, in dem »das Verhalten als empirisches Relativ in Item- und Test-Scores als numerischem Relativ eindeutig quantifiziert wird« (Fisseni, 1990, S. 54). Gleiches Verhalten der Testpersonen wird in einem objektiven Test nach stets exakt denselben Regeln abgebildet.

139

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

Sofern in Leistungstests oder Persönlichkeitsfragebogen die richtigen Lösungen bzw. die Antworten im Sinne des Merkmals anhand eines Lösungsschlüssels festgelegt sind, kann absolute Objektivität unterstellt werden. Allerdings empfiehlt sich den Beobachtungen von Weise (1994) zufolge ein maschinelles Lesen der Antwortbogen, da bei dem üblichen Auflegen von entsprechenden Schablonen doch erstaunlich viele Ableseund Additionsfehler auftreten. Etwas geringer ist die Auswertungsobjektivität i. Allg. bei Leistungs- und Persönlichkeitstests, in denen die Antworten in ungebundener Weise erfolgen. In solchen Fällen werden nicht nur die allgemeinen Anforderungen an vollkommen richtige Lösungen in detaillierter Weise erläutert, sondern auch die häufiger vorkommenden Lösungen als Beispiele für absolut richtige und teilweise korrekte Antworten aufgeführt, um die Auswertung eindeutiger handhaben zu können. Immer wieder treten jedoch Fälle auf, für die es kein Vorbild im Katalog der Beispiellösungen gibt und wo auch eine Rubrizierung aufgrund der allgemeinen Anweisungen nicht ohne Ambivalenzen möglich ist.

Auswertungsobjektivität durch eindeutige Quantifizierung des Verhaltens

Eher geringe Auswertungsobjektivität bei ungebundenen Antwortformaten

Beispiel

Ansetzend an Ableitungen von Iseler (1967) haben Michel und Mai (1969) die Auswertungsobjektivität für die 3 Untertests Allgemeines Verständnis (AV), Gemeinsamkeiten Finden (GF) und Wortschatztest (WT) der Hamburg-Wechsler-Intelligenztests für Erwachsene und Kinder (HAWIE bzw. HAWIK) bestimmt (7 Abschn. 3.1.2 und 7 Abschn. 3.1.4). Als allgemeine Strukturgleichung gilt: sx2 = sA2 + sB2 + sC2 + se2. sx2 = Varianz aller Testpunktwerte, sA2 = Varianz zwischen Protokollen, sB2 = Varianz zwischen den Beurteilern, sC2 = Wechselwirkung Beurteiler × Protokolle, se2 = Situationsfehler. Die Auswertungsobjektivität wird als Intraklassenkorrelation ermittelt, und zwar hier als Anteil der Varianz zwischen den Testprotokollen an der Gesamtvarianz: 2

r=

sA . 2 sx

Die Summe der restlichen Varianzkomponenten bildet die sog. Auswertungsfehlervarianz sF2 = sB2 + sC2 + se2, deren Quadratwurzel den Standardauswertungsfehler. Für die Ermittlung der mittleren Quadrate und Freiheitsgrade gelten die folgenden Terme (. Tab. 2.13): Anhand der herangezogenen Stichproben von Testprotokollen und Beurteilern resultierten die folgenden Koeffizienten (. Tab. 2.14): 3 Nach Maßgabe des Standardauswertungsfehlers √ sF2 ergeben sich daraus die folgenden Konfidenzintervalle für die Rohpunkte (5%) (. Tab. 2.15): Der »wahre« Rohpunkt eines Probanden kann also allein infolge der mangelnden Auswertungsobjektivität nur mit den angegebenen Unsicherheitsintervallen bestimmt werden. Weil eine analoge Untersuchung von Michel (1967) für den Subtest Gemeinsamkeiten des Intelligenz-Strukturtests (IST) von Amthauer mit r = .96 ebenfalls nur einen unbefriedigenden Grad an Auswertungsobjektivität ergeben 6

2

Beispiel zur varianzanalytischen Bestimmung der Auswertungsobjektivität

140

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Tabelle 2.13. Varianzanalytische Terme zur Bestimmung der Auswertungsobjektivität

Quelle

Bezeichnung

Freiheitsgrade

Erwartungswert

Zwischen den Testprotokollen Zwischen den Auswertern Wechselwirkung und Situationsfehler

MQTP MQAW MQTA

k-1 n-1 (k-1)(n-1)

n · σA2 + σC2 + σe2 k · σB2 + σC2 + σe2 σC2 + σe2

2

sTP2 = σA2 = (MQTP – MQTA)/n, sAW2 = σB2 = (MQAW – MQTA)/k, sTA2 = sC2 + σe2 = MQTA, sF2 = sAW2 + sTA2 = [MQAW + (k-1)MQTA]/k, sX2 = sTP2 + sF2, raa = sTP2/sX2.

. Tabelle 2.14. Auswertungsobjektivität (Intraklassenkorrelation) für 3 Subtests des HAWIE bzw. des HAWIK

HAWIE HAWIK

AV

GF

WT

0.84 0.88

0.96 0.96

0.97 0.96

. Tabelle 2.15. Konfidenzintervalle aufgrund nicht absoluter Auswertungsobjektivität für 3 Subtests des HAWIE bzw. des HAWIK

HAWIE HAWIK

AV

GF

WT

±2,63 ±3,06

±2,04 ±1,62

±5,98 ±4,49

hatte, wurde dieser für die Revision zum IST 70 mit Mehrfachwahlantworten versehen, womit seitdem vollständige Objektivität gegeben ist (7 Abschn. 3.1.2).

Quantitative Bestimmung der Auswertungsobjektivität

Am niedrigsten liegt die Auswertungsobjektivität meist bei (Kurz-) Aufsätzen und insbesondere bei projektiven Tests wie dem Rorschach- oder dem Thematischen Apperzeptionstest. Zur quantitativen Bestimmung der Auswertungsobjektivität müssen die Testprotokolle einer Stichprobe von Probanden mindestens 2 verschiedenen Auswertern vorgegeben werden, die unabhängig voneinander jeweils die Punktwerte ermitteln oder – im Falle der projektiven Verfahren – die Signierungen vornehmen. Die Korrelation zwischen den beiden Auswertern (bzw. bei mehreren Beurteilern: Die mittlere Korrelation zwischen ihnen) über die Protokolle gibt das Ausmaß der wechselseitigen Übereinstimmung an. Systematische Unterschiede hinsichtlich der relativen Strenge des Bewertungsmaßstabes schlagen sich in diesen Korrelationen allerdings nicht nieder; zur Erfassung derartiger Variationsquellen bedarf es varianzanalytischer Pläne.

141

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

3. Interpretationsobjektivität. Damit bezeichnet man den Grad, in dem die aus den numerischen Testergebnissen gezogenen Schlüsse unabhängig von der Person desjenigen sind, der diese Interpretationen vornimmt, oder mit anderen Worten: Das Ausmaß, in dem aus gleichen Scores verschiedener Probanden identische Schlüsse gezogen werden (von einem oder von mehreren Auswertern). Vollständige Interpretationsobjektivität ist dann gegeben, wenn es lediglich darauf ankommt, aus den Punktwerten eines Leistungstests oder Persönlichkeitsfragebogens die individuelle Position auf der jeweiligen Merkmalsdimension zu ermitteln. Bei den gebräuchlichen Tests bedarf es dazu nur eines Blickes in die entsprechenden Normentabellen, in denen für die einzelnen Rohwerte die dazugehörigen Standardwerte oder Prozentränge aufgeführt sind. Darüber hinaus liegt absolute Interpretationsobjektivität auch dann vor, wenn beispielsweise unter Heranziehung von Validitätskoeffizienten und der Regressionsrechnung auf die Position in einer Kriteriumsdimension geschlossen und damit das relative Ausmaß an Eignung oder Bewährung bestimmt wird. Generell fallen hierunter die einzelnen Schritte der sog. »statistischen« (im Unterschied zur »klinischen«) Vorgehensweise bei der Kombination von Testresultaten nach vorher festgelegten oder analytisch ermittelten Regeln, so dass nach Eingabe der individuellen Testscores kein Einfluss des Testinterpreten mehr möglich ist. Sehr viel niedriger ist die Objektivität der Interpretation bei den projektiven Tests, da diese nicht nur den Probanden eine große Bandbreite dahingehend eröffnen, wie diese die Testmaterialien »interpretieren« können (etwa welche Teile von Klecksbildern sie deuten und in welcher Weise dies geschieht), sondern häufig genug auch der Intuition und Erfahrung des Testleiters einen größeren Ermessensspielraum offen halten, welche Schlüsse daraus zu ziehen sind. Allgemein ist die Interpretationsobjektivität beim »klinischen« Vorgehen geringer, da dort das subjektive Ermessen (als Folge von Erfahrung und Hypothesengenerierung) bei der Ableitung von Schlussfolgerungen darüber, was die Testwerte letztlich bedeuten (können), eine sehr viel größere Rolle spielt. 2.3.1.2

2

Interpretationsobjektivität durch identische Schlüsse aus gleichen Scores

»Statistische« Vorgehensweise

»Klinische« Vorgehensweise

Reliabilität oder Zuverlässigkeit

Definition Die Reliabilität beschreibt die Genauigkeit, mit der ein Test eine Merkmalsdimension erfasst, und zwar unter der Vernachlässigung des Umstandes, ob es sich dabei auch um die Merkmalsdimension handelt, deren Erfassung intendiert ist.

Insofern bleiben Aspekte der inhaltlichen Treffsicherheit (also der Validität) außer Betracht; nur die Präzision der Messung an sich interessiert hierbei. Ein Test ist dann vollständig reliabel, wenn mit seiner Hilfe die Lokalisierung der Probanden auf der jeweiligen Merkmalsdimension absolut fehlerfrei geschieht. In einem solchen Fall ist der Reliabilitätskoeffizient als Korrelation zwischen verschiedenen Messwerten, erhoben an denselben Probanden, rtt = 1,0. Wie unter 7 Abschn. 2.1.1.1, (2.12) bereits erläutert wurde, ist das gleichbedeutend mit dem Umstand, dass die beobachtete Testwertevarianz zur Gänze durch wahre Messwertunterschiede erklärt wird: Reliabilität als Quotient der wahren zur Gesamtvarianz. Weil es verschiedene Zugangsweisen zur Bestimmung der Reliabilität gibt, kann nicht von »der« Zuverlässigkeit eines Tests gesprochen werden. Aus diesem Grunde muss bei der Nennung eines Reliabilitätskoeffizienten jeweils auch die Methode er-

Präzision der Messung an sich

»Die« Reliabilität eines Tests gibt es nicht

142

Kapitel 2 · Grundlagen diagnostischer Verfahren

wähnt werden, mit der die Zuverlässigkeit bestimmt wurde. Dafür stehen folgende Ansätze zur Verfügung.

2

Reliabilität als Korrelation wiederholter Testdurchführungen

Teststabilität

Bedeutung von Störfaktoren

Reliabilität als Korrelation paralleler Testformen

Kriterien der Parallelität von Tests

1. Testwiederholung (Retest). Ein und derselbe Test wird ein und derselben Stichprobe von Probanden wiederholt dargeboten, im Regelfall insgesamt 2mal. Die Korrelation zwischen der ersten und zweiten Vorgabe gibt das Ausmaß der Retest- oder Testwiederholungsreliabilität an. Bei der Festlegung des optimalen Zeitintervalls für die Wiederholung besteht regelmäßig ein Dilemma: Einerseits gilt es, Erinnerungs- und Übungseffekte zu vermeiden, wie sie namentlich bei Leistungstests stets zu beobachten sind. Das macht eher lange Zeitabstände in der Größenordnung von mehreren Wochen oder gar Monaten erforderlich. Andererseits sollen die Testdurchführungen nicht soweit auseinander liegen, dass zwischenzeitlich auch reale Schwankungen des erfassten Merkmals auftreten und dadurch die messtechnisch-instrumentelle Qualität auf niedrigerem Niveau erscheinen lassen, als es tatsächlich der Fall ist. Insofern ist die Wiederholungsreliabilität auch immer von der Stabilität des erfassten Merkmals abhängig und wird deshalb auch als »Teststabilität« bezeichnet. Idealiter handelt es sich dabei um die Retestreliabilität, bereinigt um die mögliche Fluktuation des zugrundeliegenden Merkmals. Das aber setzt voraus, dass diese über anderweitige Ansätze erfasst werden kann, was nur höchst selten möglich ist. Sicher sind für Korrelationskoeffizienten systematische Mittelwertszunahmen von etwa der Hälfte einer Standardabweichung bei der wiederholten Vorgabe von Intelligenztests im Abstand von ca. einem Monat (s. z. B. Amthauer 1957; Catron 1978) völlig irrelevant. Derartige Übungsgewinne fallen erfahrungsgemäß nach Leistungsstand, Lernfähigkeit und Gedächtnis interindividuell recht verschieden aus, so dass Retestkoeffizienten eher konservative Schätzungen der Reliabilität liefern. Angemessen ist die Bestimmung der Reliabilität mittels Wiederholung bei reinen Speedtests und – mehr noch – bei Persönlichkeitsfragebogen. Hingegen fallen die erwähnten Störfaktoren um so mehr bei Tests aus dem Intelligenzbereich ins Gewicht, je weniger Items die Skalen enthalten, je eigentümlicher und inhaltlich esoterischer die Aufgaben sind und je kürzer das Retestintervall ist. In dem Maße, in dem dadurch die Erinnerung an die zuvor bewerkstelligten richtigen Lösungen begünstigt wird, verändert sich der Charakter eines Verfahrens in Richtung eines Gedächtnistests. 2. Paralleltestreliabilität. Die Vorgabe paralleler Versionen eines Tests an ein und die-

selbe Gruppe von Personen gilt weithin als »Königsweg« der Reliabilitätsbestimmung. Zweckmäßigerweise wählt man für die Bearbeitung der parallelen Formen ein relativ kurzes Intervall von einigen Tagen und die Vorgabemodalitäten so, dass die eine Hälfte der Probanden die Tests in der Sukzession A vor B, die andere Hälfte B vor A bearbeitet. Parallel sind Tests dann, wenn die auf der Basis gleicher, aber nicht identischer Itemstichproben beobachteten Mittelwerte und Standardabweichungen identisch sowie die Korrelationen zwischen den beobachteten Werten hoch (zwischen den wahren Werten per definitionem: 1.0) sind. Die ermittelten Koeffizienten liegen häufig noch unter denjenigen für Retestuntersuchungen. Sie sind jedoch deshalb besonders praxisgerecht, weil sich hier die Reliabilität auf eine insgesamt größere Stichprobe von Items und damit ein breiteres Spektrum von Aufgabeninhalten bezieht. Essentielle Voraussetzung für diesen Ansatz ist selbstverständlich das Vorhandensein geeigneter »paralleler« Versionen, die für sich bei Gruppenuntersuchungen

143

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

von hohem Wert sind, weil benachbart sitzende Probanden dann unterschiedliche Formen bearbeiten können. Ihre Herstellung wird allerdings erschwert, wenn es sich um die Erfassung sehr eng begrenzter Eigenschaften handelt und entsprechend das Universum denkbarer Items nur klein ist. Ein weiterer Hinderungsgrund liegt dann vor, wenn die Fragen von gleichsam einmaliger Art sind und deshalb eine Parallelisierung kaum möglich erscheint, ohne einem Transfer der Lösungsprinzipien und erheblichen Übungsgewinnen Vorschub zu leisten. Bei Speedtests, in denen die (gewöhnlich zahlreichen) Items eine hohe wechselseitige Ähnlichkeit aufweisen, ist demzufolge die Entwicklung von Parallelformen entbehrlich, da es für die zweite Vorgabe keinen Unterschied bedeutet, ob dieselben oder leicht abgewandelte Items bearbeitet werden müssen. Damit liegt hier eine Art Sonderfall vor, bei dem die Retest- und Paralleltestmethode gleichsam ineinander übergehen. 3. Testhalbierung. Oftmals besteht aus den verschiedensten Gründen heraus keine Möglichkeit, eine Testung zu wiederholen oder sie mit parallelen Instrumenten durchzuführen (z. B. weil kein hinreichend langes Zeitintervall abgewartet werden kann, die Probanden nicht mehr erreichbar sind oder wegen des eigentümlichen Charakters der Aufgaben von der ersten zur zweiten Messung eine grundlegende Veränderung der Validität zu befürchten ist oder einfach deshalb, weil Parallelversionen nicht vorliegen). In solchen Fällen bietet es sich an, die eine Form des Tests in 2 äquivalente Hälften aufzuteilen und die aus der einmaligen Bearbeitung dieser Teile pro Testperson vorliegenden Messwerte miteinander zu korrelieren. Die Höhe der Korrelation gibt einen Aspekt der Reliabilität an. Gewöhnlich werden die Koeffizienten nach den Prinzipien der Spearman-Brown »prophecy formula« auf doppelte Länge der Skala aufgewertet: Korreliert werden miteinander ja nur Hälften, doch interessiert die Reliabilität der 2mal so langen Gesamtskala. Bei diesem Ansatz können Schwankungen der Motivation, der Stimmung und Aufmerksamkeit bzw. Fluktuationen des untersuchten Merkmals praktisch ausgeschlossen werden. Alle diese Faktoren wirken sich nur in jenem Grade aus, in dem sie über die Items der Testskala hinweg oszillieren. Von daher kommt die Halbierungstechnik dem Konzept einer Beschreibung der primär instrumentellen Messgenauigkeit am nächsten. Voraussetzung ist freilich, dass die Homogenität und Anzahl der Items eine Aufteilung in 2 Hälften erlauben. Bei zahlreichen projektiven Tests ist diese notwendige Bedingung nicht gegeben. Für die Halbierung kommen mehrere Techniken in Betracht: 4 Aufteilung nach geradzahliger und ungeradzahliger Numerierung der Items: Für jede Versuchsperson wird individuell die Rohwertsumme aus den geradzahligen Items (also durch Addition der Antworten zu den Items Nr. 2, 4, 6 usw.) und gesondert den ungeradzahligen Aufgaben (also diejenige mit den Nummern 1, 3, 5, 7 usw.) gebildet. 4 Halbierung nach der laufenden Nummer der Items in dem Sinne, dass die Items 1 bis 20 von insgesamt 40 Aufgaben die eine Teilskala, die Items 21 bis 40 die zweite Teilskala bilden. 4 Aufteilung der Items nach Zufall in jede der beiden Halbformen. 4 Die Halbierung auf der Basis der Analysedaten stellt das anspruchsvollste Konzept dar. Hierbei werden für alle Items zunächst Schwierigkeit und Trennschärfe ermittelt und unter simultaner Berücksichtigung beider Kennwerte Paarlinge gebildet, die einander sehr ähnlich sind. Die Zuweisung der einzelnen Items aus solchen Paarlingen in die Halbskalen erfolgt sodann nach Zufall.

2

Erschwerte Herstellung paralleler Testformen

Praktisch Gleichheit von Paralleltest- und Retestmethode bei Speedtests

Reliabilität als Korrelation äquivalenter Testhälften

Reliabilität durch Testhalbierung kommt instrumenteller Messgenauigkeit am nächsten

»Odd-even-Methode«

Halbierung über Schwierigkeit und Trennschärfe

144

Kapitel 2 · Grundlagen diagnostischer Verfahren

Im folgenden Beispiel (. Tab. 2.16) ist an den 8 Items einer Skala zum Optimismus und einer Stichprobe von 10 Versuchspersonen jede der vorgenannten Methoden exemplarisch angewendet worden.

2

Beispiel . Tabelle 2.16. Antworten von 10 Probanden zu den 8 Optimismusitems. In den unteren Spalten sind pro Proband die Mittelwerte für Teilmengen der Items aufgeführt, die den Berechnungen der Korrelationen im Sinne der im Text erläuterten Methoden zugrunde gelegt wurden

Items Pbn

1

2

3

4

5

6

7

8

1 2 3 4 5 6 7 8 9 10

4 3 3 2 3 3 2 5 1 1

3 5 2 5 4 3 5 5 1 2

4 5 4 4 4 3 3 5 3 2

4 3 4 2 3 4 4 5 4 1

2 5 2 2 3 2 4 3 4 2

2 5 5 5 4 3 5 2 4 3

4 1 5 5 3 3 4 3 4 3

4 4 5 5 4 4 4 4

odda

evena

1-4

5-8

Z1b

Z2b

Pac

Pbc

3,50 3,50 3,50 3,25 3,25 2,75 3,25 4,00 3,00 2,00

3,25 4,25 4,00 4,25 3,75 3,50 4,50 4,00 3,00 2,00

3,75 4,00 3,25 3,25 3,50 3,25 3,50 5,00 2,25 1,50

3,00 3,75 4,25 4,25 3,50 3,00 4,25 3,00 3,75 2,50

2,75 4,00 3,50 4,25 3,50 2,75 4,50 3,25 3,25 2,50

4,00 3,75 4,00 3,25 3,50 3,50 3,25 4,75 2,75 1,50

3,50 3,50 3,75 3,25 3,25 3,00 3,75 4,00 3,75 2,00

3,25 4,25 3,75 4,25 3,75 3,25 4,00 4,00 2,25 2,00

a b c

2

odd/even: Mittelwerte für ungeradzahlige/geradzahlige Itemnummern. Z1/Z2: Zufallsaufteilung. Pa/Pb: Parallelisierung (nähere Details 7 unten).

Bei der Parallelisierung wurden folgende Paare gebildet: Items 1 und 5, Items 2 und 7, Items 3 und 8, Items 4 und 6. Diese Paare wurden nun per Zufall auf 2 Gruppen verteilt, so dass folgendes Resultat entstand: A: 3, 4, 5, 7. B: 1, 2, 6, 8. Korrelationen: 4 odd-even: .747, 4 erste-zweite Hälfte: .137, 4 Zufallshalbierung: .217, 4 Parallelisierung nach Trennschärfe und Schwierigkeit: .546. 6

145

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

Kennwerte für alle (1226) Versuchspersonen: 4 odd-even: .273, 4 erste-zweite Hälfte: .281, 4 Zufallshalbierung: .303, 4 Parallelisierung nach Trennschärfe und Schwierigkeit: .327. Wegen der geringen Zahl von Messwertträgern in dem Beispieldatensatz sind von vornherein große Schwankungen zwischen den verschiedenen Berechnungsmodalitäten zu erwarten, und in der Tat führen die odd-even-Aufteilung und die Parallelisierung zu sehr viel höheren Halbierungsreliabilitäten als die beiden anderen Aufteilungen. Anhand der größeren Stichprobe von 1226 Probanden spielen Zufallsschwankungen infolge der Messwertträger keine Rolle mehr. Die geringe Zahl von Items leistet allerdings der Möglichkeit Vorschub, dass zufällig besonders ähnliche bzw. unähnliche Items in den Gruppen zusammengefasst wurden. Da die Koeffizienten aber bei allen Aufteilungsprinzipien recht nah beieinander liegen, kann mit Bestimmtheit festgehalten werden, dass die Skala nur eine mäßige Reliabilität aufweist.

Jede der vorgenannten Techniken verbietet sich bei Schnelligkeitstests, weil dort – von Flüchtigkeitsfehlern abgesehen – die individuellen Halbtestwerte fast immer ziemlich genau der Hälfte der Gesamtrohwerte entsprechen: Wenn jemand beispielsweise 80 Aufgaben insgesamt in Angriff genommen und bewältigt hat, bedeutet das mit großer Wahrscheinlichkeit 40 Items aus der einen und eine gleich große Zahl aus der anderen Hälfte. Damit aber wird die Reliabilität krass überschätzt. Deshalb bietet sich bei Speedtests eine andere Technik an: 4 Halbierung nach der Testzeit. Die gesamte Bearbeitungszeit wird in 2 Teile getrennt. Nach Ablauf der ersten Halbzeit müssen die Probanden auf Anweisung des Testleiters die Stelle im Antwortblatt markieren, an der sie momentan arbeiten, so dass für die erste und zweite Halbzeit erhebungstechnisch unabhängige Rohwertteilleistungen bestimmbar sind.

Testhalbierung führt bei Speedtests zur Überschätzung der Reliabilität

Für Speedtests: Halbierung nach der Testzeit

Üblicherweise werden lediglich die Rohwerte aus den beiden Testhälften interkorreliert und der erhaltene Koeffizient auf die doppelte Länge der (Gesamt-)Skala aufgewertet. Allerdings setzt die Spearman-Brown-Formel die Identität von sxt und von sxu [7 (2.26)] bzw. s1 und s2 voraus. Mit Hilfe verschiedener Formeladaptationen versucht man, ggf. auftretenden Abweichungen gerecht zu werden. Deshalb hat Cronbachs Koeffizient α eine besondere Akzeptanz gefunden. Für ihn wird die Differenz der individuellen Rohwertpaare (X1 – X2) gebildet und die Korrelation der Rohwerte aus der ersten Hälfte mit diesen Differenzen ermittelt [r1(1–2)]. Die allgemeine Form lautet nach Lienert (1989, S. 222): rtt(α ) =

4 ⋅ (s12 - s1 ⋅ s(1-2) ⋅ r1(1-2) ) 4 ⋅ s12 + s(1-2)2 -4 ⋅ s1 ⋅ s(1-2) ⋅ r1(1-2)

s12 = Varianz der Rohwerte aus der ersten Testhälfte, s(1–2)2 = Varianz der Rohwertdifferenzen, r1(1–2) = Korrelation der Rohwerte aus der ersten Testhälfte mit den Rohwertdifferenzen. Angewendet auf die bereits oben erwähnte Stichprobe von 1226 Probanden resultiert für die 8 Items umfassende Optimismusskala ein Koeffizient von rtt(α) = 0.54.

Formel für den Spezialfall zweier Testhälften

146

Kapitel 2 · Grundlagen diagnostischer Verfahren

Reliabilität als Konsistenz aller Testitems

2 Bestimmung über Trennschärfe und Schwierigkeitskoeffizienten

4. Konsistenzanalysen. Die Verallgemeinerung der Halbierungsmethode besteht darin,

eine Testskala nicht nur in 2 Hälften zu zerlegen, sondern in so viele Teile, wie Items vorhanden sind. Entsprechend müssten die betreffenden Korrelationen ermittelt und die erhaltenen Werte auf die jeweilige Länge der Skala aufgewertet oder »hochgerechnet« werden. Am bekanntesten sind dafür die Formeln von Kuder und Richardson (1937) geworden. Die sog. K-R-Formula 8 stützt sich auf die Schwierigkeits- und Trennschärfekoeffizienten: rtt =

K-R-Formula 8

sx2 p q rit

s x 2 -∑pq ∑rit 2 ⋅ pq + ⎛ s x 2 -∑pq ⎞ + ⎜ 2s 2 ⎟ 2 2 ⋅ sx sx2 x ⎝ ⎠

2

(2.76)

= Varianz der Testrohwerte, = Schwierigkeit P/100, = 1-p, = Trennschärfe.

Sofern aus irgendwelchen Gründen keine Interkorrelationen berechnet wurden oder dies wegen einer unvollständigen Aufgabenanalyse nicht möglich ist, kann K–R-Formula 20 Anwendung finden: K-R-Formula 20

n ⎛ s x 2 - n ⋅ pq ⎞ ⋅ ⎟ n-1 ⎜⎝ s x 2 ⎠ n ⎛ s x 2 -∑pq ⎞ = ⋅ n-1 ⎜⎝ s x 2 ⎟⎠

rtt =

(2.77)

In beiden K-R-Formeln spielt der Ausdruck pq, also die Itemvarianz (7 Abschn. 2.2.7.1 zu Schwierigkeit) eine wichtige Rolle. Wenn bei einem Vergleich der Summe der Itemvarianzen oder deren Mittelwert mit der Varianz des Skalensummenwertes (sx2), wie er in der einen oder anderen Weise in den Formeln angestellt wird, weitgehende Übereinstimmung resultiert, so muss dafür das Fehlen von Itemkovarianzen verantwortlich sein. Denn die Varianz des Skalensummenwertes setzt sich zusammen aus der Summe aller (einzelnen) Itemvarianzen und aller Interitemkovarianzen. Das Fehlen von Itemkovarianzen aber bedeutet, dass jedes Item etwas anderes misst, die Skala also nicht reliabel im Sinne der Konsistenz ist. Am meisten verbreitet ist Cronbachs α:

Cronbachs Koeffizient α

r ⎛ ∑si 2 ⎞⎟ r ⎜ α= ⋅ ⎜1 - r i =1 r ⎟ r-1 ⎜ ∑si 2 + ∑sij ⎟ i =1 ⎠ ⎝ i =1

(2.78)

r = Zahl paralleler Messungen, si2 = Stichprobenvarianz des i-ten Paralleltests, berechnet an der Stichprobe von N Versuchspersonen mit N-1 im Nenner, sij = Kovarianz zwischen i und j.

147

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

In der letzteren Formel ist besonders augenfällig, dass die Varianz des Skalensummenwertes (im Nenner) verglichen wird mit der Summe der Itemvarianzen. Sofern die beiden Werte auseinanderklaffen, muss dieses eine hohe Homogenität bedeuten, weil in diesem Fall zur Summe der Itemvarianzen noch substantielle Itemkovarianzen hinzugekommen sind und die Differenz bewirkt haben. Ein anderer Ansatz besteht darin, die Konsistenz varianzanalytisch zu bestimmen, und zwar nach einem Schema, dessen Faktoren zum einen die Items, zum anderen die Probanden darstellen. Die dafür maßgeblichen Überlegungen sind einfach: Bei vollständiger Konsistenz eines Tests bzw. seiner Beantwortung durch Probanden müsste für jede Person pro Item dieselbe Antwort auftreten. Abweichungen davon, also jegliche Varianz innerhalb jedes einzelnen der Probanden, können in einer ersten Näherung als Fehler aufgefasst werden:

Varianzanalytische Bestimmung

sinn2 = se2 .

Die Varianz zwischen den Probanden setzt sich zusammen aus Komponenten zu Lasten der wahren Merkmalsunterschiede und zu Lasten von Fehlereinflüssen: s zwi Prb2 = s ∞ 2 + s e 2

(2.79)

Durch Umstellen und Einsetzen erhält man: s ∞ 2 = s zwi Prb2 - s e 2 , s ∞ 2 = s zwi Prb2 - sinn 2 s∞2 , rtt = 2 s∞ + se2 s zwi Prb2 - sinn 2 rtt = , s zwi Prb2 - sinn 2 + sinn 2 rtt = 1 −

sinn 2 s zwi Prb2

(da se2 = sinn2)

(2.80)

Nun erzeugen selbst die einzelnen Items aufgrund ihrer selbst bei hoher Konsistenz immer etwas variierenden spezifischen Anforderungen eine Varianz. Diese Varianz zwischen den Items stellt insofern keine Fehlerkomponente dar und muss von der Varianz innerhalb der Personen abgezogen werden, um einen »bereinigten« Term für eine »Restvarianz« zu erhalten: srest2 = sinn2 - szwi Items2, srest2 = se2. Auf diese Weise gilt schließlich rtt = 1 -

srest 2 s zwi Prb

2

(2.81)

Varianzanalytische Konsistenzformel

2

148

Kapitel 2 · Grundlagen diagnostischer Verfahren

Eine wesentliche Voraussetzung für diese varianzanalytische Prüfung besteht allerdings darin, dass die Itembeantwortung auf kontinuierlich-quantitativ abgestuften Skalen erfolgt. Das trifft häufiger bei Persönlichkeits- und Einstellungstests zu, ist aber auch bei Leistungstests der Fall, wenn dort je nach Zeitbedarf oder Richtigkeit der Lösung abgestufte Punkte vergeben werden. In . Tab. 2.17 findet sich ein Rechenbeispiel für eine Auswahl von 5 Items der Optimismusskala (vgl. . Tab. 2.7 und 2.10; die Items Nr. 1, 5 und 7 wurden wegen zu geringer Interkorrelationen eliminiert).

2

Beispiel

Beispiel zur varianzanalytischen Konsistenzbestimmung

. Tabelle 2.17. Antworten von 10 Probanden zu 5 Items einer Skala (Auszug aus . Tab. 2.16). In der letzten Spalte (P) die individuellen Summenwerte über die Items, in der letzten Zeile (I) die Summenwerte über die Probanden. Die P- und I-Werte liegen der Bestimmung von szwi2 und szwi Items2 zugrunde

Pbn

Items

1 2 3 4 5 6 7 8 9 10 I

QStot: QSinn: QSzw: QSzI: QSr: N: k: (∑X)2: ∑X2: ∑P2: ∑I2:

2

3

4

6

8

P

3 5 2 5 4 3 5 5 1 2

4 5 4 4 4 3 3 5 3 2

4 3 4 2 3 4 4 5 4 1

2 5 5 5 4 3 5 2 4 3

4 4 5 5 4 4 4 4 3 2

17 22 20 21 19 17 21 21 15 10

35

37

34

38

39

183

totale Quadratsumme, Quadratsumme innerhalb der Probanden, Quadratsumme zwischen Probanden, Quadratsumme zwischen Items, Rest-Quadratsumme, Zahl der Probanden, Zahl der Items, quadrierte Gesamtsumme der Testwerte, im Beispiel: 1832 = 33489, Summe der quadrierten Itemwerte, im Beispiel: 32 + 42 + 42 + … + 12 + 32 + 22 = 733. Summe der quadrierten Testwerte, im Beispiel: 172 + 222 + 202 + … + 102 = 3471, Summe der quadrierten Werte pro Item, im Beispiel: 352 + … + 392 = 6 715.

QStot = ∑X2 QSzw =

6

( ∑X)2 33489 = 733 = 63.22, N⋅k 50

∑P2 - ( ∑X)2 = 3471 - 33489 = 24.42, k

N⋅k

5

50

149

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

∑P = 733 - 3471 = 38.8, 2

QSinn = ∑X2 QSzI =

k

5

∑I2 - ( ∑X)2 = 6715 - 33489 = 1.72, N⋅k

k

10

50

QSr = QSinn - QSzI = 38.8 - 1.72 = 37.08, s2zw =

QSzw 24.42 = = 2.7133, N-1 9

2 sinn =

QSzw 38.8 = = 0.9700, N (k- 1) 4 0

sr2 =

QSr 37.08 = = 1.0300, (N- 1) (k- 1) 36 2

rtt = 1 -

sinn = 0.643 unkorrigiert 2 s zwi

rtt = 1 -

srest = 0.620 korrigiert 2 s zwi

2

2.3.1.3

Validität oder Gültigkeit

Definition Unter Validität wird das Maß an Genauigkeit verstanden, mit dem der Test dasjenige Persönlichkeits- oder Verhaltensmerkmal misst, das er messen soll oder zu erfassen vorgibt.

Bei hoher Validität erlauben die Ergebnisse eines Tests die Generalisierung aus dem numerischen Relativ der Testskalen auf das empirische Relativ des interessierenden Zielmerkmals oder einen Schluss aus dem (beobachteten) Verhalten in der Testsituation auf (ebenfalls beobachtbares) Verhalten außerhalb der Testsituation (Michel & Conrad, 1982, S. 55). Insofern handelt es sich um das wichtigste Gütekriterium überhaupt. Selbst der Objektivität und der Reliabilität kommt primär lediglich die Rolle zu, günstige Voraussetzungen für das Erreichen einer hohen Validität zu schaffen. Auch bei der Validität lassen sich verschiedene Aspekte voneinander unterscheiden:

Bedeutung hoher Validität

1. Inhaltliche Validität. Sofern die Aufgaben eines Tests Stichproben aus dem zu erfas-

Repräsentationsschluss vom Testverhalten auf dasjenige außerhalb der Testsituation

senden Zielmerkmal darstellen, kann aus dem Verhalten in der Testsituation auf dasjenige außerhalb im Sinne eines Repräsentationsschlusses geschlossen werden (7 Abschn. 1.6) Der Grad der Genauigkeit, in dem dieses möglich ist, bezeichnet die inhaltliche Validität. Sie ist hoch, wenn die Aufgaben völlig identisch sind, etwa mit Anforderungen, die in bestimmten Bereichen gestellt werden: Als Beispiel dafür stehen Prüfungen für Farbtüchtigkeit, Schulleistungstests oder die Fragen beim Ablegen der Führerscheinprüfung, des Weiteren Arbeitsproben wie orthographische Richtigkeit beim Diktat

150

Kapitel 2 · Grundlagen diagnostischer Verfahren

2 Quantitative Bestimmung der inhaltlichen Validität

Ü-Koeffizient der Beurteilerübereinstimmung

und Tempo in Kurzschrift oder Maschinenschreiben, wenn es um die Eignung als Sekretärin geht. Ferner gehören auch Untersuchungen an Fahr- und Flugsimulatoren hierher. In solchen Fällen ist die Übereinstimmung zwischen der Test- und Nicht-Testsituation unmittelbar augenfällig, weshalb darauf verzichtet werden kann, diese näher zu bestimmen. Es lassen sich aber leicht andere Beispiele anführen, wo die Entsprechungen weniger evident sind und es zweckmäßig erscheint, numerische Werte für die inhaltliche Validität zu ermitteln. Meist wird dabei wie folgt verfahren: In einem ersten Schritt wird das in Betracht gezogene Zielkonstrukt begrifflich und theoretisch expliziert. Sofern noch keine Aufgaben oder Fragen vorliegen, die das Zielkonstrukt treffen sollen, werden diese sodann nach Maßgabe operationaler Definitionen (s. Fricke, 1974) oder generativer Regeln (Klauer, 1987) erstellt. Die vorliegenden oder erhaltenen Items werden von mehreren unabhängig voneinander arbeitenden Personen (meist Experten oder zumindest in die Materie eingewiesene) daraufhin beurteilt, inwieweit sie dem Inhalt des Konstruktes, ggf. auch den Vorgaben der generativen Regeln entsprechen. Mitunter kommt es auch darauf an, die Einhaltung vorgegebener Quoten (z. B. Aufgaben mit bestimmten Strukturmerkmalen) einzuschätzen. Das Maß der Beurteilerübereinstimmung liefert einen Koeffizienten für die Inhalts- oder Kontentvalidität. Herangezogen werden dafür die pro Item beobachtbaren Urteilsstreuungen zwischen den Einschätzern. Für die Gesamtzahl der Items einer Skala bietet sich der Ü-Koeffizient von Fricke (1974, S. 40–43) an:  = 1 - QSinnh U QSmax

(2.82)

Ü = Übereinstimmungskoeffizient, QSinnh = Quadratsumme innerhalb der Personen, QSmax = maximal mögliche Quadratsumme innerhalb der Personen. Die Anwendung dieses Maßes wird anhand des folgenden Beispiels (. Tab. 2.18 und . Tab. 2.19) demonstriert. Beispiel

Der Lehrplan für den Unterricht in Gestaltender Kunst an den Akademien der Bundesländer sieht vor, den Studierenden die Ziele 4 Originalität, 4 Innere Stimmigkeit, 4 Ausgleich von Form und Inhalt, 4 Intellektualität des Hintergrundes bei der Anfertigung ihrer Gemälde zu vermitteln. Um den Lehrenden und Studierenden konkrete Beispiele vor Augen zu führen, wählt eine staatliche Sachverständigenkommission unter Beteiligung der Akademien eine Reihe von Bildern aus, bei denen nach ihrer Auffassung jedes der Ziele in optimaler Weise erreicht ist. Bevor diese Bilder den Lehrplänen als Anschauungs6

151

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

material beigefügt werden, beurteilen 4 Professoren für Kunst in einer Art Kreuzvalidierung, ob jedes der Kriterien aus ihrer Sichtweise erfüllt ist. In . Tab. 2.18 und . Tab. 2.19 werden Urteile einer Gruppe von Personen aufgelistet, ob das Kriterium 1 bzw. Kriterium 2 (7 weiter oben) in jedem von 6 Bildern erfüllt ist (= 1) oder nicht erfüllt ist (= 0). . Tabelle 2.18. Kriterium 1

Professoren

Bilder

Randsumme

1

2

3

4

5

6

1 2 3 4

1 0 1 1

0 1 1 1

1 1 0 1

1 1 1 0

0 0 1 1

1 1 0 1

Rohwert

3

3

3

3

2

3

4 4 4 5

. Tabelle 2.19. Kriterium 2

Professoren

Bilder

Randsumme

1

2

3

4

5

6

1 2 3 4

1 1 1 1

0 1 0 1

1 1 0 1

1 1 1 1

0 1 1 0

0 0 1 1

Rohwert

4

2

3

4

2

2

3 5 4 5

Die Formel lautet:

 = 1 U

n

n

j=1

j=1

4 (k ∑x j - ∑x j ) n⋅ k2

2

.

k = Anzahl der Beurteiler, n = Anzahl der Bilder, xj = Rohwert (d. h. Summe) von Bild j. Für das Kriterium »Originalität« ergibt sich demnach ein Ü-Koeffizient von  = 1 - 4 (4 ⋅17- 49) = 1 - 76 = 0.208, U 6 ⋅16 96

für das Kriterium »Innere Stimmigkeit« ein solcher von  = 1 - 4 (4 ⋅17- 53) = 1 - 60 = 0.375. U 6 • 16 96

2

152

Kapitel 2 · Grundlagen diagnostischer Verfahren

Experimentelle Bestimmung der inhaltlichen Validität

2

Denkbar ist auch eine Bestimmung der Inhaltsvalidität auf experimentellem Wege: Mindestens 2 Gruppen von Personen werden die Explikationen eines Konstruktes sowie die Regeln vorgegeben, nach denen Items zu generieren sind. Die auf diese Weise unabhängig voneinander entstandenen Tests werden dann von einer größeren Stichprobe von Probanden bearbeitet. Die zwischen den Ergebnissen auftretende Korrelation ist gleichfalls ein Maß für die inhaltliche Validität beider Verfahren (s. Fricke, 1974, S. 45). 2. Kriteriumsbezogene Validität. Immer dann, wenn es nicht möglich ist, das Ziel-

Korrelationsschluss vom Testergebnis auf das Kriterium

merkmal als Ganzes oder wenigstens Stichproben daraus in einem Test zusammenzustellen, sondern die ausgewählten Verhaltensweisen oder Aufgaben nur bestimmte Merkmale indizieren (also für etwas anderes stehen und nicht nur für sich selbst), bedarf es eines Korrelationsschlusses, um von den Ergebnissen des Tests auf das interessierende Zielmerkmal oder Kriterium schließen zu können. Eine solche Korrelation muss empirisch ermittelt werden. Zu diesem Zweck bearbeitet eine Stichprobe von Probanden den Test, und es wird geprüft, ob die Ergebnisse mit dem Kriterium übereinstimmen, d. h. mit Punktwerten. Diese indizieren ihrerseits interindividuelle Unterschiede in der Zieldimension und müssen unabhängig von der Testung ermittelt worden sein. Um diese Unabhängigkeit der Erhebungsmodalitäten deutlich zu machen, hat man den Begriff »Außenkriterium« für Messwertreihen gewählt (im Unterschied zu sog. »Binnenkriterien« wie dem Skalenscore als Kriterium für die Bestimmung der Trennschärfe). Der Validitätskoeffizient wird mit rtc bezeichnet, der Korrelation des Tests mit einem Kriterium (engl.: criterion). Beispiel

Ein überregional operierendes Taxiunternehmen führt eine Untersuchung zur psychologischen Erfassung der Eignung zum Führen eines Taxis durch. Die im Unternehmen beschäftigten Fahrer werden von ihren Gruppenleitern hinsichtlich ihres beruflichen Erfolges, also der Eignung, eingeschätzt (= Kriterium). Dafür bieten sich u. a. die folgenden Gesichtspunkte an: Die Zahl beförderter Passagiere in einem festgelegten Zeitraum, zurückgelegte Wegstrecken, die Zahl von Unfällen, Schäden am Fahrzeug, Beschwerden von Fahrgästen, Fehlzeiten und Strafmandate (die letzten Merkmale mit jeweils negativer Gewichtszahl). Jede dieser Variablen indiziert nur einen bestimmten Aspekt des »Berufserfolges«. Es mag deshalb naheliegen, die einzelnen Punktwerte zu einem Globalwert der Eignung zusammenzufassen. Je nach dem Dafürhalten der maßgeblichen Vorgesetzten oder der Unternehmensleitung erfahren einzelne Subdimensionen eine besondere Gewichtung. So könnte die Organisation bestrebt sein, nach außen ein nobles Erscheinungsbild abzugeben und aus diesem Grunde saubere Kleidung und verbindliche Umgangsformen als besonders wichtig erachten. (Das macht deutlich, dass Kriterien sich keineswegs immer auf selbstverständliche Weise ergeben, sondern häufig von Festlegungen verschiedenster Art wie Zielvorstellungen, Verfügbarkeit, Akzeptanz, Kosten u. Ä. abhängen.) Mit jeder der Einzelvariablen und/oder deren optimaler Kombination als Kriterien für die Fahrereignung werden die Ergebnisse solcher Leistungstests korreliert, die als einschlägig erachtet und deshalb den Beschäftigten vorgegeben werden: Dazu zählen vielleicht allgemeines Wissen, verbales Verständnis und Wortschatz (um 6

153

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

die Voraussetzungen für Kommunikation mit den Fahrgästen und im Unternehmen zu prüfen), rechnerisches Denken, Merkfähigkeit, technisches Verständnis, motorische Fertigkeiten, des Weiteren Fragebogen zur Extraversion, Aggressivität und Frustrationstoleranz. Die korrelative Übereinstimmung zwischen der Kombination der Testwerte einerseits und derjenigen der Kriteriumsvariablen andererseits zeigt die Validität der Testbatterie gegenüber »dem« Kriterium an, d. h. das Ausmaß, in dem die Unterschiede im Außenkriterium durch Unterschiede in den Testleistungen erfassbar sind.

Da häufig mehrere Kriterien vorliegen oder denkbar sind und vorab nicht entschieden werden kann, welches davon das optimale ist, hat ein Test so viele Validitäten, wie es vernünftige Kriterien für dasjenige gibt, was der Test messen soll. Wie unmittelbar einzusehen ist, hängt die kriteriumsbezogene Validität u. a. von den folgenden Faktoren ab: 4 der Reliabilität des Tests, 4 der Reliabilität des Kriteriums,

Einflussfaktoren der kriteriumsbezogenen Validität

(Diese Voraussetzungen sind geradezu trivial, denn wenn eine Variable nicht mit sich selbst korreliert, kann sie schon gar nicht mit anderen Variablen kovariieren.) 4 vom Grad dessen, was Test und Kriterium an konzeptueller Gemeinsamkeit enthalten. Lienert (1989, S. 17) spricht in Bezug auf den letzten Faktor von »Zulänglichkeit« als der Kommunalität, die nach Absehung von der Reliabilität des Tests und derjenigen des Kriteriums besteht. Die numerische Bestimmung der Zulänglichkeit müsste deshalb mittels der doppelten Minderungskorrektur erfolgen (7 Abschn. 2.1.1.3). Dabei wird jedoch primär der technisch-instrumentellen Unzulänglichkeit Rechnung getragen, nicht so sehr dagegen der Zentralität oder der inhaltlichen Validität des Kriteriums für das in Frage stehende Konstrukt. Unter sonst gleichen Voraussetzungen wird ein Kriterium valide (und der Test eher zulänglich) sein, wenn es sich um eine Indizierung derselben Merkmalsdimension handelt, d. h. semantisch und theoretisch eine hohe Ähnlichkeit besteht. Eine Qualifizierung als Kriterium erlangen entsprechende Variablen erst dann, wenn sie darüber hinaus einen höheren Status aufweisen, letztlich also verlässlicher und entscheidungsrelevanter sind. Als informelle Regel bei der Beurteilung des Status empfiehlt Burisch (1984), sich das Dilemma zu vergegenwärtigen, auf der Basis inkonsistenter Informationen diagnostische Entscheidungen von erheblicher praktischer Bedeutung vornehmen zu müssen. So müssten die Fragen beantwortet werden, ob ein Patient wegen seiner Depression hospitalisiert werden müsse oder nicht, ob ein mehrfach rückfälliger Straftäter nach Verbüßung einer längeren Haftstrafe bedingt entlassen werden dürfe oder nicht, ob sich ein Bewerber für eine risikoreiche Expedition aufgrund seiner emotionalen Stabilität eigne oder nicht. Zwei Informationsquellen (z. B. die Einschätzung von Ärzten, Anstaltsleitung oder Bekannten bzw. die Punktwerte vorgegebener Tests) lieferten wechselseitig inkompatible Hinweise, die Variable X1 in der einen, X2 in der anderen Richtung. Diejenige Quelle, die den Ausschlag gäbe, qualifiziere sich als »echtes« Kriterium. Davon zu unterscheiden sind solche Kriterien, für die zwar die Bedingung der semantischen und theoretischen Äquivalenz, nicht aber diejenige des höherwertigen

Kommunalität als Grad der konzeptuellen Gemeinsamkeit von Test und Kriterium

Auswahl einer geeigneten Kriteriumsvariablen

»Echte Kriterien«

154

Kapitel 2 · Grundlagen diagnostischer Verfahren

»Quasikriterien«

2

Target-Variablen

»Effektivität« von Skalen

Berücksichtigung von Grund- und Selektionsquoten

Konkurrente und prädiktive Gültigkeit

Ranges gilt. Solche Variablen verdienen nur eine Bezeichnung als »Quasikriterien«, da sie ihrerseits einer Validierung an echten Kriterien bedürfen. Das trifft etwa auf jene Fälle zu, in denen eine neu entwickelte Skala an einem Test »validiert« wird, der dasselbe Merkmal erfassen soll. So sind zahlreiche Intelligenztests mit dem Binet-Staffeltest verglichen worden, weil dieser selbst am Altersverlauf der Lösungswahrscheinlichkeiten und am Lehrerurteil entwickelt wurde. Bei der dabei verwendeten externalen Konstruktionsstrategie war die Validität der Items gleichsam Voraussetzung und deshalb gewährleistet. Von »echten« und »Quasikriterien« zu unterscheiden sind die sog. Target-Variablen. Dabei handelt es sich um eine spezifische Klasse von Kriterien, die aufgrund bestehender Sachzwänge vorhergesagt werden müssen, und zwar auf der Basis irgendwelcher Informationen. Beispiele dafür sind das Suizidrisiko bei psychiatrischen Patienten, die Zufriedenheit oder Unfallneigung von Beschäftigten in einem Betrieb oder das Alkoholismusrisiko bei Funktionsträgern in Überwachungsbereichen. In solchen Fällen kommt es lediglich auf das prognostische Ziel einer Maximierung der Trefferquoten an. Jede Testskala ist hierbei willkommen, die in signifikanter Weise zur Aufklärung der TargetVarianz beiträgt, gleich ob die Konfiguration der Testbatterie unter inhaltlich-psychologischer Perspektive einen (theoretischen) Sinn macht oder nicht. Die Korrelation von Skalen mit solchen Target-Variablen sollte zweckmäßigerweise als Effektivität bezeichnet werden. Die Höhe dieses Koeffizienten sagt nur wenig über den verwendeten Test als solchen aus, sondern nur etwas über die Angemessenheit seines Einsatzes: Ein Hammer beispielsweise zum Sägen oder Schrauben verwendet, würde nur eine geringe Effektivität aufweisen, und zwar nur deshalb, weil er dysfunktional eingesetzt wäre. Weil Target-Variablen meist in alternativ abgestufter Form vorliegen (hospitalisiert ja/nein; gefährdet/nicht gefährdet usw.) stellt sich hier das Problem des umgekehrt u-förmigen Zusammenhanges zwischen Grundquote und Höhe der Korrelation (das bereits unter der Trennschärfe angesprochen wurde; 7 Abschn. 2.2.7.2, S. 121, Implikationen: . Abb. 2.29) erneut, diesmal im Hinblick auf die Validität. Die Untersuchungen von Hollmann (1993) haben nachdrücklich vor Augen geführt, dass – abgesehen von der Art des verwendeten Korrelations-Koeffizienten – bei der Beurteilung »der« Validität unbedingt die Grund- und mehr noch die Selektionsquoten berücksichtigt werden müssen; letztere können z. B. je nach den wirtschaftlichen Gegebenheiten und dem Verhältnis zwischen Zahl der Bewerber und freien Stellen starken Schwankungen unterliegen. Burisch (1984) hat die vorgenannten 3 Arten von Validierungen anhand der nachfolgenden Graphiken veranschaulicht (. Abb. 2.31). Als Unterformen der kriteriumsbezogenen Validität lassen sich wiederum die konkurrente (gleichzeitige) und die prädiktive Gültigkeit voneinander unterscheiden. Die erste ist dann gegeben, wenn Test- und Kriteriumswerte nahezu gleichzeitig erhoben werden, die zweite liegt dann vor, wenn zu einem Zeitpunkt t1 die Testscores und zu einem späteren Zeitpunkt t2 die Punktwerte im Kriterium erhoben werden. Bestehen signifikante Korrelationen, so sprechen wir bei konkurrenter oder auch Übereinstimmungsvalidität davon, dass sich die Varianz des Kriteriums (als deskriptives Konstrukt) auf die Varianz der Testwerte zurückführen oder durch sie (als explikatives Konstrukt) auf- bzw. erklären lässt. Häufig hängt es allerdings nur von der Perspektive des Betrachters ab, in welcher Rolle jedes der beiden miteinander verglichenen Konstrukte gehandhabt wird, denn ebensogut wie man den schulischen Erfolg auf Intelligenz zurückführen kann, ist es möglich, Intelligenz mit der schulischen Leistung zu erklären usw. (»Henne-EiProblem«).

155

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

. Abb. 2.31. Verschiedene Arten von Validierungen. (Aus Burisch, 1984)

Deshalb kommt der prädiktiven Validität ein höherer Stellenwert zu: Nach den Regeln unserer Logik kann nur zeitlich Früheres ursächlich verantwortlich sein für zeitlich Späteres und damit dieses erklären (sofern der Einfluss von Drittvariablen ausgeschlossen ist). Es spricht deshalb besonders nachhaltig für die Brauchbarkeit eines Tests, wenn etwa dessen heute ermittelten Punktwerte den Ausbildungs- oder Berufserfolg in 10 Jahren präzise vorherzusagen erlauben, das Instrument somit eine hohe prädiktive Validität aufweist. Wegen der im Vorhersageintervall auf die Probanden einwirkenden sehr verschiedenen und schwerlich kontrollierbaren Bedingungen liegen die Koeffizienten für die prädiktive Validität in aller Regel deutlich unter denen der konkurrenten Validität.

Stellenwert der prädiktiven Gültigkeit aufgrund der Brauchbarkeit von Vorhersagen

156

Kapitel 2 · Grundlagen diagnostischer Verfahren

Exkurs

2

Validität bei eingeschränkter Variabilität Für Auslese- und Platzierungsentscheidungen auf der Basis von psychodiagnostischen Informationen bedarf es vorheriger längsschnittlicher Erhebungen. Damit wird der Fehlermöglichkeit vorgebeugt, wonach beispielsweise das Ausüben einer beruflichen Tätigkeit auch Auswirkungen auf das Lösen von Testaufgaben hat, etwa weil dabei Fertigkeiten vermittelt oder geübt werden, die bei der Bearbeitung des Tests dienlich sind. Dadurch aber würden die Testleistungen einseitig erhöht, ohne dass damit eine äquivalente Mehrleistung im Kriterium einherginge. Dies hätte die Folge, dass der Testwert für die Trennung voraussichtlich erfolgreicher und erfolgloser Bewerber falsch festgelegt wird. Diese Fehlerquellen werden vermieden, wenn zunächst die Prädiktorenscores erhoben, dann die (unter optimalen Bedingungen: alle getesteten) Probanden zum jeweiligen »treatment« (Behandlung, Schulung, Berufstätigkeit usw.) zugelassen und schließlich deren Erfolgsraten registriert werden. Der Rekurs auf die dabei gewonnenen Erkenntnisse (die Höhe des Validitätskoeffizienten, Quoten von Erfolg und Misserfolg usw.) bei zukünftig anstehenden Entscheidungen setzt somit die Konstanz aller Rahmenbedingungen voraus. Das heißt, es muss unterstellt werden, dass die sich später meldenden Bewerber auch repräsentativ sind für die seinerzeitige Forschungs- oder Begleituntersuchung und alle zwischen Testung und Erhebung der Kriteriumswerte auftretenden sozialen, ökonomischen und ökologischen Faktoren auch später dieselben sein werden – sicher weithin eine Fiktion. Da es aus verschiedenen Gründen nur selten möglich ist, alle Bewerber einzustellen, muss eine Selektion erfolgen. Für diese wird mitunter bereits auf den Test zurückgegriffen, dessen längsschnittliche Validität erst erprobt werden soll, etwa deshalb, weil man auf dessen Validität bereits vertraut, und zwar in der Art und Weise, dass die Leistungsschwächsten nicht zugelassen werden. In der Prädiktordimension (und weniger stark auch in der Kriteriumsvariablen) kommt es dadurch zu einer Einengung der Variabilität, d. h. für die Validitätsprüfung steht nicht mehr die gesamte Streubreite der Messwerte zur Verfügung, mit der Folge einer Minderung des Validitätskoeffizienten (. Abb. 2.32). Es sind deshalb Formeln entwickelt worden, um den bei restringierter Streuung im Prädiktor empirisch ermittelten Validitätskoeffizienten auf repräsentative Breite aufzuwerten:

rtc ⋅ Sx sx R tc = 2 2 rtc ⋅ Sx 2 1-rtc + 2 sx

(2.83)

Rtc = auf die größere (repräsentative) Streuung von Sx aufgewerteter Validitätskoeffizient, rtc = beobachteter Validitätskoeffizient, sx = beobachtete Messwertestreuung, Sx = angenommene Messwertestreuung.

157

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

. Abb. 2.32. Korrelationshöhe in Abhängigkeit von der Homogenität der Probandenstichprobe. Selegiert man nur die im Test höher als der Durchschnitt scorenden Personen, wird die Korrelationsellipse der dann homogeneren Stichprobe runder als sie in der unausgelesenen Stichprobe ist. Wegen der hier angenommenen recht hohen Korrelation zwischen Test und Kriterium bedeutet die Selektion nach dem Prädiktor zugleich auch eine solche im Kriterium. (Aus Amelang & Bartussek, 1990, S. 103)

Beispiel

Ein neuentwickelter Test hätte in der Normierungsstichprobe eine Streuung von Sx = 10 aufgewiesen. In der Validierungsgruppe habe sich nur ein Wert von sx = 5 gezeigt; die Validität sei mit rtc = .50 errechnet worden. Wie hoch wäre die Validität ausgefallen, wenn die gesamte Prädiktor-Streuung vorgelegen hätte?

R tc

.50 ⋅10 5 = .502 ⋅102 1− .502 + 52 1 1 1 = = = = .76. 25 1.75 1.32 .75 + 25

Als Voraussetzung gilt die Annahme, dass die Standardschätzfehler und die Steigung der Regressionsgeraden gleich sind. Analoge Formeln liegen auch für jene Fälle vor, in denen nur die Kriteriumsvarianz eingeschränkt ist (wenn etwa die ungeeigneten Personen durch Entlassung oder Umsetzung für die Validitätsprüfung nicht mehr zur Verfügung stehen) oder sofern die Selektion und die damit einhergehende Varianzeinschränkung anhand eines bereits validitätserprobten Tests stattfanden, mit dem das neuentwickelte Verfahren der ausgelesenen Stichprobe korreliert (s. dazu Lienert, 1989, S. 304–309). Noch komplizierter sind diejenigen Fälle, in denen die »eigentliche« Validität für einen neuen Test ermittelt werden soll, der mit bewährten Skalen korreliert, anhand derer eine Selektion, gestaffelt nach der Höhe der Prädiktionsscores, vorgenommen

Weitere mögliche Varianzeinschränkungen

158

Kapitel 2 · Grundlagen diagnostischer Verfahren

wurde. Diese Konstellation lag vor bei der Erprobung des Tests für Medizinische Studiengänge (TMS). Die Zulassung erfolgte nach Maßgabe der Schulnoten, und zwar derart, dass die Zulassungschance von Note zu Note multiplikativ anstieg. Demgemäß ist die Stichprobe der Zugelassenen in Form und Breite der Prädiktionswerteverteilung »verschoben«. Bartussek et al. (1986) haben die notwendigen Entzerrungen modellhaft vorgenommen und eine prädiktive Validität des TMS für die Examenszwischennote von rtc=.45 errechnet.

2

3. Konstruktvalidität. Gleichsam eine Synthese aus inhaltlicher und kriteriumsbezogeEinbettung des Konstrukts in andere Konstrukte

Validierung als Prozess

Kennwerte zur Konstruktvalidität existieren nicht

ner Validität stellt die Konstruktvalidität dar. Darüber hinausgehend wird unter diesem Begriff die Einbettung des mit einem Test erfassten Konstruktes in das nomologische Netzwerk anderer, und zwar teils inhaltlich ähnlicher und teils völlig »artfremder« Konstrukte verstanden. Auf diese Weise fällt die Perspektive zumindest vom Anspruch her sehr viel breiter aus als bei den üblichen Validitätsuntersuchungen. Ferner gehört zu dem Bedeutungsgehalt des Begriffes die Vorstellung von einem andauernden Prozess: Weniger die Validität als ein gewissermaßen fertiges »Produkt«, sondern mehr die Validierung als Vorgang, dessen Abschluss offen steht, ist damit gemeint. Wie die erwähnte Einbettung im Einzelnen zu erfolgen hat, dafür existieren keine Handlungsanweisungen. Im Allgemeinen wird der postulierte Validierungsprozess darauf hinauslaufen, aus dem gewählten Konstrukt eine möglichst große Zahl verschiedener Hypothesen zum Verhalten von Personen mit unterschiedlichen Testscores auf der fraglichen Dimension abzuleiten. In mehreren gesonderten Schritten kommt es sodann darauf an, diese Hypothesen empirisch und/oder experimentell zu überprüfen. Dabei ist es wünschenswert, ein möglichst breites Spektrum von Verhaltensbereichen abzudecken und tunlichst verschiedene Analysemethoden anzuwenden, wie Mittelwertsprüfungen, Cluster- und Faktorenanalysen usw. Die Gesamtheit der erhaltenen Resultate steht dann für die Konstruktvalidität des Tests. Kennwerte, die dieses facettenreiche Bild in einem quantitativen Ausdruck zusammenfassen, existieren nicht. Beispiel

Die Theorie zur Introversions-Extraversions-Dimension von Eysenck (1957) beinhaltet im wesentlichen die Vorstellung, dass alle zentralnervösen Prozesse durch ein genetisches, interindividuell unterschiedliches Verhältnis von nervösen Erregungszu Hemmungsprozessen gekennzeichnet sind. Extravertierte sind nach Eysenck dadurch gekennzeichnet, dass sie zur Ausbildung nur schwacher exzitatorischer Potentiale, aber schnell aufgebauter, intensiver und langsam abklingender inhibitorischer Prozesse neigen. Introvertierte sollen umgekehrt starke exzitatorische Potentiale, aber nur langsam einsetzende, schwache Inhibitionsprozesse aufweisen. Als neurophysiologisches Korrelat der »excitation-inhibition-balance« wird die Erregungsschwelle des aufsteigenden retikulären Aktivierungssystems (ARAS) gesehen, und zwar mit einer bei Introvertierten leichteren, bei Extravertierten erschwerten Affizierbarkeit. Für eine Skala, die auf das besagte Erregungs-Hemmungs-Gleichgewicht abhebt, resultieren daraus u. a. die folgenden Vorhersagen: 4 Bei Applikation von sedierenden Psychopharmaka müssten Extravertierte eher Leistungseinbußen erkennen lassen als Introvertierte; umgekehrt sollten stimu6

159

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

4

4

4

4

lierende Substanzen bei Extravertierten größere Leitungszuwächse produzieren als bei Introvertierten. In fortlaufenden einfachen motorischen Handlungen mit Wiederholungscharakter sind eher Anzeichen von »Ermüdung« (Hemmung) bei den Extravertierten als bei den Introvertierten zu erwarten. Die Schmerzresistenz ist bei Extravertierten höher als bei Introvertierten. Zu prognostizieren ist bei Extravertierten auch ein stärkerer Reminiszenzeffekt, ein höherer α-Anteil im Ruhe-EEG und ein geringeres Langzeitgedächtnis. Im Sozialverhalten sind auf seiten der Extravertierten höhere Kriminalitäts- und Scheidungsraten zu erwarten, des Weiteren eine Neigung zu Drogen im weitesten Sinne (Alkohol, Nikotin), Einstellungen mehr im Sinne von »tough-mindedness« und weniger in Richtung von »tender-mindedness«. Eine Erregung des limbischen Systems, das als neurophysiologische Grundlage von Neurotizismus angenommen wird, führt vorliegenden Anhaltspunkten zufolge zu retikulärem Arousal, also einer nervösen »Feuerung« (aber umgekehrt führt retikuläres Arousal nicht zu limbischer Aktivation). Aus diesem Grunde ist eine geringe Korrelation der Neurotizismus- mit Introversionsscores wahrscheinlich.

Zu all diesen und vielen weiteren theoriegeleiteten Hypothesen liegen bestätigende Befunde vor. Ungeachtet einiger Inkonsistenzen (s. Amelang & Bartussek, 1990, S. 321–331) ist dadurch die Konstruktvalidität der E-I-Skala in einer außerordentlich umfassenden Weise abgeklärt. Daneben werden ständig weitere Arbeiten durchgeführt, als deren Folge sich u. a. auch Differenzierungen und Modifikationen der zugrundeliegenden theoretischen Vorstellungen ergeben.

Der geschilderte Variantenreichtum von Ansätzen, Methoden und Analysen einerseits, die Beliebigkeit der Vorgehensweise und die Kombination von Elementen andererseits, hat die Konstruktvalidität dem Vorwurf ausgesetzt, es fehle ihr an methodischer Stringenz, und auch zur präzisen Elaboration der Konstrukte (Pervin, 1981, S. 147) leiste sie keinen eigenständigen Beitrag. In der Tat trifft zu, dass die Konstruktvalidierung nicht über ein spezifisches Arsenal an Methoden oder Analysetechniken verfügt, sondern als Ober- und Sammelbegriff die bekannten Validitätsarten nur konstruktzentriert bündelt. Als ein besonderes Instrument der Zusammenführung von Validitätsklassen kann hier allerdings die sog. Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) rubriziert werden, bei der es sich um ein vergleichsweise sophistiziertes Validierungskonzept handelt. Ihr Grundgedanke besteht darin, dass die Ergebnisse allen wissenschaftlichen Messens auch von der gewählten Methode abhängen. Jedes Konstrukt ist nicht »an sich« beobachtbar oder aufzeigbar, sondern zumindest teilweise eine Resultante der vorgenommenen Operationalisierungen zu deren Erfassung. Von daher besteht ein wichtiges Anliegen darin, den spezifischen Anteil, den die jeweilige Operationalisierung oder Methode an der beobachtbaren Variation erzeugt, aus der Konfundierung Konstrukt plus Methode herauszulösen und »sichtbar« zu machen. Dazu sind mindestens die Kombinationen von 2 Konstrukten mit 2 Methoden (z. B. ein Test und dazugehörige Fremdeinschätzungen) erforderlich. Die angestrebte Trennung gelingt dann am besten, wenn Konstrukte und Methoden voneinander stark divergieren. Das

Multitrait-Multimethod-Analyse

2

160

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

zentrale Prinzip besteht darin, die 4 Messwertreihen an einer Stichprobe von Personen zu erheben und Korrelationen zu analysieren. Die verschiedenen Methoden zu einem Konstrukt sollten miteinander hoch, die mit ein und derselben Methode erfassten Konstrukte jedoch niedrig miteinander interkorrelieren (konvergente bzw. diskriminante Validität), d. h. auch bei identischer Methode sollten sich unähnliche Konstrukte als relativ unabhängig erweisen. Nachfolgend wird ein empirisches Beispiel dazu gegeben. Eingehender sind die Prinzipien der Multitrait-Multimethod-Analyse von Ostendorf et al. (1986) dargestellt und anhand von Erhebungen an N = 641 Probanden mit der deutschsprachigen Form der Personality Research Form exemplifiziert worden. Beispiel

Bei der Erprobung einer neuen Skala für zwischenmenschliches Vertrauen bearbeiteten 101 Erwachsene beiderlei Geschlechts u. a. 3 Fragebogentests zum Konstrukt Vertrauen, und zwar eine deutschsprachige Adaptation der auf Rotter zurückgehenden Interpersonal Trust Scale sowie die Skalen Self Reported Trust (SRT) von Constantinople (1970) und Trust aus den Philosophies of Human Nature (HN) von Wrightsman (1974). Als diskriminante Konstrukte dienten Extraversion und Neurotizismus, erfasst mit Hilfe des Eysenck-Personality-Inventory. Als alternativer methodischer Zugang zu diesen Fragebogen standen Fremdeinschätzungen von jeweils 2 Bekannten oder Freunden auf konstruktadäquaten Eigenschaftsdimensionen zur Verfügung. Die Resultate sind ausschnitthaft in . Tab. 2.20 zusammengestellt. . Tabelle 2.20. Multitrait-Multimethod-Matrix mit den Methoden 1 (Fragebogen) und 2 (gemittelte Fremdeinschätzung) sowie den Konstrukten Vertrauen (erfasst mit den Skalen IT27, SRT und HN) sowie Extraversion und Neurotizismus. (Nach Amelang et al., 1984, S. 210)

Methode 1 IT27

SRT

Methode 2 HN

E

N

Vertrauensvoll

Gesellig

Ängstlich

Methode 1 IT27

.84

SRT

.57ss

.70

HN

.57ss

.41ss

.73

E

.00

.28s

.17

.83

N

–.25ss

–.02

–.15

.85

.18

.69ss

–.03

.40ss

–.16

Methode 2 Vertrauensvoll

.24ss

.42ss

.22ss

.04

Gesellig

.02

.26

.00

.34ss

Ängstlich

.05

–.04

.11

6

–.18

.41ss

.10

.67ss –.12

.42ss

161

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

In der Matrix gebührt den Diagonalen vorrangige Aufmerksamkeit: 4 In der Hauptdiagonalen stehen die Reliabilitäten der Skalen. Diese Werte sind

am höchsten, was als eine Grundtatsache zu erwarten ist. Von spezifischer Bedeutung für die hier anstehende Analyse sind andere Werte: 4 Die Koeffizienten für die Kombination von Test mit »zugehörigen« Rating-

Dimensionen finden sich im linken unteren Drittel und sind durch Schattierung besonders hervorgehoben. Alle Werte sind mindestens auf dem 5%-Niveau signifikant. Das arithmetische Mittel beträgt r-tc = .35. Mit dem Nachweis dieser signifikanten (konvergenten) Validitäten ist die erste Forderung erfüllt. 4 Eine zweite Forderung geht dahin, dass die eben dargestellten Kombinationen höhere Koeffizienten aufweisen als die »nichthomologen« Paarungen von Testund Fremdeinschätzungsskalen. In der Tat beträgt deren arithmetisches Mittel nur r- = .10 (ohne Berücksichtigung des Vorzeichens), was die diskriminante Validität belegt. 4 Die dritte Forderung bezieht sich auf das Multitrait-Monomethod-Dreieck und läuft auf höhere Korrelation innerhalb ein und desselben Traits (bei Konstanz der Methode) als zwischen den Traits hinaus. Das betrifft im vorliegenden Material nur die linke obere Matrix. Das Mittel der eingerandeten Koeffizienten beträgt r- = .51, dasjenige der restlichen Werte außerhalb der Reliabilitätsdiagnonalen nur r- = .15. Auch hier findet sich also ein wesentlicher Unterschied zwischen konvergenter und diskriminanter Validität. 4 Eine vierte Forderung verlangt schließlich identische Zusammenhänge zwischen den Traits unabhängig von der Messmethode (Äquivalenz der divergenten Validitäten). Während sich für die Fragebogen ein Zusammenhang zwischen den 3 Vertrauensskalen und Extraversion von durchschnittlich r- = .15 errechnet, beträgt der eine Koeffizient für die Kombination der Fremdeinschätzungen vertrauensvoll/gesellig r = .40; das stellt keine gute Übereinstimmung dar. Wesentlich günstiger sieht es aber für Neurotizismus aus, wo die entsprechenden Koeffizienten r- = –.14 und r = .10 lauten. Schließlich ist auch der Zusammenhang zwischen E und N mit r = –.15 bzw. r = –.12 durchaus wechselseitig konkordant. Insgesamt können damit die Forderungen von Campbell und Fiske (1959) für die Validierung der Vertrauensskala als erfüllt gelten.

2.3.2

Nebengütekriterien

Über die relative Wichtigkeit der Nebengütekriterien zueinander (und auch zu den Hauptgütekriterien) mögen die Meinungen auseinandergehen. Es gibt keine Anhaltspunkte für eine unter allen Gesichtspunkten objektive Entscheidung. Für die nachfolgende Darstellung sollen 2 Kriterien herausgegriffen werden, von denen das eine relativ »testnah« ist, insofern es die Einordnung der ermittelten Testscores in das Verhalten anderer Testteilnehmer betrifft, das andere mehr »entscheidungsnah«, weil die aus den Testdaten abzuleitenden Konsequenzen im Vordergrund stehen.

2

162

Kapitel 2 · Grundlagen diagnostischer Verfahren

Normierung Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testscores im Vergleich zu denen einer größeren und meist »repräsentativen« Stichprobe von Testteilnehmern einordnen zu können. Auch wenn eine Skala hochgradig objektiv, reliabel und auch valide sein mag, so interpretieren sich die damit erhaltenen Scores doch nicht »aus sich selbst heraus«. Beispielsweise bedeuten 15 richtige Lösungen etwas Verschiedenes, wenn die Zahl angebotener Aufgaben auch 15 oder aber 30 beträgt, und sie bedeuten etwas völlig Verschiedenes, wenn alle anderen Probanden auch 15 geschafft haben oder aber keiner. Noch in einem anderen Sinne bedeuten die 15 Richtigen etwas anderes, je nachdem, ob von ihnen die Leistung des Probanden oder aber die Schwierigkeit des Tests charakterisiert werden soll. Die Normierung stellt den diesbezüglich erforderlichen Bezugsrahmen zur Verfügung und sagt uns, was die Rohpunktwerte »bedeuten«. Zu diesem Zweck werden die Rohwerte in transformierte Werte überführt, deren Bedeutung durch Rekurs auf bestimmte Operationalisierungen bekannt ist. 2.3.2.1

2

Normierung als Bezugssystem zur Interpretation von Testscores

! Bei diesem Transformationen unterscheidet man 5 Äquivalentnormen, 5 Variabilitäts- oder Abweichungsnormen, 5 Prozentrangnormen.

Äquivalentnormen: Zuordnung der Scores zum Alter oder zu Reifeabschnitten

Bei der Bildung von Äquivalentnormen erfolgt eine Zuordnung der jeweiligen Rohwerte oder Skalenscores zu bestimmten Zeitabschnitten, für die die betreffende Leistung besonders typisch ist, und zwar deshalb, weil sie von einer Referenzgruppe in besonderer Häufung gezeigt wurde. Die Zeitstufe, auf die Bezug genommen wird, stellt bei Intelligenz das Alter, bei Entwicklung der Reifestatus dar (Intelligenz- bzw. Entwicklungsalter). Beispiel

Bei den Staffeltests, die auf Binet zurückgehen, sind die Aufgaben bekanntlich danach ausgewählt worden, dass sie – darin den Entwicklungstests sehr ähnlich – einen besonders steilen Anstieg der Lösungswahrscheinlichkeiten auf bestimmten Altersstufen aufwiesen. Aufgaben qualifizierten sich dann für die Testendform, wenn sie etwa von einer Altersgruppe in besonderer Häufung, von der darunter liegenden Altersgruppe gar nicht gelöst werden konnten. Die Stelle auf dem Alterskontinuum, an der diese Gegebenheiten vorlagen, entschied über die Zuordnung von Aufgaben zu Altersgruppen. Pro Altersstufe gab es 5 Aufgaben, die zusammen 1 Jahr oder 12 Monate Intelligenzalter (IA) definierten. Pro richtig gelöstem Item entsprach das mithin 12/5 IA oder 2,4 Monatsäquivalenten. Wenn ein Proband im Lebensalter (LA) von 8 Jahren (= 96 Monaten) die für seine Altersgruppe vorgesehenen Aufgaben (und auch diejenigen für die darunterliegenden Altersgruppen) richtig beantwortete, entsprach das einem individuellen IA von 96 Monaten oder 8 Jahren. Jede weitere richtige Lösung, gleich auf welcher Altersstufe, würde ein Mehr in Einheiten von 2,4 Monatsäquivalenten bedeuten. Hätte der Proband hingegen nur Aufgaben für die 6jährigen (= 72 Monate) plus 2 weitere aus dem Pool der 7jährigen geschafft, wäre das gleichbedeutend mit einem IA = 72 + (2 × 2,4) = 76,8 gewesen. Aus dem Vergleich des individuellen IA mit dem LA geht hervor, ob die Intelligenz »altersgemäß« ausgeprägt ist oder nicht.

163

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

Die Einheit »Intelligenzalter« (oder bei anderen Tests: »Entwicklungsalter«) bildet somit ein Äquivalent für die Zahl richtiger Lösungen, nämlich jener, die von den Angehörigen einer Altersgruppe mehrheitlich gemeistert werden. Wegen der Plausibilität dieses Konzeptes haben derartige Äquivalentnormen verbreitete Akzeptanz gefunden. Weil gleiche numerische Differenzen (IA–LA) etwas ganz Unterschiedliches bedeuten, je nachdem, auf welcher LA-Stufe sie auftreten (z. B. ein Minus von 2 IA-Einheiten bei einem 12jährigen keineswegs als dramatisch erscheint, bei einem 4jährigen dagegen Schwachsinn anzeigen kann), hat Stern (1911) (. Abb. 2.33) vorgeschlagen, IA und LA in einem Quotienten aufeinander zu beziehen, dem Intelligenzquotienten, und den Bruch zur Gewährleistung ganzer Zahlen mit dem Faktor 100 zu multiplizieren: IQ = (IA/LA) · 100. Damit sollte eine Vergleichbarkeit von Leistungsvorsprüngen bzw. -rückständen über verschiedene Altersstufen erreicht werden [so besteht für einen Probanden, der als 4jähriger ein IA von 3 aufweist (IQ = 3/4 · 100 = 75), als 8jähriger ein IA von 6 erzielt (IQ = 6/8 · 100 = 75) usw. damit eine Konstanz des IQ in seiner Bedeutung als Vergleichsmaßstab zu Altersgleichen]. Gebunden ist dies an die Voraussetzung, dass mit zunehmendem Alter die Streuung der IA-Einheiten proportional zunimmt, was weithin zutraf. Ungeachtet der Gleichheit der Zahlen bedeuten aber psychologisch die beiden IQs etwas ganz Verschiedenes, und zwar deshalb, weil unterschiedliche absolute Leistungen in IA-Einheiten eingehen. Darüber hinaus ist die Bildung eines derartigen Quotienten nur legitim bei strikt linearem Anstieg der Leistungen über das Alter hinweg. Die meisten der vorliegenden Untersuchungen haben demgegenüber einen negativ beschleunigten Entwicklungsverlauf gefunden, mit einem Kulminationspunkt im frühen Erwachsenenalter. Gerade wegen des Abflachens der Leistungszuwächse mit zunehmendem Alter in der Jugendzeit war es unmöglich, das Konzept der Äquivalentnormen auch auf spätere Altersgruppen anzuwenden. Variabilitäts- oder Abweichungsnormen kennen die zuletzt genannten Probleme nicht, setzen dafür aber ein gewisses Verständnis für die Beschreibung von Häufigkeitsverteilungen voraus, in denen die Messwerte entweder im Sinne der Gaußschen Glockenkurve normal oder auch nicht normal verteilt sind. Normalverteilungen kommen dann zustande, wenn an der Hervorbringung einer Merkmalsausprägung 4 eine Vielzahl verschiedener Wirkfaktoren beteiligt ist, 4 diese Faktoren unabhängig voneinander ihren Einfluß entfalten und 4 sich die verschiedenen Wirkungen zu der Merkmalsausprägung addieren. Jedenfalls handelt es sich bei dieser Auflistung um ein Gefüge theoretischer Annahmen von hoher Plausibilität oder um ein Modell, das z. B. in Gestalt des sog. Galton-Brettes das Entstehen von Normalverteilungen bei der zufälligen Kombination vieler Bedingungen (Kugeln, die auf Reihen von Nägeln fallen und unten in Schächten aufgefangen werden) sehr eindrucksvoll vor Augen führt (. Abb. 2.34). Normalverteilungen weisen die Eigenschaften auf, dass 4 der Abstand vom Mittelwert M der Verteilung zu deren Wendepunkt identisch ist mit einer Einheit der Standardabweichung s und 4 die relative Häufigkeit von Messwerten unter den einzelnen Abschnitten der Verteilung, sofern diese in Einheiten der Standardabweichung ausgedrückt werden, stets gleich ist, oder mit anderen Worten: Die Häufigkeit von Maßzahlen steht in direkter Beziehung zu s. Das heißt, immer dann, wenn M und s bekannt sind und feststeht, dass eine »normale« Verteilung vorliegt, kann die gesamte Verteilung aller Messwerthäufigkeiten angegeben werden. So liegen in der Standardnormalverteilung zwischen M und 1s ca. 34% der Maßzahlen, zwischen M und 2s ca. 48% usw.

2

. Abb. 2.33. William Stern führte 1911 das Konzept des Intelligenzquotienten ein

Der Intelligenzquotient als Äquivalentnorm

Variabilitäts- oder Abweichungsnormen: Bezug zu Häufigkeitsverteilungen Kennzeichen von Normalverteilungen

Eigenschaften von Normalverteilungen

164

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.34. Nagelbrett zur Veranschaulichung einer Normalverteilung (Aus Bortz, 1997)

2

Standardnormalverteilung: M = 0 und s =1

Transformation in z-Werte

Konstante Multiplikatoren und Polungen bei Standardskalen

Die sog. Standardnormalverteilung ist durch M = 0 und s = 1 erschöpfend beschrieben. Die Verteilungen von Merkmalen, wie Körpergröße oder Körpergewicht, politischen Einstellungen auf einem globalen Links-Rechts-Kontinuum usw., mögen je nach Art des gegebenen Abszissenmaßstabes verschieden breit bzw. schmal erscheinen. Man erhält jedoch häufig ein und dasselbe charakteristische Aussehen, d. h. denselben Verlauf der Häufigkeiten, wenn als Abszissenmaßstab die empirisch ermittelte Standardabweichung der jeweiligen Verteilung gewählt wird. Das geschieht, indem die Abweichung jedes einzelnen Messwertes X vom Mittelwert M der Verteilung in Einheiten der jeweiligen Streuung sx, also in Standardwerten (z-Werte) ausgedrückt wird: X-M =z sx

(2.84)

Durch diesen Rekurs auf die Standardnormalverteilung sind die Rohwerte in sog. Standardnormen transformiert worden. Jeder z-Wert ist eindeutig dadurch definiert, wie weit der zugehörige Rohwert vom Mittelwert der originalen Maßzahlen entfernt ist (. Abb. 2.35). Zur Vermeidung von negativen Vorzeichen und gebrochenen Zahlen ist es üblich, die z-Werte mit einem Faktor zu multiplizieren und eine additive Konstante hinzuzufügen. Am weitesten verbreitet ist die Konstante 100. Was den Multiplikator angeht, so sind dafür ganz unterschiedliche Größen gewählt worden. Wechsler entschied sich bei der Vorstellung seines »Abweichungs-Intelligenz-Quotienten« für den Faktor 15, und zwar deshalb, weil die Standardabweichung der IQs als Bruch von IA und LA empirisch einen Wert von ca. 15 ergeben hatte und zwischenzeitlich eine allgemeine Vertrautheit damit eingetreten war. Andere Autoren gaben sehr viel kleineren Werten den Vorzug. Beispielsweise beträgt der Multiplikator im Leistungsprüfsystem (LPS) von Horn (1983) nur 2. Maßgeblich dafür war u. a. die Überlegung, dass höhere Multiplikatoren die Gefahr beinhalten könnten, eine Differenzierung vorzuspiegeln, die mit Blick auf die nicht absolute Reliabilität keine Rechtfertigung findet.

165

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

. Abb. 2.35. Relative Häufigkeiten von z- sowie IQ-Werten unter den einzelnen Abschnitten der Normalverteilung

Üblicherweise erfolgt die Polung in der Richtung, dass höheren Normwerten auch höhere Leistungen entsprechen. Diese Regel aber fand keine Anwendung im Begabungstestsystem (BTS) von Horn (1972), das in Analogie zu den Schulnoten auf M = 3,0 und s = 1,0, aber mit negativen Vorzeichen normiert wurde, hohe Testleistungen also zu niedrigen Normwerten führen und umgekehrt. Einige gebräuchliche Normenmaßstäbe werden in . Tab. 2.21 aufgeführt. Da sich alle Standardskalen leicht ineinander überführen lassen, darf zu Recht die Frage gestellt werden, ob nicht einem der Normierungsmaßstäbe eine allgemeine Leitfunktion beigemessen werden sollte. Immer dann, wenn die Messwerte nicht normalverteilt sind, verbietet sich die Transformation in Standardnormen, und zwar deshalb, weil die dafür notwendigen Voraussetzungen nicht erfüllt sind. Statt dessen werden derartige Verteilungen nach Beispiel . Tabelle 2.21. Einige gebräuchliche Normenmaßstäbe. (Unter »Bereich« ist die Spanne von ±2 Standardabweichungen angegeben.)

Skala

Mittelwert

Standardabweichung

Bereich

Beispiel

z- Werte IQ Z-Werte T-Werte Centile Stanine Stene

0 100 100 50 5 5 5,5

1 15 10 10 2 2 2

–2 bis +2 70-130 80-120 30-70 1-9 1-9c 1-10

HAWIE/HAWIK IST-Amthauer MMPIa PSBb FPId 16PFf

a

MMPI Minnesota Multiphasic Personality Inventory (7 Abschn. 3.2.3). PSB Prüfsystem für Schul- und Bildungsberatung (Horn, 1969). c Dieser Bereich definiert die Skala als »standard-nine«; im Unterschied zu den anderen Normskalen sind hier keine noch extremeren Werte möglich. d Freiburger Persönlichkeits-Inventar. e Von Standart-ten. f 16 PF 16 Personality Factors (7 Abschn. 3.2.3). b

166

Kapitel 2 · Grundlagen diagnostischer Verfahren

Alternative: Zuordnung von Standardnormäquivalenten

2

Prozentrangnormen: Relative Position auf der Rangreihe der Bezugsgruppe

Maßgabe der relativen Maßzahlhäufigkeiten (= »Fläche«) in einzelne Abschnitte aufgeteilt und diesen Segmenten oder Transformationen Standardnormäquivalente zugeordnet. Ob eine Normalverteilung der Messwerte vorliegt oder nicht: Weder in dem einen noch dem anderen Fall kann daraus auf die Verteilungsform des Konstruktes »an sich« geschlossen werden, da sich in den Maßzahlen auch stets die spezifischen Operationalisierungen zur Erfassung der Merkmalsdimension niederschlagen und insofern der Untersuchungsgegenstand stets auch von der Methode abhängt, die zu seiner Beschreibung herangezogen wird. Bei Prozenträngen (PR) handelt es sich um eine weitere Normierung, bei der die Transformation darin besteht, dass den Maßzahlen die relative Position auf der nach Größe ranggereihten Messwerteskala der Bezugsgruppe zugeordnet wird: PR =

cumf ⋅100 N

(2.85)

PR = Prozentrang, f = Häufigkeit von Messwerten innerhalb einer Klasse, cumf = kumulierte Häufigkeit der Messwerte bis zur Klassengrenze, N = Gesamtzahl aller Probanden. Beispiel

In einem Experiment hätten sich folgende Häufigkeiten ergeben: Maßzahl 5 6 7 8 9 10 11 12 f 1 0 6 10 19 24 14 6 cumf 1 1 7 17 36 60 74 80

13 4 84

14 1 85

X = M = 9,76, s = 1,63.

Der Prozentrang für die Maßzahl 8 beträgt: PR = cumf/N · 100 = 17/85 · 100 = 20

Prozentränge benötigen keine Voraussetzungen

Gleiche Abstände haben u. U. verschiedene Bedeutungen

Repräsentativität der Normierungs- oder Eichstichprobe

Der große Vorzug von Prozenträngen besteht in ihrer Voraussetzungslosigkeit, was die Verteilungsform der Messwerte angeht, und in ihrer leichten Verständlichkeit: Jedermann kann sich ganz unschwer vorstellen, dass einem PR von beispielsweise 90 die Tatsache entspricht, dass nur 10% der vergleichbaren Probanden einen noch höheren Messwert erreichen. Andererseits muss bei Prozenträngen in Rechnung gestellt werden, dass numerisch gleiche Differenzen in der PR-Skala in Abhängigkeit vom Abschnitt der Messwerteverteilung ganz unterschiedlichen Differenzen in Standardwertnormen entsprechen. Der Abstand beispielsweise zwischen PR 5 und 15 ist numerisch identisch mit demjenigen zwischen 50 und 60. Dies bedeutet in der Verteilung mit M = 9,76 und s = 1,63 (7 Beispiel) im ersten Fall jedoch eine Z-Werte-Differenz von 5 (nämlich von Z = 85 bis Z = 90), im zweiten von 2,5 (nämlich von Z = 100 bis Z = 102,5) Punkten. Was die empirischen Daten angeht, die für jede Normierung unerlässlich sind, so ist eine repräsentative Zusammenstellung der Normierungs- oder Eichstichprobe un-

167

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

erlässlich; nur dann macht es Sinn, einzelne Messwertträger mit ihrem Punktwert auf den durch die Population definierten Hintergrund zu beziehen. Sinnvoll und aussagekräftig sind neben einer Aufgliederung in Altersgruppen bei Leistungstests auch gesonderte Normen für verschiedene Schultypen. Ein Z-Wert von 110 bedeutet zwar für die Gesamtheit aller Probanden ein leicht überdurchschnittliches Niveau (= Prozentrang 84), doch in Bezug auf Oberschüler nur eine durchschnittliche Leistung und im Vergleich zu den erfolgreichen Examinanden eines Studienganges vermutlich weniger als den Durchschnitt. In Persönlichkeitstests finden sich häufiger auch geschlechterspezifische Normen. Wenn beispielsweise bekannt ist, dass Frauen im Mittel ängstlicher sind als Männer, könnte es leicht zu falschen Schlüssen führen, den Ängstlichkeitsscore einer weiblichen Probandin am Durchschnitt aller Merkmalsträger zu relativieren. Eine weitere Forderung geht dahin, dass die Normdaten aktueller Herkunft sein sollen. Die Literatur ist voller Beispiele über markante Leistungszuwächse im Laufe der Zeit, teils als Folge allgemein verbesserter Anregungs- und Schulungsbedingungen, teils als Folge spezifischer Ereignisse in Technik, Sport oder Wissenschaft. Diese führen dazu, dass ein und derselbe individuelle Punktwert immer leichter zu erzielen ist. Vor diesem sich änderndem Hintergrund müßten die Verfahren laufend »nachnormiert« werden, doch hapert es an der Einlösung dieser Notwendigkeit ebensooft wie an der Bereitstellung hinreichend repräsentativer Eichstichproben. 2.3.2.2

2

Normdaten sollen aktuell sein

Testfairness

»Murphy Archibald, 30, ein Vietnam-Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova-Universität verdient. Doch als er an der Universität auftauchte, befand sich seine Akte unter »Minoritäten-Bewerber« mit einem b wie »black« darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde ihm das Stipendium entzogen. Ex-Stipendiat Archibald verdankt sein Scheitern der guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil-RightsAct von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft.« (Der Spiegel, 1975, Nr. 7, S. 93)

Die gesellschaftspolitischen Bewegungen und gesetzgeberischen Initiativen, wie sie in dem soeben angeführten Zitat exemplarisch geschildert werden, haben auch in der testpsychologischen Fachliteratur zu einer intensiven Diskussion über »Testfairness«, »Testbias« und »Fairness der Auslese« Anlass gegeben (. Abb. 2.36). Als Ergebnis dieser Kontroverse liegen seit Ende der 60er Jahre ganz unterschiedliche Vorstellungen darüber vor, was im Einzelnen unter einer fairen Selektionsstrategie zu verstehen ist. Ein Vergleich der verschiedenen Definitionen von Fairness lässt jedoch erkennen, dass diese nicht primär fachwissenschaftliche, sondern spezifisch politische Wertvorstellungen implizieren. Je nachdem, welche gesellschaftspolitischen Ziele im Einzelfall handlungsbestimmend sind, bedeutet das eine Entscheidung zugunsten ganz bestimmter und zu Lasten anderer Fairnessmodelle. Weil sich die zugrundeliegenden Wertvorstellungen wechselseitig ausschließen, handelt es sich bei Fairness nicht um eine technische Qualität, die einem Instrument zu eigen ist oder nicht. Es gibt nicht den fairen Test oder das faire Selektionsverfahren, sondern nur Fairness im Hinblick auf Handlungs- und Entscheidungsaspekte (die expliziert werden müssen). In dem Maße, in dem sich die angestrebten Ziele voneinander unterscheiden, kann ein und dasselbe Testinstrumentarium als mehr oder weniger fair angesehen werden.

Gesellschaftspolitischer Einfluss auf die Definition von Fairness

168

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.36. Im Hinblick auf inter-ethnische Unterschiede stellt sich das Problem der Fairness von Begutachtung und Entscheidung

Die nachfolgende Darstellung gilt nur den wichtigsten Fairnessmodellen. Weitere Konzepte und insbesondere eine vertiefende Auseinandersetzung damit finden sich in den Sammeldarstellungen von Jensen (1980), Weiss und Davison (1981) sowie Bartussek (1982). Proportionale Repräsentativität der Stichprobe

Schwachstelle: Effizienz des Verfahrens unbeachtet

Das Modell der proportionalen Repräsentation(Quotenmodell, Identitätskonzept)

Einer gängigen Position zufolge gilt eine Selektionsmaßnahme dann als fair, wenn sie gewährleistet, dass in der Stichprobe der ausgewählten Bewerber die Proportion der miteinander verglichenen Gruppen dieselbe ist wie in der Bewerberpopulation (= proportionale Repräsentation). Gewöhnlich läuft das auf die Forderung nach Übereinstimmung der Mittelwerte und Standardabweichungen (sowie weiterer Verteilungskennwerte) für Populationssubgruppen hinaus, die als relevant erscheinen (z. B. Geschlechter, soziale Schichten, regionale Herkunft usw.). Die Schwachstellen einer solchen Definition sind sowohl konzeptioneller als auch empirischer Art. Weil nur die Gegebenheiten auf seiten des Vorhersageinstrumentes in die Definition eingehen, bleiben Aussagen über die Effizienz des Verfahrens im Hinblick auf den Erfolg der ausgewählten Bewerber gleichsam ausgeblendet. Unterstellt man andererseits, dass Diagnosen keinen Selbstzweck erfüllen, sondern die Basis für Prognosen wie etwa dem Erfolg in einem Kriterium liefern, scheinen die Forderungen des Modells »nur unter einer Annahme sinnvoll zu sein, die von den Vertretern dieses Modells offenbar implizit gemacht wird, nämlich unter der Annahme, daß die … Gruppen ›in Wirklichkeit‹ gleich leistungsfähig sind (sowohl im Kriterium wie in den durch den Test zu erfassenden Merkmalen) und daß der Test durch fehlerhafte Konstruktion Unterschiede zwischen den Gruppen nur vortäuscht.« (Bartussek, 1982, S. 3)

169

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

Eben diese Annahme trifft nach den vorliegenden Ergebnissen für gut konstruierte Tests definitiv nicht zu (s. Jensen, 1980, S. 465–515; Weiss & Davison, 1981, S. 697 ff.). Wenngleich hin und wieder Resultate berichtet werden, die näherungsweise in Einklang damit zu stehen scheinen (z. B. Michel, 1977; Trost et al., 1978, 1980), weist die Befundliteratur doch überwiegend eine deutliche Abhängigkeit der Mittelwerte von Leistungs- und Persönlichkeitstests von Gruppierungsgesichtspunkten der genannten Art aus. Die Erfüllung einer radikalen Fassung eines solchen Konzeptes muss somit aus methodischer Sicht fragwürdig erscheinen, weil sie nur zu Lasten der Validität geleistet werden könnte. Die mit systematischen Gruppenunterschieden verbundenen Probleme sind innerhalb der psychologischen Diagnostik für bestimmte Teilgruppen schon frühzeitig berücksichtigt worden; allerdings erfolgt die Beschäftigung damit unter dem Stichwort einer »Normierung« der Testwerte. Namentlich im Leistungsbereich werden i. Allg. individuelle Punktwerte an denjenigen von alters- und/oder geschlechtsgleichen Personen relativiert (vgl. Abweichungsnormen). Dahinter verbirgt sich die Überzeugung, dass es alters- oder geschlechtsabhängige Unterschiede nicht geben »darf« bzw. es unbillig wäre, etwa ältere Personen hinsichtlich ihrer Leistungsfähigkeit mit jüngeren zu vergleichen. Bemerkenswert dabei ist, dass von einer Normierung für die verschiedenen sozioökonomischen Schichten in den allermeisten Fällen abgesehen wird, obwohl gerade im Hinblick darauf die Mittelwertsunterschiede gravierend sind. Ungeachtet solcher Erwägungen kann Fairness kaum hergestellt werden durch Verwendung detaillierter, alle denkbaren Unterscheidungsmerkmale berücksichtigender Normtabellen: So wäre es gewiss unsinnig, beispielsweise einen 50jährigen Alkoholkranken mit einer anspruchs- und verantwortungsvollen Überwachungsaufgabe nur deshalb zu betrauen, weil er innerhalb der Subgruppe altersgleicher Alkoholkranker über hervorragende Leistungen in den einschlägigen Tests verfügt. Vielmehr muss die Entscheidung darüber von dem Umstand abhängig gemacht werden, welches Ausmaß an faktischer Bewährung bei einem gegebenen Testpunktwert zu erwarten ist. Der ausschlaggebende Aspekt liegt somit nicht in der Frage, ob es Unterschiede der Testmittelwerte an sich gibt, sondern ob bestimmte Verfahren zu subgruppenspezifischen Fehleinschätzungen der Kriteriumswerte führen oder nicht (s. Wottawa & Amelang, 1980). Das Identitätskonzept wird deshalb in der psychologischen Literatur nicht ernsthaft vertreten. Vielmehr stehen dort solche Modelle im Mittelpunkt, bei denen der Erfolg im Kriterium eine vorrangige Rolle spielt, wobei dieser in unterschiedlicher Weise auf jenen im Prädiktor bezogen wird.

Umgang mit systematischen Gruppenunterschieden

Subgruppenspezifische Fehleinschätzungen der Kriteriumswerte

Das Regressionsmodell (Modell einer fairen Vorhersage)

Der Definition von Cleary (1968) zufolge ist ein Selektionsverfahren dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht. Diese Forderung ist dann erfüllt, wenn die zur Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden miteinander identisch sind, d. h. gleiche Steigungen aufweisen und an derselben Stelle die Ordinate schneiden (Konstante a in der Regressionsgleichung, 7 Abschn. 2.1.1.5, Vorhersage auf der Basis von Testwerten). Für die Prädiktion des Kriteriums Y aus den Testwerten X kann deshalb in einem solchen Fall für alle Messwertträger (ohne Berücksichtigung ihrer Gruppenzugehörigkeit) eine gemeinsame Regressionsgerade angenommen werden, ohne dass dadurch einzelne Probanden je nach ihrer Gruppenzugehörigkeit systematisch bevorzugt oder benachteiligt würden.

2

Fairness bei identischen Regressionsgraden

170

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.37. Das regressionsanalytische Fairnesskonzept von Cleary (1968), veranschaulicht am Beispiel von 2 Gruppen A und B: Die Regressionsgrade gyx zur Vorhersage des Kriteriums Y aus den Testwerten X ist in den beiden Gruppen A und B identisch. Sie geht durch – – – die Punkte (XA, YA) und (XB, – YB), also die jeweiligen Schnittpunkte des Prädiktormit dem Kriteriumsmittelwert in beiden Stichproben

Beispiel für Testfairness nach dem Regressionsmodell

Auswahl der im Kriterium voraussichtlich Besten

. Abbildung 2.37 veranschaulicht diese Gegebenheiten am Beispiel von 2 Gruppen und macht zugleich deutlich, dass bei diesem Modell sehr wohl bedeutsame Mittelwertsunterschiede im Prädiktor auftreten mögen, mit denen aber richtungsgleiche Differenzen eines bestimmten Ausmaßes im Kriterium einhergehen müssen. Solche Verhältnisse liegen beispielsweise in dem Untersuchungsmaterial von Simons und Möbus (1976) vor, wo aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres N = 58 Arbeiter- und N = 63 Akademikerkinder ausgewählt worden waren. Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe T-normiert (7 Abschn. 2.3.2.1), also auf den Mittelwert 50 und eine Streuung von 10 standardisiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus beiden Substichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab – womit die Testbatterie für das anstehende Vorhersageproblem gemäß der übernommenen Definition fair war. Eine der vorrangigen Implikationen des regressionsanalytischen Fairnessmodells besteht darin, dass nur die im Kriterium voraussichtlich Besten ausgewählt werden, d. h. der durch den Test vorhergesagte Kriteriumswert bestimmt die Auswahl. Fair ist dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird (Position des »qualified individualism« sensu Hunter & Schmidt, 1976). Ein allgemeines Merkmal dieses Modells besteht darin, dass es wegen der Auswahl am Kriterium die voraussichtliche Erfolgsrate darin maximiert.

171

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

. Abb. 2.38. Die 4 Ergebnisse eines Selektionsverfahrens. RP richtige Positive (Anzahl Ausgewählter, die erfolgreich sind), FP falsche Positive (Anzahl Ausgewählter, die nicht erfolgreich sind), RN richtige Negative (Anzahl Zurückgewiesener, die tatsächlich auch nicht erfolgreich sind), FN falsche Negative (Anzahl Zurückgewiesener, die erfolgreich wären). x+ »cut-off« im Zulassungstest, y+ »cut-off« im Kriterium (schlechtester Kriteriumswert, der noch als Erfolg gilt)

Das Modell konstanter Verhältnisse (»constant ratio model«)

Thorndike (1971) verlangt von fairen Verfahren, dass das Verhältnis zwischen der Zahl der durch die Testung ausgewählten Bewerber und der Zahl im Kriterium potentiell (d. h. ohne Auswahl!) Erfolgreicher in den miteinander verglichenen Gruppen gleich oder konstant ist. Gemäß der schematischen Darstellung in . Abb. 2.38 bedeutet das die Forderung nach Identität der Proportionen: (RP + FP) : (RP + FN). Beispielsweise wären von 300 erfolgreichen Teilnehmern an einem Ausbildungsprogramm 200 aus der Unterschicht und 100 aus der Oberschicht. Könnten infolge einer bedeutsamen Erweiterung des Trainingsinstituts 600 Bewerber für den nächsten Kurs zugelassen werden, so würden gemäß dieser Konzeption die im Test besten 400 Unterund besten 200 Oberschichtangehörigen akzeptiert. Soll derartigen Anforderungen Genüge geleistet werden, ohne für die Gruppen unterschiedliche Testtrennwerte einzuführen, so bedeutet das in regressionsanalytischer Formulierung eine Parallelverschiebung der Regressionsgeraden, wie es in . Abb. 2.39 veranschaulicht ist. Das Modell ist fair gegenüber den Gruppen A und B, weil der Anteil auszuwählender Bewerber an dem Anteil potentiell Erfolgreicher in jeder Gruppe definiert wird (Position einer Quotendefinition von Fairness). Aus der Abbildung geht hervor, dass – – unter der Annahme, ein Überschreiten von YA bedeute Erfolg – bei Festsetzung des – – Testtrennwertes für Auswahl bzw. Zurückweisung entweder bei XA oder XB, das Verhältnis der selegierten zu den potenziell Erfolgreichen in beiden Gruppen jeweils gleich ist, und zwar im gewählten Beispiel 1,0. Das Cleary-Modell würde eine derartige Konstanz der Quoten nicht gewährleisten, wie ein Blick auf . Abb. 2.37 erkennen lässt: Dort ist zwar das Verhältnis der Ausgewählten zu den Erfolgreichen in den beiden Gruppen gleich 1 (und zwar 50%), doch

Parallelverschiebung der Regressionsgeraden

172

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.39. Das Fairnessmodell konstanter Verhältnisse von Thorndike (1971) in regressionsanalytischer Veranschaulichung: Das Verhältnis der selegierten zu den potenziell erfolgreichen Bewerbern ist in beiden Gruppen A und B konstant (hier bei dem gewählten – Testtrennwert XA und dem Erreichen von Erfolg im Kriterium durch Überschreiten – von YA jeweils 1)

Fair gegen Selegierte, unfair gegenüber Abgelehnten

stehen in B den wenigen Testbesten viel mehr potenziell Erfolgreiche im Kriterium gegenüber. Ein Nachteil des Thorndike-Modells besteht darin, dass es im Vergleich zur Konzeption von Cleary die Kriteriumsleistungen insgesamt gegenüber dem erreichbaren Maximum reduziert. Das wird deutlich an Grenzfällen: Wenn beispielsweise jemand – aus Gruppe A den kritischen Trennwert XA knapp verfehlt, so wird er gemäß der getroffenen Vorabfestlegungen zurückgewiesen, und zwar im Unterschied zu einem Bewerber aus B, der denselben »cut-off« knapp überwunden hat, obwohl der erste Proband nach Maßgabe der Regressionsgeraden gyxa einen höheren Erfolg aufgewiesen hätte als B auf der Basis von gyxb. Ein konzeptuelles Problem aller Quotendefinitionen besteht darin, dass die Definition von Fairness, orientiert an Selegierten und potenziell Erfolgreichen, in aller Regel unvereinbar ist mit einer solchen, die auf die Abgewiesenen und potentiell Erfolglosen abhebt, oder mit anderen Worten: Ein Test, der fair ist mit Blick auf die Selegierten, ist unfair gegenüber den Abgelehnten (= logische Inkonsistenz der kriteriumsbezogenen Quotendefinitionen nach Novick & Peterson, 1976). Weitere Fairnesskonzepte

Nach Cole (1973) ist ein Test fair, wenn der Quotient RP:(RP + FN) in den miteinander verglichenen Gruppen gleich ist (»conditional probability model«). In regressionsanalytischen Terms bedeutet das im Vergleich zum Thorndike-Modell eine noch größere Distanz zwischen den parallelen Regressionsgeraden, wenn ohne gruppenspezifische Testtrennwerte oder Bonus-Malus-System ausgekommen werden soll. (Letzteres findet bekanntlich bei der Verteilung der Studienplätze durch die Zentrale Vergabestelle Anwendung, wo die Bewerber je nach dem Abiturnotendurchschnitt ihres Heimatbundeslandes eine Gut- oder Lastschrift auf ihre individuellen Noten erhalten.) Linn (1973) definiert Fairness durch die Konstanz des Bruches RP : (RP + FP)

173

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

(»equal probability model«), d. h. für die Zugelassenen aus den relevanten Gruppen soll die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein. Die Inkompatibilität dieses Modells mit jenem von Cleary ist am geringsten. Beispiel

Anhand der zwischen Ost- und Westdeutschen auftretenden Unterschiede in Leistungstests ist Kersting (1995) der Frage nachgegangen, welche Probleme im Hinblick auf die Fairness selbst dann bestehen mögen, wenn für beide Gruppen von einer identischen Validität der Prädiktoren ausgegangen wird. Grundlage waren die zwischen 1991 und 1992 erhobenen eignungspsychologischen Testdaten von N = 1377 Bewerbern beiderlei Geschlechts um eine Ausbildung zum gehobenen nichttechnischen Verwaltungsdienst. Die Probanden aus den alten Bundesländern wiesen im Vergleich zu jenen aus den neuen durchschnittlich 2,6 Standardwerte höhere Leistungen auf. Unter verschiedenen Rahmenannahmen (u. a. Testkriteriumsvalidität in beiden Gruppen rtc = .54, Anwendung desselben Testtrennwertes) führten die Modellrechnungen zu den in . Tab. 2.22 wiedergegebenen Resultaten.

. Tabelle 2.22. Häufigkeiten von Vorhersagequoten und -fehlern bei identischer Kriteriumsvalidität der in Ost- und Westdeutschland eingesetzten Testverfahren. (Nach Kersting, 1995, S. 37)

1. West (von je 100)

Test abgelehnt (69)

angenommen (31)

Grundquote/ Basisrate

Kriterium

Erfolg

16

24

40

Kriterium

Misserfolg

53

7

60

2. Ost (von je 100)

Test abgelehnt (78)

angenommen (22)

Grundquote/ Basisrate

Kriterium

Erfolg

18

17

35

Kriterium

Misserfolg

60

5

65

3. Vergleich

West

Ost

Basisrate

40%

35%

Selektionsrate

31%

22%

Proportion korrekter Entscheidungen

77%

77%

Anteil der validen Positiven an allen Selektierten (Modell gleicher Wahrscheinlichkeiten; Linn)

77%

77%

Anteil der Selektierten an allen potenziell Erfolgreichen (Modell konstanter Verhältnisse; Thorndike)

77%

63%

Anteil der validen Positiven an allen potenziell Erfolgreichen (Modell bedingter Wahrscheinlichkeiten; Cole)

60%

49%

6

2

174

Kapitel 2 · Grundlagen diagnostischer Verfahren

Wie ersichtlich, sind die Proportionen korrekter Entscheidungen und der Anteil der richtigen Positiven an allen Selegierten mit 77% jeweils gleich. Dieses wird erreicht, indem der ungünstigeren Basisrate im Osten (35% gegenüber 40%) durch eine strengere Selektionsrate entgegengewirkt wird. Daraus resultieren aber unterschiedliche Quoten nach dem Thorndike- und Cole-Modell. Für das letztere, das Modell der bedingten Wahrscheinlichkeiten, bedeuten die angegebenen Prozentzahlen für Westdeutsche eine im Vergleich zu den Ostdeutschen höhere Wahrscheinlichkeit, überschätzt zu werden: Mehr potenziell erfolgreiche Ostbewerber werden zurückgewiesen als angenommen oder in anderer Wendung: Im Westen werden 40% von 40%, also 16% von potentiell erfolgreichen Bewerbern nicht richtig erkannt; im Osten lauten die Zahlen 51% von 35%, also 18% (siehe die jeweils durch Fettdruck hervorgehobenen Quoten) – ein Beispiel dafür, wie bei einer an den Selektierten ausgerichteten Fairness gleichzeitig Unfairness bei den Abgelehnten bestehen kann.

2

Abschließende Bemerkungen

Bei Jensen (1980, S. 405) findet sich eine vergleichende Übersicht über die vorgenannten Fairnesskonzepte, in der die Identität der Regressionsgeraden im Sinne von Cleary angenommen wird. Um dabei den Anforderungen der einzelnen Definitionen entsprechen zu können, bedarf es gruppenspezifischer Trennwerte, die je nach Modell verschieden weit auseinander liegen. Im konkreten Entscheidungsfall mögen politische oder ökonomische Vorgaben den Ausschlag zugunsten des einen oder anderen Quotenmodells geben (man denke nur an die Diskussion um die »Quotenfrauen«). Mit der Maximierung des Erfolges im Kriterium und der Akzentuierung der Test-Kriteriums-Validitäten gebührt aber unter methodischen Erwägungen dem Regressionsmodell von Cleary (1968) eine gewisse Vorzugsstellung. Simons und Möbus (1976) haben zudem wahrscheinlich gemacht, dass in bestimmten Fällen durch die Hinzunahme weiterer Prädiktoren in die Vorhersagebatterie und die dadurch erreichte Verbesserung der Validität auch subgruppenspezifischen Benachteiligungen entgegengewirkt werden kann, oder mit anderen Worten: Je höher die Validität, um so geringer ist das Risiko eines Testbias gegenüber einer relevanten Untergruppe von Merkmalsträgern. 2.3.3 Validität als wichtigstes Gütekriterium

Überlegungen zur Validitätssteigerung

Wechselbeziehungen zwischen Gütekriterien

Innerhalb der Hauptgütekriterien kommt der Validität die höchste Bedeutung zu: Die präzise Bestimmung inter- oder intraindividueller Unterschiede stellt kein Ziel für sich selbst dar, sondern bildet nur die notwendige Voraussetzung für die Möglichkeit von Generalisierungen, d. h. Rückschlüsse aus dem Verhalten in der Testsituation auf Merkmalsunterschiede außerhalb davon anstellen zu können. Insofern sind Objektivität und Reliabilität der Validität gleichsam vorgeordnet: Ohne ein Mindestmaß an Objektivität ist keine Reliabilität denkbar, ohne befriedigende Reliabilität keine hinlängliche Validität. Lienert (1989, S. 20) hat die Beziehungen der Hauptgütekriterien zueinander, wie in . Abb. 2.40 zu sehen, veranschaulicht. Ist eine hohe Validität erwiesen, entbindet dieses vom Nachweis der Objektivität und Reliabilität, da in einem solchen Fall diese Gütekriterien (ebenfalls) erfüllt sein müssen. Meist wird es jedoch darauf ankommen, durch geeignete Maßnahmen die Validität zu

175

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

I

II

III

. Abb. 2.40. Wechselbeziehungen zwischen den Hauptgütekriterien (Aus Lienert, 1989, S. 20)

Objektivität der Interpretation

der Auswertung der Durchführung

Reliabilität innere Konsistenz Parallel- und Retest

Validität (kriterienbezogen)

2

Konstanz des Persönlichkeitsmerkmals Zulänglichkeit

steigern, weil deren Höhe noch nicht ausreichend ist. Folgende Punkte sind in diesem Zusammenhang zu erwägen: 4 Retestreliabilität und Paralleltestreliabilität können nicht größer sein als Objektivität und Konsistenz. Eine Verbesserung der letztgenannten Kriterien schafft deshalb bessere Voraussetzungen für die Reliabilität. 4 Da die Reliabilität durch Verlängerung des Tests relativ leicht angehoben werden kann, wird darin oft ein probates Mittel zur Erzielung einer höheren Validität gesehen. Das kann i. Allg. durchaus zu praktischen Erfolgen führen. In theoretischer Hinsicht sind Reliabilität und Validität aber partiell miteinander inkompatibel: Wie aus der Erörterung der einfachen und doppelten Minderungskorrektur erinnerlich ist, stehen in der betreffenden Formel zur Aufwertung der Validität (7 Abschn. 2.1.1.3) sowohl die Reliabilität des Tests als auch diejenige des Kriteriums im Nenner. Jede Vergrößerung dieser Kennwerte muss deshalb zu einer Verminderung des Bruches führen, d. h. der (theoretisch interessierende) Zuwachs der Korrelation zwischen den wahren Test- und wahren Kriteriumswerten sinkt mit steigender Reliabilität (Attenuations- oder Verdünnungsparadox). 4 In der diagnostischen Praxis geht damit die Erfahrung einher, dass jene Verfahren, die eine besonders hohe Reliabilität aufweisen, nämlich sehr homogene Tests, häufig nur wenig valide sind gegenüber komplexeren Außenkriterien. Die Veränderung der Tests in Richtung auf eine größere inhaltliche Heterogenität – also unter Einbußen der Reliabilität – stellt dabei eine realistische Option zur Verbesserung der Validität dar. Eine zentrale Bedeutung innerhalb solcher Überlegungen kommt der Variabilität der Schwierigkeitskoeffizienten zu: Weil extreme Schwierigkeiten im Vergleich zu mittleren die Iteminterkorrelationen, die Trennschärfeindizes und (als Folge davon) die Homogenität der gesamten Skala mindern, bietet die Variation der Itemschwierigkeiten eine relativ einfache Handhabe für die Verbesserung der Validitätserwartungen (zu Lasten der Reliabilität). Batterien von Tests werden den in gewissen Grenzen unvereinbaren Anforderungen auf optimale Weise gerecht: In Form der homogenen Einzelskalen dem Aspekt der Messgenauigkeit, in Gestalt des Gesamttestwertes dem Gesichtspunkt der Validität.

Testbatterien als Lösung der partiellen Unvereinbarkeit der Gütekriterien

176

Kapitel 2 · Grundlagen diagnostischer Verfahren

4

Die Obergrenze der Validität wird durch die Wurzel aus der Zuverlässigkeit definiert: rtc = rtt . 4 Zwischen verschiedenen (weiteren) Kombinationen von Gütekriterien bestehen (ebenfalls) partielle Unvereinbarkeiten, und sei es nur unter ganz bestimmten Rahmenbedingungen oder Messintentionen: Änderungssensitivität und Retestreliabilität sind beispielsweise bei einem Verfahren zur Erfassung der aktuellen Befindlichkeit nicht gut auf einen gemeinsamen Nenner zu bringen. Auch kann es die Transparenz eines Fragebogens den Probanden leicht machen, ihre Antworten gezielt zu verstellen. Das kann je nach den Gegebenheiten in vermutet positiver oder negativer Richtung geschehen, ohne dass dies anhand der Punktwerte etwaiger »Lügenskalen« zu erkennen wäre (s. z. B. Kroger & Turnbull, 1975). Aus der Verfälschbarkeit resultieren Validitätsminderungen. Deshalb ist generell vom Einsatz von Persönlichkeitstest in solchen Kontextbedingungen abzuraten, wo gezielte Verstellungen besonders wahrscheinlich sind, nämlich allen Selektionsprozeduren (s. Hampel & Klinkhammer, 1978; Thornton & Gierasch, 1980).

2

»Eigentliche« vs. »aktuelle« Kriterien

In der Praxis häufig Verwendung leicht verfügbarer Kriterien

»Aktuelle« Kriterien erfassen »eigentliche« Kriterien oft unzureichend

Eine gesonderte Problematik ergibt sich aus dem Umstand, dass zwischen »eigentlichen« (ultimate) und »aktuellen« Kriterien unterschieden werden muss. Bei Berufserfolg handelt es sich beispielsweise um ein komplexes Kriterium, dessen individuelle Bestimmung erst dann mit »letzter« Sicherheit erfolgen kann, wenn eine Person altersbedingt aus dem Berufsleben ausgeschieden ist und damit alle Fakten zur Beurteilung vorliegen (wie z. B. höchste erreichte Position, Dauer der Partizipation am Arbeitsprozess, Produktivität oder Effizienz, Stetigkeit vs. Wechsel der Arbeitsverhältnisse, Kontinuität vs. Variation des Einkommens und der Beschäftigungszeiten usw.). In aller Regel stehen weder die zeitlichen noch sachlichen Ressourcen zur Verfügung, um derartige Entwicklungen abzuwarten; vielmehr müssen sich die Konstrukteure und Anwender von Tests meist mit leichter verfügbaren aktuellen Kriterien begnügen. Für das Beispiel des (lebenslangen) Berufserfolges würde das naheliegenderweise der bisherige oder aktuelle berufliche Erfolg sein, der operationalisiert werden könnte durch quantitative Einheiten für die momentan eingenommene Stellung oder das monatliche Einkommen, bei bestimmten Tätigkeitsfeldern durch die Zahl abgerechneter Krankenscheine, angemeldeter Patente, publizierter Forschungsarbeiten oder die fremdeingeschätzte Fachreputation. Häufig stehen gar nur Indikatoren wie gefertigte Stückzahlen, produzierter Ausschuss oder Fehlzeiten zur Verfügung. All diese Indikatoren stehen nur für Teilaspekte der aktuellen Kriterien und decken im ungünstigen Fall kaum noch relevante Seiten des »eigentlich« interessierenden Kriteriums ab. Sie sind durch Vorläufigkeit gekennzeichnet. Eine Erkrankung gerade durch die Ausübung einer beruflichen Tätigkeit kann den weiteren Verbleib im bisherigen Verantwortungsbereich erschweren oder verbieten, ein schwerer Sturz vom Gerät den strahlenden Weltmeister vieler Jahre für den Rest seines Lebens in den Rollstuhl zwingen (. Abb. 2.41), die Approbation und Niederlassung eines zusätzlichen Arztes am Ort die Zahl der Krankenscheine beim bislang ansässigen Doktor rapide reduzieren usw. Für ultimative Kriterien wie den individuellen Erfolg in Ausbildung oder Therapie, den institutionellen Erfolg einer Selektion, Platzierung oder Klassifikation (7 Kap. 6) ließen sich unschwer analoge Beispiele in großer Zahl auflisten. Je nach dem Zeitpunkt, an dem das Kriterium erhoben wird, müssen daraus ganz unterschiedliche individuelle Kennwerte resultieren. Das beeinflusst die Validität, und zwar ungeachtet der konzeptuellen Unzulänglichkeiten solcher aktueller Kriterien. Beschrieben wird diese Konfiguration mit den Begriffen

177

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

. Abb. 2.41a–c. Das Ausmaß an beruflichem Erfolg und die Kriterien dafür mögen während verschiedener Lebensabschnitte sehr unterschiedlich sein

a

c

b

4

Kriteriumskontamination (= Eigenständigkeit des aktuellen Kriteriums gegenüber dem eigentlichen Kriterium), 4 Kriteriumsrelevanz (= Kommunalität oder wechselseitige Überlappung zwischen aktuellem und eigentlichem Kriterium), 4 Kriteriumsdefizienz (= nicht erfasste Aspekte des eigentlichen Kriteriums durch das aktuelle Kriterium).

Beziehungen zwischen »aktuellem« und »eigentlichem« Kriterium

Die Problematik einer möglicherweise nur unzureichenden Operationalisierung des (Kriterium-) Konstruktes in Form bestimmter Indikatoren besteht auch für die Prädiktorenseite. Auch da treffen die jeweiligen Fragen oder Aufgaben die aus theoretischen Gründen als relevant erachteten Prädiktionskonstrukte im Regelfall nicht in ihrer umfassenden Bedeutung (man denke etwa an die Itemsammlungen zur Erfassung des Konstruktes »Studierfähigkeit« bei der Vorhersage des Erfolges von Medizinstudenten der ersten Semester an der Universität, in denen die Bereiche der sozialen Kompetenz und des Selfmanagement völlig fehlen). Daraus können im Extremfall die beiden folgenden Konstellationen resultieren (nach Wottawa & Hossiep, 1987): Der Prädiktionsmesswert korreliert hoch mit den Punktwerten für das aktuelle Kriterium, weist aber keinerlei Relevanz für das »eigentliche« Kriterium auf (. Abb. 2.42).

Unzureichende Operationalisierung der Prädiktionskonstrukte

178

2

Kapitel 2 · Grundlagen diagnostischer Verfahren

. Abb. 2.42. Schematische Veranschaulichung für eine Konstellation, bei der die Punktwerte eines Prädiktors hoch mit dem aktuellen, aber zu Null mit dem eigentlichen Kriterium korrelieren

. Abb. 2.43. Schematische Veranschaulichung einer Konstellation, bei der die Punktwerte eines Prädiktors zwar nicht mit dem aktuellen, aber mit dem eigentlichen Kriterium korrelieren

Empirische Validität bedeutet nicht zwingend auch bedeutsame Korrelation der Konstrukte

Der Prädiktionsmesswert korreliert zwar nicht mit den Indikatoren für das aktuelle Kriterium, weist aber eine hohe Aussagekraft für das »eigentliche« Kriterium auf (. Abb. 2.43). Zwischen den beiden Konstellationen sind »Mischformen« denkbar, bei denen man nicht ohne Weiteres erkennt, welche Gegebenheiten im Einzelnen vorliegen. Wichtig ist, dass auch im Falle einer empirisch belegten und numerisch hohen Validität gegenüber einem Kriterium unter Umständen nur wenig über die Korrelation zwischen einem theoretisch bedeutsamen Prädiktorkonstrukt und einem gleichermaßen wichtigen »eigentlich« interessierenden Kriterium ausgesagt ist.

179

2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung

2

Übungsfragen

(zu Abschn. 2.3) ? 1. Wie kann die Auswertungs-

objektivität quantitiv bestimmt werden?

2. Was bedeuten – kurz charakterisiert – die Begriffe »Reliabilität« und »Validität« und wie werden sie operationalisiert?

! Ad 1. Zur quantitativen Bestimmung der Auswertungsobjektivität müssen

die Testprotokolle einer Probandenstichprobe mindestens 2 verschiedenen Auswertern vorgegeben werden, die unabhängig voneinander jeweils die Punktwerte ermitteln oder – im Falle der projektiven Verfahren – die Signierungen vornehmen. Die Korrelation zwischen den beiden Auswertern (bzw. bei mehreren Auswertern die mittlere Korrelation zwischen ihnen) über die Protokolle gibt das Ausmaß der wechselseitigen Übereinstimmung an. Zur Überprüfung systematischer Unterschiede hinsichtlich der relativen Strenge des Bewertungsmaßstabes bedarf es jedoch varianzanalytischer Pläne. Ad 2. Die »Reliabilität« beschreibt die Genauigkeit, mit der ein Test eine Merkmalsdimension erfasst, und zwar unter Absehung davon, ob es sich dabei auch um die Merkmalsdimension handelt, deren Erfassung intendiert ist. Ein Test ist dann vollständig reliabel, wenn mit seiner Hilfe die Lokalisierung der Probanden auf der betreffenden Merkmalsdimension absolut fehlerfrei geschieht. In einem solchen Fall ist der Reliabilitätskoeffizient als Korrelation zwischen verschiedenen Messwerten, erhoben an ein und denselben Probanden, rtt = 1,0. Es gibt verschiedene Zugangsweisen zur Bestimmung der Reliabilität: Wiederholung der Testdurchführung (Testwiederholung), Applikation von parallelen Testformen (Paralleltestreliabilität), Halbierung eines Tests in 2 parallele Unterformen (Testhalbierung) und Durchführung einer Konsistenzanalyse. Bei der Konsistenzanalyse wird eine Testskala nicht nur in 2 Hälften zerlegt, sondern in so viele Teile, wie Items vorhanden sind. Unter »Validität« wird das Ausmaß an Genauigkeit verstanden, mit dem der Test dasjenige Persönlichkeits- oder Verhaltensmerkmal misst, das er messen soll oder zu erfassen vorgibt. Bei hoher Validität erlauben die Ergebnisse eines Tests die Generalisierung aus dem numerischen Relativ der Testskalen auf das empirische Relativ des interessierenden Zielmerkmals oder einen Schluss aus dem (beobachteten) Verhalten in der Testsituation auf (ebenfalls beobachtbares) Verhalten außerhalb der Testsituation. Insofern handelt es sich um das wichtigste Gütekriterium überhaupt. Auch bei der Validität lassen sich verschiedene Aspekte voneinander unterscheiden: Durch die »inhaltliche Validität« kann, sofern die Testaufgaben Stichproben aus dem zu erfassenden Zielmerkmal darstellen, aus dem Verhalten in der Testsituation auf dasjenige außerhalb im Sinne eines Repräsentationsschlusses geschlossen werden. Die »kriteriumsbezogene Validität« erlaubt immer dann eine Aussage zur Gültigkeit des Verfahrens, wenn es nicht möglich ist, das Zielmerkmal als Ganzes oder wenigstens Stichproben daraus zu einem Test zusammenzustellen, sondern die ausgewählten Verhaltensweisen oder Aufgaben nur bestimmte Merkmale indizieren (Korrelationsschluss). Eine solche Korrelation zu einem »Außenkriterium« muss empirisch ermittelt werden. Als Unterformen der kriteriumsbezogenen Validität lassen sich wiederum die konkurrente (gleichzeitige) und die prädiktive Gültigkeit voneinander unterscheiden. Erstere ist dann gegeben, wenn Test- und Kriteriumswert nahezu gleichzeitig erhoben werden, letztere liegt dann vor, wenn zu einem Zeitpunkt t1 die Testscores, und zu einem Zeitpunkt t2 die Punktwerte im Kriterium erhoben werden. Bestehen signifikante Korrelationen, so spricht man

180

Kapitel 2 · Grundlagen diagnostischer Verfahren

2

3. Wie lautet die zentrale Annahme des regressionsanalytischen Fairnessmodells und welches ist eine der vorrangigen Implikationen?

4. Wie kann ein Test – in gewissen Grenzen – den unvereinbaren Anforderungen der verschiedenen Gütekriterien gerecht werden?

bei konkurrenter oder auch Übereinstimmungsvalidität davon, dass sich die Varianz des Kriteriums (als deskriptives Konstrukt) auf die Varianz der Testwerte zurückführen lässt. Normalerweise kommt der prädiktiven Validität ein höherer Stellenwert zu, weil nach den Regeln der Logik nur zeitlich Früheres ursächlich verantwortlich für zeitlich Späteres sein und damit dieses erklären kann. Gleichsam eine Synthese aus inhaltlicher und kriteriumsbezogener Validität stellt die Konstruktvalidität dar – und noch etwas darüber Hinausgehendes insofern, als darunter die Einbettung des mit einem Test erfassten Konstruktes in das nomologische Netzwerk anderer Konstrukte verstanden wird. Ad 3. Der Definition von Cleary (1968) zufolge ist ein Selektionsverfahren dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht. Die Forderung ist erfüllt, wenn die zu Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden miteinander identisch sind, d. h. gleiche Steigungen aufweisen und an derselben Stelle die Ordinate schneiden. Eine der vorrangigen Implikationen des Modells besteht darin, dass nur die voraussichtlich Besten ausgewählt werden, d. h. der durch den Test vorhergesagte Kriteriumswert bestimmt die Auswahl. Fair ist dies für jeden einzelnen Probanden deshalb, da jeder voraussichtlich im Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird. Ad 4. Ein Test kann den unvereinbaren Anforderungen in Form einer »Testbatterie« aus mehreren Einzel- oder Untertests gerecht werden, indem auf der Ebene der homogenen Einzelskalen dem Aspekt der Messgenauigkeit, in Gestalt des Gesamttestwertes dem Gesichtspunkt der Validität Rechnung getragen wird.

3 3 Diagnostische Verfahren 3.1

Leistungstests

3.1.1 3.1.2 3.1.3 3.1.4 3.1.5

Aufmerksamkeits- und Konzentrationstests Intelligenztests – 200 Spezielle Fähigkeitstests – 228 Entwicklungstests – 232 Schultests – 238

– 182

3.2

Persönlichkeitsfragebogen

3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7

Persönlichkeit und Temperament – 240 Allgemeines zu Fragebogen – 241 Persönlichkeitstestsysteme – 250 Verfahren zur Erfassung aktueller Zustände – 286 Verfahren zur Erfassung von Interessen – 292 Verfahren zur Erfassung der Motivation – 295 Verfahren zur Handlungskontrolle (Volition) – 298

3.3

Nichtsprachliche und Objektive Persönlichkeitstests – 302

– 184

– 240

3.3.1 Nichtsprachliche Persönlichkeitstests – 303 3.3.2 Objektive Persönlichkeitstests – 306

3.4

Projektive Verfahren

– 313

3.5

Verhaltensbeobachtung

– 321

3.5.1 Arten systematischer Verhaltensbeobachtung – 321 3.5.2 Arten der Datenregistrierung – 322 3.5.3 Gütekriterien von Beobachtungsverfahren – 324

3.6

Diagnostisches Interview – 327

3.6.1 Standardisierte Interviews – 329 3.6.2 Interviews selbst konstruieren – 336 3.6.3 Techniken der Gesprächsführung – 339

3.7

Gruppendiagnostik (Interaktionsdiagnostik) – 344

3.7.1 Paardiagnostik – 345 3.7.2 Familiendiagnostik – 355 3.7.3 Teamdiagnostik – 362

182

Kapitel 3 · Diagnostische Verfahren

Leistungstests

3.1

3.1.1 3.1.2

3

3.1.3 3.1.4 3.1.5

Aufmerksamkeits- und Konzentrationstests – 184 Intelligenztests – 200 3.1.2.1 Systematik der Intelligenztests – 200 3.1.2.2 Ausgewählte Intelligenztests – 205 Spezielle Fähigkeitstests – 288 Entwicklungstests – 238 Schultests – 238 3.1.5.1 Schuleingangstests – 240 3.1.5.2 Übertrittstests – 239 3.1.5.3 Schulleistungstests – 239

In der Praxis werden Leistungstests, neben anderen diagnostischen Verfahren, für ein weites Spektrum von Fragestellungen eingesetzt. Das Interview mit Dipl.-Psych. Ackerschott gibt einen ersten Einblick in die diagnostische Praxis, in der Leistungstests ein unverzichtbares Instrument darstellen.

Harald Ackerschott, Diplom-Psychologe, zusammen mit Gabriele Bertram Geschäftsführer der Intelligenz System Transfer GmbH Bonn. Die Gesellschaft versteht sich als Dienstleister für Unternehmen und andere Organisationen mit der Kernkompetenz Psychologie, darin insbesondere Recruiting und Personalselektion (einschließlich Leistungs- und Potenzialdiagnostik).

> Interview mit Dipl.-Psych. Ackerschott Wie ist es um die allgemeine Akzeptanz von Tests und anderen diagnostischen Verfahren (wie z. B. strukturierten Interviews) innerhalb von Verwaltung und Wirtschaft bestellt? Psychometrische Verfahren sind echte Hilfestellungen, bessere und produktivere Personalentscheidungen zu fällen; sie werden sowohl bei Entscheidern als auch bei Bewerbern grundsätzlich als wertvoll eingeschätzt. Bei den Bewerbern werden selbst Intelligenzmaße dann als angemessen angesehen, wenn die Position, die sie anstreben, leistungsorientiert zu besetzen ist. Das gilt auch für Geschäftsführer und Vorstände. Wichtig ist dabei Transparenz der Ergebnisse und ihrer Interpretation. Die Zeiten, als man sagte, psychologische Tests, insbesondere Intelligenz-Messungen, seien nur etwas für die Lehrlingsauswahl, sind nach unserer Erfahrung vorbei.

Ist die psychologische Diagnostik, wie Sie sie anbieten, Ihrer Einschätzung nach ein eher wachsender oder eher schrumpfender Markt? Insgesamt entwickelt sich dieser Markt sehr positiv. Die Bereitschaft allerdings, für so oder auch anders genannte »Assessment Center« beliebig viel Geld auszugeben, ist jedoch seit 2001 gesunken. Verfälschbarkeit: Stellt sich diese Problematik ernsthaft? Problematisch ist, wenn die Bewerber im Internet die Antworten auf Testfragen nicht selbst geben und das später nicht an anderer Stelle im diagnostischen Prozess aufgefangen wird. Ansonsten ist das eine Frage der Testkonstruktion und der Möglichkeit, mehrfache Wiederholungsteilnahmen von einzelnen Bewerbern zu verhindern. Das wird man nicht vollständig können, aber wir haben unsere Vorgehensweisen.

183

3.1 · Leistungstests

Ist es wichtig, dass Augenscheinvalidität vorhanden ist, damit sich die Pbn fair behandelt fühlen? Die faire Behandlung ergibt sich im Kontakt und durch die Bereitschaft, sich auch herausfordern zu lassen und Rede und Antwort zu stehen. Der Schlüssel liegt nicht in der Augenscheinvalidität, sondern in dem notwendigen Aufwand, die eigene Vorgehensweise nachvollziehbar zu machen. Darüber hinaus liegt in dem gezielten Streben nach Augenscheinvalidität die Gefahr der Trivialisierung der Diagnostik. Wer nur Verfahren nutzt, die Jedem nachvollziehbar sind, und die er nicht erklären muss, der schneidet sich viele gute diagnostische Ansätze ab. Welche Leistungs- und Persönlichkeitsbereiche werden von potentiellen Auftraggebern am stärksten nachgefragt? In der Regel werden von Auftraggeberseite zusammengesetzte Eigenschaften oder Fähigkeiten nachgefragt, oder auch Fähigkeiten, die es so als valide messbare Größe gar nicht gibt, wie z. B. »Abschlussstärke« im Verkauf. Wir gehen dann so vor, dass wir eine Anforderungsanalyse an Hand eines halbstandardisierten Interviews auf der Basis der critical-incident-technique machen und die Anforderungen der Tätigkeit oder auch des Entwicklungsprogramms in messbare Dimensionen übersetzen. Wir verlangen von unseren Kunden nicht, dass sie Psychologen sind und immer »richtig« fragen. Unser Anspruch ist, die Bedürfnisse, die der Kunde aus seiner Sicht artikulieren kann, zu hinterfragen und die dahinter stehenden (unternehmerischen) Ziele zu sehen und ihm zu helfen, diese zu realisieren. Wie erfolgen die Testungen? Wir haben verschiedene Technologieformen, aber paper und pencil ist immer noch am verbreitetsten. Daneben gibt es EDV-Formate für Einzel- und Gruppendurchführungen. Gruppendurchführungen sind für die unteren Hierarchieebenen am geeignetsten, im VIP-Bereich muss man den eher kargen Testeinsatz durch persönliche Zuwendung und Repräsentativität oder auch Dynamik des Treffpunktes ergänzen. Testdurchführungen direkt online haben mich bisher nicht überzeugen können. Der Aufwand wird nur scheinbar verringert. Die Nacharbeit der Identität ist bisher zu aufwändig, um wirklich einen Nutzen zu generieren. Mit welchen Problemen werden Sie innerhalb der psychologischen Diagnostik in Zusammenarbeit mit Ihren Kunden am häufigsten konfrontiert? Im Allgemeinen ist die Zusammenarbeit sehr gut und langjährig tragfähig. Wenn Sie unbedingt etwas hören wollen: Im Pricing die Unterschiede zwischen Standardanwendungen und Spezialaufträgen gerade auch den in Konzernen immer rigideren Einkaufsstrukturen zu vermitteln. In der Regel freuen sich die Einkäufer so sehr, wenn Sie sehen, wie ökonomisch unsere Standardanwendungen sind, dass sie denken, es ist damit alles gelöst oder lösbar. Wie ist es um Rückmeldungen über den Erfolg und die Zufriedenheit mit Ihrer Arbeit (=psychologische Diagnostik) bestellt? Unsere Kunden sind in der Regel sachorientierte, zahlengetriebene Geschäftsleute in Branchen und Firmen, die leistungsstark sind und im Wettbewerb stehen. Da wird explizit wenig überschwänglich geschwärmt. Aber es gibt immer wieder Gelegenheiten, in denen uns Kunden ihre Zufriedenheit ausdrücken, oder wenn eine besonders schwere Kuh vom Eis geholt wurde, dann merkt man das einfach. Außerdem haben wir 6

3

184

Kapitel 3 · Diagnostische Verfahren

Kunden, die wir seit deren Gründung betreuen, oder die uns fast seit unserer Gründung treu sind und das spricht einfach für sich, finde ich. Darüber hinaus versuchen wir, wann immer möglich, unsere Verfahren auch im Feldeinsatz zu evaluieren. Diese Ergebnisse sind natürlich bedeutsamer als spontane Zufriedenheitsäußerungen und Schulterklopfen. Gemessen an den (positiven) Konsequenzen von Psychodiagnostik, stehen dazu die Kosten der verwendeten Instrumente in einem angemessenen Verhältnis? Absolut, wir helfen unseren Kunden nicht nur effizienter zu sein in ihrer Prozessgestaltung, sondern auch überlegen in ihrer Mitarbeiterqualität und damit produktiver in ihren Märkten. Das ist einer der Gründe, warum wir im Recruiting nicht für konkurrierende Unternehmen arbeiten. Man kann immer nur einem helfen, Marktführer zu werden oder zu bleiben.
50). Die Nichtgymnasiasten werden nur in fünf Gruppen unterteilt. Um die hinsichtlich der Bildung bestehende Repräsentativitätsverletzung zu korrigieren, wurde für die Ermittlung des Gesamt-(Grundmodul-)Punktwertes durch Zufallseliminierung einiger Probanden eine Verteilung von 40% Gymnasiasten zu 60% Nichtgymnasiasten (für die ersten beiden Altersgruppen) bzw. 30 zu 70% (für die drei weiteren) hergestellt. Für das Erweiterungsmodul (= Wissenstest) dienten N = 661 Probanden im Alter zwischen 15 und 60 Jahren nicht nur als Konstruktions-, sondern auch als Normierungsstichprobe. (Wegen potentieller Reihungs- und Übungseffekte bei solchen Items, die im Zuge der Entwicklungsarbeiten letztlich ausgeschieden werden, kann diese aus Ökonomie-Erwägungen mitunter gewählte Lösung nicht voll zufrieden stellen.) Während die beiden Geschlechter darin in etwa gleich häufig vertreten waren, wiesen hier gar 72% der Probanden Hoch- oder Fachhochschulreife auf. Für die Ermittlung der Normen war deshalb die Gewichtung von Teilstichproben unumgänglich. Das führte letztlich für den Wissenstest zu Normen für drei Altersgruppen (15–25, 26–35, 36–60), für Nichtgymnasiasten und Gymnasiasten sowie für die Gesamtgruppe. Für dieselben Gruppen liegen auch Normen vor für die »bereinigten« Faktoren fluider und kristallisierter Intelligenz (gf und gc). Der Umstand, dass für Grund- und Erweiterungsmodul unterschiedliche Stichproben herangezogen wurden und außerdem zwar das Grundmodul, nicht aber das Erweiterungsmodul bei IST-2000 und IST-2000-R identisch sind, führt das Prozessuale moderner Testentwicklungen deutlich vor Augen. Obwohl gegenüber dem IST-2000 ein deutlicher Fortschritt zu vermerken ist, kann auch beim IST-2000-R die Zusammensetzung der Normierungsstichprobe hinsichtlich Alter und Bildung noch immer nicht befriedigen; damit ist ausgerechnet eine der mit der Neuentwicklung verbundenen Zielvorgaben verfehlt worden. Es ist allerdings damit zu rechnen, dass dieses Defizit in absehbarer Zukunft behoben und ein Instrument vorgelegt wird, das den Status einer »Werkausgabe«, wie er momentan insbesondere für das Erweiterungsmodul gilt, deutlich übertrifft.

Unterschiedliche Normierungsstichproben für Grundmodul und Wissenstests

Fazit. Beim IST-2000 bzw. IST-2000-R handelt es sich um ein sehr sorgfältig konstruiertes Instrument, das sich zur reliablen Erfassung von fünf Primärfaktoren der Intelligenz sowie der beiden Sekundärfaktoren fluide und kristallisierte Intelligenz eignet. Mit der Hinwendung zu diesen beiden Faktoren erfolgte nicht nur eine notwendige theoretische Neuorientierung, sondern durch die konsequente Aggregation über verbale, numerische und figurale Materialien gelang auch deren inhaltsunabhängige Erfassung. Das dem Test zugrunde gelegte »hierarchische Rahmen- bzw. Protomodell der Intelligenzstrukturforschung« sollte jedoch theoretisch besser begründet werden. Die Relevanz von fluider und kristallisierter Intelligenz für schulische Kontexte ist erwiesen; die Validität gegenüber nichtschulischen Anforderungen muss noch empirisch unter Beweis gestellt werden. Das gilt auch für die Notwendigkeit einer Verbreiterung der Normierungsbasis. Sobald diese Arbeiten geleistet sind, kann dem Verfahren wegen seines ansprechenden Testkonzeptes, seiner Überschaubarkeit und Anwendungsfreundlichkeit ein ähnlicher Erfolg am Markt vorhergesagt werden wie seinen unmittelbaren Vorläuferversionen.

Sorgfältig konstruieren

Zusammensetzung der Normierungsstichprobe noch nicht optimal

Theoretisches Modell besser begründen

220

Kapitel 3 · Diagnostische Verfahren

Eine ausführliche Rezension haben Kersting (1999b) und Schmidt-Atzert (2002) vorgenommen. Andere »breite« Intelligenztests LPS. In der Vergangenheit erfreute sich das Leistungsprüfsystem LPS von Horn (1962)

3

Am Thurstone-Modell orientiert

Variante für ältere Personen

Kurzform des LPS

Gründlich revidiert und neu normiert für Schüler

bzw. dessen zweite, erweiterte und verbesserte Aufl. von 1983 bei den Testanwendern einer gewissen Beliebtheit (. Tab. 3.4). Die 15 Untertests sollen die Thurstone-Faktoren verbal comprehension (Tests 1, 2, 5, 6, 12), reasoning (3, 4), word fluency (5, 6), closure (10, 11), space (8, 9, 10), perceptual speed (13, 14) und number (Arbeitskurve) erfassen. Das Verfahren dürfte aber bald nur noch historisch bedeutsam sein, wenn keine Aktualisierung und Neunormierung erfolgt. Eine Neubearbeitung wurde 1993 unter der Bezeichnung LPS 50+ für Probanden im Alter von 50 bis 90 Jahren vorgelegt (Sturm, Willmes & Horn, 1993). Die Items wurden unverändert übernommen, jedoch auf die doppelte Größe gebracht und sorgfältig nach dem Schwierigkeitsgrad gruppiert. Auf den Untertest 8 und die Arbeitskurve des LPS wurde verzichtet. PSB-R 4-6 und PSB-R 6-13. Beim Prüfsystem für Schul- und Bildungsberatung PSB von Horn (1969) handelt es sich um einen Klassiker unter den Intelligenztests. Das PSB ist eine gekürzte Fassung des Leistungsprüfsystems LPS (Horn, 1962), die jene 10 von 15 Untertests vereinigt, die sich am besten zur Trennung von Schülern nach den drei Schularten (Haupt-, Realsschule, Gymnasium) eignen. Nun liegen mit dem PSB-R 4-6 (Horn, Lukesch, Kormann & Mayrhofer, 2002) und PSB-R 6-13 (Horn, Lukesch, Mayrhofer & Kormann, 2003) zwei gründlich revidierte und neu normierte Nachfolgeverfahren für die 4. bis 6. und 6. bis 13. Klasse vor. Beide Tests liegen in Parallelformen (A und B) mit jeweils separaten Normen vor, da sich A und B nicht als völlig äquivalent erwiesen hatten.

Die Untertests der revidierten PSB-Versionen: 1. Allgemeinwissen – PSB-R 4-6: (a) Natur/Mensch, (b) Erdkunde, (c) Kultur/Kunst/Musik, (d) Sprache/Medien. – PSB-R 6-13: (a) Biologie/Medizin/Psychologie, (b) Mathematik/Chemie/Physik, (c) Geographie/Astronomie, (d) Musik/Kultur/Kunst, (e) Sprache/Medien/Kommunikation/Dichtung 2. Zahlreihen (Reasoning 1) 3. Buchstabenreihen (Reasoning 2) 4. Figurale Reihen (Reasoning 3) 5. Wortflüssigkeit 6. Gliederungsfähigkeit (nur im PSB 4-6) 7. Raumvorstellung 8. Gemeinsamkeiten finden 9. Zahlenaddition (Konzentration 1) 10. Zahlenvergleich (Wahrnehmungstempo bzw. Konzentration 2)

Einige Subtests bedürfen der Erläuterung, da sie in anderen hier vorgestellten Intelligenztests (zumindest in dieser Form) nicht vorkommen. Im Subtest Allgemeinwissen ist in Wörtern aus verschiedenen Wissensbereichen (z. B. KRAIDE) jeweils ein falscher

221

3.1 · Leistungstests

Buchstabe durchzustreichen. Wortfülligkeit wird erfasst, indem zu vorgegebenen Anfangsbuchstaben so viele Wörter wie möglich aufzuschreiben sind. Im Subtest Gliederungsfähigkeit wird ein Muster vorgegeben und der Proband soll aus fünf kleinen Zeichen dasjenige markieren, welches in dem Muster versteckt ist. Die Subtests sollen verschiedene Intelligenzfaktoren nach Thurstone erfassen. Faktorenanalysen mit den Skalen des PSB-R 4-6 sprechen aber dafür, dass die Subtests nur sprachliche Leistungsfähigkeit (verbal comprehension), schlussfolgerndes Denken (Reasoning), Feldabhängigkeit (flexibility of closure – Subtest Gliederungsfähigkeit) und Wahrnehmungstempo (perceptual speed) erfassen. Für den PSB-R 6-13 bevorzugen die Autoren eine dreifaktorielle Lösung mit den Faktoren verbales Denkens (verbal comprehension), schlussfolgerndes Denken und Anstrengungsbereitschaft/Konzentrationsfähigkeit (Subtests Zahlenaddition und Zahlenvergleich). Die Reliabilität (Cronbachs α) variiert stark über die Subtests (PSB-R 6-13: Von .65/.55 für Figurale Reihen bis .93/.94 für Allgemeinwissen, jeweils Form A/B). Deshalb ist zumindest beim PSB-R 6-13 nur eine Auswertung der drei Faktoren und der Gesamtleistung (Alpha = .93/.94) sinnvoll. Für das PSB-R 4-6 werden interne Konsistenzen von .74/.72 bis .94 für die Subtests berichtet. Die Validität des PSB-R 4-6 wird durch zum Teil hohe Korrelationen mit Schulnoten (Gesamtleistung und Deutschnote: r = .62) sowie mit dem CFT 20 (r = .55 bzw. .63) belegt. Für das PSB-R 6-13 fallen die vergleichbaren Validitätskoeffizienten niedriger aus. Die beiden revidierten PSB-Versionen bieten sich für den Einsatz in der Schullaufbahnberatung an. Die Normierung nach Klassen (und nicht nach Alter der Probanden), verbunden mit einer Differenzierung nach Schulformen (ab 5. und 6. Klasse), erweist sich für diese Fragestellungen als Vorteil. WIT. Der Wilde-Intelligenztest WIT von Jäger und Althoff (1983, 2., revidierte Aufl. 1994) orientiert sich ebenfalls grob an dem Primärfaktorenmodell. Bevölkerungsrepräsentative Normen für Probanden von 13 bis 40 Jahren stammen von 1962. Für bestimmte Gruppen (z. B. Abiturienten) wurden 1982 zusätzliche Normen erstellt. Eine Überarbeitung und Neunormierung war fällig. Ende 2006 wird voraussichtlich die Neubearbeitung unter dem Namen Der Wilde Intelligenztest 2 (WIT-2) bei Hogrefe erscheinen (Autoren: Kersting, M., Althoff, K. & Jäger, A.O.). Die folgenden Ausführungen basieren auf persönlichen Mitteilungen des Erstautors (Kersting, Juli 2005). Der WIT-2 wurde auf der Grundlage von umfassenden Analysen des bisherigen Wilde-Tests (WIT) neu konstruiert. Der neue Test repräsentiert fünf der sieben Primärfähigkeiten Thurstones (verbal comprehension, number, space, reasoning, memory). Das schlussfolgernde Denken wird im WIT-2 (anders als bei Thurstone) als eine dem verbalen, rechnerischen und räumlichen Denken übergeordnete Skala konzipiert. Darüber hinaus werden die Dimensionen Arbeitseffizienz und Wissen (Wirtschaft sowie Informationstechnologie) erfasst (. Tab. 3.8). Weil der Test vorrangig für die berufsbezogene Diagnostik entwickelt wurde, sind die Testaufgaben teilweise unmittelbar in eine Semantik aus dem Berufs- und Arbeitsleben eingekleidet. Für jedes Modul stehen aktuelle, bildungs- und altersdifferenzierte Normdaten von mindestens 2.175 Personen zur Verfügung. Der Berufsorientierung entsprechend, zielen die Normdaten nicht auf Bevölkerungsrepräsentativität, sondern auf Repräsentativität für eignungsdiagnostisch relevante Gruppen (Bewerber, Rehabilitanden). Auch bei der Erhebung der Daten stand der Praxisbezug im Vordergrund. Der überwiegende Teil der Normdaten für den WIT-2 wurde im Kontext des Ernstfalls von beruflichen Bewerbungssituationen erhoben.

Faktorielle Struktur

Reliabilität der Subtests variiert

Korrelation mit Schulnote

An Thurstone-Modell orientiert

Fünf Primärfaktoren repräsentiert

Für berufsbezogene Diagnostik entwickelt

3

222

Kapitel 3 · Diagnostische Verfahren

. Tabelle 3.8. Aufbau des WIT-2

3

Dimension (jede Dimension kann separat erfasst werden)

Testaufgaben

Itemzahl

Zeitbedarf (Instruktion & Laufzeit)

sprachliches Denken

(1) Analogien2, (2) Gleiche Wortbedeutungen2

40

12 Min.

rechnerisches Denken

(1) Grundrechnen2, (2) Eingekleidete Rechenaufg.2

40

27 Min.

räumliches Denken

(1) Abwicklungen1, (2) Spiegelbilder1

40

22 Min.

Schlussfolgerndes Denken

(1) Analogien2, (2) Abwicklungen1, (3) Zahlenreihen1

60

14 Min. oder 35 Min. 4

Merkfähigkeit

Merkfähigkeit3

21

9 Min.5

Arbeitseffizienz

E-Mails bearbeiten3

42

19 Min.

Wissen Wirtschaft

Wissen Wirtschaft3

20

5 Min.

Wissen Informationstechnologie

Wissen Informationstechnologie3

20

5 Min.

Die allgemeine Instruktion / Testeinführung dauert ca.

20 Min.

Nach ca. 90 min Testung erfolgt eine Pause im Umfang von ca.

17 Min.

Gesamttestzeit (falls alle Module eingesetzt werden sollen)

ca. 150 Min.

Anmerkung. 1) gegenüber dem »alten« WIT kaum verändert; 2) gegenüber dem »alten« WIT deutlich modifiziert; 3) vollständige Neuentwicklung; 4) als separates Modul: 35 Min., als Ergänzung (nur Zahlenreihen) zu den sprachlich und rechnerischen Aufgaben: 14 Min. zusätzlich; 5) zwischen Einprägen und Wiedergabe wird eine andere Testaufgabe im Umfang von 18 min bearbeitet (Quelle: Kersting, persönliche Mitteilung, Juli 2005).

BIS-4. Dem Berliner Intelligenzstruktur-Test (Form 4; BIS-4) von Jäger, Süß & Beaudu-

Hierarchisches Modell mit »g« an der Spitze »Operationen« und »Inhalte«

cel (1997) liegt mit dem »Berliner Intelligenzstrukturmodell« (. Abb. 3.14) ein Strukturmodell zugrunde, das sich deutlich von dem anderer Tests unterscheidet. Die Autoren gehen davon aus, dass an jeder Intelligenzleistung alle intellektuellen Komponenten oder Faktoren beteiligt sind, allerdings mit unterschiedlichen Gewichtungen und Mischungsverhältnissen. An der Spitze der Fähigkeitshierarchie ist als Integral aller Fähigkeiten die »Allgemeine Intelligenz« (AI als BIS-spezifische Operationalisierung von »g«) zu sehen. Das Rautenmodell dient als Rahmen zur Einordnung von Intelligenzaufgaben oder Subtests. Die Autoren unterscheiden vier Arten von »Operationen«, die jeweils mit drei unterschiedlichen »Inhalten« kombinierbar sind. So kann etwa die Merkfähigkeit mit numerischen, verbalen und mit figuralen Aufgaben gemessen werden. Die Anordnung der Operationen im Modell soll übrigens keine Hierarchie ausdrücken. Die rautenförmige Anordnung symbolisiert, dass die Operationen und Inhalte nicht orthogonal zueinander stehen, sondern Gemeinsamkeiten aufweisen. Deshalb wird bei der Auswertung über Inhalte und über Operationen aggregiert. Beispielsweise ergibt sich die Bearbeitungsgeschwindigkeit einer Person als

223

3.1 · Leistungstests

3

. Abb. 3.14. Berliner Intelligenzstrukturmodell. (Nach Jäger et al., 1997, S. 5)

Mittelwert ihrer Testleistungen in allen figuralen, verbalen und numerischen Aufgaben zur Bearbeitungsgeschwindigkeit. Und die numerischen Fähigkeiten können als Aggregat aller Testleistungen mit numerischen Aufgaben aus den Bereichen Bearbeitungsgeschwindigkeit, Merkfähigkeit, Einfallsreichtum und Verarbeitungskapazität bestimmt werden. Folglich liefert der Test für jeden Probanden neben einem Maß der allgemeinen Intelligenz sieben Kennwerte: Figurale, verbale, numerische Fähigkeiten, Verarbeitungskapazität, Einfallsreichtum, Merkfähigkeit und Bearbeitungsgeschwindigkeit. Jeder der 45 Subtests kann in einer der 12 Zellen verortet werden. So gehört der Subtest Buchstaben-Durchstreichen in die Zelle links oben (Bearbeitungsgeschwindigkeit, figural). Anzumerken bleibt, dass die Aufgaben zur Verarbeitungskapazität weitgehend denen anderer Intelligenztests zum schlussfolgernden Denken entsprechen. Das Instrument dient der differenzierten Diagnostik der Intelligenz, und zwar (vorerst) derjenigen von Jugendlichen und jüngeren Erwachsenen, weil primär an diesen Personengruppen die Entwicklungsarbeiten durchgeführt wurden und nur dafür auch Normen vorliegen.

Allgemeine Intelligenz plus sieben Teilfähigkeiten

Grundintelligenztest Skala 2 (CFT 20) mit Wortschatztest (WS) und Zahlenfolgentest (ZF) Weiß (1998). 4., überarbeitete Aufl.

Beim CFT 20 (von »Culture Fair Test«) handelt es sich um ein Mitglied einer ganzen »Testfamilie« zur sprachfreien Messung der fluiden Intelligenz nach Cattell (. Tab. 3.9). Cattell stellte den ersten Test dieser Art bereits 1940 vor. Der ursprüngliche Anspruch, die Intelligenz »kulturfrei«, also unabhängig von Einflüssen des sozio-kulturellen, schulischen und erziehungsspezifischen Erfahrungshintergrunds zu messen, erwies sich als

Sprachfreie Messung der fluiden Intelligenz

224

Kapitel 3 · Diagnostische Verfahren

. Tabelle 3.9. Die »Culture Fair Tests«

Testmerkmal

Altersbereich (Jahre)

3

Testbezeichnung CFT 1

CFT 20

CFT 3

5;3 bis 9;5

8;7 bis 60

14-19

x

x

Aufbau (Subtests) – Reihen fortsetzen – Klassifikationen

x

x

x

– Matrizen

x

x

x

x

x

– Topologische Schlussfolgerungen – Sonstige

Substitutionen Labyrinthe Ähnlichkeiten

Wortschatza, Zahlenfolgena

Teil 1 auch als Powerversion

Erscheinungsjahr, Aufl.

1997 (5. Aufl.)

1998 (4. Aufl.)

1971 (3. Aufl.)

Normen: Erhebungsjahr und (N)

1976 (6078) und 1995 (1200)

1977 (5730)

1963 bis 1971 (3476)

Anmerkungen

Adaptation des amerikanischen CFT 1

Nachfolger des CFT 2

Erschwerte Version des CFT 2

Anmerkung. Der CFT 2 wurde seit 1977 nicht mehr verändert. Diese Tests sind unabhängig vom CFT 20 und liefern ergänzende Informationen; Normen für den Altersbereich 8;7 bis 15;6. a

»Kulturfair«

Vier Subtests

Kurz- und Langform

Zwei zusätzliche Tests zur kristallisierten Intelligenz

überhöht, und die ursprüngliche Testbezeichung »culture free« (Cattell, 1940) wurde später zu »culture fair« abgeschwächt. Um dem Anspruch der kulturfairen Messung wenigstens konzeptuell gerecht zu werden, sind die Items sprachfrei, d. h. sie enthalten nicht jenes Element, das spezifisch für Kulturen ist, nämlich die jeweilige Sprache. Die 1998 erschienene 4., überarbeitete Aufl. enthält die gleichen Testmaterialien wie zuvor; die Überarbeitung betrifft lediglich das Testmanual. Inzwischen ist auch eine Computerversion im Rahmen des Hogrefe Testsystems (HTS) erhältlich. Gliederung. Das Verfahren besteht aus vier Subtests, bei denen Figurenreihen fortge-

setzt, Figuren klassifiziert, Figurenmatrizen vervollständigt und topologische Schlussfolgerungen gezogen werden sollen (7 Beispiele in . Abb. 3.15). Die insgesamt 92 Items sind innerhalb der Subtests nach Schwierigkeit angeordnet. Der Test gliedert sich ferner in zwei gleichartig aufgebaute Teile mit je 46 Items. Teil 1 kann als Kurzform verwendet werden, die Langform setzt sich aus Teil 1 und 2 zusammen. Bei Probanden, die testunerfahren sind und/oder Schwierigkeiten im Instruktionsverständnis haben, kann Teil 1 als eine Art Lerntestprozedur angesehen und Teil 2 zur eigentlichen Intelligenzmessung verwendet werden. Dieser kulturfaire Teil wird um zwei fakultative Tests zur kristallisierten Intelligenz ergänzt, für die ein separates Manual vorliegt. Beim Wortschatztest ist bei jeder der 30 Aufgaben zu einem vorgegebenen Wort (z. B. Acker) unter mehreren Auswahlwörtern

225

3.1 · Leistungstests

a

b

. Abb. 3.15a–d. a Es ist die Figur zu suchen, die die Reihe richtig fortsetzt (a). b Es ist die Figur zu finden, die nicht in die Reihe passt (d). c Gesucht ist die das Muster richtig ergänzende Figur (c). d Zu finden ist die Figur, in der der Punkt ähnlich wie im Beispiel (im Kreis, aber außerhalb des Quadrats) gesetzt werden kann (c)

c

d

(z. B. (a) Pferd, (b) Traktor, (c) Landwirt, (d) Feld, (e) Kartoffel) das ähnlichste herauszufinden. Der Zahlenfolgentest besteht aus 21 Zahlenreihen, die fortzusetzen sind (z. B. 2 1 3 2 4 3 ? ). Sämtliche Tests liegen in den Parallelformen A und B vor, die sich jedoch nur in der Lokalisation der Auswahlantworten unterscheiden. Damit kann bei Gruppenuntersuchungen Abschreiben entgegengewirkt werden.

Zwei Parallelformen

Durchführung. Der Einsatzbereich des als Individual- wie als Gruppentest durchführ-

baren Verfahrens liegt zwischen 8;7 und 60 Jahren. Übungsaufgaben führen in die Eigenart jedes Subtests sowie in die Technik der Übertragung der Antworten in ein Antwortblatt ein. Die Bearbeitung der beiden Testhälften dauert bei Gruppenuntersuchungen etwa 60 min einschließlich Instruktion und Übungsaufgaben. Bei Verwendung der Kurzform (Teil 1) verkürzt sich die Zeit auf ca. 37 min. Für die fakultativen Wortschatzund Zahlenfolgentests sind weitere 45 min zu veranschlagen.

Für Altersbereich 8;7 bis 60 Jahre

Auswertung. Schablonen ermöglichen eine rasche und objektive Auswertung der Ant-

worten auf dem Antwortbogen, die zu einem Gesamtwert addiert und in T-, IQ- und Prozentrangwerte transformiert werden. Reliabilität. Die Halbierungszuverlässigkeit der beiden Testteile beträgt .90 bzw. .91, für den Gesamttest sogar .95. Diese Werte resultieren allerdings aus einer Untersuchung mit Probanden aller Altersgruppen. In altershomogenen Gruppen würden sie zwangsläufig niedriger ausfallen. In einer Wiederholungsuntersuchung an 13–15jährigen Schülern mit einem Intervall von zwei Wochen ergab sich ein Stabilitätskoeffizient von rtt = .77.

3

Hohe Konsistenz und Stabilität

226

Kapitel 3 · Diagnostische Verfahren

Korrelationen mit Mathematik- und Deutschnote

3

Validität. Die Korrelationen zur Mathematiknote, also einem Indikator für nichtsprachliche Leistungen, liegen bei .50, (die zur Deutschnote nur bei .29), was den Erwartungen insofern entspricht, als im Deutschunterricht per definitionem stark die Sprache als ein spezifisches Kulturelement im Vordergrund steht, diese im Test aber keine vordergründige Rolle spielt. Insgesamt sind die Beziehungen zu konstruktnahen Variablen (z. B. Raven-Test) höher als diejenigen zu konstruktfernen (wie z. B. Rechtschreib- und Wortschatztests). Wortschatz- und Zahlenfolgetest interkorrelieren zu r = .35; ihr Zusammenhang mit dem sprachfreien Teil des CFT 20 beträgt .48 bzw. .57. Der Wortschatztest korreliert durchschnittlich zu .50 mit der Deutschnote und der Zahlenfolgentest zu .60 mit der Mathematiknote. Normierung. An insgesamt 4400 Schülern wurden Alters- und Schulnormen ermittelt,

Alte Normen

die im Jahre ihrer Erstellung (1977) von hinreichender Repräsentativität gewesen sein dürften. Für die Kurzform (1. Teil) liegen auch Normen für 20-70jährige vor (N = 1.330). Die Normierung des Wortschatz- und des Zahlenfolgentests erfolgte 1985 und 1986 an ca. 2.700 Schülern vom 3. bis 9. Schuljahr. Bewertung. Der eigentliche Wert des Verfahrens liegt darin, die grundlegende intellek-

Intellektuelles Potenzial messen

tuelle Leistungsfähigkeit im Sinne der fluiden Intelligenz relativ unabhängig von kulturbzw. schichtspezifischen Einflüssen und Schulkenntnissen prüfen zu können. Dadurch ist es weniger ein Instrument zur Prognose von Schulleistungen, sondern eher zur Untersuchung der Intelligenz von sprachretardierten und Ausländerkindern. Die Ergebnisse im CFT 20 können im Einzelfall helfen, das intellektuelle Potenzial von Probanden mit niedrigen Testwerten in bildungsabhängigen Intelligenztests und/oder schlechten Schulleistungen einzuschätzen. Ob die beiden Zusatztests (Wortschatz- und Zahlenfolgentest) eine sinnvolle Ergänzung zur Erfassung der kristallisierten Intelligenz darstellen, kann bezweifelt werden. Die Stärke des CFT 20 liegt darin, dass vier unterschiedliche Aufgabentypen eingesetzt werden, um eine Fähigkeit zu messen. Den Zusatztests liegt dieses Prinzip nicht zugrunde. Die verbale und numerische Intelligenz werden mit jeweils nur einem einzigen Test abgedeckt. Eine Testrezension, die sich noch auf die 3. Aufl. des CFT 20 bezieht, hat Heller (1997) verfasst. Lesenswert ist auch die Replik darauf von Weiß (1997). Alternativen zum CFT 20

Wenn ein Kind im Altersbereich von 5;3 bis 9;5 Jahren untersucht werden soll, bietet sich aus der gleichen Testfamilie der CFT 1 an (. Tab. 3.9). Den Anspruch, die Intelligenz weitgehend sprachfrei und bildungsunabhängig messen zu können, erheben aber auch andere Testverfahren. Wenn bei einem Kind eine Einzeltestung vorgesehen ist, kommen z. B. auch sprachfreie Untertests der K-ABC (7 oben) in Frage. Darüber hinaus stehen im deutschen Sprachraum zwei weitere Verfahren – nicht nur zum Einsatz an Kindern – zur Verfügung, die nun kurz mit dem CFT 20 kontrastiert werden.

Mehrere Varianten

CPM: aktuelle Normen

Ravens Progressive Matrizen. Unter dem Überbegriff Ravens Progressive Matrizen lassen sich drei Tests zusammenführen, die dem gleichen Konstruktionsprinzip folgen, sich aber in ihrer Schwierigkeit und ihrem Einsatzbereich unterscheiden: Die Standard Progressive Matrices (SPM) sind deutlich leichter als die Advanced Progressive Matrices (APM), im Gegensatz zu diesen beiden Versionen decken die Coloured Progressive Matrices (CPM) den Altersbereich von 3;9 bis 11;8 Jahren ab. Letztere stellen gleichzeitig die Variante mit den aktuellsten deutschen Normen dar (Raven, Bulheller & Häcker,

227

3.1 · Leistungstests

2002). Die Normen stammen aus zwei Erhebungen aus den Jahren 1998 und 1999 in Deutschland und Frankreich. Wie der CFT hat das Verfahren eine lange Tradition; die Erstveröffentlichung stammt aus dem Jahr 1938. Eine weitere Gemeinsamkeit ist das Vorliegen von internationalen Forschungsarbeiten zu und mit den Tests. Die Versionen APM und CPM stehen auch als Computerversion zur Verfügung (Schuhfried). Drei Unterschiede zum CFT 20 sind hervorzuheben: 4 Während beim CFT 20 vier unterschiedliche Aufgabentypen verwendet werden und damit eine gewisse Breite der Messung garantiert wird, begnügen sich die Raven-Tests lediglich mit dem Aufgabentyp Matrizen. Diese unterscheiden sich von denen des CFT (. Abb. 3.16): Aus einer strukturierten Fläche ist ein dachziegelförmiges Stück herausgeschnitten. Nach dem Multiple-Choice-Prinzip stehen mehrere Muster zur Auswahl. Der Proband soll das passende auswählen. 4 Ravens Matrizentests sind als Power-Tests konzipiert. Die Probanden haben also nahezu beliebig viel Zeit für die Testbearbeitung. Bei Gruppenuntersuchungen kann dies ein Nachteil sein. Andererseits ist für manche Fragestellungen eine Intelligenzmessung ohne Zeitdruck von Vorteil. 4 Obwohl bei den Raven-Matrizen und beim CFT figurale, sprachfreie Aufgaben eingesetzt werden, die schlussfolgerndes Denken erfordern, bezieht sich der RavenTest auf Spearmans g-Faktor Modell und Cattells CFT auf die fluide Intelligenz. Dieser Unterschied erklärt sich aus den unterschiedlichen Forschungstraditionen der Testautoren und ist für die diagnostische Praxis allenfalls etwas irritierend. 4 Eine gründliche Testrezension zu den verschiedenen Progressiven Matrizentests von Raven hat Gierschmann (2003) verfasst.

3

Verfahren mit Tradition

Auch als Computertest

Nur ein Aufgabentyp

Power-Test

BOMAT. Der Bochumer Matrizentest – advanced (Hossiep, Turck & Hasella, 1999)

verwendet den gleichen Typ von Matrizenaufgaben wie der CFT 20. Mit den 40 Testitems, für die 80 min Bearbeitungszeit zur Verfügung stehen, soll die allgemeine Intelligenz gemessen werden. Die Aufgaben bestehen immer aus einer 5 x 3 Matrix mit einem leeren Feld, das durch eines von sechs zur Auswahl stehenden Mustern zu ergänzen ist. Der Test wurde für den oberen Intelligenzbereich konstruiert und an 303 Studierenden und Absolventen von Universitäten und Fachhochschulen normiert. Der Test liegt in zwei Parallelformen (A und B) vor. Aus dem Itempool des BOMAT wählten die Autoren Items für die Kurzform BOMAT asv (Bochumer Matrizentest – advanced

Matrizentest für den oberen Intelligenzbereich Auch Kurzform . Abb. 3.16. Testaufgabe aus der Computerversion von Raven’s Coloured Progressive Matrices (CPM) im Wiener Testsystem. Quelle: www.schuhfried.co.at/ deu/ wts/cpm.htm

228

3

Kapitel 3 · Diagnostische Verfahren

Kurzform ökonomisch Mangelnde Validitätsbelege

– short version; Hossiep, Turck & Hasella, 2001) aus. Es existieren zwei Parallelformen mit je 29 Items (eines davon dient nur dem Einstieg und wird nicht gewertet). Die Bearbeitungszeit beträgt 45 min. Das Lesen der Instruktion und die Bearbeitung der zehn Übungsaufgaben nehmen noch einmal ca. 20 min in Anspruch. Normiert wurde der Test an 668 Hochschülern und (Fach)Hochschulabsolventen. In einer Testrezension resümiert Fay (2003), dass der BOMAT asv in seiner Schwierigkeit besser als der BOMAT auf die Zielgruppe abgestimmt, ansprechend aufgemacht und sorgfältig konstruiert ist. Er ist ökonomisch auszuwerten (auf einem Durchschreibbogen brauchen lediglich die richtigen Antworten ausgezählt zu werden) und liefert hoch zuverlässige Ergebnisse, weist aber noch Mängel in der Normierung bzw. deren Dokumentation auf. Seine Validität ist noch unzureichend belegt. 3.1.3

Carroll-Modell als Ordnungsschema

Spezielle Fähigkeitstests

Für die Einordnung weiterer Leistungstests wird ein Ordnungsschema benötigt. Hilfreich ist eine Systematik kognitiver Fähigkeiten, die Carroll (1993) durch umfangreiche Faktorenanalysen erstellt hat. Es handelt sich dabei um ein hierarchisches Modell mit der Allgemeinen Intelligenz g an der Spitze. Auf der darunter liegenden Ebene unterscheidet Carroll zwischen acht Fähigkeitsbereichen, die er nach ihrer Nähe zur Allgemeinen Intelligenz ordnet. Den höchsten Zusammenhang mit g weist die fluide Intelligenz auf, den niedrigsten die Verarbeitungsgeschwindigkeit. Jeder Fähigkeitsbereich wird durch bestimmte Testaufgaben spezifiziert. Beispielsweise ordnet Carroll (1993) Reasoningtests der fluiden Intelligenz zu. Mit dieser Taxonomie können einzelne Tests verortet werden. Allerdings liegt ein fast unüberwindbares Problem darin, dass sich Testautoren selten auf Carroll beziehen und Testnamen, oft sogar die Ausführungen zur konzeptuellen Einordnung eines Tests, manchmal mehr zur Verwirrung als zur Klärung beitragen. Deshalb fällt es im konkreten Fall manchmal schwer, einen Test angemessen einzuordnen.

Fähigkeitsbereiche (Ebene II) nach Carroll (1993) 4 4 4 4 4 4 4 4

Einordnung der bisher vorgestellten Intelligenztests

Fluide Intelligenz (z. B. Tests zu Reasoning) Kristallisierte Intelligenz (z. B. Tests zum Lexikalischen Wissen) Allgemeines Gedächtnis und Lernen (z. B. Tests zur Gedächtnisspanne) Allgemeine visuelle Wahrnehmung (z. B. Tests zur Wahrnehmungsgeschwindigkeit) Breite auditive Wahrnehmung (z. B. Tests zur Tonhöhendiskrimination) Allgemeine Abruf- (retrival )Fähigkeit (z. B. Tests zur Kreativität) Allgemeine kognitive Schnelligkeit (z. B. Tests zur Numerischen Gewandtheit) Verarbeitungsgeschwindigkeit (z. B. Tests zur einfachen Reaktionszeit)

Die bisher vorgestellten Intelligenztests fallen in den Bereich der fluiden Intelligenz (z. B. CFT 20) oder stellen mit ihren Subtests einen Mix aus Tests zu den Bereichen fluide Intelligenz (z. B. mehrere Subtests des IST-2000-R), kristallisierte Intelligenz (z. B. die Wissenstests im IST-2000-R), Gedächtnis und Lernen (z. B. Zahlennachsprechen im HAWIK-III) dar. Tests zur Aufmerksamkeit und Konzentrationsfähigkeit fallen möglicherweise in die Bereiche kognitive Schnelligkeit und Verarbeitungsgeschwindigkeit.

229

3.1 · Leistungstests

Leistungstests, die nicht explizit als Tests zur fluiden Intelligenz oder als breite gMaße konzipiert sind, lassen sich in vielen Fällen zumindest vorläufig in die Taxonomie Carrolls einordnen. Kristallisierte Intelligenz. Die Absicherung kann nur durch Untersuchungen zur Konstruktvalidität der Tests erfolgen. Die kristallisierte Intelligenz hat viele, zum Teil sehr »schmale« Facetten. Wortschatztests wie der Mehrfachwahl-Wortschatz-Test, Form A (MWT-A; Lehrl, Merz, Erzigkeit & Galster, 1974) können dort genauso verortet werden wie Tests zum kaufmännischen oder technischen Verständnis (z. B. der Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens MTP von Conrad et al., 1980). Tests zu einzelnen Aspekten der kristallisierten Intelligenz können, wie der MWT-A, einen eng umschriebenen Bereich abdecken oder auch mehrere beieinander liegende Bereiche. So prüft der Allgemeine Büroarbeitstest ABAT-R (Lienert & Schuler, 1994) mehrere Teilfähigkeiten, die bei Bürotätigkeiten relevant sind.

Viele Facetten der kristallisierten Intelligenz

ABAT-R: Revidierter Allgemeiner Büroarbeitstest von Lienert und Schuler (1994)

Der ABAT-R ist die Revision des ABAT von Lienert (1967), der in Anlehnung an den in USA viel verwendeten »General Clerical Test« entwickelt wurde. Gliederung. Der ABAT-R prüft mit 6 Aufgabengruppen in begrenzter Zeit das Sortieren von Kundenbriefen, Vergleichen von Adressen, Überprüfen von Summen, Erkennen von Rechtschreibfehlern, Lösen von Textaufgaben und die Zeichensetzung.

Aufgaben aus dem Bereich Bürotätigkeiten

Durchführung. Der ABAT-R liegt in 2 Parallelformen vor und ist als Einzel- oder als Gruppentest vom 14. Lebensjahr an einsetzbar. Die Durchführungszeit beträgt etwa 40 min. Auswertung. Die Testauswertung erfolgt mittels Schablone. Die Subtestrohwerte werden in Stanine-Werte und deren Summe in altersrelativierte Z- und Prozentrangwerte transformiert. Reliabilität. Die Paralleltestreliabilität des Gesamttests (nach 8 Wochen) beträgt .79, die Retestreliabilität (nach 8 Wochen) .83. Validität. Eine Faktorenanalyse trennt Rechtschreibleistungen von numerischen Fertigkeiten. Mit dem LPS-Gesamtergebnis korreliert der ABAT-R .67. Mit dem Zensurendurchschnitt nach 1/2 Jahr ergab sich eine Korrelation von .49, mit dem Gesamtresultat der Eignungsuntersuchung der Handelskammer von .44. Normierung. Normen von 1659 Probanden stehen für die Altersstufen 14–25 Jahre

sowie für verschiedene Schularten zur Verfügung. Bewertung. Der ABAT-R ist ein zuverlässiges und für die Prognose des Ausbildungserfolges für einfache Bürotätigkeiten auch valides, gut standardisiertes Instrument, das zu einem nicht unerheblichen Teil allgemeine kognitive Fähigkeiten erfasst. Bei psychologischen Laien findet das Konzept der »multiplen Intelligenzen« (z. B. Gardner, 2002) großen Anklang. Aus wissenschaftlicher Sicht ist es nicht nötig, eine Inflation der Intelligenzen zuzulassen. »Spezialintelligenzen« lassen sich der kristallisierten Intelligenz unterordnen. Untersuchungen zur Konstruktvalidität müssen zei-

»Multiple Intelligenzen«

3

230

Kapitel 3 · Diagnostische Verfahren

gen, ob die Zuordnung gerechtfertigt ist. Zu erwarten sind eine niedrige bis moderate Korrelation mit Maßen der Allgemeinen Intelligenz und hohe Korrelationen mit Wissen oder anderweitig erworbener Expertise in dem Bereich, auf den sich die »Spezialintelligenz« bezieht. Für die Diagnostik hat sich das Konzept der multiplen Intelligenzen bisher als wenig fruchtbar erwiesen. Einer der wenigen Tests, die zur Diagnostik einer »Spezialintelligenz« entwickelt wurden, soll nun kurz vorgestellt werden.

3

PAI30: Test zur Praktischen Alltagsintelligenz von Mariacher und Neubauer (2005)

Bewältigung praktischer Probleme im Alltag

Zur Begründung des Konstrukts Praktische Alltagsintelligenz verweisen die Autoren auf die allgemeine Beobachtung, dass sich kluge, intelligente Menschen in praktischen Angelegenheiten manchmal ungeschickt anstellen, und dass es umgekehrt wenig intelligente Menschen gibt, die sich sehr effektiv mit ihrer materiellen Umwelt auseinandersetzen. Praktische Alltagsintelligenz wird, so vermuten die Autoren, in der Regel nicht durch eine bestimmte Ausbildung, sondern durch Auseinandersetzung mit der eigenen Lebensumwelt erworben. Vermutlich würden aber auch viele Berufsausbildungen die Praktische Alltagsintelligenz schulen. Diese Fähigkeit zeige sich »in der Auffindung von praktischen Problemlösungen bezogen auf materielle Gegebenheiten im Alltag« (S. 11). Die Autoren grenzen das Konzept von dem der Praktischen Intelligenz ab, das auch den effizienten Umgang mit der sozialen Umwelt einschließt. Gliederung. Der Test besteht aus 30 Aufgaben, die nicht nach ihrer Schwierigkeit, son-

Aufgaben durch Fotos oder Skizzen veranschaulicht

dern nach Zufall gereiht sind. In jeder Aufgabe wird ein Problem geschildert, das in den meisten Fällen durch ein Foto oder eine Skizze veranschaulicht wird, und zu dem der Proband eine Lösung finden soll. Die Antwort wird im Antwortheft entweder durch Ankreuzen einer Antwortalternative oder durch freie, stichwortartige Beschreibung der Lösung eingetragen. Beispiel

Itembeispiel (Übungsaufgabe) aus dem PAI Sie versuchen, mit einem Löffel Speiseeis aus einer großen Eispackung in Röllchenform abzurollen. Das Eis bleibt jedoch am Löffel kleben, und bricht, wenn Sie stärker andrücken, sodass Sie keine Röllchen formen können. Was unternehmen Sie, damit Sie das Eis doch in Röllchenform abheben können? Zur Verfügung steht gewöhnliches Kücheninventar. Lösung: »Den Löffel in Wasser tauchen.« Anmerkung. Wird zwischen Löffel und Eis ein Wasserfilm aufgebracht, verringert sich die Haftung zwischen Eis und Löffel, sodass das Eis nicht am Löffel kleben bleibt.

Durchführung. Der PAI kann als Einzel- oder Gruppentest durchgeführt werden. Die Bearbeitungszeit ist mit 60 bis 65 min angegeben; diese Zeit sollte für alle Probanden ausreichen.

Für Bewertung freier Antworten Erklärungen im Manual

Auswertung. Jede richtig beantwortete Aufgabe wird mit einem Punkt bewertet; die Summe der richtigen Lösungen ergibt den Testrohwert. Im Manual finden sich die richtigen Antworten (manchmal sind mehrere Lösungen richtig) nebst einer Erklärung.

231

3.1 · Leistungstests

3

Auswertungsobjektivität und Reliabilität. Zwei Auswerter werteten 100 Protokolle

unabhängig voneinander aus. In 94% der Fälle ermittelten sie den gleichen Testrohwert und in den restlichen Fällen wichen die Ergebnisse nur um einen Punkt voneinander ab. Mit der Testhalbierungsmethode wurde eine Reliabilität von .86 ermittelt. Validität. Mit dem LPS als Maß der allgemeinen Intelligenz korreliert der PAI zu .50 (N = 65); die Korrelation mit dem LPS-Subtest zur technischen Begabung beträgt .47. Zur konvergenten Validität wird eine Korrelation von .70 (N = 66) mit einem Test zum praktisch-technischen Verständnis (PVT von Amthauer, 1972) berichtet. Vier Beurteiler verglichen insgesamt 24 Personen aus ihrem gemeinsamen Bekanntenkreis hinsichtlich des Merkmals Praktische Alltagsintelligenz paarweise miteinander (vermutlich unvollständiger Paarvergleich). Die Anzahl der Gesamtbevorzugungen korrelierte .74 mit den PAI-Rohwerten.

Korrelationen mit allgemeiner Intelligenz und mit technischem Verständnis

Normen. Für die Normierung untersuchten die Autoren in den Jahren 1999 bis 2004 in

verschiedenen österreichischen Städten insgesamt 353 Probanden im Alter zwischen 16 und 75 Jahren. Die einzige Normtabelle gilt für alle Alterstufen und für beide Geschlechter. Zusätzlich geben die Autoren Mittelwerte und Streuungen für Teilgruppen mit unterschiedlichen Bildungsabschlüssen an. Bewertung. Hält der Test, was der Testname verspricht? Misst der Test Praktische All-

tagsintelligenz? Die Frage kann derzeit nicht beantwortet werden. Die hohe Korrelation mit dem PVT kann auch dahingehend interpretiert werden, dass der PAI (praktisch-) technisches Verständnis erfasst. Eine Inspektion der Testaufgaben unterstützt diese Interpretation. Die Normierung ist unzulänglich. Eine repräsentative Eichstichprobe wurde offenbar nicht angestrebt. Bei einer Korrelation von .30 mit dem Alter wären altersgestufte Normen angemessen. Auf die nahe liegende Frage, ob vielleicht Geschlechtsunterschiede bestehen, findet sich keine Antwort. Der PAI kann in der vorliegenden ersten Aufl. nur zu Forschungszwecken empfohlen werden.

Technisches Verständnis oder praktische Alltagsintelligenz? Unzulängliche Normierung

Gedächtnis und Lernen. Andere Tests lassen sich in die Kategorie der Gedächtnis- und

Lerntests einordnen. Als Beispiel sei der Lern- und Gedächtnistest LGT 3 von Bäumler (1974) genannt. Lern- und Gedächnistest LGT 3 Gliederung. Drei verbale Tests fordern das Erlernen von Telefonnummern, türkischen

Vokabeln sowie von Details eines Bauberichts. In drei weiteren Subtests müssen ein Stadtplan, verschiedene Gegenstände und Firmenzeichen eingeprägt werden.

Unterschiedliche Lernaufgaben

Durchführung. Die sechs Lernaufgaben sind in jeweils 1–2 min anhand eines Lernheftes zu bewältigen. Mit Hilfe eines separaten Testheftes ist das Gelernte anschließend wiederzuerkennen oder frei zu reproduzieren. Der Test liegt in zwei Parallelformen vor und ist als Einzel- und Gruppentest einsetzbar. Die Durchführungsdauer beträgt etwa 30 min.

2 Parallelformen vorhanden

Auswertung. Die Auswertung erfolgt zum einen Teil mittels Schablone, zum anderen Teil anhand eines durch einen Kriterienkatalog ergänzten Schlüssels. Die Rohpunkte werden in T-Werte transformiert und in ein Profil eingetragen. Die Berechnung eines Gesamtwertes sowie von zwei Faktorwerten für verbales und figurales Gedächtnis sind möglich.

Gesamtwert plus Werte für verbales und figurales Gedächtnis

232

Kapitel 3 · Diagnostische Verfahren

Reliabilität. Die Split-half-Reliabilitäten der einzelnen Untertests liegen zwischen .57 und .78, ihre Paralleltestkoeffizienten zwischen .51 und .69. Die Retestreliabilität für einen Zeitraum von 1–2 Wochen variiert zwischen .72 und .85, für 3–4 Wochen zwischen .47 und .71, und für den Gesamtwert beträgt sie .89 bzw. .71. Validität. Faktorenanalysen stützen die Berechnung eines Gesamtindexes wie die eines Verbal- und eines Figuralfaktors. Die Korrelationen mit Schulnoten und mit Intelligenz sind moderat.

3

Normierung. Der Test wurde an 1.150 Gymnasiasten, Inspektorenanwärtern und Stu-

denten standardisiert.

Breite Messung

Bewertung. Beim LGT 3 handelt es sich um ein Verfahren, das Lernleistungen und mittelfristige Gedächtnisleistungen hinreichend reliabel zu erfassen erlaubt. Mit sechs verbalen und figuralen Aufgaben erfolgt die Messung relativ breit. Motorik. Neben dem Bereich der kognitiven Fähigkeiten, der mit Carrolls Modell auf-

Beurteilung der Motorik in verschiedenen Anwendungsbereichen nützlich

gespannt wird, steht der Bereich der (Psycho-) Motorik. Für bestimmte diagnostische Fragestellungen ist eine Beurteilung von motorischen Fähigkeiten und Fertigkeiten wichtig. Beispielsweise stellt sich in der Förderdiagnostik manchmal die Frage, wie gravierend sich eine körperliche Behinderung auf die motorische Leistungsfähigkeit auswirkt. In der Neuropsychologie soll manchmal die motorische Beeinträchtigung quantifiziert werden, die ein Patient etwa durch eine Schädel-Hirn-Verletzung erlitten hat. In der beruflichen Eignungsdiagnostik und in der Sportpsychologie können Anforderungsanalysen auf die Notwendigkeit hinweisen, bestimmte fein- und grobmotorische Fähigkeiten zu prüfen. Für solche Zwecke stehen zahlreiche Testverfahren zur Verfügung, die so unterschiedliche Aspekte der Motorik wie Tremor, Zweihandkoordination oder Körperkoordination messen. Aus Platzgründen ist es nicht möglich, hier eine Übersicht über diese Verfahren zu geben oder einzelne Tests vorzustellen. Stattdessen wird auf das von Bös (2001) herausgegebene, umfangreiche Handbuch verwiesen. 3.1.4

Entwicklungsretardierungen erkennen

Intelligenztests auch zur Entwicklungsdiagnostik verwendbar Entwicklungsstand geistig retardierter Erwachsener bestimmbar

Entwicklungstests

Entwicklungstests sind Verfahren, die den Leistungsstand eines Kindes in Relation zu seinem Lebensalter erfassen wollen. Ihr Ziel ist es, durch Vergleich der individuellen Ergebnisse mit den Normwerten Gleichaltriger rechtzeitig Hinweise auf behandlungsbedürftige Entwicklungsretardierungen zu erhalten. Diese Anwendung setzt voraus, dass die eingesetzten Verfahren nicht nur für ein bestimmtes Lebensalter normiert sind, sondern auch Normwerte für längere Entwicklungsperioden bereitstellen. Allgemeine Entwicklungstests versuchen dabei die ganze Breite des kindlichen Entwicklungsstandes zu erfassen, spezielle Entwicklungstests dagegen nur einen Ausschnitt. Intelligenztests für Kinder, die bereits in 7 Abschn. 3.1.2.2 behandelt wurden, können grundsätzlich auch zur Entwicklungsdiagnostik eingesetzt werden, wenn die allgemeine kognitive Entwicklung oder die Entwicklung von intellektuellen Teilfähigkeiten zu beurteilen ist. Selbst der Entwicklungsstand von geistig retardierten Erwachsenen, älteren Kindern und Jugendlichen kann mit Tests eingeschätzt werden, die nur für (jüngere) Kinder entwickelt und normiert sind. Davon sollte nur Gebrauch gemacht werden, wenn

233

3.1 · Leistungstests

keine altersgerechten Verfahren zur Verfügung stehen. Dazu wird in den Normtabellen nachgesehen, in welcher Altersgruppe der ermittelte Testrohwert des Probanden zu einem genau durchschnittlichen Normwert (bei IQ-Werten also 100) führen würde. Das Alter der Normgruppe, in welcher der Testrohwert exakt einer durchschnittlichen Testleistung entspricht, kennzeichnet den aktuellen Entwicklungsstand des Probanden.

Entwicklungsstand bestimmen

Beispiel

Ein 17jähriger erreicht in einem Intelligenztest für Kinder 65 Punkte. Der Diagnostiker sucht die Normtabelle, in der ein IQ von 100 bei 65 Punkten zuerkannt wird. Er stellt fest, dass dies in der Altersgruppe 9;0 bis 10;0 Jahre der Fall ist. Die Schlussfolgerung lautet, dass der Proband in diesem Test den Leistungsstand eines durchschnittlichen 9jährigen erreicht hat. Sein »Intelligenzalter« beträgt somit 9 Jahre.

Allgemeine Entwicklungstests

Einige Entwicklungstests dienen als Breitbanddiagnostikum und erfassen mit ihren Subtests mehrere Entwicklungsbereiche. GES: Griffiths Entwicklungsskalen zur Beurteilung der Entwicklung in den ersten beiden Lebensjahren, deutsche Bearbeitug (2., überarbeitete und erweiterte Aufl.).

Brandt, I. & Sticker, E.J. (2001). Göttingen: Beltz Test Die GES stellen den einzigen Entwicklungstest für die ersten beiden Lebensjahre dar, der an deutschen Kindern standardisiert ist (Brandt & Sticker, 2001). Die Skalen gehen auf Griffiths Mental Development Scale zurück, erstmalig 1954 unter dem Titel »The Ability of Babies« veröffentlicht (Griffiths, 1954). Diese Version kam in Deutschland zwischen 1967 und 1979 im Rahmen einer Längsschnittstudie zur Entwicklung von Frühgeborenen und Reifgeborenen zum Einsatz. Neben den 257 Items der Originalversion wurden 102 Zusatzaufgaben erprobt. Die Ergebnisse dieser Studie lagen der 1983 erschienenen ersten deutschen Version zugrunde. Dabei fanden auch die Kürzungen Berücksichtigung, die Griffiths in einer 1970 erschienen Überarbeitung des Tests vorgenommen hatte. Die Autorinnen der deutschen Fassung bemühten sich um eine möglichst enge Anlehnung an die englische Originalfassung und nahmen nur unbedingt erforderliche Änderungen vor.

Für die ersten beiden Lebensjahre

Enge Anlehnung an englisches Original

Gliederung. Die insgesamt 208 Aufgaben erlauben die Untersuchung der Bereiche

Motorik, sozialer Kontakt, Hören und Sprechen, Auge-Hand-Koordination und kognitive Entwicklung (7 Beispiel). Jede der fünf Skalen misst einen eigenen Entwicklungsbereich und kann auch alleine durchgeführt werden. Beispiel

Nachfolgend werden Aufgabenbeispiele zu Griffiths Entwicklungstest aufgeführt (in Klammern die normale Variationsbreite des Alters, definiert als Bereich zwischen dem 5. und 95. Perzentil, sowie der Median). Die Aufgabennummer informiert über die Position des Items in der Skala. Aufgaben mit zwei Nummern (z. B. A 31/32) werden mit 2 Punkten bewertet.

6

Fünf Skalen

3

234

Kapitel 3 · Diagnostische Verfahren

Motorik: A 14 Sitzt frei, mindestens 1 Minute (6–10 Monate; Md = 7,3); A 31/32 Kann rückwärts gehen (14–19 Monate; Md = 15,4). Persönlich-Sozial: B 3 Lächelt (1–3 Monate; Md = 2,0); B 14 Unterscheidet Fremde von Bekannten (5–9 Monate; Md = 7,0). Hören und Sprechen: C 12 Reagiert, wenn es gerufen wird (4-8 Monate; Md = 6,0); C 17/18 Sagt Mama oder Papa klar bzw. ein anderes Wort (7–15 Monate; Md = 9,0). Auge und Hand: D 7 Nimmt den Ring, den man ihm reicht (2–5 Monate; Md = 3,5); D19 Vollständiger Pinzettengriff (9–12 Monate; Md = 10,1). Leistungen: E 6 Hält den runden Holzstab für einige Sekunden (1–5 Monate; Md = 3,2); E21 Findet das versteckte Spielzeug unter der Tasse (7–13 Monate; Md = 9,7).

3

Standardisiertes Testmaterial

Überspringen von Aufgaben zulässig

Durchführung. Das Verfahren ist ein Individualtest für die ersten beiden Lebensjahre und soll in Gegenwart einer vertrauten Person durchgeführt werden, die notfalls den Testleiter unterstützen kann. Für die Durchführung wird standardisiertes Testmaterial (z. B. ein kleiner, rotlackierter runder Holzstab, eine Schachtel mit 12 Spielsachen) benötigt. Die Untersuchung beginnt bei nicht retardierten Kindern mit Aufgaben, die etwa zwei Monate unter dem Lebensalter des Kindes liegen und wird beendet, wenn mehr als zwei aufeinander folgende Aufgaben in jedem Untertest nicht mehr gelöst werden. Wenn aus der Beobachtung des Kindes bekannt ist, dass es eine bestimmte Aufgabe lösen kann, braucht diese nicht durchgeführt werden. Bei den Aufgaben mit Testmaterial finden sich genaue Anweisungen zum Vorgehen. Die reine Durchführungszeit ist bei gesunden Kindern im ersten Lebensjahr mit 20-30 min zu veranschlagen, bei älteren Kindern mit etwa 45 min. Auswertung. Eine Aufgabe gilt als gelöst, wenn die Bewertungskriterien erfüllt sind.

Entwicklungsalter feststellen

Entwicklungsquotient

Für einige Aufgaben werden zwei Punkte vergeben. Die Skalen sind so aufgebaut, dass für jeden Lebensmonat zwei Aufgaben bzw. eine mit zwei Punkten bewertete Aufgabe vorliegen. Das Entwicklungsalter eines Kindes lässt sich daher relativ einfach feststellen, indem die erreichte Punktzahl durch 2 dividiert wird. Für den Gesamttest (fünf Bereiche) ist die Summe der gelösten Aufgaben durch 10 zu dividieren. Erreicht ein Kind beispielsweise insgesamt 125 Punkte, hat es ein Entwicklungsalter von 12,5 Monaten. Das Entwicklungsalter ist in Relation zum Lebensalter (z. B. 18 Monate) zu sehen. Ein Entwicklungsquotient kann berechnet werden, indem das Entwicklungsalter durch das Lebensalter dividiert und das Ergebnis mit 100 multipliziert wird. Im Beispiel: (12,5/18) × 100 = 69. Reliabilität. Die Reteststabilität des Gesamtentwicklungsquotienten variiert bei einer Testwiederholung nach drei Monaten zwischen .49 (Alter bei der ersten Messung 3 Monate) und .81 (Alter 15 Monate). Im Durchschnitt liegen die Koeffizienten im zweiten Lebensjahr mit .80 höher als im ersten (.62).

Lediglich Entwicklungsprofile behinderter Kinder

Validität. Im Manual wird lediglich auf die Entwicklungsprofile verschiedener behinderter Kinder verwiesen, die den Erwartungen entsprechen. Normierung. Die deutsche Normierung fand im Rahmen einer Längsschnittstudie

zwischen 1967 und 1979 an 102 Kindern statt, die zunächst in Monatsintervallen, später in größeren Abständen wiederholt untersucht wurden. Normen in dem Sinne, dass

235

3.1 · Leistungstests

Testrohwerte in Standardwerte transformiert werden, existieren nicht. Die Erhebung diente dazu, für jede Aufgabe das Alter zu ermitteln, indem 50% der Kinder sie lösten. Mit der oben beschriebenen Auswertungsprozedur wird die individuelle Testleistung mit den Leistungen der Normgruppe verglichen.

Keine Transformation in Normwerte

Bewertung. Bei den GES handelt es sich um ein sehr sorgfältig konstruiertes Verfahren. Bedauerlich ist, dass im Manual das Thema Validität sehr stiefmütterlich behandelt wird, zumal internationale Forschungsergebnisse zu dem inzwischen in mehreren Sprachen vorliegenden Test vorliegen. Die Autorinnen berichten über Studien, denen zufolge sich die Testleistungen, anders als bei der Intelligenz, nicht im Laufe der Jahre verändert haben. Dennoch erscheint eine umfangreichere deutsche Nacheichung sowie die Ermittlung eigener Werte zur Abklärung der Validität der deutschen Version geboten.

Sorgfältig konstruiert Validitätshinweise fehlen im Manual Nacheichung wünschenswert

Wiener Entwicklungstest WET von Kastner-Koller und Deimann (1998). Göttingen:

Hogrefe Der Test soll bei Vorschulkindern (Alter von 3;0 bis 5;11 Jahre) den Entwicklungsstand in sechs Funktionsbereichen (Motorik, visuelle Wahrnehmung/Visumotorik, Lernen und Gedächtnis, kognitive Entwicklung, Sprache sowie sozial-emotionale Entwicklung) überprüfen. Bei der Entwicklung und Auswahl der Subtests legten die Autorinnen besonderen Wert auf eine Verankerung der Aufgabeninhalte im konkreten Lebensraum 3–6jähriger Kinder und eine spielerische Gestaltung der Testsituation. Die verwendeten Aufgabentypen hatten sich bereits in vorliegenden Entwicklungstests bewährt; zum Teil handelt es sich auch um Neuentwicklungen. Die Entwicklung der Skalen erfolgte auf Grundlage der probabilistischen Testtheorie. Der WET liegt nun in einer überarbeiteten, 2002 erschienenen Form vor. Verlagsangaben zufolge wurden die Durchführungs- und Auswertungsanweisungen präzisiert. Modifikationen bei den Testmaterialien betreffen Layout und Materialgestaltung ohne Einfluss auf die Iteminhalte.

Für Altersbereich 3–6 Jahre Kindgerechte Aufgaben

Gliederung. Zu jedem der fünf Entwicklungsbereiche liegen zwei bis vier Subtests vor (. Tab. 3.10). Eine Sonderstellung nimmt der Elternfragebogen ein, der keinen Leistungstestcharakter hat. Durchführung. Der WET wird in einer Einzelsitzung durchgeführt. Die Durchführung

nimmt bei Kindern bis 3;6 Jahren etwa 90 min in Anspruch, bei älteren Kindern etwa 75 min. Dabei kommen standardisierte Testmaterialien, wie etwa ein Lernbär oder ein Schatzkästchen zur Anwendung. Auswertung. Nach den Auswertungsrichtlinien des Manuals wird jedes richtig gelöste Item mit einem Punkt bewertet; lediglich beim Subtest Wörter sind auch zwei Punkte für eine Antwort möglich. Anhand von altersspezifischen Normtabellen transformiert der Auswerter für jeden Subtest die Summe der Punkte in einen C-Wert. In ein Profilblatt eingetragen ergeben die C-Werte das so genannte Entwicklungsprofil. Fakultativ kann ein Gesamtwert (»Gesamtentwicklungsscore«) berechnet werden, indem der Mittelwert aller C-Werte ohne den Elternfragebogen bestimmt und anhand einer Tabelle in einen Standardwert transformiert wird. Objektivität und Reliabilität. Bei den meisten Subtests ist die richtige Lösung anhand des Manuals eindeutig feststellbar. Die verbalen Subtests und das Nachzeichnen lassen

Standardisiertes Testmaterial

Entwicklungsprofil und Gesamtwert

3

236

Kapitel 3 · Diagnostische Verfahren

. Tabelle 3.10. Subtests des Wiener Entwicklungstests

3

Funktionsbereicha und Subtest

Messgegenstand

Itemzahl

Items bzw. Itembeispiel

M: Turnen

Grobmotorische Fähigkeiten

10

Einbeiniges, freihändiges Stehen mit geschlossenen Augen für mindestens 3 s.

M: Lernbär

Feinmotorische Fähigkeiten

4

Am Teddybär mit einer Kordel (als Halsband) einen Knoten binden.

V: Nachzeichnen

Visumotorische Koordination (Graphomotorik)

10

Ein Kreuz von einer Vorlage abzeichnen.

V: Bilderlotto

Differenzierte RaumLage-Wahrnehmung

24

Einzelne Kärtchen auf einer Bildtafel mit sechs Feldern zum Thema Meer ordnen.

LG: Schatzkästchen

Visuell-räumliche Speicherkapazität

LG: Zahlen Merken

Phonologische Speicherkapazität

10

vorgesprochene Zahlenfolgen (2 bis maximal 6 Zahlen) sollen unmittelbar nachgesprochen werden.

K: Muster Legen

Räumliches Denken (2-D)

10

Nach Vorlagen Muster mit Mosaiksteinen nachlegen.

K: Bunte Formen

Induktives Denken (Kreuzklassifikationen)

10

Matrizenaufgaben: Aus jeweils fünf vorgegebenen Lösungsmöglichkeiten soll das Element bestimmt werden, das eine 3–3-Matrix sinnvoll ergänzt.

K: Gegensätze

Analoges Denken

15

Der Satz »Der Würfel ist eckig, der Ball ist…« ist (mit dem Wort »rund«) zu ergänzen.

K: Quiz

Orientierung in der Lebenswelt

11

»Warum sollte man nicht so viele Süßigkeiten essen wie man gerne möchte?«

S: Wörter Erklären

Sprachliche Begriffsbildung

10

Das Wort »zeichnen« ist zu erklären.

S: Puppenspiel

Verständnis grammatischer Strukturformen

13

Der Hund beißt den Vater, der das Mädchen festhält« mit Spielmaterial darstellen

SE: Fotoalbum

Verständnis mimischer Gefühlsausdrücke

9

Foto einer Person; Gefühl (»Freude«) benennen.

SE: ElternFragebogen

Selbstständigkeitsentwicklung des Kindes

22

»Mein Kind zieht sich ohne Hilfe aus.«

Nach max. 10 Lerndurchgängen unmittelbar danach und 20 min später 6 verschiedene, in Schubladen versteckte Spielgegenstände wieder finden.

Anmerkung. Funktionsbereiche: M = Motorik, V = Visuelle Wahrnehmung/Visumotorik, LG = Lernen und Gedächtnis, K = Kognitive Entwicklung, S = Sprache, SE = Sozial-emotionale Entwicklung.

a

237

3.1 · Leistungstests

3

einen gewissen Spielraum bei der Bewertung. Im Manual der 1. Aufl. (S. 20) findet sich der etwas vage Hinweis, dass »die Interrater-Übereinstimmung über .80 liegt«. Zur Reliabilität liegen Ergebnisse von Konsistenzanalysen sowie zum Subtest Zahlen Merken Retestergebnisse vor (rtt = .67). Cronbachs α variiert zwischen .66 (Lernbär) und .90 (Bilderlotto, Quiz und Elternfragebogen). Zumindest in der 1. Aufl. findet sich kein Hinweis auf Umfang und Zusammensetzung der Stichprobe. Für den Fall, dass sich die Reliabilitätsangaben im Manual auf die Gesamtstichprobe beziehen, wird die Reliabilität des Tests in der Altersgruppe, auf die sich die einzelne Anwendung notwendigerweise bezieht, weit überschätzt. Validität. Die Autorinnen werten die Zunahme der Subtestleistungen mit dem Alter als Validitätsbeleg. Faktorenanalysen sprechen dafür, dass der Test verschiedene Aspekte der Entwicklung erfasst. Die Faktoren passen allerdings nicht bei allen Subtests zu den a priori angenommenen Funktionsbereichen. Beispielsweise bilden die beiden Motoriktests keinen gemeinsamen Faktor; sie korrelieren auch nur zu .22 miteinander. Wohl aus diesem Grund erfolgt auch keine Zusammenfassung von Subtestergebnissen zu Entwicklungsbereichen. Normierung. Der ersten Aufl. liegt noch eine Normierungsstichprobe von 274 Kindern

zugrunde, die nach verschiedenen Kriterien für Österreich repräsentativ ist. Nach Angaben des Verlags liegen mit der neuen Aufl. nun repräsentative Normen für deutsche und österreichische Kinder (N > 1.200) vor. Bewertung. Der WET ist ein Breitbandverfahren, das Hinweise auf Entwicklungsrück-

stände in mehreren Bereichen liefern kann. Kein anderes im deutschen Sprachraum verfügbares Verfahren kann diesen Anspruch erheben. Das Testmaterial und die Aufgaben selbst sind sehr kindgerecht. Von einem mehrdimensionalen Verfahren ist zu verlangen, dass zu jeder separat ausgewerteten Skala Validitätsbelege vorliegen. Davon ist der WET noch weit entfernt. Deshalb ist anzuraten, den Test als Screeninginstrument einzusetzen und bei auffällig niedrigen Skalenwerten mit anderen Verfahren diesen Bereich näher zu untersuchen.

Faktorielle Struktur deckt sich nicht mit Funktionsbereichen

Repräsentative Normstichprobe

Einziges Breitbandverfahren im deutschen Sprachraum Validitätsbelege fehlen

Spezielle Entwicklungstests

Bei der Erfassung eines mehr oder weniger eng umschriebenen Entwicklungsbereichs kommen sog. spezielle Entwicklungstests zum Einsatz. Unter diesen nehmen Tests zur Untersuchung des kognitiven Entwicklungsstandes quantitativ eine dominante Rolle ein. Im Abschnitt Intelligenztests wurden bereits einige Tests vorgestellt, die für das Vorschul- und Schulalter geeignet sind. Wenn speziell die Kreativität diagnostisch relevant ist, kann der Kreativitätstest für Vorschul- und Schulkinder für die psychologische Anwendungspraxis (KVS-P) von Krampen (1996) eingesetzt werden. Als Beispiel für einen Test zur Untersuchung des motorischen Entwicklungsstandes sei exemplarisch die Lincoln-Oseretzky-Skala LOS KF 18 von Eggert (1974) genannt. Dieser Test enthält Aufgaben wie z. B. mit geschlossenen Augen die Nasenspitze berühren, mit offenen Augen 10 s auf einem Bein stehen und Streichhölzer mit einer Hand sortieren. Über weitere Motoriktests informiert das Handbuch von Bös (2001).

Test zur motorischen Entwicklung

238

Kapitel 3 · Diagnostische Verfahren

3.1.5

Schultests

Schultests unterscheiden sich nicht grundsätzlich von Entwicklungstests, die häufig an Schulleistungen validiert werden, sondern vor allem hinsichtlich der Spezifität ihrer Anforderungen. Während Entwicklungstests eher allgemeinere Fähigkeiten zu erfassen trachten, wollen Schultests speziellere Fähigkeiten und Fertigkeiten ermitteln. Folgende Gruppen lassen sich unterscheiden: 4 Schuleingangstests, 4 Übertrittstests, 4 Schulleistungstests.

3

Schuleingangstests Sie sind auch als Schulreifetests bekannt und haben die Aufgabe zu prüfen, ob ein schulpflichtiges Kind den Anforderungen der Schule gewachsen ist. Durch ihren Einsatz bereits vor Schuleintritt soll verhindert werden, dass noch nicht schulfähige Kinder überfordert und dadurch psychisch geschädigt werden. Ihre Schwierigkeit besteht darin, dass ein Verhalten vorhergesagt werden soll, das zu praktizieren Kinder bisher kaum Gelegenheit hatten. Sie versuchen dies, indem sie in einfacher und kindgemäßer Form jene Grundfertigkeiten stichprobenmäßig erfassen, die Kinder im ersten Schuljahr erlernen und rudimentär bereits besitzen sollen. Die Fähigkeit zur Formerfassung wird dabei als Voraussetzung zum Erlernen der grafischen Symbole, die Auffassung von Mengen bis 5 als Basis für erfolgreiche Teilnahme am Mathematikunterricht angesehen. Grafomotorische Aufgaben sollen grundlegende schreibmotorische Fertigkeiten diagnostizieren. Viele Schulreifetests verlangen das Nachzeichnen von Formen und Zeichnen eines Menschen. Der Schwerpunkt der Aufgaben liegt eindeutig im kognitiven Bereich. Nach Langfeldt und Tent (1999, S. 140) finden folgende Aufgabentypen in 9 analysierten Schulreifetests am häufigsten Verwendung (in Klammern die Anzahl der Tests mit diesem Aufgabentyp): 4 Nachmalen von Formen (Figuren, Ziffern, Buchstaben und Kombinationen (8) 4 Mann-Zeichnungen (5) 4 Abstrakte Figuren (Zaun, Muster) wiederholt zeichnen (5) 4 Malen bzw. Legen vorgegebener oder kurz exponierter Mengen (4) 4 Identische Figuren aus ähnlichen heraussuchen und markieren (4) 4 Markieren von Bildern nach Sprachverständnis für Einzelsituationen (4) 3.1.5.1

Schulreife feststellen

Aufgabentypen

Hohe Reliabilität

Validität wegen hoher Grundrate nicht ausreichend

Reliabilitätskoeffizienten um .90 belegen die hohe Zuverlässigkeit der Verfahren, Korrelationen um .60 zwischen Testergebnis und dem Schulerfolg nach einem Jahr eine befriedigende Validität. Nur das Kieler Einschulungsverfahren KEV (Fröse et al., 1986) und der Weilburger Test für Schulanfänger (Hetzer & Tent, 1971) können mit r = .71 bzw. .70 eine überdurchschnittliche Validität vorweisen. Vor dem Hintergrund einer Schulerfolgsrate von 90% bei Einschulung aller Schüler können aber auch derart valide Verfahren nach Berechnungen von Tiedemann (1974) die Trefferquote der Grundrate nicht übertreffen. Fazit Die sicherste Methode zur Schuleingangsdiagnose ist die Einschulung aller Schüler mit der Möglichkeit, sich im Kriterium bewähren zu können. Als Frühindikatoren für potentielle Schulprobleme, auf die die Schule rechtzeitig mit gezielten Fördermaßnahmen zu reagieren hätte, sind Schuleingangstests aber durchaus nützlich.

239

3.1 · Leistungstests

Übertrittstests Dies sind Verfahren, die das Misserfolgsrisiko für den Übertritt auf weiterführende Schulen, besonders des Gymnasiums, abschätzen helfen sollen. Bei ihnen handelt es sich um Gruppentests, die sich von den bereits angesprochenen Entwicklungstests vor allem durch ihre Beschränkung auf diese spezielle Aufgabe und den Einsatz in der 4.–5. Schulklasse unterscheiden. Zu ihnen gehören der Test Aufgaben zum Nachdenken AZN (Hylla & Kraak, 1976) und der Bildungsberatungstest für 4. bis 6. Klassen BBT 4-6 (Ingenkamp et al., 1977). Die prognostische Validität dieser speziellen Verfahren liegt bei bis zu 40% aufgeklärter Varianz im kurz- und mittelfristigen Bereich (Rüdiger et al., 1985) zwar etwas höher als bei den vorgestellten Entwicklungstests, langfristige Prognosen sind aber nach Heller et al. (1978) bei Korrelationen von .24 zur Deutschnote und .32 zur Mathematikzensur auch mit den AZN gewagt und mit dem BBT 4-6 überhaupt noch nicht erprobt.

3

3.1.5.2

Probleme bei langfristigen Prognosen

Fazit Insgesamt gesehen ist die prognostische Validität der Übertrittstests zu gering, um individuelle Entscheidungen allein von ihren Ergebnissen abhängig zu machen. Die Erkenntnis, dass künftige Schulleistungen am besten durch den bisherigen Leistungstand prognostizierbar sind, erfordert die Einbeziehung von Schulleistungstests in die Übertrittsdiagnostik.

Schulleistungstests Bei ihnen handelt es sich um Verfahren, die zur Objektivierung der schulischen Leistungsbeurteilung konstruiert werden, da Lehrer Schülerleistungen häufig nur innerhalb der Klassenrangordnung hinreichend objektiv einzustufen vermögen. Der Vergleich mit überörtlichen Standards gelingt meist nur dann, wenn vergleichende Aufgabensammlungen vorliegen. Solche stehen aber nur selten zur Verfügung. Diese Lücke wollen Schulleistungstests schließen. Es gibt sie vor allem für die Fächer Deutsch und Mathematik der ersten 6 Schuljahre. Beispielsweise liegt eine Serie von Diagnostischen Rechtschreibtests vor, die für die 1. bis 5. Klasse konzipiert sind (DRT 1, DRT 2, DRT 3, DRT 4 und DRT 5). Einige mit dem Attribut »diagnostisch« versehene Verfahren wollen nicht nur eine summarische Leistungsbeurteilung zur Objektivierung der Notengebung ermöglichen, sondern darüber hinaus auch Hinweise auf spezifische Lernprobleme und Teilleistungsschwächen (Legasthenie, Dyskalkulie oder Rechenschwäche) geben. Diese Funktion erfüllen besonders Lese-, Rechtschreib- und Rechentests. Die derzeit veröffentlichten Schulleistungstests können durchweg als sehr reliabel und im Verhältnis zu Entwicklungstests als überdurchschnittlich valide eingestuft werden. Das verwundert nicht, sind sie doch auf die curricularen Anforderungen überregionaler Lehrpläne zugeschnitten und somit logisch valide. Schulleistungen eines Schülers oder einer ganzen Klasse werden auf diese Weise mit überregionalen Standards vergleichbar. Hierin liegt aber auch ihre Schwäche. Überregionale Gültigkeit ist häufig nur durch Vernachlässigung regionaler oder örtlicher Spezifika zu erreichen. Dadurch finden Lehrer u. U. die Kriterien ihrer besonderen Curricula nicht hinreichend repräsentiert. Das mag neben der Kostenfrage ein Grund dafür sein, dass Schultests in Schulen relativ selten eingesetzt werden. Sie sind deswegen nicht überflüssig, geben sie doch Psychologen in Beratungsstellen die Möglichkeit, die Angemessenheit schulischer Leistungsbeurteilungen wenigstens ungefähr überprüfen zu können. Bei größeren Diskrepanzen ist eine angemessene Lernerfolgsmessung nur in Kenntnis der konkreten Anforderun-

3.1.5.3

Tests sollen Benotung objektivieren

Reliabel und vergleichsweise valide

Hilfe in Beratungsfällen

240

Kapitel 3 · Diagnostische Verfahren

gen zu leisten. An die Stelle der genannten normorientierten Schulleistungstests müssen lehrzielorientierte Tests treten (7 Abschn. 2.1.3), die sich eng an den jeweiligen Curricula orientieren. Fazit Schulleistungstests sind in der Regel sehr valide normorientierte Indikatoren der Schulleistungen und erlauben Vergleiche der Individualleistung mit überregionalen Normen. Bei größeren Diskrepanzen zwischen örtlichen und überregionalen Standards ist der Einsatz lehrzielorientierter Tests erforderlich.

3

Weiterführende Literatur Über Entwicklungstests im Vorschulalter informieren ausführlich Rennen-Allhoff und Allhoff (1987), »Entwicklungstests für das Säuglings-, Kleinkind- und Vorschulalter«. Informationen und Besprechungen zu Entwicklungs- und Schultests bietet die Jahrbuchreihe von Ingenkamp u. a. (1981 ff.) Tests und Trends. Die Serie wird seit 2000 von Hasselhorn, Schneider und Marx weitergeführt. Bisher sind Themenbände zur Diagnostik von Lese-Rechtschreibschwierigkeiten, Motivation und Selbstkonzept, Konzentration und Aufmerksamkeit sowie von Mathematikleistungen erschienen. Einen breiten und fundierten Überblick über angewandte Fragen der pädagogisch-psychologische Diagnostik geben Langfeldt und Tent (1999). Aktuelle Auskünfte über lehrzielorientierte Tests sind bei Schulbuchverlagen zu erhalten, die für ihre Lehrwerke entsprechende Verfahren bereitstellen.

Persönlichkeitsfragebogen

3.2

3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7

3.2.1

Erfassung von emotionalem, motivationalem und sozialem Verhalten

Persönlichkeit und Temperament – 240 Allgemeines zu Fragebogen – 241 Persönlichkeitstestsysteme – 250 Verfahren zur Erfassung aktueller Zustände – 288 Verfahren zur Erfassung von Interessen – 294 Verfahren zur Erfassung der Motivation – 297 Handlungskontrolle (Volition) – 300

Persönlichkeit und Temperament

Autoren wie Eysenck (1953) und Guilford (1964) definieren Persönlichkeit in einem umfassenden Sinne, der außer den Charakter- und Temperamentsunterschieden auch Traits für Bedürfnisse sowie Interessen und sogar morphologische und physische Wesenszüge einschließt. Der Leistungsbereich wurde im vorangegangenen Abschnitt behandelt. Die Verfahren, die im vorliegenden Kapitel erörtert werden sollen, verstehen sich als solche zur Erfassung von Persönlichkeitsmerkmalen »im engeren Sinne«. Darunter fallen gewöhnlich Faktoren des emotionalen, motivationalen und sozialen Verhaltens. Von Bedeutung ist nicht, wie gut jemand etwas tut, sondern die Richtung sowie die Art und Weise, in der dieses geschieht. Ängstlichkeit und Neurotizismus, Extraver-

241

3.2 · Persönlichkeitsfragebogen

sion-Introversion, Dominanz-Submission und Aggressivität sind geläufige Dimensionen für Eigenschaften einer derartigen Provenienz. Davon abgehoben werden mehr und mehr Unterschiede des Temperaments als einer Ebene, die der Persönlichkeit zugrunde liegt und stärker genetisch determiniert ist. Temperament bezieht sich auf »formale, relativ stabile Verhaltenseigenschaften, die sich in der energetischen Ebene des Verhaltens und in Zeitcharakteristika von Reaktionen niederschlagen« (Strelau, 1986, S. 201). Überdauernde Veränderungen durch Umwelteinflüsse sind allenfalls bei langdauernder und massiver Einwirkung zu gewärtigen. Beispiele für Temperamentseigenschaften sind Aktivität (Intensität oder Häufigkeit, mit der Personen Handlungen ausführen oder Aufgaben in Angriff nehmen) und Reaktivität (Intensität und Häufigkeit der individuellen charakteristischen Reaktionen) mit den Polen von extremer Beständigkeit (als Äquivalent der »Stärke des Nervensystems«) und extremer Sensibilität. Aus der Vielzahl der in Frage kommenden Verfahren zur Erfassung verschiedener Persönlichkeitsbereiche und Eigenschaftsdimensionen werden nachfolgend angesprochen: 4 Persönlichkeitstestsysteme (»breite« Erfassung der Persönlichkeit), 4 Fragebogen zur Erfassung der Motivation, 4 Fragebogen zur Erfassung von Interessen, 4 Fragebogen zur Erfassung aktueller Zustände. 3.2.2

Temperament als zugrunde liegende Ebene

Allgemeines zu Fragebogen

In vielen Verhaltensbereichen besteht der naheliegende Zugang, etwas über eine Person zu erfahren, darin, diese zu beobachten, und zwar möglichst lange und in verschiedenem Kontext. Abgesehen davon, dass die Anwesenheit eines Beobachters dem Beobachteten nicht immer verborgen gehalten werden kann und dadurch der Akteur in seinem Auftreten, dem Aktionsradius und den spezifischen Handlungen beeinflusst werden mag, stößt ein solcher Ansatz sehr rasch an die oft engen Grenzen zeitlicher, sachlicher und personeller Ressourcen. Eine auf das beobachtbare Verhalten gerichtete Befragung stellt hier eine äußerst ökonomische Variante dar. Wenn sie nicht in einem mehr oder weniger freien Gespräch oder Interview durchgeführt wird, sondern sich vorformulierter Fragen oder Feststellungen und gebundener Antworten bedient, gewährleistet sie zudem hohe Objektivität in der Durchführung und schafft die Voraussetzung für eine objekitve Auswertung und Interpretation. Eine solche Befragung ist darüber hinaus in Bezug auf Einstellungen, innere Zustände, Erlebnisweisen und Kognitionen oftmals die einzige in Betracht kommende Methode, etwa weil die interessierenden Phänomene entweder gar nicht »von außen« oder nur mit äußersten Schwierigkeiten und Fehlerquellen zu beobachten wären. Daher ist weder die Notwendigkeit noch die Zweckmäßigkeit des Ansatzes bestreitbar, durch direkte Befragung etwas über die Empfindungen und Emotionen, Erlebnisse, Präferenzen und Motive von Personen in Erfahrung zu bringen.

Vorteile von Fragebogen

Selbsteinsicht

Eine Voraussetzung dieser Technik besteht allerdings darin, dass die Betreffenden sich selbst überhaupt kennen und zu beobachten imstande sind. Von besonderen Umständen, wie psychiatrischen Erkrankungen oder geistiger Behinderung einmal abgesehen, darf das im Regelfall unterstellt werden. Einige Testautoren raten explizit vom Einsatz ihres Persönlichkeitsfragebogens ab, wenn der Proband nicht über ein näher spezifi-

Selbstbeobachtung der Probanden als Voraussetzung

3

242

3

Kapitel 3 · Diagnostische Verfahren

Komplexe Urteilsprozesse nötig

Erinnerungen an eigene Verhaltensstichproben

Relativierung an Mitmenschen

Fragebogen sind »subjektive Verfahren«

ziertes Mindestmaß an Intelligenz verfügt. Damit wird zugleich auch sichergestellt, dass die Probanden den Sinn der Fragen verstehen. Freilich sollten die Schwierigkeiten, diese Selbstbeobachtung vorzunehmen, nicht unterschätzt werden, und – mehr noch – ein Urteil darüber abzugeben, wie oft bzw. intensiv die erfragten Sachverhalte auftreten oder in der Vergangenheit (wie weit soll diese zurückreichen?) aufgetreten sind. Die besagten Urteile sind hinsichtlich ihrer Komplexität sicher höchst verschieden: Der einfachste Fall beinhaltet lediglich ein mehr oder weniger intensives Nachdenken darüber, ob ein bestimmtes Phänomen oder Ereignis bereits vorkam oder nicht (z. B. »Haben Sie schon einmal Sachen an sich genommen, die Ihnen nicht gehörten?«). Hingegen setzt bereits eine Antwort auf die Frage: »Morgens nach dem Aufwachen bin ich häufig noch eine ganze Weile müde und kaputt« einen vielschichtigen Entscheidungsprozess voraus, bei dem u. a. berücksichtigt werden muss, welche Prozesse zu Müdigkeit zählen und was unter »häufig« zu verstehen ist. Gezielten Untersuchungen zufolge verstehen verschiedene Personen nämlich durchaus Unterschiedliches unter Begriffen wie »gewöhnlich«, »häufig«, oder »selten«, und selbst »nie« bedeutet keineswegs durchgängig die Auftretenswahrscheinlichkeit Null. Zudem hängt dieses Verständnis von der Art des Ereignisses (»häufiger Kinobesuch« ist etwas anderes als »häufiger Kopfschmerz«) ab. Noch schwieriger dürfte es sein, etwa auf das Item: »Übernehmen Sie bei gemeinsamen Aktionen gern die Führung?« eine angemessene Antwort zu geben. Dabei muss zunächst an alle Unternehmungen gedacht werden, die in die fragliche Kategorie fallen und die ganz verschiedene Implikationen für die Befragung haben können (je nachdem nämlich, ob es für die Erfüllung des Tatbestandes »gemeinsam« ausreicht, wenn eine weitere Person, etwa die Partnerin, mit von der Partie ist oder ob an größere Gruppen gedacht ist, die Aktion eine solche aus eigenen Stücken oder durch externe Zwänge bestimmt ist, sich auf soziale, sportliche, ökonomische oder ökologische Ziele richtet, in die berufliche Tätigkeit oder die Freizeit fällt usw.). Den höchsten Komplexitätsgrad erreichen schließlich Beurteilungen, die unmittelbar eine Einstufung auf der entsprechenden Eigenschaftsdimension erfordern (z. B. »Im großen und ganzen bin ich ein ehrlicher Mensch«). Hier müssen aus dem Gedächtnisspeicher ganze Serien von situativen und temporären Verhaltensstichproben abgerufen und ein integraler Wert gebildet werden, der nicht nur die Häufigkeit und Schwere ggf. unaufrichtigen Verhaltens beinhaltet, sondern auch noch Inferenzen über die durchschnittliche Ehrlichkeit anderer. Die Stärke eigener Merkmalsausprägungen erfährt nämlich in Ermangelung von absoluten Anhaltspunkten eine Relativierung durch die bei den Mitmenschen wahrgenommene (oder nur vermutete) Eigenschaftsausprägung (zu den Prozessen bei der Abgabe von Eigenschaftsurteilen s. Amelang, 1994). Die Standardisierung von Fragebogen durch die Invarianz der einmal gewählten Itemformulierung und das weitestgehende Ausblenden von Interaktionen mit dem Testleiter gewährleisten eine fast vollständige Objektivität. Doch es bleibt den Probanden selbst überlassen, an welche Ereignisse und Zustände sie im einzelnen bei der Konfrontation mit dem sprachlichen Stimulus des jeweiligen Items denken und wie sie dies intern kategorisieren oder »verrechnen«. Unter dieser Perspektive handelt es sich bei Fragebogen gewiss um »subjektive« Verfahren (s. a. Mittenecker, 1971, S. 461), die aber wegen ihrer psychometrischen Objektivität eine Sonderstellung innehaben. Diese Subjektivität stellt vermutlich einen der Gründe dafür dar, dass Persönlichkeitsfragebogen in der Validität meist hinter den einhellig als »objektiv« angesehenen Leistungstests zurückbleiben. Weitere Unterscheidungsmerkmale zwischen Tests aus dem Persönlichkeits- und Fähigkeitsbereich haben Fiske und Butler (1963) herausgestellt (. Tab. 3.11).

243

3.2 · Persönlichkeitsfragebogen

. Tabelle 3.11. Unterschiede zwischen Fähigkeits- und Persönlichkeitstests. (Aus Amelang & Bartussek, 1990, S. 540)

Fähigkeitsbereich

Persönlichkeitsbereich

Instruktionen

Den Probanden wird aufgetragen, ihr Bestes zu geben.

Die Probanden werden gebeten, aufrichtig zu sein.

Aufgaben

Gewöhnlich eindeutig.

Zwischen mehr- und eindeutig.

Antworten

Richtig und Falsch im logisch eindeutigen Sinn.

Kein Richtig oder Falsch im logisch eindeutigen Sinn; nur subjektive Stimmigkeit.

Einstellung

Die Probanden wissen, was von ihnen erwartet wird.

Die Probanden kennen häufig nicht die Erwartungen des Untersuchungsleiters

Motivation der Probanden

Gewöhnlich hoch.

Große Unterschiede, je nach Untersuchungsbereich, Probanden, Situation und dergleichen.

Ziele

Der Untersuchungsleiter verlangt maximale Leistung der Probanden.

Der Untersuchungsleiter ist gewöhnlich interessiert am modalen oder typischen Verhalten der Probanden.

Reliabilität

Hand in Hand mit diesen konzeptuellen Unterschieden geht eine gewisse Defizienz der Persönlichkeitsfragebogen im Vergleich zu den Leistungstests: Die internen Konsistenzen liegen oftmals nur zwischen .60 und .80 (was freilich durch Hinzufügen homogener Items oder Einengen des Konstruktbereiches leicht behoben werden kann), die Stabilitäten erreichen oft nur Werte zwischen .50 und .70. Schuerger, Zarrella und Hotz (1989) ermittelten in einer Metaanalyse über 89 unabhängige Stichproben für Neurotizismusskalen eine mittlere Stabilität von .70 nach einem Jahr und von .57 nach 1–5 Jahren. Für Extraversion fallen die Stabilitätskoeffizienten mit .80 bzw. .63 höher aus. Nach Janke (1973, S. 44 ff.) bleibt es unbekannt, ob diese Stabilitätskoeffizienten für konstantes Urteilsverhalten, für Gedächtniseffekte oder tatsächliche Konstanz der erfassten Merkmale stehen.

Reliabilität niedriger als bei Leistungstests

Stabilität von Neurotizismus und Extraversion

Validität

Mit einem Persönlichkeitsfragebogen wird zunächst einmal erfasst, wie jemand sich selbst sieht oder beurteilt. Es stellt sich die Frage, was diese standardisierte Selbstbeschreibung mit der »Wirklichkeit« zu tun hat. Vor allem aber ist wiederholt beklagt worden, dass die Validität nur selten die Barriere von rtc = .30 übersteige, die Mischel (1968) als typisch für »personality coefficients« bezeichnet hat. Dieser Wert sei zwar signifikant bei ausreichend großen Stichproben, aber unbrauchbar für die individuelle Prognose bei Problemen von praktischem Belang. Die Frage nach der Kriteriumsvalidität von Persönlichkeitsfragebogen führt zu dem Kriterium Berufserfolg. Jedenfalls liegen dazu so viele Untersuchungen vor, dass inzwischen zahlreiche Metaanalysen über diese Studien durchgeführt wurden. Barrick, Mount und Judge (2001) haben diese Metaanalysen wiederum ausgewertet. Die Ergebnisse sind in . Tab. 3.12 aufgeführt. Die angegebenen korrigierten Korrelationen stellen Hochrechnungen dar, wobei

»Barriere« bei r = .30

Metaanalysen mit Berufserfolg als Kriterium

3

244

Kapitel 3 · Diagnostische Verfahren

. Tabelle 3.12. Persönlichkeitsskalen und Berufserfolg

3

Skala

N

K

rkorr.

rkorr.max.

Kriterium

Emotionale Stabilität Extraversion Verträglichkeit Gewissenhaftigkeit Offenheit

38.817 39.432 36.210 48.100 23.225

224 222 206 239 143

.12 .12 .10 .23 .05

.20 .23 .27 .26 .24

Teamarbeit Ausbildungserfolg Ausbildungserfolg Vorgesetztenurteil Ausbildungserfolg

Anmerkung. Zusammengefasste Ergebnisse aus mehreren Metaanalysen, gemittelt über alle Kriterien (Barrick et al., 2001). N = Anzahl der Probanden, K = Anzahl unabhängiger Untersuchungen (keine Überlappung), rkorr. = geschätzte wahre Korrelation auf Skalenebene, rkorr.max. = höchste Korrelation mit einem spezifischen Kriterium.

Korrelationen unter r = .30

Integritätstests haben höhere Validitäten

Problematik der Validierung an verwandten Skalen

eine messfehlerfreie Abbildung des Kriteriums Berufserfolg angenommen wird. Barrick et al. (2001) haben die Untersuchungen zusätzlich nach verschiedenen Kriterien für Berufserfolg unterteilt (Vorgesetztenbeurteilung, objektive Leistungsmaße, Ausbildungserfolg und Teamarbeit). Die höchsten Korrelationen sind in der Tabelle rechts aufgeführt. Mit Hilfe der großen fünf Persönlichkeitsmerkmale, gemessen mit Fragebogen, kann man offensichtlich Berufserfolg nur zu einem sehr kleinen Teil erklären. Zumindest Gewissenhaftigkeit und Extraversion haben einen Bezug zum Arbeitsverhalten, Extraversion über die Aktivitätskomponente. Die große Zahl der Untersuchungen spiegelt vermutlich auch die Erwartung wider, einen Zusammenhang zwischen Persönlichkeit und Berufserfolg zu finden. Die Resultate sind sehr ernüchternd und bestätigen die Existenz der magischen Grenze von .30 für einen wichtigen Anwendungsbereich. Gegen diese Studien lässt sich einwenden, dass globale Persönlichkeitsskalen zu »grobe« Prädiktoren für Berufserfolg sind. Möglicherweise führt die Aufspaltung der großen Dimensionen in Einzelfacetten zu valideren Prädiktoren. Immerhin sind die Validitätsbefunde zu »Integrität« sehr ermutigend. Zwischen Integritätstests und Ausbildungs- und Berufserfolg bestehen (korrigierte) Korrelationen von .38 bzw. .41 (Schmidt & Hunter, 1998). Zur Ermittlung der Konstruktvalidität werden die Skalen eines Persönlichkeitsfragebogens oft mit den Skalen anderer Inventare korreliert. Wenn dann eine Neurotizismusskala hoch mit einer anderen korreliert, wird das als Beleg für die Konstruktvalidität der Skala gewertet. Dieses Vorgehen kann problematisch sein, wenn die Items der Skala lediglich nach dem Prinzip zusammengetragen wurden, »was sich bewährt hat, wird schon gut sein«. Testautoren benutzen andere Fragebogen manchmal als »Steinbruch«, aus dem sie geeignete Items übernehmen und eventuell noch leicht modifizieren. Auch wenn sie einige eigene Items erfinden und hinzufügen, wird die Ähnlichkeit zu den übernommenen groß sein, weil unähnliche Items nach einer Itemanalyse eliminiert werden. Dieses Vorgehen führt dazu, dass nicht wirklich neue Skalen entstehen. Die Korrelation mit anderen Skalen zeigt, was man ohnehin schon weiß, nämlich dass die Skalen einander ähnlich sind. In der unten angeführten Übersicht wird diese Problematik anhand eines fiktiven Beispiels (»Der Steinbruch-Test zur Aggressivität«) veranschaulicht. Die Items stammen aus unterschiedlichen Fragebogen – und passen dennoch inhaltlich gut zusammen.

245

3.2 · Persönlichkeitsfragebogen

3

Der Steinbruch-Test zur Aggressivität 1. Ich werde leichter ärgerlich als die meisten anderen Leute 2. Ich streite mich oft mit anderen Leuten 3. Es macht mir wenig aus, mich bei anderen unbeliebt zu machen, um etwas Neues durchzusetzen 4. Ich lasse mir nichts gefallen 5. Wenn jemand meinem Freund etwas Böses tut, bin ich dabei, wenn es heimgezahlt wird 6. Wenn mich jemand anschreit, schreie ich zurück

ja   

nein   

 

 





Anmerkung. Je zwei Items aus folgenden Skalen: Aggressivität der PRF Form KA, Durchsetzungsstärke des BIP, Aggressivität des FPI-R.

Angemessene Kriterien zur Konstruktvalidierung sind Fremdeinschätzungen von Bekannten, Verwandten oder Freunden auf »homologen«, also dem Testkonstrukt verwandten Dimensionen. Diese Informationen weisen dazu einen »Status« auf (7 Abschn. 2.3.1.3), der sie als echtes Kriterium qualifiziert. Wird darüber hinaus – und das betrifft die konstruktorisch-technische Seite – Sorge dafür getragen, dass auf die psychometrischen Güteeigenschaften dieser Kriterien ebensoviel Sorgfalt verwendet wird wie für den Test (dazu Wittman & Schmidt, 1983), so sind Validitäten erzielbar, die durchaus an diejenigen von Leistungstests heranreichen (was im Einzelnen zu belegen sein wird).

Fremdbeurteilungen als bevorzugte Kriterien

Exkurs

Zur diagnostischen Brauchbarkeit von Selbst- und Fremdeinschätzungen Wichtige Entscheidungen des alltäglichen oder beruflichen Lebens basieren auf der Einschätzung von Persönlichkeitsmerkmalen bei uns selbst oder anderen: Ob wir uns bestimmte Leistungen zutrauen oder eine Tätigkeit unseren Neigungen entspricht, mit welchen Personen wir gern zusammen sind, bei wem wir Rat suchen und wem wir vertrauen, wer als neuer Mitarbeiter ausgewählt wird und wen wir für eine berufliche Position als geeignet erachten – all diese Fragen und viele andere mehr beinhalten Urteile über die Ausprägung von Persönlichkeitsmerkmalen bei der eigenen Person, bei Bekannten oder Fremden. Sinnvoll ist ein Bezug auf die besagten Einschätzungen und die darauf aufbauenden Entscheidungen allerdings nur dann, wenn diese wenigstens ein Mindestmaß an Gültigkeit aufweisen, also valide sind. Von daher kommt dem Problem der Validität von Persönlichkeitseinschätzungen eine überragende Bedeutung zu. Selbstberichte über Emotionen und Ziele, Verhaltensweisen und Eigenschaften bilden fraglos einen sehr differenzierten und gleichsam besonders intimen diagnostischen Zugang zur Persönlichkeit: Nur die eigene Person ist in den unterschiedlichen Abschnitten und vielfältigen Situationen des Lebens die Konstante, während mit den unterschiedlichen Kontextbedingungen (z. B. Familie, Beruf, Freizeit usw.) die Personen unseres sozialen Umfeldes jeweils andere sein mögen. Von daher dürften die Informationen, die einem über die eigene Person zur Verfügung stehen, be-

6

Urteile über die Persönlichkeit in Beruf und Alltag wichtig

Konstanz der Persönlichkeit

246

3

Kapitel 3 · Diagnostische Verfahren

Fremdbeurteilungen können nur einen Teil der Persönlichkeit erfassen

Selbstberichte sind anfällig für Verfälschung

Übereinstimmung zwischen Selbst- und Fremdurteilen variiert

Übereinstimmung bedeutet nicht Richtigkeit der Urteile

sonders zahlreich und repräsentativ sein; ihre Reliabilität und zeitliche Stabilität ist zahlreichen Untersuchungen zufolge gewährleistet (z. B. Amelang & Borkenau, 1982). Demgegenüber können unsere Partner, Verwandten und Bekannten nur einen mehr oder weniger großen Ausschnitt unseres Erlebnis- oder Verhaltensrepertoires kennen lernen und dann einschätzen. Diese nur partielle wechselseitige Überlappung von Verhaltensbereichen und den daraus bezogenen Informationen ist dafür verantwortlich, dass Selbstberichte nicht vollständig mit den Einschätzungen von Bekannten übereinstimmen können. Als Problem der Selbstberichte kommt hinzu, dass sich in der Wahrnehmung der eigenen Person vielleicht Täuschungen niederschlagen oder die Angaben über die erlebten Begebenheiten, die ablaufenden Prozesse oder die Merkmalsausprägungen mehr oder weniger absichtlich verfälscht werden. Wegen dieser inhaltlichen und methodischen Fehlerquellen vertreten Autoren wie Hofstee (1994) die Auffassung, dass die beste Schätzung der Persönlichkeitsausprägung in den gemittelten Urteilen einer Gruppe von guten Bekannten über eine Person besteht. Derartigen Überlegungen folgend werden die gemittelten Einschätzungen von Verwandten, Freunden und Bekannten oft als Kriterien zur Validierung der Selbstberichte herangezogen, wie die Darstellung verschiedener diagnostischer Verfahren im nächsten Abschnitt zeigen wird. Als wichtiger Hinweis auf die Angemessenheit oder Akkuratheit der Fremdeinschätzungen gilt dabei gewöhnlich die Übereinstimmung zwischen den Urteilen der Einschätzer (= »Konsens« im Sinne von Funder & West, 1993). Beispielsweise ermittelte Becker (2003) bei der Validierung des TIPI (7 Abschn. 3.2.3) Koeffizienten für die Interrater-Reliabilität zwischen r = .31 und .78, und die Übereinstimmung zwischen den Selbst- und Bekannteneinschätzungen (= Validität) war eine direkte Funktion dieser Beurteiler-Übereinstimmung. Auch in anderen Untersuchungen kovariierten Konsens und Selbst-Andere-Übereinstimmungen; mehr oder weniger sind es dieselben Eigenschaftsbereiche, für die sich die höchsten Übereinstimmungen für Konsens und auch den Vergleich Selbst-Andere fanden (Funder & Colvin, 1988; Funder & Dobroth, 1987). Für sich genommen liefern Konsens oder die Beurteiler-Übereinstimmung freilich noch keinen zwingenden Beweis für die Richtigkeit der Urteile, da sich die Beurteiler etwa in gleicher Weise von Stereotypien leiten lassen oder anderweitigen Beobachtungs- und Urteilsfehlern unterliegen mögen. Verschiedene Zusatzbefunde im Zusammenhang mit der Beurteilerübereinstimmung vermitteln jedoch eine Reihe von Evidenzen, die das Vertrauen in die Verlässlichkeit von Fremdeinschätzungen als Kriteriumsvariable rechtfertigen: So ist vielfach festgestellt worden, dass die Beurteilerübereinstimmung eine Funktion der Dauer der Bekanntschaft ist (z. B. Norman & Goldberg, 1966; Paunonen, 1989). Dieser in Erhebungen ermittelte Befund konnte von Spinath (1999) als lineare Funktion auch in experimentellen Analysen gesichert werden. Darüber hinaus hängt die Beurteiler-Übereinstimmung auch von der Beobachtbarkeit der einzuschätzenden Merkmale ab (Kenrick & Stringfield, 1980); diese ist für Komponenten des sozialen Verhaltens und der Extraversion größer als für solche der emotionalen Stabilität (Funder & Dobroth, 1987). Ferner sprechen einige Hinweise dafür, dass die Beurteiler-Übereinstimmung vom Ausmaß der selbsteingeschätzten transsituativen Stabilität im Sinne von Bem und Allen (1974) abhängt; in

6

247

3.2 · Persönlichkeitsfragebogen

einer Erhebung an N = 173 Probanden am Heidelberger Institut betrug die Beurteiler-Übereinstimmung zwischen je drei Bekannten .61 für jene Zielpersonen, die sich als relativ transsituativ stabil bezeichnet hatten, im Unterschied zu .50 (Differenz signifikant) bei den transsituativ eher variablen Personen (Amelang, 1988). Gleichsinnige Beobachtungen stammen von Malloy, Agatstein, Yarlas und Albright (1997). All diese Befunde sprechen dafür, dass es sinnvoll ist, sich bei der Validierung von Selbstberichten am Kriterium von gemittelten Fremdeinschätzungen zu orientieren. Allerdings ist, wie Colvin und Funder (1991) dargelegt haben, die Beziehung zwischen einerseits Übereinstimmungsmaßen im Sinne von Konsens oder Selbst-Anderen-Vergleichen und andererseits der Akkuratheit unidirektional, d. h. die Übereinstimmungen stellen nur eine notwendige, nicht aber eine hinreichende Bedingung für Akkuratheit dar. Um diese Akkuratheit von Selbsturteilen (und auch diejenige von Bekannten-Einschätzungen!) letztlich zweifelsfrei bestimmen zu können, bedarf es »real existierender Merkmale der eingeschätzten Person« (Funder & West, 1993), also Variablen, die den wahren Ausprägungsgrad des einzuschätzenden Merkmals widerspiegeln. Diese liegen kaum jemals vor; auch die Heranziehung von Verhaltensmaßen (z. B. Funder, Block & Block, 1983) stellt keinen befriedigenden Ersatz dar. Insofern ist der Rückgriff auf gemittelte Fremdeinschätzungen nur eine Approximation der eigentlich angestrebten Informationen, doch ist diese Näherung auf der Basis der oben dargelegten Anhaltspunkte – die sich zu einem sinnvollen Netzwerk fügen – empirisch gerechtfertigt.

Gemittelte Fremdeinschätzungen als geeignetes Kriterium

Reale Merkmale der Person als Kriterien kaum verfügbar

Antwortstile

Unter dem Begriff Antwortstil versteht man die Tendenz, Items aus einem Fragebogen nicht (nur) nach dem Wahrheits-, sondern nach einem anderen Prinzip zu beantworten, das nicht der Intention der Testautoren entspricht. Unsystematische Beantwortung von Fragen kann aus unterschiedlichen Gründen vorkommen. Beispielsweise will ein Proband durch wahlloses Ankreuzen verhindern, dass er etwas über sich selbst preisgibt. Oder er versteht die Fragen nicht richtig und versucht, durch Raten die »richtige« Antwort zu finden. Deshalb ist es wichtig, ein solches Verhalten zu erkennen. Jedes Item hat eine bestimmte Schwierigkeit, und extrem »schwere« Items werden per Definition nur von wenigen Probanden angekreuzt. Bei einem wahllosen Ankreuzen sollten also auch ungewöhnlich viele seltene Antworten gegeben werden (Ankreuzen von »schweren« Items). Bei einigen Fragebogen, beispielsweise dem MMPI-2 oder dem 16-PF-R gibt es eine Skala für seltene Antworten. Hohe Skalenwerte sind nicht zwingend Ausdruck von unsystematischem Antworten. Sie können auch auf andere Ursachen hinweisen, etwa das Vortäuschen einer Störung oder das Vorliegen bestimmter psychischer Störungen, insbesondere Schizophrenie. Ein anderer Antwortstil, der in der Vergangenheit umfangreiche Forschung angeregt hatte, ist die Ja-Sage-Tendenz (Akquieszenz). Hinter der Tendenz, im Zweifelsfall zuzustimmen, wurde ein stabiles Persönlichkeitsmerkmal vermutet (s. Messick, 1991). Am Besten wird bereits bei der Fragebogenkonstruktion Vorbeuge getroffen, dass die Ergebnisse nicht durch eine Ja-Sage-Tendenz verzerrt werden. Ein Teil der Items sollte so formuliert sein, dass eine Ablehnung als Indikator für das Merkmal zählt (also statt »ich gehe gerne aus« etwa »ich bleibe am liebsten zu Hause«). Allerdings verändert sich bei einer nachträglichen Invertierung leicht die Bedeutung einer Aussage und die Items fallen nach einer Itemanalyse heraus.

Wahlloses Ankreuzen erkennbar

Vorbeugen durch invertierte Items

3

248

Kapitel 3 · Diagnostische Verfahren

Der Begriff »Antwortstil« wurde hier auf formale Merkmale des Antwortverhaltens begrenzt. In der älteren englischsprachigen Fachliteratur spielte die Differenzierung von response sets und response styles lange Zeit eine Rolle, wobei die Begriffe nicht immer einheitlich verwendet wurden (vgl. Messick, 1991). Hier wurde der Begriff Stil verwendet, um ein formal, unabhängig vom Iteminhalt, definiertes Antwortverhalten zu bezeichnen. Das im nächsten Abschnitt behandelte Antwortverhalten wird in der Literatur meist auch unter dem Begriff response style behandelt. Es setzt aber immer eine Auseinandersetzung mit dem Iteminhalt voraus.

3

Verfälschung

Vorteile durch positivere und negativere Selbstdarstellung

Problem: Veränderung der Konstruktvalidität

Zwei Komponenten der sozialen Erwünschtheit

Gegenmaßnahmen: geeignete Instruktionen und forced choice Antwortformat

Die Items der meisten Persönlichkeitsfragebogen sind durchschaubar in dem Sinne, dass ein durchschnittlich intelligenter Mensch erkennen kann, ob eine zustimmende oder ablehnende Antwort für ihn vorteilhaft ist. Damit besteht bei vielen Untersuchungsanlässen die Gefahr, dass der Proband absichtlich versucht, einen schlechten oder einen guten Eindruck zu erwecken. Eine Übertreibung von Symptomen kann im Interesse eines Klienten liegen, der sich eine Therapie wünscht und zuvor im Auftrag der Krankenkasse begutachtet wird. Eine typische Situation, die zu einer positiven Selbstdarstellung verführt, ist eine eignungsdiagnostische Untersuchung im Rahmen der Personalauswahl. Aber auch beim Einsatz eines Fragebogens zu Beratungszwecken kann es zu einer beschönigenden Selbstdarstellung kommen. Probanden können einen Persönlichkeitsfragebogen komplett sozial erwünscht beantworten. Dadurch ändert sich die Konstruktvalidität; Skalen, die normalerweise kaum Gemeinsamkeiten aufweisen, korrelieren nun moderat bis hoch miteinander (Pauls & Crost, 2005). Sie können aber auch gezielt auf spezifische Anforderungen reagieren und ihr Persönlichkeitsprofil so darstellen, dass sie z. B. als Krankenschwester oder als Manager geeignet erscheinen (Pauls & Crost, 2005). Paulhus (1984) hat zwei Komponenten von sozial erwünschtem Antworten unterschieden, nämlich: vor anderen einen guten Eindruck machen (impression management) und vor sich selbst gut dastehen wollen (self-deception). Verständlicherweise gestehen sich viele Menschen ihre Schwächen nicht gerne ein. Es stellt sich die Frage, wie man beim Einsatz von Persönlichkeitsfragebogen am besten mit dem Problem der Verfälschbarkeit umgeht. Drei Lösungswege sind vorgeschlagen worden: Verhindern, kontrollieren oder ignorieren. Zur Verhinderung einer sozial erwünschten Selbstdarstellung stehen zwei praktikable Maßnahmen zur Verfügung. In der Instruktion wird darauf hingewiesen, dass man ehrlich antworten möge. Es gebe keine richtigen und falschen Antworten, sondern jeder solle sich so beschreiben, wie er wirklich ist. Auch der Hinweis, unehrliche Antworten würden erkannt, kann hilfreich sein. Selbstverständlich sind solche Anweisungen nur zulässig, wenn sie zur Standardinstruktion gehören. Ansonsten würde die Durchführungsobjektivität verletzt. Die zweite Alternative ist ein forced choice Antwortformat. Die Probanden wählen nicht zwischen ja und nein oder geben den Grad ihre Zustimmung an, sondern entscheiden sich zwischen ähnlich sozial erwünschten Antwortalternativen. Martin, Bowen und Hunt (2002) haben den Ocupational Personality Questionnaire OPQ in einer forced choice und Rating-Version eingesetzt. Versuchspersonen bearbeiteten die beiden Fragebogen unter einer Standard- (ehrlich) oder einer faking good Bedingung (versuchen, einen guten Eindruck zu machen). Für die Auswertung berechneten die Autoren, wie weit die Antworten von »Idealantworten« für den Job abwichen, die sie zusätzlich erhoben hatten. Bei Verwendung des Rating-Formats lagen die Antworten der Versuchspersonen unter der faking good

249

3.2 · Persönlichkeitsfragebogen

Bedingung deutlich dichter an den Idealantworten als unter der Standardbedingung. Beim forced choice Format trat dagegen kein signifikanter Unterschied zwischen diesen beiden Versuchsbedingungen auf. Durch das forced choice Format konnte also eine Verfälschung erfolgreich verhindert werden. Wenig Erfolg versprechend ist eine Begrenzung der Antwortzeit. Eine Verkürzung der zur Verfügung stehenden Antwortzeiten bei computergestützter Testdurchführung erwies sich als ineffektiv zur Verhinderung von Verfälschung. Vor allem trat ein äußerst unerwünschter Nebeneffekt auf. Die Validität der Skalen (Korrelation mit Beurteilung durch Bekannte) verringerte sich in der Standardbedingung (ehrlich antworten) zum Teil erheblich (Holden, Wood & Tomashewski, 2001). Schon die implizite Annahme, dass Verfälschung längeres Nachdenken erfordert als ehrliches Antworten, ist problematisch. Mehrere Untersuchungen galten den Antwortzeiten auf Items unter einer Verfälschungsbedingung im Vergleich zu einer Standardbedingung. Die Befunde sind widersprüchlich; sowohl kürzere als auch längere Antwortzeiten wurden beobachtet (s. Holden et al., 2001). Zur Kontrolle von verfälschenden Angaben stehen eine Reihe von Kontrollskalen zur Verfügung, die in unterschiedlichem Maße Selbsttäuschung und impression management erfassen (Paulhus, 1991). Gibt man solche Skalen mit der Anweisung vor, beim Ausfüllen einen guten Eindruck zu machen (faking good), fallen die Testwerte deutlich höher aus als unter einer Standardbedingung. Pauls und Crost (2004) fanden für eine bekannte impression managment Skala einen Anstieg der Testwerte, der 26 Standardwert-Punkten entspricht. Dies ist ein deutlicher Validitätsbeleg für diese Skala. Allerdings stiegen auch bei einer Skala zur Selbsttäuschung die Werte um umgerechnet 20 Standardwert-Punkte an. Dies spricht dafür, dass diese Skala nicht nur Selbsttäuschung, sondern auch impression managment erfasst. Eine sehr bekannte Kontrollskala ist die Marlowe-Crowne Skala zur sozialen Erwünschtheit, die auch als deutsche Version verfügbar ist (Lück & Timaeus, 1969). Die 23 Items (Beispiel: »Ich bin immer höflich, auch zu unangenehmen Leuten«) sind durch Ankreuzen mit »richtig« oder »falsch« zu beantworten. Einige Fragebogen (z. B. MMPI-2 und FPI-R) enthalten Kontrollskalen, die der Marlowe-Crowne Skala ähnlich sind. Ein erhöhter Wert auf einer Kontrollskala kann als Warnhinweis verstanden werden; wer hier hohe Werte aufweist, hat möglicherweise den ganzen Fragebogen nicht ehrlich ausgefüllt. Dabei ist zu beachten, dass es auch andere Gründe für erhöhte Werte auf einer Erwünschtheitsskala geben kann. Menschen, die sich stark an moralischen Standards orientieren, verhalten sich vielleicht wirklich so, wie sie es im Fragebogen angeben. Sie nutzen keine Gelegenheit aus, um umsonst mit der Straßenbahn zu fahren, halten sich streng an Verabredungen, fluchen nicht etc. Bei ihnen versagt das Messprinzip der Erwünschtheitsskalen. Sie werden zu Unrecht als Lügner oder Uneinsichtige verdächtigt. Deshalb sollten erhöhte Werte auf einer solchen Skala als Warnhinweis und nicht als Beweis verstanden werden. Der Vorschlag, das Problem der Verfälschbarkeit von Persönlichkeitsfragebogen zu ignorieren, basiert auf empirischen Befunden zur Kriteriumsvalidität von Skalen zur Sozialen Erwünschtheit, die in der Tat verblüffend sind. Ones, Viswesvaran und Reiss (1996) haben in einer Metaanalyse folgende Fakten zusammengetragen: Erstens korreliert soziale Erwünschtheit mit emotionaler Stabilität und mit Gewissenhaftigkeit minderungskorrigiert zu .37 und .20. Auch wenn die beiden Persönlichkeitsmerkmale durch Bekannte beurteilt werden, korrelieren sie mit sozialer Erwünschtheit (rkorr. = .18 und .13). Zweitens korreliert soziale Erwünschtheit positiv mit Ausbildungserfolg (rkorr.=.22). Das heißt, je sozial erwünschter sich jemand im Fragebogen darstellt, desto erfolgreicher wird er seine Ausbildung abschließen. Drittens ändert sich die Korrelation

3

Verlängerte Antwortzeiten als Indikator für Verfälschung?

Kontrollskalen für sozial erwünschtes Antworten

Gefahr der Fehlinterpretation

Kriteriumsvalidität kann trotz Verfälschungen gegeben sein

250

Kapitel 3 · Diagnostische Verfahren

3

Bedeutung positiver Selbstbeschreibungen unklar

zwischen den großen fünf Persönlichkeitsmerkmalen und Berufserfolg (Vorgesetztenbeurteilung) nicht, wenn man die soziale Erwünschtheit auspartialisiert. Der beste Prädiktor ist die Gewissenhaftigkeit (rkorr. = .23); nach Auspartialisierung der sozialen Erwünschtheit bleibt der Zusammenhang exakt gleich (rkorr. = .23). Diese Befunde können dahingehend interpretiert werden, dass Skalen zur sozialen Erwünschtheit Aspekte der Persönlichkeit miterfassen, die für den beruflichen Erfolg nützlich sind (emotionale Stabilität und Gewissenhaftigkeit). Nimmt man die soziale Erwünschtheit durch Auspartialisierung aus der Vorhersage heraus, um die wahren Ausprägungen der Persönlichkeitsmerkmale als Prädiktor zu verwenden, entfernt man zugleich nützliche Varianzanteile. Dennoch bleibt ein tiefes Unbehagen, wenn Bewerber einen Persönlichkeitsfragebogen bearbeiten und der Diagnostiker im Einzelfall nicht wissen kann, ob beispielsweise der hohe Gewissenhaftigkeitswert Ausdruck einer hohen Gewissenhaftigkeit ist oder einer geschickten Selbstdarstellung. Handelt es sich um einen unzuverlässigen, unordentlichen Bewerber, der erkannt hat, dass es auf Gewissenhaftigkeit ankommt und sich entsprechend darstellt? Oder hat der Bewerber, ohne zu übertreiben, einen hohen Wert für Gewissenhaftigkeit erreicht? Für eine vertiefende Diskussion dieses Themas sei auf Markus (2003) und Kanning (2003) verwiesen. Fazit Persönlichkeitsfragebogen erfassen nicht irgendwelche »wirklichen« Persönlichkeitseigenschaften, sondern die von einer Person bevorzugte Wahrnehmung und Darstellung ihrer selbst: Fragebogen als »eigentlich besterprobte subjektive Messmittel der Persönlichkeit aus der Sicht des Individuums selbst« (Mummendey, 1987, S. 20). Deshalb sind Persönlichkeitstestwerte vor dem Hintergrund der Messmethode zu interpretieren, und Verzerrungen bei der Selbstbeobachtung und -beurteilung, der Beantwortung der Items und der absichtsvollen Selbstdarstellung sollten in Erwägung gezogen werden. Die überwiegend niedrigen Kriteriumsvaliditäten zeigen die Grenzen der Fragebogenmethode auf.

3.2.3 Persönlichkeitstestsysteme

Beispiele

Aus der großen Zahl verfügbarer Testbatterien werden hier exemplarisch nur bestimmte Inventare herausgegriffen. Bei dem Minnesota Multiphasic Personality Inventory MMPI handelt es sich um das weltweit gebräuchlichste überhaupt. So erscheinen pro Jahr allein ca. 1000 Forschungsuntersuchungen, die sich mit Einsatzmöglichkeiten und Erfahrungen beschäftigen, und zwar insbesondere an klinisch auffälligen Gruppen. Das MMPI ist zudem der einzige Persönlichkeitstest von Rang, der nach externalen Prinzipien konzipiert wurde. Das zweite Verfahren, das Freiburger Persönlichkeitsinventar FPI, stellt das im deutschen Sprachraum am häufigsten verwendete Verfahren dar. Das dritte, der 16-Persönlichkeits-Faktoren-Test 16 PF, basiert auf einer umfassenderen Persönlichkeitstheorie. Das gilt auch für die Deutsche Personality Research Form D-PRF, die darüber hinaus einen anderen Gültigkeitsbereich aufweist und mit einer Reihe von ambitionierten Besonderheiten bei der Konstruktion aufwartet. In einem weiteren, dem Neo-Fünf-Faktoren-Inventar NEO-FFI, konvergieren – stärker als in den zuvor genannten Testsystemen – mehrere aktuelle internationale Forschungsaktivitäten. Das NEOPersönlichkeitsinventar nach Costa und McCrae, revidierte Fassung (NEOPI-R), steht in der Tradition des NEO-FFI und wird dieses vermutlich in weiten Berei-

251

3.2 · Persönlichkeitsfragebogen

chen der diagnostischen Praxis einmal ablösen. Das Trierer Integrierte Persönlichkeitsinventar TIPI lehnt sich mit seinen Superfaktoren zu Neurotizismus und Extraversionen an, schließt aber darüber hinaus auch die Erfassung mehrerer Facetten seelischer Gesundheit ein. Der Stressverarbeitungsfragebogen SVF schließlich konzentriert sich auf spezifische Reaktionsweisen in genauer umrissenen Situationen und hebt damit z. T. auf aktuelle Zustände ab, die im nächsten Abschnitt dann gesondert zur Sprache kommen. Abgesehen vom MMPI und ungeachtet wesentlicher Besonderheiten im einzelnen ist allen diesen Tests die induktiv-faktorenanalytische Skalenkonstruktion gemeinsam sowie der Umstand, dass mit den jeweiligen Subskalen ein insgesamt sehr weites Spektrum von Erlebnis- und Verhaltensweisen im Bereich des Unauffällig-Normalen abgedeckt wird.

3

Inventare meist für den »Normalbereich« entwickelt

Minnesota-Multiphasic-Personality-Inventory-MMPI-2

Hathaway, S. R., McKinley, J. C., Engel, R. R. (2000). MMPI-2. Bern: Huber Konstruktionsansatz. Am Anfang aller Entwicklungsarbeiten stand die Anlegung ei-

ner Liste von 1000 Items, die sich auf allgemeine Gesundheit, familiäre und eheliche Beziehungen, sexuelle und religiöse Einstellungen sowie emotionale Zustände bezogen und letztlich psychopathologische Symptome erfassen sollten. Später kamen Items zu Geschlechtsrollencharakteristika und abwehrender Selbstdarstellung dazu. Gruppen von klinisch auffälligen Personen, die von Psychiatern als Schizophrene, Hysteriker, Hypochonder usw. diagnostiziert worden waren, bearbeiteten die Items ebenso wie »unauffällig-normale« Kontrollpersonen (Einwohner von Minnesota, Bewerber um einen Studienplatz, Besucher des Krankenhauses). Jene 566 Items wurden schließlich in Skalen zusammengestellt, die die Patienten von den Kontrollpersonen signifikant diskriminierten. Von daher eignet sich das Verfahren vorrangig zur Entscheidungsfindung über die Zuordnung von Probanden zu entweder psychiatrischen Kategorien oder zur unauffälligen »Normal«-Population. Weil zahlreiche Fragen zugleich mehrere der Patientengruppen von den »Normalen« unterschieden, sind diese dementsprechend Bestandteil auch mehrerer Skalen. Das heißt die einmalige Antwort zu einem Item, wie »Ich schlafe unruhig und werde oft wach« (Ja/Nein) wird mehrfach verrechnet (in diesem Fall unter den Skalen Hypochondrie, Depression und Hysterie; zu den Skalen 7 unten). Ein solcher Item-Overlap treibt die Interkorrelationen zwischen den Skalen in die Höhe. Damit aber werden gerade die Voraussetzungen für jene Ziele gemindert, die mit dem MMPI besonders häufig verfolgt werden, nämlich ein individuelles Testprofil mit demjenigen psychopathologisch auffälliger Personen zu vergleichen, weil Profilinterpretationen an hohe Reliabilitäten und niedrige Interkorrelationen gebunden sind. Bei der Revision zum MMPI-2 erfolgten Änderungen an den Items. Einige »alte« Items (z. B. zu sexuellen Gewohnheiten, religiösen Einstellungen) waren unangemessen, andere nicht mehr zeitgemäß (bestimmte Freizeitbeschäftigungen nicht mehr aktuell). Einige Items mussten sprachlich revidiert werden (z. B. waren Redewendung nicht mehr gebräuchlich). Die Forschungsversion enthielt zusätzlich 154 neue Items, die auch neue Inhaltsbereiche wie Essstörungen, Arbeitsstörungen und den familiären Bereich abdecken. Bei der Revision sollte sowohl die Kontinuität gewahrt bleiben, als auch eine Modernisierung erreicht werden. Die 567 Items der revidierten Form setzen sich aus 459 »alten« und 108 neuen Items zusammen. Bei der deutschen Fassung des MMPI-2 handelt es sich um eine Übersetzung des amerikanischen Originals, wobei sich die Autoren bei den »alten« Items an die alte deutsche Testversion von Spreen (1963) hielten.

Erfassung psychopathologischer Symptome

Trennung zwischen Patienten und Gesunden

»Item-Overlap«

MMPI-2 mit vielen neuen Items

252

Kapitel 3 · Diagnostische Verfahren

4 Validitätsskalen

Gliederung. Das MMPI wie auch die revidierte Form MMPI-2 umfasst vier Validitäts-

skalen (?, L, F, K) und 13 Basisskalen. Darüber hinaus können aus den Items zahlreiche Zusatzskalen gebildet werden (z. B. Soziale Verantwortlichkeit, Posttraumatische Belastungsstörung, Suchtgefährdung).

Skalen des MMPI-2 mit Beispielitems

3

? L

– – – F – – K – – Hd – – D – – Hy – – Pp – – Mf – – Pa – – Pt – – Sc – – Ma – –

Weiß nicht-Skala (Anzahl nicht oder ungültig beantworteter Items) Lügenskala (15 Items) »Manchmal möchte ich am liebsten fluchen« (Richtig) Seltenheitsskala (60 Items) »Ich leide unter Anfällen von Übelkeit und Erbrechen« (Richtig) Korrekturskala (30 Items) »Zuweilen möchte ich am liebsten etwas kaputtschlagen« (Richtig) Hypochondrie (32 Items) »Ich leide unter Anfällen von Übelkeit und Erbrechen« (Richtig) Depression (57 Items) »Ich habe einen guten Appetit« (Falsch) Hysterie, Konversionsstörung (60) »Ich habe häufig das Gefühl, als ob ich einen Kloß im Halse hätte« (Richtig) Psychopathie, Soziopathie, antisoziale Persönlichkeitsstörung (50 Items) »Manchmal habe ich sehr gewünscht, von zu Hause fortzugehen« (Richtig) Maskulinität/Femininität (56 Items) »Ich lese gern Liebesgeschichten« (Richtig=feminine Interessen) Paranoia (40 Items) »Niemand scheint mich zu verstehen« (Richtig) Psychasthenie (48 Items) »Ich habe sicherlich zu wenig Selbstvertrauen« (Richtig) Schizophrenie (78 Items) »Ich habe Angst, den Verstand zu verlieren« (Richtig) Hypomanie (46 Items) »Manchmal habe ich Lach- oder Weinanfälle, die ich nicht beherrschen kann« (Richtig) Si – Social Introversion »Ich gehe gern zu Parties und anderen Gelegenheiten, bei denen es laut und lustig zugeht« (Falsch)

Auch Items mit geringer Augenscheinvalidität

Zahlreiche Interpretationshinweise zu den Validitätsskalen

Die ausgewählten Items sind typisch für die zu messenden Merkmale. Bei anderen Items ist dagegen kaum nachzuvollziehen, warum sie das Merkmal indizieren. Beispielsweise spricht die Verneinung des Items »Ich lese gern Zeitungsartikel über Gerichts- und Kriminalfälle« für Hysterie, und wer bei »Mein Sexualleben ist zufrieden stellend« Falsch ankreuzt, bekommt dafür einen Punkt auf der Psychopathieskala. Hohe Punktwerte in einer der Validitätsskalen, erst recht in mehreren oder allen davon, gebieten, wie es in schöner Regelmäßigkeit in den Handanweisungen heißt, Zurückhaltung oder Vorsicht bei der Interpretation der Inhaltsskalen, was immer auch dies bedeuten mag. Im Manual zum MMPI-2 (Hathaway, McKinley & Engel, 2000) finden sich zu den Validitätsskalen zahlreiche Interpretationshinweise (. Tab. 3.13 zur

253

3.2 · Persönlichkeitsfragebogen

. Tabelle 3.13. L-(Lügen-)Skala: Interpretation der Skalenwerte. (Aus Hathaway, 2000, S. 24-26)

T-Wert-Niveau

Gültigkeit des Profils

Mögliche Ursachen

Mögliche Interpretation

Sehr hoch (über 79)

Wahrscheinlich ungültig

Dissimulation

Widerstand gegen den Test oder Naivität

Hoch (70–79)

Gültigkeit fraglich

Zufällige Beantwortung Leugnen von Fehlern

Verwirrtheit Mangelnde Einsicht Verdrängung

Erhöht (60–69)

Wahrscheinlich gültig

Abwehrende Untersuchungshaltung

Konventionell und konformistisch Absolut tugendhaft

Mittel (50–59)

Gültig

Typische, normale Einstellung gegenüber dem Test

Keine Probleme mit dem eigenen Selbstbild

Niedrig (unter 50)

Möglicherweise Simulation

Zustimmungstendenz Aufmerksamkeitserheischung

Überbetonung von Krankheitssymptomen Selbstbewusst und unabhängig Zynisch, sarkastisch

L-Skala). Die Festlegung der jeweiligen Grenzwerte (z. B. 50–59, 60–69) erfolgte vermutlich nach dem Dafürhalten der Autoren. Durchführung. Das MMPI-2 kann in Einzel- und Gruppensituation durchgeführt wer-

den. Die Bearbeitung dauert gut 1 h, bei Patienten etwas länger. Der Proband kreuzt auf einem separaten Auswertungsblatt für jedes Item Richtig oder Falsch an. Auswertung. Die Rohwerte werden skalenweise mit Schablonen ermittelt. Die individuellen Rohwerte werden direkt in ein Profilblatt für Frauen oder Männer eingetragen. Darin sind die Rohwerte bei jeder Skala grafisch so angeordnet, dass praktisch eine Transformation in T-Werte erfolgt. Bei einigen Skalen sind zuvor die Rohwerte um eine bestimmte Punktzahl zu erhöhen. Bei dieser so genannten K-Korrektur wird der Rohwert einer Basisskala für mangelnde Offenheit des Probanden, die sich aus der K-Skala ablesen lässt, nach oben korrigiert. Dazu wird der Punktwert der K-Skala mit dem angegebenen Faktor, z. B. 0.4, multipliziert. Der resultierende Korrekturwert wird zum Rohwert der Basisskala addiert. Die mühsame manuelle Auswertung lässt sich bei Nutzung des kostenpflichtigen Fax-Services umgehen. Das Antwortblatt wird an die angegebene Adresse gefaxt und nach wenigen Minuten kommt die komplette Auswertung zurück. Als nicht wirklich attraktive Alternative bietet sich ein Auswertungsprogramm an, bei dem die Items eingegeben werden müssen. Sehr komfortabel ist dagegen die Computerversion des MMPI-2, bei der die Auswertung per Mausklick zu haben ist. Interpretation. Zuerst wird anhand der Validitätsskalen geprüft, ob das Protokoll gültig ist. Die Basisskalen können einzeln interpretiert werden. Dazu stehen im Manual Interpretationshinweise nach dem in . Tabelle 3.13 gezeigten Schema zur Verfügung.

K-Korrektur

Auswertung per Fax-Service möglich

Interpretation der Basisskalen

3

254

Kapitel 3 · Diagnostische Verfahren

Profilauswertung

3

Beispielsweise sollen sehr hohe Werte (T > 75) auf der Paranoia-Skala für Denkstörung, irrige Ansichten, Beziehungsideen, Rachsüchtigkeit und Grübeln und/oder Handeln infolge von Wahnvorstellungen sprechen. Bei Bedarf können bestimmte Zusatzskalen ausgewertet und interpretiert werden. Die »Krönung« stellt die Profilauswertung dar. Dazu werden die Nummern der drei Skalen mit den höchsten T-Werten notiert. In entsprechenden Handbüchern finden sich Erläuterungen und Fallbeispiele für die jeweiligen Punktcodes. Normierung. Die Eichstichprobe (N = 958) zur Normierung des deutschen MMPI-2

Repräsentative Normstichprobe; 18–70 Jahre

ist bezüglich Alter, Geschlecht und geographischer Herkunft repräsentativ für die 18– 70jährige deutsche Bevölkerung. Bei der Erbhebung entstand ein gewisser Schwund dadurch, dass immerhin 192 Personen die Bearbeitung des MMPI ablehnten und Protokolle wegen extrem hoher F-Werte oder zu vielen unbeantworteten Items eliminiert werden mussten. Reliabilität. Die Retestreliabilität nach 10 Tagen der Skalen wird im Manual mit .66 (Ma) bis .90 (D) bei Männern (N = 49) und .71 (Ma) bis .92 (Sc) bei Frauen (N = 56) angegeben.

4 Faktoren

Validität. Im Testmanual werden lediglich Faktorenanalysen der Skalen berichtet. Es fanden sich ähnliche Strukturen für Männer und Frauen sowie gute Übereinstimmung mit US-Ergebnissen. Die vier Faktoren sind: 4 F1: Psychotische Gedankeninhalte (Sc, Pp, Pa, F) 4 F2: Neurotische Verhaltensweisen (Hy, L, K) 4 F3: Introversion (Si, D) 4 F4: Geschlechtsrollenidentifikation (Mf)

Wegen der Itemüberlappung sind die Ergebnisse der Faktorenanalysen mit Vorsicht zu bewerten. Bewertung. Es ist sehr zu begrüßen, dass ein so bewährtes und gut erforschtes Verfah-

Bezug zu ICD-10 und DSM-IV fehlt

ren wie das MMPI nun auch in der aktualisierten Form (MMPI-2) in deutscher Sprache vorliegt. Positiv zu werten ist die extrem große Informationsausbeute durch die vielen klinischen Skalen, Validitätsskalen und Zusatzskalen. Zur fehleranfälligen und zeitraubenden Auswertung mit Schablonen stehen attraktive Alternativen zur Verfügung. Am Manual ist zu bemängeln, dass Angaben zur Profilreliabiltät fehlen und die zur Validität dürftig sind. Ein grundsätzliches Problem des MMPI ist, dass das Verfahren auf veralteten diagnostischen Kriterien basiert und eine klinische Diagnostik nach ICD-10 oder DSM-IV nicht unterstützt. Freiburger Persönlichkeitsinventar FPI, Revidierte Fassung FPI-R

(7., überarbeitete und neu normierte Aufl. 2001). Fahrenberg, J. et al., 2001). Göttingen: Hogrefe Zu unterscheiden ist in den letzten Aufl. zwischen den Formen FPI-A1 als neu normierte und sprachlich z. T. modifizierte Fortführung der ursprünglichen Version sowie der revidierten Fassung FPI-R, die z. T. andere Dimensionen aufweist. Da das FPI-R die vorangegangenen Versionen ablösen soll, wird hier aus Platz- und Übersichtsgründen nur darauf eingegangen.

255

3.2 · Persönlichkeitsfragebogen

Konstruktionsprinzipien. Die Entwicklung des Verfahrens orientierte sich nicht an einer spezifischen Persönlichkeitstheorie, sondern den Interessen der Autoren an bestimmten Dimensionen des Verhaltens, und zwar teils im Hinblick auf die theoretischen Grundlagen (insbesondere Extraversion und Neurotizismus), teils im Hinblick auf deren Implikationen für das soziale Zusammenleben (z. B. Aggressivität) und das subjektive Wohlbefinden oder Zurechtkommen mit Anforderungen (z. B. Lebenszufriedenheit, Beanspruchung). Die Skalenkonstruktion bzw. die Auswahl der Items geschah teils nach faktorenanalytischen, teils nach Trennschärfeprinzipien; daneben spielten inhaltliche und praktische Erwägungen eine Rolle.

Keine theoriegeleitete Testkonstruktion

Dimensionen und Beispielitems aus dem FPI-R Aufgeführt sind jeweils die pro Skala trennschärfsten Statements unter Angabe des Koeffizienten rit. 1. Lebenszufriedenheit: »Alles in allem bin ich ausgesprochen zufrieden mit meinem bisherigen Leben.« (.70) 2. Soziale Orientierung: »Da der Staat schon für Sozialhilfe sorgt, brauche ich im Einzelnen nicht zu helfen.« (–.57) 3. Leistungsorientierung: »Ich habe gern mit Aufgaben zu tun, die schnelles Handeln verlangen.« (.61) 4. Gehemmtheit: »Ich werde ziemlich leicht verlegen.« (.58) 5. Erregbarkeit: »Oft rege ich mich zu rasch über jemanden auf.« (.57) 6. Aggressivität: »Wenn ich Zuflucht zu körperlicher Gewalt nehmen muss, um meine Rechte zu verteidigen, so tue ich es.« (.54) 7. Beanspruchung: »Ich habe häufig das Gefühl, im Stress zu sein.« (.73) 8. Körperliche Beschwerden: »Ich habe manchmal ein Gefühl erstickender Enge in der Brust.« (.61) 9. Gesundheitssorgen: »Ich vermeide Zugluft, weil man sich zu leicht erkälten kann.« (.61) 10. Offenheit: »Ich bin hin und wieder ein wenig schadenfroh.« (.59) E. Extraversion: »Ich kann in eine ziemlich langweilige Gesellschaft schnell Leben bringen.« (.68) N. Emotionalität: »Ich bin oft nervös, weil zu viel auf mich einströmt.« (.62)

Gliederung. Der Test besteht aus 138 Feststellungen in der Form »Ich (bin, fühle, würde usw.)…«, die mit »stimmt« oder »stimmt nicht« zu beantworten sind. Das erste Item »Ich habe die Anleitung gelesen und bin bereit, jeden Satz offen zu beantworten« gehört zu keiner Skala. Der Rest verteilt sich auf 10 aus je 12 Items bestehenden Standardskalen sowie 2 Zusatzskalen (Extraversion und Emotionalität im Sinne von Eysenck) mit je 14

3

10 Skalen; 2 Zusatzskalen

256

Kapitel 3 · Diagnostische Verfahren

Items (von denen insgesamt 11 auch für die Standardskalen Verwendung finden; Bezeichnung der Skalen und Beispielitems 7 Beispiel).

3

Kurze Instruktion und selbständige Bearbeitung durch den Probanden

Durchführung. Die Instruktion findet sich schriftlich und in leicht verständlicher Weise auf dem Fragebogen. Ein Teil der Anweisungen richtet sich darauf, nicht lange bei jedem Item nachzudenken, sondern die Antwort zu geben, die unmittelbar in den Sinn kommt. Ob das zweckmäßig ist, muss offen bleiben. Wegen der Kürze der Instruktion und der selbständigen Bearbeitung durch den Probanden spielen Testleitereffekte nur eine minimale Rolle. In der Handanweisung werden zusätzliche Empfehlungen gegeben, wie den häufigsten Rückfragen und Einwänden von Seiten der Probanden zu begegnen ist. Die Dauer der Bearbeitung beträgt zwischen 10 und 30 min. Auswertung. Mittels Schablone. Aus ihr wird deutlich, dass die allermeisten Items

positiv (im Sinne des Merkmals ist »stimmt« die richtige Antwort) gescort sind (Einfluss von Akquieszenz?). Repräsentative Stichprobe; 7 Altersgruppen

Normierung. Zur 7. Aufl. wurde 1999 eine bevölkerungsrepräsentative Stichprobe von

Befriedigende Reliabilitäten

Reliabilität. Die im Manual (der 6. Aufl.) aufgeführten Konsistenzkoeffizienten variieren für die einzelnen Skalen zwischen .71 und .84 (Mdn = .77). Sie werden von den Autoren im Hinblick auf die Breite der psychologischen Konstrukte und die relative Kürze der Skalen als »befriedigend« bezeichnet. Zum Vergleich wurden 10 Zufallsskalen von je 12 Items gebildet; die mittlere Konsistenz dieser 10 Random-Skalen betrug α = .26. Darin schlägt sich nach Auffassung der Autoren nicht der Effekt eines zugrunde liegenden Generalfaktors, sondern unspezifische Methodenvarianz in der Größenordnung von 26% der Gesamtvarianz nieder, da der Itempool »zehn relativ unabhängige Konstrukte (repräsentiere)«. Mit dem Argument der Unabhängigkeit nicht ganz verträglich ist der Umstand, dass allein die Primärskalen untereinander im Mittel von ungefähr .20 interkorrelieren. (Dies ermöglichte auch die Ableitung von 3 Sekundärskalen »Gestörtes Allgemeinbefinden«, »Aggressive Erregbarkeit« und »Selbstsichere Aktivität«, doch erachten die Autoren die Sekundäranalysen selbst als fragwürdig.) Analysen nach logistischen Prinzipien (7 Abschn. 2.1.2) ergaben Miniskalen, die im Vergleich zu den Standardskalen niedrigere Konsistenzen aufwiesen. In einer Bewertung dieser Ergebnisse gelangen die Autoren zu dem »Eindruck, dass das logistische Grundmodell hier auch als Heuristik unergiebig und für die facettenreichen Konstrukte der Eigenschaftstheorie tatsächlich inadäquat ist« (Fahrenberg et al., 1994, S. 34). Stabilitätskoeffizienten liegen inzwischen für eine Gruppe von Kreislaufpatienten vor. Die Testungen erfolgten zu Beginn und am Ende einer ca. 4wöchigen Kur. Trotz der Homogenität dieser Stichprobe und des Treatments im Retestintervall fielen die Koeffizienten mit Werten zwischen rtt = .69 (soziale Orientierung) und .85 (Gehemmtheit) sehr zufriedenstellend aus (im Mittel .73).

Unabhängige Konstrukte?

Stabilität zufriedenstellend

3740 Einwohnern der alten und der neuen Bundesländer erhoben. Die Skalen des FPIR und das Testformular blieben unverändert. Die Rohwerte werden getrennt für die beiden Geschlechter und jeweils 7 Altersgruppen in Stanine-Werte transformiert.

Validität. Unter »Validitätshinweise« finden sich im Manual (6. Aufl.) zahlreiche Zusammenhänge zwischen den Skalen des FPI-R und weiteren Daten, die von der Normstichprobe geliefert wurden. So korreliert beispielsweise die Skala FPI-8 (»körperliche Beschwerden«) mit »schlechtem Gesundheitszustand« zu r = .51 oder FPI-R1 (»Lebenszu-

257

3.2 · Persönlichkeitsfragebogen

friedenheit«) mit »Zufriedenheit mit familiärer Situation« zu r = .46. Da es sich aber jeweils um Daten aus ein und derselben Quelle (Selbstberichte) handelt, sind solche Beziehungen nur von geringer Beweiskraft. In abgeschwächtem Maße gilt dies auch für die Simultanfaktorisierung mehrerer Testsysteme (. Tab. 3.14). Daraus wird ersichtlich, dass nicht weniger als 4 FPI-Skalen (Lebenszufriedenheit, Erregbarkeit, Beanspruchung und körperliche Beschwerden) gemeinsam auf einem Neurotizismusfaktor laden, Ge-

. Tabelle 3.14. Rotierte Ladungsmatrix einer Simultanfaktorisierung von PRF, FPI, EPI und NEO-FFI. (Aus Borkenau & Ostendorf, 1993, S. 19)

Skala

Faktorena I

II

III

IV

V

.08 .01 .30 –.19 –.24 .00 .25 .26 .25 –.05 –.01 .38 .56 .00

.06 .72 .40 .52 –.13 .76 –.46 .41 .29 –.03 .72 .39 .24 –.03

.23 –.25 .06 .16 .12 .19 –.44 .30 .00 –.45 –.03 –.47 –.25 .75

.12 .33 –.68 –.44 .08 –.5 .24 –.11 .65 .10 –.13 .10 .28 .03

.77 .05 –.07 .42 .74 –.01 .10 –.57 .27 .62 –.37 .17 –.33 .19

–.61 .28 –.15 .39 .70 .24 .69 .72 .25

.23 .11 .40 –.59 .18 .31 .03 –.11 –.17

–.27 .33 .06 –.19 –.12 .00 .04 –.04 –.38

.13 .66 –.18 .11 –.16 –.66 .03 .04 –.09

.27 .13 .63 –.24 –.11 –.03 .18 –.03 .27

.02 .89

.86 –.07

.03 .04

–.18 .01

–.11 –.16

.79 –.05 .16 .01 –.17

–.10 .80 .02 –.09 –.02

.08 –.08 .74 –.21 –.35

.07 .12 –.07 .75 .09

–.27 .10 –.07 –.06 .75

Personality Research Form Leistungsdaten Geselligkeit Aggressivität Dominanzstreben Ausdauer Bedürfnis nach Beachtung Risikomeidung Impulsivität Hilfsbereitschaft Ordnungsstreben Spielerische Grundhaltung Soziales Anerkennungsbedürfnis Anlehnungsbedürfnis Allgemeine Interessiertheit Freiburger Persönlichkeitsinventar Lebenszufriedenheit Soziale Orientierung Leistungsorientierung Gehemmtheit Erregbarkeit Aggressivität Beanspruchung Körperliche Beschwerden Geundheitssorgen Eysenck Persönlichkeitsinventar Extraversion Neurotizismus NEO-Fünf-Faktoren-Inventar Neurotizismus Extraversion Offenheit für Erfahrung Verträglichkeit Gewissenhaftigkeit Anmerkung. a Ladungen ≥.60 sind fett gedruckt

3

258

3

Kapitel 3 · Diagnostische Verfahren

Übereinstimmung zwischen Selbst- und Fremdeinschätzung hoch

Soziale Erwünschtheit hat geringen Einfluss

hemmtheit (mit negativem Vorzeichen) relativ hoch mit Extraversion korreliert und die soziale Orientierung sowie Aggressivität (negativ) mit Verträglichkeit in Beziehung stehen. Solche Resultate sprechen für eine eher mittlere Bandbreite des FPI-R. Härtere Evidenzen vermitteln die Übereinstimmungen in einer Größenordnung von .45, die in früheren Untersuchungen zwischen Skalen des FPI und Fremdeinschätzungen auf konstruktnahen Dimensionen gefunden wurden (Amelang & Borkenau, 1982; Burisch, 1984). Für die Skalen des FPI-R berichten Schmidt und König (1986) eine mittlere Selbst-Fremd-Einschätzungskorrelation von rtc = .38 (rtc = .45 bei relativ hohem, .30 bei relativ niedrigem Bekanntheitsgrad). Für die in das FPI-R neu aufgenommenen Skalen betragen die Validitäten .52 (Lebenszufriedenheit), .39 (soziale Orientierung), .40 (Leistungsorientierung), .42 (Beanspruchung) und .31 (Gesundheitssorgen; Koeffizienten jeweils für die Gruppe mit relativ hoher Bekanntheit zwischen Beurteiler und Beurteiltem). Ausgehend von Eysencks (1967) Persönlichkeitstheorie war als Teil der Konstruktvalidierung von »emotionaler Labilität« eine Korrelation dieser Skala zu psychophysischen Aktivierungsprozessen und/oder relativ überdauernden psychophysischen Reaktivitätsunterschieden zu erwarten. Die Anwendungsversuche in dieser Hinsicht müssen aber insgesamt als empirisch falsifiziert gelten. Das spricht in diesem Falle nicht gegen die Skala, sondern eher gegen die behauptete Verankerung des Merkmals »Neurotizismus« in psychophysiologischen Strukturen. Der Versuch, durch Anwendung der Factor Deletion Technique die Varianzkomponenten im Sinne sozialer Erwünschtheit (SE) zu eliminieren und dadurch die Validität gegenüber Fremdeinschätzungen zu erhöhen, verminderte sowohl die externe Validität als auch die Inhaltssättigung der FPIFragebogenfaktoren (Borkenau & Amelang, 1986). Das kann als Hinweis darauf gewertet werden, dass SE-Einflüsse bei der Bearbeitung in Forschungssituationen nur eine vergleichsweise geringe Rolle spielen. Allerdings handelt es sich auch nach Meinung der Autoren bei der potentiellen Verfälschungsmöglichkeit um eines der schwerwiegendsten Methodenprobleme bei Fragebogen. Fazit In der Handanweisung kommen die diagnostische Zielsetzung, die theoretischen Grundlagen und – in Verbindung damit – auch die Vergleichbarkeit mit anderen Verfahren etwas zu kurz (in diesem Sinne Hollmann, 1988, S. 284). Trotzdem handelt es sich beim FPI-R um ein Verfahren, dessen Konstrukte teils erwiesenermaßen (z. B. Extraversion und Emotionalität, Erregbarkeit, Aggressivität), teils nach Dafürhalten und Berichten in der Literatur (z. B. soziale Orientierung, Gesundheitssorgen, Leistungsorientierung) von erheblicher Bedeutung, auf jeden Fall von aktuellem Interesse für die Beschreibung interindividueller Unterschiede sind. Die große Verbreitung – in der Umfrage von Schorr (1995) rangiert das FPI unangefochten auf Platz 1 der Liste »Die zwanzig am häufigsten verwendeten Testverfahren« – spricht dafür, dass das FPI für die Praxis eine nützliche Auswahl von Skalen bietet. Die Messgenauigkeit reicht für gruppenstatistische Untersuchungen aus. Die Validität gegenüber Fremdeinschätzungen reicht in einigen Skalen an die hier üblicherweise beobachteten oberen Grenzen heran. Bei kaum einem anderen Verfahren im deutschsprachigen Raum wird die »Pflege« (Aktualisierung und Nachnormierung) derart intensiv betrieben (nicht weniger als ca. 500 Einzelpublikationen zu den Eigenschaften des Verfahrens), sodass der Benutzer zuversichtlich sein kann, ein dem »Stand der Kunst« entsprechendes Instrument anwenden zu können.

259

3.2 · Persönlichkeitsfragebogen

3

Der 16-Persönlichkeits-Faktoren-Test, Revidierte Fassung 16 PF-R

Schneewind, K. A. & Graf, J. (1998). Bern: Huber Allgemeines. Ausgehend von psycholexikalischen Studien und gestützt auf faktorenanalytische Prinzipien hat Cattell seit Ende der 40er Jahre 16 grundlegende Dimensionen für die Beschreibung von Persönlichkeitsunterschieden propagiert. Der zur Erfassung dieser Dimensionen konzipierte multifaktorielle Fragebogen gehört in den USA zu den am meisten eingesetzten Persönlichkeitstests; er wurde im Laufe der Jahre kontinuierlich aktualisiert und liegt nunmehr bereits in der 5. Aufl. vor. Daran orientiert sich der 16 PF-R. Gegenüber der ersten deutschsprachigen Ausgabe (Schneewind, Schröder & Cattell, 1994, 3. Aufl.) als der unmittelbaren Vorläuferversion sahen die Autoren folgende Neuerungen vor: 1. Für bessere Übersichtlichkeit und zur leichteren Handhabung Verzicht auf bipolare zugunsten unipolarer Benennungen der Skalen (die bipolaren Bezeichnungen finden sich gleichwohl noch auf den Testprofilbogen). 2. Zeitgemäße und geschlechtssensitive Itemformulierungen. 3. Verbessertes Format für solche (»Weiß-nicht-«)Antworten, die aus verschiedenen Gründen von einer Testperson nicht eindeutig im Sinne der Merkmalsausprägung gegeben werden. Diese »mittlere« Alternative erscheint jetzt durchgängig als Fragezeichen, z. B. »Über meine Gefühle spreche ich a) bereitwillig, wenn es andere zu interessieren scheint; b) ?; c) nur, wenn ich es nicht vermeiden kann«. 4. Alle Items zur Erfassung des schlussfolgernden Denkens (Skala B) befinden sich nunmehr im Block am Ende des Testheftes und weisen nur die Antwortkategorien »richtig« und »falsch« auf.

16 grundlegende Dimensionen von Cattell in einem multifaktoriellen Fragebogen

Die wesentlichen Ziele der Neuentwicklung gingen dahin, die Reliabilitäten zu verbessern, umfassendere Validitätsbelege zu erstellen und eine ausreichend breite sowie möglichst repräsentative Normstichprobe zu erheben. Obwohl nur 14% der Items beibehalten wurden, sollte darüber hinaus eine hinreichende Äquivalenz des 16 PF-R zum unmittelbaren Vorgänger gewährleistet sein. Aus der Verfolgung dieses Zieles, das gleichsam der »Quadratur des Kreises« nahe kommt (weil einerseits Veränderungen erwünscht sind, um damit Defizite zu überwinden, sie andererseits aber stören, weil damit die Vergleichbarkeit der mit verschiedenen Instrumenten erhobenen Befunde leidet), resultiert ein mittlerer Korrelationskoeffizient zwischen den einander entsprechenden Skalen von r = .67 (Minimum: .42, Maximum: .86; N = 102 Studierende); ausgehend davon bezeichnen die Autoren »die beiden Versionen als annähernd äquivalent« (Schneewind & Graf, 1998, S. 15) – sicher eine etwas optimistische Feststellung.

Ziele der Neuentwicklung

Neuerungen gegenüber Vorläuferversion

Auch hinreichende Äquivalenz gewährleisten

Konstruktion, Primär- und Globalfaktoren. Ausgehend von einem umfassenderen

Itempool und den Daten von 618 repräsentativ ausgewählten Testpersonen (= Analysestichprobe) orientierte sich die Itemselektion an folgenden Kriterien: a) Eliminierung von Items mit extrem hoher oder niedriger »Schwierigkeit« (P größer als .90 oder kleiner als .10) und wenn die »?-Kategorie« häufiger gewählt worden war als »a« und »b« zusammen;

Vorgehen bei Itemselektion

260

Kapitel 3 · Diagnostische Verfahren

b) Optimierung der internen Konsistenz trotz kürzestmöglicher Skalenlänge; c) Gewährleistung der faktoriellen Validität.

3

16 inhaltliche Skalen 5 Global- oder Sekundärfaktoren

Weitere Skalen zur Erfassung der sozialen Erwünschtheit, Akquieszenz und Infrequenz

Bei den beiden letzteren Kriterien stand offenkundig die Zuordnung von Items zu bestimmten (und nicht etwa anderen Skalen) nicht zur Disposition, d. h. die Items wurden im Hinblick auf ihre Tauglichkeit für jene Skalen geprüft, für die sie formuliert bzw. in früheren Versionen selegiert worden waren. Als Ergebnis konnten 16 inhaltliche Skalen mit 9 bis 13 Items erstellt werden. Die Bezeichnungen für 14 dieser Skalen und ihre Zugehörigkeit zu 5 Global- oder Sekundärfaktoren ist aus . Abb. 3.17 ersichtlich. Die Skalen B (»Schlussfolgerndes Denken«) und L »Wachsamkeit« gehen nicht in die Globalfaktoren ein. Abweichend von der üblichen Darstellung sind die Globalfaktoren nicht auf einer höheren Ebene angeordnet, sondern gleichsam »am Boden«. Dabei stand wohl die Überlegung von Cattell Pate, wonach es sich dabei um »source traits« handelt, im Unterschied zu der den Beobachtungen etwas näheren »surface traits«. Eine weitere Skala (IM, »Impression Management«) umfasst 10 Items und dient der Erfassung von Antworttendenzen im Sinne sozialer Erwünschtheit. Darüber hinaus können 100 Richtig-falsch-Items aus den verschiedenen Skalen in einen Punktwert für Akquieszenz und 51 weitere Items, bei denen einer der Distraktoren in der Analysestichprobe eine Wahlhäufigkeit von weniger als 5% aufwies, in einen Punktwert für Infrequenz umgewandelt werden (hohe Werte stehen demgemäß für ungewöhnliche Antwortmuster; 7 die Personality Research Form). Inwieweit die drei letztgenannten Skalen den Messintentionen auch empirisch entsprechen und etwa die Validität der 16 inhaltlichen Skalen moderieren (in dem Sinne, dass jeweils hohe Scores darin mit niedrigen Validitäten der betreffenden Probanden einhergehen), muss vorerst offen bleiben. Die für die jeweiligen Skalen trennschärfsten Items sind im folgenden Beispiel aufgelistet.

. Abb. 3.17. Primär- und Globalfaktorenstruktur des 16 PF-R. Die Primärskalen B (Logistisches Schlussfolgern) und L (Wachsamkeit) gehen nicht in die Globalfaktoren ein. (Nach Schneewind & Graf, 1998, S. 7)

261

3.2 · Persönlichkeitsfragebogen

Beispiel

Primär-Skalen des 16 PF-R, Cronbachs α und jeweils trennschärfstes Item (unter Angabe der Trennschärfe). Die Alternativantworten sind nicht aufgeführt (meist stimmt – ? – stimmt nicht). Skala A Wärme (α = .68) Nr. 149 Ich gehöre eher zu den Menschen, die auf andere zugehen und den Kontakt mit anderen Menschen genießen. Stimmt. (.47) Skala B Logisches Schlussfolgern (α = .79) Nr. 180 Welche Zahl soll als nächste am Ende dieser Reihe stehen: 1, 4, 9, 16 ? (.56) Skala C Emotionale Stabilität (α = .72) Nr. 98 Ich habe mehr Stimmungsschwankungen als die meisten, die ich kenne. Stimmt nicht. (.46) Skala E Dominanz (α = .73) Nr. 124 Ich gehöre zu den Leuten, die sich nicht so leicht etwas gefallen lassen. Stimmt, ich lasse mir nicht so leicht etwas gefallen. (.48) Skala F Lebhaftigkeit (α = .71) Nr. 48 Ich bin gerne inmitten von Trubel und Aktivität. Stimmt. (.55) Skala G Regelbewusstsein (α = .66) Nr.28 Ich halte es für wichtiger, Regeln und gute Manieren zu respektieren, als unbekümmert und sorglos zu leben. Stimmt. (.46) Nr. 49 Die Menschen sollten stärker darauf bestehen, dass Moralvorschriften eingehalten werden, als sie es momentan tun. Stimmt. (.46) Skala H Soziale Kompetenz (α = .89) Nr. 101 Ich halte mich für kontaktfreudig und selbstsicher im Umgang mit anderen Menschen. Stimmt. (.70) Skala I Empfindsamkeit (α = .76) Nr. 133 Ich habe mich schon immer für technische Dinge, wie Autos und Flugzeuge interessiert. Stimmt nicht. (.49) Skala IM Impression Management (α = .64) Nr. 134 Ich bin manchmal ärgerlich, wenn ich meinen Willen nicht bekomme. Stimmt nicht. (.40) Skala L Wachsamkeit (α = .66) Nr. 171 Wenn man zuviel von sich erzählt, nützen andere das häufig zu ihrem Vorteil aus. Stimmt. (.50) Skala M Abgehobenheit (α = .66) Nr. 32 Ich bin ein Mensch, der in den Tag hinein träumt und sich eigene Dinge ausdenkt. (.37)

6

3

262

Kapitel 3 · Diagnostische Verfahren

Skala N Privatheit (α = .74) Nr. 34 Ich bin eher zurückhaltend und behalte meine Probleme für mich. Stimmt. (.56) Skala O Besorgtheit (α = .78) Nr. 15 Ich neige dazu, zu empfindsam zu sein und mir zu viele Sorgen über etwas zu machen, was ich getan habe. Oft. (.56) Skala Q1 Offenheit für Veränderung (α = .71) Nr. 163 In den meisten Fällen ist es besser Veränderungen und neuen Ideen den Vorrang zu geben. Stimmt. (.51) Skala Q Selbstgenügsamkeit (α = .76) Nr. 168 Ich bin im Allgemeinen eher jemand, der gut für sich allein sein kann. Stimmt. (.54) Skala Q3 Perfektionismus (α = .75) Nr. 42 Ich halte meine Sachen immer in bester Ordnung. Stimmt. (.51) Skala Q4 Anspannung (α = .78) Nr. 105 Wenn etwas nicht nach Wunsch geht werde ich leicht ärgerlich und ungeduldig. Stimmt. (.54)

3

1–3 Rohpunkte pro Item Bestimmung der Globalskalenwerte Kritische Differenzen

Profilvergleiche

Durchführung und Auswertung. Wie bei vielen Fragebogentests üblich werden die Antworten in Antworthefte eingetragen. Die Bearbeitung durch die Testperson dauert etwa 45 min. Die Auswertung erfolgt mit einer Schablone. Antworten im Sinne des Merkmals erhalten zwischen einem und drei Rohpunktwerten. Zu den Globalskalenwerten gelangt man durch Multiplikation der zu einer Globalskala gehörenden Primärskalen-Rohwerte mit Gewichtszahlen zwischen 1 und 7, je nachdem, wie stark die einzelnen Primärskalen zu den Globalfaktoren beitragen. Ausführlich dokumentieren die Autoren auch die für den paarweisen Vergleich zwischen einzelnen Primärund Globalskalen mindest-erforderlichen (»kritischen«) Differenzen. Deren Größe liegt bei ungerichteter Fragestellung, P < 5% und Verwendung der Konsistenzkoeffizienten für die Primärskalen zwischen 1,8 und 3,2, für die Globalskalen zwischen 2,1 und 2,8. Da Dezimalstellen bei den Standardwerten (7 dazu unten Normen) nicht vorgesehen sind, bedeutet das im Regelfall 3 Punkte Differenz zwischen den Werten zweier Skalen, damit die auftretende Differenz als überzufällig gelten kann, vorausgesetzt, die Faktoren sind orthogonal zueinander. Im Mittel aller Vergleiche sind die Primärskalen jedoch zu r = .20 interkorreliert (Gesamtstichprobe). Darüber hinaus finden sich im Manual Hinweise auf Profilvergleiche zwischen individuellen Testprotokollen und solchen zwischen verschiedenen Berufsgruppen sowie bestimmten Merkmalsausprägungen. Ein Beispiel für die zuletzt genannten Vergleiche findet sich in . Abb. 3.18. Normierung. Der Normierung des 16 PF-R liegt eine für Deutschland bevölkerungs-

3 Geschlechtsspezifische Altersgruppen

repräsentative Stichprobe von N = 1.209 Personen zugrunde. Sowohl für die Primär- als auch die Globalskalenwerte liegen Normen in Form von Sten-Werten vor (von engl.: »standard ten«, M = 5,5, s = 2), und zwar getrennt für die Geschlechter und drei Altersgruppen (17–29, 30–49 und >50 Jahre).

263

3.2 · Persönlichkeitsfragebogen

3

niedrige allgemeine soziale Kompetenz hohe allgemeine soziale Kompetenz

. Abb. 3.18. 16 PF-R-Mittelwertprofile für Gruppen mit hoher bzw. niedriger allgemeiner sozialer Kompetenz. (Nach Schneewind & Graf, 1998, S. 55)

Reliabilität. Die internen Koeffizienten sind im Kasten mit den Itembeispielen aufgelistet und reichen bei den Primärskalen von .64 bis .89, mit einem Mittelwert von .74. Auch wenn die Autoren in Bezug darauf von »zufriedenstellend« sprechen (1998, S. 15), scheint hier die Neukonstruktion (zurückhaltend ausgedrückt) keinen substantiellen Fortschritt gebracht zu haben, wofür die Verkürzung einzelner Skalen verantwortlich sein mag. Es gilt deshalb auch für den 16 PF-R, was Bartussek (1988, S. 372) bereits für den Vorläufer feststellte, dass sich nämlich »für einen Großteil der 16 Primärdimensionen des 16 PF noch nicht der Schluss ziehen (lässt), dass diese Skalen ausreichend zuverlässig für Einzeldiagnosen sind.« Daran ändert auch die Beobachtung nur wenig, dass die Testwiederholungskoeffizienten (Intervall ein Monat) im Durchschnitt mit .83 deutlich höher liegen. Validität. Sehr viel Aufwand haben die Autoren bei der Ermittlung der Validität getrie-

ben und damit ein bei der früheren Version bestehendes Defizit behoben. Die 16-Fak-

Nur zufriedenstellende interne Konsistenzen

Hohe Reteststabilitäten Faktorielle Validität bestätigt

264

Kapitel 3 · Diagnostische Verfahren

Zahlreiche Untersuchungen zur Konstruktvalidität

3 Konvergente Validität einiger Skalen mit NEO-FFI-Skalen

toren-Struktur wird damit »bewiesen«, dass sich bei einer Faktorisierung der durch zufällige Aufteilung der Items für jede Primärskala entstandenen Halbskalen eine markante 16-er-Struktur ergibt. Darüber hinaus wurden zur Abklärung der Konstruktvalidität Korrelations-, Regressions- und Faktorenanalysen mit anderen Persönlichkeits-Fragebogen-Systemen durchgeführt, die im vorliegenden Text ebenfalls Erwähnung finden, nämlich FPI-R, PRF, TPF, MMPI und NEO-FFI. Aus der Fülle der dazu vorliegenden Ergebnisse soll hier exemplarisch nur eine gemeinsame Hauptkomponentenanalyse der 16 PF-R-Primär- und der NEO-FFI-Skalen mitgeteilt werden (. Tab. 3.15). Wie ersichtlich, weisen mehrere Skalen eine zu den »Big-Five-Faktoren« des NEOFFI konvergente Validität auf, wobei die Auffächerung des 16 PF-R in mehrere Primärskalen zusätzlich differenziertere Informationen bereitstellt. Mit dem MMPI bestehen wegen dessen andersartiger Zielpopulation (klinisch auffällige Probanden) erwartungsgemäß nur geringfügige Überlappungen. »Im Vergleich zu FPI-R, PRF-KA und TPF-2 vermag der 16 PF-R ein breiteres Spektrum an Persönlichkeitsdimensionen zu erfassen; so finden sich im FPI-R keine markanten Selbstkontroll- oder Unnachgiebigkeitskorrelate, in der PRF-KA keine markanten Ängstlichkeitskorrelate; der TPF-2 ist angelegt auf die Erfassung der zwei Superkonstrukte Seelische Gesundheit und

. Tabelle 3.15. Gemeinsame Hauptkomponentenanalyse (Oblimin) der 16PF-R-Primär- und der NEO-FFI-Skalen (N = 618)

Faktor I

II

III

IV

V

16PF-R-Primärskalen A C E F G H I L M N O Q1 Q2 Q3 Q4

Wärme Emotionale Stabilität Dominanz Lebhaftigkeit Regelbewusstsein Soziale Kompetenz Empfindsamkeit Wachsamkeit Abgehobenheit Privatheit Besorgtheit Offenheit für Veränderung Selbstgenügsamkeit Perfektionismus Anspannung

.67 –.78 .35 .72

.73 .60

.73 .34 .41 .33

.31 –.33

–.58 .42 –.51

.66 .74

–.35 –.74

.77 .81 .73

NEO-FFI-Skalen Neurotizismus Extraversion Offenheit Verträglichkeit Gewissenhaftigkeit

.80 .75 –.86 –.73 .80

Anmerkung. Faktorladungen c p(x i /K A − )

(6.1)

xi = Vektor aller Prädiktoren eines Individuums i. Wird c = 1 gesetzt, ergibt sich die Zuordnung nach dem Prinzip der maximalen Gruppenzugehörigkeitswahrscheinlichkeit. Durch Einsetzen anderer Werte für c lässt sich die Sensitivität zu Lasten der Spezifität und vice versa beeinflussen. Desgleichen können Multiplikatoren von c herangezogen werden, um Kosten-NutzenÜberlegungen mit einzubinden. Bei einer Berücksichtigung der Grundraten muss der Likelihood-Quotient anhand der empirischen Wahrscheinlichkeiten errechnet werden. 4 Regressionstechniken: Durch Einsetzen der individuellen Prädiktionswerte in die für das anstehende Problem ermittelte Regressionsgleichung werden individuelle Kriteriumswerte ermittelt. Die Zuordnung zu den Kategorien erfolgt durch Differenzbildung mit kritischen Kriteriumswerten.

Verschiebung des Entscheidungskriteriums

Minimax

Minimum-Loss

Zuordnungsmethoden

Likelihood-Quotient

408

Kapitel 6 · Zuordnungs- und Klassifikationsstrategien

4 Diskriminanzanalyse: Das Verfahren ist demjenigen der multiplen Regression ver-

gleichbar, nur noch einfacher. Denn durch Einsetzen der individuellen Testwerte in die Diskriminanzfunktion resultiert ein Wert, der entweder größer, gleich oder kleiner ist als der kritische Diskriminationswert, der die Klassen voneinander trennt. Entsprechend kann anhand des individuellen Diskriminationswertes unmittelbar die Zuordnung zu einer der Gruppen vorgenommen werden. 4 Ähnlichkeits- bzw. Distanzmaße: Häufig wird ein individuelles Testwerteprofil mit dem durchschnittlichen Profil verschiedener Gruppen von Personen (z. B. Schülern des sprachlichen oder mathematischen Zweiges; Angehörigen verschiedener Berufe; erfolgreichen und nichterfolgreichen Stelleninhabern usw.) verglichen. Dafür stehen verschiedene Maße zur Verfügung, z. B. das Ähnlichkeitsmaß (Euklidische Distanz) von Osgood und Suci (1952): D = ∑d j 2

Euklidische Distanz

6

(6.2)

dj = Profildifferenz von 2 Probanden (oder Gruppen von Merkmalsträgern) in einem Test. Desgleichen ist die von Lienert (1989) adaptierte Cattellsche Formel gebräuchlich: ri =

Cattellsche Formel

2 ⋅ χ 0,5( k )2σ 2 − D2 2 ⋅ χ 0,5( k )2σ 2 + D2

(6.3)

k = Anzahl der Freiheitsgrade, σ = Standardabweichung der Profilnormen. Je nachdem, zu welchem der Gruppenvergleichsprofile die größere Ähnlichkeit bzw. geringere Distanz besteht, geschieht die Zuordnung des Einzelfalles. Allerdings setzt die Berechnung der Distanz D die Unabhängigkeit der Prädiktoren voraus, die nur in den wenigsten Fällen vorliegen dürfte. Die Mahalanobis-Distanz als Verallgemeinerung der Euklidischen Distanz verlangt diese Voraussetzung nicht (zu den Details und Einschränkungen s. Kallus & Janke, 1992). 6.5

ROC-Kurve: Unabhängige Bestimmung von Spezifität und Sensitivität

Festsetzung von Testtrennwerten

Aus der Beschäftigung mit den positiven Prädiktions- oder Vorhersagewerten bzw. dem selektiven Eignungsquotienten im vorangegangenen Abschnitt ist bekannt, dass sich diese Größen durch Verschiebung des Trennwertes vergleichsweise einfach verändern lassen: Je weiter der kritische Cut-off in Richtung auf das zu identifizierende Merkmal (z. B. Krankheit oder Eignung) hin angehoben wird, um so höher fallen die besagten Quotienten aus. Allerdings wird damit nur der Fehler einer falsch positiven Entscheidung (FP, . Abb. 6.9) ins Kalkül gezogen, nicht aber derjenige der falsch negativen. Zudem sind für die Festlegung des Testtrennwertes die Grundrate bzw. der natürliche Eignungsquotient von Bedeutung. Mit Hilfe der sog. ROC-Kurve (von Receiver-Operating Characteristic aus der Signal-Entdeckungs-Theorie; s. Schäfer, 1989) lassen sich simultan Spezifität und Sensitivität unabhängig von den Basisraten für verschiedene Testtrennwerte bestimmen, sofern aufgrund empirischer Untersuchungen die Verteilungskennwerte der unterschiedlichen Gruppen ermittelt werden konnten. In

409

6.5 · Festsetzung von Testtrennwerten

6

ROC- Kurve 1,0

Verteilung der negativen bzw. ungeeigneten Personen

Testwert z. B. IQ a

x1

x2

x3

x1

Sensitivität

Verteilung der positiven bzw. geeigneten Personen

x2 x3

0,0

Fehlerrate = 1 - Spezifität

1,0

b

mögliche Cut-off-Werte

. Abb. 6.10a,b. Verteilungen von 2 Gruppen unterschiedlicher Eignung (a) für die eingetragenen Optionen möglicher Trennwerte (b) und ROC-Kurve (Aus Noack & Petermann, 1992, S. 300)

. Abb. 6.10a und b ist dafür ein Beispiel gegeben. Auf der Abszisse ist nicht die Spezi-

fität, sondern die Rate Falsch-Positiver (=1-Spezifität) abgetragen. Wie ersichtlich, geht mit der Heraufsetzung des Testtrennwertes von X1 über X2 nach X3 ein Rückgang der Fehlerrate vom Typ 1, FP (d. h. eine Zunahme an Spezifität) sowie eine Zunahme der Fehler vom Typ 2, FN (d. h. eine Abnahme der Sensitivität) einher. Damit sind die betreffenden Kennwerte zwar »unter einen Hut gebracht«, doch bedarf es auch in solchen Fällen einer zusätzlichen Bewertung der einzelnen Ausgänge und Fehlermöglichkeiten, die völlig unabhängig von methodischen Zugängen ist. Wieczerkowski und Oeveste (1982, S. 929) zitieren ein Beispiel aus der Literatur zum Zusammenhang zwischen einem Prädiktor und dem Erfolg im Studium. Zwingen etwa die Kosten für die Ausbildung und knappe öffentliche Gelder dazu, das Risiko des Scheiterns möglichst niedrig zu halten, würden nur Bewerber zugelassen, bei denen die Wahrscheinlichkeit für Erfolg bei – sagen wir – 75% liegt; das hätte einen Trennwert von 112 zur Folge. Sprächen aber gesellschaftliche Werte und pädagogisch relevante Gründe dafür, den Schülern eine möglichst große Wahlfreiheit einzuräumen, könnte man sich auch mit einer nur ca. 25%igen Erfolgsaussicht zufrieden geben, was einem Trennwert von 82 entspräche. Im ersten Entscheidungsfall würde die Zahl fälschlich zugelassener Schüler verringert, aber der Anteil fälschlich abgewiesener erhöht, im zweiten der Anteil fälschlich abgewiesener vermindert und die größere Rate fälschlich zugelassener in Kauf genommen. »Die Festsetzung kritischer Trennwerte stellt somit ein Problem dar, für das es eine eindeutige Lösung nicht gibt, weil sie zugleich ein Werturteil erfordert, das nicht allein wissenschaftlich begründbar ist, sondern stets auch auf persönlichen, sozialen und ökonomischen Werten sowie auf praktischen Erwägungen beruht« (Wieczerkowski & Oeveste, 1982, S. 929f.).

Die engen Beziehungen zur Fairness-Problematik liegen auf der Hand (7 Abschn. 2.3.2.2).

Komplementäre Veränderung der Fehler Zusätzliche Bewertung der möglichen Ausgänge

Kritische Trennwerte beinhalten Werturteile

410

Kapitel 6 · Zuordnungs- und Klassifikationsstrategien

6.6

Gewinne bei richtigen Entscheidungen

6

Nutzenfunktionen Strategiematrix

Nutzenerwägungen

Institutionelle und individuelle Entscheidungen werden getroffen, weil sich die jeweiligen Organisationen bzw. Personen im Fall richtiger Entscheidungen etwas davon versprechen, nicht zuletzt positive ökonomische Auswirkungen, also Gewinne, während bei falschen Entscheidungen die Gefahr von Verlusten droht. So mögen sich für ein Unternehmen die erheblichen Investitionen für das Auffinden, Abwerben und Einstellen einer fähigen Führungskraft um ein Vielfaches wieder auszahlen, wenn es die richtige Wahl war. Umgekehrt kann eine krasse Fehlbesetzung an wichtiger Stelle den Konzern an den Rand des Ruins bringen, wie viele Beispiele aus der Gegenwart anschaulich vor Augen führen. Auch individuelle Entscheidungen für Ausbildung und Beruf können sich in »Mark und Pfennig« bemerkbar machen, weil bei richtigen Entscheidungen unter sonst gleichen Voraussetzungen ein vergleichsweise höherer Erfolg als bei falschen zu erwarten steht. Cronbach und Gleser (1965) haben diese ökonomische Dimension bei institutionellen Entscheidungen formalisiert und Nutzenfunktionen entwickelt, mit deren Hilfe sich der Gesamtnutzen einer Entscheidungsstrategie bestimmen lässt. Dafür ist eine sog. Strategiematrix unabdingbare Voraussetzung. In ihr sind die Regeln festgehalten, nach denen auf der Basis von diagnostischen Informationen Entscheidungen getroffen werden sollen. Die Werte einer solchen Matrix geben die Wahrscheinlichkeit an, mit der ein Proband, von dem die Information xr vorliegt, der Behandlung t zugeführt wird: p(t|xr). In . Tab. 6.3 ist ein Beispiel für eine solche Strategiematrix wiedergegeben. Wie ersichtlich, verlangt die Strategie in der diskreten Formulierung, dass bei überdurchschnittlichen Schulnoten der Proband akzeptiert, bei unterdurchschnittlichen dagegen weiter untersucht wird. Im Fall der IQ-Testung ist eine solche investigatorische Entscheidung nicht vorgesehen. Anstelle der imperativen 0/1-Regel sind auch probabilistische Verknüpfungen möglich, wie sie im rechten Teil der Tabelle angegeben sind.

. Tabelle 6.3. Strategiematrix für zwei unterschiedliche Informationsquellen und dichotome bzw. kontinuierlich abgestufte Entscheidungswahrscheinlichkeiten

Informationsquelle

Informationsklassen r

Entscheidungen t alternativ +

Schulnotena

Intelligenzquotient

b



probabilistisch c

d

!

+



!

> 2,5

1

0

0

.80

.10

.10

≤ 2,5

0

0

1

.00

.20

.80

> xiTe

1

0

0

.90

.05

.05

≤ xiTe

0

1

0

.05

.95

.00

Anmerkung. a Hohe Schulnoten stehen hier für gute Leistungen. b + = Akzeptieren (terminal). c - = Ablehnen (terminal) d ! = weitere Informationen einholen (investigatorisch). e x = Testtrennwert. iT

411

6.6 · Nutzenerwägungen

. Tabelle 6.4. Beispiel einer Validitätsmatrix für die Behandlung tA (Annahme), zwei Informations- und drei Kriteriumsklassen. In den Feldern der Matrix bedingte Wahrscheinlichkeiten für das Eintreten der Ereignisse

Informationsklassen

Kriteriumsklassen C

Testwerte

erfolgreich (1)

weniger erfolgreich (2)

nicht erfolgreich (3)

>xiTe

p(1/1t)

.25

p(2/1t)

.20

p(3/1t)

.05

.50

≤xiTe

p(1/2t)

.10

p(2/2t)

.15

p(3/2t)

.25

.50

.30

1.00

.35

Summe

.35

Darüber hinaus bedarf es einer Verknüpfung zwischen den vorgenommenen Behandlungen und deren Ergebnis, gleichsam dem Erfolg im Kriterium. Diese Verknüpfung wird festgehalten in der sog. Validitätsmatrix. Deren Einträge geben die Wahrscheinlichkeit dafür an, dass ein Proband mit xr und der Behandlung t den Kriteriumswert cr erlangt: p(c|xr,t). Die Kriteriumswerte können im einfachsten Fall dichotome Kategorien (erfolgreich/nicht erfolgreich; gesund/krank) bilden; möglich sind auch kontinuierliche Abstufungen. . Tabelle 6.4 gibt ein Beispiel für eine Validitätsmatrix. Analoge Matrizen müssten auch für die beiden anderen Behandlungen in . Tab. 6.3 angefertigt werden. (Daraus werden bereits die empirischen Schwierigkeiten deutlich, denn die Abgelehnten kommen möglicherweise auf einem anderen Weg, z. B. in einer anderen Schule, doch zum Erfolg.) Schließlich ist es erforderlich, jeder Kriteriumsklasse C einen Nutzenvektor ec und jeder Informationsklasse einen Kostenvektor cc zuzuordnen. Der Nutzen ist der Wert, der sich bei jeder Stufe des Kriteriums für die auslesende Institution ergibt; die Kosten gelten den Aufwendungen, die zur Gewinnung der jeweiligen Information notwendig sind. Eine erfolgreiche Führungskraft, eingestellt im Alter von 45 Jahren, kann dem Unternehmen vielleicht 500.000 € wert sein (jährliches Gehalt von 100 000 € mal 20 absehbare Berufsjahre. Vermutlich stellt dieser Ansatz jedoch eine Unterschätzung dar, weil der Mitarbeiter angeworben wurde, um den Profit des Unternehmens zu mehren, er also »mehr wert« ist, als es seinem Gehalt entspricht) und eine mäßig erfolgreiche Kraft vielleicht nur die Hälfte, während ein Versager mit einem Minusbetrag von angenommen 500.000 € zu Buche schlägt. Wichtig ist, dass Nutzen und Kosten auf derselben Skala abgetragen sein und mindestens Intervallniveau aufweisen müssen. Für monetäre Einheiten, also Geld, sind diese Erfordernisse erfüllt. Gestützt auf die Eintragungen in der Strategiematrix und den Validitätsmatrizen sowie die Werte des Nutzen- und Kostenvektors lässt sich die folgende nichtparametrische Nutzenfunktion aufstellen (nach Crombach & Gleser, 1965, S. 24): III     U = N∑p(x r )∑p(t|x r )∑p(c|x r ,t )ec − N∑p(x r ) ⋅ cr r t c r      IV I   II

U ec

= Utility, = Nutzen der Kriteriumsleistung c,

(6.4)

Validitätsmatrix

Vektoren für Nutzen und Kosten

Voraussetzungen: Intervall-Skalen-Niveau

6

412

Kapitel 6 · Zuordnungs- und Klassifikationsstrategien

p(c|xr,t) p(t|xr) p(xr) cr N I II III IV

Nettonutzen einer Strategie

6

= Wert aus der Validitätsmatrix für die Behandlung t, = Wert aus der Strategiematrix, = Wahrscheinlichkeit der Informationsklasse r, = Kosten für die Einholung der Information r, = Anzahl der Probanden, auf die die Strategie angewendet wird, = erwarteter Nutzen eines Individuums im Kriterium, wenn es sich in Informationsklasse r befindet und es der Behandlung t zugeführt wird, = erwarteter Nutzen eines Individuums in der Informationsklasse r, = erwarteter Nutzen eines Individuums (= Mittelwert über Kriteriumsklassen, Behandlungen und Informationsklassen), = erwartete Kosten zur Informationseinholung über einen Probanden.

Wenn Nutzen und Kosten mit der Zahl der untersuchten Probanden multipliziert werden, so ergibt die Formel den erwarteten Nettonutzen einer Strategie, insoweit diese auf eine Gruppe von N Individuen angewendet wird. Werden für die Informations- und Kriteriumskategorien Kontinuitätsannahmen gemacht, konstante Kosten für alle Probanden unterstellt und eine lineare Beziehung zwischen Testwerten und Nutzen angenommen, dann geht das Modell in dasjenige von Brogden (1949) über. Dessen zentrale Formel lautet: U = N ⋅ s e ⋅ rxe V( xiT) + N ⋅ φ( xiT) e t ( A ) − NC x

Nutzenmodell von Brodgen

et(A) se rxe V(xiT)

φ(xiT) C

(6.5)

= durchschnittlicher Nutzen, den ein Proband bei Treatment A (Annahme) der Institution bringt, = Streuung der erwarteten Nutzenwerte, = Korrelation zwischen Prädiktor und (Nutzenunterschieden im) Kriterium, et(A), se, rxe müssen vor der Testanwendung in der Grundgesamtheit bestimmt werden, = Ordinate der Standardnormalverteilung im (standardisierten) Testtrennwert xiT, = Selektionsrate beim Trennwert xiT, = Kosten.

Der A-priori-Nutzen ist jener, der daraus resultiert, wenn N · φ(xiT) Personen aus der Grundgesamtheit durch Zufall ausgewählt werden: A-priori-Nutzen

U o = Nφ( xiT) e t ( A )

(6.6)

Der Nutzen durch Anwendung des Tests (Nettonutzen) an N Probanden bemisst sich deshalb als Netto-Nutzen

U − U o = N ⋅ s e ⋅ rxe ⋅ V( xiT) − NC x

(6.7)

Geteilt durch die Zahl der getesteten Probanden, erhält man den Nettonutzen »per man tested« (Cronbach & Gleser, 1965, S. 308), also pro untersuchte Person. Wie aus den Gleichungen hervorgeht, spielen die Validität des Tests, die Variabilität der Nutzen und die Selektionsquote für den Nutzen eine Rolle; wenn beispielsweise die Selektionsquote extrem hoch oder niedrig ist, kann auch der Einsatz eines hochvaliden Tests keinen Nutzen bringen.

413

6.6 · Nutzenerwägungen

Zwischenzeitlich sind die geschilderten Modelle unter anderem durch die Berücksichtigung des Zeitfaktors und des Kalkulationszinsfußes sowie den Einfluss der Gewinnsteuern und die Diskontierung für sofort anfallende Kosten präzisiert worden (s. die Übersicht bei Boudreau, 1991). Auch sind wesentliche Fortschritte erzielt worden bei der Methodik zur Bestimmung der Leistungsstreuung. Die Voraussetzung des linearen Zusammenhanges zwischen Prädiktor und Nutzen wird vielfach nicht erfüllt sein. Etwa ist denkbar, dass an Probanden gewisse Mindestanforderungen gestellt werden müssen, d. h. erst ab einem bestimmten Testwert steigt die Regressionsgerade sprunghaft an. Auch sind Gegebenheiten leicht vorstellbar, bei denen eine umgekehrt U-förmige Regressionslinie besteht, weil vielleicht die im Test besonders leistungsfähigen Probanden durch die auszuführende Tätigkeit unterfordert werden und deshalb mäßigere Kriteriumsleistungen erbringen. Abgesehen von diesen spezifischen Gesichtspunkten bereitet es größte Schwierigkeiten, die Werte für die Validitätsmatrizen zu erhalten, denn es darf für deren Bestimmung keine vorherige Selektion gemäß der Entscheidungsstrategie vorgenommen worden sein, oder mit anderen Worten: Die in Betracht kommenden Personen hätten (nach Zufall) auf die vorhandenen Treatments aufgeteilt und längsschnittlich begleitet werden müssen, um die Erfolgsraten adäquat ermitteln zu können. Neben diesem Grundsatzproblem stellt sich die Bestimmung der Geldwertäquivalente als vergleichsweise einfach dar. Zumindest die Kosten scheinen hier auf den ersten Blick in den Griff zu bekommen sein (. Abb. 6.11), weil leicht zu eruieren ist, was man für den Test selbst sowie für dessen Administration und Auswertung bezahlen muss. Korrekterweise müssten allerdings auch die Aufwendungen für die Entwicklung eines Verfahrens und die Ausbildung des Diagnostikers umgelegt werden. Schwerer zu beziffern ist dagegen der Verlust, der bei (richtiger oder fälschlicher) Abweisung entsteht. Cronbach und Gleser (1965, S. 36 ff.) stellen im Hinblick darauf lapidar fest:

6

Linearität des Zusammenhanges

Bestimmung der Geldwertäquivalente

. Abb. 6.11. Die praktischen und finanziellen Konsequenzen einer »Fehlbesetzung« von verantwortungsvollen Positionen können beträchtlich sein

414

Kapitel 6 · Zuordnungs- und Klassifikationsstrategien

»Die Entscheidung, einen Bewerber zurückzuweisen, bedeutet meist, dass er keinen weiteren Kontakt mit der Institution hat. Wir können daher das Ergebnis einer solchen Entscheidung so betrachten, als habe es einen Wert von Null.«

Individuelle und gesellschaftliche Kosten und Nutzen

6 Kostensenkung durch Psychotherapie Kalkulation der Nutzenwerte

Dies ist ein sehr einfacher Ansatz, der der bisherigen Praxis in Institutionen allerdings wohl noch am besten gerecht wird. Betriebswirtschaftlich müsste man von Opportunitätskosten sprechen im Sinne eines dadurch entgangenen Gewinns, dass ein geeigneter Bewerber fälschlicherweise nicht angenommen worden ist. Für den Bildungsbereich und auch für therapeutische Zwecke ist eine direkte Übertragung eines solchen Ansatzes, der die institutionelle Perspektive verfolgt, nicht prinzipiell ausgeschlossen, selbst wenn weiterhin eine angemessene Berücksichtigung auch der individuellen Kosten und Nutzen in den Modellen nicht geleistet wird. In gewissen Grenzen müssen zudem individuelle Verluste als gesellschaftliche Kosten verstanden werden, weil in einem Sozialstaat der Einzelne nicht einfach seinem Schicksal überlassen bleibt, auch wenn er von einer oder mehreren Institutionen abgewiesen wurde. In einem solchen Sinne und unter Heranziehung von Anhaltspunkten über die Effektivität eines Trainings bzw. die relative Wirksamkeit einer Behandlung konnte gezeigt werden, dass sich durch psychotherapeutische Intervention bei Alkoholismus, bei Asthma bronchiale, Angst- und Panikattacken sowie psychosomatischen Störungen die Kosten, die anderenfalls durch Inanspruchnahme von stationären medizinischen Diensten, Arbeitsunfähigkeit und Frühberentung entstanden wären, in ganz erheblicher Weise senken ließen (7 die Übersicht bei Amelang, 1999). Die Kalkulation der Nutzenwerte ist bei elementaren Leistungen (wie z. B. Stückzahlen im Akkord oder am Fließband) noch vergleichsweise einfach, bereitet aber auch bei komplexeren Tätigkeiten keine unüberwindlichen Schwierigkeiten. So war in der Studie von Brandstätter (1970) die durchschnittliche Gesamtleistung der nach Schulzeugnis und psychologischen Tests ausgewählten Rechtspfleger um ca. 16.000 DM nützlicher als die Durchschnittsleistung der nur nach dem Schulzeugnis ausgewählten Bewerber - doch orientierte sich die Untersuchung am Erfolg in der Ausbildung und nicht demjenigen in der beruflichen Praxis. Gösslbauer (1981) beziffert den Nutzen der Auswahl für Studienplätze auf den negativen Betrag von U = –115.700.000 DM. Demgegenüber erzielte ein biographischer Fragebogen, der zur Auswahl von Mitarbeitern einer Versicherungsgesellschaft benutzt wurde und eine inkrementelle Validität von nur r = .18 im Vergleich zu den Daten aus den Bewerbungsunterlagen und Erstgesprächen aufwies, für 3 Anwendungsperioden und 4 Jahre Wirkung einer Anwendung einen Netto-Barwert-Nutzen von nicht weniger als einer halben Million DM; das Verhältnis von Kosten zu Erträgen lag bei 1:5 (s. Barthel & Schuler, 1989). Für ein neues Auswahlverfahren in Forschung und Entwicklung ermittelten Schuler, Funke, Moser und Donat (1995) selbst unter der Annahme ungünstigster Bedingungen (Durchführung nur eines Assessment Centers pro Jahr mit 10 Bewerbern, von denen die Hälfte angenommen würde; inkrementelle Validität r = .20) noch einen Gewinn von nahezu 100.000 DM für das Unternehmen. Weitere Anwendungsbeispiele finden sich bei Weinstein und Fineberg (1980). Hunter und Schmidt (1992) haben die beträchtlichen Auswirkungen auf die Produktivität einer ganzen Nation herausgestellt, wenn die Arbeitsplätze auf den unterschiedlichen Ebenen der Beschäftigungshierarchien nach Gesichtspunkten einer optimierten Platzierung vergeben werden. Ein anderer Ansatz zur Schätzung des Nutzens bezieht sich nicht auf die Parameter der Cronbach- und Gleser-Gleichungen, sondern geht von einer durchschnittlichen volkswirtschaftlichen Wertschöpfung jedes unselbstständig Beschäftigten von ca.

415

6.7 · Abschließende Bemerkungen

60.000 DM aus. Nimmt man nur eine Leistungssteigerung von 5% durch den Einsatz psychologischer Diagnostik an (eine Marge, die unschwer zu erreichen sein dürfte), so ergibt sich daraus ein Nutzen von 3.000 DM pro Besetzungsentscheidung und Jahr oder – für den Fall einer 10jährigen Verweildauer auf der neuen Position – von 30.000 DM für jeden psychodiagnostisch ausgewählten Mitarbeiter. Davon müssen zwar die Investitionen und die Kapitalverzinsung eines Unternehmens für die Anstellung eines Psychologen sowie die für dessen Arbeit notwendigen zusätzlichen Ressourcen abgezogen werden, doch verbleibt immer noch ein Netto-Überschuss in zweistelliger Milliardenhöhe für die Volkswirtschaft durch psychodiagnostische Eignungsauswahl (Wottawa, 1997).

6

Erwiesener Nutzen von psychodiagnostischer Eignungsauswahl für Volkswirtschaft

Fazit Insgesamt handelt es sich bei den Nutzenfunktionen um einen eminent wichtigen Beitrag, der die psychologische Diagnostik um die ökonomische Dimension erweitert. Sie wird in einer Zeit zunehmenden Wettbewerbes in allen Bereichen menschlichen Handelns eine weiter wachsende Bedeutung erfahren. So überzeugend die vorgetragenen Überlegungen und Modelle auch sind, wirft die konkrete Ermittlung der relevanten Parameter doch schwierige Fragen auf. Deren Beantwortung geschieht in weitem Maße auf höchst unsicherer Grundlage, so dass es sich bei dem Gewinn an Präzision durch Anwendung der Formeln partiell um eine nur scheinbare Genauigkeit handelt. Davon abgesehen lenken die Modelle von Cronbach und Gleser (1965) den Blick auf die Notwendigkeit, dass sich psychologische Diagnostik im weitesten Sinne auch »rechnen« lassen muss. Dabei ist es aber dringend geboten, die institutionelle Perspektive durch die individuelle zu ergänzen.

6.7

Abschließende Bemerkungen

Entscheidungstheoretische Prinzipien haben in der psychologischen Praxis bislang keine breite Anwendung erfahren. Das liegt unter anderem daran, dass beispielsweise im klinisch-therapeutischen Alltag, z. T. aber auch im Bildungswesen - abgesehen von Grobkategorien wie Gesprächs- oder Verhaltenstherapie, ambulant oder stationär vorgenommene Behandlungen usw. - keine klar abgrenzbaren Treatments vorliegen. Die einzelnen Behandlungen können zudem in der Interaktion von Therapeut und Klient individuell abgewandelt werden, so dass es eine unüberschaubare Zahl von Interventionsmöglichkeiten gibt, für die die Erfolgschancen im einzelnen unmöglich ermittelt werden können. Gleiches gilt für die noch vorgeordnete Problematik einer Quantifizierung bedingter Wahrscheinlichkeiten für die Zugehörigkeit zu einzelnen Klassen. Angesichts dieser grundsätzlichen Probleme verlassen sich viele Praktiker bei der Bewältigung der einzelnen Fälle auf ihre »Erfahrung« und verschreiben sich somit mehr den sog. klinischen als den statistischen Verfahrensweisen. Ein Ansatz, dabei wenigstens Nutzenerwägungen praktisch umsetzen zu können, besteht in der sog. MAUT-Technik (Multi-Attributive Utility-Technique; s. Slovic et al., 1977). Dabei werden alle bedeutsam erscheinenden Aspekte von Nutzen (und nicht nur der ökonomische) zunächst generiert und im Hinblick auf ihre Wichtigkeit eingeschätzt. Das Produkt aus relativer Wichtigkeit eines Aspektes und aus dem Nutzen der Alternativen für diesen Aspekt wird für jede Behandlungsalternative errechnet. Der höchste Wert gibt den Ausschlag dafür, welche Intervention angewendet wird.

Entscheidungstheoretische Prinzipien bisher kaum angewandt

MAUT-Technik

416

Kapitel 6 · Zuordnungs- und Klassifikationsstrategien

Übungsfragen ? 1. Was wird im Rahmen von

! Ad 1. Eine Entscheidung ist institutioneller Art, wenn eine Organi-

diagnostischen Entscheidungen unter solchen von institutioneller und individueller Art verstanden?

sation nach einem standardisierten Vorgehen alle Personen in der gleichen Weise einem Verfahren unterzieht, dessen Ergebnisse dann für die »Behandlung« (Erhalt einer Arbeitsstelle, Zuordnung zu einer Unterrichtseinheit etc.) relevant sind. In solchen Fällen wird eine Entscheidungsregel gesucht, die den Nutzen vieler (gleichartiger) Entscheidungen über alle Entscheidungssituationen hinweg maximiert, und zwar für die Institution, die die Eignungsprüfung organisiert. Anders gelagert ist die Entscheidung individueller Art, bei der ein Individuum auf eine Institution zugeht (Berufsberatung etc.) und dort je nach Biographie, Vorkenntnissen oder Beschwerden ein spezifisches Untersuchungsprogramm zusammengestellt wird mit dem Ziel, die beste Handlungsalternative für die anfragende Person herauszufinden. Es interessiert also der individuelle Nutzen. Ad 2. Bei einer kompensatorischen Entscheidungsstrategie kann ein globaler Prädiktionswert durch verschiedene Merkmalskonfigurationen in den Einzeltests erreicht werden. Niedrige Leistungen in einigen Prädiktoren können durch hohe Leistungen in anderen wettgemacht werden. Kompensatorische Strategien sind jedoch dort dysfunktional, wo in jedem Teilbereich bestimmte Mindestleistungen unabdingbar vorliegen müssen, um eine Tätigkeit erfolgreich ausführen zu können. Bei einer konjunktiven Entscheidungsstrategie besteht also die Forderung nach guten Leistungen in dem einen und dem anderen Bereich. Ad 3. Man unterscheidet die »nichtsequentielle Batterie« und den »single screen«. Innerhalb des sequentiellen Vorgehens sind die 3 Grundmuster »Vorauswahl«, »Vorentscheidungsstrategie« und »vollständige sequentielle Strategie« möglich. Ein Beispiel für die Vorentscheidungsstrategie ist das ehemalige Verfahren bei der Zulassung zum Medizinstudium, das einige Elemente der Strategie enthält: Ein bestimmtes Kontingent der Plätze wurde für die nach Schulnoten Besten reserviert, des Weiteren ein Kontingent für diejenigen Teilnehmer des TMS mit den besten Ergebnissen. Für die restlichen Bewerber galt ein Zulassungsschlüssel, in den Schulnoten und Testergebnisse mit unterschiedlichen Gewichtszahlen eingingen. Ad 4. Das Prinzip besteht darin, das Modell der statistischen Hypothesenprüfung auf die Klassenzuordnungsentscheidung anzuwenden. In Analogie zur Festlegung des kritischen Wertes der Teststatistik bei der Hypothesenprüfung wird das Entscheidungskriterium so verschoben, dass das Risiko für den Fehler erster Art unterhalb eines frei bestimmbaren Wertes liegt (z. B. α< 0,05). Diese Vorgehensweise ist jedoch nur in solchen Situationen angebracht, in denen Fehlentscheidungen zweiter Art vergleichsweise unbedeutend sind, da mit der Reduzierung des Fehlers erster Art derjenige zweiter Art in einem unbekannten Masse wächst.

6 2. Was zeichnet kompensatorische und konjunktive Entscheidungsstrategien aus?

3. Welche 5 Entscheidungsstrategien unterscheidet man in der diagnostischen Praxis? Geben Sie ein Beispiel!

4. Worin besteht das Neyman-Pearson-Kriterium?

417

6.7 · Abschließende Bemerkungen

5. Wozu dient die »ROCKurve«?

6

Ad 5. ROC bedeutet Receiver-Operating-Characteristic und kommt

aus der Signal-Entdeckungs-Theorie. Damit lassen sich simultan Spezifität und Sensitivität unabhängig von den Basisraten für verschiedene Testtrennwerte bestimmen, sofern aufgrund empirischer Untersuchungen die Verteilungskennwerte der unterschiedenen Gruppen ermittelt werden konnten.

7 7 Probleme und Differenzierungen von Prognosen 7.1

Kontextuale Faktoren und technische Verbesserungen – 420

7.1.1 7.1.2 7.1.3 7.1.4

Verhaltensvariabilität – 420 Aktuelle Selbstaufmerksamkeit – 423 Aggregation von Maßen – 424 Validität ohne Stabilität – 425

7.2

Moderation: Identifikation von Personengruppen mit einer besonders hohen Vorhersagbarkeit – 427

7.3

Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression – 432

420

Kapitel 7 · Probleme und Differenzierungen von Prognosen

7.1

Kontextuale Faktoren und technische Verbesserungen

7.1.1 Verhaltensvariabilität

Situativer Druck führt zu Verhaltenskonformität

7

Bestimmte Situationen engen den Verhaltensspielraum in einem Maße ein, dass interindividuelle Unterschiede nahezu verschwinden. Damit aber droht der Ansatz sinnfrei zu werden, auf der Basis von Eigenschaftsmaßen Vorhersagen und Varianzaufklärung vornehmen zu wollen. So stellt z. B. Rotlicht bei Verkehrsampeln für alle Kraftfahrer einen »starken« Stimulus mit hohem Uniformitätsdruck dar. Ähnlich verhält es sich mit dem Erscheinen des Pfarrers in der Kirche oder dem Heben des Taktstocks durch den Dirigenten, was i. Allg. alle Unterhaltungen binnen kurzem verstummen lässt. Diese Erwartung konformer Verhaltensweisen kann auch zum Konzept von prototypischen Situationen gewendet bzw. verallgemeinert werden (s. Schutte et al., 1985), die ganz spezifische Verhaltensmuster nahelegen bzw. mit unterschiedlich starkem Nachdruck verlangen (. Abb. 7.1a–c). Wenn dabei allerdings der situative Druck soweit geht, traitgeleitete Unterschiede in Handlungstendenzen obsolet zu machen (Stagner, 1977), schwindet die individuelle Variabilität und damit die Aussicht, diese durch Testmaße aufklären zu können. Vielmehr verlangt der eigenschaftstheoretische Ansatz außerhalb des Leistungsbereiches zwingend solche Situationen, die eher schwach oder uneindeutig strukturiert sind und für verschiedene Individuen eine unterschiedliche Bedeutung aufweisen. Diese Forderung gilt gleichermaßen für die Erhebung von Prädiktor- wie von Kriteriumsmaßen. ! Besteht in einer gegebenen Situation ein hoher Druck, ein bestimmtes Verhal-

ten zu zeigen, schwinden traitgeleitete individuelle Verhaltensunterschiede. Projektive Tests: Individuelles Verhalten angeregt Auslesesituation: Konformes Verhalten angeregt

Beispiel: Extravertiertes Verhalten unter hohem vs. niedrigem situativem Druck

Bei projektiven Tests, wie den Klecksbildern von Rorschach (o.J.), den Bildern des Thematischen Apperzeptionstests von Murray (1936) oder den Aufnahmen des FotoHandtests von Belschner (1970), sind bereits die Wahrnehmungsvorlagen unbestimmt oder unscharf, um auf diese Weise den Probanden einen höchstmöglichen Spielraum für ihre persönlichkeitseigene »Deutung« einzuräumen. Umgekehrt üben Konkurrenz- und Auslesesituationen für die Beantwortung von Persönlichkeitsfragebogen offenkundig einen so massiven Druck im Hinblick auf die Abgabe sozial erwünschter Antworten aus, dass die Testwerte für die ins Auge gefassten Ziele unbrauchbar sind. (In dieser Hinsicht sind Leistungstests den Persönlichkeitsfragebogen grundsätzlich überlegen: Man kann darin nicht »nach oben« schwindeln, d. h. einen fähigeren Eindruck erwecken, als es aufgrund der individuellen Kompetenzen möglich ist.) Monson et al. (1982) sind diesem Aspekt gezielt nachgegangen. In 2 experimentell realisierten Bedingungen bestand für die Versuchspersonen ein hoher situativer Druck in Richtung auf extravertiertes bzw. introvertiertes Verhalten; eine dritte Situation war diesbezüglich neutral. Mit der von unabhängigen Beurteilern eingeschätzten Gesprächigkeit der Versuchspersonen während der experimentellen Aufgabe korrelierten die präexperimentell (also unter diagnostischen Standardbedingungen) erhobenen Extraversionswerte numerisch nur unter jener Situation befriedigend und signifikant (r=.56 gegenüber .18 und .38), die für die Versuchspersonen unbestimmt und mehrdeutig war. Dieser Effekt war, wie nicht anders zu erwarten, hauptsächlich durch die zwangsbedingt verminderte Streuung der Kriteriumswerte verursacht. In einer zweiten Studie der Autoren fungierten insgesamt 4 Papier- und Bleistiftszenarien als Kriterien, zu denen die Versuchspersonen ihre wahrscheinlichste Verhaltensweise angeben mussten. So sollten sich die Probanden vorstellen, an ihrer Universität, an der sie gerade neu eingeschrieben

421

7.1 · Kontextuale Faktoren und technische Verbesserungen

7

. Abb. 7.1a–c. Intraindividuelle Variabilität erklärt sich häufig als Folge veränderter situativer Anforderungen(a, b). Mitunter verlangt der situative Kontext interindividuelle Uniformität des Verhaltens (c)

a

b

c

7

Kapitel 7 · Probleme und Differenzierungen von Prognosen

Einfluss des Kriteriumsumfanges auf die Validität von Verhaltenstests

. Abb. 7.2. Mittlere Korrelation zwischen einem Punktwert im Verhaltensprätest und (selbstberichteten) »Kriteriumsmaßen« als Funktion des Kriteriumsumfanges (1, 2, 3 oder 4 Szenarien) und der Wahrscheinlichkeit, eine vorhersagbare (nicht durch Druck gekennzeichnete) Situation zu enthalten

seien, wäre eine »get acquainted-party« für den Samstagabend anberaumt worden. Sie hätten bis dahin noch kaum eine Gelegenheit gehabt, die Bekanntschaft anderer Leute zu machen, und diese Veranstaltung böte die Chance, gleich viele auf einmal kennenzulernen. Druck in Richtung auf extra- und introvertiertes Verhalten wurde dadurch erzeugt, dass Zusatzinformationen gegeben wurden wie: die meisten anderen Kommilitonen würden einen ermutigt haben, zur Party zu gehen, der nach wie vor begehrte Ex-Partner würde die Veranstaltung ebenfalls besuchen, bzw. dass der Besuch der Party mit den Verpflichtungen des Studiums kollidieren oder die Wahrnehmung eines Teilzeitjobs unmöglich machen würde. Im Mittel der 4 Szenarios korrelierten die unbeeinflusst erhobenen Extraversionstestwerte mit dem Verhalten unter schwachem Druck zu r = .42, mit dem unter starkem Druck geäußerten (Kriteriums-)Verhalten zu r = .12, was insofern die früheren Resultate bestätigte bzw. weiter differenzierte. Zusätzlich bedeutsam war die Frage, wie die Kombination der Szenarios zu unterschiedlich großen »Aggregaten« (7 7.1.3) die Validität beeinflussen würde. Die Resultate sind in . Abb. 7.2 zusammengestellt. Wie die Resultate lehren, beeinflusst die Zahl der situativen Zusatzinformationen mit den jeweils gewählten Verhaltensweisen, die in ein Kriterium eingehen, nicht wesentlich die Korrelation (»Validität«), wenn die Wahrscheinlichkeit konstant gehalten wird, dass im Kriterium eine vorhersagbare und damit nicht durch Druck gekennzeichnete Situation enthalten ist. Sofern die Wahrscheinlichkeit für das Vorhandensein einer 0.5

0.4

Durchschnittliche Korrelationen

422

0.3

0.2

0.1

.00

1

2

3

4

Umfang des Kriteriums (aggregierte Verhaltensszenarien)

Kriterien, die keine vorhersagbare Situation enthalten

Alle Kriterien

Kriterien, die mindestens eine vorhersagbare Situation enthalten

423

7.1 · Kontextuale Faktoren und technische Verbesserungen

vorhersagbaren Situation 1.0 beträgt (7 obere Linie in Abb. 7.2), verändert sich die Korrelation nicht bedeutsam mit einer Zunahme im Umfang des Kriteriums. Gleiches gilt, wenn die besagte Wahrscheinlichkeit .00 beträgt (untere Linie), das Verhalten also in allen Szenarien durch hohen situativen Druck beeinflusst wird. Variiert jedoch die Wahrscheinlichkeit für vorhersagbare Situationen, stellt sich die typische Beziehung zwischen Höhe der Korrelation und Umfang des Kriteriums ein. Aber auch stark einengende Situationsfaktoren mögen individuell verschieden aufgenommen und interpretiert werden. Deshalb ist eine Berücksichtigung der als Mediatoren zwischen Persönlichkeitseigenschaften und konkreten Verhaltensweisen fungierenden individuellen Perzeptionen und Kognitionen zweckmässig. Mischel (1977) hat vorgeschlagen, das individuelle Kategorisierungsverhalten von Situationen festzuhalten, ferner die Erwartungen, die durch bestimmte Situationen geweckt und im Hinblick auf antizipierte Handlungsfolgen gehegt werden. Soweit hier allgemeinere Strategien für Klassen von Situationen ausfindig gemacht werden könnten, ist eine Operationalisierung vergleichbar mit derjenigen zu den generalisierten Erwartungen Rotters (1954) (internale vs. externale Bekräftigungsüberzeugung, zwischenmenschliches Vertrauen) naheliegend.

7

Berücksichtigung individueller Perzeptionen und Kognitionen

Fazit Sofern es nicht um Leistungen geht, müssen die kontextualen Rahmenbedingungen sowohl bei der Erhebung der Prädiktor- als auch derjenigen der Kriterienwerte von einer Art sein, die individuelle Unterschiede in der Häufigkeit, der Intensität und dem Stil des Verhaltens hervortreten lässt. Nur unter diesen Voraussetzungen ist es sinnvoll, mit Hilfe des eigenschaftstheoretischen Ansatzes Varianzaufklärung bzw. Verhaltensvorhersagen vornehmen zu wollen. Hilfreich ist die zusätzliche Erfassung der subjektiven Besonderheiten bei der Wahrnehmung und Verarbeitung der Informationen über die Anforderungsmerkmale einer Situation.

7.1.2 Aktuelle Selbstaufmerksamkeit

In einer zwischenzeitlich sehr bekannt gewordenen Untersuchung haben Pryor et al. (1977) das Ausmaß von selbstzentrierter Aufmerksamkeit dadurch erhöht, dass ein Teil der Probanden beim Ausfüllen von inhaltsvaliden Tests zur Soziabilität einen Spiegel vor sich auf dem Tisch stehen hatte (. Abb. 7.3). Gegenüber einem wenige Tage später erhobenen Verhaltensmaß zur Soziabilität (Kombination aus Fremdrating und Zahl von Worten in einer Wartesituation) korrelierten die unter den üblichen Bedingungen gelieferten Fragebogenpunktwerte nur gering (r = .16). Hingegen war die Korrelation für die Probanden hoch (r = .62; Differenz signifikant), die während der ersten Sitzung mit einem Spiegel konfrontiert waren. »Die Induktion selbstzentrierter Aufmerksamkeit scheint also bei einem inhaltsvaliden Messverfahren ein Instrument zu sein, die Vorhersagevalidität eines Selbstberichtes zu erhöhen« (Wicklund, 1977, S. 402). Weitere Experimente haben entsprechende Resultate auch zu anderen Eigenschaftsdimensionen erbracht (u. a. Wicklund, 1982). Solche Befunde nähren den Verdacht, dass die üblicherweise für Fragebogen gegebene Instruktion, bei der Beantwortung »nicht lange nachzudenken«, einen folgenschweren Missgriff darstellt. Damit hoffen Testautoren implizit, Überlegungen auf Seiten der Probanden, welche Antwort sie in einem günstigeren Licht erscheinen lassen würde, abzukürzen. Aber vieles spricht da-

Selbstaufmerksamkeit erhöht Validität von Selbstberichten

Bedenkzeit bei Fragebogen durchaus sinnvoll

424

Kapitel 7 · Probleme und Differenzierungen von Prognosen

. Abb. 7.3. Eine erhöhte Selbstaufmerksamkeit kann die Validität von Selbstbeschreibungen erhöhen

7 für, dass gerade Antworten im Sinne sozialer Erwünschtheit sehr rasch gegeben werden können, sodass im Zweifelsfall durch die Tempobetonung eher reflektive Gedanken über die eigene Persönlichkeit unterbunden werden, was die Validität der Selbstbeschreibung beeinträchtigen müsste. Auch wenn bislang bei einer Variation der Instruktion »spontanes Antworten« vs. »genaues Überlegen« nur Mittelwertsunterschiede, aber keine Validitätsdifferenzen gefunden wurden (s. Krämer & Schneider, 1987, deren Stichprobenumfänge allerdings für die zufallskritische Absicherung von Korrelationsunterschieden viel zu klein waren), kann für die psychodiagnostische Praxis eine sinnvolle Empfehlung nur darin bestehen, durch geeignete Massnahmen, wie z. B. ein einführendes Gespräch oder eine ausführlichere Exploration, situative Rahmenbedingungen dafür zu schaffen, dass die Testperson sich selbst in möglichst adäquater Weise beschreiben kann. ! Die Validität von Selbstbeschreibungen kann durch Induktion erhöhter Selbstaufmerksamkeit während der Testsituation gesteigert werden. 7.1.3 Aggregation von Maßen Reliabilitätsverbesserung auf Prädiktorenseite

Aggregation von Kriteriumsverhalten

Die Prinzipien der Reliabilitätsverbesserung durch Verlängerung von Skalen sind seit Spearman-Brown (7 2.1.1.4) allgemein bekannt. Sie wurden auf die verschiedensten Prädiktoren ganz selbstverständlich immer wieder angewendet. Es bedurfte jedoch des Beitrages von Epstein (1979), um deren Effektivität auch auf der Seite der Kriterien drastisch vor Augen zu führen: Wurde die Stabilität des vorherzusagenden Verhaltens durch Aggregation (d. h. durch Mittelung prinzipiell ein und desselben Verhaltens über mehrere Beobachtungszeitpunkte) auf ein akzeptables Niveau gehoben, stellten sich bei einigen Skalen Test-Kriteriums-Korrelationen um rtc = .40 bis .50 ein – aber nur unter eben den besagten Bedingungen (= Reliabilitätserhöhung durch Aggregation über »occasions« mit indirekten Auswirkungen auf die Validität). Eine substantielle

425

7.1 · Kontextuale Faktoren und technische Verbesserungen

Erhöhung der Validität lässt sich auch erzielen, wenn auf seiten der Prädiktoren und/ oder Kriterien über »modes« aggregiert wird. So fasste beispielsweise Moskowitz (1982) Verhaltensweisen wie Kommandieren, Nahelegen, Drohen u. Ä. zu »multiple referents« für Dominanz als der einen Dimension und Hilfesuchen, Berühren, Aufmerksamkeit heischen etc. für Abhängigkeit als einer anderen Dimension zusammen. Mit diesen durch mehrere Indikatoren repräsentierten Traitmaßen korrelierten die Einzelindizes wesentlich höher als paarweise untereinander. Im Grunde entspricht das einer Berechnung von Trennschärfekoeffizienten bzw. Iteminterkorrelationen. Dabei ist im vorliegenden Fall die für Persönlichkeitsfragebogen (also: selbstberichtetes Verhalten) wiederkehrend angestellte Beobachtung auch auf fremdbeobachtetes Verhalten übertragbar: Sogenannte »single acts« in Form einzelner Verhaltensweisen, selbst- oder fremdeingeschätzt, korrelieren infolge ihrer geringen Stabilität und hohen Spezifität nur relativ niedrig miteinander, hingegen vergleichsweise hoch mit dem »Aggregat« oder »Konglomerat« anderer für das Konstrukt einschlägiger Verhaltensweisen. Die Summierung über verschiedene Verhaltensweisen bewirkt nicht nur eine Erhöhung der Reliabilität, sondern auch eine solche der Heterogenität und inhaltlichen Breite, mit der Folge höherer Validitäten und transsituativer Verhaltenskonsistenzen. Diese Regeln standen auch bei der Entwicklung der Multiple Act Criteria (Fishbein & Ajzen, 1974) sowie einer Multiple Act Criterion Scale (Jaccard, 1974) Pate. Schließlich kommt noch die Aggregation über Situationen in Betracht. Bei einer Klumpung von Verhaltensstichproben aus verschiedenen Situationen konnte Moskowitz (1982) die transsituative Konsistenz der Maße für Dominanz beträchtlich erhöhen. »The strategy used in this study (provided) average predictions of moderate accuracy for many people« bemerkt Moskowitz (1982, S. 765) in Abwandlung des bekannten Titels der Arbeit von Bem und Allen (1974): »On predicting some of the people some of the time.«1) Wie Schwenkmezger (1984) allerdings feststellt, ist die Aggregation über Situationen nur sinnvoll, wenn das Durchschnittsverhalten in einer Klasse von ähnlichen Situationen interessiert; hier kann durch Reduktion des Messfehlers die Vorhersagegenauigkeit erhöht werden. Steht hingegen die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund des Interesses, verdeckt eine solche Aggregation eher die situationsspezifischen Varianzanteile. ! Reliabilitätserhöhungen durch Aggregation über Beobachtungszeitpunkte, Verhaltensweisen und Situationen können zu einer substantiellen Erhöhung der Validität führen. 7.1.4 Validität ohne Stabilität

Ein durchgängiger Argumentationsstrang der bisherigen Ausführungen ging dahin, dass durch Erhöhung der Reliabilität im Prädiktor und/oder Kriterium im Regelfall auch Validitätsgewinne zu erwarten sind, und zwar unbeschadet der Prinzipien des sog. »Verdünnungsparadoxons« (zur Wechselbeziehung zwischen Reliabilität und Validität 1

Geleitet von verschiedenen Techniken der Validitätserhöhung und der dabei erzielten Erfolge sind noch folgende Wendungen in der Literatur gebraucht worden: »Predicting more of the people more of the time« (Bem & Funder, 1978), »On predicting most of the people much of the time« (Epstein, 1979), »Vorhersagen für einige Personen in vielen Merkmalen« (Amelang & Borkenau, 1981a) und »Vorhersagen für einige Personen in einigen Dimensionen« (Borkenau & Amelang, 1983), doch ein Beitrag etwa des Inhalts »Predicting all of the people all of the time« ist noch in Vorbereitung (Bem & Funder, 1978).

7

Validitätserhöhung durch multipel repräsentierte TraitDimensionen

Erhöhung von Reliabilität, Heterogenität und inhaltlicher Breite

Aggregation über Situationen

426

Kapitel 7 · Probleme und Differenzierungen von Prognosen

Änderungssensitivität bei der Erfassung von States

Andere Indizes zur Reliabilitätsbestimmung

7

7 Abschn. 2.3.3). Nun sind aber Fälle denkbar, für die hohe Reliabilitätsanforderungen im Sinne von Reteststabilitäten dysfunktional oder abwegig sind, weil diese dem spezifischen Anspruch, sensitiv auf Änderungen anzusprechen, nachgerade entgegenstehen. Dieses trifft auf die Verfahren zur Erfassung von States zu. Gerade weil sich die aktuellen Zustände durch eine gewisse Flüchtigkeit, also Instabilität auszeichnen, kann hier die Retestung kein angemessener Zugang zur Abschätzung der Stabilität sein. Generell gilt das für alle Fälle, in denen der wahre Wert nennenswerte Oszillationen aufweist, wie es z. B. auch für Schwankungen der Aufmerksamkeit unterstellt werden kann. Wottawa und Hossiep (1987) haben dies, wie es in . Abb. 7.4 zu sehen ist, veranschaulicht. Das Beispiel ist so gewählt, dass die 4 Probanden zwar denselben Mittelwert aufweisen, aber mit unterschiedlicher Wellenlänge um das mittlere Niveau oszillieren. Es ergibt sich eine Nullstabilität, wenn 2 beliebige Zeitpunkte herausgegriffen und miteinander in korrelative Beziehung gesetzt werden, obwohl die Muster der Schwankungen für sich idealtypisch stabil sind. In solchen Fällen, in denen also die herkömmlichen Reliabilitätsschätzungen als Anteil der wahren an der Messwertevarianz versagen, müssen andere Indizes gewählt werden. Einfach wäre es, für das in der Abbildung gewählte Beispiel die jeweils höchste Amplitude während eines längeren Beobachtungsausschnittes zu wählen (was zu 2 unterschiedlichen Scores führt) und 2 derartige Messstrecken miteinander zu vergleichen. Aufwändiger sind Verfahren wie die Fourier-Analysen, bei denen die beobachtbaren Schwankungen spektralanalytisch, d. h. in Anteile von Frequenzbändern zerlegt werden, was in der EEG-Forschung eine der Standardtechniken darstellt. Eine Übersicht der Kennwerte zur Charakterisierung derartiger Modelle gibt u. a. Sammer (1994). Fazit Die referierten Untersuchungen belegen an inhaltlichen Beispielen die Prinzipien, die bereits in allgemeiner Form unter den methodischen Gesichtspunkten (7 oben die Ausführungen zur Reliabilität) behandelt wurden. Sie zeigen, dass für eine Reliabilitätserhöhung primär eine Aggregation von (ein und demselben) Verhalten über

6 . Abb. 7.4. Schwankungen der Messwerte von 4 hypothetischen Probanden um einen gemeinsamen Mittelwert. ----/––– denkbare Schwellen (Aus Wottawa & Hossiep, 1987, S. 14)

427

7.2 · Moderation: Identifikation von Personengruppen

7

verschiedene Zeitpunkte ein probates Mittel darstellt. Teils als Konsequenz davon, teils durch die zusätzliche Aufnahme anderer Verhaltensweisen im Prädiktor sowie im Kriterium bietet die Aggregation über Modes die Aussicht auf eine zusätzliche Steigerung der Validität. Erfolgt zudem eine Aggregation über Situationen, so wird dieses die Validität gegenüber einem breiten Spektrum möglicher Kontextbedingungen allgemein positiv beeinflussen, und zwar zu Lasten von einzelnen (im Vergleich zu vielen und verschiedenen) Kriterien.

Übungsfragen (zu Abschn. 7.1) ? 1. Welche Anforderungen

sind an Testsituationen zu stellen, wenn mit Hilfe des eigenschaftstheoretischen Ansatzes Verhaltensvorhersagen gemacht werden sollen? 2. Wodurch wurde in der Untersuchung von Pryor et al. (1977) selbstzentrierte Aufmerksamkeit erzeugt und welche Auswirkungen hatte sie auf die Vorhersagevalidität? 3. Wann ist die Aggregation von Verhaltensweisen über Situationen zur Erhöhung der Validität sinnvoll?

7.2

! Ad 1. Der eigenschaftstheoretische Ansatz verlangt außerhalb des

Leistungsbereichs nach Testsituationen, die eher schwach oder uneindeutig strukturiert sind und durch verschiedene Individuen mit verschiedenen Bedeutungen ausgefüllt werden. Werden traitgeleitete Unterschiede in Handlungstendenzen durch situativen Druck obsolet gemacht, sinkt die individuelle Variabilität und damit die Vorhersagemöglichkeit durch einen Testwert. Ad 2. Pryor et al. (1977) stellten einem Teil der Probanden (Versuchsgruppe) beim Ausfüllen eines inhaltsvaliden Fragebogens zur Soziabilität einen Spiegel auf den Tisch, in dem sie sich selber sehen konnten. Gegenüber einem wenige Tage später erhobenen Verhaltensmaß zur Soziabilität erwies sich die Vorhersagevalidität (Korrelation der Fragebogenwerte mit dem Verhaltensmaß) in der Versuchsgruppe als sehr viel höher als in der Kontrollgruppe, deren Selbstaufmerksamkeit nicht gezielt erhöht worden war. Ad 3. Wenn das Durchschnittsverhalten von Individuen in einer Klasse von ähnlichen Situationen interessiert; nicht jedoch, wenn die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund steht.

Moderation: Identifikation von Personengruppen mit einer besonders hohen Vorhersagbarkeit

Erstmals ist es Ghiselli (1963) gelungen, ein gesondertes Testverfahren zu konstruieren, nach dessen Punktwert entschieden werden konnte, für welche Probanden in einer Stichprobe von Taxifahrern (aus deren Punktwerten in Leistungstests) Vorhersagen über das Ausmaß der allgemeinen Fahrtauglichkeit möglich waren und für welche nicht. Der fragliche Teil war damit ein Test zur individuellen Prognostizierbarkeit, weil er mit der Differenz zwischen den jeweils standardisierten Leistungspunktwerten und den Kriteriumswerten für Fahreignung oder, was dasselbe ist: Mit dem Zusammenhang zwischen diesen beiden Messwertreihen korrelierte. Seitdem hat es an Bemühungen zum Auffinden solcher Moderatorskalen, die also mit der Validität korrelieren, nicht gefehlt. Häufig waren die Befunde jedoch nicht replizierbar, was u. a. daran liegt, dass teils die Suche nach Moderatoren vorwiegend

Moderatorvariablen: Einfluss auf die Validität

428

Kapitel 7 · Probleme und Differenzierungen von Prognosen

»blind-analytisch« vor sich ging, teils einige methodische Probleme bei der Verwendung von Moderatorvariablen ausser acht gelassen wurden (s. Zedeck, 1971). Einiges spricht dafür, dass positive Resultate dann zu erwarten sind, wenn theoriegeleitet geforscht wird (7 Beispiel). Beispiel

Die Vorhersage des Schulerfolges bei rigiden und flexiblen Schülern Frederiksen und Melville (1954) hatten herausgefunden, dass sich relativ zwanghafte Studenten in allen Lehrfächern nahezu gleichmäßig einsetzten, und zwar ungeachtet ihrer jeweiligen Interessensschwerpunkte, während sich nichtzwanghafte Personen nur gemäß ihrer Neigungen engagierten. Das legt die Hypothese nahe, dass sich akademische Leistungen nichtzwanghafter Studenten aus Interessentests viel besser vorhersagen lassen als diejenigen ihrer zwanghaften Kommilitonen – was auch der Fall war. An dieser Beobachtung knüpft Todt (1966) an. Seinen Erhebungen zufolge war die mittlere Schulnote von Schülern ein Jahr vor dem Abitur aus ganz unterschiedlichen Prädiktorenkombinationen vorhersagbar, je nachdem, ob es sich um Besucher des sprachlichen oder naturwissenschaftlichen Zweiges handelte. Bei den Sprachlern ergab die optimale Gewichtung von 6 Skalen des Differentiellen Interessentests (7 3.2.5) mit einer Subskala aus dem Differentiellen Kenntnistest und dem Intelligenztest von Wilde (s. Jäger & Todt, 1964) eine multiple Korrelation von R = .44; hingegen bestand die optimale Prädiktorenkombination bei den Naturwissenschaftlern aus 3 Intelligenz- und 4 Kenntnissubskalen, die zu R = .38 mit dem Kriterium korrelierten. Daraus ließ sich unter Bezugnahme auf die Befunde aus den USA die Hypothese ableiten, dass Zwanghaftigkeit nur bei den Sprachlern die Validität der Prognosebatterie (die fast nur aus Interessentests bestand) moderieren würde, nicht aber bei den Naturwissenschaftlern, weil deren Interessen für die Vorhersage des Schulerfolges praktisch ohne Belang waren. Als Diagnostikum der Zwanghaftigkeit stand die Skala Rigidität von Brengelmann und Brengelmann (1960) zur Verfügung. In der Tat errechnete sich für die relativ rigiden Schüler aus dem sprachlichen Zweig ein R = .11, hingegen für die relativ flexiblen ein R = .63. In der Gruppe der Naturwissenschaftler lauteten die Koeffizienten R = .44 bzw. .51 – was die Hypothese in überzeugender Weise bestätigte. Innerhalb der Sprachler wiesen somit zwar Interessen den besten Vorhersagewert auf, und zwar im deutlichen Unterschied zu den Naturwissenschaftlern, doch waren diese für flexible Schüler von wesentlich größerer Bedeutung als für rigide. Diese Studie belegt nachdrücklich, dass es innerhalb von größeren Personengruppen Substichproben mit ganz unterschiedlicher Vorhersagbarkeit gibt. Sie wirft aber auch die Frage auf, welche Instrumente bei den nur mäßig prognostizierbaren Personen erfolgreich angewendet werden können.

7

Suche nach Moderatoreffekten

Die einfachste und deshalb in der Literatur am häufigsten verwendete Methode bei der Suche nach Moderatorfunktionen besteht darin, die Gesamtstichprobe nach Maßgabe einer theoretisch belangvollen Variablen in (meist 2–3) homogenere Subgruppen aufzuteilen und für jede dieser Untergruppen getrennt die Test-Kriteriums-Korrelationen zu ermitteln. Unterscheiden sich diese Validitätskoeffizienten signifikant voneinander, so übt die Teilungsvariable einen bedeutsamen Moderatoreffekt aus. Im Falle der Untersuchung von Todt (1966; 7 Beispiel) trifft dies auf die Differenz R = .11 und R = .63

429

7.2 · Moderation: Identifikation von Personengruppen

zu, die auf dem 5%-Niveau signifikant ist. Dementsprechend stellt die Rigiditätsskala eine Moderatorvariable dar. Die Methode einer solchen Fraktionierung von Gruppen ist immer dann angemessen, wenn die auf ihre potentielle Moderatorfunktion geprüfte Variable alternativ (z. B. Geschlecht: männlich/weiblich) oder mehrklassig diskret ist (z. B. ethnische Herkunft: kaukasoid/negroid/ mongolid; Körperbau: pyknisch/leptosom/athletisch). Handelt es sich bei der Unterteilungsvariablen aber um eine Skala mit kontinuierlich-quantitativen Abstufungen (so z. B. der Rigiditätstest in der Todtschen Studie), weist die Fraktionierungsmethode einige Nachteile auf. Vorrangig ist diesbezüglich die Vergrößerung des Stichprobenfehlers zu nennen, die es nach Halbierung oder Drittelung der Gesamtstichprobe reichlich erschwert, Unterschiede zwischen den dann relativ kleinen Substichproben zufallskritisch abzusichern. Zudem erfolgt die Trennung am Median bzw. an Perzentilwerten in gewisser Weise willkürlich, jedenfalls nicht nach psychologisch plausiblen Ableitungen. Es kann nämlich kaum davon ausgegangen werden, dass sich mit der Überschreitung beispielsweise des Medians in einer Verteilung kontinuierlich abgestufter Werte die zugrundeliegenden Prozesse in einem qualitativen Sprung ändern. Darüber hinaus hängt der jeweilige Trennungspunkt davon ab, welche Probanden mit welchen Merkmalsausprägungen jeweils Eingang in die Untersuchungsstichprobe gefunden haben. Ferner erlaubt eine Zwei- oder Dreiteilung nicht die Beschreibung der Moderatorfunktion in Art einer mathematischen Funktion, ganz abgesehen von den Problemen, die sich daraus ergeben mögen, dass die potentielle Moderatorvariable vielleicht selbst mit dem Kriterium und/oder den Prädiktoren korreliert.

7

Fraktionierung von Stichproben

! Zur Identifikation einer Moderatorvariablen ist die Fraktionierung einer Stichprobe dann sinnvoll, wenn die zu prüfende Variable alternativ oder mehrklassig diskret ist. Ist die Variable kontinuierlich-quantitativ abgestuft, ist ein regressionsanalytisches Modell besser geeignet.

Saunders (1956) hat deshalb ein Modell vorgeschlagen, mit dem die eben geschilderten Unzulänglichkeiten regressionsanalytisch umgangen werden. Zentral darin ist der Gedanke, die Steigung der einfachen linearen Regression eines Kriteriums auf einen Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben. Das Modell ist für diesen einfachsten Fall in . Abb. 7.5 grafisch veranschaulicht.

Regressionsanalytisches Modell

. Abb. 7.5. Räumliche Darstellung einer moderierten Regression des Kriteriums Y auf den Prädiktor X bei linearer Moderatorfunktion der Variablen Z: Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF, GH, IJ, KL und MN stellen eine lineare Funktion von Z dar. (Aus Bartussek, 1970, S. 59)

430

Kapitel 7 · Probleme und Differenzierungen von Prognosen

Lineare Moderatorfunktion

Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF usw. bis MN stellen eine lineare Funktion von Z dar (aus Bartussek, 1970, S. 59). Für die Prüfung der Frage, ob in Gestalt der Variablen Z ein potentieller Moderator vorliegt (d. h. eine Variable, von der der Steigungskoeffizient byx linear abhängt), sind folgende Erwägungen bzw. Ableitungen anzustellen: Die lineare Form einer Regression von Y auf X lautet bekanntlich (7 S. 57 ff.): Ŷ = a + bX.

Lineare Regressionsgleichung

(7.1)

Die Steigung b dieser Regressionsgeraden soll nun eine lineare Funktion des Moderators Z sein, sodass sich auf jeder Stufe von Z eine andere Steigung Zb ergibt: Z

b = d + fZ

(7.2)

f = Ausmaß der Änderung von Zb mit Z, d = Zb für Z = 0. Eine Änderung des b in (7.2) aufgrund der linearen Abhängigkeit von Z hat eine Änderung von a in (7.1) zur Folge, da sich durch die Drehung der Regressionslinie für jeden Z-Wert andere Schnittpunkte der Regressionsgeraden mit Y ergeben müssen. Auf diese Weise entspricht jedem Zb ein bestimmtes Za, sodass gilt:

7

Z

a = c + eZ

(7.3)

Die Formel (7.3) beschreibt die unterschiedlichen Schnittstellen der Regressionen Y auf Z mit der Regressionsfläche Y auf X (die Geraden AM, OP, QR, ST und BN in . Abb. 7.5). Setzt man (7.2) für b und (7.3) für a in (7.1) ein, so ergibt sich: Ŷ = (c + eZ) + (d + fZ)X

(7.4)

Nach Auflösen der Klammern und Umstellen der Formel erhält man Ŷ = c + dX + eZ + fXZ Vorhersage mit Prädiktor- und Moderatorvariablen

Prüfung quadratischer Moderatorfunktionen

(7.5)

Die Formel (7.5) entspricht einer herkömmlichen Regressionsgleichung für die Vorhersage des Kriteriums Y auf der Basis von 3 Prädiktoren. Neben X und Z sind die individuellen Kreuzpunkte zwischen X und Z als dritter Prädiktor hinzugekommen. Durch die Multiplikation der X- und Z-Werte trägt dieser Prädiktor jenen Anteil zur Vorhersage des Kriteriums bei, der sich analog zu den varianzanalytischen Wechselwirkungen experimenteller Versuchspläne interpretieren lässt. Sofern die multiple Korrelation zur Vorhersage des Kriteriums Y aus X und Z durch Hinzunahme des Terms XZ signifikant ansteigt, liegt mit der Skala Z ein bedeutsamer Moderator vor. Bartussek (1970) hat dieses Modell auf die Prüfung quadratischer (also U- bzw. umgekehrt U-förmiger) Moderatorfunktionen erweitert. Inhaltlich bedeutet das die Hypothese einer unterschiedlichen Prognostizierbarkeit der Probanden, die auf der Moderatorvariablen extrem niedrig oder hoch scoren im Vergleich zu denjenigen im Mittelbereich. Solche Gegebenheiten liegen etwa im Fall des Antwortstils Akquieszenz bei der Bearbeitung von Fragebogen vor: Die ausgeprägten »Ja-Sager« sind den notorischen »Nein-Sagern« (»Yeah-« vs. »Nay-Sayer«) insofern ähnlich, als sie vom Iteminhalt offenkundig keine rechte Notiz nehmen und statt dessen in stereotyper Weise nur mit einer individuell präferierten Antwortkategorie reagieren. Von daher wäre für

431

7.2 · Moderation: Identifikation von Personengruppen

beide Extremgruppen eine verminderte Prognostizierbarkeit im Vergleich zu Probanden mit mittleren Akquieszenz-Punktwerten zu erwarten. Bestätigende Befunde dazu liegen aus einer Studie vor, in der die Prädiktoren aus den Extraversions- sowie Neurotizismusskalen und das Kriterium aus Fremdeinschätzungen dieser Dimensionen bestanden (s. Amelang & Borkenau, 1981b). Für derartige quadratische Funktionen gilt die Gleichung Ŷ = c′ + d ′X + e′Z + f ′XZ + gZ 2 + hXZ 2

(7.6)

Die hochgestellten Striche bei den Partialregressionskoeffizienten sollen deutlich machen, dass es sich hier um andere Koeffizienten als den in den Gleichungen (7.1)–(7.5) ausgewiesenen handelt. Analog zum linearen Fall liegt eine quadratische Moderatorfunktion also dann vor, wenn die multiple Korrelation unter Einschluss des Prädiktors XZ2 signifikant höher ausfällt als unter dessen Fortlassung (zu den Prinzipien der Signifikanzprüfungen s. Bartussek, 1970). Aus naheliegenden Gründen hat sich die Forschung bislang sehr viel stärker mit linearen als mit quadratischen Moderatorvariablen beschäftigt. Aus den bearbeiteten Fragestellungen sind für die psychologische Diagnostik u. a. die folgenden Befunde von Bedeutung: 4 Die schulischen Leistungen sind aus Intelligenztests besser für solche Schüler vorhersagbar, die eine hohe Konformität an den schulischen Betrieb und eine gute Betragensnote aufweisen (s. Amelang & Vagt, 1970). 4 Die Validität von Selbst- gegenüber Fremdeinschätzungen ist höher für solche Personen, die ihr eigenschaftsrelevantes Verhalten als relativ gut beobachtbar bezeichnen (Amelang & Borkenau, 1986, S. 20) und die bestimmte Traits als angemessen zur Beschreibung ihrer Persönlichkeit erachten (Borkenau & Amelang, 1985) oder von einer besonderen Zentralität der Eigenschaften für ihre Persönlichkeit ausgehen (Zuckerman et al., 1988). 4 Für Personen mit hohen (im Vergleich zu mittleren und niedrigen) Punktwerten in »Lügenskalen« kann von einer geringeren Validität ihrer Fragebogenbeantwortungen ausgegangen werden (Amelang & Borkenau, 1981b). 4 Für die Konsistenz und damit die Prognostizierbarkeit spielt darüber hinaus u. a. das Ausmaß an Selbstkontrolle und Selbstbewusstheit eine bedeutsame Rolle [s. die ausführliche Zusammenstellung bei Schmitt (1992) und die dabei gegebenen psychologischen Interpretationen]. 4 Auch das Ausmaß an selbsteingeschätzter transsituativer Konsistenz vs. Variabilität im Sinne von Bem und Allen (1974) scheint für die Prognostizierbarkeit ein bedeutsamer Moderator zu sein, allerdings nur dann, wenn dessen Erfassung mit hinreichender Reliabilität geschieht, d. h. nicht nur auf der Basis eines einzigen Items (s. Amelang, 1987). Insgesamt sprechen diese und weitere Beobachtungen (s. Brody, 1988, S. 109–115) dafür, dass, unbeschadet der Notwendigkeit von Replikationen, der Moderatoransatz eine Möglichkeit zur Identifizierung solcher Personengruppen darstellt, die in den Kategorien von Eigenschaftsdimensionen recht gut beschrieben und vorhergesagt werden können. Bei den anderen müssten dagegen für eine Prädiktion eher die Gegebenheiten oder die Wahrnehmung der jeweiligen Situation herangezogen werden. An diagnosti-

Vorliegen einer quadratischen Moderatorfunktion

Empirische Befunde zu Moderatoreffekten

7

432

Kapitel 7 · Probleme und Differenzierungen von Prognosen

schen Verfahren, die gerade das Letztere leisten, ist bislang allerdings ein empfindlicher Mangel zu beklagen. Übungsfragen

(zu Abschn. 7.2) ? 1. Welches ist die einfachste

7

! Ad 1. Sie besteht darin, die Gesamtstichprobe nach Maßgabe einer

Methode bei der Suche nach Moderatorfunktionen, wenn die auf die Moderatorfunktion geprüfte Variable alternativ oder mehrklassig diskret ist? 2. Welches ist der zentrale Gedanke in Saunders’ Modell (1956) für Skalen mit kontinuierlich-quantitativen Abstufungen?

Paradoxe Qualität von Prädiktoren

Suppression

Ad 2. Zentral ist der Gedanke, die Steigung der einfachen linearen

Regression eines Kriteriums auf einem Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben.

Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression

7.3

Validitätsverbesserung durch mehrere Prädiktoren

theoretisch belangvollen Variablen in homogene Subgruppen aufzuteilen bzw. zu fraktionieren und für jede dieser Gruppen getrennt die Test-Kriteriums-Korrelationen zu ermitteln.

Die Kombination von verschiedenen Prädiktoren führt bekanntlich dann zu besonders markanten Zuwächsen an Validität, wenn jede einzelne der herangezogenen Skalen bereits für sich selbst möglichst hoch mit dem Kriterium und möglichst niedrig mit den anderen Prädiktoren korreliert. In einem solchen Fall deckt jeder Prädiktor einen anderen Aspekt des Kriteriums ab, was sich für die Validität der Testbatterie als Ganzes sehr positiv auswirkt. Ähnliche Konsequenzen ergeben sich aber auch dann, wenn die Rahmenbedingungen gegenteiliger Art sind, nämlich Variablen in eine Testbatterie zusätzlich aufgenommen werden, die mit dem Kriterium niedrig, aber möglichst hoch mit den anderen Prädiktoren korrelieren. Weil die Validitätserhöhung in einer derartigen Konstellation trotz (oder, wie noch zu zeigen sein wird, gerade wegen) der Nullkorrelation mit dem Kriterium auftritt, handelt es sich gleichsam um eine paradoxe Qualität. Sie kommt dadurch zustande, dass aufgrund der hohen Korrelation einer oder mehrerer zusätzlicher Variablen mit den übrigen Prädiktoren deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt werden; dementsprechend heisst die Bezeichnung für dieses Phänomen der Validitätssteigerung »Suppression«. Beispiel

Validitätsgewinn durch Unterdrückung irrelevanter Prädiktorenvarianz Eines der ersten empirischen Beispiele für Suppression berichtet Horst (1966) aus den Versuchen, im Zweiten Weltkrieg den Erfolg von Ausbildungsprogrammen für Piloten vorherzusagen. In einer dieser Studien bestand die Testbatterie aus 4 Mechanical ability (M), 4 Numerical ability (N),

6

433

7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression

4 Spatial ability (S) und 4 Verbal ability (V). Die ersten 3 Faktoren korrelierten positiv mit dem Kriterium. Verbales Geschick stand mit dem Kriterium nicht in Beziehung, korrelierte aber mit den anderen Skalen. Trotz der Nullkorrelation zwischen verbalen Leistungen und dem Trainingserfolg verbesserte die Hinzunahme von Verbal ability die Validität der Batterie erheblich. Horst interpretierte diesen Effekt psychologisch, indem er feststellte, dass die verbalen Fähigkeiten zwar mit dem Ergebnis des Flugtrainings nichts zu tun haben mochten, wohl aber eine hohe Ausprägung in V den Erhalt hoher Punktwerte in den übrigen Prädiktoren begünstigte, und zwar vermutlich über das bessere Verständnis der Testinstruktion und der allgemeinen Prinzipien zum Lösen der Aufgaben. Von daher kam es darauf an, eben jene durch V »verursachten« Varianzanteile zu eliminieren bzw. von der sonstigen Prädiktionsvarianz abzuziehen. Denn für den Flugtrainingserfolg war es wichtig, hohe Punktwerte in erster Linie in den Skalen M, N und S zu erzielen, weil damit Komponenten abgedeckt werden, die für die Steuerung eines Flugzeuges unabdingbar sind. Hingegen war es eher irrelevant für die Vorhersage, wenn Probanden hohe Punktwerte in der Batterie hauptsächlich durch ihre verbalen Fähigkeiten erreichten. In der Tat führte der Abzug der Varianz zu Lasten von V, d. h. ein negatives β-Gewicht in der Linearkombination der Prädiktoren, zu einer bedeutsamen Validitätsverbesserung der Gesamtbatterie.

Das Zustandekommen von Suppressionseffekten kann auf methodische Weise mit Hilfe eines Scheibchendiagramms und durch Rückgriff auf die Interpretation von Korrelationen als Folge gemeinsamer Elemente (McNemar, 1962) veranschaulicht werden (. Abb. 7.6). Die allgemeine Formel für die »Common-elements-Korrelation« lautet: rxy =

nc n x + nc ⋅ n y + nc

(7.7)

Methodische Veranschaulichung des Suppressoreffekts

Common-elementsKorrelation

nx = Zahl der Elemente spezifisch für x, ny = Zahl der Elemente spezifisch für y, nc = Schnittmenge der Elemente aus x und y. Im Beispiel von . Abb. 7.6 besteht das Kriterium c aus insgesamt 16 Elementen, von denen 7 mit dem Prädiktor gemeinsam sind (c–p). Der Prädiktor setzt sich gleichfalls aus 16 Elementen zusammen, von denen 9 für das Kriterium irrelevant sind (8×(p–s) + 1p). Gemäß (7.7) errechnet sich daraus die Korrelation rpc =

7 = .44. 9+7 ⋅ 9+7

Wenn 8 der 9 für die Vorhersage des Kriteriums durch p irrelevanten Elemente durch den Suppressor erklärt werden (p–s), der für sich selbst keinerlei Überlappung mit dem Kriterium aufweist, lauten die Korrelationen wie folgt:

Prädiktor-Kriterium

7

434

Kapitel 7 · Probleme und Differenzierungen von Prognosen

. Abb. 7.6. Veranschaulichung der Korrelation zwischen je einer Prädiktor-, Suppressor- und KriteriumsVariablen als Folge gemeinsamer Elemente. (Aus Conger & Jackson, 1972, S. 582)

predictor (p)

p c c

c

c c c

c

c-p c-p c-p c-p c-p c-p c c-p

p-s p-sp-s p-s p-s p-s p-s p-s

c

s

criterion (c) suppressor (s)

Prädiktor-Suppressor

7

Suppressor-Kriterium

Erhöhte Validität durch Suppressoreffekt

Klassischer Fall: Suppressorvariable wird abgezogen

rps =

8 = .67. 8 + 8 ⋅ 1+ 8

Weil es bei der Korrelation zwischen s und c keine gemeinsamen Elemente gibt, steht im Zähler der Common-elements-Korrelation zwischen Suppressor- und Kriteriumsvariablen Null, deshalb: rsc = 0,00. Nun lässt die Betrachtung von . Abb. 7.6 erkennen, dass es trotz der Irrelevanz von s für c nützlich ist, die »frei schwebenden« Elemente in p, d. h. jene, die keine Kommunalität mit c zeigen, durch s zu »binden«. In einem solchen Fall weist p nur noch 8 andere Elemente auf (1p sowie 7c–p), und die Prädiktor-Kriteriums-Korrelation beläuft sich dann auf rpc =

7 = .62. 1+ 7 ⋅ 9 + 7

Bei der Ermittlung der Regressionsgleichung auf der Basis der bivariaten Korrelationen zeigen die Vorzeichen der Regressionsgewichte (0,66p–0,50s), dass die gewichtete s-Variable von den Prädiktorwerten abgezogen werden muss, um die kriteriumsirrelevante Varianz zu entfernen. Das stellt den »klassischen Fall« des Suppressionsparadigmas dar. Eine Quelle möglicher Konfusionen tut sich aber auf, wenn alle Variablen mit negativen β-Gewichten in Prädiktionskombinationen als »negative Suppressoren« bezeichnet werden. Lubin (1957) und Darlington (1968) verfahren so und belegen mit diesem Begriff solche Variablen, die positiv mit dem Kriterium, aber negativ mit anderen Prädiktoren korrelieren. Das mag deshalb zu Missverständnissen führen, weil zahlreiche Dimensionen außerhalb des Leistungsbereiches bipolarer Art sind, wie an Skalen zur Erfassung von Einstellungen oder Persönlichkeitsmerkmalen sowie kognitiven Stilen zu erkennen ist, deren Scorungsrichtung und positive Bewertung innerhalb gewisser Grenzen von willkürlichen Festlegungen abhängt. Auf diese Weise aber könnte ein Prädiktor (wie z. B. Extraversion oder Flexibilität) durch einfache Reflektion zu einem Suppressor (Introversion bzw. Rigidität) konvertiert werden. Zur Vermeidung solcher konzeptueller Unschärfen soll hier an der restriktiven Definition eines Suppressors festgehalten werden, in der die Nullkorrelation mit dem Kriterium eine entscheidende Rolle einnimmt.

435

7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression

7

Exkurs

Zur Beziehung der Suppression zu Part- und Partialkorrelation Wie Conger und Jackson (1972) deutlich gemacht haben, bestehen enge Beziehungen zwischen dem Suppressionskonzept und der Part- bzw. Partialkorrelation: Wird nämlich der Einfluss einer Variablen von einer anderen eliminiert und mit einer dritten Variablen korreliert, liegt eine Konstellation vor, in der eine Partkorrelation angemessen ist (. Abb. 7.7). Genau das ist auch das Rationale für Suppressoreffekte. Die Formel für die Partkorrelation lautet:

rc( p ⋅ s ) =

rcp − rcsrps 1− rps

(7.8)

2

Partkorrelation

c = Kriterium, p = Prädiktor, s = Suppressor (oder Variable, die eine kleinere Korrelation mit c aufweist als p). Falls die Korrelation zwischen s und c Null beträgt (= ideale Suppressorvoraussetzung), vereinfacht sich (7.8) zu

rc( p ⋅ s ) =

rcp 1− rps

(7.9)

2

Die Formel (7.9) besagt, dass der Partkoeffizient immer dann höher als rcp (= die Validität) ausfällt, wenn rps ungleich Null ist. Soll der Einfluss einer Drittvariablen aus 2 anderen Variablen herausgezogen werden (z. B. der Suppressor gleichermaßen aus dem Prädiktor und dem Kriterium), ist die Partialkorrelation angemessen, also

rc( p ⋅ s ) =

rcp − rcs ⋅ rps 1− rps

2

1− rcs

2

(7.10)

Partialkorrelation

Unter idealen Suppressorbedingungen vereinfacht sich (7.10) ebenfalls zu (7.9). Bei suboptimalen Gegebenheiten muss der resultierende Koeffizient etwas höher ausfallen als (7.8), weil im Vergleich zum Partkoeffizienten im Nenner rcs zusätzlich berücksichtigt wird.

6

. Abb. 7.7. Konstellation für eine Partkorrelation sowie einen Suppressoreffekt. P = Prädiktor, C = Kriterium, S = Suppressor

436

Kapitel 7 · Probleme und Differenzierungen von Prognosen

Bei Verletzung der idealen Suppressorbedingungen liefert, wie bei einem Vergleich der beiden Formeln deutlich wird, die multiple Korrelation den höheren Validitätskoeffizienten:

Mulitiple Korrelation

R = rc( p⋅s ) =

rcp 2 + rcs 2 − 2rcprcsrps

(7.11)

1− rps 2

Ausmaß der Validitätssteigerung

Das Ausmaß der möglichen Validitätssteigerung durch einen Suppressor hängt nicht nur von der Enge der Korrelation zu den anderen Prädiktoren der Batterie ab, sondern auch von der originalen Prädiktor-Kriteriums-Validität. Die dafür maßgeblichen Funktionen sind aus . Abb. 7.8 ersichtlich. Wenn die Validität beispielsweise mit rcp = .40 gleich hoch ist wie die Interkorrelation rps, bedeutet das einen Zugewinn um rund 0,04 Einheiten oder ca. 10%. Erst bei sehr hohen Werten für rps fallen die Validitätszunahmen ernsthaft ins Gewicht. Eben diese Voraussetzung aber war in den bislang durchgeführten empirischen Untersuchungen nicht erfüllt (s. die Zusammenstellung bei Holling, 1981), weshalb die Resultate insgesamt höchst unbefriedigend ausgefallen sind. Um dafür ein Beispiel zu geben: In einer äußerst aufwändigen Studie prüfte Vagt (1974) die Hypothese, ob Aspekte der Testangst und Testmotivation als Suppressoren wirken. Zusätzlich zu vorliegenden Skalen entwickelte er eigens Fragebogen u. a. zur Erfassung von Angst vor der

. Abb. 7.8. Zunahmen an Validität (Ordinate) als Funktion der Korrelationen zwischen Suppressor und Prädiktor (rps; Abszisse) sowie der originalen Test-Kriteriums-Validitäten (Linienschwarm)

δ = r'c·sp - rcp

7

1,00 0,10 0,20

0,80

0,30 0,40

0,60 -1–

0,50

δ = rcp ((1-r 2sp ) 2 -1) 0,60

0,40 0,70 0,80

0,20 0,87 0,92 0,995 0,00

0,98

0,95 rps

0,20

0,40

0,60

0,80

1,00

437

7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression

Testsituation und den Testkonsequenzen, vor Psychologen und unangenehmer Selbsterkenntnis bzw. Tests zur Feststellung der Wichtigkeit von Psychologie für das Bedürfnis nach Selbsterkenntnis und des Vertrauens in die Gültigkeit von Prüfungen u. Ä. Diese Skalen wurden zusammen mit Intelligenztests in einer Situation vorgegeben, deren ernster, bedrohlicher Charakter durch verschiedene Maßnahmen betont wurde. Das Kriterium bestand aus einem Maß für sprachliche Ausdrucksfähigkeit, das aus 2 Aufsätzen gewonnen wurde, die freiwillig und in einer entspannten Atmosphäre geschrieben worden waren. Die Validität des Intelligenztests für dieses Kriterium betrug an N = 253 Schülern rcp=.66. Die Korrelationen zwischen einer der Suppressorskalen und dem Kriterium lagen ganz überwiegend bei Null (höchste Koeffizienten rcs = –.25, .14, und .12). Allerdings korrelierten die Suppressorvariablen auch mit dem Prädiktor bestenfalls zu rps = –.25 (Angst vor Psychologen und der Psychologie) und rps = .23 (Leistungsmotivation), sodass von daher kaum Aussicht auf einen nennenswerten Validitätsgewinn durch Suppression bestand. Die einzige signifikante Erhöhung der Validität war im Falle der Wichtigkeit von Psychologie mit rcs = .12 und rps = .04 weniger eine Folge von Suppression als vielmehr eine solche der Hinzunahme eines weiteren unabhängigen Prädiktors. Desgleichen mussten die Bemühungen von Goldberg et al. (1970), verschiedene Antwortstilskalen auf ihre Suppressionseffekte gegenüber dem California Psychological Inventory zu untersuchen, schon im Ansatz als aussichtslos angesehen werden, weil Antwortstile mit den inhaltlichen Skalen nicht in einem Ausmaß korrelieren, das für eine substantielle Validitätserhöhung Voraussetzung ist. Um aber die bestechende Brillanz des Suppressionskonzeptes praktisch nutzen zu können, bedarf es auch einer hohen Korrelation rps mit den Prädiktoren, die im Regelfall leichter zu erzielen ist als eine entsprechende Validität (rcp). Allerdings gibt es einen Grund, warum entsprechende Bemühungen nicht mit dem zu erwartenden Nachdruck entfaltet wurden: Im Vergleich zu dem Validitätsgewinn durch einen Suppressor, wie er sich in . Abb. 7.6 als Formel für δ eingetragen findet, beträgt der Zugewinn im Falle eines weiteren Prädiktors

δ p = rc⋅pq − rcp ⋅ rcp2 + rcq 2 − rcp

7

Beispiel: Testangst und Testmotivation als Suppressoren

Beispiel: Antwortstil als Suppressor

(7.12) Validitätsgewinn durch zusätzlichen Prädiktor

p = 1. Prädiktor, q = 2. Prädiktor (und potentieller Suppressor). Werden die Zuwächse miteinander gleichgesetzt, so gilt: rps 2 =

rcq 2 rcp + rcq 2

(7.13)

2

Das bedeutet nichts Anderes, als dass die Suppressorvarianz 4mal soviel Varianz im Prädiktor wie der zweite Prädiktor an Varianz im Kriterium erklären muss, um den gleichen Effekt in Bezug auf die Validitätssteigerung zu erzielen.

Weiterer Prädiktor effektiver als Suppressor

438

Kapitel 7 · Probleme und Differenzierungen von Prognosen

Fazit Insgesamt zeigen die Forschungen zum Suppressorkonzept, dass es neben der direkten Erhöhung der Validität durch Einsatz von weiteren Prädiktoren auch die Möglichkeit gibt, Variablen zu erheben, die keinen oder einen nur sehr geringen Zusammenhang zum Kriterium aufweisen. Die Brillanz des Suppressionskonzeptes liegt darin, irrelevante Varianzanteile der Prädiktoren zu binden oder zu unterdrücken.

Übungsfragen

(zu Abschn. 7.3) ? 1. Was bezeichnet der Begriff

der Suppression?

! Ad 1. Suppression bezeichnet die Feststellung, dass Variablen zur Vali-

ditätserhöhung beitragen können, obwohl sie mit dem Kriterium nicht oder nur gering korrelieren. Aufgrund der hohen Korrelationen der zusätzlichen Variablen mit den übrigen Prädiktoren werden deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt.

7 Weiterführende Literatur

Conger, 1974; Holling, 1981.

8 8 Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie 8.1

Diagnostik und Entwicklung von Organisationen – 440

8.1.1 Organisationsdiagnostik – 440 8.1.2 Organisationsentwicklung – 442

8.2

Personalbeurteilung

– 444

8.2.1 (Berufs-)Eignungsdiagnostik – 445 8.2.2 Exkurs: Assessment Center – 458

8.3

Personalentwicklung

– 466

8.4

Tätigkeitsbezogene Diagnostik und Intervention – 468

8.5

Diagnostik und Intervention bei Gruppen – 472

440

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

Diagnostik und Entwicklung von Organisationen, Personal- und Arbeitsbedingungen

Von Anfang an waren Diagnostik und Intervention in der ABO-Psychologie sehr eng auf die praktischen Bedürfnisse von Organisationen (und zwar vor allem im industriellen Bereich) bezogen. Zu ihren Anwendungsfeldern zählen auf einer mehr abstrakten Ebene die Diagnostik und Entwicklung von Organisationen, und auf etwas konkreterem Niveau einerseits die am Individuum ausgerichtete Beurteilung und Entwicklung von Personal sowie andererseits die an den Arbeitsbedingungen ansetzende Analyse und psychologische Gestaltung der Arbeit. 8.1

Bereiche der Diagnostik und Intervention

Diagnostik und Entwicklung von Organisationen

Vier Bereiche sind es vor allem, innerhalb derer Diagnostik und Intervention einen wichtigen Stellenwert einnehmen (s. von Rosenstiel, 1992; Bungard & Antoni, 1993): 4 Individuen, 4 Aufgaben, 4 Gruppen (darin auch Konflikte zwischen Personen) und 4 Organisationen. Dabei gelten Organisationsdiagnostik und -entwicklung als Felder, in denen der Versuch einer Integration der 3 anderen Bereiche unternommen wird. Im Hinblick auf den sich daraus ergebenden Überordnungsstatus soll nachfolgend zuerst darauf eingegangen werden.

8

8.1.1 Organisationsdiagnostik Aufgaben der Organisationsdiagnostik

Im Gegensatz zu den mehr betriebswirtschaftlich ausgerichteten Organisationsanalysen, in denen es um »die systematische Untersuchung des gegebenen Gesamtzustandes einzelner Organisationen mit dem Ziel der Aufdeckung vorhandener Organisationsprobleme und die Vorbereitung von Organisationsänderungen zum Zwecke der Verringerung oder Beseitigung dieser Probleme« (Klages, 1980, zit. nach Büssing, 1993, S. 446) geht, ist die Aufgabe der psychologisch ausgerichteten Organisationsdiagnostik mehr am Verhalten und Erleben der Mitglieder in Organisationen ausgerichtet: Definition »Die psychologische Organisationsdiagnose dient dazu, die psychologischen Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen zu diagnostizieren, um Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen zu beschreiben, zu erklären und zu prognostizieren« (Büssing 1993, S. 445).

Strukturdiagnostik

Eine so verstandene Organisationsdiagnostik stellt allerdings »eher ein Programm als eine Sozialtechnologie« (von Rosenstiel, 1992, S. 358) dar, denn es gibt kaum genormte Verfahrensweisen in diesem Bereich (. Abb. 8.1). Allgemein lassen sich 2 grundlegende Muster voneinander unterscheiden, nämlich die Strukturdiagnostik und die Prozessdiagnostik. 4 Die Strukturdiagnostik stellt das Mittel der Wahl in der vergleichenden Organisationsforschung dar, die dem sog. Kontingenzansatz verpflichtet ist. »Damit wird die Annahme gekennzeichnet, dass Unterschiede zwischen Organisationsstrukturen

441

8.1 · Diagnostik und Entwicklung von Organisationen

8

. Abb. 8.1. Auch die Raumgestaltung in Organisationen kann Hinweise auf die Unternehmenskultur liefern

auf Unterschiede in den Situationen zurückzuführen sind, in denen sich die jeweiligen Organisationen befinden« (Büssing, 1993, S. 452). Solche »Situationen« können z. B. bestimmte Technologien oder die Größe der Unternehmen sein, die dann innerhalb der Strukturdiagnose erfasst werden. 4 Die Prozessdiagnostik geht demgegenüber davon aus, dass »eine Vielzahl von Merkmalen und Bedingungen in Organisationen einer fortwährenden Veränderung unterliegt« (Büssing, 1993, S. 453). Organisationsdiagnostik kann sich bei einer solchen Sichtweise im Gegensatz zu strukturdiagnostischen Vorgehensweisen nicht in einer einmaligen Datengewinnung erschöpfen, sondern muss einen mehrstufigen Vorgang bilden. Sie wird besonders häufig angewandt bei der Diagnose von 5 organisationalen Veränderungen, 5 sozialer Interaktion und Kommunikation innerhalb von Organisationen und 5 Wechselwirkungen zwischen Strukturmerkmalen, situativen Faktoren und dem Erleben/Verhalten in Organisationen. Angesichts der Verschiedenheit der Anforderungen, die in den einzelnen Anwendungsbereichen an die psychologische Diagnostik gestellt werden, ist evident, dass eine übergreifende und hinreichend kohärente Organisationsdiagnostik nur sehr schwer zu operationalisieren ist. Ein Versuch in diese Richtung stellt das Organisationsanalyseinstrumentarium OAI von van de Ven und Ferry dar (1980, zit. nach Büssing, 1993). Fünf verschiedene »Module«, zu denen jeweils Fragebogen vorliegen, sollen den komplexen Anforderungen organisatorischen Geschehens gerecht werden: 1. Macroorganizational module: Dient der Messung der Gesamtstruktur der Organisation, 2. Interunit relations module: Hebt auf die Messung der Koordination zwischen organisationalen Einheiten ab,

Prozessdiagnostik

Organisationsanalyseinstrumentarium OAI

442

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

3. Organizational unit module: Erfasst die Aufgaben, Strukturen und Prozesse auf verschiedenen Arbeitsebenen, 4. Job design module: Misst Merkmale einzelner Arbeitsplätze einschließlich ihrer strukturellen Anforderungen und der Einstellung sowie die Zufriedenheit der Arbeitenden, 5. Performance module: Richtet sich an die Effizienz und Effektivität auf den verschiedenen Arbeitsebenen. Begriff »Organisationsdiagnostik« eher theoretische Fiktion Beispiel: Diagnose des Organisationsklimas

8

Vom OAI einmal abgesehen, handelt es sich bei Organisationsdiagnostik mehr um eine theoretische Fiktion denn um ein konkretes Diagnostikinstrumentarium. So ist es in der Praxis durchaus üblich, jeweils nur Teilbereiche diagnostisch zu erfassen, was am Beispiel der Messung des »Organisationsklimas« kurz dargestellt werden soll: Das Konstrukt des »Organisationsklimas« unterscheidet sich von dem mehr industriesoziologischen Ansatz des »Betriebsklimas«. Unter Letzterem wird die bewertende Beschreibung einer Organisation durch ein aggregiertes soziales Kollektiv verstanden, wohingegen das Organisationsklima für eine nichtbewertende Beschreibung der Organisation durch den Einzelnen steht. In diesem Sinne zielen Untersuchungsinstrumente zum Organisationsklima z. B. auf die folgenden, rein deskriptiv zu verstehenden Gesichtspunkte: 4 Betrieb als Ganzes, 4 Kollegen, 4 Vorgesetzte, 4 Aufbau- und Ablauforganisation, 4 Information und Mitsprache, 4 Interessenvertretung, 4 betriebliche Leistung. Die darauf gerichteten Untersuchungen ergaben am Ende aber, dass sich das Konstrukt des Organisationsklimas, obgleich konzeptuell eigenständig, empirisch, also in der Praxis, von »Betriebsklima« und »Arbeitszufriedenheit« kaum unterscheiden lässt (s. von Rosenstiel, 1992). Auf weitere Beispiele für die Diagnostik in anderen Teilbereichen von Organisationen wird in 7 Abschn. 8.1.2 eingegangen. 8.1.2 Organisationsentwicklung

Intervention in Organisationen

SORK-Paradigma

Unter Organisationsentwicklung versteht man eine geplante, meist mehrjährige Intervention in der gesamten Organisation (also nicht nur in einzelnen Bereichen oder Gruppen). Was die Zielsetzung solcher Interventionen angeht, soll es nicht um »klassische Rationalisierungsprojekte (gehen), die ausschließlich auf eine Erhöhung der Produktivität abzielen; vielmehr steht zum einen die Forderung der Selbstverwirklichung und Autonomie der Mitarbeiter im Vordergrund, (zum anderen soll) durch die Konzipierung und Implementation geeigneter Arbeits-, Führungs- und Kooperationsformen ein hohes Maß an Commitment sowie eine hinreichende leistungsbezogene Effizienz aller Organisationsmitglieder sichergestellt werden« (. Abb. 8.2, Gebert, 1993). Beruhend auf dem S(Stimulus)-O(Organismus)-R(Reaktion)-K(Konsequenz)Paradigma unterscheidet Gebert (1993) einen personalen und einen strukturalen

443

8.1 · Diagnostik und Entwicklung von Organisationen

8

. Abb. 8.2. Besonders in der Automobilindustrie sind Beispiele für die Einrichtung »teilautonomer Arbeitsgruppen« bekannt geworden, deren Vor- und Nachteile heftig diskutiert wurden

Ansatz der Organisationsentwicklung. Dabei sollten im Idealfall beide Ansätze gleichzeitig verwirklicht werden: 4 Der personale Ansatz richtet sich auf die Kategorien O und R und beinhaltet beispielsweise gruppendynamische Trainings- sowie Weiterbildungsmaßnahmen. 4 Der strukturale Ansatz bezieht sich auf die Elemente S und K und beinhaltet, grob vereinfacht, die sog. »neuen Formen der Arbeitsgestaltung« (u. a. »job enrichment«) sowie die Implementierung von Gruppenarbeitsmodellen. Das allgemeine Anliegen der Organisationsentwicklung besteht darin, solche (Rahmen-)Bedingungen in Organisationen zu schaffen, die einer Verwirklichung der oben angeführten Ziele dienlich sind. Dabei muss hauptsächlich zu Beginn von entsprechenden Maßnahmen sowohl auf Seiten des Managements als auch auf Seiten der Belegschaft viel Überzeugungsarbeit geleistet werden, um neue, partizipativere Arbeits- und Führungsstile dauerhaft verwirklichen zu können. Konkret können dafür Führungstraining und Teamfähigkeitstraining vonnöten sein, oder auch die Auswahl von Mitarbeitern, die eine besondere Schulung erfahren, um die neuen Formen der Arbeit optimal vorstellen zu können. Hand in Hand damit sollte eine Enthierarchisierung innerhalb der Organisationsstrukturen angestrebt werden, um den Mitarbeitern im Sinne der Humanisierung der Arbeitswelt mehr Mitsprachemöglichkeiten und Autonomie zu geben. Diese Beispiele sollen auf die große Zahl und Bandbreite denkbarer Organisationsentwicklungsmaßnahmen auf den unterschiedlichsten Organisationsebenen hinweisen. In der Praxis sind häufig genug ökonomische Erwägungen oder anderweitige Sachzwänge (z. B. die Einführung neuer Techniken) für die Realisierung solcher Maßnahmen entscheidend. Die in der Theorie und Programmatik gewöhnlich in den Vordergrund gerückten humanistischen Ziele stellen meist nur (durchaus willkommene) Nebeneffekte dar. ! Die Organisationsentwicklung umfasst Maßnahmen, die auf die Humanisie-

rung der Arbeitswelt sowie die Erhöhung von Effizienz und Commitment der Organisationsmitglieder abzielen.

Personaler Ansatz Strukturaler Ansatz

Schaffung von Rahmenbedingungen

Humanisierung der Arbeitswelt

444

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

8.2

Eignungsdiagnostik Personalbeurteilung

Personalbeurteilung

Die auf Individuen bezogene Diagnostik lässt sich in 2 Bereiche untergliedern: 4 Im Rahmen der Eignungsdiagnostik werden Daten über die Eignung von Bewerbern für Stellen oder Funktionen erhoben. 4 Die (systematische) Personalbeurteilung schließt eignungsdiagnostische Aussagen häufig ein, geht andererseits in jenen Fällen darüber hinaus, wo es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen geht. »Leistungs- und Potentialdaten werden im organisationalen Kontext zum Zwecke der individuellen Auswahl, Beurteilung und Förderung erhoben, um Über- und Unterforderung von Mitarbeitern zu vermeiden, Entwicklungsmöglichkeiten zu sichern und gleichzeitig die Effizienz von Organisationen zu steigern« (Schuler & Prochaska, 1992, S. 158).

3 Ebenen der Beurteilung

8

Rückmeldungen zum Arbeitsverhalten

Regelmäßige Leistungsbeurteilungen

Dabei lassen sich 3 Ebenen der Beurteilung unterscheiden (. Tab. 8.1). Die erste Ebene bezieht sich hauptsächlich auf das alltägliche Arbeitsverhalten. Hier hat sich gezeigt, dass Feedback, wie aus den experimentellen Laborstudien nicht anders zu erwarten, dann am wirksamsten ist, wenn dem Akteur die Kontingenzen zwischen Verhalten und dessen Konsequenzen klar vor Augen geführt werden können. Solche Rückmeldungen sind von großer Bedeutung für das Verhalten der Beurteilten, weil das fragliche Verhalten noch relativ gegenwärtig oder »greifbar« ist. Da die methodischen Ansprüche auf dieser Ebene vergleichsweise gering sind, kann meist auf ein systematisches Beurteilungsverfahren verzichtet werden. Die zweite Ebene wird markiert durch die regelmässig stattfindenden Leistungsbeurteilungen, die für Zwecke der Personalentwicklung und des Personalmanagements unentbehrlich sind (z. B. für Platzierungs- und Beförderungsentscheidungen). Die Beurteilung erfolgt meist auf der Basis eines Gespräches zwischen Vorgesetztem/ Vorgesetzter und Mitarbeiter/Mitarbeiterin, wobei dieses Gespräch aus Gründen der Objektivitätsoptimierung zumindest in halbstandardisierter Form erfolgen sollte. Neben konkret-objektiven Indikatoren wie Verkaufs- und Umsatzzahlen, den Diskrepanzen zwischen Soll- und Ist-Zuständen u. a. werden gewöhnlich auch potentielle individuelle Förderungsmassnahmen und solche zur Erhöhung der persönlichen Bewährungswahrscheinlichkeit und Einsatzbreite einen Themenschwerpunkt bilden. Wichtig ist für den Ertrag der Unterredung eine besondere Schulung des Vorgesetzten in Ge-

. Tabelle 8.1. 3 Ebenen der Personalbeurteilung. (Nach Schuler & Prochaska, 1992, S. 178)

Ebene

Funktion

Verfahrensweise

1. Ebene Day-to-day-Feedback

Verhaltenssteuerung, Lernen

Gespräch, Unterstützung

2. Ebene Leistungsbeurteilung

Leistungseinschätzung, Zielsetzung

systematische Beurteilung

3. Eben Potentialbeurteilung

Fähigkeitseinschätzungen, Prognosen

Eignungsdiagnose, Assessment Center

445

8.2 · Personalbeurteilung

8

. Abb. 8.3. In Dienstleistungsberufen sollte z. B. auch »kundenorientiertes Verhalten« bei einer Personalbeurteilung berücksichtigt werden

sprächsführung. Hilfreich können für den Beurteiler auch Einstufungsverfahren, wie z. B. Skalen zur Verhaltensbeobachtung, sein. Von der dritten Ebene wird allgemein eine besondere prognostische Funktion erwartet, sie wird deshalb auch als Potentialbeurteilung bezeichnet und liefert die Grundlage für nachfolgende Personalentwicklungsmaßnahmen. Die methodischen Ansprüche an diese Form der Mitarbeiterbeurteilung sind hoch, sodass neben der Ergebnis- bzw. Verhaltensbeurteilung durch einen Vorgesetzten mehr und mehr Elemente der Assessment-Center-Technik zum Tragen kommen.

Potentialbeurteilung

8.2.1 (Berufs-)Eignungsdiagnostik Definition »Unter Berufseignungsdiagnostik wird die Gesamtheit aller wissenschaftlichen und wissenschaftsgeleitet-praktischen Bemühungen verstanden, die auf dem Wege über eine gedankliche Zuordnung von beruflichen Situationen zu Personen oder von Personen zu beruflichen Situationen die Ziele ›Maximierung beruflicher Zufriedenheit‹ und ›Maximierung beruflicher Leistung‹ anstreben« (Eckardt & Schuler, 1992, S. 534).

Dabei sind 3 prototypische Konstellationen identifizierbar, zwischen denen aber fließende Übergänge auftreten (zit. nach von Rosenstiel, 1992): 4 Es sind mehrere freie Stellen, aber nur ein Bewerber oder eine Bewerberin vorhanden. Diese(r) soll auf jene Stelle kommen, die ihr/ihm am besten entspricht (Auswahl der bestgeeigneten Funktion oder Stelle; »Eignungsdiagnostik«).

3 Aufgabenstellungen möglich

446

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

4 Die Anzahl der offenen Stellen und die Anzahl der Bewerber entsprechen einander.

Ziel ist die wechselseitige optimale Zuordnung oder Platzierung. 4 Nur eine Stelle ist frei, für die sich mehrere Interessenten bewerben. Die bestgeeig-

nete Person soll ermittelt werden (»Konkurrenzauslese«).

8

DIN 33430 zu berufsbezogenen Eignungsbeurteilungen: Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen Zur Feststellung der berufsbezogenen Eignung wurden in der Vergangenheit häufig Verfahren mit fraglicher Validität herangezogen. Umgekehrt ist in der beruflichen Praxis die Akzeptanz für nachweislich hoch valide Verfahren gering (. Tab. 8.2). Aus der Unzufriedenheit mit der Praxis der beruflichen Eignungsdiagnostik entwickelte sich eine Initiative zur Etablierung eines Standards für eine wissenschaftlich fundierte Vorgehensweise. Der Berufsverband Deutscher Psychologinnen und Psychologen (BDP) stellte 1995 beim Deutschen Institut für Normierung e.V. (DIN e.V.) den formalen Antrag, eine Norm zur beruflichen Eignungsdiagnostik zu erarbeiten. Unterstützung fand der BDP durch die Deutsche Gesellschaft für Psychologie (DGPs). Am 9. Juni 1997 nahm ein Ausschuss des Deutschen Instituts für Normung, der mit Vertretern aus Wissenschaft und Praxis, Unternehmen, Behörden, Verbänden und Verlagen besetzt war, unter Vorsitz von Prof. Hornke die Arbeit auf (7 auch Interview mit Prof. Hornke). Das Ergebnis dieser Arbeit ist letztlich ein Konsens, der auch von Interessen der Beteiligten geprägt ist. Im Jahr 2002 erfolgte die Veröffentlichung der »Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen: DIN 33430« (Beuth-Verlag, Berlin). Auf 15 Seiten Text (der durch sieben Seiten Glossar ergänzt wird) werden Qualitätsstandards sowohl für die Personen, die als Auftragnehmer oder Mitwirkende die Eignungsbeurteilung durchführen, als auch an die dabei eingesetzten Verfahren definiert. Die DIN 33430 ist nicht rechtsverbindlich. Das Deutsche Institut für Normung ist ein privater Verein, der auf Antrag Dritter den Normerstellungsprozess koordiniert. Es steht potentiellen Anwendern frei, sich künftig nach der Norm zu richten. Allerdings darf die Norm nicht beliebig zu Werbezwecken benutzt werden; bei Missbrauch droht eine Abmahnung. Denkbar ist, dass sich Gerichte künftig bei Klagen von abgewiesenen Bewerbern an der DIN 33430 orientieren.

Zweck der DIN 33430 4 Für die Anbieter entsprechender Dienstleistungen (»Auftragnehmer«): Leitfaden für die Planung und Durchführung von Eignungsbeurteilungen. 4 Für die Personen und Institutionen, die Eignungsbeurteilungen durchführen lassen (»Auftraggeber«): Maßstab für die Bewertung von externen Angeboten. 4 Für die Personalverantwortlichen: Qualitätssicherung und -optimierung von Personalentscheidungen. 4 Für die Personen, deren Eignung beurteilt wird: Schutz vor unsachgemäßer oder missbräuchlicher Anwendung von Verfahren.

In den so genannten »Leitsätzen« werden allgemeine Empfehlungen zum Vorgehen formuliert. Beispielsweise sollte zur Aufklärung über die Untersuchungssituation gehören, dass die Kandidaten erfahren, welche Personen an der Untersuchung mitwirken,

447

8.2 · Personalbeurteilung

welche Folgen eine mangelnde Kooperation haben kann und wer von den Ergebnissen der Untersuchung erfährt.

Leitsätze für die die Vorgehensweise bei berufsbezogenen Eignungsbeurteilungen 4 4 4 4 4

Anforderungsbezug Kandidaten vorab möglichst Informationen über den Arbeitsplatz geben Vorgehensweise der Vorauswahl und die Auswahlkriterien vorab festlegen Gesetzliche Vorgaben (u. a. Schweigepflicht, Datenschutz) beachten Kandidaten vorab über die Untersuchungssituation aufklären und diese angemessen gestalten.

Bei den Personen, die an der Eignungsuntersuchung beteiligt sind, wird zwischen Auftraggeber, Auftragnehmer und »Mitwirkenden« unterschieden, die einzelne Verfahren durchführen und auswerten können. Auftraggeber kann z. B. ein Unternehmen sein, das freie Stellen besetzen möchte. Der eignungsdiagnostische Prozess kann von Mitarbeitern des Unternehmens in Eigenregie durchgeführt werden, es können aber auch externe Experten beauftragt werden. In beiden Fällen wären diese Personen Auftragnehmer. Der Auftragnehmer ist hauptverantwortlich für den gesamten Prozess, der von der Planung und Durchführung der Untersuchung über die Auswertung und Interpretation der Ergebnisse bis zum Bericht an den Auftraggeber reicht. Er muss die zur Verfügung stehenden Verfahren und Prozesse kennen. Dazu gehören auch Kenntnisse über die Konstrukte (z. B. Intelligenz) und über die Qualität und Einsatzvoraussetzungen der Verfahren. Bestimmte Teilprozesse, insbesondere die Durchführung und Auswertung einzelner Verfahren, kann er an »Mitwirkende« delegieren. Von den Verfahren wird verlangt, dass sie grundsätzlich einen Bezug zu den Anforderungen aufweisen. Ein Verfahren, das bei einer Fragestellung passend ist, kann bei einer anderen völlig unangemessen sein. Es werden jedoch auch allgemein gültige Auswahlkriterien genannt. So sollen in den Unterlagen zu einem Verfahren die Handhabung erklärt und Angaben gemacht werden, die zu einer kritischen Bewertung nötig sind. Konkrete Anforderungen werden an die Objektivität, Zuverlässigkeit, Gültigkeit und die Normen formuliert. In einem Anhang der DIN-Norm finden sich detaillierte Forderungen, welche Informationen über ein Verfahren verfügbar sein sollten (z. B. zur Zielsetzung, der theoretischen Grundlage, bestimmte Aspekte der Reliabilität). Nach gegenwärtigem Stand (Juli 2005) ist nur eine Lizenzierung von Personen realisiert worden. Organisiert werden die Prüfungen von der Deutschen Psychologenakademie (DPA), einer Bildungseinrichtung des BDP, die auch ein öffentlich zugängiges Register lizenzierter Personen führt. Für die Zulassung zur Prüfung ist kein bestimmter Berufs- oder Studienabschluss erforderlich, wohl aber ein Nachweis angeleiteter Praxiserfahrung. Informationen zur DIN-Prüfung, aber auch weitere aktuelle Informationen zur DIN 33430 finden sich über die Homepage des BDP (http://www.bdp-verband. org/bdp/politik/din.shtml). Das Grundwissen zur DIN 33430, das zugleich auch für die Zertifizierung nach DIN 33430 prüfungsrelevant ist, liegt in einem von Westhoff et al. (2005) herausgegebenen Band vor.

8

448

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

> Interview mit Prof. Dr. Lutz F. Hornke zum Thema »DIN-33430: Norm zur be-

ruflichen Eignungsdiagnostik« Im Juni 2002 wurde die DIN 33430 veröffentlicht. Wer braucht eine Norm zur Durchführung beruflicher Eignungsbeurteilung und warum? Alle, die an der Beurteilung von Menschen beteiligt sind, wenn es um den Berufseintritt oder eine neue Position in einem Unternehmen geht.

Lutz F. Hornke, Obmann des DIN 33430-Normungsausschuss.

8

Vom Antrag zur Erarbeitung der Norm bis zu deren Veröffentlichung vergingen sieben Jahre. Warum hat die Arbeit so lange gedauert? Nun, es waren sehr verschiedene Perspektiven zu erörtern und dann in einen Text zu fassen. Wie immer, wenn 20 Personen aus ihrer je spezifischen beruflichen Sicht an einer normativen Stellungnahme arbeiten, geht der Argumentationsprozess spiralförmig. Insgesamt gab es 18 Ausschusssitzungen, mehrere Vorlagen des Vorsitzenden und daneben noch Kleingruppensitzungen, die Details erarbeiteten. Etwa in der Mitte der Zeit wurde ein Gelbdruck veröffentlicht, den weitere interessierte Kreise zur Kenntnis genommen haben, um entsprechende Einreden zu formulieren. Dieser Entwurf war in einigen Aussagen defizitär, sodass entsprechend nachgearbeitet werden musste. Da rechtliche Formulierungen beibehalten werden mussten, liest die DIN 33430 sich naturgemäß nicht leicht. Die DIN 33430 ist keine Schutznorm für Psychologen, stattdessen beansprucht sie Geltung für alle Berufsgruppen, die an der beruflichen Eignungsbeurteilung mitwirken. Herb war natürlich die blanke Ablehnung der Bundesvereinigung der Deutschen Arbeitgeberverbände, die sich auf die »bewährte Praxis« in Unternehmen zurückzog; über ein derartiges Beharren manchmal fragwürdiger Praktiken war der Ausschuss entsetzt. In 2007 wird der Ausschuss wieder zusammentreten, um die zwischenzeitlichen Erfahrungen zu überdenken und ggf. Änderungen vorzunehmen. Wie war denn bisher die Resonanz bei den Betroffenen, also beispielsweise Betriebspsychologen, Unternehmern und Bewerbern? Die Resonanz bezog sich sehr oft auf einen »Bürokratie-Vorwurf«. Zwar sehen viele ein, dass es normative Festlegungen bei Papierformaten (A4), Schrauben u. Ä. geben muss, damit die Dinge zusammenpassen, aber nur die mit Qualitätssicherung Befassten sind sich bewusst, dass normative Festlegungen auch für Dienstleistungen nötig sind. Die Liste derartiger Normen und andere Informationen kann man beim DIN einsehen: www-din.de. In diesem Sinne ist es schade, dass der Nutzen aus einem geordneten Vorgehen mit dem Aufruf zur Evaluation nicht als Chance gesehen wird, berufliche Eignungsbeurteilung so zu verbessern, dass die Fehler einer fälschlichen Einstellung minimiert werden: Dies betrifft doch das Unternehmen, das letztlich Nichtgeeignete lange ertragen muss, aber doch auch Arbeitnehmer, die nicht entsprechend ihrer Fähigkeiten und Neigungen eingesetzt werden. Kann nun jeder Laie, den Text wie ein Kochbuch in der Hand haltend, berufliche Eignungsdiagnostik durchführen? Mit dem Text der DIN 33430 in der Hand wird man kaum eine gute Eignungsbeurteilung machen können. Wenn man die Inhalte als »Aufgaben zum Nachdenken und Regeln« der Eignungsbeurteilungspraxis ansieht, dann wird ein Schuh daraus. Deshalb wurde von Hornke und Kersting (2004) auch eine Checkliste erstellt, die den Normtext in Denk- und Handlungsanweisungen für den Praktiker umsetzt. Deshalb wurde auch 6

449

8.2 · Personalbeurteilung

eine Fortbildungsserie für in der Eignungsbeurteilung Tätige entwickelt (s. http://www. dpa-bdp.de/willkommen__21.html). Deshalb wurde auch eine Lizenzprüfung konzipiert und zwischenzeitlich schon über 40mal durchgeführt. Deshalb wurde ein öffentliches Register erstellt, in das sich - auch psychologiefremde - Personen nach erfolgreicher Lizenzprüfung eintragen lassen können. Deshalb wird weiter für die DIN 33430 geworben, damit aus der Normungsidee eine normierte, gute Praxis wird, bei der nicht einfach Schritte weggelassen oder vergessen werden, die für die so entscheidende Beurteilung der Eignung von Personal wesentlich sind. Was bedeutet DIN 33430 für Absolventen eines Psychologiestudiums, die in ihrem angestrebten Beruf berufliche Eignungsdiagnostik betreiben wollen? Zunächst bedeutet es, dass Absolventen der Psychologie sich auf Augenhöhe mit den Angehörigen anderer Berufsgruppen messen müssen, wenn es um Mitarbeit in der beruflichen Eignungsbeurteilung geht. Sie alle haben über solides Wissen zu verfügen und auftragsangemessen zu planen sowie eignungsbezogene Informationen zu erheben. Woran kann beispielsweise ein Bewerber erkennen, dass seine berufliche Eignung professionell nach den DIN-Standards beurteilt wird? Zunächst einmal daran, dass die Rückmeldung, die jemand nach der Eignungsbeurteilung erhält, die eigenen Leistungen und Neigungen angemessen widerspiegelt. Problematisch wird das naturgemäß dann, wenn Bewerber sich anders sehen als sie von Eignungsbeurteilern erlebt werden. Aber die DIN 33430 will da ja gerade helfen, Willkür in der Eignungsbeurteilung abzustellen. Wird in Zukunft eine einheitliche europäische Norm angestrebt? Die DIN 33430 auf europäischem Parkett zu präsentieren und u. a. dort zu etablieren ist eine sinnvolle und folgerichtige Idee, aber so schwierig es war, sich national zu einigen, so schwierig wird es sein, sich europäisch zu einigen. In Österreich hat man zwischenzeitlich die DIN 33430 in eine Önorm übernommen. Vorbildlich sind zwar die Vorstellungen der British Psychological Society, die A-, B-, C-Lizenzen für Testanwender vorsehen. Aber die DIN 33430 rückt ja gerade vom Test ab und betont den gesamten Prozess der Eignungsbeurteilungsarbeit. Das ist weit mehr als Testanwenden! < Um Antworten auf jede dieser Fragestellungen zu erhalten, bedient sich die berufliche Eignungsdiagnostik nahezu der gesamten Palette verfügbarer Instrumente, vielleicht mit Ausnahme der projektiven Verfahren. Innerhalb des Entscheidungsprozesses, der zur Einstellung bzw. zur Ablehnung eines Bewerbers führt, kommt auch heute noch dem Bewerbungsgespräch die Funktion eines Eckpfeilers zu (. Tab. 8.2). Darin ist allerdings eine gewisse Gefahr insofern enthalten, als implizite Theorien auf Seiten des Gesprächsleiters eine informationssuchende und entscheidungsleitende Funktion übernehmen können, und zwar zu Lasten einer sachlichen Angemessenheit. Daher sind strukturierte Interviews gegenüber unstrukturierten wegen ihrer höheren Validität und Fairness - die Bewerber werden weitgehend gleich behandelt - zu bevorzugen. Was Tests angeht, so kommen hauptsächlich solche zur Allgemeinen Intelligenz zur Anwendung. Insbesondere der Zusammenhang der Allgemeinen Intelligenz mit der Leistungshöhe im Beruf ist durch zahllose Untersuchungen empirisch gut belegt, und zwar für nahezu alle Gruppen von beruflichen Tätigkeiten (s. Eckardt & Schuler, 1992, S. 538). Weitere Merkmale, die mittels Leistungstests erfasst werden, gehören je nach den Anforderungen der zu besetzenden Stellen zu den Bereichen der anschauungsge-

Bewerbungsgespräch

Tests zur Allgemeinen Intelligenz

8

450

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

. Tabelle 8.2. Einsatzhäufigkeit und Prognosegüte verschiedener Verfahren zur Vorhersage von Ausbildungs- und Berufserfolg

Verfahren

Kognitive Leistungstests Arbeitsproben Leistungstestsc Interview, strukturiert Interview, unstrukturiert Persönlichkeitstestsc Assessment Center Biograf. Fragebogen Referenzen Graphologie

Ausbildungserfolg

Berufserfolg

Einsatzhäufigkeit (%) a

Prognosegüteb

Einsatzhäufigkeit (%) a

Prognosegüteb

32 20 40 55 28 10 6 11 5 0

.56 _ – .35 .35 .38 – .30 .23 –

3 12 5 50 51 5 12 14 32 3

.51 .54 .48 .51 .38 .41 .37 .35 .26 .02

Anmerkung. Leicht modifiziert nach Schmidt-Atzert (2005, S. 227). Ergebnisse zu ausgewählten Verfahren. Weitere Erläuterungen im Text. a Einsatzhäufigkeit in deutschen Unternehmen nach Schuler, Frier und Kaufmann (1993); prozentualer Anteil der Unternehmen, die das Verfahren zur externen Personalauswahl bei Auszubildenden/(Fach-) Arbeitern, Angestellten ohne Führungsaufgaben, Trainees und Führungskräften einsetzen. Bei Interview jeweils höchste Nennungshäufigkeit aus Personalabteilung oder Fachabteilung. b nach Schmidt und Hunter (1998). c Zur Spezifizierung dieser Verfahren 7 Text.

8

Leistungsmotivation

bundenen Intelligenz (Wahrnehmungsgeschwindigkeit und -genauigkeit) sowie der Psychomotorik (Hand- und Fingergeschicklichkeit, sensomotorische Koordination). Insbesondere wird jedoch den letzteren gewöhnlich ein sehr viel geringeres Gewicht als den kognitiven Fähigkeitsfaktoren zugemessen. In . Tab. 8.2 sind unter »Leistungstests« Verfahren zusammengefasst, die berufsrelevantes Wissen erfassen. Leistungsmotivation stellt weithin verbreiteten Überzeugungen zufolge eine ganz wesentliche Voraussetzung für beruflichen Erfolg dar. Spangler (1992) führte eine Metaanalyse über insgesamt 105 empirische Untersuchungen zum Zusammenhang zwischen Leistungsmotivation und verschiedenen Leistungsmaßen durch. Die Leistungsmotivation wurde entweder durch Fragebogen (193 Korrelationen, N = 15.328) oder durch einen projektiven Test, den TAT (190 Korrelationen; N = 12.961) gemessen. Unter den analysierten Leistungsmaßen stellen reale Leistungen im Leben, bspw. Einkommen oder Verkaufserfolge, das härteste Validitätskriterium dar. Fragebogenmaße korrelierten durchschnittlich zu .13 mit realen Leistungen, TAT-Maße zu .22. Bei den Koeffizienten handelt es sich um beobachtete, unkorrigierte Werte. Die leichte Überlegenheit des projektiven Verfahrens ist möglicherweise auf eine Konfundierung mit Intelligenz zurückzuführen. Intelligentere Personen produzieren eher längere Geschichten zu den TAT-Bildern, und mit der verbalen Produktivität steigt das Motivmaß an. Eine weitere Metaanalyse (Robbins, Lauver, Le, Davis, Langley & Carlstrom, 2004) galt der Beziehung zwischen psychosozialen Faktoren, unter anderem auch von – mit Fragebogen erfasster – Leistungsmotivation und Studienerfolg. Die Autoren errechneten eine mittlere Korrelation von .26 (korrigiert .30) zwischen Leistungsmotivation und

451

8.2 · Personalbeurteilung

Studienleistungen in Form von Noten (17 Korrelationen, N = 9.330). Fazit: Trotz der plausiblen Annahme, dass berufliche Leistungen oder Studienleistungen erheblich von der Leistungsmotivation abhängen, lassen sich zwar positive, aber doch nur schwache Korrelationen finden. Zwischen den »Big-Five«-Persönlichkeitsmerkmalen und Berufserfolg besteht nur ein schwacher Zusammenhang. Barrick, Mount und Judge (2001) haben insgesamt 15 Metaanalysen dazu vorgefunden und die Ergebnisse daraus aggregiert. Der höchste Zusammenhang besteht mit einer Korrelation von .12 für Gewissenhaftigkeit (Mittelwert von 239 Studien, N = 48.000). Nach Korrektur für Varianzeinschränkung und Reliabilität entspricht dem eine Korrelation von .27 auf Konstruktebene. In Tab. 8.2 sind unter »Persönlichkeitstests« Ergebnisse zu einer speziellen Variante von Fragebögen aufgeführt, nämlich Integritätstests. Diese Verfahren wurden entwickelt, um kontraproduktives Verhalten im Unternehmen (Diebstahl, Alkohol- oder Drogenkonsum, Beschädigung oder Zerstörung von Sachen etc.) vorherzusagen. Integritätstests weisen nicht nur eine beachtliche Validität auf, sie haben zudem eine inkrementelle Validität gegenüber der Intelligenz (Schmidt & Hunter, 1998). In Deutschland finden Integritätstests kaum Verwendung. Relativ gute Validitäten erbringen biografische Fragebogen, deren Grundgedanke darin besteht, »dass vergangene Erfahrungen und deren subjektive Verarbeitung brauchbare Prädiktoren künftigen Verhaltens sein müssten« (Schuler & Prochaska, 1992, S. 171). Metaanalysen ergaben allerdings, dass die Höhe der Validitätskoeffizienten stark von der jeweiligen Gruppe abhängt, sodass z. B. akzeptable Werte bei Militärs und Wissenschaftlern, nur sehr niedrige hingegen (aus verständlichen Gründen) bei Jugendlichen zu beobachten waren (zusammenfassend s. Schuler & Prochaska, 1992). Die bei den erwähnten und weiteren Prädiktortypen als durchschnittlich ermittelten Validitätskoeffizienten sind in . Tab. 8.2 zusammengestellt. Die in der ersten Spalte aufgeführten Befragungsergebnisse zeigen, dass die Anwendungshäufigkeit eines Verfahrens mehrfach nicht mit der Validität korrespondiert. So haben sich kognitive Leistungstests, andere Leistungstests und Arbeitsproben zur Vorhersage von Berufserfolg bewährt. Den Befragungsergebnissen zufolge werden sie dennoch relativ selten eingesetzt. Eine Institution, in der Personalauswahl in großem Umfang betrieben wird, ist die Bundeswehr. Das 7 Interview mit Dr. Hansen gibt einen Einblick in die Praxis der Personalauswahl und informiert über die Anforderungen an Psychologen, die bei der Bundeswehr tätig sein wollen. > Interview mit Dr. Dieter Hansen zum Thema »Psychodiagnostische Verfahren

bei der Bundeswehr« Wie viele Psychologen arbeiten bei der Bundeswehr, welche Anforderungen müssen sie bei der Einstellung erfüllen, und wie werden sie weiter für ihre Einstellung qualifiziert? Zahl der Psychologinnen und Psychologen bei der Bundeswehr: 180. Anforderungen bei der Einstellung: 4 Hauptdiplom in Psychologie einer Universität, 4 Uneingeschränkte Bereitschaft zum Einsatz im gesamten Bundesgebiet, 4 Uneingeschränkte Bereitschaft zur truppenpsychologischen Ausbildung und zur Teilnahme an Auslandseinsätzen der Bundeswehr (ggf. im Soldatenstatus), 6

Andere Persönlichkeitsmerkmale

Biografische Fragebogen

8

452

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

4 Höchstalter bei Einstellung: 35 Jahre, 4 Für eine Tätigkeit als Klinische/r Psychologin/e an einem Bundeswehrkrankenhaus

wird die Approbation zur/zum Psychologischen Psychotherapeutin/en erwartet. Grundeinweisung: Alle neu eingestellten Psychologinnen und Psychologen werden zu Beginn ihrer Dienstzeit in die verschiedenen Eignungsfeststellungsverfahren bei der Offizierbewerberprüfzentrale, einem Zentrum für Nachwuchsgewinnung und einem Kreiswehrersatzamt eingewiesen. Die verwendungsbegleitende Fachfortbildung besteht u. a. aus Lehrgängen zum Erwerb notwendiger Verwaltungs-, Sprach-, DV- und Führungskenntnisse. Die verwendungsaufbauende Fachausbildung richtet sich an diejenigen Psychologinnen und Psychologen, die für eine Verwendung, bei der zusätzliches Fachwissen erforderlich ist (Flugpsychologie, Ergonomie, Klinische Psychologie, ABO-Psychologie), oder für eine zusätzliche truppenpsychologische Funktion vorgesehen sind.

8

Dr. Dieter Hansen, Dipl.-Psych., Referatsleiter im Bundesministerium der Verteidigung, zuständig für Psychologie in der Bundeswehr (Personalpsychologie, Truppenpsychologie, Klinische Psychologie, Ergonomie, Organisationspsychologie etc.).

Für welche Aufgabenbereiche innerhalb der Bundeswehr sehen Sie einen besonderen Nutzen der psychologischen Diagnostik? Personalpsychologie in den Streitkräften: 4 Auswahl von Bewerberinnen und Bewerbern für die Laufbahnen der Offiziere des Truppendienstes und des Sanitätsdienstes, 4 Auswahl für die Laufbahn der Offiziere des militärfachlichen Dienstes, 4 Auswahl für die Übernahme als Berufssoldat, 4 Auswahl von Bewerberinnen und Bewerbern für die Laufbahnen der Mannschaften, Unteroffiziere und Feldwebel, 4 Auswahl von Personal für Spezialverwendungen (Fliegerischer Dienst, Flugsicherungskontroll- und Einsatzführungsdienst, Kommandosoldaten, Kampfschwimmer, Waffentaucher, Feuerwerker, Feldnachrichtenpersonal, Kampfmittelräumungspersonal, IT-Personal etc.). Personalpsychologie in der Wehrverwaltung: 4 Eignungsuntersuchung und Eignungsfeststellung von Wehrpflichtigen, 4 Auswahlverfahren für die Einstellung im Höheren Dienst (Juristen, Wirtschaftswissenschaftler, Ingenieure, Psychologen), 4 Auswahlverfahren für die Einstellung im mittleren und gehobenen nichttechnischen und technischen Dienst, 4 Auswahlverfahren für den Aufstieg vom mittleren in den gehobenen nichttechnischen und technischen Dienst. Klinische Psychologie: 4 Diagnostik bei psychischen Erkrankungen sowie bei Lern- und Leistungsstörungen in der Ausbildung. Inwieweit bedienen Sie sich bei der Bearbeitung Ihrer Aufgaben jener Verfahren, die in Verlagsprogrammen enthalten sind, inwieweit entwickeln Sie eigene Instrumente? Im klinisch-psychologischen Bereich werden vor allem Verfahren aus Verlagsprogrammen verwendet. Im Bereich der Personalauswahl werden zumeist speziell für die Bundeswehr entwickelte neben einigen auf dem Markt erhältlichen Verfahren eingesetzt. 6

453

8.2 · Personalbeurteilung

8

Für Außenstehende kommen Fragen der Belastbarkeit eine besondere Bedeutung innerhalb militärischer Belange zu; stimmt das, und welcher Art sind die darauf gerichteten Instrumente? Das Merkmal »Belastbarkeit« ist in der Tat für die Mehrzahl der militärischen Verwendungen von besonderer Bedeutung. Belastbarkeit wird mit folgenden Instrumenten bewertet: 4 teilstandardisiertes Interview (Prüfgruppe aus Psychologen und Offizieren), 4 Verhaltensbeobachtung bei simulationsgestützten Arbeitsproben, 4 Verhaltensbeobachtung bei Gruppensituationsverfahren. Für den Laien müssten Integritätstests in einer Organisation wie der Bundeswehr eine große Bedeutung haben, stimmt das? Sog. Integritätstests finden bei der Bundeswehr keine Verwendung. Wie ist es Ihren Erfahrungen zufolge um die prognostische Validität der eingesetzten diagnostischen Verfahren bestellt? Die Erfassung der prognostischen Validität der in der Bundeswehr eingesetzten diagnostischen Verfahren bereitet erhebliche Probleme, da die Verfahren häufig geändert werden (Berücksichtigung neuer Anforderungen in der Ausbildung und im beruflichen Einsatz), und weil die Zeitspanne zwischen Testdurchführung und der Verfügbarkeit von Leistungsergebnissen aus der Ausbildung bzw. aus der beruflichen Bewährung zumeist mehrere Jahre beträgt. Einige Analysen zeigen, dass die Validitätskoeffizienten der simulationsgestützten Arbeitsproben im Mittel über .50 liegen, während Intelligenz- und Konzentrationsverfahren mittlere Werte um .40 erreichen. Weniger valide sind Interview und Gruppensituationsverfahren. In welchem Verhältnis steht nach Ihren Erfahrungen der personelle Aufwand der psychologischen Eignungsdiagnostik zu dessen Nutzen? Militärische Ausbildungsgänge sind im Allgemeinen mit hohen Kosten verbunden (z. B. kostet die Ausbildung eines Kampfpiloten 1,5 Mio Euro). Darüber hinaus können Fehlleistungen von Spezialpersonal, das fälschlicherweise ausgewählt wurde, in risikoreichen Situationen (z. B. Flugsicherheit) zu dramatischen Konsequenzen führen. Personalauswahl dient insofern nicht nur dazu, die Versagerraten in der Ausbildung auf einem vertretbar niedrigen Niveau zu halten, sondern auch der Gewährleistung der Sicherheit und Effektivität im Einsatz. Sowohl aus qualitativer als auch aus ökonomischer Sicht hat sich der Einsatz der psychologischen Eignungsdiagnostik mit dem damit verbundenen personellen Aufwand im Rahmen der Bundeswehr ausgezahlt. < ! Eignungsdiagnostische Untersuchungen werden durchgeführt, um größtmögliche Übereinstimmung zwischen beruflichen Anforderungen und optimaler Bewerberauswahl und -zuordnung zu erreichen. Dazu bedient sie sich nahezu der gesamten Palette verfügbarer Instrumente. Besondere Bedeutung kommt dem Bewerbungsgespräch zu.

Ein wiederkehrendes Problem eignungsdiagnostischer Untersuchungen besteht darin, dass Testverfahren zum Einsatz gelangen, die nicht in ausreichendem Maße auf die üblichen Testgütekriterien hin überprüft wurden. Das liegt vielfach daran, dass zahlreiche Betriebe aufgrund sehr spezifischer Voraussetzungen und Anforderungen der jeweiligen Stellen zunächst eigene Testverfahren entwickeln, die dann aus Zeit- oder Geldmangel, mitunter auch weil nach einer Stellenbesetzungsphase nicht mehr die

Problem: Mangelnde Testgüte der Verfahren

454

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

Problem: Meist nur Statusdiagnostik

Platzierung

8

Notwendigkeit weiterer Testuntersuchungen besteht oder sich die Gegebenheiten im Umfeld ändern, keiner weiteren Überprüfung mehr unterzogen werden. Ein weiterer Problembereich liegt darin, dass Eignungsdiagnostik in aller Regel Status- und nicht Prozessdiagnostik ist. Damit bestimmt gleichsam die Tagesform der Bewerber ihre Chance, und die punktuellen Messungen eröffnen nur geringe Möglichkeiten, treffsichere Aussagen über künftige Entwicklungen der Bewerber zu machen. Um die Statusdiagnostik durch die Perspektive des Prozessualen zu erweitern, wurden u. a. die Entwicklungen des Assessment Centers (7 Abschn. 8.2.2) vorangetrieben. Bei dieser Technik werden mehrere Personen für meistens 2–3 Tage unter gleichsam »kasernierten« Bedingungen zusammengeführt. In derartigen Settings bearbeiten die Probanden nicht nur vielfältige Leistungs- und Persönlichkeitstests, sondern nehmen auch an Gruppen- und Kommunikationsübungen teil, simulieren Arbeits- und Gruppenprozesse usw. Die Ergebnisse werden i. Allg. von Führungskräften des betreffenden Konzerns und von Psychologen beurteilt. Trotz des relativ hohen Aufwandes an Kosten und Personal finden Assessment Center wegen ihrer relativ hohen Validität zunehmend mehr Anwendungsbereiche. In vielen Fällen dürfte die »Methode der Wahl« in der Realisierung einer möglichst langen Probezeit liegen. Allerdings erhalten darin nur die bereits eingestellten Bewerber die Chance, sich in der konkreten Arbeitssituation zu bewähren. Während in Unternehmen und Behörden vorrangig eine Konkurrenzauslese betrieben wird, stellt sich bei der Berufsberatung die Frage nach der richtigen Platzierung. Welcher Beruf oder welche Berufsausbildung ist für den Ratsuchenden am besten geeignet? Diese Frage wird an Psychologen der Bundesagentur für Arbeit gerichtet (7 dazu auch Interview mit Prof. Hilke). Selektion und Platzierung unterscheiden sich in mehrfacher Hinsicht (. Tab. 8.3). Bei einer Selektion genügt es, einige wenige Merkmale der Bewerber zu erfassen, die einer Anforderungsanalyse und Validitätsuntersuchungen zufolge für den einen Beruf relevant sind. Auch wenn mehrere Bewerber geeignet sind, wird nur der beste ausgewählt; die Auswahl bezieht sich auf Personen. Für eine Berufswahlentscheidung werden die Anforderungen mehrerer Berufe mit dem Eignungsprofil des Ratsuchenden abgeglichen; hier bezieht sich die Auswahl auf Berufe. In einer Auswahlsituation werden sich die Bewerber günstig darzustellen versuchen. Beim Einsatz von Fragebögen und Interviews ist deshalb mit Verfälschungen zu rechnen. Auch in einem Assessment Center besteht die Gefahr, dass sich Bewerber so präsentieren, wie es ihnen vorteilhaft erscheint. In einer Beratungssituation ist die Motivlage eine andere; der Proband wird sich eher so darstellen, wie es für ihn typisch ist. Deshalb kommen in dieser Situation auch Verfahren in Frage, die leicht verfälscht wer-

. Tabelle 8.3. Unterschiede zwischen Selektion und Platzierung

Selektion

Platzierung

Fragestellung

Welcher Proband passt am besten zu dem Beruf?

Welcher Beruf passt zum Eignungsprofil des Probanden?

Ziel des Probanden

guter Eindruck

realistisches Bild

Messgegenstand

vorwiegend Leistungsmerkmale

auch Interessen und Persönlichkeit

Normen

nicht unbedingt erforderlich

unbedingt erforderlich

455

8.2 · Personalbeurteilung

8

den können. Persönlichkeitsmerkmale und (berufliche) Interessen sind für die Platzierung relevant und werden daher berücksichtigt. Da für die einzelnen Berufe Mindestanforderungen (z. B. eine mindestens durchschnittliche Intelligenz) feststehen, sind normierte Werte erforderlich. Die Verfahren müssen nicht nur normiert sein, es ist auch erforderlich, dass berufsbezogene Vergleichswerte von erfolgreichen Stelleninhabern verfügbar sind. > Interview mit Prof. Dr. Reinhard Hilke zum Thema »Anwendung diagnosti-

scher Verfahren bei Berufseignungsuntersuchungen« Wie viele Berufseignungsuntersuchungen führt die Bundesagentur für Arbeit (BA) jedes Jahr durch und zu welchem Zweck wird von der BA Diagnostik betrieben? Eignungsurteile werden im Rahmen jeder beruflichen Beratung und bei jeder Vermittlung durch eine Vermittlungs- und Beratungsfachkraft der BA abgegeben. Es sind im Jahr etwa 240.000 solcher Untersuchungen. Wir unterscheiden fünf Arten von Begutachtungen; das Spektrum reicht von der »Begutachtung nach Aktenlage« über die »Standardisierte Eignungsuntersuchung« mit dem Berufswahltest (BWT) bis zur »Psychologischen Begutachtung von hochgradig Sinnesbeeinträchtigten«. Es geht dabei immer um Fragen der beruflichen Eignung, aber zumeist nicht um Fragen der Eignung alleine. Zum Psychologischen Dienst (PD) kommen Menschen im Alter von 14 Jahren bis über 50 Jahre, Menschen jedes Bildungsniveaus, geistig behinderte Menschen ebenso wie Akademiker und Menschen mit Behinderungen, deren berufliche Eingliederung der Agentur-Psychologe unterstützt. Er muss Eignungsaussagen zu etwa 800 Berufen machen. Eigentlich müsste ich von der Agentur-Psychologin sprechen, denn wir haben bald mehr weibliche Psychologen beschäftigt als männliche. Worin unterscheiden sich die Tests, die vom Psychologischen Dienst der BA verwendet werden, von den Tests, die von den Testverlagen zum Kauf angeboten werden? Wir müssen im Rahmen von psychologischen Begutachtungen auch Aussagen machen, auf die Entscheidungen über finanzielle Leistungen der BA gestützt werden können. Wir müssen deshalb auf den Testschutz besonderen Wert legen. Dies ist der zentrale Grund für die Entwicklung BA-eigener Testverfahren. Bei der Entwicklung der Verfahren orientieren wir uns an denselben Konstruktionsprinzipien und wissenschaftlichen Kriterien wie andere Testkonstrukteure auch. Wir haben allerdings den nicht zu unterschätzenden Vorteil, Auswahl bzw. Konstruktion der Einzeltests stärker populations- und fragestellungsbezogen vornehmen zu können als ein Testautor, der für den Markt produziert. Zudem stellen wir bei den BA-eigenen computergestützten Tests durch verzweigte Testinstruktionen sicher, dass die Ratsuchenden mit dem Testmaterial vertraut sind, bevor der eigentliche Test beginnt. Für die im Rahmen der Entwicklung der Tests notwendigen empirischen Studien können wir in der Regel auf relativ große Stichproben zurückgreifen und haben damit eine gute »empirische Basis« für unsere Verfahren. Wie viele Psychologen arbeiten bei der BA, welche Anforderungen müssen sie bei ihrer Einstellung erfüllen, und wie werden sie weiter für ihre Tätigkeit qualifiziert? Insgesamt arbeiten im PD der BA 443 Psychologinnen und Psychologen, 410 in den Agenturen, 20 in den Regionaldirektionen und 13 im BA-Servicehaus und der Zentrale. 6

Prof. Dr. Reinhard Hilke, Leiter des Psychologischen Dienstes der Bundesagentur für Arbeit

456

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

Bei der Auswahl der Bewerber legen wir Wert auf gute Kenntnisse und Fertigkeiten auf sehr verschiedenen Gebieten der Psychologie. Zudem muss man mit Ratsuchenden rasch ein Arbeitsbündnis herstellen können und über die Fähigkeit verfügen, zügig die persönliche und berufliche Situation eines Menschen zu analysieren und das weitere fachliche Vorgehen zu planen. Neu eingestellte Kolleginnen und Kollegen werden neun Monate praxisnah eingearbeitet. Nach etwa eineinhalb Jahren schließt sich berufsbegleitend eine fachliche Vertiefung an, in der der Schwerpunkt auf der psychologischen Beratung liegt, die auch für die Begutachtungsarbeit von wesentlicher Bedeutung ist.

8

Schildern Sie uns bitte den Ablauf einer Begutachtung, wie er sich aus der Sicht eines Rehabilitanden darstellt, der aus gesundheitlichen Gründen nicht in seinem erlernten Beruf verbleiben kann. Es kommt gar nicht so selten vor, dass Menschen den ausgeübten Beruf aus gesundheitlichen Gründen aufgeben müssen und gezwungen sind, sich im Rahmen der beruflichen Rehabilitation gänzlich neu zu orientieren. Die Beurteilung, für welche Berufe diese Personen trotz ihrer Krankheit bzw. Behinderung geeignet sind, kann von der Vermittlungs- und Beratungsfachkraft in der Regel nicht anhand der vorhandenen beruflichen Kompetenzen beurteilt werden. In dieser Situation muss auf Fähigkeiten und andere psychologische Personmerkmale zurückgegriffen werden, die basalen Charakter haben und die aus diesem Grund auch gute berufliche Prognosen erlauben. Die Vermittlungs- und Beratungsfachkraft, die den Rehabilitanden betreut, beauftragt den PD, eine psychologische Begutachtung durchzuführen und Aussagen dazu zu machen, für welche der in die engere Wahl gezogenen Berufe der Rehabilitand geeignet ist. Der PD lädt den Rehabilitanden zu einer Begutachtung ein. Im PD führt der Psychologe mit dem Rehabilitanden zunächst ein Gespräch. Er thematisiert die Fragestellung der Vermittlungs- und Beratungsfachkraft, verständigt sich mit dem Rehabilitanden über dessen Anliegen und bespricht nach genauer Analyse der ihm nun vorliegenden Daten das weitere Vorgehen. Danach bearbeitet der Rehabilitand an einem der Testplätze im Untersuchungsraum die vom Psychologen festgelegten psychologischen Testverfahren. Die Untersuchungsergebnisse, die vom IT-System DELTA sofort nach der Untersuchung zur Verfügung gestellt werden, kann der Psychologe an seinem Bildschirmarbeitsplatz einsehen und sofort zur Vorbereitung auf das zweite Gespräch mit dem Rehabilitanden fachlich interpretieren. Dieses hat sowohl diagnostischen als auch beratenden Charakter. In dem Gespräch erhebt er, soweit erforderlich, weitere Daten, erläutert dem Rehabilitanden die Ergebnisse der Begutachtung und bearbeitet mit ihm dann die Frage, welche Folgerungen aus den Ergebnissen bezogen auf die Fragestellung und sein Anliegen zu ziehen sind. In dem Gutachten für die Vermittlungs- und Beratungsfachkraft stellt der Psychologe sein Vorgehen in der Begutachtung, deren Ergebnisse sowie die Folgerungen für den weiteren Vermittlungs- und Beratungsprozess schriftlich dar. Das Gutachten, das er der Vermittlungs- und Beratungsfachkraft auf elektronischem Wege übermittelt, ist so abgefasst, dass diese ihre Arbeit möglichst »nahtlos« fortsetzen kann. Das Gutachten enthält bzw. stützt sich nur auf Daten, die der Psychologe auch offenbaren darf, d. h. auf Daten, die nicht Geheimnisse im Sinne des § 203 StGB darstellen. Diese Vorschrift hat der Psychologe auch bei der inneramtlichen Weitergabe von Daten zu beachten. Im Übrigen darf er nur solche Daten überhaupt erheben, die der Sozialleistungsträger BA zur Erledigung seiner Aufgaben benötigt. 6

457

8.2 · Personalbeurteilung

An wen werden die Ergebnisse noch weitergeleitet? Bei Rehabilitanden beispielsweise wird das Gutachten mit Einverständnis des Ratsuchenden an Stellen weitergegeben, die im weiteren Rehabilitationsprozess mit der Wahrnehmung von Aufgaben betraut wurden. Können bei der Ergebnisrückmeldung nicht auch Missverständnisse entstehen? Psychologe, Vermittlungs- und Beratungsfachkraft und Klient verwenden Begriffe wie Intelligenz oder Persönlichkeit möglicherweise unterschiedlich. Wie stellen Sie sicher, dass die Kommunikation klappt? Der Psychologe muss sich von der ersten Minute des Kontaktes an auf die Sprachkompetenz des jeweiligen Ratsuchenden einstellen, damit er Sinn und Zweck der Begutachtung vermitteln, diagnostisch verwertbare Daten erheben und den Ratsuchenden auch angemessen beraten kann. Der Vermittlungs- und Beratungsfachkraft, die in einem Fachhochschulstudium auf ihre Aufgabe vorbereitet wird, stellt der Psychologe die Ergebnisse bezogen auf ihre Fragestellung so verhaltensnah wie möglich dar. Der Psychologe steht auch immer zu einer Fallbesprechung zur Verfügung, wenn Fragen zur Interpretation der im Gutachten gemachten Aussagen auftreten. Es kann in einer Fallbesprechung auch um die »Tragfähigkeit« einer im Gutachten gemachten Eignungsaussage gehen, beispielsweise dann, wenn ein Ratsuchender seinen Berufswunsch wesentlich geändert hat. Was unternehmen Sie zur Qualitätssicherung? Was wir in Richtung Qualitätssicherung unternehmen, habe ich an anderer Stelle1 ausführlich dargestellt. Da wir gehalten sind, bundesweit eine vergleichbare fachliche Qualität in unserer Fach- und Fallarbeit sicher zu stellen, benötigen wir ein Qualitätssicherungskonzept, das umfassend ist und Akquisition und Einarbeitung der Psychologen und psychologisch-technischen Assistenten ebenso einschließt wie die Entwicklung von Testverfahren beispielsweise. Wie stellen Sie die prognostische Validität Ihrer Berufsempfehlungen sicher? Fordern Sie Rückmeldungen der Ratsuchenden über den weiteren Verlauf von deren Berufswahl bzw. die getroffenen Entscheidungen ein? Wir stützen unsere Prognosen auf Personmerkmale, von denen wir aufgrund empirischer Studien wissen, dass sie gute Prognosen erlauben. Im Vordergrund stehen dabei selbstverständlich die intellektuellen Fähigkeiten. Metaanalytischen Studien haben gezeigt, dass sich anhand dieser der Berufserfolg am besten vorhersagen lässt. Wir haben im Rahmen von Studien, die wir zum Zweck der Gewinnung berufsbezogener Normen für die Ausbildungsberufe durchgeführt haben, Berufswähler nach mehreren Jahren befragt und erhoben, ob sie ihre Ausbildung erfolgreich abgeschlossen haben, in dem entsprechenden Beruf noch tätig und zudem mit diesem noch zufrieden sind.
Interview mit Dr. Christian Dries zum Thema »Assessment Center in der Praxis:

Managementberatung« Herr Dries, stellen Sie doch bitte erst einmal Ihre Firma kurz vor. Wie viele Psychologen sind bei Ihnen beschäftigt und worauf haben Sie sich spezialisiert? Wir, das kölner institut für managementberatung, sind eine Unternehmensberatung, die sich auf die Kompetenzfelder Personalmanagement und Organisationsberatung spezialisiert hat. Durch die wissenschaftlich-psychologische Ausbildung unserer 15 fest angestellten Mitarbeiter und die enge Zusammenarbeit mit verschiedenen Hochschulen bearbeiten wir Fragestellungen der Praxis auf der Basis neuester wissenschaftlicher Erkenntnisse und Methoden. Insbesondere im AC Bereich gehören wir zu den führenden Anbietern in Deutschland. So vergeht kein Tag im Kalenderjahr, an dem nicht einer unserer Berater im nationalen oder internationalen Kontext ein Assessment durchführt. Aus welchen Gründen entscheiden sich Unternehmen dafür, Ihre Dienste in Anspruch zu nehmen? Vielleicht können Sie das an einem Beispiel erläutern. Aktuell ist unsere Auftragslage durch die wirtschaftliche Situation geprägt. Fragestellungen der Verhaltens- und Leistungsdiagnostik (Management Diagnostik) in Zeiten der Reorganisation oder der Akquisition haben eine entsprechende Nachfrage. Aber es gibt auf der anderen Seite auch die Kunden, die ihre Entwicklungsprogramme weiter elaborieren. So führt aktuell ein Kunde, Marktführer im Bereich der technischen Kommunikation, eine Zusammenführung beider Fragestellung in der Art durch, dass er mit unserer Hilfe umfangreiche Potentialassessments im Top-Management umsetzt, um im Anschluss daran die Weiterentwicklung des Managements differentiell und damit gezielter gestalten zu können. Worin bestand im vorliegenden Fall Ihre Leistung? Auf der Basis umfangreicher Anforderungs- und Sollprofil- Analysen haben wir ein umfangreiches Management Assessment (MA) zusammengestellt. Dieses MA wird von den Managern der oberen Ebenen besucht. Im Rahmen der umfangreichen Verhaltensdiagnostik wird ein Stärken- und Schwächenbild der einzelnen Teilnehmer und in der Aggregation der Führungsmannschaft erstellt. Im Rahmen von Feedbacksitzungen werden aus den individuellen Ergebnisreports individuelle Entwicklungsmaßnahmen abgeleitet. 6

Dipl.- Psych. Dr. Christian Dries, Geschäftsführer des kölner instituts für managementberatung.

8

466

Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie

Worin unterscheidet sich Ihre Arbeit von der eines Betriebspsychologen, der in einem Unternehmen fest angestellt ist? Im Prinzipiellen sollte es keine großen Unterschiede geben. Der Unterschied liegt eher im Systemischen. Der externe Psychologe als Berater ist unabhängiger (bzw. besitzt eine andere Abhängigkeit) als der interne Psychologe. So dürfte z. B. bei Reorganisationsprozessen, die einen Personalabbau notwendig machen, die Durchführungsobjektivität der diagnostischen Maßnahmen größer sein. Schließlich verfügt der externe Psychologe über Erfahrungen, die über das Unternehmen hinausgehen, sodass ihm Vergleichsprozesse (Benchmarks) möglich sind. Was halten Sie von der DIN 33430? Sind darin Selbstverständlichkeiten formuliert, die Sie ohnehin beachten? Oder wird hier ein Ideal beschrieben, das niemand erreichen kann? Weder noch: Bei der DIN-Norm handelt es sich meiner Ansicht nach um erstrebenswerte Qualitätsstandards, die zu erreichen sind und auch angestrebt werden müssen. Als formuliertes, qualitatives Grundverständnis eines ausgebildeten Diagnostikers wird der Erfolg der Norm davon abhängen, wie es gelingt, sowohl Psychologen als auch Nicht-Psychologen für die Qualitätsanforderungen zu begeistern. Das bedeutet u. a.: Keine unnatürlichen Prüfungshürden sowie transparente Test-Kriterien und nicht abgefragtes Wissen einer Diplomprüfung in Diagnostik. Es sollte unserer Erfahrung nach dringend über die Vermittlung der Norm und die Formulierung der Prüfungsfragen nachgedacht werden. Wenn z. B. Fragen der probabilistischen Testtheorie eine Rolle spielen sollten, sollten diese anwendungsorientiert sein und nicht an Vorlesungen der multivariaten Statistik erinnern.

8

Welche diagnostische Kompetenzen sind in Ihrem Beruf besonders gefordert? Was sollte ein Universitätsabsolvent mitbringen, der als Unternehmensberater mit Schwerpunkt Eignungsdiagnostik tätig sein will? Hier kann man sich getrost an der DIN-Norm orientieren. Sie bzw. er sollten sich in Fragen der Anforderungsprofilerstellung, der Methodenkompetenz und Evaluation zurechtfinden. Aber darüber hinaus erwarten wir auch noch ein Verständnis und das Interesse für wirtschaftliche Zusammenhänge. Erfolgreiche Eignungsdiagnostik im betrieblichen Kontext ist nie losgelöst vom ökonomischen Umfeld. So gesehen warnen wir vor einseitiger Spezialisierung. Und nicht zuletzt kommt auch der persönliche Erfahrungshorizont wie Praktika oder Berufsausbildungen dazu.
Interview mit Prof. Dr. Detlef H. Rost zum Thema »Hochbegabung: Begabungs-

diagnostische Beratung« Wenn man Hochbegabung als IQ über 130 definiert, müssen bei einer Normalverteilung der Intelligenz rund 2 % der Menschen hochbegabt sein. In Deutschland gibt es demnach etwa 1,6 Millionen Hochbegabte. Wie viele davon wissen Ihrer Einschätzung nach, dass sie zu dieser Gruppe gehören? Viele ältere Hochbegabte haben im Laufe ihres Lebensvollzugs schon, wie es ein Betroffener einmal ausdrückte, gemerkt, dass sie »nicht dumm« sind. Hochbegabte Schüler, insbesondere Grundschüler, sind sich im Regelfall nicht bewusst, dass sie zur Gruppe der Hochbegabten gehören – und das ist pädagogisch-psychologisch auch gut so, und es gibt keinerlei Änderungsbedarf. Einen genauen Prozentsatz kann ich nicht nennen, es dürften meiner Schätzung nach weniger als 10% der Hochbegabten sein. Es gibt einen speziellen Club, MENSA, exklusiv für Personen mit einem IQ>130. Diese Personen meinen, sie seien wegen ihrer hohen kognitiven Leistungsfähigkeit etwas Besonderes.

Sie leiten die einzige begabungsdiagnostische Beratungsstelle (BRAIN), die das Land Hessen eingerichtet hat. Warum finanziert das Land immerhin vier halbe Mitarbeiterstellen, wo doch jeder Psychologe mit Hilfe eines Intelligenztests feststellen kann, ob ein Mensch hochbegabt ist? Unsere Erfahrung zeigt leider, dass sich nicht wenige Diplom-Psychologen mit einer soliden – d. h. guten psychodiagnostischen Standards genügenden – Diagnostik kognitiver Leistungsfähigkeit und einer differenzierten Gutachtenerstellung ausgesprochen schwer tun - von den vielen Pädagogen und Ärzten, die trotz fehlender fachlicher Kompetenz Begabungsdiagnostik betreiben, einmal ganz abgesehen. Nicht selten werden uralte Tests eingesetzt, mit dem Resultat, dass wegen hochgradig veralteter Normen Kinder und Jugendliche als hochbegabt diagnostiziert werden, die deutlich von einer Hochbegabung entfernt sind (»falsch positive« Diagnose). Schließlich: Diagnostik sollte nie Selbstzweck sein - die bloße Anwendung eines Tests und das Konstatieren eines bestimmten IQs reichen nicht aus. In 99% der Fälle liegen bei BRAIN über die eigentliche Begabungsdiagnostik hinausgehende spezielle Beratungsanliegen vor (z. B. Förderfragen; Überspringen; vorzeitige Einschulung, Lern- und Verhaltensschwierigkeiten bzw. psycho-soziale Anpassungsprobleme, etc.). Für ein differenziertes Gutachten und ein umfassendes Beratungsgespräch benötigt ein qualifizierter Psychologe deshalb neben guten Kompetenzen in pädagogischer und psychologischer Diagnostik ergänzend auch solche in Gesprächsführung, Pädagogischer Psychologie und Entwicklungspsychologie sowie Klinischer Psychologie, und er muss mit der Vielfalt schulischer und außerschulischer Förderungsangebote und Fördermöglichkeiten gut vertraut sein. Noch zwei für die Beratungspraxis nicht unwichtige Argumente: Eine mit staatlicher Autorität ausgestattete begabungsdiagnostische Beratungsstelle kann in manchen Fällen eher Veränderungen anstoßen als frei praktizierende Psychologen. Da BRAIN keine Rechnung stellt, können auch weniger Betuchte kompetente Beratung bekommen. In der Diagnostikausbildung lernen die Studierenden, dass nicht der beobachtete Messwert alleine zählt. Der wahre Wert, die tatsächliche Intelligenz also, liege in 6

Dr. Detlef H. Rost, Prof. für Entwicklungspsychologie und Pädagogische Psychologie, Philipps-Universität Marburg, Leiter des Marburger Hochbegabtenprojekts und der Begabungsdiagnostischen Beratungsstelle BRAIN

490

Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie

einem Konfidenzintervall. Also kann beispielsweise auch jemand mit einem IQ von 125 hochbegabt sein und ein Mensch mit einem IQ von 136 ist möglicherweise fälschlicherweise als hochbegabt eingestuft worden. Wie gehen Sie mit diesem Problem um? Unser allgemeines Beratungsziel ist u. a., Ratsuchende, welche sich an BRAIN wenden, zu einer realistischen Sichtweise der kognitiven Leistungsfähigkeit zu verhelfen. Dabei ist die Angabe eines bestimmten IQ-Wertes (z. B. 132) manchmal nicht erforderlich. Wenn wir konkrete Zahlen nennen, geben wir stets die Bandbreite (z. B. 127 Interview mit Dipl.-Psych. Edmund Grieshaber zum Thema »Psychodiagnostische Verfahren in der Neurologie« Aus welchen Gründen kommen Patienten in die Neurologische Klinik, in der Sie tätig sind? Apoplektische Insulte [Schlaganfall], raumfordernde Prozesse, Systemerkrankungen (z. B. Multiple Sklerose, Morbus Parkinson), nach Schädel-Hirn-Traumen, Hypoxien [Sauerstoffmangel] z. B. nach Reanimation. Welche Bedeutung hat die Diagnostik für Ihre Arbeit mit den Patienten? Nur durch eine hypothesengeleitete Diagnostik wird es möglich, die Einschränkungen höherer Hirnleistungsfunktionen, die erkrankungs- oder verletzungsbedingt entstanden sind, zu objektivieren, sie qualitativ und quantitativ zu erfassen. Dieser Prozess ist für die Festlegung der therapeutischen Intervention, auch in anderen Therapiebereichen, von Bedeutung. Nur über die Erfassung der Störungsfelder in ihrer Intensität wird es möglich, die therapeutischen Anforderungen gezielt am momentanen Vermögen des Patienten zu orientieren. Dadurch ist Förderung möglich, und es wird sichergestellt, dass der Patient in den einzelnen Therapiesitzungen auch Erfolge realisieren kann. Spätestens gegen Ende des Aufenthaltes wird erneut eine neuropsychologische Diagnostik durchgeführt. Es sollen Veränderungen (hoffentlich Verbesserungen) erfasst und dokumentiert werden, ob und wo noch weiter Therapie erforderlich ist. Es muss geprüft werden, wie die berufliche Wiedereingliederung durchgeführt werden soll und was dabei zu beachten ist. Auch die Frage, ob eine Umschulung, Umsetzung oder Berentung erforderlich wird, wird u. a. durch die abschließende Diagnostik geklärt. Ca. 60% der täglichen Arbeit dienen der Diagnostik (Aktenstudium, Anamnesegespräch, Planung der Untersuchung, Untersuchung, Auswertung, Interpretation, Befunderstellung, Empfehlung). Machen die modernen bildgebenden Verfahren die psychologische Diagnostik in Zukunft nicht überflüssig? Wozu braucht man in einer apparativ gut ausgestatten neurologischen Klinik noch psychologische Diagnostik? Bildgebende Verfahren sind eine Hilfe in der hypothesengeleiteten Diagnostik. Die Kenntnis über Interaktion und Kommunikation der Hirnstrukturen sind bei weitem noch nicht so präzise, um immer exakt beurteilen zu können, ob und in welcher Intensität Einschränkungen entstanden sind. Qualifizierung und Quantifizierung der Störungsfelder und natürlich auch der Nachweis der Wirksamkeit neuropsychologischer Therapie erfordert gezielte neuropsychologische Diagnostik. Die apparativen medizinischen Verfahren wie CT, MRT u. Ä. leisten diese Aufgabe nicht. Teilweise sind auch neuropsychologische Einschränkungen zu objektivieren, obwohl bildgebende Verfahren keine Auffälligkeiten zeigen. Ein Sonderfall ist das PET, das die Möglichkeit bietet, 6

Dipl.-Psych. Edmund Grieshaber. Leiter der Abteilung für Neuropsychologie der Neurologischen Klinik GmbH Bad Neustadt/Saale seit 1988. Zertifizierung zum Klinischen Neuropsychologen GNP. Psychologischer Psychotherapeut.

542

Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern

das Gehirn in Aktion abzubilden und darzustellen, sowie jene Hirnareale, die bei spezifischen kognitiven Aktivitäten besonders angesprochen sind. Auch dieses bildgebende Verfahren wird eher der Forschung und spezifischen Fragestellungen dienen, aber nicht die neuropsychologische Diagnostik und Intervention ersetzen. Welche diagnostischen Verfahren setzen Sie besonders häufig ein, und zu welchem Zweck? Die Testbattterie zur Aufmerksamkeitsprüfung ist Standard, obwohl zu Recht auch viel Kritik an diesem Verfahren geübt wird. Im Bereich der Diagnostik von Gedächtnisstörungen kommt vorwiegend der VVM [Visueller und Verbaler Merkfähigkeitstest], der VLMT [Verbaler Lern- und Merkfähigkeitstest] und als Screening bei erheblichen Einschränkungen auch der RBMT [Rivermead Behavioural Memory Test] zum Einsatz. Zur Diagnostik räumlicher Leistungen wird beispielsweise der VOSP [Testbatterie für visuelle Objekt- und Raumwahrnehmung], aber auch der gute alte Mosaiktest eingesetzt. Das VS [Visual Space] wird bei spezifischen Fragen mit einbezogen. Nicht zu vergessen das NAI [Nürnberger-Alters-Inventar], das immer noch das Verfahren ist, das zu Gedächtnis und konzentrativer Leistung altersfaire Vergleichsnormen liefert. Hinsichtlich der Überprüfung exekutiver Funktionen wird u. a. die Standardisierte Link´sche Probe, die jedoch in hohem Maße auch Raumleistungen fordert, eingesetzt, daneben auch der Turm von London und der Burgauer Planungstest.

11

Haben Sie einen Wunsch an die Testentwickler und Testverlage, was die Verbesserung und Neuentwicklung von diagnostischen Verfahren angeht? Ein erheblicher Teil unserer Patienten sind ältere und alte Menschen. Daher sind Normierungen an dieser Gruppe erforderlich, die Normen der jüngeren nicht einfach linear interpolierbar. Die Entwicklung im Gesundheitswesen erfordert auch bei uns, möglichst ökonomisch zu Resultaten zu gelangen. Der Untersuchung in Kleingruppen wird zunehmend mehr Bedeutung zukommen. Ein in der Gruppe einsetzbarer Test zur Prüfung mnestischer Leistungen wäre z. B. sehr hilfreich. Auch die Schriftgröße, insbesondere bei Konzentrationstests, sollte so gestaltet sein, dass die Zeichen problemlos erkannt werden. Wenn Sie eine Psychologenstelle in Ihrem Team zu besetzten haben, welche Qualifikationsmerkmale sind aus Ihrer Sicht wichtig? Aus der Wahl der Studienschwerpunkte sollte Interesse an diagnostischen Fragestellungen deutlich werden. Einschlägige, mehrmonatige Praktika in einer Einrichtung, die sich mit der Diagnostik und Therapie neuropsychologischer Fragen beschäftigt, sollte das Interesse dokumentieren. Auch Bereitschaft zu psychotherapeutischer Arbeit, zur Hilfestellung bei der Krankheitsverarbeitung und Entwicklung tragfähiger Zukunftsperspektiven für den Betroffenen und seine Familienangehörigen ist wichtig. Dem Mitfühlen, ohne durch eine Überidentifikation handlungsunfähig zu werden, kommt eine wichtige Bedeutung zu, ebenso wie eigenständigem und strukturiertem Arbeiten im interdisziplinären Team. Das Arbeitsfeld muss deutlich sein: Schwerkranke Menschen, denen dieses Leiden häufig sehr anzusehen ist.
Interview mit Dr. Ulrike Schmidt-Aßmann zum Thema »Psychologische Gut-

achten in der Rechtssprechung« Wie häufig ziehen Sie Psychologen zu Rate? Ein- bis höchstens zweimal jährlich. In welcher Art von Fällen nehmen Sie die spezifische Kompetenz von Psychologen in Anspruch? Sorge- und Umgangsrechtsstreitigkeiten zwischen getrennt lebenden Eltern, selten zwischen Eltern und Pflegeeltern. Sind die dabei erstellten Gutachten von Psychologen für Sie nachvollziehbar und schlüssig? Inwiefern hilft es Ihnen? Nachvollziehbar und schlüssig: Ja. Normalerweise sind die psychologischen Gutachten in einen Anamnese- und Beobachtungs- sowie einen Diagnostikteil gegliedert. Die angewendeten Testverfahren sind bekannt bzw. werden erläutert. Die eingeholten Gutachten helfen mir. Nicht immer bringen sie für mich »neue« Erkenntnisse. Aber es ist einerseits hilfreich, wenn die eigene Meinung »fundiert« bestätigt wird, andererseits lässt sich durch Übersendung bzw. Erläuterung des Gutachtens an die Parteien oft ein Ergebnis besser vermitteln, wodurch die Akzeptanz für eine zutreffende Entscheidung erhöht bzw. im besten Falle eine Entscheidung sogar entbehrlich wird, weil die Eltern auf der Grundlage des Gutachtens eine eigenverantwortliche Lösung treffen. Welche Art von psychodiagnostischen Verfahren fehlt in Ihrem Arbeitsbereich am meisten? Die Arbeit einer Familienrichterin sollte weniger rückwärtsgewandt/aufklärend als lösungsorientiert sein. Wichtig wären also Tests, mit deren Hilfe zukünftiges Verhalten/ Einstellungen prognostiziert bzw. beeinflusst werden könnten. 6

Dr. Ulrike SchmidtAßmann, seit 1979 Familienrichterin am Amtsgericht Heidelberg; ausgebildete Familienmediatorin (BAFM); vielfältig in der Aus- und Weiterbildung tätig.

554

Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern

Inwieweit befürchten Sie, dass die Klienten bei familienrechtlichen Gutachtenfällen durch persönliche Verstellung das Ergebnis des Gutachtens in Ihrem Sinne beeinflussen können? Selbstverständlich wollen die Klienten sich gegenüber dem/der GutachterIn besonders gut darstellen. Ich sehe keine Gefahr darin, dass dadurch Ergebnis und Qualität des Gutachtens beeinflusst werden. Es ist ein bekanntes Phänomen. Wichtig ist die Art der Fragestellung an den Gutachter. Je weniger es um eine klassische Diagnostik mit Beschreibung eines »Ist-Zustandes«, je mehr es um lösungsorientierte Hilfestellung geht, umso weniger groß ist die Beeinflussung durch persönliche Verstellung. Wie ist es um Rückmeldungen über die Treffsicherheit der Gutachterempfehlungen in Ihrem Arbeitsbereich bestellt? Die Frage scheint mir nicht richtig formuliert. Nicht der Gutachter hat zu entscheiden, also »treffsicher« zu sein, sondern ich als Richterin. Dafür benötige ich die Hilfe des Gutachters. Habe ich Zweifel am Gutachten, werde ich mir das Gutachten mündlich erläutern lassen. Natürlich gibt es unterschiedliche Einschätzungen. Haben die psychologischen Gutachten erfahrungsgemäß eher einen geringen oder großen Einfluss bei der Entscheidungsfindung? Wenn schon ein Gutachten eingeholt wird, hat es auch eher einen erheblichen Einfluss auf die Entscheidungsfindung. < 11.3

Verkehrspsychologische Diagnostik

„Idiotentest“ emotional besetzt

Im Volksmund gibt es das böse Wort »Idiotentest« für die psychodiagnostische Untersuchung, der sich viele Kraftfahrer nach dem Verlust des Führerscheins unterziehen müssen. Dass die Betroffenen überwiegend ablehnend reagieren, ist zumindest nachvollziehbar. Schwer zu verstehen ist hingegen, dass sich verkehrsunauffällige Kraftfahrer und sogar Automobilclubs mit denen solidarisieren, die stark alkoholisiert am Steuer gesessen haben oder etwa durch aggressives Fahrverhalten Leben und Gesundheit ihrer Mitmenschen gefährdet haben.

Rechtliche Grundlage für Begutachtung

Fahrerlaubnis-Verordnung. Die rechtliche Grundlage für eine Begutachtung der Fahreignung stellt die »Verordnung über die Zulassung von Personen zum Straßenverkehr« (kurz Fahrerlaubnis-Verordnung) vom 18. August 1998 (BGBl. I S. 2214) in der Fassung des Inkrafttretens vom 01.07.2004 dar (s. www.verkehrsportal.de/fev/fev. php).

11

Untersuchungsanlässe. Für eine medizinisch-psychologische Begutachtung kommen Statistik der Bundesanstalt für Straßenwesen

Alkoholproblematik häufigster Untersuchungsanlass

verschiedene Anlässe in Frage. Eine Statistik der Bundesanstalt für Straßenwesen gibt Aufschluss über die Art und die Häufigkeit der einzelnen Untersuchungsanlässe sowie über das Ergebnis der Begutachtung (. Tab. 11.5). Neben einem positiven oder negativen Ergebnis besteht für die Gutachter in den meisten Fällen auch die Möglichkeit, eine Nachschulung vorzuschlagen und gegebenenfalls festzustellen, ob der Proband nachschulungsfähig ist. Über die Hälfte der Begutachtungen fällt wegen einer Alkoholproblematik an. Maßgeblich sind hier § 13, Nr. 2 der FeV (7 Übersicht).

555

113 · Verkehrspsychologische Diagnostik

. Tabelle 11.5. Begutachtungen bei den Medizinisch-Psychologischen Untersuchungsstellen 2003

Untersuchungsanlass

Anzahl

Anteil

Ergebnis der Begutachtung positiv

Verkehrsauffälligkeiten

Schulung

negativ

10.599

9.6%

44%

26%

30%

2.754

2.5%

45%

17%

38%

Alkoholauffälligkeit, erstmalig

43.330

39.1%

43%

17%

39%

Alkoholauffälligkeit, wiederholt

20.408

18.4%

40%

14%

46%

Betäubungsmittel- & Medikamentenaufällige

11.194

10.1%

49%

9%

42%

Alkohol + Verkehrs- oder strafrechtl. Auffälligkeit

10.076

9.1%

38%

16%

46%

Alkohol + Medikamente/Drogen

1.913

1.7%

43%

6%

51%

Verkehrsauffälligkeit + strafrechtl. Auffälligkeit

1.585

1.4%

47%

17%

36%

Verkehrsauffälligkeit + Medikamente/Drogen

1.516

1.4%

48%

6%

46%

Sonstige Mehrfachfragestellungen

1.152

1.0%

43%

8%

49%

FeV §10: Abweichung vom Mindestalter

4.571

4.1%

91%



9%

Sonstige Anlässe

1.678

1.5%







45%

15%

40%

Sonstige strafrechtl. Auffälligkeiten

Gesamt

110.776

100%

Anmerkungen. Quelle: Bundesanstalt für Straßenwesen, Oktober 2004 (www.bast.de/htdocs/ aktuelles/presse/2004/mpu_2003.pdf ). Nur Untersuchungsanlässe mit mind. 1.000 Fällen pro Jahr aufgeführt.

FeV § 13 Klärung von Eignungszweifeln bei Alkoholproblematik [Die Fahrerlaubnisbehörde ordnet an, dass] 1. ein ärztliches Gutachten (§ 11, Abs. 2 Satz 3) beizubringen ist, wenn Tatsachen die Annahme von Alkoholabhängigkeit begründen oder die Fahrerlaubnis wegen Alkoholabhängigkeit entzogen war oder sonst zu klären ist, ob Abhängigkeit nicht mehr besteht, oder 2. ein medizinisch-psychologisches Gutachten beizubringen ist, wenn a) nach dem ärztlichen Gutachten zwar keine Alkoholabhängigkeit, jedoch Anzeichen für Alkoholmissbrauch vorliegen oder sonst Tatsachen die Annahme von Alkoholmissbrauch begründen, b) wiederholt Zuwiderhandlungen im Straßenverkehr unter Alkoholeinfluss begangen wurden,

6

11

556

Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern

c) ein Fahrzeug im Straßenverkehr bei einer Blutalkoholkonzentration von 1,6 Promille oder einer Atemalkoholkonzentration von 0,8 mg/l oder mehr geführt wurde, d) die Fahrerlaubnis aus einem der unter Buchstabe a bis c genannten Gründe entzogen war oder e) sonst zu klären ist, ob Alkoholmissbrauch nicht mehr besteht.

»Geistige Anforderungen« erfüllt?

Spezifizierung der Anforderungen

11

Verhaltensgewohnheiten, Persönlichkeit oder Leistungsfähigkeit entscheidend

Paradigmenwechsel: Modifizierbares Verhalten statt Dispositionen relevant

Viele andere Fragestellungen ergeben sich aus der Anwendung von § 11 der FeV, der sich auf die Eignung der Führerscheininhaber, speziell auf die »notwendigen körperlichen und geistigen Anforderungen« bezieht. Eine Begutachtung ist unter anderem vorgesehen »bei erheblichen oder wiederholten Verstößen gegen verkehrsrechtliche Vorschriften oder bei Straftaten, die im Zusammenhang mit dem Straßenverkehr oder im Zusammenhang mit der Kraftfahrereignung stehen oder bei denen Anhaltspunkte für ein hohes Aggressionspotential bestehen« (§ 11, Abs. 3;4). Wer eine Fahrerlaubnis zur Fahrgastbeförderung anstrebt, also beispielsweise als Taxifahrer oder als Busfahrer tätig sein will, braucht dazu eine spezielle Fahrerlaubnis, deren Erteilung in § 48 geregelt ist. »Die Fahrerlaubnis zur Fahrgastbeförderung ist zu erteilen, wenn der Bewerber… [u. a.] seine geistige und körperliche Eignung gemäß § 11, Abs. 9 in Verbindung mit Anlage 5 nachweist.« In Anlage 5 der Fahrerlaubnisverordnung werden folgende Anforderungen spezifiziert: Belastbarkeit, Orientierungsleistung, Konzentrationsleistung, Aufmerksamkeitsleistung, Reaktionsfähigkeit. Psychologische Fragen und diagnostisches Vorgehen. Die Fahreignungsdiagnostik befasst sich mit unterschiedlichen Aspekten der Fahreignung. Je nach Begutachtungsanlass und Fragestellung liegt der Schwerpunkt etwa auf Verhaltensgewohnheiten im Umgang mit Alkohol, der Persönlichkeit des Fahrers oder auf bestimmten Merkmalen der Leistungsfähigkeit. Im Fall der Fahrerlaubnis zur Fahrgastbeförderung oder bei Zweifeln an der psychischen Leistungsfähigkeit stehen eindeutig kognitive Leistungsmerkmale im Vordergrund: Optische Orientierung, Konzentrationsfähigkeit, Aufmerksamkeit, Reaktionsfähigkeit und Belastbarkeit. Bei Straftaten, die im Zusammenhang mit der Kraftfahreignung oder der Teilnahme am Straßenverkehr stehen, können das Aggressionspotential, die Neigung zu rücksichtsloser Durchsetzung eigener Anliegen oder die Bereitschaft zu ausgeprägt impulsivem Verhalten begutachtungsrelevant sein. Damit kommt wieder das diagnostische Interview als Methode in Frage, eventuell auch Fragebogen zur Erfassung von Persönlichkeitsmerkmalen (z. B. Aggressivität), die jedoch verfälschbar sind. In den letzten Jahrzehnten fand in der verkehrspsychologischen Eignungsdiagnostik ein Paradigmenwechsel statt. Früher spielte die Annahme stabiler Dispositionen (Persönlichkeitsmerkmale, Leistungsdefizite) eine wichtige Rolle, heute hat sich die Ansicht durchgesetzt, dass das Verhalten wichtig ist, und dass Verhalten auch modifizierbar ist. Dem wird mit dem Konzept der Nachschulung Rechnung getragen (Wittkowski & Seitz, 2004). Begutachtungs-Leitlinien. Für die Begutachtung stellen heute »Begutachtungs-Leitlinien zur Kraftfahrereignung« (Lewrenz, 2000) ein wichtiges Hilfsmittel dar (auch unter www.fahrerlaubnisrecht.de/Begutachtungsleitlinien/BGLL%20Inhaltsverzeichnis.htm). Die Leitlinien wurden von dem so genannten Paritätischen Ausschuss unter

557

113 · Verkehrspsychologische Diagnostik

11

der Leitung des Bundesministeriums für Verkehr, Bau- und Wohnungswesen erstellt. Sie führen die Begutachtungs-Leitlinien »Krankheit und Kraftverkehr« mit dem »Psychologischen Gutachten Kraftfahreignung« zusammen. Aktuelle Stellungnahmen der relevanten medizinischen und psychologischen Fachgesellschaften und gutachtliche Erfahrungen fanden Berücksichtigung. So verbinden die Leitlinien Erfahrungen aus der Praxis der Begutachtung mit einschlägigen wissenschaftlichen Erkenntnissen. Die Leitlinien gehen in einem allgemeinen Teil auf Themen von grundsätzlicher Bedeutung (z. B. Anforderungen an die psychische Leistungsfähigkeit) und auf organisatorische und rechtliche Bedingungen der Begutachtung (z. B. rechtliche Stellung des Gutachters) ein. Im speziellen Teil werden einzelne eignungsausschließende und -einschränkende körperlich-geistige (psychische) und charakterliche Mängel beim Fahrerlaubnisbewerber und Fahrerlaubnisinhaber behandelt. Einige sind rein medizinischer Art (z. B. verschiedene Herz- und Gefäßkrankheiten), andere fallen in den Kompetenzbereich von Medizinern und Psychologen (z. B. psychische Störungen, Alkohol) und ein kleiner Teil (z. B. intellektuelle Leistungseinschränkungen, Thema Fahrgastbeförderung) wird am ehesten von einem Psychologen begutachtet werden. Für die Begutachtungspraxis erfüllen die Leitlinien vor allem zwei wichtige Funktionen: 4 Zusammenstellung aller wichtigen eignungsausschließenden und -einschränkenden Merkmale; 4 Argumentationshilfe: Der Gutachter kann sich im Einzelfall auf die BegutachtungsLeitlinien beziehen und muss nicht jede gutachterliche Schlussfolgerung eingehend erläutern.

Praxis und Wissenschaft vereint

Selbstverständlich ersetzen die Leitlinien nicht eine individuelle Begutachtung und Begründung des Gutachtens. Sie zeigen Beurteilungsgrundsätze und Begründungen auf und dienen als Entscheidungshilfe.

Beurteilungsgrundsätze und Entscheidungshilfe

Beispiel Alkoholproblematik. Am Beispiel der Alkoholproblematik sollen die Begutachtungsgrundsätze in knapper Form erläutert werden. In den Leitlinien wird zwischen Alkoholmissbrauch und Alkoholabhängigkeit unterschieden. Die Diagnostik einer Alkoholabhängigkeit erfolgt nach den üblichen ICD-10-Kriterien (7 Kap. 10). Menschen, die alkoholabhängig sind, dürfen kein Kraftfahrzeug führen. Für die Feststellung, dass keine Abhängigkeit mehr vorliegt, wird der Nachweis verlangt, dass eine dauerhafte Abstinenz besteht. In der Regel sind eine erfolgreiche Entwöhnungsbehandlung und eine einjährige Abstinenz nach der Entgiftungs- und Entwöhnungszeit nachzuweisen. Außerdem dürfen keine sonstigen eignungsrelevanten Mängel vorliegen. Auch Alkoholmissbrauch (nach ICD-10 »schädlicher Gebrauch«) ist unvereinbar mit dem Führen eines Kraftfahrzeugs. Missbrauch liegt vor, wenn der Proband, ohne bereits alkoholabhängig zu sein, vor der Teilnahme am Straßenverkehr nicht zuverlässig auf Alkoholkonsum verzichtet, der die Fahrsicherheit beeinträchtigt. Ein sicherer diagnostischer Hinweis ist, wenn der Proband wiederholt ein Fahrzeug unter unzulässig hoher Alkoholwirkung geführt hat. Als starker Hinweis auf Alkoholmissbrauch gilt auch, wenn er nur einmal mit hoher Alkoholkonzentration gefahren ist, ohne dass dabei weitere Anzeichen einer Alkoholwirkung (Ausfallserscheinungen) erkennbar waren. In diesem Fall ist eine extreme Gift-/Trinkfestigkeit anzunehmen. Dass ein Alkoholmissbrauch abgestellt wurde, kann unter anderem anhand folgender Kriterien beurteilt werden: 4 Das Trinkverhalten wurde ausreichend geändert. 4 Die Änderung im Umgang mit Alkohol ist stabil und motivational gefestigt.

Allgemeiner Teil

Spezieller Teil: konkrete eignungsrelevante Merkmale

Alkoholabhängigkeit und Alkoholmissbrauch schließen Führen eines Kraftfahrzeugs aus

Diagnostische Kriterien für Alkoholmissbrauch

Alkoholmissbrauch abgestellt?

558

Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern

4 Verkehrsrelevante Leistungs- oder Funktionsbeeinträchtigungen als Folgen frühe-

ren Alkoholmissbrauchs fehlen.

Leistungstests

Für jedes dieser Kriterien finden sich in den Leitlinien Hinweise zur Operationalisierung. So ist eine stabile und motivational gefestigte Änderung des Trinkverhaltens unter anderem daran zu erkennen, dass der Änderungsprozess nachvollziehbar aufgezeigt werden kann und die mit der Verhaltensänderung erzielten Wirkungen positiv erlebt werden. Die Beurteilungsgesichtspunkte lassen bereits erkennen, welche diagnostischen Verfahren bei Annahme einer Alkoholproblematik nahe liegen. Zur Feststellung von Alkoholmissbrauch oder -abhängigkeit kommt dem diagnostischen Interview eine zentrale Bedeutung zu. Nur dieses Verfahren kann die nötigen Informationen über Trinkund Verhaltensgewohnheiten sowie über Problembewusstsein, eingeleitete Therapiemaßnahmen etc. liefern. Der Gutachter kann schriftliche Belege über Therapiemaßnahmen verlangen. Dem Interview geht eine Auswertung der Akten voraus. Wichtige Informationen sind die Höhe des Blutalkoholspiegels, das Verhalten unter Alkoholeinfluss (unauffälliges Verhalten spricht für eine hohe Alkoholtoleranz), eventuelle Vorgutachten, medizinische Befunde zu alkoholbedingten Schädigungen, Laborwerte etc. Zur Überprüfung von Leistungs- oder Funktionsbeeinträchtigungen nach einer überwundenen Alkoholabhängigkeit finden Leistungstests Verwendung.

Fakten von Beschönigungen unterscheiden

Problem der Verfälschung. Die Klienten werden bestrebt sein, einen »guten« Eindruck zu hinterlassen, um den Führerschein (wieder) zu erlangen. Das diagnostische Interview hat bei vielen Fragestellungen einen hohen Stellenwert. Die Fragen müssen daher so ausgewählt werden, dass diagnostisch relevante Fakten von beschönigenden Darstellungen unterschieden werden können.

Verhaltensnahe Operationalisierung

Diagnostisches Interview von zentraler Bedeutung

Akteninformationen

11

Eigenes Fehlverhalten erkennen und ändern

Inhaltsanalytische Auswertung von Gutachten

Was sollte der Betroffene sagen, um ein positives Gutachten zu bekommen? Unter dieser Überschrift gibt ein Rechtsanwalt folgenden Rat: »Ganz allgemein kann aber gesagt werden, dass von dem Betroffenen eine kritische Auseinandersetzung mit dem eigenen Verhalten verlangt wird. Es wird verlangt, dass der Betroffene sein früheres Fehlverhalten erkannt hat und sich damit intensiv auseinandergesetzt hat, um dann zu einer in Hinsicht auf die Kraftfahreignung »besseren« Lebensweise zu kommen…«. Wer im Rahmen einer MPU angibt, er habe einfach Pech gehabt, weil andere ja auch ständig gegen Verkehrsvorschriften verstoßen, ohne dabei erwischt zu werden, hat keine Aussicht auf ein positives Gutachten. Auch mit dem Hinweis, man habe ja schließlich z. B. zu schnell fahren müssen, weil der Chef einen ständig unter Druck setze, ist das negative Gutachten in der Praxis schon vorprogrammiert. Bei einer solchen Haltung wird nämlich gerade nicht deutlich, dass man sein eigenes Fehlverhalten als solches erkannt hat und aufgrund einer Aufarbeitung des eigenen Fehlverhaltens eine Verhaltensänderung herbeigeführt hat.« (www.verkehrsportal.de/verkehrsrecht/mpu_05.php) Qualität der Gutachten. Für die Erstellung von Gutachten zur Kraftfahrereignung gelten die gleichen Anforderungen wie für andere Gutachten (7 Abschn. 5.3). Wittkowski und Seitz (2004) haben insgesamt 122 Gutachten aus 39 medizinisch-psychologischen Begutachtungsstellen analysiert. Anlass war immer das Fahren unter Alkoholeinfluss. Die Beurteiler überprüften jedes Gutachten anhand einer umfangreichen Merkmalsliste. Mit diesem inhaltsanalytischen Vorgehen konnten sie zahlreiche Stärken und Schwächen der Gutachten aufdecken. Die Ergebnisse sind zu umfangreich, um

559

113 · Verkehrspsychologische Diagnostik

hier wiedergegeben zu werden. Exemplarisch sind im Folgenden einige Bewertungsaspekte aufgeführt (in Klammern der Anteil von Gutachten mit Mängeln): 4 Gutachtenauftrag wörtlich wiedergegeben (81%) 4 Quellen zur Feststellung des bisherigen Sachverhalts benannt (23%) 4 Fragestellungen in konkrete Untersuchungsvariablen überführt (39%) 4 Vollständige Angaben zur Art der Informationsquellen wie Akten, Testverfahren etc. (25%) 4 Im Ergebnisbericht Trennung von Informationen und deren Interpretation (2%) 4 Ergebnisse für den Leser klar und eindeutig formuliert (61%) 4 Integrative Befunde (sofern vorhanden) durch Mehrfachbelege gestützt (52%) 4 Fragestellung klar und unmissverständlich beantwortet (97%) 4 Vollständiges Literaturverzeichnis am Ende des Gutachtens (80%)

11

Gutachten teilweise unzulänglich

Insgesamt unterstreicht diese Untersuchung, dass die abgelieferten Gutachten in vielen Fällen (noch) nicht den Standards entsprechen. > Interview mit Dr. Wolfgang Schubert zum Thema »Psychologische Diagnostik

in der Verkehrspsychologie« Für welche Aufgabenbereiche innerhalb der Verkehrspsychologie sehen Sie einen besonderen Nutzen der psychologischen Diagnostik? Bei der medizinisch-psychologischen Begutachtung spielen diagnostische Verfahren aus verschiedenen Fachgebieten der Psychologie, z. B. Explorationstechniken, Erfassung psychofunktionaler Leistungsvoraussetzungen (v. a. Konzentration, Orientierung, Belastbarkeit, Reaktion, Aufmerksamkeit) und Persönlichkeitsmerkmale (v. a. Eigenkritikfähigkeit und Selbstkontrolle) sowie intellektuelle Leistungsvoraussetzungen eine besondere Rolle. Hinzu kommen verschiedene Befunde aus der Medizin (z. B. Laborparameter, klinische Befunde), sozialanamnestische und soziodemografische Daten. Einen besonderen Nutzen sehe ich im Einsatz leistungsdiagnostischer Testverfahren bei der Fahreignungsdiagnostik. Hier werden modernste Verfahren eingesetzt, die sich mehr als in der Vergangenheit am Grundlagenwissen der Psychologie orientieren und nach neuen Technologien – z. B. nach dem Konstituentenansatz – konstruiert und theoriegeleitet validiert sind. Ihre Relevanz für die Beantwortung von diagnostischen Fragestellungen an die Fahreignungsbegutachtung, z. B. nach dem Vorliegen alkohol-, drogen-, oder altersbedingter Leistungsbeeinträchtigungen, ist durch empirische Untersuchungen belegt. Die verwendeten Verfahren sind kein Ersatz für Fahrverhaltensbeobachtungen, sondern erlauben es, Leistungsbesonderheiten heraus zu präparieren und Hinweise für zielgerichtete Intervention sowie therapeutische Maßnahmen abzuleiten, z. B. bei der Rehabilitation von Alkoholabhängigen und der Bewertung der Abstinenzbehauptung. Die diagnostische Besonderheit dieses Begutachtungsprozesses besteht darin, dass die im Einzelnen erhobenen Befunde aus Psychologie und Medizin widerspruchsfrei im Sinne der zu beantwortenden - vom Gericht oder von der Behörde veranlassten - Fragestellung zu integrieren und interpretieren sind. Welche forderdringlichen Entwicklungsnotwendigkeiten sehen Sie in der verkehrspsychologischen Diagnostik? Es werden Testverfahren benötigt, die gerade im unteren Skalenbereich besonders gut differenzieren, da für das Führen eines Kraftfahrzeuges, eines Flugzeuges, eines Triebfahrzeuges oder auch eines Motorbootes, Mindestvoraussetzungen erfüllt sein müssen, 6

Dr. rer. nat. Wolfgang Schubert, Dipl.-Psych., Leiter des Fachbereiches Verkehrspsychologie der DEKRA Automobil GmbH, 1. Vorsitzender des Vorstandes der Deutschen Gesellschaft für Verkehrspsychologie e. V.

560

Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern

die für den Betroffen eine gefahrlose Teilnahme am Straßenverkehr unter Wahrung der Verkehrssicherheit für die Allgemeinheit gewährleisten. Die Teilnahme am Straßenverkehr ist keine Eliteveranstaltung; man muss nicht höchsttalentiert sein, um ein Kraftfahrzeug sicher führen zu können. Dieser Umstand spiegelt sich in der Tatsache wider, dass die intellektuelle Mindestanforderung zum Führen eines Kraftfahrzeuges der Gruppe 1 (PKW) lediglich einen IQ von 70 – mit all den damit in Zusammenhang stehenden klinischen und fachlichen Problemen – erfordert. Weitere wichtige Entwicklungserfordernisse sind die Bereitstellung evaluierter Fahrassistenzsysteme im Bereich des Mensch-Maschine-Systems sowie die Weiterentwicklung der psychologischen Fahrverhaltensbeobachtung als diagnostisches Instrument. Zudem verlangt der demografische Wandel in den Industrienationen eine stärkere Beschäftigung mit dem kraftfahrrelevanten Leistungsvermögen im Senium.

11

Psychologen könnten dazu beitragen, die Reliabilität und Validität der theoretischen sowie der praktischen Führerscheinprüfung zu verbessern. Haben Psychologen an der Entwicklung und Evaluierung dieser Prüfungen mitgewirkt und wenn ja, mit welchem Erfolg? Zum gegenwärtigen Zeitpunkt werden die theoretische und praktische Führerscheinprüfung inhaltlich und methodisch überarbeitet. Hier ist insbesondere auch die psychologische Expertise für die theoretische Fundierung beider Prüfungsarten erforderlich. Schon seit den 1970er Jahren besteht die Forderung, bei den o. g. Prüfungen nicht nur vorhandenes Regelwissen nachzuweisen, sondern nach Möglichkeit unter Verwendung audiovisueller Medien auch die konkrete Anwendung des Wissens im virtuellen Verkehrsverhalten zu erfassen. Die Möglichkeit einer optimierten Aufgabengestaltung, z. B. bei der computergestützten theoretischen Fahrerlaubnisprüfung, wird unter Nutzung und in Anlehnung an ein Modell von Crick und Dodge (1994) zur Informationsverarbeitung in Verkehrssituationen gesehen, welches auch die sozial-kognitiven Anforderungen an Verkehrsteilnehmer bei der Bewältigung von Verkehrssituationen beschreibt. Der Fokus der Fahrschulausbildung und -prüfung wird dadurch stärker auf die Verringerung des Anfängerrisikos gelenkt. An dem Gesamtprojekt der Entwicklung entsprechender Prüfungsverfahren sind Psychologen stark beteiligt. Die Evaluierung dieser Maßnahmen ist den nächsten Schritten vorbehalten. < Weiterführende Literatur Über die neuropsychologische Diagnostik sowie über Störungen, mit denen sich die psychologische Diagnostik zu befassen hat, informiert ausführlich das von Sturm, Herrmann und Wallesch (2000) herausgegebene Lehrbuch. Zu Fragen der neuropsychologischen Begutachtung sei auf Hartje (2004) verwiesen, der auch auf juristische Rahmenbedingungen eingeht und Fallbeispiele präsentiert. Zur Diagnostik in Strafverfahren finden sich in den von Steller und Volbert (1997) und von Kröber und Steller (2000) herausgegebenen Büchern informative Beiträge. Einschlägige Fallbeispiele, die allerdings aus der Forensischen Psychiatrie stammen, werden von Nedopil und Krupinski (2001) ausführlich dargestellt. Zur Begutachtung bei familiengerichtlichen Fragen, auch zu den juristischen Randbedingungen, finden sich bei Salzgeber (2001) ausführliche Informationen. Die Praxis der verkehrspsycholgischen Begutachtung von alkoholauffälligen Fahrern wird von Wittkowski und Seitz (2004) beschrieben. Die Autoren beschreiben die Anforderungen und berichten über Auswertung von Gutachten, die sie mit vielen Zitaten aus den Gutachten erläutern.

Anhang

562

Anhang

Ableitung des Standardschätzfehlers Allgemeine Form der Regressionsgleichung: Y = a + bX. Die Varianz der tatsächlichen y-Werte um die vorhergesagten ŷ-Werte wird mit syŷ2 bezeichnet und nach der üblichen Varianzformel berechnet: N

s yŷ 2 =

∑(y 1 − ŷ i )2 i =1

N −1

.

Für die Zwecke der Vereinfachung erfolgt die Annahme: Mx = 0, My = 0. Dadurch ergibt sich nunmehr die Rechnung mit xi und yi . Der Vorteil: Die Konstante fällt weg. s yŷ 2 =

∑(y 1 − ŷy i )2 . N −1

Da ŷ = byx · x, wird dies in die Formel eingesetzt s yŷ 2 =

∑(y − b yx x)2 N −1

∑(y 2 − 2b yx xy + b2 x 2 ) = N −1

∑y 2 − 2b yx ∑xy + b yx 2 ∑x 2 . = N −1

(Das Summenzeichen betrifft nur die variablen Werte) Jetzt wird eingesetzt für b yx =

∑xy ∑x 2

Die Beziehung von byx zum Korrelationskoeffizienten r bzw. die Herleitung daraus wird nachfolgend wiedergegeben: r=

∑xy

sx ⋅ sy ⋅ N

multipliziert mit =

∑xy ⋅ s x

sx ergibt: sx

sx ⋅ sx sy ⋅ N

563

Anhang

=

∑xy ⋅ s x . 2

sx ⋅ sy ⋅ N

Da s x 2 = =

∑x 2 , folgt : N

∑xy ⋅ s x ⋅ N ∑x 2 ⋅ sy N sx sy

= b yx ⋅

b yx = r ⋅

sy sx

Für r wird der Ausdruck in der ersten Zeile dieser Herleitung eingesetzt: b yx = =

∑xy ⋅ s y

sx ⋅ sy ⋅ N sx

∑xy

sx2 ⋅ N

Da s x 2 = =

∑x 2 N

∑xy ∑x 2

s yŷ 2 =

∑y 2 − 2

∑xy ⋅ xy + (∑xy )2 ⋅ x 2 ∑ ∑ ( ∑x 2 ) 2 ∑x 2 . N −1

Im letzten Glied des Zählers wird nun eine der x-Quadratsummen weggekürzt:

s yŷ 2 =

∑y 2 − 2

(∑xy )2 (∑xy )2 + ∑x 2 ∑x 2 . N −1

Da −2

(∑xy )2 (∑xy )2 (∑xy )2 + = − , ∑x 2 ∑x 2 ∑x 2

ergibt sich

s yŷ 2 =

(∑xy )2 ∑x 2 N −1

∑y 2 −

564

Anhang

(∑xy )2 ∑y 2 − ∑x 2 . = N −1 N −1

Nun wird das Ausklammern des Bruchs, also die Multiplikation mit dem Kehrwert N −1 vorgenommen: ∑y 2

s yŷ 2

Für

2 (∑xy )2 ⎞ ⎛ ⎛ (∑xy ) ⎞ ∑y 2 ⎜⎜ ∑y 2 ⋅ N − 1 − ∑x 2 ⋅ N − 1⎟⎟ = ∑y 2 ⎜⎜1 − ∑x 2 ⎟⎟. = N − 1⎜ N − 1 ∑y 2 N − 1 ∑y 2 ⎟ N − 1⎜ ∑y 2 ⎟ ⎟ ⎟ ⎜ ⎜ ⎠ ⎠ ⎝ ⎝

∑y 2 wird nunmehr s 2 geschrieben: y

N −1

⎛ (∑xy )2 ⎞ s yŷ 2 = s y 2 ⎜1 − . 2 2⎟ ⎝ ∑x ⋅ ∑y ⎠

Der letzte Bruch entspricht r2; im Falle von Validitätsproblemen: rtc2 s yŷ 2 = s y 2 (1 − rtc 2 ). s yŷ = s y 1 − rtc 2

= Standardschätzfehler (= Fehler bei Regressionsproblemen)

syŷ entspricht sest s est = 1 − rtc 2 = K. sy

Hierbei handelt es sich um den Faktor, um den sich die Streuung der zu schätzenden Werte durch Kenntnis der Korrelation vermindert. 100 – K = A. s est 2 = s y 2 (1 − rtc 2 ) = s y 2 − s y 2 ⋅ rtc 2 .

Im Falle von z-Werten ist sy2 = 1 s est 2 = 1 − rtc 2 1 = s est 2 + rtc 2

sest2 ist die nicht erklärbare Varianz, rtc2 die erklärbare Varianz (in Einheiten von 1!). Der Stichprobenfehler der Differenz von 2 Standardfehlern lautet:

δ dM = δ M1 2 + δ M2 2 .

565

Anhang

Für sest2 : s est − Diff = s est1 2 + s est2 2 = 2s est 2 = 2s y 2 (1 − rtc 2 ) = s y 2(1 − rtc 2 ),

wobei s est = s y 1 − rtc 2 ist. Die Prüfung statistischer Unterschiede erfolgt über die z-Verteilung z=

ŷi − ŷj . s est − Diff

567

Literaturverzeichnis Abels, D. (1974). Konzentrations-Verlaufs-Test KVT. Göttingen: Hogrefe. Allehoff, W. (1984). Berufswahl und berufliche Interessen. Göttingen: Hogrefe. Allen, B. P. & Potkay, Ch. R. (1981). On the arbitrary distinction between states and traits. Journal of Personality and Social Psychology, 41, 916-928. Allport, G. W. (1953). The trend in motivational theory. American Journal of Orthopsychiatry, 32, 107-119. Amelang, M. (1978). Hochschulzugang. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (S. 1013-1022). Düsseldorf: Schwann. Amelang, M. (1985). Historische Bedingtheit der empirisch orientierten Persönlichkeitsforschung. In T. Herrmann & E. Lantermann (Hrsg.), Persönlichkeitspsychologie. Ein Handbuch in Schlüsselbegriffen (S. 9-19). München: Urban & Schwarzenberg. Amelang, M. (1987). Fragebogen-Tests und experimentalpsychologische Variablen als Korrelate der Persönlichkeitsdimensionen Extraversion/Introversion (E/I) und Neurotizismus (N). In M. Amelang (Hrsg.), Bericht über den 35. Kongress der Deutschen Gesellschaft für Psychologie in Heidelberg 1986 (Bd. 2, S. 403-416). Göttingen: Hogrefe. Amelang, M. (1994). Über die Prozesse bei Selbsteinschätzungen. Eine Reaktionszeitanalyse von State- und Trait-Urteilen. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 241-257). Göttingen: Hogrefe. Amelang, M. (1999). Zur Lage der Psychologie: Einzelaspekte von Ausbildung und Beruf unter besonderer Berücksichtigung der ökonomischen Implikationen psychologischen Handelns. Psychologische Rundschau, 50, 2-13. Amelang, M. & Bartussek, D. (1990). Differentielle Psychologie und Persönlichkeitsforschung (3. Aufl., 5. Aufl. 2001). Stuttgart: Kohlhammer. Amelang, M. & Borkenau, P. (1981a). Vorhersagen für einige Personen in vielen Merkmalen. Oder: Konsistenz über Variable und Kontextbedingungen als Eigenschaft. In W. Michaelis (Hrsg.), Bericht über den 32. Kongreß der Deutschen Gesellschaft für Psychologie in Zürich 1980 (S. 495-498). Göttingen: Hogrefe. Amelang, M. & Borkenau, P. (1981b). Untersuchungen zur Validität von Kontroll-Skalen für Soziale Erwünschtheit und Akquieszenz. Diagnostica, 27, 295-312. Amelang, M. & Borkenau, P. (1982). Über die faktorielle Struktur und externe Validität einiger Fragebogen-Skalen zur Erfassung von Dimensionen der Extraversion und emotionalen Labilität. Zeitschrift für Differentielle und Diagnostische Psychologie, 3, 119-146. Amelang, M. & Borkenau, P. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger Persönlichkeitsinventars. Zeitschrift für Differentielle und Diagnostische Psychologie, 7, 17-28. Amelang, M., Gold, A. & Külbel, E. (1984). Über einige Erfahrungen mit einer deutschsprachigen Skala zur Erfassung des zwischenmenschlichen Vertrauens (Interpersonal Trust). Diagnostica, 30, 198-215. Amelang, M., Herboth, G. & Oefner, J. (1991). A prototype strategy for construction of a creativity scale. European Journal of Personality, 5, 261-285. Amelang, M. & Hoppensack, Th. (1977). Persönlichkeitsstruktur und Hochschulbesuch I. Merkmalsveränderungen während des Studiums bei Studierenden verschiedener Fachrichtungen. Psychologische Beiträge, 19, 161-188. Amelang, M. & Pielke, M. (1992). Effects of erotica upon men’s and women’s loving and liking responses for their partners. Psychological Reports, 71, 1235-1245. Amelang, M., Schäfer, A. & Yousfi, S. (2002). Comparing verbal and nonverbal personality scales: Psychometric properties, the influence of social desirability, and the effects of fake good instruction. Psychologische Beiträge, 44, 24-41. Amelang, M., Schwarz, G. & Wegemund, A. (1989). Soziale Intelligenz als Trait-Konstrukt und TestKonzept bei der Analyse von Verhaltensauffälligkeiten. Zeitschrift für Differentielle und Diagnostische Psychologie, 10, 37-57.

568

Literaturverzeichnis

Amelang, M. & Vagt, G. (1970). Warum sind die Schulnoten von Mädchen durch Leistungstests besser vorherzusagen als diejenigen von Jungen? Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 2, 210-220. American Psychiatric Association. (1987). Diagnostic and statistical manual of mental disorders DSM-III-R. Washington: American Psychiatric Association. American Psychiatric Association. (1994). Diagnostic and statistical manual of mental disorders DSM-IV. Washington: American Psychiatric Association. Amthauer, R. (1953). Intelligenz-Struktur-Test IST (2. Aufl. 1955). Göttingen: Hogrefe. Amthauer, R. (1957). Über die Prüfung der Zuverlässigkeit von Tests – erörtert am IST. Psychologische Rundschau, 8, 165-171. Amthauer, R. (1972). Test zur Untersuchung des praktisch-technischen Verständnisses PTV. Göttingen: Hogrefe. Amthauer, R. (1973). IST 70 (4. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe. Amthauer, R., Brocke, B., Liepmann, D. & Beauducel, A. (2001). Intelligenz-Struktur-Test 2000 (IST 2000). Göttingen: Hogrefe. Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123-140. Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam: North Holland. Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 271-291). New York: Springer. Anderson, N. R. & West, M. A. (1994). The Team Climate Inventory. Windsor: Berks ASE. Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-573. Angleitner, A. (1993). Zur Konvergenz von verbalen und nicht-verbalen Erfassungstechniken von Persönlichkeitsmerkmalen. Bielefeld: Unveröffentlichter Praktikumsbericht. Angleitner, A. (1997). Minnesota Multiphasic Personality Inventory (MMPI). Rezension. Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 4-10. Antonovsky, A. (1979). Health, stress, and coping. San Francisco: Jossey-Bass. Arbeitskreis OPD. (1996). Operationalisierte psychoanalytische Diagnostik. Bern: Huber. Arentewicz, G. & Schmidt, G. (1986). Sexuell gestörte Beziehungen. Konzept und Technik der Paartherapie. Berlin, Heidelberg, New York: Springer. Armstrong, M. A. S. (1954). Children’s responses to animal and human figures in thematic pictures. Journal of Consulting Psychology, 18, 76-70. Atkinson, J. W. (1978). Motivational determinants of intellective performance and cumulative achievement. In J. W. Atkinson & J. O. Raynor (Eds.), Personality, motivation, and achievement (pp. 221-212). Washington: Hemisphere. Barrick, M. R., Mount, M. K. & Judge, T. A. (2001). Personality and performance at the beginning of the new millenium: What do we know and where do we go next? International Journal of Selection and Assessment, 9, 9-30. Bartenwerfer, H. (1964). Allgemeine Leistungstests. In R. Heiss (Hrsg.), Handbuch der Psychologie, Psychologische Diagnostik (S. 385-410). Göttingen: Hogrefe. Bartenwerfer, H. (1983). Allgemeine Leistungsdiagnostik. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 2: Intelligenz- und Leistungsdiagnostik (S. 482-521). Göttingen: Hogrefe. Barthel, D. & Schuler, H. (1989). Nutzenkalkulationen eignungsdiagnostischer Verfahren am Beispiel eines biographischen Fragebogens. Zeitschrift für Arbeits- und Organisationspsychologie, 33, 73-83. Bartlett, F. C. (1932). Remembering. A study in experimental and social psychology. Cambridge: Cambridge University Press. Bartling, G., Fiegenbaum, W. & Krause, R. (1980). Reizüberflutung. Theorie und Praxis. Stuttgart: Kohlhammer. Bartling, G., Echelmeyer, L., Engberding, M. & Krause, R. (2005). Problemanalyse im therapeutischen Prozess (5. Aufl.). Stuttgart: Kohlhammer. Bartussek, D. (1970). Eine Methode zur Bestimmung von Moderatoreffekten. Diagnostica, 16, 57-76. Bartussek, D. (1982). Modelle der Testfairness und Selektionsfairness. Trierer Psychologische Berichte, 9, Heft 2.

569

Literaturverzeichnis

Bartussek, D. (1988). Beurteilung der deutschen Form des 16 PF-Tests. Diagnostica, 34, 367-379. Bartussek, D. & Amelang, M. (1992). Verschränkungen mit der Differentiellen Psychologie. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. veränderte Aufl., S. 50-64). Weinheim: Psychologie Verlags Union Bartussek, D., Raatz, U., Stapf, K. H. & Schneider, B. (1986). Die Evaluation des Tests für Medizinische Studiengänge, 3. Zwischenbericht. Bonn: Ständige Konferenz der Kultusminister der Länder. Basler, H.-D. & Kröner-Herwig, B. (Hrsg.), (1995). Psychologische Therapie bei Kopf- und Rückenschmerzen. Ein Schmerzbewältigungsprogramm zur Gruppen- und Einzeltherapie. München: Quintessenz. Bastine, R. (Hrsg.). (1992a). Klinische Psychologie (Bd. 2). Stuttgart: Kohlhammer. Bastine, R. (1992b). Klinische Psychodiagnostik. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2, S. 1-55). Stuttgart: Kohlhammer. Bastine, R. (1992c). Psychotherapie. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2, S. 179-308). Stuttgart: Kohlhammer. Bastine, R. (1998). Klinische Psychologie (Bd. 1, 3. Aufl.). Stuttgart: Kohlhammer. Bastine, R. & Tuschen, B. (1996). Klinisch-psychologische Diagnostik. In A. Ehlers & K. Hahlweg (Hrsg.), Psychologische und biologische Grundlagen der Klinischen Psychologie. Enzyklopädie der Psychologie: Themengebiet D, Serie 2, Klinische Psychologie, Bd. 1 (S. 195-268). Göttingen: Hogrefe. Baumann, U. (1981). Indikationen zur Psychotherapie. München: Urban & Schwarzenberg. Baumann, U. (1990). Klinisch-Psychologische Diagnostik: Gibt es Alternativen zur klassischen Diagnostik? Zeitschrift für Klinische Psychologie, 19, 179-182. Baumann, U., Fähndrich, E., Stieglietz, R. D. & Woggon, B. (Hrsg.). (1990). Veränderungsmessung in Psychiatrie und Klinischer Psychologie. München: Profil-Verlag. Baumgärtel, F. (1979). Hamburger Erziehungsverhaltensliste für Mütter. Göttingen: Hogrefe. Bäumler, G. (1974b). Lern- und Gedächtnistest LGT 3. Göttingen: Hogrefe. Bäumler, G. (1985). Farb-Wort-Interferenztest FWIT. Göttingen: Hogrefe. Beauducel, A., Brocke, B. & Liepmann, D. (2001). Perspectives on fluid and crystallized intelligence: facets for verbal, numerical, and figural intelligence. Personality and Individual Differences, 30, 977-994. Beck, A. T. & Emery, G. (1981). Kognitive Verhaltenstherapie bei Angst und Phobien. Tübingen: Deutsche Gesellschaft für Verhaltenstherapie. Beck, A. T., Freeman, A. & Associates (1995). Kognitive Therapie der Persönlichkeitsstörungen (3. Aufl.). Weinheim: Psychologie Verlags Union. Beck, A. T., Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar (BDI). (2., überarb. Aufl.). Göttingen: Hogrefe. Beck, A. T., Rush, A. J., Shaw, B. F. & Emery, G. (1996). Kognitive Therapie der Depression (5. Aufl., 1. Aufl. 1992). Weinheim: Psychologie Verlags Union. Becker, P. (1982). Psychologie der seelischen Gesundheit. Göttingen: Hogrefe. Becker, P. (1987). Interaktions-Angstfragebogen IAF (2. Aufl., 1. Aufl. 1982). Weinheim: Beltz. Becker, P. (1988). Ein Strukturmodell der emotionalen Befindlichkeit. Psychologische Beiträge, 30, 514-536. Becker, P. (1996). Der Gießen-Test (GT) und ein Sechs-Faktoren-Modell der Persönlichkeit. Trierer Psychologische Berichte, 23, Heft 3. Becker, P. (1999). Beyond the Big Five. Personality and Individual Differences, 26, 511-530. Becker, P. (2003). Trierer Integriertes Persönlichkeitsinventar TIPI. Göttingen: Hogrefe Becker, P., Bös, K. & Woll, A. (1994). Ein Anforderungs-Ressourcen-Modell der körperlichen Gesundheit: Pfadanalytische Überprüfungen mit latenten Variablen. Zeitschrift für Gesundheitspsychologie, 2, 25-48. Becker, P. & Hänsgen, K. D. (1994). Persönlichkeitsvergleich von Ost- und Westdeutschen in Indikatoren der seelischen Gesundheit und der Verhaltenskontrolle. Report Psychologie, 19, 2841. Becker, P., Krieger, W., Kamm, U. & Schoerer, S. (1989). Alltagskorrelate und -verläufe der emotionalen Befindlichkeit: Literaturüberblick sowie zeitreihenanalytische Studien an fünf Paaren über 100 Zeitpunkte. Trierer Psychologische Berichte, 16, Heft 3. Becker, P., Schaller, S. & Schmidtke, A. (1978). Coloured Progressive Matrices CPM. (Deutsche Version). Weinheim: Beltz.

570

Literaturverzeichnis

Beckmann, D., Brähler, E. & Richter, H.-E. (1990). Der Gießen-Test (4. Aufl.). Bern: Huber. Beckmann, D., Brähler, E. & Richter, H.-E. (1991). Der Gießen-Test GT. Ein Test für die Individual- und Gruppendiagnostik. Handbuch (4. Aufl., 1. Aufl. 1972). Bern: Huber. Bellak, L. & Bellak S. S. (1965). Children’s apperception test. (Human figures). New York: CPS. Belschner, F. (1970). Der Foto-Handtest (FHT). Über die Entwicklung eines projektiven Verfahrens zur Erfassung aggressiven Verhaltens. Diagnostica, 16, 123-138. Belschner, F., Lischke, G. & Selg, H. (1971). Foto-Hand-Test (FHT) zur Erfassung der Aggressivität. München: Alber. Bem, D. J. & Allen, A. (1974). On predicting some of the people some of the time: The search for cross-situational consistencies in behavior. Psychological Review, 81, 506-520. Bem, D. J. & Funder, D. C. (1978). Predicting more of the people more of the time: Assessing the personality of situations. Psychological Review, 85, 485-501. Bene, E. & Anthony, J. (1957). Family Relations Test. London: National Foundation for Educational Research. Benjamin, L. S. (1974). Structural Analysis of Social Behavior. Psychological Review, 81, 392-425. Benton-Sivan, A. B. & Spreen, O. (1996). Der Benton Test (7., vollst. überarb. Aufl.). Göttingen: Hogrefe. Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C. W. Harris (Ed.), Problems in measuring change (pp. 3-20). Madison: University of Wisconsin Press. Bergeman, N. & Johann, G. K. (1993). Berger-Skala zur Erfassung der Selbstakzeptanz. Göttingen: Hogrefe. Biermann-Ratjen, E. M., Eckert, J. & Schwartz, H. J. (2003). Gesprächspsychotherapie. Verändern durch Verstehen (9. Aufl.). Stuttgart: Kohlhammer. Binet, A. & Simon, Th. (1905). Methodes nouvelles pour le diagnostique du niveau intellectuel des arnomaux. Année Psychologique, 11, 191-244. Binz, U. & Wendt, G. (1986). Kurz-Skala Stimmung/Aktivierung KUSTA. Weinheim: Beltz. Birbaumer, N. & Schmidt, R. F. (1966). Biologische Psychologie (3. Aufl.). Berlin, Heidelberg, New York: Springer. Birnbaum, A. (1968). Some latent trait models. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 395-479). Reading, MA: Addison-Wesley. Bless, G. (1986). Der soziometrische Status des integrierten Hilfsschülers. Untersuchung in Regelklassen mit heilpädagogischer Schülerhilfe. Vierteljahresschrift für Heilpädagogik und ihre Nachbargebiete, 55, 49-58. Block, J. (1961). The Q-Sort method in personality assessment and psychiatric research. Springfield: C. C. Thomas. Bloom, B. S. (1976). Human characteristics and school learning. New York: McGraw. Blum, F., Hengsen, A. & Trost, G. (1982). Studienfeldbezogener Beratungstest Naturwissenschaften (SFT-NW). Bonn: Institut für Test- und Begabungsforschung. Blum, F. & Trost, G. (1982). Studienfeldbezogener Beratungstest Ingenieurwissenschaften (SFT-IW). Bonn: Institut für Test- und Begabungsforschung. Blum, G. S. (1950). Blacky pictures. New York: Psychological Corporation. Bolm, W. (1994). Goal Attainment Scaling: Gütemaß und praktische Erfahrungen bei 397 psychiatrischen Behandlungsverläufen. Zeitschrift für Klinische Psychologie, Psychopathologie und Psychotherapie, 42, 128-138. Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsychiatrie: Ergebnisse einer Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 28, 151-161. Bommert, H. (1987). Grundlagen der Gesprächspsychotherapie (4. Aufl.). Stuttgart: Kohlhammer. Bommert, H. & Hockel, M. (Hrsg.). (1982). Therapieorientierte Diagnostik. Stuttgart: Kohlhammer. Borkenau, P. (1986). Untersuchungen zur internen Konsistenz und externen Validität der deutschsprachigen Form des 16 PF-Tests von Schneewind, Schröder & Cattell. Diagnostica, 32, 100110. Borkenau, P. & Amelang, M. (1983). Vorhersagen für einige Personen in einigen Dimensionen. Oder: Individuelle Angemessenheit von Eigenschaftskonstrukten und Differentielle Validität. In G. Lüer (Hrsg.), Bericht über den 33. Kongreß der Deutschen Gesellschaft für Psychologie in Mainz 1982, Bd. 1 (S. 468-472). Göttingen: Hogrefe.

571

Literaturverzeichnis

Borkenau, P. & Amelang, M. (1985). Individuelle Angemessenheit von Eigenschaftskonstrukten als Moderatorvariable für die Übereinstimmung zwischen Selbst- und Bekannten-Ratings. Diagnostica, 31, 105-118. Borkenau, P. & Amelang, M. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger-Persönlichkeits-Inventars. Zeitschrift für Differentielle und Diagnostische Psychologie, 7, 17-28. Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach Costa & McCrae. Göttingen: Hogrefe. Borkowski, J. G., Weyhing, R. S. & Carr, M. (1988). Effects of attributional retraining on strategybased reading comprehension in learning disabled students. Journal of Educational Psychology, 80, 46-53. Bös, K. (Hrsg.). (2001). Handbuch Motorische Tests: Sportmotorische Tests, Fragebogen zur körperlich-sportlichen Aktivität und sportpsychologische Diagnoseverfahren (2., vollständig überarbeitete und erweiterte Auflage). Göttingen: Hogrefe. Bös, K. & Mechling, H. (1985). Der Bilder-Angst-Test für Bewegungssituationen. Göttingen: Hogrefe. Boudreau, J. W. (1991). Utility Analysis for decisions in human resource management. In N. I. Dunnette & L. N. Lough (Eds.), Handbook of industrial and organisational psychology (Vol 2, pp. 621-745). Palo Alto, CA: Consulting Psychologists Press. Braband, H. & Kleber, E. W. (1983). Sonderpädagogische Interventionen in der Grundschule als integriertes Analyse-Interventions- und Beratungssystem. In R. Kornmann, H. Meister & J. Schlee (Hrsg.), Förderungsdiagnostik (S. 160-170; 2. Aufl. 1986). Heidelberg: Schindele. Brackmann, A. (2000). Zur Konvergenz verbaler und nonverbaler Erfassungstechniken von Persönlichkeitsmerkmalen. Unveröffentlichte Diplomarbeit am Psychologischen Institut, Universität Heidelberg. Brähler, E. & Beckmann D. (1981). Stabilität der Gießen-Test-Skalen. Diagnostica, 27, 110-126. Brähler, E. & Beckmann D. (1984). Die Erfassung von Partnerbeurteilungen mit dem Gießen Test. Diagnostica, 30, 184-197. Brähler, E. & Brähler, Ch. (1993). Paardiagnostik mit dem Gießen-Test. Bern: Huber. Brähler, E., Holling, H., Leutner, D. & Petermann, F. (Hrsg.). (2002). Brickenkamp Handbuch psychologischer und pädagogischer Tests (3., vollständig überarbeitete und erweiterte Aufl.). Göttingen: Hogrefe. Brandstätter, H. (1970). Leistungsprognose und Erfolgskontrolle. Bern: Huber. Brandstätter, H. (1978). Organisationsdiagnose. In A. Mayer (Hrsg.), Organisationspsychologie (S. 4371). Stuttgart: Poeschel. Brandstätter, V. (2005). Der objektive Leistungsmotivations-Test OLMT von L. Schmidt-Atzert. Rezension. Zeitschrift für Personalpsychologie, 4, 132-137. Bray, D. W. Campbell, R. J. & Grant, D. L. (1974). Formative years in business: A longterm AT and T study of managerial lives. New York: Wiley. Brengelmann, J. C. & Brengelmann, L. (1960). Deutsche Validierung von Fragebogen der Extraversion, neurotischen Tendenz und Rigidität. Zeitschrift für Experimentelle und Angewandte Psychologie, 7, 291-331. Brickenkamp, R. (1986). Handbuch apparativer Verfahren in der Psychologie. Göttingen: Hogrefe. Brickenkamp, R. (1994). Test d2 (8. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe. Brickenkamp, R. (2002). Test d2: Aufmerksamkeits-Belastungs-Test (9., überarbeitete und neu normierte Aufl.). Göttingen: Hogrefe. Brickenkamp, R., Merten T. & Hänsgen, K.-D. (1997). d2-C Computersystem Hogrefe Testsystem. Göttingen: Hogrefe. Brickenkamp, R. & Zillmer, E. (1998). The d2 Test of Attention. Seattle: Hogrefe and Huber Publishers. Brocke, B., Beauducel, A. & Tasche, K. (1995). Der Intelligenz-Struktur-Test: Analysen zur theoretischen Grundlage und technischen Güte. Technische Universität Dresden: Forschungsberichte, 2. Brodbeck, F., Anderson, N. & West M. (2000). Teamklima-Inventar TKI. Göttingen: Hogrefe. Brody, N. (1988). Personality. In search of individuality. San Diego: Academic Press. Brogden, H. E. (1949). When testing pays off. Personnel Psychology, 2, 171-185.

572

Literaturverzeichnis

Bronisch, T., Hiller, W., Zaudig, M. & Mombour, W. (1995). IDCL-P Internationale Diagnose Checklisten für Persönlichkeitsstörungen nach ICD-10 und DMS-IV. Bern: Huber. Brophy, J. E. & Good, T. L. (1986). Teacher behavior and student achievement. In M. C. Wittrock (Ed.), Handbook of research on teaching (3rd ed., pp. 328-375). New York: Macmillan. Broughton, R. (1984). A prototype strategy for construction of personality scales. Journal of Personality and Social Psychology, 47, 1334-1346. Bryan, T. & Lee, J. (1990). Training social skills with learning disabled children and adolescents: The state of the art. In T. E. Scruggs & B. Y. L. Wong (Eds.), Intervention research in learning disabilities. Berlin, Heidelberg, New York: Springer. Bühler, C. & Hetzer, H. (1932). Kleinkindertests. Leipzig: Barth. Bühner, M. & Schmidt-Atzert, L. (2004). Überprüfung der Äquivalenz einer Test d2-Version für ältere Probanden. Zeitschrift für Neuropsychologie, 15, 7-13. Bühner, M., Schmidt-Atzert, L., Grieshaber, E. & Lux, A. (2001). Faktorenstruktur verschiedener neuropsychologischer Tests. Zeitschrift für Neuropsychologie, 12, 181-187. Bungard, W. (1987). Zur Problematik von Reaktivitätseffekten bei der Durchführung eines Assessment Centers. In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 99-125). Stuttgart: Verlag für Angewandte Psychologie. Bungard, W. & Antoni, C. H. (1993). Gruppenorientierte Interventionstechniken. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 377-404). Bern: Huber. Burisch, M. (1984). Approaches to personality inventory construction. A comparison of merits. American Psychologist, 39, 214-227. Buse, L. (1975). Dimensionen und Komponenten des Interesses. Unveröffentlichte Dissertation, Universität Hamburg. Buss, D. M. & Craik, K. H. (1980). The frequency concept of dispostion: Dominance and prototypically dominant acts. Journal of Personality, 48, 379-392. Buss, D. M. & Craik, K. H. (1984). Acts, dispositions, and personality. In B. A. Maher & W. B. Maher (Eds.), Progress in experimental personality research (Vol. 13, pp. 241-301). New York: Academic Press. Büssing, A. (1993). Organisationsdiagnose. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 445-479). Bern: Huber. Campbell, G. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological Bulletin, 56, 81-105. Cantor, N. & Mischel, W. (1979). Prototypes in person perception. In L. Berkowitz (Ed.), Advances in experimental social psychology (Vol. 12, pp. 3-52). New York: Academic Press. Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New York: Cambridge University Press. Caspar, F. (1986). Die Plananalyse als Konzept und Methode. Verhaltensmodifikation, 7, 235-256. Caspar, F. (Hrsg.). (1996). Psychotherapeutische Problemanalyse. Tübingen: DGVT-Verlag. Catron, D. W. (1978). Immediate test-retest changes in WAIS scores among college males. Psychological Reports, 43, 279-290. Cattell, R. B. (1966). The data box: Its ordering of total resources in terms of possible relational systems. In R. B. Cattell (Ed.), Handbook of multivariate experimental psychology (pp. 67-128). Chicago: Rand McNally. Cattell, R. B. (1972). The 16PF and basic personality structures: A reply to Eysenck! Journal of Behavioral Science, 17, 169-187. Cattell, R. B. & Warburton, F. W. (1967). Objective personality and motivation tests. Urbana: University of Illinois Press. Chaiken, A. L., Derlerga, V. J. & Miller, S. J. (1976). Effects of room environment on self-disclosure in a counceling analogue. Journal of Counseling Psychology, 23, 479-481. Chamberlin, R. W. (1969). A study of an interview method for identifying family authority patterns. Genetic Psychology Monograph, 80, 129-148. Chambless, D. L. (1993). Task force on promotion and dissemination of psychological procedures. Report of Division 12. Washington: American Psychological Association. Chambless, D. L. & Hollon, S. D. (1998). Defining empirically supported therapies. Journal of Consulting and Clinical Psychology, 66, 7-18. Christensen, L. & Mendoza, J. L. (1986). A method of assessing change in a single subject: An alteration of the RC Index. Behavior Therapy, 17, 305-308.

573

Literaturverzeichnis

Cierpka, M. (Hrsg.). (1987). Familiendiagnostik. Berlin, Heidelberg, New York: Springer. Cierpka, M. (Hrsg.). (1996). Handbuch der Familiendiagnostik. Berlin, Heidelberg, New York, Tokio: Springer. Cleary, T. A. (1968). Testbias: Prediction of grades of negro and white students in integrated colleges. Journal of Educational Measurement, 5, 115-124. Clement, U. & Löwe, B. (1996). Fragebogen zum Körperbild. Göttingen: Hogrefe. Cole, N. S. (1973). Bias in selection. Journal of Educational Measurement, 10, 237-255. Colvin, C. R. & Funder, D. C. (1991). Predicting personality and behavior: A boundary on the acquaintanceship effect. Journal of Personality and Social Psychology, 60, 884-894. Comer, R. J. (2001). Klinische Psychologie (2. Aufl.). Heidelberg: Spektrum Akademischer Verlag. Conger, A. J. (1974). A revised definition for suppressor variables. Educational and Psychological Measurement, 34, 35-46. Conger, A. J. & Jackson, D. N. (1972). Suppressor variables, prediction, and the interpretation of psychological relationships. Educational and Psychological Measurement, 32, 579-599. Conrad, W., Baumann, E. & Mohr, V. (1980). Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens MTP. Göttingen: Hogrefe. Conrad, W., Büscher, P., Hornke, L., Jäger, R., Schweizer, H., Stünzner, W. v. & Wiencke, W. (1986). Mannheimer Intelligenztest MIT (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz. Constantinople, A. (1970). Some correlates of average level of happiness among college students. Developmental Psychology, 2, 447. Costa, P. T. & McCrae, R. R. (1989). NEO PI/FFI manual supplement. Odessa, FL: Psychological Assessment Resources. Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO PI-R) and NEO Five Factor Inventory. Professional manual. Odessa, FL: Psychological Assessment Resources. Cranach, M. v. (1983). Present State Examination PSE (2. Aufl., 1. Aufl. 1978). Weinheim: Beltz. Cranach, M. v., Kalbermatten, U., Indermühle, K. & Gugler, B. (1980). Zielgerichtetes Handeln. Bern: Huber. Crick, N. R. & Dodge, K. A. (1994). A review and reformulation of social information-processing mechanisms in children’s social adjustment. Psychological Bulletin, 115, 74-101. Cronbach, L. J. & Gleser, G. C. (1965). Psychological tests and personnel decisions (2. Aufl., 1. Aufl. 1957). Urbana, JL: University of Illinois Press. Curran, J. P. & Cattell, R. B. (1970). Eight State Questionnaire. Champaign, JL: Institute for Personality and Ability Testing. Dahl, G. (1971). Zur Berechnung des Schwierigkeitsindex bei quantitativ abgestufter Aufgabenbewertung. Diagnostica, 17, 139-142. Dahle, K-P. (1997). Kriminalprognosen im Strafrecht: Psychologische Aspekte individueller Verhaltensvorhersagen. In M. Steller & R. Volbert (Hrsg.), Psychologie im Strafverfahren: Ein Handbuch (S. 119-140). Bern: Huber. Dahle, K. P. (2000). Psychologische Begutachtung zur Kriminalprognose. In H.-L. Kröber & M. Steller (Hrsg.), Psychologische Begutachtung im Strafvervahren: Indikationen, Methoden und Qualitätsstandards (S. 77-111). Darmstadt: Steinkopff. Dahme, G., Bleich, C., Jungnickel, D. & Rathje, H. (1992). Ermutigende Befunde zur Reliabilität und enttäuschende Ergebnisse zur Konstruktvalidität des HAKEMP: Daten aus einer Felduntersuchung. Zeitschrift für Differentielle und Diagnostische Psychologie, 13, 139-160. Dahmer, J. (1973). Anamnese und Befund. Stuttgart: Thieme. Daniels, J. C. (1967). Figure Reasoning Test. London: Crosby Lockwood. Darlington, R. B. (1968). Multiple regression in psychological research and practice. Psychological Bulletin, 69, 161-182. Davier, M. v. & Rost, J. (o. J.). WINMIRA. Windows 3.x – Programmsystem zur Analyse von RaschModell, Mixed Rasch-Modell und Latent Class Analyse. Kiel: Institut für Pädagogik der Naturwissenschaften. Davison, G. C. & Neale, J. M. (2002). Klinische Psychologie (6. Aufl.). Weinheim: Psychologie Verlags Union. Deidesheimer Kreis (1997). Hochschulzulassung und Studieneignungstests. Göttingen, Zürich: Vandenhoeck & Ruprecht De Jong-Gierveld, J. & Kamphuis, F. (1985). The development of a Rasch-type loneliness scale. Applied Psychological Measurement, 9, 3, 289-299.

574

Literaturverzeichnis

Deneke, F.-W. & Hilgenstock, B. (1989). Das Narzißmusinventar. Göttingen: Hogrefe. Deusinger, I. M. (1986). Frankfurter Selbstkonzeptskalen FSKN. Göttingen: Hogrefe. Dieterich, R. (1973). Psychodiagnostik. Grundlagen und Probleme. München: Reinhardt. Dilling, H. & Freyberger, H. J. (Hrsg.). (2001). Taschenführer zur ICD-10-Klassifikation psychischer Störungen der Weltgesundheitsorganisation (2. Aufl.). Bern: Huber. Dilling, H., Mombour, W. & Schmidt, M.H. (1993). Internationale Klassifikation psychischer Störungen, ICD-10 Kapitel V (2. Aufl.). Bern: Huber. Dilling, H., Mombour, W., Schmidt, M.H. & Schulte-Markwort, E. (1994). Internationale Klassifikation psychischer Störungen, ICD-10 Kapitel V; Forschungskriterien. Bern: Huber. DiNardo, P. A. (1975). Social class and diagnostic suggestion as variables in clinical judgement. Journal of Consulting and Clinical Psychology, 43, 363-368. Dreesmann, H. (1979). Zusammenhänge zwischen Unterrichtsklima, kognitiven Prozessen bei Schülern und deren Leistungsverhalten. Zeitschrift für Empirische Pädagogik, 3, 121-133. Dudek, F. J. (1979). The continuing misinterpretation of the standard error of measurement. Psychological Bulletin, 86, 335-337. Duhm, E. & Hansen, J. (1957). Der Rosenzweig P-F-Test, Form für Kinder. Göttingen: Hogrefe. Düker, H. & Lienert, G. A. (1965). Konzentrations-Leistungs-Test KLT. Göttingen: Hogrefe. Düker, H., Lienert, G. A., Lukesch, H. & Mayrhofer, S. (2001). KLT-R. Konzentrations-Leistungs-Test (revidierte Fassung). Göttingen: Hogrefe. Ebel, O. & Lienert, G. A. (1960). Ein Index zur numerischen Bestimmung der Niveau-Eigenschaften eines psychologischen Tests. Metrica. Zeitschrift für theoretische und angewandte Statistik, 3, 117-123. Eckardt, H. H. & Schuler, H. (1992). Berufseignungsdiagnostik. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 533-551). Weinheim: Psychologie Verlags Union. Eggert, D. (1974). Lincoln-Oseretzky-Skala. KF. 18 (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz. Eggert, D. (1976). Hannover-Wechsler-Intelligenztest für das Vorschulalter HAWIVA. Bern: Huber. Ehlers, A. (1999). Posttraumatische Belastungsstörung. Göttingen: Hogrefe. Ehlers, A. (2000). Psychologische Grundlagen der Verhaltenstherapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (S. 69-87). Heidelberg: Springer. Ehlers, A., Margraf, J. & Chambless, D. (2001). Fragebogen zu körperbezogenen Ängsten, Kognitionen und Vermeidung AKV (2. Aufl.). Weinheim: Beltz. Ellis, A. & Grieger, R. (1995). Praxis der rational-emotiven Therapie (2. Aufl., 1. Aufl. 1979). Weinheim: Psychologie Verlags Union. Emmelkamp, P.M.G. & van Oppen, P. (2000). Zwangsstörungen. Göttingen: Hogrefe. Endler, N. S., Hunt, J. McV. & Rosenstein, A. J. (1962). An S-R-inventory of anxiousness. Psychological Monographs, 76, No. 17. Epstein, S. (1979). The stability of behavior: I. On predicting most of the people much of the time. Journal of Personality and Social Psychology, 37, 1097-1126. Erzigkeit, H. (1993). Kurztest zur Erfassung von Gedächtnis- und Aufmerksamkeitsstörungen SKT (5., neubearb. Aufl.). Weinheim: Beltz. Exner, J. E. Jr. (2003). The Rorschach: A comprehensive system (4th ed.). New York: Wiley. Eysenck, H. J. (1953). The structure of human personality. London: Methuen. Eysenck, H. J. (1957). The dynamics of anxiety and hysteria. London: Routledge. Eysenck, H. J. (1967). The biological basis of personality. Springfield, IL: Ch. Thomas. Eysenck, H. J. (1970). EPI Eysenck Personality Inventory. London: University of London Press. Fahrenberg, J. (1964). Objektive Tests. In R. Heiss (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (S. 488-532). Göttingen: Hogrefe. Fahrenberg, J. (1987). Multimodale Diagnostik - eine Einleitung. Diagnostica, 33, 185-187. Fahrenberg, J. (1994). Freiburger Beschwerden-Liste. Göttingen: Hogrefe. Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar: FPI; Revidierte Fassung FPI-R und teilweise geänderte Fassung FPI-A1 (7. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe. Fahrenberg, J. & Selg, H. (1970). Das Freiburger Persönlichkeitsinventar FPI. Göttingen: Hogrefe. Faßnacht, G. (1979). Systematische Verhaltensbeobachtung (1. Aufl., 2. verb. Aufl. 1994). München: Reinhardt. Fay, E. (1992). Über die Übbarkeit der Leistung in einem Durchstreichverfahren zur Messung der Konzentrationsfähigkeit. Diagnostica, 38, 301-311.

575

Literaturverzeichnis

Fay, E. (2003). Bochumer Matrizentest (BOMAT – advanced – short version). In E. Fay (Hrsg.), Tests unter der Lupe 4: Aktuelle psychologische Testverfahren – kritisch betrachtet (S. 24-35). Göttingen: Vandenhoeck & Ruprecht. Fay, E., Mausfeld, R., Niederée, R., Stumpf, H. & Trost, G. (1982). Studienfeldbezogener Beratungstest Mathematik (SFT-MATH). Bonn: Institut für Test- und Begabungsforschung. Fay, E. & Stumpf, H. (1995). Leistungsdaten. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 380-396). München, Weinheim: Psychologie Verlags Union. Fels, M. & Geissner, E. (1997). Neglect-Test (NET) (2., korrigierte Aufl.). Göttingen: Hogrefe. Feuerlein, W., Küfner, H., Ringer, Ch. & Antons, K. (1989). Kurzfragebogen für Alkoholgefährdete KFA. Weinheim: Beltz. Feuerlein, W., Ringer, Ch., Küfner, H. & Antons, K. (1979). Münchner Alkoholismus-Test MALT. Weinheim: Beltz. Fiedler, P. (2001). Persönlichkeitsstörungen (5. Aufl.). Weinheim: Psychologie Verlags Union. Fiedler, P., Stieglitz, R. D., Baumann, U. & Freiberger, H. J. (Hrsg.). (2001). Interaktionsdiagnostik bei Paaren und Familien. Psychodiagnostik in Klinischer Psychologie, Psychiatrie und Psychotherapie. Stuttgart: Thieme. Fiegenbaum, W. & Tuschen, B. (2000). Reizkonfrontation. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 413-426). Heidelberg: Springer. Fieguth, G. (1977). Die Entwicklung eines kategoriellen Beobachtungsschemas. In U. Mees & H. Selg (Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 33-42). Stuttgart: Klett. Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber. Fischer, G. H. (1978). Probabilistic test models and their application. The German Journal of Psychology 2, 298-319. Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen (S. 604-692). Göttingen: Hogrefe. Fischer, G. H. (1988). Spezifische Objektivität. Eine wissenschaftstheoretische Grundlage des Rasch-Modells. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 87-111). Weinheim: Psychologie Verlags Union. Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 157-180). New York: Springer. Fischer, G. H. (1995b). The linear logistic test model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 131-155). New York: Springer. Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie. In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673-729). Göttingen: Hogrefe. Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments, and applications. New York: Springer. Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the measurement of treatment effects. Psychometrika, 56, 637-651. Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing change. In G. H. Fischer & I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353-370). New York: Springer. Fischer, G. H. & Spada, H. (1973). Die psychometrischen Grundlagen des Rorschachtests und der Holtzman Inkblot Technique. Bern: Huber. Fishbein, M. & Ajzen, I. (1974). Attitudes towards objects as predictors of single and multiple behavioral criteria. Psychological Review, 81, 59-74. Fiske, D. W. & Butler, J. M. (1963). The experimental conditions for measuring individual differences. Educational and Psychological Measurement, 23, 249-266. Fisseni, H. J. (1982). Persönlichkeitsbeurteilung. Zur Theorie und Praxis des Psychologischen Gutachtens. Göttingen: Hogrefe. Fisseni, H. J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe. Flanagan, J. (1954). The critical incident technique. Psychological Bulletin, 51, 327-358. Fleischmann, U. M. (2000). Gerontoneuropsychologie - Diagnostik, Therapie und Intervention. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 663-673). Lisse, NL: Swets & Zeitlinger.

576

Literaturverzeichnis

Fleishman, E. A. & Hempel, W. P. (1955). The relation between abilities and improvement with practice in a visual discrimination reaction task. Journal of Experimental Psychology, 49, 301312. Fliegel, S. (1996). Rollenspiele. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 353359). Berlin, Heidelberg, New York: Springer. Fliegel, S., Groeger, W., Künzel, R., Schulte, D. & Sorgatz, H. (1998). Verhaltenstherapeutische Standardmethoden: Ein Übungsbuch (3. Aufl.). Weinheim: Psychologie Verlags Union. Flor, H., Behle, D. J. & Hermann, C. (1992). Psychophysiologische Methoden bei der Diagnose chronischer Schmerzen. In E. Geissner & G. Jungnitsch (Hrsg.), Psychologie des Schmerzes (S. 171-187). Weinheim: Psychologie Verlags Union. Florin, I. (1989). Verhaltensmedizin. Bedeutung eines interdisziplinären Ansatzes für die Erforschung und Therapie körperlicher Krankheiten. In I. Florin, G. Haag, U. Brack & E. M. Fahrner (Hrsg.), Perspektive Verhaltensmedizin (S. 1-9). Berlin: Springer. Föderation Deutscher Psychologenvereinigungen (1988). Richtlinien für die Erstellung Psychologischer Gutachten. Bonn: Deutscher Psychologenverlag. Formann, A. K. (1984). Die Latent-Class-Analyse. Weinheim: Beltz. Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of polytomous items. Methodika, 7, 62-78. Formann, A. K. & Piswanger, K. (Hrsg.). (1979). Wiener Matrizen-Test WMT. Ein Rasch-skalierter sprachfreier Intelligenztest. Weinheim: Beltz. Frank, L. K. (1948). Projective methods. Springfield, IL: C. C. Thomas. Franke A. (1991). Gruppentraining gegen psychosomatische Störungen (2. Aufl.). Weinheim: Psychologie Verlags Union. Franke, G. H. (2000). Brief Symptom Inventory von Derogatis (BSI). Göttingen: Hogrefe. Franke G. H. (2002). SCL-90-R. Die Symptom-Checkliste von Derogatis – Deutsche Version. Göttingen: Beltz-Test. Frankenburg, W. K. & Dodds, J. B. (1967). The Denver developmental screening test. Journal of Pediatrics, 7, 181-191. Frederiksen, N. & Melville, S. D. (1954). Differential predictability in the use of test scores. Educational and Psychological Measurement, 14, 647-656. Freud, S. (1952). Gesammelte Werke, 18 Bände. Frankfurt: Fischer. Fricke, R. (1972). Testgütekriterien bei lehrzielorientierten Tests. Zeitschrift für erziehungswissenschaftliche Forschung, 6, 150-175. Fricke, R. (1974). Kriterienorientierte Leistungsmessung. Stuttgart: Kohlhammer. Frieling, E. & Hoyos, C. Graf (1978). Fragebogen zur Arbeitsanalyse (FAA). Deutsche Bearbeitung des PAQ. Bern: Huber. Frieling, E. & Sonntag, K. H. (1987). Arbeitspsychologie. Bern: Huber. Fröse, S., Mölders, R. & Wallrodt, W. (1986). Kieler Einschulungsverfahren KEV. Weinheim: Beltz. Fruhner, R., Schuler, H., Funke, U. & Moser, K. (1991). Einige Determinanten der Bewertung von Personalauswahlverfahren. Zeitschrift für Arbeits- und Organisationspsychologie, 35, 170-178. Funder, D. C., Block, J. H. & Block, J. (1983). Delay of gratification: Some longitudinal personality correlates. Journal of Personality and Social Psychology, 44, 1198-1213. Funder, D. C. & Colvin, C. R. (1988). Friends and strangers: Acquaintanceship, agreement, and the accuracy of personality judgment. Journal of Personality and Social Psychology, 55, 149-158. Funder, D. C. & Dobroth, K. M. (1987). Differences between traits: Properties associated with interjudge agreement. Journal of Personality and Social Psychology, 52, 409-418. Funder, D. C. & West, S. G. (1993). Consensus, self-other agreement, and accuracy in personality judgment: an introduction. Journal of Personality, 61, 457-476. Funke, W., Funke, J., Klein, M. & Scheller, R. (1987). Trierer Alkoholismus-Inventar TAI. Göttingen: Hogrefe. Fydrich, T. (1995). Fragebogen zur sozialen Angst; Deutsche Bearbeitung des Social Phobia and Anxiety Inventory (SPAI) von Turner und Beidel. Unveröffentlichtes Manuskript. Heidelberg. Fydrich, T. (1996). Komorbidität psychischer Störungen. Empirische Untersuchungen zu einem umstrittenen Konzept. Habilitationsschrift, Universität Heidelberg. Fydrich, T. (2002a). Beck-Inventar zu kognitiven Schemata (B-IKS). In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 51-55). Göttingen: Hogrefe.

577

Literaturverzeichnis

Fydrich, T. (2002b). SPAI – Soziale Phobie und Angst Inventar. In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 335-338). Göttingen:Hogrefe. Fydrich, T. (2002c). F-SozU – Fragebogen zur sozialen Unterstützung. In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 150-153). Göttingen: Hogrefe. Fydrich, T. (2003). Soziale Phobie. Psychologisches Störungsmodell und kognitiv-verhaltenstherapeutische Behandlung. Psychotherapie im Dialog, 4 (1), 10-16. Fydrich, T. & Bürgener, F. (2005). Ratingskalen für soziale Kompetenz. In N. Vriends & J. Margraf (Hrsg.), Soziale Kompetenz – Soziale Unsicherheit – Soziale Phobie (3. Aufl., S. 81-96). Baltmannsweiler: Schneider-Verlag Hohengehren. Fydrich, T., Geyer, M., Hessel, A., Sommer, G. & Brähler, E. (1999). Fragebogen zur sozialen Unterstützung (F-SozU): Normierung an einer repräsentativen Stichprobe. Diagnostica, 45, 112-126 Fydrich, T., Laireiter, A. R., Saile, H. & Engberding, M. (1996). Diagnostik und Evaluation in der Psychotherapie. Zeitschrift für Klinische Psychologie, 25, 161-168. Fydrich, T., Renneberg, B., Schmitz, B. & Wittchen, H.-U. (1997). SKID-P. Strukturiertes Klinisches Interview für DSM-IV, Achse II (Persönlichkeitsstörungen). Göttingen: Hogrefe. Fydrich, T., Schmitz, B., Hennch, C. & Bodem, M. (1996). Zuverlässigkeit und Gültigkeit diagnostischer Verfahren zur Erfassung von Persönlichkeitsstörungen. In B. Schmitz, T. Fydrich & K. Limbacher (Hrsg.), Persönlichkeitsstörungen: Diagnostik und Psychotherapie (S. 91-113). Weinheim: Psychologie Verlags Union. Fydrich, T. & Sommer G. (2003). Diagnostik sozialer Unterstützung. In M. Jerusalem & H. Weber (Hrsg.), Psychologische Gesundheitsförderung (S. 79-104). Göttingen: Hogrefe. Fydrich, T., Sommer, G. & Brähler, E. (2004). Fragebogen zur sozialen Unterstützung (F-SozU). Göttingen: Hogrefe. Fydrich, T., Sommer, G., Menzel, U. & Höll, B. (1987). Fragebogen zur sozialen Unterstützung (Kurzform; SOZU-K-22). Zeitschrift für Klinische Psychologie, 16, 434-436. Gagné, R. M. (1973). Die Bedingungen menschlichen Lernens. Hannover: Schroedel. Galton, F. (1869). Natural inheritance. London: Macmillan. Gardner, H. (2002). Intelligenzen: Die Vielfalt des menschlichen Geistes. Stuttgart: Klett Cotta. Gatterer, G. (1990). Alterskonzentrationstest AKT. Göttingen: Hogrefe. Gaul, D. (1990). Rechtsprobleme psychologischer Eignungsdiagnostik. Bonn: Deutscher Psychologen Verlag. Gebert, D. (1993). Interventionen in Organisationen. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 481-494). Bern: Huber. Gebert, D. & v. Rosenstiel, L. (1989). Organisationspsychologie (2. Aufl.). Stuttgart: Kohlhammer. Gerhard, U. (1981). Zur Diagnose und Bedeutung von Zwangsphänomenen. Weinheim: Beltz. Ghiselli, E. E. (1963). Moderating effects and differential reliability and validity. Journal of Applied Psychology, 47, 81-86. Gierschmann, F. (2003). Raven´s Progressive Matrices (PPM). In E. Fay (Hrsg.), Tests unter Lupe 4: Aktuelle psychologische Testverfahren - kritisch betrachtet (S. 105-123). Göttingen: Vandenhoeck & Ruprecht. Giesen, H., Gold, A., Hummer, A. & Jansen, R. (1986). Prognose des Studienerfolgs. Ergebnisse aus Längsschnittuntersuchungen. Frankfurt am Main: Unveröffentlichter Projektbericht. Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Rasch-skalierter Test zur Messung des räumlichen Vorstellungsvermögens. Weinheim: Beltz. Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115-139). Weinheim: Psychologie Verlags Union. Glanzmann, P. (1985). Zusammenhänge zwischen Angstneigung und Zustandsangst in unterschiedlichen Stress-Situationen. Zeitschrift für Differentielle und Diagnostische Psychologie, 6, 161-173. Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54, 635-659. Goldberg, L. R. (1965). Diagnosticians vs. diagnostic signs: The diagnosis of psychosis vs. neurosis from the MMPI. Psychological Monographs: General and Applied, 79 (9, Whole No. 602). Goldberg, L. R., Rorer, L. G. & Green, M. M. (1970). The usefulness of »stylistic« scales as potential suppressors or moderator variables in prediction from the CPI. Research Bulletin, 10. Eugene, OR: Research Institute.

578

Literaturverzeichnis

Goldfried, M. R. & Kent, R. N. (1976). Herkömmliche gegenüber verhaltenstheoretischer Persönlichkeitsdiagnostik: Ein Vergleich methodischer und theoretischer Voraussetzungen. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (S. 3-23). München: Urban & Schwarzenberg. Goodenough, F. L. (1949). Mental testing. New York: Rinehart. Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models. Biometrika, 61, 215-231. Gösslbauer, J. P. (1981). Grundprinzipien der Entscheidungstheorie in der Psychologischen Diagnostik. In E. G. Wehner (Hrsg.), Psychodiagnostik in Theorie und Praxis (S. 214-258). Bern: Lang. Gough, H. G. (1969). Manual for the California Psychological Inventory. Palo Alto: Consulting Psychologists Press. Gough, H. G. & Heilbrun, A. B. (1980). Adjective Check List manual. Palo Alto, CA: Consulting Psychologists Press. Graczyk, W. (1990). Der Wilde-Intelligenz-Test (WIT). Diagnostica, 30, 310-320. Gräser, H. (1979). Überprüfung der faktoriellen Struktur einer deutschsprachigen Version des »Eight State Questionnaire« mittels Ketten-P-Technik. Diagnostica, 25, 49-58. Graumann, C. F. (1960). Eigenschaften als Problem der Persönlichkeitsforschung. In Ph. Lersch & H. Thomae (Hrsg.), Persönlichkeitsforschung und Persönlichkeitstheorie. Handbuch der Psychologie (Bd. IV, S. 87-154). Göttingen: Hogrefe. Grawe, K. (1982). Der Veränderungsprozeßbogen (VPB). In M. Zielke (Hrsg.), Diagnostik in der Psychotherapie (S. 231-252). Stuttgart: Kohlhammer. Grawe, K. (1991). Über den Umgang mit Zahlen. In K. Grawe, R. Hänni, N. Semmer & F. Tschan (Hrsg.), Über die richtige Art, Psychologie zu betreiben (S. 89-105). Hogrefe: Göttingen. Grawe, K. (1992). Psychotherapieforschung zu Beginn der neunziger Jahre. Psychologische Rundschau, 43, 132-162. Grawe, K., Caspar, F. & Ambühl, H. (1990). Differentielle Therapieforschung: Vier Therapieformen im Vergleich. Zeitschrift für Klinische Psychologie, 19, 292-376. Grawe, K., Donati, R. & Bernauer, F. (1994). Psychotherapie im Wandel. Von der Kofession zur Profession (2. Aufl.). Göttingen: Hogrefe. Gregory, R. J. (1992). Psychological testing: History, principles, and applications. Boston: Allyn and Bacon. Greif, S. (1970). Untersuchungen zur deutschen Übersetzung des 16 PF-Fragebogens. Psychologische Beiträge, 12, 186-213. Gretenkord, L. (2002). Prognose im Maßregelvollzug (§ 63 StGB) – wie lassen sich die Ergebnisse von Rückfallstudien nutzen? In T. Fabian, G. Jacobs, S. Nowara & I. Rode (Hrsg.), Qualitätssicherung in der Rechtspsychologie (S. 347-360). Münster: LIT-Verlag. Griffith, R. M. (1951). The test-retest similarities of the Rorschachs of patients without retention, Korsakoff. Journal of Projective Techniques, 15, 516-525. Griffith, R. (1954). The abilities of babies: A study in mental measurement. New York: McGraw-Hill. Grimm, H. & Schöler, H. (1985). Sprachentwicklungsdiagnostik. Göttingen: Hogrefe. Grimm, H. & Schöler, H. (1991). Heidelberger Sprachentwicklungstest HSET (2. Aufl., 1. Aufl. 1978). Braunschweig: Westermann. Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E. & Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 12, 19-30. Gruhle, H. W. (1948). Verstehende Psychologie. Stuttgart: Thieme. Guilford, J. P. (1964). Persönlichkeit. Weinheim: Beltz. Guilford, J. P. (1974). Persönlichkeitspsychologie. Stuttgart: Kohlhammer. Guilford, J. P. (1976). Apitude for creative thinking: One or many? Journal of Creative Behavior, 10, 165-169. Gulliksen, H. (1950). Theory of mental tests. New York: Wiley. Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G. Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety, Vol. 13 (pp. 23-52). New York: Hemisphere Publishing Corporation. Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), The American soldier. Studies in social psychology in World War II. Princeton: Princeton University Press.

579

Literaturverzeichnis

Häcker, H. (1982). Objektive Tests zur Messung der Persönlichkeit. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 3: Persönlichkeitspsychologie (S. 132-185). Göttingen: Hogrefe. Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches und psychologisches Testen. Diagnostica und Zeitschrift für Differentielle und Diagnostische Psychologie, Supplementum. Häcker, H., Schmidt, L. R., Schwenkmezger, P. & Utz, H. E. (1975). OATB 75 Objektive Testbatterie Manual. Weinheim: Beltz. Häcker, H., Schwenkmezger, P. & Utz, H. E. (1979). Über die Verfälschbarkeit von Persönlichkeitsfragebogen und Objektiven Persönlichkeitstests unter SD-Instruktion und in einer Auslesesituation. Diagnostica, 25, 7-23. Haertel, G. D., Walberg, H. J. & Weinstein, T. (1983). Psychological models of educational performance: A theoretical synthesis of constructs. Review of Educational Research, 53, 75-91. Hageböck, J. (1994). Computerunterstützte Diagnostik in der Psychologie – Die Entwicklung eines computergestützten Diagnosesystems für die Einzelfallhilfe in der Schulpsychologie. Göttingen: Hogrefe. Hahlweg, K. (1986). Partnerschaftliche Interaktion. München: Röttger. Hahlweg, K. (1996). Fragebogen zur Partnerschaftsdiagnostik (FDP). Handanweisung. Göttingen: Hogrefe. Hahlweg, K., Dürr, H. & Müller, U. (1995). Familienbetreuung schizophrener Patienten. Weinheim: Psychologie Verlags Union. Hahlweg, K., Schindler, L. & Revenstorf, D. (1982). Partnerschaftsprobleme: Diagnose und Therapie. Berlin, Heidelberg, New York: Springer. Hahn, M. G. (1992). Modelle für den Urteilsprozeß: Kritische Betrachtung formaler Urteilsmodelle am Beispiel klinischer Aufgaben. Frankfurt: Lang. Hake, A. (2000). Aggregatbezogene statistische Kennwerte bei der Einzelfallanalyse. Heidelberg: Dissertation in der Fakultät für Sozial- und Verhaltenswissenschaften. Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications. Boston: Kluwer-Nijhoff Publishing. Hamilton, M. (1986). The Hamilton rating scale for depression. In N. Sartorius & T.A. Ban (Eds.), Assessment of depression (pp. 278-296). Berlin: Springer. Hampel, R. & Klinkhammer, F. (1978). Verfälschungstendenzen beim Freiburger PersönlichkeitsInventar in einer Bewerbungssituation. Psychologie und Praxis, 22, 58-69. Hamster, W, Langner, W. & Mayer, K. (1980). Neuropsychologische Testbatterie TÜLUC. Weinheim: Beltz. Hanses, P. & Rost, D. H. (1998). Das »Drama« der hochbegabten Underarchiever – »Gewöhliche« oder »außergewöhnliche« Underarchiever? Zeitschrift für Pädagogische Psychologie, 21, 53-71. Hany, E. A. (1987). Psychometrische Probleme bei der Identifikation Hochbegabter. Zeitschrift für Differentielle und Diagnostische Psychologie, 8, 173-191. Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder HAWIK. Bern: Huber. Hartje, W. (2004). Neuropsychologische Begutachtung. Göttingen: Hogrefe. Hartje, W. & Rixecker, H. (1978). Der Recurring-Figures-Test von Kimura. Normierung an einer deutschen Stichprobe. Nervenarzt, 49, 354-356. Harris, C. W. (Ed.). (1963). Problems in measuring change. Madison: University of Wisconsin Press. Härting, C., Markowitsch, H. J., Neufeld, H., Calabrese, P. & Deisinger, K. (2000). Wechsler Gedächtnis Test – Revidierte Fassung (WSM-R). Deutsche Adaptation der revidierten Fassung der Wechsler-Memory-Scale. Göttingen: Hogrefe. Hasemann, K. (1983). Verhaltensbeobachtung und Ratingverfahren. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 4: Verhaltensdiagnostik (S. 434488). Göttingen: Hogrefe. Hasenbring, M. (1994). Kieler Schmerz-Inventar. Bern: Huber. Hathaway, S. R. & McKinley, J. C. (1951). The Minnesota Multiphasic Personality Inventory Manual revised. New York: The Psychological Corporation. Hathaway, S. R., McKinley, J. C. & Engel, R. R. (2000). MMP-2. Manual. Bern: Huber. Häusler, J. & Sommer, M. (2006). Neuronale Netze: Nichtlineare Methoden der statistischen Urteilsbildung in der psychologischen Eignungsdiagnostik. Zeitschrift für Personalpsychologie, 5, 4-15.

580

Literaturverzeichnis

Hautzinger, M. (1994). Diagnostik in der Psychotherapie. In R.-D. Stieglitz & U. Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 284-295). Stuttgart: Enke. Hautzinger, M. (2002). Hamilton Depressions-Skala. In: E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 183-186). Göttingen: Hogrefe. Hautzinger, M. & Bailer, M. (1993). Allgemeine Depressions-Skala ADS. Weinheim: Beltz. Hautzinger, M., Bailer, M. & Keller, F. (1995). Beck-Depressions-Inventar BDI (2. Aufl.). Bern: Huber. Hautzinger, M., Stark, W. & Treiber, R. (1997). Kognitive Verhaltenstherapie bei Depressionen (4. Aufl.). Weinheim: Psychologie Verlags Union. Haynes, S. N. & Horn, W. F. (1982). Reactive effects of behavioral observation. Behavioral Assessment, 4, 443-469. Heckhausen, H. (1963). Hoffnung und Furcht in der Leistungsmotivation. Meisenheim: Hain. Heckhausen, H. & Rheinberg, F. (1980). Lernmotivation im Unterricht, erneut betrachtet. Unterrichtswissenschaft, 8, 7-47. Hehl, F. J. & Hehl, R. (1975). Persönlichkeitsskalen System 25, PSS 25. Weinheim: Beltz. Hehl, F. J. & Wirsching, M. (1983). Psychosomatischer Einstellungs-Fragebogen (PEF). Göttingen: Hogrefe. Heil, F. E. (1984). Zur Erfassung von Coorientierungsstrukturen in Partnerschaften. Grundlegung, Entwicklung und Evaluation des Trierer Partnerschaftsinventars. Trier: Dissertation im Fachbereich Psychologie. Heil, F. E. (1993). Partnerschaftszufriedenheit: Eine theoretisch fundierte Alternative zu traditionellen Diagnoseverfahren. In L. Montada (Hrsg.), Bericht über den 38. Kongreß der Deutschen Gesellschaft für Psychologie in Trier 1992 (Bd. 2, S. 580-588). Göttingen: Hogrefe. Heil, F. E. (1998). Das Trierer Partnerschaftsinventar (TPI). Manual Entwurf. Trier: Fachbereich Psychologie. Heilmann, K. (1999). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung (BIP). In E. Fay (Hrsg.), Tests unter der Lupe II (S. 19-38). Lengerich: Pabst. Heimberg, R. G, Juster, H. R., Hope, D. A. & Mattia, J. I. (1995). Cognitive behavioral group treatment for social phobia: Description, case presentation, and empirical support. In M. B. Stein (Ed.), Social phobia: Clinical and research perspectives (pp. 293-321). Washington: American Psychiatric Press. Heinemann, M. & Höpfner, C. (1993). Screeningverfahren zur Erfassung von Sprachentwicklungsverzögerungen SEV. Weinheim: Beltz. Heller, K. A. (Hrsg.), (1992). Hochbegabung im Kindes- und Jugendalter. Göttingen: Hogrefe. Heller, K. A. (1997). Grundintelligenztest Skala 2 (CFT 20). Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 53-55. Heller, K. A, Gaedike, A. K. & Weinläder, H. (1985). Kognitiver Fähigkeits-Test für 4. bis 13. Klassen KFT 4-13 (2. Aufl., 1. Aufl. 1976). Weinheim: Beltz. Heller, K. A, Rosemann, B. & Steffens, K. H. (1978). Prognose des Schulerfolgs. Weinheim: Beltz. Helmke, A. (1983). Prüfungsangst. Psychologische Rundschau, 34, 7-47. Helmke, A., Schneider, W. & Weinert, F. E. (1986). Quality of contribution to the IEA classroom environment study. Teaching and Teacher Education, 2, 1-31. Hermans, H., Petermann, F. & Zielinski, W. (1978). Leistungs-Motivations-Test LMT. Amsterdam: Swets & Zeitlinger. Hermans, H. (1976). Leistungsmotivationstest für Jugendliche LMT-J (deutsche Fassung von Udo Undeutsch). Amsterdam: Swets. Hermans, H. J. M. (1976). Prestatie Motivatie Test (1. Aufl. 1968). Amsterdam: Swets & Zeitlinger. Herrle, J. & Kühner, C. (1994). Depression bewältigen. Ein kognitiv-verhaltenstherapeutisches Programm nach P. M. Lewinsohn. Weinheim: Beltz, Psychologie Verlags Union. Herrmann, Th. (1976). Lehrbuch der empirischen Persönlichkeitsforschung. Göttingen: Hogrefe. Hersch, J. (1974). Die Unfähigkeit, Freiheit zu ertragen – Reden und Aufsätze. Zürich, Köln: Bezinger. Herzberg, F., Mausner, B. & Snyderman, B. B. (1959). The motivation to work (2nd ed.). New York: Wiley. Hetzer, H. & Tent, L. (1971). Weilburger Test für Schulanfänger. Weinheim: Beltz. Heubrock, D. (1995). Neuropsychologische Diagnostik bei Simulationsverdacht: Ein Überblick über Forschungsergebnisse und Untersuchungsmethoden. Diagnostica, 41, 303-321. Heyde, G. (1995). Inventar komplexer Aufmerksamkeit (INKA). Frankfurt: Swets Test Services.

581

Literaturverzeichnis

Heyde, G. (2004). INKA - Inventar Komplexer Aufmerksamkeit. In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit (S. 133-142). Göttingen: Hogrefe. Hiller, W., Zaudig, M. & Mombour, W. (1995). ICD-10 Checklisten. Bern: Huber. Hinrichs, J. R. & Haanperä, S. (1976). Reliability of measurement in situational exercises: An assessment of the assessment center method. Personnel Psychology, 29, 31-40. Hobi, V. (1985). Basler Befindlichkeits-Skala. Weinheim: Beltz. Hödl, E. (1995). Hochschulberichtssystem und Profilbildung. Forschung und Lehre, 6, 322-324. Hofer, M. (1969). Die Schülerpersönlichkeit im Urteil des Lehrers. Weinheim: Beltz. Hofer, M. (Hrsg.). (1981). Informationsverarbeitung und Entscheidungsverhalten von Lehrern. Beiträge zu einer Handlungstheorie des Unterrichtens. München: Urban & Schwarzenberg. Hofmann, H. & Stiksrud, A. (1994). Zufriedenheit mit einem Psychologie-Lehrbetrieb. Aspekte der Evaluation von Evaluatoren. Empirische Pädagogik, 8, 169-198. Hofmann, K. & Kubinger, K. D. (2001). Herkömmliche Persönlichkeitsfragebogen und Objektive Persönlichkeitstests im »Wettstreit« um (Un-)Verfälschbarkeit. Report Psychologie, 26, 298-304. Hofstee, W. K. B. (1994). Who should own the definition of personality? European Journal of Personality, 8, 149-162. Hohenberger, E. & Schindler, L. (1984). Ein verhaltenstherapeutisches Programm zur Behandlung von Schlafstörungen. In J. C. Brengelmann & G. Bühringer (Hrsg.), Therapieforschung in der Praxis (S. 55-71). München: Röttger. Hojat, M., Robeson, M., Damjanov, L., Veloski, J. J., Glaser, K. & Gonnella, J. S. (1993). Students psychosocial characteristics as predictors of academic performance in medical school. Academic Medicine, 68, 635-637. Holden, R. R., Wood, L. L. & Tomashewski, L. (2001). Do response time limitations counteract the effect of faking on personality inventory validity? Journal of Personality and Social Psychology, 81, 160-169. Holling, H. (1981). Das Suppressor Konzept. Eine systematische Analyse und Neudefinition. Zeitschrift für Differentielle und Diagnostische Psychologie, 2, 123-150. Holling, H. & Kanning, U. P. (1999). Hochbegabung: Forschungsergebnisse und Fördermöglichkeiten. Göttingen: Hogrefe. Hollmann, H. (1988). Das Freiburger Persönlichkeitsinventar. Diagnostica, 34, 277-285. Hollmann, H. (1993). Validität der Eignungsdiagnostik. Göttingen: Hogrefe. Holmes, D. S. (1968). Dimensions of projection. Psychological Bulletin, 69, 248-268. Holmes, D. S. & Tyler, J. D. (1968). Direct versus projective measurement of achievement motivation. Journal of Consulting and Clinical Psychology, 32, 712-717. Holtzman, W. H, Thorpe, I. S, Swartz, J. D. & Herron, E. W. (1961). Inkblot perception and personality. Austin: University of Texas Press. Holzkamp, K. (1966). Begutachtung als Kommunikation. In A. O. Jäger & F. Merz (Hrsg.), Prognose und Bewährung in der psychologischen Diagnostik (S. 19-40). Göttingen: Hogrefe. Hörmann, H. (1964). Aussagemöglichkeiten psychologischer Diagnostik. Göttingen: Hogrefe. Hörmann, H. (1978). Theoretische Grundlagen der projektiven Tests. In R. Heiss, K.-J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (S. 71-112). Göttingen: Hogrefe. Hörmann, H. (1982). Theoretische Grundlagen der projektiven Verfahren. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3: Persönlichkeitsdiagnostik (S. 173-247). Göttingen: Hogrefe. Horn, A. & Bonz, G. (1969). Persönlichkeitsuntersuchungen mit dem Rorschach-Test bei bewegungsbehinderten Kindern. Schweizerische Zeitschrift für Psychologie, 28, 39-48. Horn, J. L. & Cattell R. B. (1966). Refinement and test of theory of fluid and crystallized intelligence. Journal of Educational Psychology, 57, 253-270. Horn, R. (2003). Eine kritische Anmerkung zum K-ABC. Report Psychologie, 28, 189. Horn, W. (1969). Prüfsystem für Schul- und Bildungsberatung PSB. Göttingen: Hogrefe. Horn, W. (1972). Begabungstestsystem BTS (2. Aufl.). Göttingen: Hogrefe. Horn, W. (1983). Leistungs-Prüf-System LPS (2. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe. Horn, W., Lukesch, H., Kormann, A. & Mayrhofer, S. (2002). PSB-R 4-6: Prüfsystem für Schul- und Bildungsberatung für 4. bis 6. Klassen – revidierte Fassung. Göttingen: Hogrefe. Horn, W., Lukesch, H., Mayrhofer, S. & Kormann, A. (2003). PSB-R 6-13: Prüfsystem für Schul- und Bildungsberatung für 6. bis 13. Klassen – revidierte Fassung. Göttingen: Hogrefe.

582

Literaturverzeichnis

Hornke, L. F. & Kersting, M. (2004). Checkliste zur DIN 33430. In L. F. Hornke & U. Winterfeld (Hrsg.), Eignungsbeurteilungen auf dem Prüfstand: DIN 33430 zur Qualitätssicherung (S. 273-324). Heidelberg: Spektrum Akademischer Verlag. Hornke, L. F. & Etzel, S. (1993/1995). Theoriegeleitete Konstruktion und Evaluation von computergestützten Tests zum Merkmalsbereich »Gedächtnis und Orientierung«. Untersuchungen des Psychologischen Dienstes der Bundeswehr 1993/1995 (Bd. 2), 183-296. Hornke, L. F., Rettig, K. & Hutwelker, R. (1988). Theoriegeleitete Konstruktion eines Tests zur Messung des räumlichen Vorstellungsvermögens. Untersuchungen des Psychologischen Dienstes der Bundeswehr, 23, 145-222. Hornke, L. F. & Storm, G. (1993/1995). Theoriegeleitete Konstruktion von Items zur Messung visueller Analyseleistungen III. Untersuchungen des Psychologischen Dienstes der Bundeswehr 1993/1995 (Bd. 2), 37-182. Horowitz, L. M., Strauß, B. & Kordy, H. (2000). Inventar zur Erfassung interpersonaler Probleme (IIP-D) (2. Aufl.). Weinheim: Beltz. Horst, P. (1966). Psychological measurement and prediction. Belmont, CA: Wadsworth. Hossiep, R. (1994). Das Assessment-Center. Diagnostica, 40, 89-104. Hossiep, R. & Paschen, M. (1998). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung BIP. Göttingen: Hogrefe. Hossiep, R., Turck, D. & Hasella, M. (1999). BOMAT – advanced. Bochumer Matrizentest. Göttingen: Hogrefe. Hossiep, R., Turck, D. & Hasella, M. (2001). BOMAT – advanced – short version. Bochumer Matrizentest. Göttingen: Hogrefe. Hossiep, R. & Wottawa, H. (1993). Diagnostik. In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie (S. 131-136). Bonn: Deutscher Psychologen Verlag. Howells, J. G. & Lickorish, J. R. (2003). Familien-Beziehungs-Test (FBT) (6. Aufl.).München: Ernst Reinhardt Verlag. Huber, W., Poeck, K., Weniger, D. & Willmes, K. (1983). Aachener Aphasietest AAT. Göttingen: Hogrefe. Huffcutt, A. I., Conway, J. M., Roth, P. L. & Klehe, U. C. (2004). The impact of job complexity and study design on situational and behavior description interview validity. International Journal of Selection and Assessment, 12, 262-273. Hundleby, J., Pawlik, K. & Cattell, R. B. (1965). Personality factors in objective test devices. San Diego: Knapp. Hunter, J. E. & Schmidt, F. L. (1976). Critical analysis of the statistical and ethical implications of various definitions of test bias. Psychological Bulletin, 83, 1053-1071. Husslein, E. (1978). Der Schulangst-Test. Göttingen: Hogrefe. Hylla, E. & Kraak, B. (1976). Aufgaben zum Nachdenken AZN (3. Aufl., 1. Aufl. 1965). Weinheim: Beltz. Ihl, R. & Weyer, G. (1993). Alzheimer’s Disease Assessment Scale ADAS. Weinheim: Beltz. Ingenkamp, K. (1988). Pädagogische Diagnostik. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 423-436). München: Psychologie Verlags Union. Ingenkamp, K., Jäger, R. S. & Horn, R. (Hrsg.). (1981). Tests und Trends. Jahrbuch der Pädagogischen Diagnostik. Weinheim: Beltz. Ingenkamp, K., Wolf, B., Christmann, H., Lißmann, U., Knapp, A. & Haenisch, H. (1977). Bildungs-Beratungs-Test für 4. bis 6. Klassen BBT 4-6. Weinheim: Beltz. Institut für Test- und Begabungsforschung. (1990). Test für Medizinische Studiengänge TMS (3. Aufl., 1. Aufl. 1987). Göttingen: Hogrefe. Irle, M. & Allehoff, W. (1984). Berufs-Interessen-Test II (BIT II). Göttingen: Hogrefe. Iseler, A. (1967). Zur varianzanalytischen Schätzung der Auswertungsobjektivität von psychologischen Tests. Diagnostica, 13, 135-148. Ittner, E. & Halsig, N. (1993). Prognostische Relevanz des Auswahlgesprächs als qualitativ neue Methode beim Zugang zum Studium der Medizin. In F. Baumgärtel (Hrsg.), Klinische Psychologie im Spiegel ihrer Praxis (S. 113-119). Bonn: Deutscher Psychologenverlag. Jaccard, J. J. (1974). Predicting social behavior from personality traits. Journal of Research in Personality, 1, 358-367. Jäckel, U. (1980). Partnerwahl und Ehe-Erfolg. Stuttgart: Enke. Jackson, D. N. (1967). Manual for the Personality Research Form (2nd ed. 1974). Goshen: Research Psychologists Press.

583

Literaturverzeichnis

Jacobi, C., Thiel, A. & Paul, T. (1995). Kognitive Verhaltenstherapie bei Anorexia und Bulimia nervosa. Weinheim: Psychologie Verlags Union. Jacobson, N. S, Folette, W. C. & Revenstorf, D. (1984). Psychotherapy outcome research: Methods for reporting variability and evaluating clinical significance. Behavior Therapy, 15, 336-352. Jacobson, N. S. & Revenstorf, D. (1988). Statistics for assessing the clinical significance of psychotherapy techniques: Issues, problems, and new developments. Behavioral Assessment, 10, 133-145. Jacobson, N. S. & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12-19. Jäger, A. O. (1963). Der Wilde Test, ein neues Intelligenzdiagnostikum. Zeitschrift für Experimentelle und Angewandte Psychologie, 10, 260-278. Jäger, A. O. (1984). Intelligenzstrukturforschung: Konkurrierende Modelle, neue Entwicklungen, Perspektiven. Psychologische Rundschau, 35, 21-35. Jäger, A. O. & Althoff, K. (1994). Wilde-Intelligenztest WIT (1. Aufl.age 1983). Göttingen: Hogrefe. Jäger, A. O, Süß, H.-M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-Test (Form 4; BIS-4). Göttingen: Hogrefe. Jäger, A. O. & Todt, E. (1964). Zur Faktorenstruktur des WIT bei 17jährigen; Faktorenanalyse der WIT-Langformen. Diagnostica, 10, 3-14. Jäger, R. S. (1970). Personalauslese. In A. Mayer & B. Herwig (Hrsg.), Handbuch der Psychologie, Bd. IX: Betriebspsychologie (S. 613-667). Göttingen: Hogrefe. Jäger, R. S. (1982). Diagnostische Urteilsbildung. In K. J. Groffmann & L. Michel (Hrsg.). Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer Diagnostik (S. 295-375). Göttingen: Hogrefe. Jäger, R. S. (1986). Der diagnostische Prozeß (2. Aufl., 1. Aufl. 1983). Göttingen: Hogrefe. Jäger, R. S. (1986). Measuring examiner and examinee reactions to each other and to the psychodiagnostic situation. In B. Nevo & R. S. Jäger (Eds.), Psychological testing: The examinee perspective (pp. 129-149). Göttingen: Hogrefe. Jäger, R. S. (1988). Der diagnostische Prozeß. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 382-386). München: Psychologie Verlags Union. Jäger, R. S., Mattenklott, A. & Schröder, R. D. (Hrsg.). (1984). Diagnostische Urteilsbildung in der Psychologie. Göttingen: Hogrefe. Jäger, R. S. & Petermann, F. (1992). Psychologische Diagnostik (2. veränderte Aufl.). Weinheim: Psychologie Verlags Union. Janke, W. (1971). Klassifikation. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (3. Aufl., S. 901-929). Göttingen: Hogrefe. Janke, W. (1973). Das Dilemma von Persönlichkeitsfragebogen. Einleitung des Symposiums über Konstruktion von Fragebogen. In G. Reinert (Hrsg.), Bericht über den 27. Kongreß der Deutschen Gesellschaft für Psychologie in Kiel 1970. Göttingen: Hogrefe. Janke, W. (1982). Klassenzuordnung. In K. J. Groffmann & L. Michel (Hrsg.), Grundlagen psychologischer Diagnostik (S. 376-466). Göttingen: Hogrefe. Janke, W. & Debus, G. (1978). Die Eigenschaftswörterliste EWL. Göttingen: Hogrefe. Janke, W. & Erdmann, G. (Hrsg.). (1996). Streßverarbeitungsfragebogen (SVF 120). Kurzbeschreibung und grundlegende Kennwerte. Göttingen: Hogrefe. Janke, W. & Erdmann, G. (2002). SVF 78: Eine Kurzform des Stressverabeitungsfragebogens SVF 120. Göttingen: Hogrefe. Janke, W., Erdmann, G. & Kallus, W. (1985). Streßverarbeitungs-Fragebogen SVF. Göttingen: Hogrefe. Janke, W., Erdmann, G. & Kallus, K. W. (2002). SVF mit SVF 120 und SVF 78. Stressverarbeitungsfragebogen (3., erweiterte Auflage). Göttingen: Hogrefe. Janke, W. & Hüppe, M. (1991). Emotionalität. In W. D. Oswald, W. M. Herrmann, S. Kanowski, U. M. Lehr & H. Thomae (Hrsg.), Gerontologie (2. Aufl., S. 88-124). Stuttgart: Kohlhammer. Jensen, A. R. (1980). Bias in mental testing. London: Methuen. Jeserich, W. (1981). Mitarbeiter auswählen und fördern: Assessment Center-Verfahren. München: Hanser. Joerin, S., Stoll, F., Bergmann, C. & Eder, F. (2000). EXPLORIX - das Werkzeug zur Berufswahl und Laufbahnplanung. Deutschsprachige Adaptation des Self-directed Search (SDS) nach John Holland. Bern: Huber.

584

Literaturverzeichnis

Johansen, I. (1972). Gruppenbildung und Soziometrie. In E. Meyer (Hrsg.), Gruppenpädagogik zwischen Moskau und New York (S. 140-149). Heidelberg: Quelle & Meyer. Johnson, D. W., Maruyama, G., Johnson, R., Nelson, D. & Skon, L. (1981). Effects of cooperative, competitive, and individualistic goal structures on achievement: A metaanalysis. Psychological Bulletin, 89, 47-62. Jungnitsch, G. (1992). Schmerz- und Krankheitsbewältigung bei rheumatischen Erkrankungen. München: Quintessenz. Kaiser, A. & Hahlweg, K. (1996). Kommunikations- und Problemlösetraining. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 371-385). Berlin, Heidelberg, New York: Springer. Kallus, K. W. & Janke, W. (1992). Klassenzuordnung. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (S. 170-186). Weinheim: Psychologie Verlags Union. Kaminski, G. (1970). Verhaltenstheorie und Verhaltensmodifikation. Stuttgart: Klett. Kämmerer, A. (1983). Die therapeutische Strategie »Problemlösen«. Theoretische und empirische Perspektiven ihrer Anwendung in der Kognitiven Psychotherapie. Münster: Aschoff. Kanfer, F. H., Reinecker, H. & Schmelzer, D. (2006). Selbstmanagement-Therapie (4. Aufl.). Berlin: Springer. Kanfer, F. H. & Saslow, G. (1976). Verhaltenstheoretische Diagnostik. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (2. Aufl., 1. Aufl. 1974; S. 24-59). München: Urban & Schwarzenberg. Kanfer, R., Dugdale, B. & Mc Donald, B. (1994). Empirical findings on the action control scale in the context of complex skill aggression. In J. Kuhl & J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 61-77). Seattle: Hogrefe und Huber. Kanning, U. P. (2003). Sieben Anmerkungen zum Problem der Selbstdarstellung in der Personalauswahl. Zeitschrift für Personalpsychologie, 2, 193-195. Karnath, H.-O. (2000). Vernachlässigung – Neglect. In W. Sturm, M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 366-374). Lisse, NL: Swets & Zeitlinger. Kastner, M. (1978). Zur Problematik von Tests zum Übergang an weiterführende Schulen. Psychologie in Erziehung und Unterricht, 25, 9-15. Kaufman, A. S., Kaufman, N. L., Melchers, P. & Preuß, U. (2001). Kaufman Assessment Battery for Children, Deutsche Version (6., teilweise ergänzte Auflage). Göttingen: Hogrefe. Kautter, H. (1975). Zur Klassifikation und schulischen Plazierung von Lernbehinderten. Zeitschrift für Heilpädagogik, 26, 222-238. Kautter, H. (1979). Der Übergang zu Sonderschulen. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 4, S. 977-988). Düsseldorf: Schwann. Kavale, K. A. (1990). Variances and varieties in learning disability interventions. In T. E. Scruggs & B. Y. L. Wong (Eds.), Intervention research in learning disabilities (pp. 3-33). Berlin, Heidelberg, New York: Springer. Keats, J. A. (1957). Estimation of error variances of test scores. Psychometrika, 22, 29-41. Kelly, G. A. (1955). The psychology of personal constructs. New York: Norton. Kemmler, L. (1967). Erfolg und Versagen auf der Grundschule. Göttingen: Hogrefe. Kent, R. N., O’Leary, K. D., Dietz, A. & Diamant, C. (1979). Comparision of observational recordings in vivo via mirror and via television. Journal of Applied Behavior Analysis, 12, 517522. Kenrick, D. T. & Stringfield, D. O. (1980). Personality traits and the eye of the beholder: Crossing some traditional boundaries in the search for consistency in all of the people. Psychological Review, 87, 88-104. Kern, A. (1951). Sitzenbleiberelend und Schulreife. Freiburg: Herder. Kersting, M. (1995). Der Einsatz »westdeutscher« Tests zur Personalauswahl in den Neuen Bundesländern und die Fairneßfrage. Report Psychologie, 20, 32-41. Kersting, M. (1999a). Diagnostik und Personalauswahl mit computergestützten Problemlöseszenarien? Zur Kriteriumsvalidität von Problemlöseszenarien und Intelligenztests. Göttingen: Hogrefe. Kersting, M. (1999b). Intelligenz-Struktur-Test 2000 (IST 2000). In E. Fay (Hrsg), Tests unter der Lupe II (S. 88-115). Lengerich: Pabst. Keßler, B. H. (1976). Elternanamnese zur Erziehungsberatung. In L. R. Schmidt & B. H. Keßler (Hrsg.), Anamnese (S. 294-305). Weinheim: Beltz.

585

Literaturverzeichnis

Keßler, B. H. (1982). Biographische Diagnostik. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3: Persönlichkeitsdiagnostik (S. 1-56). Göttingen: Hogrefe. Keßler, B. H. (1988). Daten aus dem Interview. In R. S. Jäger (Hrsg.), Psychologische Diagnostik – ein Lehrbuch (363-372). München: Psychologie Verlags Union. Kessler, J., Denzler, P. & Markowitsch, H. J. (1988). Demenztest. Weinheim: Beltz. Kessler, J. & Kalbe, E. (2000). Gerontoneuropsychologie – Grundlagen und Pathologie. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 648-673). Lisse, NL: Swets & Zeitlinger. Kessler, J., Markowitsch, H. J. & Denzler, P. (1990). Mini Mental Status Test MMST. Weinheim: Beltz. Kessler, J., Schaaf, A. & Mielke, R. (1993). Fragmentierter Bildertest. Göttingen: Hogrefe. Kici, G. & Westhoff, K. (2000). Anforderungen an psychologisch-diagnostische Interviews in der Praxis Report Psychologie, 25, 428-436. Kiesler, D. J., Anchin, J. C., Perkins, M. J., Chirico, B. M., Kyle, E. M. & Federman, E. J. (1976). The Impact Message Inventory IMI. Richmond: Virginia Commonwealth University. Kind, H. (1973). Leitfaden für die psychiatrische Untersuchung. Berlin, Heidelberg, New York: Springer. Kiresuk, T., Smith, A. & Cardillo, J. E. (Eds.). (1994). Goal attainment scaling: Applications, theory, and measurement. Hillsdale: Lawrence Erlbaum Associates. Kisser, R. (1992). Adaptive Strategien. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 161-170). Weinheim: Psychologie Verlags Union. Klages, H. (1980). Organisationsanalyse in der öffentlichen Verwaltung. In E. Grochla (Hrsg.), Handwörterbuch der Organisation (S. 1460-1468). Stuttgart: Poeschel. Klages, U. (1989). Zur Entwicklung eines Fragebogens irrationaler Einstellungen: Ergebnisse einer Repräsentativbefragung. Zeitschrift für Psychologie, Psychopathologie und Psychotherapie, 37, 5-13. Klages, U. (1989). Fragebogen irrationaler Einstellungen FIE. Göttingen: Hogrefe. Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency with the Rasch model. Psychometrika, 56, 213-228. Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 97-110). New York: Springer. Klauer, K. J. (1972). Zur Theorie und Praxis des binomialen Modells lehrzielorientierter Tests. In K. J. Klauer, R. Fricke, M. Herbig, H. Rupprecht & F. Schott (Hrsg.), Lehrzielorientierte Tests (S. 161-201). Düsseldorf: Schwann. Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen: Hogrefe. Klauer, K. J., Fricke, R., Herbig, M., Rupprecht, H. & Schott, F. (Hrsg.), (1972). Lehrzielorientierte Tests. Düsseldorf: Schwann. Kleber, E. W. (1979). Tests in der Schule. München: Reinhardt. Kleber, E. W. & Fischer, R. (1982). Anweisungs- und Sprachverstehenstest. Weinheim: Beltz. Klein, F. J. (1982). Die Rechtmäßigkeit psychologischer Tests im Personalbereich. Gelsenkirchen: Manhald. Klepsch, R., Zaworka, W., Hand, I., Lünenschloß, K. & Jauernig, G. (1993). Hamburger Zwangsinventar-Kurzform HZI-K. Weinheim: Beltz. Klimoski, R. & Brickner, M. (1987). Why do assessment centers work? The puzzle of assessment center validity. Personnel Psychology, 40, 243-260. Klinck, D. (2002). Computergestützte Diagnostik: Beeinflusst das Medium der Testverarbeitung die Testcharakteristika, die Testfairness oder das Erleben der Testsituation? Göttingen: Hogrefe. Knowles, E. S. (1988). Item context effects on personality scales: Measuring changes the measure. Journal of Personality and Social Psychology, 55, 312-320. Koch, C. (1981). Fragebogen zur Abschätzung psychosomatischen Krankheitsgeschehens FAPK. Weinheim: Beltz. Köhler, T. (1979). Teststatistische Anforderungen an ein State-Meßinstrument. Diagnostica, 25, 64-75. Köller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-RaschModells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaft für Psychologie in Kiel. Empirische Pädagogik (o. A.).

586

Literaturverzeichnis

Koppenhöfer, E. (2004). Kleine Schule des Genießens. Ein verhaltenstherapeutisch orientierter Behandlungsansatz zum Aufbau positiven Erlebens und Verhaltens. Lengerich: Pabst. Kormann, A. (Hrsg.). (1987). Beurteilen und Fördern in der Erziehung. Salzburg: Müller. Kornmann, R. (1977a). Diagnose von Lernbehinderungen. Weinheim: Beltz. Kornmann, R. (1977b). Testbatterie zur Untersuchung entwicklungsrückständiger Schulanfänger TES. Weinheim: Beltz. Kornmann, R., Meister, H. & Schlee, J. (Hrsg.). (1983). Förderungsdiagnostik (2. Aufl. 1986). Heidelberg: Schindele. Kraak, B. & Nord-Rüdiger, D. (1989). Fragebogen zu Lebenszielen und zur Lebenszufriedenheit FLL. Göttingen: Hogrefe. Krämer, H.-J. & Schneider, J. F. (1987). Validität von Fragebogendaten in Abhängigkeit von Antwort-Zeit-Instruktionen und der intraindividuellen Variabilität der Probanden. Psychologische Beiträge, 29, 458-468. Krampen, G. (1981). IPC – Fragebogen zur Erfassung generalisierter Kontrollüberzeugungen. Göttingen: Hogrefe. Krampen, G. (1986). Zur Validität der deutschen Form des 16 PF. Faktorielle Validität und Beziehungen zum FPI. Diagnostica, 32, 91-99. Krampen, G. (1996). Kreativitätstest für Vorschul- und Schulkinder. Version für die psychologische Anwendungspraxis (KVS-P). Handanweisung. Göttingen: Hogrefe. Krauth, J. (1995). Testkonstruktion und Testtheorie. Weinheim: Beltz, Psychologie Verlags Union. Kröber, H.-L. & Steller, M. (Hrsg.). (2000). Psychologische Begutachtung im Strafverfahren: Indikationen, Methoden und Qualitätsstandards. Darmstadt: Steinkopff. Kroger, R. O. & Turnbull, W. (1975). Invalidity of validity scales: The case of the MMPI. Journal of Consulting and Clinical Psychology, 43, 238-260. Krohne, H. W. (1980). Prüfungsangst: Defensive Motivation in selbstwertrelevanten Situationen. Unterrichtswissenschaft, 8, 226-242. Krohne, H. W. & Hindel, C. (1988). Trait anxiety, state anxiety, and coping behavior as predictors of athletic performance. Anxiety Research, 1, 225-234. Krohne, H. W. & Pulsack, A. (1990). Erziehungsstilinventar. Weinheim: Beltz. Kröner-Herwig, B. & Sachse, R. (1988). Biofeedbacktherapie (2. Aufl.). Stuttgart: Kohlhammer. Krüger, C. & Amelang, M. (1995). Bereitschaft zu riskantem Verhalten als Trait-Konstrukt und TestKonzept. Zur Entwicklung eines Fragebogens auf der Basis des Handlungs-Häufigkeits-Ansatzes. Diagnostica, 41, 1-18. Kruse, L. (1980). Privatheit als Gegenstand und Problem der Psychologie. Bern: Huber. Kubinger, K. D. (1987). Adaptives Testen. In R. Horn, K. Ingenkamp & R. S. Jäger (Hrsg.), Tests und Trends – 6. Jahrbuch der Pädagogischen Diagnostik (S. 103-127). München: Psychologie Verlags Union. Kubinger, K. D. (1988). Aktueller Stand und kritische Würdigung der probabilistischen Testtheorie. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 19-83). Weinheim: Beltz. Kubinger, K. D. (Hrsg.). (1988). Moderne Testtheorie. Weinheim: Psychologie Verlags Union. Kubinger, K. D. (Hrsg.). (1989). Moderne Testtheorie – ein Abriß samt neuesten Beiträgen (2. Aufl.). Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1992). Testtheorie: Probabilistische Modelle. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 322-334). Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1995). Einführung in die Psychologische Diagnostik. Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1995). Objektive Diagnostik. In K. Pawlik (Hrsg.), Enzyklopädie der Psychologie. Differentielle Psychologie, 1, Grundlagen und Methoden (S. 507-541). Göttingen: Hogrefe. Kubinger, K. D. (1996). Methoden der psychologischen Diagnostik. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 567-576). Weinheim: Psychologie Verlags Union. Kubinger, K. D. & Ebenhöh, J. (1996). Arbeitshaltungen – Kurze Testbatterie. Anspruchsniveau, Frustrationstoleranz, Leistungsmotivation, Impulsivität/Reflexivität. Frankfurt/M.: Swets. Kubinger, K. D., Fischer, D. & Schuhfried, G. (1993). Begriffs-Bildungs-Test (BBT). Mödling: Dr. G. Schuhfried. Kubinger, K. D., Wagner, M. & Alexandrowicz, R. (1998). Zur Interpretation der Paardiagnostik mit dem Gießen-Test. Psychotherapie, Psychosomatik und Medizinische Psychologie, 49, 249-253.

587

Literaturverzeichnis

Kubinger, K. D., & Wurst E. (1991). Adaptives Intelligenz Diagnostikum AID. Weinheim: Beltz. Kubinger, K. D., & Wurst, E. (2001). AID 2: Adaptives Intelligenz Diagnostikum 2. Göttingen: Hogrefe. Kuder, G. F. & Richardson, W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160. Kuhl, J. (1990). Kurzanweisung zum Fragebogen HAKEMP 90. Unveröffentliches Manuskript. Osnabrück. Kuhl, J. (1994a). A theory of action and state orientations. In J. Kuhl und J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 9-46). Seattle: Hogrefe & Huber. Kuhl, J. (1994b). Action vs. state orientation: Psychometric properties of the action control scale (ACS-90). In J. Kuhl & J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 47-59). Seattle: Hogrefe und Huber. Kuhl, J. & Fuhrmann, A. (1995). Funktionskomponenten des Willens im Selbsterleben. Kurzmanual für den Fragebogen VCC. Unveröffentlichtes Manuskript. Osnabrück. Kurth, E. & Büttner, G. (1999). TPK Testreihe zur Prüfung der Konzentrationsfähigkeit (2., neu bearbeitete Auflage). Göttingen: Hogrefe. Kurth, E., & Büttner, G. (2004). Testreihe zur Prüfung der Konzentrationsfähigkeit (TPK). In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit (S. 143-159). Göttingen: Hogrefe. Lakatos, A. & Reinecker, H. (2001). Kognitive Verhaltenstherapie bei Zwangsstörungen – Ein Therapiemanual (2. Aufl.). Göttingen: Hogrefe. Lambert, M. J., Bergin A. E. & Garfield, S. L. (2003). Handbook of Psychotherapy and Behavior Change (5th ed.). New York: Wiley. Lamiell, J. T. (1987). The psychology of personality: An epistemological inquiry. New York: Columbia University Press. Lang, A. (1978). Diagnostik und Autonomie der Person. In U. Pulver, A. Lang & F. W. Schmid (Hrsg.), Ist Psychodiagnostik verantwortbar? (S. 17-30). Bern: Huber. Langer, E. J. & Abelson, R. P. (1974). A patient by any other name: Clinician group difference in labeling bias. Journal of Consulting and Clinical Psychology, 42, 4-9. Langfeldt, H.-P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik. Bd. 2: Anwendungsbereiche und Praxisfelder. Göttingen: Hogrefe. Laux, L. & Glanzmann, P. G. (1996). Angst und Ängstlichkeit. In M. Amelang (Hrsg.), Enzyklopädie der Psychologie. Differentielle Psychologie (Bd. 3, 107-151). Göttingen: Hogrefe. Laux, L., Glanzmann, P., Schaffner, P. & Spielberger, C. D. (1981). State-Trait-Angst-Inventar STAI. Weinheim: Beltz. Lazarsfeld, P. F. (1950). The logical and mathematical foundation of latent structure analysis. In S. A. Stouffer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S. A. Star & J. A. Clausen (Eds.), Studies in social psychology in World War II, Vol IV: Measurement and prediction (pp. 362-472). Princeton, NJ: Princeton University Press. Lazarsfeld, P. F. & Henry, N. W. (1968). Latent structure analysis. Boston: Houghton Mifflin. Lazarus, A. A. (1976). Multimodale Verhaltenstherapie. Frankfurt: Fachbuchhandlung für Psychologie. Lehrl, S. & Gallwitz, A. (1977). Erlanger Depressions-Skala EDS. Göttingen: Hogrefe. Lehrl, S., Merz, J., Erzigkeit, H. & Galster, V. (1974). MWT-A Mehrfachwahl-Wortschatz-Test, Form A. Balingen: Spitta Verlag. Leichner, R. (1979). Psychologische Diagnostik. Grundlagen, Kontroversen, Praxisprobleme. Weinheim: Beltz. Leidig, S. & Pein, A. V. (1994). Stationäre Gruppentherapie für Patienten mit chronifizierten somatoformen Störungen. In M. Zielke & J. Sturm (Hrsg.), Handbuch stationäre Verhaltenstherapie (S. 533-539). Weinheim: Psychologie Verlags Union. Lersch, Ph. (1948). Der Aufbau des Charakters. Leipzig: Johann Ambrosius Barth-Verlag. Lewrenz, H. (2000). Begutachtungs-Leitlinien zur Kraftfahrereignung des Gemeinsamen Beirats für Verkehrsmedizin beim Bundesministerium für Gesundheit. Berichte der Bundesanstalt für Straßenwesen (Heft M 115). Lezak, M. D. (1995). Neuropsychological assessment (3. Aufl.). New York: Oxford University Press. Lienert, G. A. (1964). Mechanisch-technischer Verständnistest MTVT. Göttingen: Hogrefe. Lienert, G. A. (1967a). Testaufbau und Testanalyse (2. Aufl., 1. Aufl. 1961). Weinheim: Beltz.

588

Literaturverzeichnis

Lienert, G. A. (1967b). Drahtbiegeprobe. Göttingen: Hogrefe. Lienert, G. A. (1989). Testaufbau und Testanalyse (4. Aufl.). München: Psychologie Verlags Union. Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz. Lienert, G. A. & Schuler, H. (1994). Revidierter Allgemeiner Büro-Arbeitstest ABAT-R (3. Aufl., 1. Aufl. 1967). Göttingen: Hogrefe. Lilienfeld, S. O., Wood, J. M. & Garb, H. N. (2000). The scientific status of projective techniques. Psychological Science in the Public Interest, 1, 27-66. Linden, W. J. van der & Hambleton, R. K. (Eds.). (1996). Handbook of modern item response theory. New York: Springer. Linehan, M. M. (1993). Skills training manual for treating borderline personality disorder. New York: Guilford Press. Linn, R. L. (1973). Fair test use in selection. Review of Educational Research, 43, 139-161. Littmann, E. (2000). Forensische Neuropsychologie – Aufgaben, Anwendungsfelder und Methoden. In H.-L. Kröber & M. Steller (Hrsg.), Psychologische Gutachten im Strafverfahren: Indikationen, Methoden und Qualitätsstandards (S. 57-75). Darmstadt: Steinkopff. Lockowandt, O. (1987). Frostig Entwicklungstest der visuellen Wahrnehmung FEW (5. Aufl., 1. Aufl. 1974). Weinheim: Beltz. Loevinger, J. (1947). A systematic approach to the construction and evaluation of tests of ability. Psychological Monographs, 64, 285. Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, 635-694. Loftus, E. F. (1979). Eyewitness testimony. Cambridge, MA: Harvard University Press. Loranger, A. W. (1996). IPDE. International Personality Disorder Examination. ICD-10 Modul. Deutschsprachige Ausgabe von W. Mombour, M. Zaudig, P. Berger, K. Gutierrez, W. Berner, K. Berger, M. v. Cranach, O. Giglhuber, M. v. Bose. Bern: Huber. Lord, F. M. (1955). Estimating test reliability. Educational and Psychological Measurement, 15, 325-336. Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale: Erlbaum. Lord, F. N. & Novick, M. R. (1974). Statistical theories of mental test scores (2nd ed., 1st ed. 1968). Reading, MA: Addison-Wesley. Lubin, A. (1957). Some formulae for use with suppressor variables. Educational and Psychological Measurement, 17, 286-296. Luborsky, L. (1984). Principles of psychoanalytical psychotherapy. New York: Basic Books. Lück, H. E. & Timaeus, E. (1969). Skalen zur Messung Manifester Angst (MAS) und sozialer Wünschbarkeit (SDS-E und SDS-MC). Diagnostica, 15, 134-141. Lüer, G., Cohen, R. & Nauck, W. W. (1966). Eine Kurzform der Vineland Social Maturity Scale für minderbegabte Kinder. Praxis der Kinderpsychologie und Kinderpsychiatrie, 15, 101-105. Lug, J. M. (1985). Psycholinguistisches Sprachförderungsprogramm. Weinheim: Beltz. Lukan, U. & Blöschl, L. (1977). Verhaltenstherapeutisch orientierte Behandlung von Lernschwierigkeiten. Unterrichtswissenschaft, 5, 325-332. Lutz, R. (1978). Das verhaltensdiagnostische Interview. Stuttgart: Kohlhammer. Lutz, R. (1996). Euthyme Therapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 335-351). Berlin, Heidelberg, New York: Springer. Lutz, R. (2000). Gesundheit und Genuss: Euthyme Grundlagen der Verhaltenstherapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 167-182). Heidelberg: Springer. MacAndrew, L. (1965). The differentiation of male alcoholic outpatients from nonalcoholic psychiatric outpatients by means of the MMPI. Quaterly Journal of Studies on Alcohol, 26, 238-246. Maercker, A. (2000a). Operante Verfahren. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 541-550). Berlin, Heidelberg, New York: Springer. Maercker, A. (2000b). Systematische Desensibilisierung. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 405-412). Berlin, Heidelberg, New York: Springer. Mahoney, M. J. (1977). Kognitive Verhaltenstherapie. Neue Entwicklungen und Integratonsschritte. München: Pfeiffer. Mai, N. (1976). Zur Anwendung der additiven Nutzentheorie bei der Bewertung von Therapien. Zeitschrift für Klinische Psychologie, 5, 180-193.

589

Literaturverzeichnis

Malloy, T. E., Agatstein, F., Yarlas, A. & Albright, L. (1997). Effects of communication, information overlap, and behavioural consistency on consensus in social perception. Journal of Personality and Social Psychology, 73, 270-280. Manns, M., Schultze, J., Herrmann, C. & Westmeyer, H. (1987). Beobachtungsverfahren in der Verhaltensdiagnostik. Salzburg: Müller. Marchese, M. C. & Muchinski, P. M. (1993). The validity of the employment interview: A metaanalysis. International Journal of Selection and Assessment, 1, 18-26. Marcus, B. (2003). Das Wunder sozialer Erwünschtheit in der Personalauswahl. Zeitschrift für Personalauswahl, 2, 129-132. Margraf, J. (1994). Mini-DIPS. Diagnostisches Kurz-Interview bei psychischen Störungen. Berlin, Heidelberg, New York: Springer. Margraf, J. (2000). Therapieindikation. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, 2. Aufl.; S. 145-154). Berlin, Heidelberg, New York: Springer. Margraf, J. & Schneider, S. (1990). Panik. Angstanfälle und ihre Behandlung. Berlin, Heidelberg, New York: Springer. Margraf, J., Schneider, S. & Ehlers, A. (1994). Diagnostisches Interview bei psychischen Störungen DIPS (2. Aufl., 1. Aufl. 1991). Berlin, Heidelberg, New York: Springer. Mariacher, H. & Neubauer, A. (2005). PAI30: Test zur Praktischen Alltagsintelligenz. Göttingen: Hogrefe. Marks, I. M. & Mathews, A. M. (1990). Angstfragebogen. In G. Hank, K. Hahlweg & N. Klann (Hrsg.), Diagnostische Verfahren für Berater. Materialien zur Diagnostik und Therapie in Ehe-, Familien- und Lebensberatung (S. 263-267). Göttingen: Beltz-Test. Marschner, G. (1972). Revisions-Test (Rev.T.) nach Dr. Berthold Stender: Ein allgemeiner Leistungstest zur Untersuchung anhaltender Konzentration bei geistiger Tempoarbeit. Göttingen: Hogrefe. Marschner, G. (1981a). Büro-Test BT (2. Aufl., 1. Aufl. 1967). Göttingen: Hogrefe. Marschner, G. (1981b). Untersuchungen mit dem Lern- und Gedächtnis-Test LGT 3 bei Facharbeitern. Diagnostica, 27, 261-265. Marschner, G. (1982). Untersuchungen zur Reliabilität und Retest-Stabilität des Prüfsystems für Schul- und Bildungsberatung PSB. Diagnostica, 28, 263-272. Marschner, G., Stender, B. & Hamster, W. (1989). Revisions-Test (4. Aufl., 1. Aufl. 1972). Göttingen: Hogrefe. Martin, B. A., Bowen, C. C. & Hunt, S. T. (2002). How effective are people at faking on personality questionnaires? Personality and Individual Differences, 32, 247-256. Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149-174. Masters, G. N. & Wright B. D. (1984). The essential process in a family of measurement models. Psychometrika, 49, 529-544. Mathews, A. M., Gelder, M. & Johnston, D. (1988). Platzangst - Eine Anleitung zur Durchführung einer Exposition in-vivo unter Einsatz eines Selbsthilfemanuals. Berlin, Heidelberg, New York: Springer. McCormick, E. J., Jeanneret, P. R. & Mecham, R. C. (1969). The development and background of the Position Analysis Questionnaire (PAQ). Purdue University: Occupational Research Center. McDaniel, M. A., Whetzel, D. L., Schmitt, F. L. & Maurer, S. D. (1994). The validity of employment interviews: A comprehensive review and meta-analysis. Journal of Applied Psychology, 79, 599-616. McNemar, J. (1962). Psychological statistics. New York: Wiley. Mead, A. D. & Drasgow, F. (1993). Equivalence of computerized and paper-and-pencil cognitive ability tests: A meta-analysis. Psychological Bulletin, 114, 449-458. Meehl, P. E. (1954). Clinical vs. statistical prediction. Minneapolis: University of Minnesota Press. Mees, U. (1977). Einführung in die systematische Verhaltensbeobachtung. In U. Mees & H. Selg (Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 14-32). Stuttgart: Klett. Mees, U. & Selg, H. (Hrsg.), (1977). Verhaltensbeobachtung und Verhaltensmodifikation. Stuttgart: Klett. Meichenbaum, D. (1995). Kognitive Verhaltensmodifikation (2. Aufl.). Weinheim: Psychologie Verlags Union. Melchers, P. & Lehmkuhl, G. (2000). Neuropsychologie des Kindes- und Jugendalters. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 613-647). Lisse, NL: Swets & Zeitlinger.

590

Literaturverzeichnis

Melchers, P. & Preuß, U. (1994). Kaufman-Assessment Battery for Children K-ABC (1. Aufl. 1991). Lisse, NL: Swets & Zeitlinger. Messick, S. (1991). Psychology and methodology of response styles. In R. E. Snow & D. E. Wiley (Eds.), Improving inquiry in social science: A volume in honor of Lee J. Cronbach (pp. 161-200). Hillsdale, N.J.: Erlbaum. Metzler, P. & Schmidt, K. H. (1992). Rasch-Skalierung des Mehrfachwahl-Wortschatztests (MWT). Diagnostica, 38, 31-51. Meyerhoff, H. & Dony, M. (1970). Die Zuverlässigkeit anamnestischer Angaben zur frühkindlichen Entwicklung. Zeitschrift für Kinderheilkunde, 108, 41-45. Michel, L. (1967). Die Auswertungsobjektivität des Intelligenz-Struktur-Tests (IST). Diagnostica, 13, 148-153. Michel, L. (1977). Hochschuleingangstest für das Studienfeld Medizin. Bonn: Kultusministerkonferenz. Michel, L. & Conrad, W. (1982). Theoretische Grundlagen psychometrischer Tests. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik (Bd. 1, S. 1-129). Göttingen: Hogrefe. Michel, L. & Mai, N. (1968). Entscheidungstheorie und Probleme der Diagnostik bei Cronbach & Gleser. Diagnostica, 14, 99-121. Michel, L. & Mai, N. (1969). Zur varianzanalytischen Schätzung der Auswertungsobjektivität und eine empirische Untersuchung des Hamburg-Wechsler-Intelligenz-Tests für Erwachsene (HAWIE). Psychologische Beiträge, 11, 23-33. Miesen, J., Schuhfried, G. & Wottawa, H. (1999). ELIGO: Eine vorläufige Antwort auf Grundprobleme der testgestützten Eignungsdiagnostik. Wirtschaftspsychologie, 6, 16-24. Milner, J. S. & Moses, T. (1972). Sexual responsivity as a function of test administrator’s gender. Journal of Consulting and Clinical Psychology, 39, 515. Miltner, W., Birbaumer, N. & Gerber, W.-D. (1986). Verhaltensmedizin. Berlin, Heidelberg, New York: Springer. Mischel, W. (1968). Personality and assessment. New York: Wiley. Mischel, W. (1977). The interaction of person and situation. In D. Magnusson & N. S. Endler (Eds.), Personality at the crossroads: Current issues in interactional psychology (pp. 333-352). Hillsdale: Erlbaum. Mittenecker, E. (1971). Subjektive Tests zur Messung der Persönlichkeit. In R. Heiss, K. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie: Bd. 6, Psychologische Diagnostik (3. Aufl., S. 461-427). Göttingen: Hogrefe. Möbus, C. (1978). Zur Fairness psychologischer Intelligenztests: Ein unlösbares Trilemma zwischen den Zielen von Gruppen, Individuen und Institutionen? Diagnostica, 24, 191234. Molenaar, I. W. (1995). Estimation of item parameters. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 39-51). Berlin, Heidelberg, New York: Springer. Molenaar, I. W. & Hoijtink, H. (1990). The many null distributions of person fit indices. Psychometrika, 55, 75-106. Monahan, J. (2003). Violence risk assessment. In A. M. Goldstein & I. B. Weiner (Eds.), Handbook of psychology: Forensic psychology (Vol. 11, pp. 527-540). New York: Wiley. Monson, Th. C., Hesley, J. W. & Chernick, L. (1982). Specifying when personality traits can and cannot predict behavior: An alternative to abandoning the attempt to predict single-act criteria. Journal of Personality and Social Psychology, 43, 385-399. Moog, W. (1955). Der Kinder-Apperzeptions-Test. Deutsche Bearbeitung des Children’s Apperception Test von Bellak & Bellak. Göttingen: Hogrefe. Moos, R. H. (1974a). Family environment scale (FES). Preliminary manual. Palo Alto: Stanford University, Social ecology laboratory Department of Psychiatry. Moos, R. H. (1974b). The Social Climate Scale: An Overview. Palo Alto, CA: Annual Reviews. Moosbrugger, H. (1984). Konzeptuelle Probleme und praktische Brauchbarkeit von Modellen zur Erfassung von Persönlichkeitsmerkmalen. In M. Amelang & H. J. Ahrens (Hrsg.), Brennpunkte der Persönlichkeitsforschung (S. 67-86). Göttingen: Hogrefe. Moosbrugger, H. (1990). Testtheorie und Testkonstruktion. Arbeiten aus dem Institut für Psychologie der Johann Wolfgang Goethe Universität, Heft 1.

591

Literaturverzeichnis

Moosbrugger, H. (1992). Testtheorie: Klassische Ansätze. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 310-322). Weinheim: Psychologie Verlags Union. Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden in der Persönlichkeitsforschung. Bern, Göttingen: Huber. Moosbrugger, H. & Frank, D. (1995). Clusteranalytische Verfahren zur typologischen Analyse. In K. Pawlik & M. Amelang (Hrsg.), Enzyklopädie der Psychologie: Serie VIII: Differentielle Psychologie (Bd. 1, S. 731-774). Göttingen: Hogrefe. Moosbrugger, H. & Goldhammer, F. (2005). Computerprogramm zur computergestützten Testauswertung des Frankfurter Aufmerksamkeits-Inventar FAIR (2., aktualisierte Auflage). Göttingen: Apparatezentrum. Moosbrugger, H. & Heyden, M. (1977). Frankfurter Adaptiver Konzentrationsleistungs-Test (FAKT). Bern, Göttingen, Toronto, Seattle: Hogrefe Huber Publishers. Moosbrugger, H. & Heyden, M. (1996). FAKT. Frankfurter Adaptiver Konzentrationsleistungs-Test. Testmanual, Version 1.5. Arbeiten aus dem Institut für Psychologie der Johann-WolfgangGoethe Universität Frankfurt/M., Heft 1. Moosbrugger, H. & Oehlschlägel, J. (1994). Frankfurter Aufmerksamkeitsinventar FAIR. Göttingen: Hogrefe. Moosbrugger, H. & Oehlschlägel, J. (1996). FAIR. Frankfurter Aufmerksamkeits-Inventar. Bern: Huber. Moosbrugger, H. & Zistler, R. (1993). Wie befreit man die Item-Trennschärfe von den Zwängen der Item-Schwierigkeit? Das SPS-Verfahren. Diagnostica, 39, 22-43. Morrison, J. (1995). The first interview. New York: Guilford Press. Moskowitz, D. S. (1982). Coherence and cross-situational generality in personality: A new analysis of old problems. Journal of Personality and Social Psychology, 43, 754-768. Mowrer, O. H. (1960). Learning theory and behavior. New York: Wiley. Müller, H. (1987). A Rasch model for continuous ratings. Psychometrika, 52, 165-181. Müller, H. (1997). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern: Huber. Müller, R. (1980). Diagnostisches Soziogramm. Weinheim: Beltz. Mummendey, H. D. (1987). Die Fragebogen-Methode. Göttingen: Hogrefe. Murray, H. A. (1938). Explorations in personality. New York: Oxford University Press. Murray, H. A. (1936). Thematic Apperception Test. New York: Grune & Stratton. Murray, H. A. (1943). Thematic Apperception Test. Cambridge: Harvard University Press. Nährer, W. (1986). Schnelligkeit und Güte als Dimensionen kognitiver Leistungen. Berlin, Heidelberg, New York: Springer. Nauels, H.-U. & Klieme, E. (1994). Wie hat sich das »besondere Auswahlverfahren« bewährt? Prüfungsleistungen und Erfolgsraten von Medizinstudenten, die nach verschiedenen Kriterien zugelassen worden sind. In G. Trost (Hrsg.), Tests für Medizinische Studiengänge (TMS): Studien zur Evaluation (18. Arbeitsbericht) (S. 138-152). Bonn: Institut für Test- und Begabungsforschung. Nedopil, N. & Krupinski, M. (2001). Beispiel-Gutachten aus der Forensischen Psychiatrie. Stuttgart: Thieme. Neisser, U., Boodoo, G., Bouchard, T. J. Jr., Boykin, A. W., Brody, N., Ceci, S. J., Halpern, D. F., Loehlin, J. C., Perloff, R., Sternberg, R. J. & Urbina, S. (1996). Intelligence: Knowns and unknowns. American Psychologist, 51, 77-101. Nell, V. (2003). Konzentrations-Leistungs-Test, revidierte Fassung (KLT-R). In E. Fay (Hrsg.), Tests unter der Lupe 4: Aktuelle psychologische Testverfahren – kritisch betrachtet (S. 59-75). Göttingen: Vandenhoeck & Ruprecht. Nell, V., Bretz, J., & Sniehotta, F. F. (2004). KT 3-4 R. Konzentrationstest für 3. und 4. Klassen (revidierte Fassung). Göttingen: Hogrefe. Neubauer, R. (1980). Die Assessment Center Technik. Ein verhaltenstheoretischer Ansatz zur Führungskräfteauswahl. In R. Neubauer & L. v. Rosenstiel (Hrsg.), Handbuch der Angewandten Psychologie (Bd. 1, S. 122-158). München: Verlag Moderne Industrie. Neubauer, R. (1989). Implizite Eignungstheorien im Assessment Center. In C. Lattmann (Hrsg.), Das Assessment-Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine Anwendung und sein Aussagegehalt (S. 191-221). Heidelberg: Physica-Verlag.

592

Literaturverzeichnis

Neubauer, R. & Volkmann, D. (1989). Beobachtungs- und Beurteilungsprozesse im Assessment Center. In Arbeitskreis Assessment Center (Hrsg.), Assessment Center in der betrieblichen Praxis: Erfahrungen und Perspektiven (S. 137-159). Hamburg: Windmühle. Neuberger, O. (1989). Assessment Centers – Ein Handel mit Illusionen? In C. Lattmann (Hrsg.), Das Assessment-Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine Anwendung und sein Aussagegehalt (S. 291-307). Heidelberg: Physica-Verlag. Neville, D. (1965). The relationship between reading skills and intelligence scores. Reading Teacher, 18, 257-261. Noack, H. & Petermann, F. (1992). Entscheidungstheorie. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (S. 295-310). Weinheim: Psychologie Verlags Union. Norman, W. T. & Goldberg, L. R. (1966). Raters, ratees, and randomness in personality structure. Journal of Personality and Social Psychology, 4, 681-691. Novick, M. R. & Peterson, N. S. (1976). Towards equalizing educational and employment opportunity. Journal of Educational Measurement, 13, 77-88. Obermair, W., Stoll, K. D. & Rickels, K. (1983). Test zur Erfassung der Schwere einer Depression TSD. Weinheim: Beltz. Obermann, C. (1992). Assessment Center. Wiesbaden: Gabler. O’Connor, Jr., E. F. (1972). Extending classical test theory to the measurement of change. Review of Educational Research, 42, 73-97. Oden, M. H. (1968). The fulfillment of promise: 40-year follow-up of the Terman gifted group. Genetic Psychology Monographs, 77, 3-93. Oehlschlägel, J. & Moosbrugger, H. (1991). Konzentrationsleistung ohne Konzentration? Zur Schätzung wahrer Leistungswerte im Aufmerksamkeits-Belastungs-Test d2. Diagnostica, 37, 42-51. Ones, D. S., Viswesvaran, C. & Reiss, A. D. (1996). Role of social desirability in personality testing for personnel selection: The red herring. Journal of Applied Psychology, 81, 660-679. Orendi, B., Pabst, J. & Udris, J. (1986). Kooperation in Arbeitsgruppen – Gruppentrainings zur Förderung sozialer Handlungskompetenzen. Zürich: ETH. Orgass, B. (1982). Token Test TT. Weinheim: Beltz. Osgood, Ch. E. & Suci, G. J. (1952). A measure of relation determined by both mean differences and profile information. Psychological Bulletin, 49, 251-262. Ostendorf, F. & Angleitner, A. (2004). NEO-PI-R: NEO-Persönlichkeitsinventar nach Costa und McCrae, revidierte Fassung. Göttingen: Hogrefe. Ostendorf, F., Angleitner, A. & Ruch, W. (1986). Die Multitrait-Multimethod Analyse. Konvergente und diskriminante Validität der Personality Research Form. Göttingen: Hogrefe. O’Sullivan, M., Guilford, J. P. & De Mille, R. (1965). The measurement of social intelligence. Los Angeles: Reports from the Psychological Laboratory, 34. Oswald, W. D. & Fleischmann, U. M. (1995). Nürnberger Alters-Inventar (NAI) (3., überarb. & erg. Aufl.). Göttingen: Hogrefe. Oswald, W. D. & Hagen, B. (1997). Test d2. Aufmerksamkeits-Belastungs-Test (Rezension). Zeitschrift für Differentielle und Diagnostische Psychologie, 18 (1/2), 87-89. Oswald, W. D. & Roth, W. (1987). Der Zahlen-Verbindungs-Test (ZVT). Göttingen: Hogrefe. Palinscar, A. S. & Brown, A. L. (1984). Reciprocal teaching of comprehension-fostering and monitoring activities. Cognition and Instruction, 1, 175-177. Parry, H. J. & Crossley, H. M. (1950/51). Validity of response to survey questions. Public Opinion Quaterly, 14, 61-80. Paterson, D. G. & Tinker, M. A. (1930). Time-limit versus work-limit methods. American Journal of Psychology, 42, 101-112. Paul, G. L. (1967). Strategy of outcome research in psychotherapy. Journal of Consulting Psychology, 31, 109-118. Paulhus, D. L. (1984). Two-component models of socially desirable responding. Journal of Personality and Social Psychology, 46, 598-609. Paulhus, D. L. & Martin, C. L. (1987). The structure of personality capabilities. Journal of Personality and Social Psychology, 52, 354-365. Pauls, C. A. & Crost, N. W. (2004). Effects of faking on self-decption and impression management scales. Personality and Individual Differences, 37, 1137-1151. Pauls, C. A. & Crost, N. W. (2005). Effects of different instructional sets on the construct validity of the NEO-PI-R. Personality and Individual Differences, 39, 297-308.

593

Literaturverzeichnis

Paunonen, S. V. (1989). Consensus in personality judgments: Moderating effects of target-rater acquaintanceship and behavior observability. Journal of Personality and Social Psychology, 56, 823-833. Paunonen, S. V. & Jackson, D. N. (1986). Idiothetic inquiry and the toil of sisyphus. Journal of Personality, 54, 470-477. Paunonen, S. V. & Jackson, D. N. (1988). Nichtsprachlicher Persönlichkeitsfragebogen. London, Canada: University of Western Ontario. Paunonen, S. V., Jackson, D. N. & Keinonen, M. (1990). The structured nonverbal assessment of personality. Journal of Personality, 58, 481-502. Paunonen, S. V., Jackson, D. N., Trzebinski, J. & Forsterling, F. (1992). Personality structure across cultures: A multimethod evaluation. Journal of Personality and Social Psychology, 62, 447-456. Pawlik, K. (1976). Modell- und Praxisdimensionen psychologischer Diagnostik. In K. Pawlik (Hrsg.), Diagnose der Diagnostik (S. 13-43). Stuttgart: Klett. Pekrun, R. (1984). An expectancy-value model of anxiety. In H. M. van der Ploeg, R. Schwarzer & C. D. Spielberger (Eds.), Advances in test anxiety research (Vol. 3, pp. 52-73). Hillsdale, NJ: Erlbaum. Perrez, M. (1985). Diagnostik in der Psychotherapie - ein anachronistisches Ritual? Psychologische Rundschau, 36, 106-109. Perrez, M. & Baumann, U. (Hrsg.). (1990). Lehrbuch der Klinischen Psychologie, Bd. 1: Grundlagen, Diagnostik, Ätiologie. Bern: Huber. Perrez, M. & Baumann, U. (Hrsg.). (1990). Lehrbuch der Klinischen Psychologie, Bd. 2: Intervention. Bern: Huber. Perrez, M. & Baumann, U. (Hrsg.). (2006). Lehrbuch Klinische Psychologie – Psychotherapie. Bern: Huber. Pervin, L. A. (1970). Personality: Theory, assessment, and research. New York: Wiley. Pervin, L. A. (1981). Persönlichkeitstheorien. München: Reinhardt. Petermann, F. (1978). Veränderungsmessung. Stuttgart: Kohlhammer. Petermann, F. (1987). Kontrollierte Praxis. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 113116). München: Psychologie Verlags Union. Petermann, F. (Hrsg.). (1995). Lehrbuch der Klinischen Kinderpsychologie. Göttingen: Hogrefe. Petillon, H. (1980). Soziometrischer Test für 4. bis 13. Klassen. Weinheim: Beltz. Petry, J. (1996). Alkoholismustherapie: Vom Einstellungswandel zur kognitiven Therapie (3. Aufl., 1. Aufl. 1985). München: Urban & Schwarzenberg. Piel, E., Hautzinger, M. & Scherbarth-Roschmann, P. (1991). Analyse der Freiburger Beschwerden-Liste (FBL-K) mit Hilfe des stochastischen Testmodells von Rasch. Diagnostica, 37, 226235. Posthuma, R. A., Morgeson, F. P. & Campion, M. A. (2002). Beyond employment interview validity: A comprehensive narrative review of recent research and trends over time. Personnel Psychology, 55, 1-81. Preusche, I. & Leiss, U. (2003). Intelligenztests für Kinder. HAWIK-III, AID 2 und K-ABC im Vergleich. Report Psychologie, 28, 12-26. Priester, H.-J. (1958). Die Standardisierung des Hamburg-Wechsler-Intelligenztests für Kinder. Bern, Stuttgart: Huber. Probst, H. (1984). Die pädagogisch-psychologische Begutachtung bei der Sonderschuleinweisung. In H. A. Hartmann & R. Haubl (Hrsg.), Psychologische Begutachtung (S. 254-276). München: Urban & Schwarzenberg. Pryor, J. B., Gibbons, F. X., Wicklund, R. A., Fazio, R. H. & Hood, R. (1977). Self-focused attention and self-report validity. Journal of Personality, 45, 513-527. Pudel, V. & Westhöfer, J. (1989). Fragebogen zum Eßverhalten FEV. Göttingen: Hogrefe. Querido, J., Eyberg, S., Kanfer, R. & Krahn, G. (2001). The process of the clinical child assessment interview. In C. E. Walker & M. C. Roberts (Eds.), Handbook of clinical child psychology (3rd. ed.) (pp. 75-89). New York: Wiley. Rabin, A. I. & Haworth, M. R. (Eds.). (1965). Projective techniques with children. New York: Grune & Stratton. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Kopenhagen: The Danish Institute for Educational Research.

594

Literaturverzeichnis

Rasch, G. (1961). On general laws and the meaning of measurement in psychology. In J. Neyman (Ed.), Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 4, pp. 321-333). Berkeley, CA: University of California Press. Rathus, S. A. & Nenid, J. S. (1977). Behavior therapy. Strategies of solving problems in living. Bergenfield, NY: New American Library. Rauh, H. (1988). Verschränkungen mit der Entwicklungspsychologie. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 49-58). München, Weinheim: Psychologie Verlags Union. Raven, J. G. (1965). Standard Progressive Matrices. Cambridge: University Press. Raven, J. C., Bulheller, S. & Häcker, H. (2002). CPM. Coloured Progressive Matrices (3., neu normierte Auflage). Göttingen: Hogrefe. Rehfisch, H.-P., Basler, H.-D. & Seemann, H. (1989). Psychologische Schmerzbehandlung bei Rheuma – Manuale zur Verhaltenstherapie. Berlin, Heidelberg, New York: Springer. Reichert, J. (1997). Begutachtung des Erinnerungsvermögens einer Zeugin mit mehrjährigem Drogenmissbrauch – Antje F., 20 Jahre. In K. D. Kubinger & H. Teichmann (Hrsg.), Psychologische Diagnostik und Intervention in Fallbeispielen (S. 121 ff.). Weinheim: Psychologie Verlags Union. Reicherts, M. & Perrez, P. (1992). Fragebogen zum Umgang mit Belastungen im Verlauf. Göttingen: Hogrefe. Reimann, G. (2004). Arbeits- und Anforderungsanalyse. In K. Westhoff, L. Hellfritsch, L. F. Hornke, K. Kubinger, F. Lang, H. Moosbrugger, A. Püschel & G. Reimann (Hrsg.), Grundwissen für die berufsbezogene Eingungsbeurteilung nach DIN 33430 (S. 105-120). Lengerich: Pabst. Reinecker, H. S. (1994). Zwänge. Diagnose, Theorie und Behandlung (2. Aufl.). Bern, Göttingen, Toronto, Seattle: Hans Huber. Reinert, G. (1964). Entwicklungstests. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie, Bd. 6: Psychologische Diagnostik (S. 280-351). Göttingen: Hogrefe. Reitan, R. M. & Wolfson, D. (1985). The Halstead-Reitan neuropsychological test battery: Theory and clinical interpretation. Tuscon: Neuropsychology. Renneberg, B. (1991). Personality disorders and interactional behavior of agoraphobic outpatients. Dissertationsschrift, Phillips-Universität Marburg. Renneberg, B. (1996). Verhaltenstherapeutische Gruppentherapie bei Patienten mit selbstunsicherer Persönlichkeitsstörung. In B. Schmitz, T. Fydrich & K. Limbacher (Hrsg.), Persönlichkeitsstörungen: Diagnostik und Psychotherapie (S. 344-358). Weinheim: Psychologie Verlags Union. Rennen-Allhoff, B. & Allhoff, P. (Hrsg.). (1987). Entwicklungstests für das Säuglings-, Kleinkind- und Vorschulalter. Berlin, Heidelberg, New York: Springer. Renner, G. & Fricke, T. (2001). Der Hamburg-Wechsler-Intelligenztest für Kinder-III [Rezension]. Report Psychologie, 26, 460-477. Retish, P. M. (1973). Changing the status of poorly esteemed students through teacher reinforcement. Journal of Applied Behavioral Science, 9, 44-50. Revenstorf, D. (1993-1996). Psychotherapeutische Verfahren (Bd. I-IV, 2. Aufl.). Stuttgart: Kohlhammer. Revers, W. J. (1973). Der Thematische Apperzeptions-Test TAT (3. Aufl.). Bern: Huber. Revers, W. J. & Taeuber, K. (1968). Der Thematische Apperzeptionstest. Bern: Huber. Revers, W. J. & Widauer, H. (1985). Thematischer Gestaltungstest (Salzburg). TGT-S. Weinheim: Beltz. Rheinberg, F. (2004). Motivationsdiagnostik. Göttingen: Hogrefe. Richardson, M. W. & Kuder, G. F (1939). The calculations of test reliability coefficients based on the method of rational equivalence. Journal of Educational Psychology, 30, 681. Rief, W. (1996). Therapeutische Settings. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1 (S. 449-467). Berlin, Heidelberg, New York: Springer. Rief, W. & Birbaumer, N. (2000). Biofeedback Therapie – Grundlagen, Indikation und praktisches Vorgehen. Stuttgart: Schattauer. Rief, W. & Hiller, W. (1998). Somatisierungsstörung und Hypochondrie. Göttingen: Hogrefe. Rief, W., Schäfer, S. & Fichter, M. M. (1992). SOMS: Ein Screening-Verfahren zur Identifizierung von Personen mit somatoformen Störungen. Diagnostica, 38, 228-241. Rief, W., Hiller, W. & Heuser, J. (1997). SOMS: Screening für somatoforme Störungen. Göttingen: Hogrefe.

595

Literaturverzeichnis

Riemann, D. & Backhaus, J. (1996). Behandlung von Schlafstörungen. Weinheim: Psychologie Verlags Union. Riemann, R. (1991). Repertory Grid Technik. Göttingen: Hogrefe. Riemann, R. (1992). Konstruktion und Validierung eines Inventars zur Erfassung von Persönlichkeits-Fähigkeiten. Bielefeld: Unveröffentlichtes Manuskript. Riemann, R. & Abels, D. (1994). Personality abilities: Construct validation. In B. deRaad, W. K. B. Hofstee & G. L. van Heck (Eds.), Personality psychology in Europe (Vol. 5). Tilburg, NL: Tilburg University Press. Riemann, R. & Schumacher F. J. (1996). Zur Validität der Deutschen Personality Research Form: Vorhersage des Verkaufserfolges von Außendienst-Mitarbeitern. Zeitschrift für Differentielle und Diagnostische Psychologie, 17, 4-13. Robbins, S. B., Lauver, K., Le, H., Davis, D., Langley, R. & Carlstrom, A. (2004). Do psychosocial and study skill factors predict college outcomes? A meta-analysis. Psychological Bulletin, 130, 261288. Roder, V., Brenner, H. D., Kienzle, N. & Hockel, B. (1995). Integriertes psychologisches Therapieprogramm für schizophrene Patienten IPT (3. Aufl., 1. Aufl. 1988). Weinheim: Psychologie Verlags Union. Roether, D. (1984). Tempoleistungen und Merkfähigkeit Erwachsener (TME). Berlin: Psychodiagnostisches Zentrum. Rogers, C. R. (1973). Die klientbezogene Gesprächstherapie. München: Kindler. Rogers, C. R. (1981). Der neue Mensch. Stuttgart: Klett-Cotta. Rohracher, H. (1965). Kleine Charakterkunde. Wien: Urban & Schwarzenberg. Rorschach, H. (1921). Psychodiagnostik. Der Rorschach-Test. Bern: Huber. Rosch, E. (1975). Cognitive representations of sematic categories. Journal of Experimental Psychology, General, 104, 192-233. Rosenstiel, L. von (1992). Grundlagen der Organisationspsychologie. Stuttgart: SchäfferPoeschel. Rosenzweig, S. (1950). Levels of behavior in psychodiagnosis with special reference to the PictureFrustration-Study. American Journal of Orthopsychiatry, 20, 63-72. Roskam, E. E. (1996). Latent-Trait-Modelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 431-458). Weinheim: Psychologie Verlags Union. Rost, D. H. (2001). Hochbegabung. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (2., überarb. & erw. Aufl., S. 239-248). Weinheim: Beltz, PVU. Rost, D. H., Sparfeldt, J. R. & Schilling, S. R. (im Druck). Hochbegabung. In: K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik. Berlin: Springer. Rost, J. (1988). Quantitative und qualitative probabilistische Testtheorie. Bern: Huber. Rost, J. (1990). Rasch models in latent classes: An integration of two approaches to item analysis. Applied Psychological Measurement, 14, 271-282. Rost, J. (1995). Die testdiagnostische Erfassung von Typen. In K. Pawlik (Hrsg.), Bericht über den 39. Kongreß der Deutschen Gesellschaft für Psychologie in Hamburg 1994 (S. 392-398). Göttingen: Hogrefe. Rost, J. (1996). Lehrbuch Testtheorie – Testkonstruktion. Bern: Huber. Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion (2. Aufl.). Bern: Huber. Rost, J. & Langenheine, R. (Eds.). (1996). Applications of latent trait and latent class models in the social sciences. Münster: Waxmann. Rost, J. & Spada, H. (1977). Probabilistische Testtheorie. In K. J. Klauer (Hrsg.), Handbuch der pädagogischen Diagnostik (Bd. 1, S. 59-97). Düsseldorf: Schwann. Rost, J. & Spada, H. (1983). Die Quantifizierung von Lerneffekten anhand von Testdaten. Zeitschrift für Differentielle und Diagnostische Psychologie, 4, 29-49. Rost, J. & Strauß, B. (1992). Review: Recent developments in psychometrics and test-theory. The German Journal of Psychology, 16, 2, 91-119. Roth, J. (1978). Fragebogen zum Trinkverhalten Alkoholabhängiger FTA. Göttingen: Hogrefe. Rotter, J. B. (1954). Social learning and clinical psychology. Englewood Cliffs, NY: Prentice Hall. Rotter, J. B. (1967). A new scale for measurement of interpersonal trust. Journal of Personality, 35, 651-665. Rüdiger, D. (1987). Der Übertritt auf weiterführende Schulen. In A. Kormann (Hrsg.), Beurteilen und Fördern in der Erziehung (S. 98-121). Salzburg: Müller.

596

Literaturverzeichnis

Rüdiger, D., Peez, H. & Kormann, A. (1985). Analyse der Schulleistung. Studienbrief 4 des Fernstudienlehrgangs zur Ausbildung von Beratungslehrern. Tübingen: Deutsches Institut für Fernstudien. Rudolf, G. (1981). Psychischer und Sozial-Kommunikativer Befund PSKB. Weinheim: Beltz. Rudolf, G. (1991). PSKB-Se – Ein psychoanalytisch fundiertes Instrument zur Patienten-Selbsteinschätzung. Zeitschrift für Psychosomatische Medizin und Psychoanalyse, 37, 350-360. Rudolf, G. (1993). Psychischer und Sozial-Kommunikativer Befund (PSKB). Ein Instrument zur standardisierten Erfassung neurotischer Befunde. Göttingen: Hogrefe. Sack, P. M. & Witte, E. H. (1990). Untersuchungen zur Konstruktvalidität des HAKEMP 85 von J. Kuhl. Zeitschrift für Differentielle und Diagnostische Psychologie, 11, 17-26. Sader, M. (1976). Psychologie der Gruppe. München: Juventa. Sader, M. & Keil, W. (1966). Bedingungskonstanz in der psychologischen Diagnostik. Archiv für die gesamte Psychologie, 118, 279-308. Saldern, M. v. & Littig, K. E. (1987). Landauer Skalen zum Sozialklima für 4. bis 13. Klassen. Weinheim: Beltz. Salgado, J. F. & Moscoso, S. (2002). Comprehensive meta-analysis of the construct validity of the employment interview. European Journal of Work and Organizational Psychology, 11, 299-324. Saltstone, R., Skinner C. & Tremblay, P. (2001). Conditional standard error of measurement and personality scale scores: An investigation of classical test theory estimates with 4 MMPI scales. Personality and Individual Differences, 30, 691-698. Salzgeber, J. (2001). Familienpsychologische Gutachten: Rechtliche Vorgaben und sachverständiges Vorgehen (3., überarb. Aufl.). München: Beck. Sammer, G. (1994). Nichtlineare Dynamik im EEG: Ein weiterführender Ansatz zur Psychophysiologischen Untersuchung individueller Unterschiede? In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 131-145). Göttingen: Hogrefe. Sarges, W. (1994). Eignungsdiagnostische Überlegungen für den Management-Bereich. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 415-434). Göttingen: Hogrefe. Saß, H., Wittchen, H.-U. & Zaudig, M. (1996). Diagnostisches und statistisches Manual psychischer Störungen (DSM-IV). Göttingen: Hogrefe. Saß, H., Wittchen, H. U., Zaudig, M. & Houben, I. (1998). Diagnostische Kriterien des Diagnostischen und Statistischen Manuals Psychischer Störungen(DSM-IV). Göttingen: Hogrefe. Saß, H., Wittchen, H.-U. & Zaudig, M. & Houben, I. (2003). Diagnostisches und statistisches Manual psychischer Störungen – Textrevision – (DSM-IV.TR). Göttingen: Hogrefe. Sartorius, N., Kaelber, C. T., Cooper, J. E., Roper, M. T., Rae, D. S., Gulbinat, W., Üstün, T. B. & Regier, D. A. (1993). Progress toward achieving a common language in psychiatry. Results from the field trial of the Clinical Guidelines accompanying the WHO classification of mental and behavioural disorders in ICD-10. Archives of General Psychiatry, 50, 115-124. Saunders, D. R. (1956). Moderator variables in prediction. Educational and Psychological Measurement, 16, 209-222. Sawyer, J. (1966). Measurement and prediction, clinical and statistical. Psychological Bulletin, 66, 178200. Schaaf, A., Kessler, J., Grond, M. & Fink, G. R. (1992). Memo-Test. Weinheim: Beltz. Schäfer, H. (1989). Constructing a cut-off point for a quantitative diagnostic test. Statistics in Medicine, 8, 1381-1391. Schallberger, U., Tewes, U. & Rossmann, P. (2001). Bemerkungen zur Rezension des HAWIK-III von Renner und Fricke (2001) – eine Replik. Report Psychologie, 26, 478-481. Schandry, R. (1998). Lehrbuch der Psychophysiologie. Studienausgabe. Körperliche Indikatoren psychischen Geschehens (4. Aufl.). Weinheim: Psychologie Verlags Union. Scheiblechner, H. (1972). Das Lernen und Lösen komplexer Denkaufgaben. Zeitschrift für experimentelle und angewandte Psychologie, 19, 476-506. Scheiblechner, H. (1996). Item-Response-Theorie: Prozeßmodelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 459-466). Weinheim: Psychologie Verlags Union. Scheier, M. F. & Carver, C. S. (1985). Optimism, coping, and health: Assessment and implications of generalized outcome expectancies. Health Psychology, 4, 219-247.

597

Literaturverzeichnis

Schellig, D. & Schächtele, B. (2001). Visueller und Verbaler Merkfähigkeitstest (VVM). Göttingen: Hogrefe. Schindler, L., Hohenberger-Sieber, E. & Halweg, K. (1990). Stundenbeurteilungsbogen für Klienten und Therapeuten (SB-K, SB-T). In G. Hank, K. Hahlweg & N. Klann (Hrsg.), Diagnostische Verfahren für Berater. Materialien zur Diagnostik und Therapie in Ehe, Familien- und Lebensberatung (S. 331-339). Göttingen: Beltz-Test. Schlippe, A. v. & Schweitzer, J. (2004). Lehrbuch der systemischen Therapie und Beratung (11. Aufl.). Göttingen: Vandenhoeck &. Ruprecht. Schmale, H. & Schmidtke, H. (1984). Berufseignungstest BET (2. Aufl., 1. Aufl. 1967). Göttingen: Hogrefe. Schmalt, H. D. (1976). Das LM-Gitter. Ein objektives Verfahren zur Messung des Leistungsmotivs bei Kindern. Göttingen: Hogrefe. Schmidt, F. L. & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology. Psychological Bulletin, 124, 262-274. Schmidt, J. U. & König, F. (1986). Untersuchungen zur Validität der revidierten Form des Freiburger Persönlichkeitsinventars (FPI-R). Diagnostica, 3, 197-208. Schmidt, K. H. & Metzler, P. (1992). Wortschatztest (WST). Weinheim: Beltz. Schmidt, L. R. (1975). Objektive Persönlichkeitsmessung in Diagnostischer und Klinischer Psychologie. Weinheim: Beltz. Schmidt, L. R. (1995). Psychodiagnostisches Gutachten. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (3., korr. Aufl., S. 468-478). Weinheim: Beltz & Psychologie Verlags Union. Schmidt, L. R., Häcker, H. & Schwenkmezger, P. (1985). Differentialdiagnostische Untersuchungen mit objektiven Persönlichkeitstests und Fragebogen im psychiatrischen Bereich. Diagnostica, 31, 22-37. Schmidt-Atzert, L. (2001). Rezension des »Leistungsmotivationsinventar (LMI)« von H. Schuler und M. Prochaska. Zeitschrift für Arbeits- und Organisationspsychologie, 45, 142-145. Schmidt-Atzert, L. (2002). Intelligenz-Struktur-Test 2000-R (Rezension). Zeitschrift für Personalpsychologie, 1, 50-56. Schmidt-Atzert, L. (2004). Objektiver Leistungsmotivations Test OLMT (unter Mitarbeit von Markus Sommer, Markus Bühner und Astrid Jurecka). Mödling: Schuhfried. Schmidt-Atzert, L. (2004). Test d2: Aufmerksamkeits-Belastungs-Test. In G. Büttner & L. Schmidt Atzert (Hrsg.), Diagnostik von Aufmerksamkeit und Konzentration (S. 87-101). Göttingen: Hogrefe. Schmidt-Atzert, L. (2005). Ergebnisse einschlägiger Evaluationsstudien. In: K. Westhoff, L. Hellfritsch, L.F. Hornke, K. Kubinger, F. Lang, H. Moosbrugger, A. Püschel & G. Reimann (Hrsg.), Grundwissen für die berufsbezogene Eignungsbeurteilung nach DIN. 33430 (2., überarb. Aufl., S. 225-230). Lengerich: Pabst. Schmidt-Atzert, L. (2005). Prädiktion von Studienerfolg bei Psychologiestudenten. Psychologische Rundschau, 56, 131-133. Schmidt-Atzert, L. & Bühner, M. (1998). Fehlertypen im Aufmerksamkeits-Belastungs-Test d2. Diagnostica, 44(3), 142-152. Schmidt-Atzert, L., Bühner, M. & Enders, P. (2006). Messen Konzentrationstests Konzentration? Eine Analyse von Konzentrationstestleistungen. Diagnostica, im Druck. Schmidt-Atzert, L., Bühner, M., Rischen, S. & Warkentin, V. (2004). Erkennen von Simulation und Dissimulation im Test d2. Diagnostica, 50, 124-133. Schmidt-Atzert, L., Büttner, G. & Bühner, M. (2004). Theoretische Aspekte von Aufmerksamkeits-/ Konzentrationsdiagnostik. In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Aufmerksamkeit und Konzentration (S. 3-22). Göttingen: Hogrefe. Schmidt-Atzert, L., & Deter, B. (1993). Intelligenz und Ausbildungserfolg: Eine Untersuchung zur prognostischen Validität des I-S-T 70. Zeitschrift für Arbeits- und Organisationspsychologie, 37, 52-63. Schmidt-Atzert, L., Hommers, W. & Heß, M. (1995). Der IST 70: Eine Analyse und Neubewertung. Diagnostica, 41, 108-130. Schmidt-Rathjens, C., Amelang, M. & Czemmal, J. (1997). Persönlichkeit, Krebs und koronare Herzerkrankungen: Weitere empirische Evidenzen aus dem Heidelberg-Projekt. Zeitschrift für Gesundheitspsychologie, 5, 1-16.

598

Literaturverzeichnis

Schmidt-Rathjens, C., Benz, D., van Damme, D., Feldt, K. & Amelang, M. (1997). Über zwiespältige Erfahrungen mit Fragebögen zum Kohärenzsinn sensu Antonovsky. Diagnostica, 43, 327-346. Schmitt, M. (1992). Interindividuelle Konsistenzunterschiede als Herausforderung für die Differentielle Psychologie. Psychologische Rundschau, 43, 30-45. Schmolck, P. (1983). Ein einfaches Verfahren zur Optimierung empirischer Skalenkonstruktion durch Selektion von Suppressor-Items, demonstriert an MacAndrew’s Alkoholismus Skala. Diagnostica, 29, 203-219. Schneewind, K. A. (1987a). Die Familienklimaskalen (FKS). In M. Cierpka (Hrsg.), Familiendiagnostik (S. 232-255). Berlin: Springer. Schneewind, K. A. (1987b). Das »Familiendiagnostische Testsystem« (FDTS): Ein Fragebogeninventar zur Erfassung familiärer Beziehungsaspekte auf unterschiedlichen Systemebenen. In M. Cierpka (Hrsg.), Familiendiagnostik (S. 320-342). Berlin: Springer. Schneewind, K. A. (1991). Familienpsychologie. Stuttgart: Kohlhammer. Schneewind, K. A. & Graf J. (1998). Der 16-Persönlichkeits-Faktoren-Test Revidierte Fassung 16 PF-R. Testmanual. Bern: Huber. Schneewind, K. A, Schröder, G. & Cattell, R. B. (1994). Der 16-Persönlichkeitsfaktoren-Test (16 PF) (3. Aufl.). Bern: Huber. Schneider, R. (1982). Das Therapieprogramm der Fachklinik Furth im Wald. In R. Schneider (Hrsg.), Stationäre Behandlung von Alkoholkranken (S. 53-134). München: Röttger. Schneider, S. (1996). Psychische Störungen des Kindes- und Jugendalters. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 337-361). Berlin: Springer. Schneider, S., In-Albon, T. & Margraf, J. (2006). DIPS: Diagnostisches Interview bei psychischen Störungen (3. Auflage). Berlin: Springer. Schneider, W., Basler, H.-D. & Beisenherz, B. (1989). Fragebogen zur Messung der Psychotherapiemotivation FMP. Weinheim: Beltz. Schorr, A. (1995). Stand und Perspektiven diagnostischer Verfahren in der Praxis. Ergebnisse einer repräsentativen Befragung westdeutscher Psychologen. Diagnostica, 41, 3-20. Schramm, E. (Hrsg.). (1996). Interpersonelle Psychotherapie bei Depressionen und anderen psychischen Störungen. Therapiemanual nach Klerman, Weissman, Rounsaville & Chevron. Stuttgart: Schattauer. Schramm, E., Hohagen, F., Graßhoff, U. & Berger, M. (1991). Strukturiertes Interview für Schlafstörungen nach DSM-III-R. Weinheim: Beltz. Schuerger, J. M., Zarrella, K. L. & Hotz, A. S. (1989). Factors that influence the temporal stability of personality by questionnaire. Journal of Personality and Social Psychology, 56, 777-783. Schuhfried, G. (o. J.). Wiener Testsystem. Mödling: Schuhfried. Schuler, H. (1987). Assessment Center als Auswahl- und Entwicklungsinstrument: Einleitung und Überblick. In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 1-35). Stuttgart: Verlag für Angewandte Psychologie. Schuler, H. (1992). Das Multimodale Einstellungsinterview. Diagnostica, 38, 281-300. Schuler, H., Frier, D. & Kauffmann, M. (1993). Personalauswahl im Europäischen Vergleich. Göttingen: Verlag für Angewandte Psychologie. Schuler, H. & Funke, U. (1989). Berufseignungsdiagnostik. In E. Roth (Hrsg.), Enzyklopädie der Psychologie, Serie III: Wirtschafts-, Organisations- und Arbeitspsychologie, Bd. 3: Organisationspsychologie (S. 281-320). Göttingen: Hogrefe. Schuler, H., Funke, U., Moser, K. & Donat, M. (1995). Personalauswahl in Forschung und Entwicklung. Göttingen: Hogrefe. Schuler, H. & Moser, K. (1995). Die Validität des Multimodalen Interviews. Zeitschrift für Arbeitsund Organisatonspsychologie, 39 (1), 2-12. Schuler, H. & Prochaska, M. (1992). Ermittlung personaler Merkmale: Leistungs- und Potentialbeurteilung von Mitarbeitern. In K. H. Sonntag (Hrsg.), Personalentwicklung in Organisationen (S. 157-186). Göttingen: Hogrefe. Schuler, H. & Prochaska, M. (2001). LMI Leistungsmotivationsinventar. Göttingen: Hogrefe. Schuler, H. & Schmitt, N. (1987). Multimodale Messung in der Personalpsychologie. Diagnostica, 33, 259-271. Schuler, H. & Stehle, W. (1983). Neuere Entwicklungen des Assessment-Center-Ansatzes unter dem Aspekt der sozialen Validität. Psychologie und Praxis – Zeitschrift für Arbeits- und Organisationspsychologie, 27, 33-44.

599

Literaturverzeichnis

Schulte, D. (1976). Diagnostik in der Verhaltenstherapie. München: Urban & Schwarzenberg. Schulte, D. (1987). Standardized treatment vs. individualized treatment (Paper presented at the 18th annual meeting of the Society for Psychotherapy Research, June 16-20). Ulm. Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische Psychologie, 22, 374-392. Schulte, D. (1996). Therapieplanung. Göttingen: Hogrefe. Schulte, D. & Wittchen, H.-U. (1988). Wert und Nutzen klassifikatorischer Entscheidungen. Diagnostica, 34, 85-98. Schutte, N. S., Kenrick, D. T. & Sadalla, E. K. (1985). The search for predictable settings: situational prototypes, constraint, and behavioral variation. Journal of Personality and Social Psychology, 49, 121-128. Schwenkmezger, P. (1984). Kann durch das Prinzip der Aggregation von Daten die Konsistenzannahme von Eigenschaften beibehalten werden? Zeitschrift für Differentielle und Diagnostische Psychologie, 5, 251-272. Schwenkmezger, P. (1997). 16-Persönlichkeits-Faktoren-Test (16PF) (Rezension). Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 113-115. Schwenkmezger, P., Hodapp, V. & Spielberger, C. D. (1992). Das State-Trait-Ärgerausdrucks-Inventar (STAXI). Bern: Huber. Schwenkmezger, P. & Laux, L. (1986). Trait anxiety, worry, and emotionality in athletic competition. In C. D. Spielberger & R. Diaz-Guerrero (Eds.), Cross-cultural anxiety (Vol. 3, pp. 65-77). Washington, DC: Hemisphere. Segal, D. L., Hersen, M. & Van-Hasselt, V. B. (1994). Reliability of the Structured Clinical Interview for DSM-III-R: An evaluative review. Comprehensive Psychiatry, 35, 316-327. Seidenstücker, G. & Baumann, U. (1987). Multimodale Diagnostik als Standard in der Klinischen Psychologie. Diagnostica, 33, 243-258. Selg, H. (1965). Über den Zusammenhang zwischen Schultüchtigkeit und Beliebtheit in Schulklassen. Psychologische Forschung, 28, 587-597. Semmer, N. & Pfäfflin, M. (1978). Interaktionstraining. Ein handlungstheoretischer Ansatz zum Training sozialer Fertigkeiten. Weinheim: Beltz. Shepard, R. N. & Metzler, J. (1971). Mental rotation of three-dimensional objects. Science, 171, 701-703. Sherif, M., Harvey, O. J., White, B. J., Hood, W. R. & Sherif, C. W. (1961). Ingroup conflict and cooperation: The robber’s cave experiment. Norman, OK: University of Oklahoma. Sherman, M. (1979). Personality. New York: Pergamon. Shneidman, E. S. (1947). Make-A-Picture-Story-Test. New York: Psychological Corporation. Sieveking, N. A. & Chappell, J. E. (1970). Reactions to the names »counseling center« and »psychological center«. Journal of Consulting and Clinical Psychology, 34, 124-127. Simons, H. & Möbus, C. (1976). Untersuchungen zur Fairness von Intelligenztests. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 8, 1-12. Slovic, P., Fishhoff, B. & Lichtenstein, S. (1977). Behavioral decision theory. Annual Review of Psychology, 28, 1-39. Snijders, J. T. & Snijders-Oomen, N. (1991). Nicht-verbale Intelligenztestreihe SON-R. Revidierte Neufassung. Groningen: Wolters-Noordhoff. Sommer, G. & Fydrich, T. (1989). Soziale Unterstützung, Diagnostik, Konzepte, Fragebogen F-SOZU. Tübingen: Deutsche Gesellschaft für Verhaltenstherapie. Sommer, G. & Fydrich, T. (1991). Entwicklung und Überprüfung eines Fragebogens zur sozialen Unterstützung. Diagnostica, 37, 160-178. Sonntag, K. (1992). Ermittlung tätigkeitsbezogener Merkmale: Qualitätsanforderungen und Voraussetzungen menschlicher Aufgabenbewältigung. In K. Sonntag (Hrsg.), Personalentwicklung in Organisationen (S. 135-155). Göttingen: Hogrefe. Sonntag, K. & Schaper, N. (1992). Förderung beruflicher Handlungskompetenzen. In K. Sonntag (Hrsg.), Personalentwicklung in Organisationen (S. 187-210). Göttingen: Hogrefe. Sorembe, V. & Westhoff, K. (1985). Skala zur Erfassung der Selbstakzeptierung SESA. Göttingen: Hogrefe. Spangler, W. D. (1992). Validity of questionnaire and TAT measures of need for achievement: Two meta-analyses. Psychological Bulletin, 112, 140-154.

600

Literaturverzeichnis

Spearman, C. (1904). »General intelligence«, objectively determined and measured. American Journal of Psychology, 15, 201-293. Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 3, 281ff. Spielberger, C. D., Gorsuch, R. L. & Lushene, R. E. (1970). Manual for the State-Trait-Anxiety-Inventory. Palo Alto, CA: Consulting Psychologists Press. Spinath, F. M. (1999). Validität von Fremdbeurteilungen: Einflussfaktoren auf die Konvergenz von Selbst- und Fremdbeurteilungen in Persönlichkeitseinschätzungen. Lengerich: Pabst Science Publisher. Spinath, F. M. (2000). Validität von Fremdbeurteilungen: Einflussfaktoren auf die Konvergenz von Selbst- und Fremdbeurteilungen in Persönlichkeitseinschätzungen. Lengerich: Pabst. Spinath, F. M. & Angleitner, A. (1995). Convergence of verbal and nonverbal personality assessment techniques. A German study using the NPQ. Bielefeld: Unpublished manuscript. Spitznagel, A. (1964). Die diagnostische Situation. Ein Beitrag zur Theorie und Psychologie der Datengewinnung. Habilitationsschrift, Universität Freiburg (Unveröff.). Spitznagel, A. (1968). Die Situation als Problem der Persönlichkeitspsychologie. In K. J. Groffmann & K. H. Wewetzer (Hrsg.), Person als Prozeß (S. 183-212). Bern: Huber. Spitznagel, A. (1982a). Die diagnostische Situation. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer Diagnostik (S. 248-294). Göttingen: Hogrefe. Spitznagel, A. (1982b). Grundlagen, Ergebnisse und Probleme von Formdeuteverfahren. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik. Bd. 3: Persönlichkeitsdiagnostik (S. 186-257). Göttingen: Hogrefe. Spitznagel, A. & Vogel, H. (1964). Formdeuteverfahren. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie, Bd. 6: Psychologische Diagnostik (S. 556-634). Göttingen: Hogrefe. Spreen, O. (1963). MMPI Saarbrücken. Handbuch. Bern: Huber. Stäcker, K.-H. (1978). Projektive und thematische Verfahren. In L. R. Schmidt (Hrsg.), Lehrbuch der Klinischen Psychologie (S. 256-275). Stuttgart: Enke. Stagner, R. (1977). On the reality and relevance of traits. The Journal of General Psychology, 96, 185-207. Stangier, U. & Fydrich T. (Hrsg). (2002). Soziale Phobie, soziale Angststörungen. Göttingen: Hogrefe. Steck, P. (1993). Gutachten. In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie (S. 320-323). Bonn: Deutscher Psychologen Verlag GmbH. Steck, P. (1996). Die Prüfung der Dauerkonzentration mit einer Apparateversion des Pauli-Tests. Diagnostica, 42, 332-351. Steck, P. (1997). Psychologische Testverfahren in der Praxis: Ergebnisse einer Umfrage unter Testanwendern. Diagnostica, 43, 267-284. Stehle, W. (1982). Die Assessment Center Methode als Methode der Auswahl von Führungskräften. In H. Schuler & W. Stehle (Hrsg.), Psychologie in Wirtschaft und Verwaltung (S. 49-66). Stuttgart: Poeschel. Steinberg, L. (1994). Context and serial-order effects in personality measurement: Limits on the generality of measuring changes the measure. Journal of Personality and Social Psychology, 66, 341-349. Steinhausen, H. C. & Aster, M. (Hrsg.). (1993). Handbuch Verhaltenstherapie und Verhaltensmedizin bei Kindern und Jugendlichen. Weinheim: Psychologie Verlags Union. Steller, M. & Volbert, R. (1997). Glaubwürdigkeitsbegutachtung. In M. Steller & R. Volbert (Hrsg.), Psychologie im Strafverfahren: Ein Handbuch (S. 12-39). Bern: Huber. Stelzl, I. (1993). Testtheoretische Modelle. In L. Tent & I. Stelzl. Pädagogisch-Psychologische Diagnostik (S. 39-202). Göttingen: Hogrefe. Stern, W. (1911). Intelligenzproblem und Schule. Leipzig: Teubner. Steyer, R. & Eid, M. (1993). Messen und Testen. Berlin, Heidelberg, New York: Springer. Steyer, R., Femming, D. & Schmitt, M. (1992). States and traits in psychological assessment. European Journal of Psychological Assessment, 8, 79-98. Steyer, R., Macjen, A.-A., Schwenkmezger, P. & Buchner, A. (1989). A latent state-trait anxiety model and its application to determine consistency and specificity coefficients. Anxiety Research, 1, 281-299.

601

Literaturverzeichnis

Stieglitz, R. D. (1988). Klinische Selbst- und Fremdbeurteilungsverfahren. Diagnostica, 34, 28-57. Stieglitz, R. D. & Baumann, U. (Hrsg.). (1994). Psychodiagnostik psychischer Störungen. Stuttgart: Enke. Strauß, B., Köller, O. & Möller, J. (1996). Geschlechtsrollentypologien – eine empirische Prüfung des additiven und des balancierten Modells. Zeitschrift für Differentielle und Diagnostische Psychologie, 17, 67-83. Strauß, B. & Schuhmacher, J. (Hrsg.). (2005). Klinische Interviews und Ratingskalen. Göttingen: Hogrefe. Strehl, U. & Birbaumer, N. (1996). Verhaltensmedizinische Intervention bei Morbus Parkinson. Weinheim: Psychologie Verlags Union. Strelau, J. (1983). Temperament-personality-activity. London: Academic Press. Strelau, J. (1986). Zur biologischen Determination von Persönlichkeitsdimensionen. In V. Sarris (Hrsg.), Die Zukunft der experimentellen Psychologie (S. 195-206). Weinheim: Beltz. Strey, B. (1993). Elterliche Kausalattributionen von Erziehungsschwierigkeiten. Dissertation, Universität Heidelberg. Stumpf, H., Angleitner, A., Wieck T., Jackson, D. N. & Beloch-Till, H. (1985). German Personality Research Form (PRF). Göttingen: Hogrefe. Stumpf, H. & Fay, E. (1987). Neuere Befunde zum Schlauchfiguren-Test. Diagnostica, 33, 156-163. Stumpf, H. & Fay, E. (1991). Zur prognostischen Validität des Tests für Medizinische Studiengänge TMS in den Studiengängen Tier- und Zahnmedizin. Diagnostica, 37, 213-225. Stumpf, H. & Nauels, H. U. (1990). Zur prognostischen Validität des Tests für Medizinische Studiengänge TMS im Studiengang Humanmedizin. Diagnostica, 35, 16-32. Sturm, W. (2000). Aufgaben und Stratgien neurposychologischer Diagnostik. In W. Sturm, M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 265-276). Lisse, NL: Swets & Zeitlinger. Sturm, W. & Hartje, W. (1989). Aufgaben und Untersuchungsverfahren der neuropsychologischen Diagnostik. In K. Poeck (Hrsg.), Klinische Neuropsychologie (2. Aufl., S. 71-88). Stuttgart: Thieme. Sturm, W., Herrmann, M. & Wallesch, C.-W. (Hrsg.). (2000). Lehrbuch der Klinischen Neuropsychologie. Grundlagen, Methoden, Diagnostik. Lisse, NL: Swets & Zeitlinger. Sturm, W., Willmes, K. & Horn, W. (1993). Leistungsprüfsystem 50+ LPS 50+. Göttingen: Hogrefe. Supprian, U. (1976). Eppendorfer Stimmungs-Antriebs-Skala ESTA. Pharmakopsychiatrie, 1, 8-25. Süß, H. M. (2001). Prädiktive Validität der Intelligenz im schulischen und außerschulischen Bereich. In E. Stern & J. Guthke (Hrsg.), Perspektiven der Intelligenzforschung. Ein Lehrbuch für Fortgeschrittene (S. 1-27). Lengerich: Pabst. Tack, W. H. (1976). Diagnostik als Entscheidungshilfe. In K. Pawlik (Hrsg.), Diagnose der Diagnostik. Beiträge zur Diskussion der Psychologischen Diagnostik in der Verhaltensmodifikation (S. 103130). Stuttgart: Klett. Tack, W. H. (1986). Reliabilitäts- und Effektfunktionen – ein Ansatz zur Zuverlässigkeit von Meßwertänderungen. Diagnostica, 32, 48-63. Taplin, P. S. & Reid, J. B. (1972). Effects of instructional set and experimenter influence on observer reliability. Child Development, 44, 547-554. Tarnai, C. & Rost, J. (1990). Identifying aberrant response patterns in the Rasch model. The Q Index. Sozialwissenschaftliche Forschungsdokumentation. Münster: Institut für sozialwissenschaftliche Forschung e.V. Taylor, H. C. & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23, 565585. Taylor, J. A. (1953). A personality scale of manifest anxiety. Journal of Abnormal and Social Psychology, 48, 285-290. Taylor, R. B., DeSoto, D. B. & Lieb, R. (1979). Sharing secrets: Disclosure and discretion in dyads and tryads. Journal of Personality and Social Psychology, 37, 1196-1203. Tent, L. (1969). Die Auslese von Schülern für weiterführende Schulen. Göttingen: Hogrefe. Terman, L. M. (assisted by Butterwieser, P., Ferguson, L. W., Johnson, W. B. & Wilson, D. P.). (1938). Psychological factors in marital happiness. New York: McGraw-Hill. Terman, L. M. & Merrill, M. A. (1960). Stanford Binet intelligence scale: Manual for the third revision. Form L-M. Boston: Houghton-Mifflin.

602

Literaturverzeichnis

Testkuratorium der Föderation deutscher Psychologenverbände (1986). Beschreibung der einzelnen Kriterien für die Testbeurteilung. Diagnostica, 32, 358-360. Tewes, U. (1985). Hamburg-Wechsler-Intelligenztest für Kinder Revision 1983 HAWIK-R (2. Aufl., 1. Aufl. 1983). Bern: Huber. Tewes, U., Rossmann, P. & Schallberger, U. (1999). HAWIK-III: Hamburg-Wechsler-Intelligenztest für Kinder – dritte Auflage. Bern: Huber. Thomä, H. & Kächele, H. (2006). Lehrbuch der psychoanalytischen Therapie (3. Aufl., Bd. 1 & 2). Berlin Heidelberg New York: Springer. Thorndike, R. L. (1971). Concepts of culture-fairness. Journal of Educational Measurement, 8, 63-70. Thornton, G. C., Gaugler, B. B., Rosenthal, D. & Bentson, C. (1987). Die prädiktive Validität des Assessment Centers – eine Metaanalyse (aus dem Englischen übersetzt). In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 36-60). Stuttgart: Verlag für Angewandte Psychologie. Thornton, G. C. & Gierasch, P. F. (1980). Fakability of an empirically derived selection instrument. Journal of Personality Assessment, 44, 48-51. Thurner, F. & Tewes, U. (1975). Der Kinder-Angst-Test KAT. Göttingen: Hogrefe. Thurstone, L. L. & Thurstone, T. G. (1941). Factorial studies of intelligence. Chicago, IL: University of Chicago Press. Tiedemann, J. (1974). Die Problematik der Schuleingangsdiagnose unter entscheidungstheoretischem Aspekt. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 6, 124-132. Todt, E. (1966). Untersuchungen zur Vorhersage von Schulnoten. Psychologische Forschung, 29, 32-51. Todt, E. (1971). Differentieller Interessentest (DIT) (2. Aufl.). Bern: Huber. Toggweiler, S., Jungo, D. & Stoll, F. (2004). Der Foto-Interessentest Serie FIT 2003. Zur Erfassung von Berufsinteressen mittels fotografischer Stimuli. Zeitschrift für Personalpsychologie, 3, 34-42. Tönnies, S. (1986). Inventar zur Selbstkommunikation für Erwachsene ISE (2. Aufl., 1. Aufl. 1982). Weinheim: Beltz. Triebe, J. K. & Ulich, E. (1977). Eignungsdiagnostische Zukunftsperspektiven: Möglichkeiten einer Neuorientierung. In J. K. Triebe & E. Ulich (Hrsg.), Beiträge zur Eignungsdiagnostik (S. 241-273). Bern: Huber. Trost, E. (1985). Pädagogische Diagnostik beim Hochschulzugang, dargestellt am Beispiel der Zulassung zu den medizinischen Studiengängen. In K. Ingenkamp, R. Horn & R. S. Jäger (Hrsg.), Tests und Trends 4 (S. 41-81). Weinheim: Beltz. Trost, G., Bickel, H., Blum, F., Christian, H. & Steinhart, J. (1980). Modellversuch »Tests für den Studiengang Pharmazie«, 1. Arbeitsbericht. Bonn: Institut für Test- und Begabungsforschung. Trost, G., Ebnet, U., Deter, B., Fay, E. & Stumpf, H. (1978). Modellversuch »Tests für Medizinische Studiengänge«, 1. Zwischenbericht. Bonn: Kultusministerkonferenz. Trost, G. & v. Hayn, S. (2001). Auswahlgespräche mit Studienbewerbern. Handreichung für die Hochschulen. Bonn: ITB. Consulting. Tucha, O. & Lange, K. W. (2004). Turm von London – Deutsche Version (TL-D). Göttingen: Hogrefe. Tucker, L., Damarin, F. & Messick, S. (1966). A base-free measure of change. Psychometrika, 31, 457-473. Turner, R. B. & Horn, J. M. (1977). Personality scale and item correlates of WAIS abilities. Intelligence, 1, 281-297. Tuschen, B. (1996). Problemanalyse. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 179-187). Berlin, Heidelberg, New York: Springer. Tuschen, B. & Fiegenbaum, W. (1996). Kognitive Verfahren. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 387-399). Berlin, Heidelberg, New York: Springer. Tuschen, B. & Fliegenbaum, W. (2000). Systemimmanente kognitive Therapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (S. 499-508). Heidelberg: Springer. Tuschen, B. & Florin, I. (2002). Teufelskreis Bulimie. Göttingen: Hogrefe. Udris, J. & Alioth, A. (1980). Fragebogen zur »Subjektiven Arbeitsanalyse« (SAA). In E. Martin, J. Udris, U. Ackermann & K. Oegerli (Hrsg.), Monotonie in der Industrie (S. 61-68). Bern: Huber.

603

Literaturverzeichnis

Ullrich, R. & Ullrich, R. (1976a). Das Assertivitäts-Trainingsprogramm ATP. München: Pfeiffer. Ullrich, R. & Ullrich, R. (1976b). Das Emotionalitätsinventar EMI. München: Pfeiffer. Ullrich, R. & Ullrich, R. (1976c). Die Situationsbewertungsskala SB. München: Pfeiffer. Ullrich, R. & Ullrich, R. (1976d). Der Unsicherheitsfragebogen UF. München: Pfeiffer. Ullrich-deMuynck, R. & Ullrich, R. (1976). Das Assertivitäts-Trainings-Programm ATP. Einübung von Selbstvertrauen und sozialer Kompetenz (Teil 1). München: Pfeiffer. Ullrich-deMuynck, R. & Ullrich, R. (1977). Der Unsicherheitsfragebogen (Testmanual U). München: Pfeiffer. Unnewehr, S., Schneider, S. & Margraf, J. (1994). Kinder-DIPS: Diagnostisches Interview bei psychischen Störungen im Kindes- und Jugendalter. Berlin: Springer. Urban, K. K. (1986). Hörverstehenstest für 4. bis 7. Klassen. Weinheim: Beltz. USES (1962). Guide to the use of the General Aptitude Test Battery: Section III. Development. Washington: Government Printing Office. Uzgiris, I. & Hunt, J. McV. (1975). Assessment in infancy: Ordinal scales of psychological development. Urbana: University of Illinois Press. Vagt, G. (1974). Suppressor- und Moderator-Effekte verschiedener Testeinstellungs-Variablen bei Tests zur sprachlichen Ausdrucksfähigkeit. Dissertation, Universität Hamburg. Vernon, P. E. (1950). The structure of human abilities. London: Methuen. Volbert, R. (2000). Standards der psychologischen Glaubhaftigkeitsdiagnostik. In H.-L. Kröber & M. Steller (Hrsg.), Psychologische Begutachtung im Strafverfahren - Indikationen und Qualitätsstandards (S. 113-145). Darmstadt: Steinkopff. Vormbrock, F. & Neuser, J. (1983). Konstruktion zweier spezifischer Trait-Fragebogen zur Erfassung von Angst in sozialen Situationen. Diagnostica, 29, 165-182. Vroom, V. H. & Yetton, P. (1973). Leadership and decision-making. Pittsburgh: University of Pittsburgh Press. Waadt, S., Laessle, R. G. & Pirke, K.-M. (1992). Bulimie. Ursachen und Therapie. Berlin, Heidelberg, New York: Springer. Wagner, H. & Baumgärtel, G. (1978). Hamburger Persönlichkeitsfragebogen für Kinder (HAPEF-K). Handanweisung. Göttingen: Hogrefe. Wahl, D., Weinert, F. E. & Huber, G. L. (1984). Psychologie für die Schulpraxis. München: Kösel. Wakenhut, R. (1974). Messung gesellschaftlich-politischer Einstellungen mit Hilfe der RaschSkalierung. Bern: Huber. Wallasch, R. (1979). Hintergrund-Interferenz-Verfahren HIV. Weinheim: Beltz. Wallesch, C.-W. & Herrmann, M. (2000). Klinische Neurologie. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 96-125). Lisse, NL: Swets & Zeitlinger. Walsh, E. B. & Maxey, E. J. (1972). Validity of self report and personality. Journal of Counseling Psychology, 19, 563-564. Watson, D. (1988). Intraindividual and interindividual analyses of positive and negative affects: Their relation to health complaints, perceived stress and daily activities. Journal of Personality and Social Psychology, 54, 1020-1030. Wechsler, D. (1939). The measurement of adult intelligence. Baltimore: Williams & Wilkins. Wechsler, D. (1958). The measurement and appraisal for adult intelligence. Baltimore: Williams & Wilkins. Wechsler, D. (1981). Wechsler Adult Intelligence Scale-Revised. New York: Psychological Corporation. Weidlich, S. (1972). Diagnosticum für Cerebralschäden (DCS). Bern: Huber. Weidlich, S. & Lamberti, G. (1993). Diagnosticum für Cerebralschädigung DCS (3. Aufl., 1. Aufl. 1972). Bern: Huber. Weiler, C. (2000). Bildgebende Verfahren – Aktivierungsstudien mit PET und FMRT. In W. Sturm, M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 204-218). Lisse, NL: Swets & Zeitlinger. Weinert, F. E., Helmke, A. & Schneider, W. (1989). Individual differences in learning performance and school achievement. In H. Mandl, E. de Corte, N. Bennet & H. F. Friedrich (Eds.), Learning and instruction (pp. 461-479). Oxford: Pergamon Press. Weinert, F. E., Helmke, A. & Schrader, F. W. (1992). Research on the model teacher and the teaching model. In F. K. Oser, A. Dick & J. L. Patry (Eds.), Effective and responsible teaching (pp. 249-260). San Francisco: Jossey-Bass.

604

Literaturverzeichnis

Weinert, F. E., Schrader, F. W. & Helmke, A. (1990). Educational expertise: Closing the gap between educational research and classroom practise. School Psychology International, 11, 1633170. Weinstein, M. C. & Fineberg, H. V. (1980). Clinical decision analysis. Philadelphia: Saunders. Weise, G. (1994). Gütekriterien – speziell die Objektivität – von Tests in Abhängigkeit von der Art der Auswertung: Manuelle vs. Computerauswertung. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 307-317). Göttingen: Hogrefe. Weiß, R. H. (1991). Grundintelligenztest Skala 2 – CFT 20 mit Wortschatztest und Zahlenfolgetest (3., verb. und erw. Aufl.). Braunschweig: Westermann. Weiß, R. H. (1997). Replik zur Rezension des CFT 20. Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 56-61. Weiß, R. H. (1998). Grundintelligenztest Skala 2 CFT 20 mit Wortschatztest (WS) und Zahlenfolgentest (ZF) (4., überarbeitete Auflage). Göttingen: Hogrefe. Weiss, D. J. & Davison, M. L. (1981). Test theory and methods. Annual Review of Psychology, 32, 629-658. Weiss, L., Katzmann, M. & Wolchik, S. (1989). Bulimie. Ein Behandlungsplan. Bern: Huber. Wellek, A. (1955). Ganzheitspsychologie und Strukturpsychologie. Bern: Huber. Wells, G. L. & Olsen, E. A. (2003). Eyewitness testimony. Annual Review of Psychology, 54, 277295. Wernimont, P. F. & Campbell, J. P. (1968). Signs, samples and criteria. Journal of Applied Psychology, 52, 372-376. Westhoff, K. (1985). Erste Prüfung einer Konzentrationstheorie. Diagnostica, 31, 310-319. Westhoff, K. (1989). Übungsabhängigkeit von Leistungen in Konzentrationstests. Diagnostica, 35, 122-130. Westhoff, K. (1995). Aufmerksamkeit und Konzentration. In M. Amelang (Hrsg.), Enzyklopädie der Psychologie: Bd. C VIII 2, Verhaltens- und Leistungsunterschiede (S. 375-402). Göttingen: Hogrefe. Westhoff, K. & Hagemeister, C. (2005). Konzentrationsdiagnostik. Lengerich: Pabst. Westhoff, K., Hellfritsch, L. J., Hornke, L. F., Kubinger, K., Lang, F., Moosbrugger, H., Püschel, A. & Reimann, G. (Hrsg.). (2004). Grundwissen für die berufsbezogene Eignungsbeurteilung nach DIN 33430. Lengerich: Pabst. Westhoff, K., Hellfritsch, L. J., Hornke, L. F., Kubinger, K., Lang, F., Moosbrugger, H., Püschel, A., Reimann, G. (Hrsg.). (2005). Grundwissen für die berufsbezogene Eignungsbeurteilung nach DIN 33430 (2., überarb. Aufl.). Lengerich: Pabst. Westhoff, K. & Kluck, M. L. (1984). Ansätze einer Theorie konzentrativer Leistungen. Diagnostica, 29, 310-319. Westhoff, K. & Kluck, M. L. (1991). Psychologische Gutachten schreiben und beurteilen. Berlin, Heidelberg, New York: Springer. Westhoff, K. & Kluck, M. L. (2003). Psychologische Gutachten schreiben und beurteilen (4., vollst. überarb. und erw. Aufl.). Berlin: Springer. Wicklund, R. A. (1977). Selbstzentrierte Aufmerksamkeit, Selbstkonsistenz und Moralität. In L. Montada (Hrsg.), Brennpunkte der Entwicklungspsychologie (S. 399-407). Stuttgart: Kohlhammer. Wicklund, R. A. (1982). Self-focused attention and the validity of self-reports. In M. P. Zanna, E. T. Higgins & C. P. Herman (Eds.), Consistency in social behavior: The Ontario Symposion (Vol. 2). Hillsdale: Erlbaum. Wieczerkowski, W., Bastine, R., Fittkau, B., Nickel, H., Tausch, R. & Tewes, U. (1969). Verminderung von Angst und Neurotizismus bei Schülern durch positive Bekräftigung von Lehrern im Schulunterricht. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 1, 3-12. Wieczerkowski, W. & Oeveste, H. Z. (1982). Zuordnungs- und Entscheidungsstrategien. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 2, Studienausgabe, S. 919-951). Düsseldorf, Schwann. Wietersheim, J. v., Ennulat, A., Probst, B., Wilke, E. & Feiereis, H. (1989). Konstruktion und erste Evaluation eines Fragebogens zur sozialen Integration. Diagnostica, 35, 359-363. Wild, K.-P. (1993). Hochbegabtendiagnostik durch Lehrer. In: D. H. Rost (Hrsg.), Lebensumweltanalyse hochbegabter Kinder (S. 236-261). Göttingen: Hogrefe.

605

Literaturverzeichnis

Willerman, L., Turner, R. B. & Peterson, M. (1976). A comparison of the predicitve validity of typical and maximal personality measures. Journal of Research in Personality, 10, 482492. Windheuser, J. & Niketta, R. (1972). Eine deutsche Form der »Reinforcement Survey Schedule« von Kautela und Kastenbaum. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (S. 264-272). München: Urban & Schwarzenberg. Winett, R. A. & Roach, A. M. (1973). The effects of reinforcing academic performance on social behavior: A brief report. Psychological Record, 23, 391-396. Wittchen, H.-U., Pfister, H. & Garczynski, E. (1997). Composite International Diagnostic Interview (CIDI) nach ICD-10 und DSM-IV. Göttingen: Hogrefe. Wittchen, H.-U., Schramm, E., Zaudig, M., Spengler, P., Rummler, R. & Mombour, W. (1990). Strukturiertes Klinisches Interview für DSM-III-R. Weinheim: Beltz. Wittchen, H.-U. & Semler, G. (1991). Composite International Diagnostic Interview (CIDI) nach ICD10 und DSM-IV. Weinheim: Beltz. Wittchen, H.-U., Semler, G., Schramm, E. & Spengler, P. (1988). Diagnostik psychischer Störungen mit strukturierten und standardisierten Interviews: Konzepte und Vorgehensweisen. Diagnostica, 34, 58-84. Wittchen, H.-U., Wunderlich, U., Gruschwitz, S. & Zaudig, M. (1997). Strukturiertes Klinisches Interview für DSM-IV, Achse-I (SKID). Göttingen: Hogrefe. Wittchen, H.-U., Zaudig, M. & Fydrich, T. (1997). SKID-I und SKID-II. Strukturiertes Klinisches Interview für DSM-IV. Achse I: Psychische Störungen/Achse II: Persönlichkeitsstörungen. Göttingen: Hogrefe. Wittchen, H.-U., Zaudig, M., Spengler, P., Mombour, W., Hiller, W., Essau, C. A., Rummler, R., Spitzer, R. L. & Williams, J. (1991). Wie zuverlässig ist operationalisierte Diagnostik? - Die TestRetest-Reliabilität des Strukturierten Klinischen Interviews für DSM-III-R. Zeitschrift für Klinische Psychologie, 20, 136-153. Wittkowski, J. & Seitz, W. (2004). Praxis der verkehrspsychologischen Eignungsbegutachtung: Eine Bestandsaufnahme unter besonderer Berücksichtigung alkoholauffälliger Kraftfahrer. Stuttgart: Kohlhammer. Wittmann, W. (1987). Grundlagen erfolgreicher Forschung in der Psychologie: Multimodale Diagnostik, Multiplismus, multivariate Reliabilitäts- und Validitätstheorie. Diagnostica, 33, 209-226. Wolff, J. (2000). BIP. Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung. Wirtschaftspsychologie, 7, 74-83. Wollenberg, A. L. van den (1988). Testing a latent trait model. In R. Langeheine & J. Rost (Eds.), Latent trait and latent class models (pp. 31-50). New York: Plenum. Wolpe, J. (1958). Psychotherapy by reciprocal inhibition. Stanford: Stanford University Press. Wolpe, J. & Lang, P. J. (1964). A Fear Survey Schedule for use in behavior therapy. Behavior Research and Therapy, 2, 27-30. Woodworth, R. S. (1918). Personal data sheet. Chicago: Stoelting. Wottawa, H. (1997). Ökonomische Dimensionen psychodiagnostischen Arbeitens. Bochum: Persönliche Mitteilung. Wottawa, H. & Amelang, M. (1980). Einige Probleme der »Testfairness« und ihre Implikationen für Hochschulzulassungsverfahren. Diagnostica, 26, 199-221. Wottawa, H. & Hossiep, R. (1987). Grundlagen psychologischer Diagnostik. Göttingen: Hogrefe. Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press. Wrightsman, L. S. (1974). Assumptions about human nature: A social-psychological approach. Monterey, CA: Brooks. Zaworka, W., Hand, I., Jauernig, G. & Lünenschloß, K. (1983). Hamburger Zwangs-Inventar HZI. Weinheim: Beltz. Zedeck, S. (1971). Problems with the use of »moderator« variables. Psychological Bulletin, 76, 295-310. Zerssen, D. v. (1976a). Befindlichkeits-Skala Bf-S. Weinheim: Beltz. Zerssen, D. v. (1976b). Depressivitäts-Skala DS. Weinheim: Beltz. Zerssen, D. v. (1976c). Die Beschwerden-Liste (B-L). In G. Hank, K. Hahlweg, N. Klann (Hrsg.), Diagnostische Verfahren für Berater (S. 319-321). Göttingen: Beltz-Test. Zielke, M. (1979). Kieler Änderungssensitive Symptomliste KASSL. Weinheim: Beltz.

606

Literaturverzeichnis

Zielke, M. & Kopf-Mehnert, C. (1978). Veränderungsfragebogen des Erlebens und Verhaltens VEV. Weinheim: Beltz. Zimmer, D. (1989). Fragebogen zu Sexualität und Partnerschaft FSP. Materialie 19. Tübingen: DGVT. Zimmer, D. & Echelmeyer, L. (1978). Fragebogen zur Lebensgeschichte. Tübingen: DGVT-Verlag. Zimmer, R. & Volkamer, M. (1984). Motorik-Test für 4 bis 6jährige Kinder MOT 4-6. Weinheim: Beltz. Zimmermann, P. & Fimm, B. (1993). Testbatterie zur Aufmerksamkeitsprüfung (TAP). Würselen: Vera Fimm Psychologische Testsysteme. Zuckerman, M., Koestner, R., DeBoy, T., Garcia, T., Maresca, B. C. & Satoris, J. M. (1988). To predict some of the people some of the time: A reexamination of the moderator variable approach in personality theory. Journal of Personality and Social Psychology, 54, 1006-1019. Zuschlag, B. (1992). Das Gutachten des Sachverständigen. Göttingen Stuttgart: Verlag für Angewandte Psychologie.

607

Quellenverzeichnis Seite

Abb.-Nr.

Quelle

4

1.1

9 11 14

1.3 1.4 1.5

19 31 41 45 62

1.7 2.2 2.4 2.5 2.8

62

2.9

69

2.10

71

2.12

77

2.13

79 79 80 83

2.14 2.15 2.16 2.18

84

2.19

90 96

2.20 2.21

99

2.22

100 106

2.23 2.24

107 126

2.25a-c 2.29

129

2.30

Aus Hossiep, R. & Wottawa, H. (1993). Diagnostik. S. 132 In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie. Bonn: Deutscher Psychologen Verlag. Getty Images Barbis, Fahrlehrerverband BW Nach Rathus, S. A. & Nenid, J. S. (1977). Behavior therapy. Strategies of solving problems in living. S. 137-139 Bergenfield, NY: New American Library. Nach Raven, J. G. (1965). Standard Progressive Matrices. Cambridge: University Press. Barbis, Fahrlehrerverband BW www.photos.com H. Wallis Aus Grawe, K. (1991). Über den Umgang mit Zahlen. In K. Grawe, R. Hänni, N. Semmer & F. Tschan (Hrsg.), Über die richtige Art, Psychologie zu betreiben (S. 89-105). Hogrefe: Göttingen. Mit freundlicher Genehmigung des Hogrefe Verlags. Aus Grawe, K. (1991). Über den Umgang mit Zahlen. In K. Grawe, R. Hänni, N. Semmer & F. Tschan (Hrsg.), Über die richtige Art, Psychologie zu betreiben (S. 89-105). Hogrefe: Göttingen. Mit freundlicher Genehmigung des Hogrefe Verlags. Aus Stelzl, I. (1993). Testtheoretische Modelle. In L. Tent & I. Stelzl. Pädagogisch-Psychologische Diagnostik (S. 39-202). Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. Aus Stelzl, I. (1993). Testtheoretische Modelle. In L. Tent & I. Stelzl. Pädagogisch-Psychologische Diagnostik (S. 39-202). Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. Aus Kubinger, K. D. (1995). Einführung in die Psychologische Diagnostik. Weinheim: Psychologie Verlags Union. www.photos.com Aus Steyer, R. & Eid, M. (1993). Messen und Testen. Berlin, Heidelberg New York: Springer. Aus Steyer, R. & Eid, M. (1993). Messen und Testen. Berlin, Heidelberg New York: Springer. Aus Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion (2. Aufl.). Bern: Verlag Hans Huber. Mit freundlicher Genehmigung des Verlages Hans Huber. Aus Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion (2. Aufl.). Bern: Verlag Hans Huber. Mit freundlicher Genehmigung des Verlages Hans Huber. H. Wallis Aus Tewes, U., Rossmann, P. & Schallberger, U. (Hrsg.) HAWIK-III Hamburg-Wechsler-Intelligenztest für Kinder. 3. Aufl. Hans Huber Verlag, Bern. Mit freundlicher Genehmigung des Verlages Hans Huber. Aus Duhm, E. & Hansen, J. (1957). Der Rosenzweig P-F-Test. Deutsche Bearbeitung der Rosenzweig Picture Frustration Study. Form für Kinder. Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. www.photos.com Aus Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar: FPI; Revidierte Fassung FPI-R. und teilweise geänderte Fassung FPI-A1 (7. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. www.photos.com Aus Hollmann, H. (1993). Validität der Eignungsdiagnostik. Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. Aus Jäger, A. O. & Althoff, K. (1994). Wilde-Intelligenztest WIT (1. Aufl. 1983). Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags.

608

Quellenverzeichnis

Seite

Abb.-Nr.

Quelle

155

2.31

157

2.32

163 164

2.33 2.34

168 175 177 177 189

2.36 2.40 2.41b 2.41c 3.1

192 197

3.2 3.3

204 207 207

3.4 3.6 3.7

209

3.8

212 217

3.9 3.13

223

3.14

227 260

3.16 3.17

264

3.18

276

3.19

279

3.20

303

3.21a

303

3.21b

315 316 318

3.23 3.24 3.25

322

3.27

Aus Burisch, M. (1984). Approaches to personality inventory construction. A comparison of merits. American Psychologist, 39, 214-227. Aus Amelang, M. & Bartussek, D. (1990). Differentielle Psychologie und Persönlichkeitsforschung (3. Aufl., 5. Aufl. 2001). Stuttgart: Kohlhammer. William Stern, The New York Academy of Sciences Aus Bortz, J. (2005) Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer www.photos.com Aus Lienert, G.A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz PVU. Heiko Kernmayer Friedann Kirn, mpi photoservice, Motorrad 10/95, S. 246 Aus Schmidt-Atzert, L. (2005). Ergebnisse einschlägiger Evaluationsstudien. In: K. Westhoff, L. Hellfritsch, L.F. Hornke, K. Kubinger, F. Lang, H. Moosbrugger, A. Püschel & G. Reimann (Hrsg.), Grundwissen für die berufsbezogene Eignungsbeurteilung nach DIN. 33430 (2., überarb. Aufl., S. 225-230). Lengerich: Pabst. Aus Brickenkamp 1962 Aus Moosbrugger, H. & Oehlschlägel, J. (1994). Frankfurter Aufmerksamkeitsinventar FAIR. Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. Hogrefe Testsystem, Göttingen. Mit freundlicher Genehmigung des Hogrefe Verlags. National Library of Medicine Aus Tewes, U. (1985). Hamburg-Wechsler-Intelligenztest für Kinder Revision 1983 HAWIK-R (2. Aufl., 1. Aufl. 1983). Bern: Huber. Mit freundlicher Genehmigung des Verlages Hans Huber. Auswertungsprogramm zum HAWIK-III. Hogrefe, Göttingen. Mit freundlicher Genehmigung des Hogrefe Verlags. Aus Kubinger, K. D. & Wurst E. (1991). Adaptives Intelligenz Diagnostikum: AID. S. 42. Weinheim: Beltz. Nach Amthauer, R., Brocke, B., Liepmann, D. & Beauducel, A. (2001). Intelligenz-Struktur-Test 2000 (IST 2000). Göttingen: Hogrefe. Aus Jäger, A. O, Süß, H.-M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-Test (Form 4; BIS-4). Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. Aus Schuhfried, G. (o. J.). Wiener Testsystem. Mödling: Schuhfried. www.schuhfried.co.at Nach Schneewind, K. A. & Graf J. (1998). Der 16-Persönlichkeits-Faktoren-Test. Revidierte Fassung. 16 PF-R. Testmanual. S. 7 Bern: Huber. Nach Schneewind, K. A. & Graf J. (1998). Der 16-Persönlichkeits-Faktoren-Test. Revidierte Fassung. 16 PF-R. Testmanual. S. 55 Bern: Huber. Aus Becker, P. (1989). Der Trierer Persönlichkeitsfragebogen TPF. Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. NachHossiep, R. & Paschen, M. (1998). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung BIP. S. 19. Göttingen: Hogrefe. Aus Paunonen, S. V. & Jackson, D. N. (1988). Nichtsprachlicher Persönlichkeitsfragebogen. London, Canada: University of Western Ontario. Aus Paunonen, S. V. & Jackson, D. N. (1988). Nichtsprachlicher Persönlichkeitsfragebogen. London, Canada: University of Western Ontario. Aus Rorschach, H. (1921). Psychodiagnostik. Der Rorschach-Test. Bern: Huber. Aus Murray, H. (1936). Thematic apperception test. New York: Grune & Stratton. Aus Moog, W. (1955). Der Kinder-Apperzeptions-Test. Deutsche Bearbeitung des Children’s Apperception Test von Bellak & Bellak. Göttingen: Hogrefe. Getty Images

609

Quellenverzeichnis

Seite

Abb.-Nr.

Quelle

322

3.28

329

3.30

347 354

3.31 3.32

359 362 365 370 372 381

3.33 3.34 3.35 4.1 4.2 5.1

384

5.2

397

6.1

398

6.2

399

6.3

400

6.4

402 409

6.6 6.10

413 421 424 426

6.11 7.1c 7.3 7.4

429

7.5

434

7.6

441 443 445 468

8.1 8.2 8.3 8.4

478 539

9.1 11.1

Aus Mees, U. (1977). Einführung in die systematische Verhaltensbeobachtung. In U. Mees & H. Selg (Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 14-32). Stuttgart: Klett. Aus Keßler, B.H. (1999). Daten aus dem Interview. In R.S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (4. Aufl., S. 429-439). Weinheim: Beltz PVU. Nach Brähler, E. & Brähler, Ch. (1993). Paardiagnostik mit dem Gießen-Test. S. 154. Bern: Huber. Nach Heil, F. E. (1998). Das Trierer Partnerschaftsinventar (TPI). Manual Entwurf. S. 5. Trier: Fachbereich: Psychologie. Nach Cierpka u. Frevert, 1994, S. 5 Nach Cierpka u. Frevert, 1994, S. 35 Nach Brodbeck, F., Anderson, N. & West M. (2000). Teamklima-Inventar TKI. S. 9. Göttingen: Hogrefe. www.photos.com www.photos.com Aus Jäger, R. S. (1982). Diagnostische Urteilsbildung. In K. J. Groffmann & L. Michel (Hrsg.). Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer Diagnostik (S. 295-375). Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. Nach Wottawa, H. & Hossiep, R. (1987). Grundlagen psychologischer Diagnostik. Göttingen: Hogrefe. Aus Cronbach, L. J. & Gleser, G. C. (1965). Psychological tests and personnel decisions (2. Aufl., 1. Aufl. 1957). Urbana, JL: University of Illinois Press. Nach Cronbach, L. J. & Gleser, G. C. (1965). Psychological tests and personnel decisions (2. Aufl., 1. Aufl. 1957). S. 12. Urbana, JL: University of Illinois Press. Aus Tack, W. H. (1976). Diagnostik als Entscheidungshilfe. In K. Pawlik (Hrsg.), Diagnose der Diagnostik. Beiträge zur Diskussion der Psychologischen Diagnostik in der Verhaltensmodifikation (S. 103-130). Stuttgart: Klett. Aus Wieczerkowski, W. & Oeveste, H. Z. (1982). Zuordnungs- und Entscheidungsstrategien. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 2, Studienausgabe, S. 919-951). Düsseldorf, Schwann. Simon Resch Aus Noack, H. & Petermann, F. (1999). Entscheidungstheorie. In R.S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (4. Aufl., S. 295-310).Weinheim: Beltz PVU. www.photos.com Getty Images Stefan Krumm Aus Wottawa, H. & Hossiep, R. (1987). Grundlagen psychologischer Diagnostik. S. 14. Göttingen: Hogrefe. Mit freundlicher Genehmigung des Hogrefe Verlags. Aus Bartussek, D. (1970). Eine Methode zur Bestimmung von Moderatoreffekten. Diagnostica, 16, 57-76. Aus Conger, A. J. & Jackson, D. N. (1972). Suppressor variables, prediction, and the interpretation of psychological relationships. Educational and Psychological Measurement, 32, 579-599. www.photos.com www.gettyimages.de www.photos.com Nach Rosenstiel, L. von (1992). Grundlagen der Organisationspsychologie. Stuttgart: SchäfferPoeschel. Aus Kornmann, R. (1983). Diagnose von Lernbehinderungen (3. Aufl.). Weinheim: Beltz. a) Nach Fels, M. & Geissner, E. (1997). Neglect-Test (NET). (2., korrigierte Aufl.). Göttingen: Hogrefe. b) Genehmigung von Dipl. Psych. R. Momtazi

Sachverzeichnis

612

Sachverzeichnis

16-Persönlichkeits-Faktoren-Test (16 PF-R) 101, 259ff

A ABAT-R (7 Revidierter Allgemeiner Büroarbeitstest) Abhängige Variable 26 Ablehnung 397 ABO-Psychologie 4 Abweichungs-Intelligenz-Quotient 164 Achiever 486 Act Frequency Approach (AFA) 108 Adaptive Indikation 521 Adaptives Intelligenz Diagnostikum (AID, AID 2) 81, 211 Adaptives Testen 81, 88 Aggregation – über Situationen 425 – von Daten 371f Aggregationsmaße 424 Ähnlichkeitsmaß 408 Akquieszenz 247 Aktuelle Kriterien 176 Akzeptanz 137 Alertness 185f Alkoholismusskala 101 Analogieschluss 9 Anamnese 327 Änderungssensibilität 376 Änderungssensitivität 137, 426 Anforderungen an Intelligenztests 486 Anforderungsanalyse 460 Anforderungsbezogenheit 459 Anforderungsprofil 387 Annahmequote 397 Antwortstil 247f, 437 Anweisungs- und Sprachverständnistest 483 A-priori-Nutzen 412 Äquivalenznormen 162 Arbeitsfelder 388 Arbeitshaltungen 307ff Assessment Center 454, 458 – AC-Übungen 461

Attenuationskorrekturen 43 Attenuationsparadox 175 Aufgabenbereiche 388 Aufgabenstreuung 127 Aufmerksamkeit 184ff Aufmerksamkeits-Belastungs-Test (7 Test d2) 187, 129, 191ff Aufmerksamkeitstests 184ff Aufnahmeprüfungen 479 Auftraggeber 380 Augenscheinvalidität 183 Ausdrucksdiagnostik 6 Ausdruckspsychologie 6 Ausgangswertgesetz 376 Auslassungsfehler 190f Außenkriterium 152 Auswahl 6 Auswahlseminare 459 Auswertung 380 Auswertungsobjektivität 137ff, 179

B Bandbreite 137 Beantwortung 95 Bedingungskonstanz 27 Bedingungsmodifikation 8 Bedingungsselektion 7 Befinden 290f Befund 388 Begabungstestsystem (BTS) 165 Behandlung 2, 397 Behavior sampling 13 Beispielaufgabe 369 Belohnungsaufschub 13 Benachteiligung 368 Benton-Test 537f Beobachtung 95, 462 Beobachtung vs. Beantwortung 95 Beobachtungsmethoden 509 Beratung 2 Berliner Intelligenzstruktur-Test (BIS, Form 4, BIS4) 20, 187, 222f Berufseignungsdiagnostik 445 Berufsinteressentest BIT-II 292f

Berufswahl 293f Betriebsrat 21 Beurteilerübereinstimmung 150, 462 Beurteilung 462 Bewährung 18, 137 Bewährungskriterien 380 Bewerbungsgespräch 449 Bewertung 3 Binnenkriterien 152 Binomialmodell 91 Biofeedback 520, 525 Biografische Fragebogen 451 Birnbaum-Modell 70 Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (BIP) 278ff Bochumer Matrizentest (BOMAT) 227f Bottom-up 460 Branched-testing 211f Bundeswehr 451

C California Psychological Inventory (CPI) 105 CFT-Tests 202 Checklisten 391 Checklistenverfahren 506 CML-Methode (7 Conditional Maximum-Likelihood-Methode) Coaching 467 Common-elements-Korrelation 433 Comprehensive System 316 Computerbasierte Tests 203 Conditional Maximum-LikelihoodMethode (CML-Methode) 75 Constant ratio model (7 Modell konstanter Verhältnisse) Contentvariablen 468 Cronbachs α 145f Culture-fair-Test 19 Cut-off 408

613

Sachverzeichnis

D Datenerhebung, einstufige 373 Datenerhebung, mehrstufige 373 Deduktive Methode 94 Delay of gratification 13 Deterministische Modelle 68, 88 Deutsche Personality Research Form (D-PRF) 264ff Diagnose 2, 396 – Klassifikationskriterien 396 – multivariat 397 – univariat 397 Diagnostisches Rollenspiel 513 Diagnostik 2 Diagnostische Situation 370 Diagnostischer Prozess 380, 386 Diagnostisches Gespräch 380 Diagnostisches Interview 327ff, 500 Diagnostisches Interview bei psychischen Störungen (DIPS) 330 Diagnostisches und Statistisches Manual Psychischer Störungen (DSM-IV) 502f Diagnostisches Urteil 381 Differentielle Indikation 521 Differentielle Psychologie 16f Differentieller Interessentest (DIT) 292f Differenzierung 28, 32 DIN 33430 446 Direkte Kriterienkontamination 464 Direkte Veränderungsmessung 527 Diskriminante Validität 160 Diskriminanzanalyse 408 Diskriminierung 6 Distanzmaß 408 Dopplersonographie 520 DSM-IV (7 Diagnostisches und Statistisches Manual Psychischer Störungen) Durchführungsobjektivität 136, 138, 462

E Effektfunktion 376 Effektivität 154 Effizienz 405 Eichstichprobe (7 Normierungsstichprobe) 166 Eigenschaften 8 Eigenschaftsdiagnostik 8, 15 Eigenschaftstheoretische Konzepte 22 Eigenschaftswörterliste (EWL) 290f Eigentliche Kriterien 176 Eignungsdiagnostik 333ff, 444 Einfachstruktur 102 Einführungsaufgabe 369 Eingangsdiagnostik 507 Einsichtnahme 386 Einstellungsgespräch 328 Einzelfall 61 Einzeltest 368 Einzeluntersuchungen 377 Eisbrechertest 369 Elektrokardiogramm (EKG) 520 Elektromyographie (EMG) 520 Entscheidung – individuell 397, 416 – institutionell 396, 401, 416 – investigatorisch 398 – terminal 398, 401 Entscheidungsfehler 404 Entscheidungshilfen 4 Entscheidungsregeln 383, 405 Entscheidungsstrategie – einstufig 401 – kompensatorisch 399, 416 – konjunktiv 399, 416 – mehrstufig 401 – sequentiell 401 Entwicklungsalter 162 Entwicklungsseminare 459 Entwicklungstests 232ff Erwartungsbereich 37, 48ff Ethische Fragen 385 Ethische Richtlinien 386 Euklidische Distanz 408 Euthyme Behandlungsstrategien 525

A–F

Expertenurteil 90 Exploration 327, 497, 500 EXPLORIX 293ff Externale Konstruktion 31, 98, 111 Externale Skalenentwicklung 98 Extrinsische Arbeitsmotivation 468 Eysenck-Personality-Inventory (EPI) 130

F Fachkompetenz 466 FAIR (7 Frankfurter AufmerksamkeitsInventar) Fairness 137, 167, 169, 172, 180, 409 Faktorenanalyse 102, 123 Familienbogen (FB) 358ff Familiendiagnostik 355ff Familiendiagnostisches Testsystem (FDTS) 358 Familienklimaskalen FKS 356ff Farbe-Wort-Interferenztest (FWIT) 188 Fehler 405f, 409 Fehlerwert 33f Fehlerzuordnungswahrscheinlichkeit 406 Figure-Reasoning-Test (FRT) 129 Filtertest 371 Finalität 3 Fokaltherapien 526 Förderdiagnostik 477 Fördermaßnahmen 488 Forensische Psychologie 5 Formdeuteversuch 18 Fragebogen 14 Fragebogen zur Arbeitsanalyse (FAA) 469 Fragebogen zur Partnerschaftsdiagnostik 348f Fragestellung 380, 386, 388 Frankfurter Adaptiver Konzentrationsleistungs-Test (FAKT, FAKT-II) 81, 197 Frankfurter Aufmerksamkeits-Inventar (FAIR) 187, 189, 196f

614

Sachverzeichnis

Freiburger Persönlichkeitsinventar (FPI, FPI-R) 105, 130, 254ff Freie Assoziation 98 Fremdeinschätzung 245ff Führungstraining 443 Funktionale Verhaltensanalyse 13 Funktionales Bedingungsmodell 511

G Gefälligkeitsgutachten 386 Geldwertäquivalente 413 Genauigkeit 190 Generalisierung 3, 149 Generierung von Hypothesen 380 Genogramm 518 GES (7 Griffiths Entwicklungsskalen) Geschwindigkeitstests 112 Gesetz 20 Gesprächsführung 339ff Gesprächspsychotherapie 526 Gestik 6 Gesundheitspsychologie 5 Gießen-Test (GT) 345ff Glaubhaftigkeit von Zeugenaussagen 543ff Goal Attainment Scaling 527 Goldberg-Index 382 Grafischer Modelltest 76 Graphologie 6 Griffiths Entwicklungsskalen (GES) 233ff Grundintelligenztest Skala 2 (CFT 20) 223ff Gruppen 99 Gruppendiagnostik 344ff Gruppenstatistik 61 Gruppentest 368 Gruppenunterschiede 169 Gruppenuntersuchungen 377 Gültigkeit 137, 149 Gutachten – Anforderungen 391 – Aufbau 389 – personenbezogenes 391 – psychologisches 385 Gütekriterien 135, 174, 180, 405

Guttman – -Homogenität 131 – -Modell 69 – -Prinzip 131

H Haloeffekt 325 Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK) 205, 207ff Handlungs-Häufigkeits-Ansatz (7 Act Frequency Approach) 108 Handlungskontrolle 298ff Hauptgütekriterien 138, 174 HAWIE 205 Heterogenität 129 Hochbegabtendiagnostik 485 Homogenität 102, 112, 128, 134 Horizontale Verhaltensanalyse 513 Hörverstehenstest 483 Humanisierung der Arbeitswelt 443 Hygienefaktoren 468

I ICD-10 (7 Internationale Klassifikation psychischer Störungen) Identitätskonzept 168 Impression management 249 Indikation 521 Indikatoren 10, 66, 94 Indirekte Veränderungsmessung 527 Individuelle Diagnostik 7, 371 Individuelle Schülerhilfe 481 Induktion 12 Induktionsschluss 12 Induktive Konstruktion 102, 111 Inferenz 9 Informationsausschöpfung 137 Informationsquellen 388 Inhaltsvalidität 12, 149 INKA (7 Inventar komplexer Aufmerksamkeit)

Institutionelle Diagnostik 7, 371 Instruktion 368 Intelligenzalter 162 Intelligenzquotient 163 Intelligenz-Struktur-Test 2000-R (IST-2000-R) 213ff Intelligenztests 200ff Interaktionismusdebatte 20 Interessen 292ff Interessentests 292ff Interferenz 188 Interindividuelle Unterschiede 26 Inter-Item-Konsistenz 39 Internationale Klassifikation psychischer Störungen (ICD-10) 502 Interne Konsistenz 102, 145, 462 Interpersonale Diagnostik 517 Interpersonale Kommunikation 472 Interpretationsobjektivität 141 Interraterreliabilität 462 Intervention (7 Diagnostisches Interview) Intervention in Organisationen 442 Interview (7 Diagnostisches Interview) Intrinsische Arbeitsmotivation 468, 471 Inventar komplexer Aufmerksamkeit (INKA) 187ff Irrtumsgrad 90 IST-2000-R (7 Intelligenz-StrukturTest 2000-R) Ist-Zustand 2, 15 Itemanalysen 111 Itemcharakteristische Funktion 68, 88 Itemdiskriminationsparameter 68 Item-fit-Indices 77 Itemformat 98 Itemhomogenität 65 Iteminformationsfunktion 79 Itemparameter 68 Item-Response-Theorie (IRT) 64 Itemschwierigkeit 66, 112

615

Sachverzeichnis

J Job enlargement 471 Job enrichment 471 Job rotation 471

K Kappa-Koeffizient 331f Kategoriensysteme 323f Kaufman Assessment Battery for Children (K-ABC) 211f Kinder-Apperzeptionstest 318f Kindeswohl 551 Klassifikation 398, 496, 501f Klassifikationsempfehlungen 385 Klassifikationskriterien 396 Klassifikationssysteme 505 Klassische Testtheorie (KTT) 33, 60, 64 Klinisch bedeutsame Verbesserung 532 Klinische Psychologie 5 Klinische Relevanz 529 Klinische Urteilsbildung 381 KLT-R (7 Konzentrations-LeistungsTest) Kognition 423 Kognitive Therapien 525 Kohärenzsinn 96 Kommunalität 153 Kommunikationstraining 525 Komorbiditätsprinzip 505 Konfidenzintervall (7 Vertrauensintervall) 50 Konfliktdiagnostik 472 Konkurrente Gültigkeit 154 Konsistenzanalyse 146 Konstanz-Variabilitäts-Problem 376 Konstrukt 94 Konstruktionsprinzipien 94, 108, 133 Konstruktvalidität 158, 244f Kontext 420 Kontextvariablen 468 Kontrollierte Praxis 385

Konvergente Validität 160 Konzentration 184ff Konzentrations-Leistungs-Test (KLT-R) 189, 198ff Konzentrationstest für 3. und 4. Klassen (KT 3-4 R) 196 Konzentrationstests 129, 184ff Konzentrations-Verlaufs-Test (KVT) 187 Korrelationsschluss 18, 152 Kostenvektor 411 Kovarianzzerlegung 35 Kreuzvalidierung 32, 100 K-R-Formula 20 146 K-R-Formula 8 146 Kriminalprognose 546ff Kriterium 9f, 55, 57, 89, 422 Kriteriumsbezogene Skalenentwicklung 98 Kriteriumsbezogene Validität 152 Kriteriumsdefizienz 177 Kriteriumskontamination 177 Kriteriumsorientierte Tests 89, 92 Kriteriumsrelevanz 177 Kritik 60 Kritische Differenz 53, 59 KTT (7 Klassische Testtheorie) Künstliche Neuronale Netze 383 Kunstpädagogische Ansätze 467

L Latent-Class-Analyse (LCA) 83 Latent-Class-Modelle 83, 88 Latente Variablen 65 Latent-Trait-Modelle 68, 88 LCA (7 Latent-Class-Analyse) Leistungsbeurteilungen, regelmäßige 444 Leistungsmotivation 295ff, 450 Leistungsmotivationsinventar (LMI) 295ff Leistungsmotivations-TAT (LM-TAT) 319 Leistungsmotivationstest (LMT) 295 Leistungsprüfsystem (LPS) 164, 220 Leitfaden für Interviews 336ff

F–M

Lern- und Gedächtnistest (LGT 3) 231f Lerntheoretischer Ansatz 13 Likelihoodfunktion 73 Likelihoodquotient 407 Likelihood-Quotienten-Test 77 Linearlogistische Modelle 85ff Logischer Fehler 325 Logistische Funktion 70 Lokale stochastische Unabhängigkeit 65, 88

M Mahalanobis-Distanz 408 Manifeste Variablen 65 Markt- und Werbepsychologie 5 MAUT-Technik 415 Maximale Performanz 109 Mehrfachbeurteilung 459 Mentoring 467 Merkmalsträger 2, 22 Messfehler 33f Messung 18 Messwert 95 Methodenkompetenz 466 Methodenvielfalt 459 Mildefehler 325 Mimik 6 Minderungskorrektur 39ff, 64, 175 – einfache 42 – doppelte 41 Minimax-Kriterium 407 Minimum-Loss-Kriterium 407 Minnesota Multiphasic Personality Inventory (MMPI, MMPI-2) 39, 101, 251ff Mischverteilungsmodelle 85 Mitarbeiterauswahl 443 Mitarbeiterschulung 443 Mittelwertsunterschiede 52 Mixed-Rasch-Modelle 85 Modell konstanter Verhältnisse (constant ratio model) 171 Modellkonformität 75f Modelllernen 525 Moderation 427

616

Sachverzeichnis

Moderatoreffekt 428, 431 Moderatorfunktion – linear 430 – quadratisch 430 Moderatorvariablen 427 Modifikationsdiagnostik 8, 15, 22 Motivatoren 468 Motorik, Psycho- 232 Multimethodale Diagnostik 371 Multimodale Datenerfassung 371 Multimodale Diagnostik 377 Multimodales Einstellungsinterview 333ff Multiple Korrelation 10, 436 Multitrait-Multimethod-Analyse 159 Mutungsbereich 50 Mutungsintervall 38

N Natürlicher Eignungsquotient 405 Nebengütekriterien 161 Neglect 535, 539 NEO-FFI (7 Neo-Fünf-Faktoren Inventar) Neo-Fünf-Faktoren Inventar (NEO-FFI) 105, 269ff NEO-Persönlichkeitsinventar, Revidierte Fassung (NEO-PI-R) 271ff Nettonutzen 412 Neuropsychologische Diagnostik 518, 534 Neyman-Pearson-Kriterium 407, 416 Nichtsprachliche Persönlichkeitstests 303ff Niveauindex 114 Niveautests 112 Normal-Ogiven-Modell 70 Normalverteilung 163 Normen 10 Normierung 137, 162 Normierungsstichprobe (7 Eichstichprobe) 166 Nürnberger-Alters-Inventar (NAI) 541

Nutzen 396, 410 – funktion 410 – -modell von Brodgen 412 – -vektor 411 – -werte, Kalkulation 414

O OA-TB75 (7 Objektive Testbatterie) Objektive Persönlichkeitstests 306ff Objektive Testbatterie (OA-TB75) 306ff Objektiver Leistungsmotivations-Test (OLMT) 310ff Objektivität 28f, 32f, 138 Odd-even-Methode 143 Ökologische Psychologie 5 Ökonomie 137, 368 OPD (Operationalisierte Psychodynamische Diagnostik) 516 Operante Verfahren 524 Operationalisierbarkeit 380 Operationalisierung 177 Optimalbedingungen 377 Organisationsanalyseinstrumentarium (OAI) 441 Organisationsdiagnostik 440 Organisationsentwicklung 442 Overachiever 486

P Paardiagnostik 345ff Pädagogische Psychologie 5 PAI30 (7 Test zur Praktischen Alltagsintelligenz) Paralleltest 142 – -reliabilität 142 Parameter 68 – -schätzung 72, 75 Partial-credit-Modell 83 Partialkorrelation 435 Partkorrelation 435 Partnerschaftsfragebogen (PFB) 349ff

Part-whole-Korrektur 124, 134 Passung 480 Personal Data Sheet 18 Personalbeurteilung, Ebenen der 444 Personale Kompetenz 467 Personalentwicklung 464 Personaler Ansatz 443 Personenparameter 68 Personenselektion 7, 77 Person-fit-Indices 78 Persönlichkeit 240f – Capability 109 – Forschung 16f – Fragebogen 240ff – Merkmale 451 – Störungen 504 Perzeption 423 Pharmakopsychologie 5 Phrenologie 6 Physicalism-subjectivism-dilemma 377f Platzierung 397, 454 – polytome Latent-Trait-Modelle 82 – polytomes Rasch-Modell 82, 88 Poolung 55 Potentialbeurteilung 445 Powertests 112 Prädiktionswert, negativ 405 Prädiktionswert, positiv 405 Prädiktive Gültigkeit 154 Prädiktive Validität 155 Prädiktor 55, 57 Prädiktor-Kriterium 433 Pre-accept 403 Pre-reject 403 Primary mental abilities 105 Probabilistische Modelle 69, 88 Probabilistische Testtheorie 65 Problemanalyse 511 Problemlösetraining 525 Profildifferenzen 375 Prognose 9, 55 Prognosegenauigkeit 382 Prognostizierbarkeit 427 Progressive Matrizen Test 19 Projektiver Test 98, 140f, 313ff, 420 Prophecy formula (7 SpearmanBrown-Formel)

617

Sachverzeichnis

Proportionale Repräsentativität 168 Prototyp 105 Prototypenansatz 105 Prototypizität 105 Prozentränge 166 Prozessdiagnostik 15, 22, 441, 479 Prüfsystem für Schul- und Bildungsberatung (PSB) 20, 220f Prüfungen 10 Prüfungsangst 369 Pseudoparallelformen 368 Psychische Störung 501 Psychoanalyse 98, 526 Psychodiagnostik 2f Psychomotorik 232 Psychophysiologische Diagnostik 520

Q Q-Sort-Technik 515 Qualitätssicherung 527 Qualitätszirkel 471 Quasikriterien 154 Quotenmodell 168

R Rasch-Homogenität 72, 76 Rasch-Modell 71, 133 Ratekorrektur 116 Ratingverfahren 324 Rationale Konstruktion 94, 111 Ravens Progressive Matrizen 226f Rechtliche Vorschriften 385 Rechtspsychologische Diagnostik 543ff Regelkreismodell 398 Regression 56, 169, 372, 407, 429 Regression zur Mitte 50, 376 Regressionsgerade 57 Reizkonfrontation 524 Reliabilität 30, 32f, 36, 44, 141, 175, 179, 462

Reliabilität – von Differenzen 375 – von Veränderungswerten 374 – Erhöhung der 425 Reliabilitätsfunktion 376 Reliabilitätsindex 39, 44 Reliabilitäts-Validitäts-Dilemma 374, 378 Reliable change index (7 Veränderungsindex) Repräsentationsschluss 18, 149 Repräsentativität 10, 370 Restringierte Latent-Class-Modelle 84 Retestreliabilität 36 Reteststabilität 39 Revidierter Allgemeiner Büroarbeitstest (ABAT-R) 229f Revisionstest (REV-T) 187, 189 Robustheit 28 ROC-Kurve 408, 417 Rollenspiel 14, 513, 525 Rorschach-Test (RT) 314ff Rückmeldung 459

S Satisfaktoren 468 Schnelligkeit 190, 203 Schnelligkeitstests 112, 145 Schuldunfähigkeit 545 Schuleingangstests 238 Schullaufbahnberatung 476 Schulleistungstests 239f Schulreife 476 Schultests 238ff Schwierigkeit 28, 112, 114, 126, 134 Schwierigkeitsindex 114 Score 95 Selbstaufmerksamkeit 423, 427 Selbstbeobachtungsverfahren 510 Selbstdiagnostik 6 Selbsteinschätzung 245ff Selbsteinsicht 241f Selbsterkenntnis 6 Selektion 156, 397, 454

M–S

Selektion – von Bedingungen 371 – von Personen 371 Selektionsdiagnostik 7f, 15 Selektionsempfehlungen 384 Selektionskennwert 127 Selektionsverfahren 7 Selektive Indikation 521 Selektive Persönlichkeitsbilder 380 Selektiver Eignungsquotient 405 Sensitivität 28, 405, 408 Simulation 540 Single screen 402 Situation 26, 425 Situationseffekte 369 Situationsvariablen 369 Situativer Druck 420 Skala 95, 135 Skala zur Erfassung von Kohärenzsinn 96 Skalogramm-Modell 68 Soll-Zustand 2 Sonderschulüberweisung 477 Sorgerechtsentscheidungen 550ff Sorgfaltspflicht 386 SORK-Paradigma 442 Soziale Unterstützung 518 Soziale Validität 464 Sozialkompetenz 467 Sozialpsychologie 472 Spearman-Brown-Formel 47, 143, 145, 424 Speedindex 112f Speedtests 112, 145 Spezielle Fähigkeitstests 228ff Spezifische Objektivität 78, 88 Spezifität 405, 408 Stabilität 30, 36, 127, 425 Stabilitätsindex 127 Staffeltest von Binet 18, 100, 162 Standardisierung 27f, 32, 138 Standardmessfehler 36ff, 48, 64 Standardnormalverteilung 163f Standardnormäquivalente 166 Standardschätzfehler 57, 64, 562 Standardskalen 165 States 286ff State-Trait-Angst-Inventar (STAI) 288ff

618

Sachverzeichnis

Statistische Urteilsbildung 381, 548 Statusdiagnostik 15, 454, 479 Steigungskoeffizient 56 Stichproben, Fraktionierung von 429 Stichprobenfehler des Mittelwertes 52 Stichprobenunabhängigkeit 75, 88 Stimulus 26 Störanfälligkeit 137 Störfaktoren 27 Störung 368 Strategie 398 Strategiematrix 410 Strategische Planung 380 Strengefehler 325 Stressverarbeitungsfragebogen (SVF 78, SVF 120) 283ff, 286ff Streuung 120 Strukturaler Ansatz 443 Strukturdiagnostik 440 Strukturiertes Klinisches Interview für DSM-IV (SKID) 330f Strukturiertes Klinisches Interview 506 Subjektive Arbeitsanalyse (SAA) 469 Subjektive Theorie 501 Subtest 95 Suggestive Befragung 544 Suggestopädagogische Methoden 467 Suppression 432, 438 Suppressoreffekt 433 SVF 120 (7 Stressverarbeitungsfragebogen SVF 120) SVF 78 (7 Stressverarbeitungsfragebogen SVF 78) Symptomorientiertes Screening 507 Symptomstörungen 504

T Taktische Planung 380 Talent 488 Target-Variablen 154 Taylor-Russell-Tafeln 405 Teamdiagnostik 362ff

Teamfähigkeitstraining 443 Teamklima-Inventar (TKI) 362ff Teilautonome Arbeitsgruppen 471 Teil-Ganzheit-Korrektur 124 Tertiärer Bildungsbereich 480 Test 9, 135 Test d2 (7 Aufmerksamkeits-Belastungstest) 129, 188f, 191ff, 199 Test für Medizinische Studiengänge (TMS) 18 Test zur Praktischen Alltagsintelligenz (PAI30) 230f Testangst 369, 437 Testbatterie 175, 402 Testbatterie zur Aufmerksamkeitsprüfung (TAP) 185f Testbeurteilung 135 Testbias 167 Testfairness 167, 170 Testgesamtinformation 80 Testgütekriterien 453 Testhalbierung 143 Testkonstruktion 136 Testlänge 44 Testmotivation 437 Testreihe zur Prüfung der Konzentrationsfähigkeit (TPK) 188 Tests zur Allgemeinen Intelligenz 449 Testsituation 369, 427 Teststabilität 142 Testtrennwert 408 Testung – einstufig 397 – mehrstufig 397 Testverdopplung 46 Testverkürzung 47 Testverlängerung 47, 64, 175 Testwiederholung 39 Thematischer Apperzeptionstest (TAT) 316f Theorie 18 Therapie-Evaluation 497 Therapiemanuale 526 TIPI (7 Trierer Integriertes Persönlichkeitsinventar) Top-down 460 Traits 9 Transparenz 136, 386, 459 Traumdeutung 98

Trennschärfe 112, 121, 126f, 134 Trennwert 90, 400 Trierer Integriertes Persönlichkeitsinventar (TIPI) 274ff Trierer Partnerschaftsinventar (TPI) 351ff

U Übereinstimmungsvalidität 154 Übertrittstests 239 Umweltbezogenes Gutachten 391 Unabhängige Variable 26 Underachiever 486 Unimethodale Datenerfassung 371 Unimodale Datenerfassung 371 Unsystematische Beantwortung 247 Untersuchungsdurchführung 388

V Validierung 10, 31f, 95, 158 Validität 10, 31, 33, 44, 149, 174f, 179, 301, 422f, 425, 427, 462 – empirische 178 – Erhöhung der 425, 436 Validitätskoeffizient 41, 152 Validitätsmatrix 411 Variabilitäts- oder Abweichungsnormen 163 Variablengruppen 387 Varianzenadditivität 44f Varianzzerlegung 35 Veränderungsindex (reliable change index) 531 Veränderungsmessung – direkte 373 – indirekte 373 Veränderungswerte, Reliabilität 374 Verdünnungsparadox 42, 175 Verfälschbarkeit 136, 182, 192f Verfälschung 27, 248ff, 558

619

Sachverzeichnis

Vergleichbarkeit 137 Vergleichsdaten 368 Verhalten 11 – Konformität 420 – Variabilität 420 Verhaltensanalyse 511 Verhaltensbeobachtung 13, 321ff, 368 Verhaltensdiagnostik 8 Verhaltensgleichung 387, 512 Verhaltensindikatoren 9 Verhaltenskategorien 14 Verhaltensmodifikation 8 Verhaltensorientierung 459 Verhaltenstheoretische Konzepte 22 Verhaltenstrends 10 Verifikationsproblem 384 Verkehrspsychologie 5 Verkehrspsychologische Diagnostik 554ff Verlaufsdiagnostik 497 Verminderte Schuldfähigkeit 545 Vertikale Verhaltensanalyse 513 Vertrauensintervall (7 Konfienzintervall) 50 Vertraulichkeit 20, 369 Verwechslungsfehler 190f Vigilanz 186 Vorhersagbarkeit 427 Vorschläge und Empfehlungen 388 Vorhersage 10, 55, 155

W Wahrer Wert 33 Wechsler-Intelligenztest 101 Wechsler-Tests 205ff Weiterführende Schulen 479 Wiederholungsreliabilität 142 Wiener Entwicklungstest (WET) 235ff Wilde-Intelligenztest (WIT) 221f Wortschatztest 224f

Z Zahlen-Symbol-Test (ZS) 187, 189 Zahlen-Verbindungs-Test (ZVT) 189 Zeichensysteme 323 Zeugnisverweigerungsrecht 21 Zielsetzung 398 Zufallskorrektur 117, 134 Zugehörigkeitswahrscheinlichkeit 407 Zulänglichkeit 153 Zumutbarkeit 136 Zuordnungsstrategie 404 Zustände 286ff Zuverlässigkeit 137, 141 Zweifaktorentheorie der Arbeitszufriedenheit 468 Z-Wert 164

S–Z

Amelang, Schmidt-Atzert, 4. Auflage: Der Wegweiser zu diesem Lehrbuch

26

Kapitel 2 · Grundlagen diagnostischer Verfahren

Leitsystem: zur schnellen Orientierung

Voraussetzungen und theoretische Basis psychometrischer Tests

2.1

2

2.1.1

2.1.2

Kapitelinhaltsverzeichnis: für den ersten Überblick

2.1.3

Die klassische Testtheorie – 33 2.1.1.1 Zentrale Definitionen – 33 2.1.1.2 Der Standardmessfehler – 36 2.1.1.3 Minderungskorrekturen und Reliabilitätsindex – 39 2.1.1.4 Reliabilität und Testlänge – 44 2.1.1.5 Implikationen für die psychodiagnostische Praxis – 48 2.1.1.6 Kritik an der KTT – 60 Item-Response-Theorie (IRT) – 64 2.1.2.1 Grundüberlegungen der Item-Response-Theorie – 65 2.1.2.2 Dichotome Latent-Trait-Modelle – 68 2.1.2.3 Weitere Modelle der IRT – 82 Grundlagen kriteriumsorientierter Tests – 89 2.1.3.1 Die Generierung inhaltsvalider Itemmengen – 89 2.1.3.2 Die Setzung sachgerechter Normen – 89 2.1.3.3 Die Ermittlung zufallskritischer Trennwerte – 90 2.1.3.4 Weitere Probleme kriteriumsorientierter Tests – 92

Alle diagnostischen Verfahren gehen davon aus, dass Unterschiede bestehen und diese gemessen werden können. Im Sinne der eingangs dargelegten Aufgabenfelder der Psychologischen Diagnostik betreffen diese Unterschiede solche zwischen Personen, Objekten, Behandlungen, Institutionen usw. Weil die interindividuelle Perspektive, wie historische Analysen zeigen, den Beginn ernsthafter Bemühungen um die psychodiagnostische Erfassung von Merkmalsausprägungen bestimmt hat und auch heute noch

Merksätze: besonders wichtig

Indikatoren der latenten Variablen

! Testitems, welche die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen,

bezeichnet man auch als Indikatoren der latenten Variablen. Beispiel

Ein Beispiel möge den Gedankengang verdeutlichen: Gegeben seien zwei Testitems i und j mit dichotomem Beantwortungsmodus »stimmt (+)« bzw. »stimmt nicht (–)«, z. B. das Item 49 »Termindruck und Hektik lösen bei mir körperliche Beschwerden aus« und das Item 106 »Es gibt Zeiten, in denen ich ganz traurig und niedergedrückt bin« aus der revidierten Fassung des Freiburger Persönlichkeitsinventars FPI-R (Fahrenberg et al. 1994). Die Zustimmungs-, Ablehnungs- und Verbundwahrscheinlichkeiten für diese beiden Items sind in . Tab. 2.1 wiedergegeben: Betrachtet man zunächst im oberen Teil von Tab. 2.1 die Randwahrscheinlichkeiten der beiden Items, so erkennt man, dass das Item i das leichtere Item ist (Zustimmungswahrscheinlichkeit p(i+) = .60), das Item j hingegen das schwierigere (Zustimmungswahrscheinlichkeit p(j+) = .40). (Vgl. 7 Abschn. 2.2.7.1: Bei Persönlichkeitsfragebögen bezieht sich die »Itemschwierigkeit« nicht auf eine »richtige« Antwort, sondern auf den Anteil der Probanden, die im Sinne einer »höheren« Merkmalsausprägung geantwortet haben.) Die Anwendung des Multiplikationstheorems für 6

Marginalien: Stichworte für die Orientierung

Beispiel: So wird das Gelernte anschaulich

Navigation: mit Seitenzahl und Kapitelnummer

27

2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests

2

Definition »Mathematische Wahrscheinlichkeitsaussagen beziehen sich (…) per definitionem nicht auf Einzelfälle, sondern auf Klassen von Elementen mit bestimmtem Umfang« (Holzkamp, 1966, S. 28).

Miteinander vergleichbar und damit sinnvoll sind die ermittelten Punktwerte als quantitative Äquivalente für das beobachtete Verhalten (in Einheiten richtig gelöster Aufgaben, mit »Ja« beantworteter Fragen zu bestimmten Persönlichkeitsausprägungen usw.) verschiedener Personen nur dann, wenn die Bedingungen, unter denen eben dieses Verhalten provoziert wurde, bei allen Individuen identisch oder doch weitgehend ähnlich sind. Wenn beispielsweise der eine Bewerber während 15 min 20 komplexe Denkprobleme löst, wo der andere innerhalb von 20 min 23 richtige Antworten

Konstanz der Bedingungen notwendig

Definition: erläutert wichtige Fachbegriffe

Exkurs

Zur Bedingungskonstanz in der psychologischen Diagnostik In der einschlägigen Literatur wird regelmäßig darauf hingewiesen, dass die Konstanz der Durchführungsbedingungen einerseits zwar unabdingbar sei, andererseits aber doch nie so recht gegeben sei. Um der daraus resultierenden misslichen Lage zu begegnen, haben Sader und Keil (1966) die vorliegenden Untersuchungen gesichtet und daran ansetzend konkrete Ratschläge für den diagnostischen Praktiker abgeleitet. Ihrer Übersicht zufolge gibt es teils empirische, teils experimentelle Belege dafür, dass u. a. die Ich-Beteiligung der Probanden, deren Erfolg und Misserfolg sowie Testangst, Lob und Tadel von Seiten des Testleiters, des Weiteren allgemeine Eigenschaften und konkrete Verhaltensweisen des Diagnostikers, wahrgenommener Zeitdruck

Exkurs: Wenn Sie es genau wissen wollen!

Fazit Die klassische Testtheorie wird heute von der Item-Response-Theorie mehr und mehr überholt. Konnte die klassische Testtheorie als Messfehlertheorie im wesentlichen Antworten zur Reliabilität von Messungen liefern, so stellt die IRT die explizite Beziehung zwischen dem Antwortverhalten von Personen und den dahinterliegenden latenten Merkmalen her. Die Separierbarkeit von Item- und Personenparametern ermöglicht die empirische Überprüfung der Skalierbarkeit, der Eindimensionalität sowie der Item- und der Personenhomogenität. Insbesondere das Konzept der

Fazit: Rekapitulieren Sie das Gelernte!

Übungsfragen

(zu Abschn. 2.1.2) ? 1. Was versteht man unter »lokaler stochastischer Unabhängigkeit«? 2. Was beschreibt eine IC-Funktion?

3. Worin besteht der Unterschied zwischen deterministischen und probabilistischen Modellen?

! Ad 1. Lokale stochastische Unabhängigkeit liegt dann vor, wenn

die Korrelation von manifesten Variablen verschwindet, wenn man sie auf den einzelnen Stufen der latenten Variablen. Ad 2. Die IC-Funktion (itemcharakteristische Funktion) beschreibt die Beziehung zwischen dem latenten Merkmal und dem Reaktionsverhalten auf ein dichotomes Item. Ad 3. Bei deterministischen Modellen sind die Lösungswahrscheinlichkeiten für die einzelnen Items immer Null oder Eins, während bei probabilistischen Modellen Lösungswahrscheinlichkeiten in allen Abstufungen zwischen Null und Eins.

Übungsfragen und -anworten: Fit für die Prüfung!

Übersicht der besprochenen Testverfahren (in der alphabetischen Reihenfolge der Abkürzungen) ABAT-R AHA AID 2 BIP BIS-4 CFT 20 d2 D-PRF EWL EXPLORIX FAIR FAKT-II FB FDTS FKS FPD FPI-R GES GT HAKEMP 90 HAWIK-III IST-2000-R K-ABC KLT-R LGT 3 LMI LM-TAT MMPI-2 NEO-FFI OA-TB75 OLMT PAI30 PFB PSB-R Raven RT 16 PF-R STAI SVF 120 TAT TIPI TKI TPI WET WIT

Allgemeiner Büroarbeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . Arbeitshaltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Adaptives Intelligenz Diagnostikum . . . . . . . . . . . . . . . . . . . . . . . Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung Berliner Intelligenzstruktur-Test . . . . . . . . . . . . . . . . . . . . . . . . . . Grundintelligenztest Skala 2 mit Wortschatztest WS und Zahlenfolgetest (ZS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test d2: Aufmerksamkeits-Belastungstest . . . . . . . . . . . . . . . . . . . . Deutsche Personality Research Form . . . . . . . . . . . . . . . . . . . . . . Eigenschaftswörterliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Werkzeug zur Berufswahl und Laufbahnberatung. . . . . . . . . . . . . . . Frankfurter Aufmerksamkeits-Inventar . . . . . . . . . . . . . . . . . . . . . Frankfurter Adaptiver Konzentrationsleistungs-Test . . . . . . . . . . . . . Familienbogen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Familiendiagnostisches Testsystem . . . . . . . . . . . . . . . . . . . . . . . . Familienklimaskalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fragebogen zur Partnerschaftsdiagnostik . . . . . . . . . . . . . . . . . . . Freiburger Persönlichkeitsinventar . . . . . . . . . . . . . . . . . . . . . . . . Griffiths Entwicklungsskalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gießen-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fragebogen zur Handlungskontrolle . . . . . . . . . . . . . . . . . . . . . . . Hamburg-Wechsler-Intelligenztest für Kinder . . . . . . . . . . . . . . . . . Intelligenz-Struktur-Test 2000-R . . . . . . . . . . . . . . . . . . . . . . . . . . Kaufman Assessment Battery for Children . . . . . . . . . . . . . . . . . . . Konzentrations-Leistungs-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . Lern- und Gedächtnistest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Leistungsmotivationsinventar . . . . . . . . . . . . . . . . . . . . . . . . . . . Leistungsmotivations TAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Minnesota Multiphasic Personality Inventory . . . . . . . . . . . . . . . . . Neo-Fünf-Faktoren-Inventar . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objektive Testbatterie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objektiver Leistungsmotivations Test . . . . . . . . . . . . . . . . . . . . . . Test zur Praktischen Alltagsintelligenz . . . . . . . . . . . . . . . . . . . . . . Partnerschaftsfragebogen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prüfsystem für Schul- und Bildungsberatung . . . . . . . . . . . . . . . . . Ravens Progressive Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rorschach-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Persönlichkeits-Faktoren-Test . . . . . . . . . . . . . . . . . . . . . . . . . State-Trait-Angst-Inventar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stressverarbeitungsfragebogen . . . . . . . . . . . . . . . . . . . . . . . . . . Thematischer Apperzeptionstest . . . . . . . . . . . . . . . . . . . . . . . . . Trierer Integriertes Persönlichkeitsinventar . . . . . . . . . . . . . . . . . . . Teamklima-Inventar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trierer Partnerschaftsinventar . . . . . . . . . . . . . . . . . . . . . . . . . . . Wiener Entwicklungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wilde Intelligenztest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Für klinisch-psychologische Testverfahren 7 Übersichten auf S. 507 f., 515, 519 f. und 527.

. . . . .

. 229 f. . 307 ff. . 211 f. . 278 ff. . 222 f.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

223 ff. 191 ff. 264 ff. 290 ff. 293 ff. 196 f. 197 358 ff. 358 356 ff. 348 f. 254 ff. 233 ff. 345 ff. 298 ff. 207 ff. 213 ff. 211 ff. 198 ff. 231 f. 296 ff. 319 f. 251 ff. 269 ff. 306 f. 310 ff. 230 f. 349 ff. 220 f. 226 f. 314 ff. 259 ff. 288 ff. 283 ff. 316 f. 274 ff. 361 ff. 351 ff. 235 ff. 221 f.