Leistungsmessungen in Schulen [3. ed.] 9783407256904, 9783407293183

376 96 17MB

German Pages 401 Year 2014

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Leistungsmessungen in Schulen [3. ed.]
 9783407256904, 9783407293183

Citation preview

PÄDAGOGIK

Franz E. Weinert (Hrsg.)

Leistungsmessungen in Schulen 3. Auflage

Weinert (Hrsg.) Leistungsmessungen in Schulen

Leistungsmessungen in Schulen Herausgegeben von Franz E. Weinert 3. Auflage

Beltz Verlag · Weinheim und Basel

Dr. Dr. h.c. Franz E. Weinert † arbeitete als Professor an den Universitäten Bamberg und Heidelberg. 1981 wechselte er als Gründungsdirektor an das Max-PlanckInstitut für psychologische Forschung in München. Seine Hauptarbeitsgebiete sind die Psychologie des menschlichen Lernens, Probleme der differentiellen Entwicklung im Kindes-, Jugend- und Erwachsenenalter sowie Fragen der pädagogischen Psychologie. Erstellt im Auftrag der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (Kultusministerkonferenz). Herausgeber und Autoren sind für die einzelnen Beiträge allein verantwortlich.

Dieses Buch ist auch als Printausgabe erhältlich (ISBN 978-3-407-25690-4). Alle Rechte, insbesondere das Recht der Vervielfältigung und Verbreitung sowie der Übersetzung, vorbehalten. Kein Teil des Werkes darf in irgendeiner Form (durch Fotokopie, Mikrofilm oder ein anderes Verfahren) ohne schriftliche Genehmigung des Verlages reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt und verbreitet werden. Typoskript Lektorat: Peter E. Kalb 3., aktualisierte Auflage 2014 © 2001 Beltz Verlag · Weinheim und Basel, und Kultusministerkonferenz, Bonn www.beltz.de Umschlaggestaltung: Federico Luci, Köln Umschlagabbildung: IFA-BILDERTEAM – Photex, Archiv Frankfurt/M. E-Book ISBN 978-3-407-29318-3

Powered by TCPDF (www.tcpdf.org)

Vorwort

Seit es Schulen gibt, werden Schulleistungen gemessen. Schulleistungsmessungen haben also eine lange Tradition, die zwar von vielen Reformpädagogen immer wieder in Frage gestellt und von Psychometrikern wegen der Fehleranfälligkeit oft kritisiert wurde, aber fiir Lehrer, Eltern und Schüler eine manchmal angenehme, manchmal unangenehme Selbstverständlichkeit war und blieb. In Deutschland hat sich diese Situation seit wenigen Jahren drastisch verändert. Vergleichende Leistungsmessungen in Schulen sind plötzlich zu einem Thema öffentlicher Diskussionen geworden; Bildungspolitiker, Wirtschaftsmanager und Gesellschaftskritiker interessieren sich auf einmal fiir die Ergebnisse von Schulleistungstests; politische Parteien, Lehrerorganisationen und Elternverbände diskutieren kontrovers über die Bedeutung von Schulleistungsmessungen und deren Rolle fiir die Qualitätsverbesserung unseres Schulsystems.

Ein wichtiger Grund dafiir war TIMSS, eine große internationale Vergleichsstudie über Leistungen in der Mathematik und in den naturwissenschaftlichen Unterrichtsfächern. Deutsche Schüler - so demonstrierten es die empirischen Ergebnisse - konnten im Durchschnitt nur mittelmäßige Leistungen erzielen, waren also weniger erfolgreich als viele geglaubt und gehoffi hatten. Wie immer bei schlechten Nachrichten waren die ersten Reaktionen voller Hektik und Widerspruch: Die Untersuchungsbefunde wurden sowohl bagatellisiert als auch dramatisiert, die verwendeten Messinstrumente gerieten - völlig unbegründet- in die Kritik; manche suchten voreilig nach Schuldigen, andere holten ihre angestaubten schulorganisatorischen Vorschläge als Patentrezepte wieder aus der Schublade; es gab aber auch viele nachdenkliche Kommentare über die möglichen Gründe fiir das schlechte Abschneiden deutscher Schüler und fiir die notwendigen Reformen im deutschen Bildungswesen. Die kritischen, aber konstruktiven Stimmen gewannen schließlich die Oberhand. Vielen wurde bewusst, dass sich die Qualität des Unterrichts verbessern muss, sollen langfristig die Leistungen möglichst vieler Schüler und damit der Schule insgesamt erhöht werden. Dass eine solche Innovation in die Zukunft des Landes nicht umsonst zu haben ist, wurde in der Diskussion ebenso deutlich wie die Tatsache, dass schnelles Geld allein wenig helfen dürfte. Besonders auffallend und beeindruckend war, dass die Resultate der TIMS-Studie kaum fiir parteipolitischen Streit gesorgt haben. Im Gegenteil: Die Konferenz der Kultusmi-

6 4 nister bemühte sich über alle Parteien und Koalitionsgruppierungen hinweg nachdrücklich um eine Versachlichung der öffentlichen Diskussion und um eine "Pädagogisierung" der Überlegungen zur Qualitätsverbesserung deutscher Schulen. Diese grundlegende Einstellung führte auch zu der Anregung, ein Buch zur Information der interessierten Lehrer und Eltern, aber auch für eine breite, bildungspolitisch aufgeschlossene Öffentlichkeit herauszugeben. Ziel einer solchen Publikation sollte es sein, eine gewisse Ordnung in die vielen neuen schulischen Leistungsstudien zu bringen, die wichtigen methodischen Grundlagen der Leistungsmessung zu klären, deren Vorteile und Gefahren sachlich zu analysieren und nicht zuletzt auch den pädagogischen Nutzen zu überprüfen. Das vorliegende Buch kann als Ergebnis dieser Bemühungen aufgefasst werden. Zahlreiche prominente Autoren mit jeweils unterschiedlichen bildungspolitischen Profilen, aber mit dem gemeinsamen Bemühen um wissenschaftliche Redlichkeit und pädagogische Sachlichkeit waren bereit, diese Aufgabe zu übernehmen. Von Anfang an war geplant, in erster Linie ein Buch für die Hand von Lehrerinnen und Lehrern zu schreiben. Die einzelnen Kapitel sollten auf drängende, offene, zum Teil aber noch gar nicht gestellte Fragen möglichst verständliche Antworten geben. Das ist in den Augen der Leser vermutlich nicht immer in der wünschenswerten Weise gelungen. Die schwierigen Probleme bei der Konstruktion von Leistungstests machen methodische und statistische Erläuterungen zwingend notwendig, die Internationalisierung der vergleichenden Schulleistungsmessung fördert den gemeinsamen Gebrauch vieler Fremdwörter, die große Anzahl neuer regionaler, nationaler und internationaler Untersuchungen erschwert selbst Fachleuten den Überblick. Beklagen werden manche Lehrerinnen und Lehrer, dass zu wenig auf die konkreten Nutzungsmöglichkeiten der Resultate solcher Studien in der eigenen Schule und durch den individuellen Lehrer eingegangen wird. Das ist gegenwärtig aber sehr schwierig! Deutschland hat sichjahrzehntelang an internationalen Leistungsvergleichen nicht beteiligt; eine pädagogische Kultur der Qualitätsentwicklung von Schulen auf der Grundlage realistischer Leistungsbewertungen konnte sich also nicht entfalten. Es gehört zu den Aufgaben des vorliegenden Buches, durch die Darstellung der aktuellen Entwicklungen (vor allem der zwei großen internationalen Studien: TIMSS und PISA) und der erkennbaren Perspektiven zu einer Schließung dieser Lücke beizutragen. Daraus ergeben sich Konsequenzen für die Auswahl und Aufeinanderfolge der Kapitel. Nach einführenden Darstellungen des aktuellen Diskussionsstandes, der Notwendigkeiten und Probleme schulischer Leistungsmessung - auch im Kontext des alltäglichen Unterrichts - folgen Überblickskapitel über die Methoden und Inhaltsbereiche, über nationale und internationale Studien. Abschließend wird aus verschiedenen Perspektiven versucht, die Notwendigkeit, die Problematik und den Nutzen vergleichender Leistungsmessungen in Schulen zu analysieren. Da es sich um kein Lehrbuch im engeren Sinne handelt, kann man sich sehr verschiedene Lesepfade vorstellen. Man kann sich beispielsweise zuerst auf die Darstellung besonders interessierender Studien konzentrieren und sich anschließend mit methodischen und pädagogischen Fragen beschäftigen. Oder man kann mit der aktuellen Diskussion beginnen und dann einzelne Schwerpunkte und Vertiefungen wählen. Viele Varianten erscheinen möglich.

5 Auch wenn die Lektüre der einzelnen Kapitel gelegentlich schwierig sein dürfte, so müsste der damit verbundene Erwerb professioneller Kompetenzen, fundierten Wissens und eines vielfältigen Problembewusstseins im Bereich der schulischen Leistungsmessung eine hinreichende Kompensation darstellen. Eine sachkundige und engagierte Beteiligung der Lehrerschaft an der öffentlichen wie an der professionellen Diskussion über die weitere Entwicklung der schulischen Leistungsmessung ist nämlich von großer Bedeutung. Nicht empfohlen werden kann das Buch alljenen, die davon überzeugt sind, dass eine Verdoppelung des Bildungsbudgets alle Probleme der deutschen Schulen lösen würde; die sich von einseitigen pädagogischen Heilslehren eine bessere schulische Zukunft versprechen und die vor allem äußere Verhältnisse für die gegenwärtigen unterrichtlichen Defizite verantwortlich machen. Ein Buch, das in der Unübersichtlichkeit öffentlicher Diskussionen zu einem umstrittenen Thema vielen interessierten Bürgern des Landes Klärung und Orientierung bringen soll, hat notwendigerweise eine komplizierte Entstehungsgeschichte. Zahlreiche Personen waren an der Planung und Realisierung des vorliegenden Bandes beteiligt. Danken möchte ich deshalb vor allem •

vielen praktizierenden Lehrern und Wissenschaftlern, mit denen ich im Anfangsstadium Gespräche über das Projekt führen konnte;



der Kultusministerkonferenz und ihren Mitgliedern fiir die anregende, aber völlig neutrale und zurückhaltende Förderung des Buches;



den Autoren fiir ihre kompetente, engagierte und tolerante Zusammenarbeit;



den Mitgliedern einer ad hoc zusammengestellten Expertengruppe - Frau Barbara Basko, Herrn StD Johann Glötzner, Frau Wilma Maier-Michels Päd.M.A. und Herrn Dipl.Soz.Dr. Jürgen Botinger -, welche die Erstfassungen der einzelnen Kapitel kritisch gelesen und ausführlich kommentiert haben;



Frau Wilma Maier-Michels, die über alle notwendigen wissenschaftlichen, pädagogischen und redaktionellen Kompetenzen verfUgte, um das Buch inhaltlich und formal zu gestalten;

• Frau Heidi Schulze, welche die Druckvorlage in einer sehr professionellen Weise erstellte und •

dem Verlag Beltz, der durch die äußere Form des Buches und durch den sehr knapp kalkulierten Preis zur Verbreitung des Werkes beitragen dürfte.

Danken möchte ich schließlich im Voraus allen Leserinnen und Lesern, die sich anhand des Buches mit einer schwierigen, aber extrem wichtigen Thematik unseres Bildungswesens auseinandersetzen. Auch wenn der Text nicht allen persönlichen Erwartungen gerecht werden kann, so hoffe ich doch sehr, dass er das Interesse Vieler findet und damit für die Entwicklung unserer Schulen von Nutzen ist.

im Januar 2001

Powered by TCPDF (www.tcpdf.org)

Franz E. W einert

Vorwort zur 3. Auflage

Das von Franz Emanuel Weinert kurz vor seinem Tode im Jahre 2001 herausgegebene und ein Jahr später in 2. Auflage erschienene Werk liegt jetzt in der 3. Auflage vor. Dies zeugt von der anhaltenden Aktualität der Thematik und macht zugleich deutlich, dass dieser Text nach wie vor eine Lücke füllt, die offenbar nicht durch andere Darstellungen zu schließen ist. Das Buch wurde in einer Zeit konzipiert, als Leistungsmessungen in Schulen in Deutschland noch weitaus weniger selbstverständlich waren als heute. Die TIMS-Studie war die erste Studie dieser Art, nachdem sich Deutschland für lange Zeit aus internationalen Vergleichsstudien verabschiedet hatte. Die Erwartung, zu den in Bildung und Forschung herausragenden Nationen zu gehören, wurde damals nachhaltig erschüttert. Das Thema Leistungsmessung ist im Zuge dieser ersten Leistungsvergleiche intensiv diskutiert worden. Vielen interessierten Nicht-Wissenschaftlern fehlten aber die inhaltlichen und methodischen Kenntnisse, um sich fundiert mit den damit verbundenen Fragen auseinandersetzen zu können. Vor diesem Hintergrund hatte sich F. E. Weinert seinerzeit entschlossen, ein Buch über Leistungsmessungen in Schulen herauszugeben, mit dem insbesondere Lehrerinnen und Lehrer angesprochen werden sollten. Dazu war er in besonderer Weise prädestiniert. Weinert gehörte mit seiner Tätigkeit als Hochschullehrer, Gründer und langjähriger Leiter des Max-Planck-Instituts für psychologische Forschung zu den renommiertesten Vertretern der schulischen Bildungsforschung. Er war selbst als Lehrer ausgebildet und vor seiner wissenschaftlichen Laufbahn viele Jahre im Schuldienst tätig gewesen. Sein Lebenswerk ist geprägt durch die wissenschaftliche Auseinandersetzung mit Schule und Unterricht, die er nicht nur in einen breiteren entwicklungspsychologischen Rahmen stellte, sondern zugleich immer auch auf ihren Wert für die schulische Praxis hin betrachtete. Ziel des Buches war es seinerzeit, “eine gewisse Ordnung in die vielen neuen schulischen Leistungsstudien zu bringen, die wichtigen methodischen Grundlagen der Leistungsmessung zu klären, deren Vorteile und Gefahren sachlich zu analysieren und nicht zuletzt auch den pädagogischen Nutzen zu überprüfen” (aus dem Vorwort zur 1. Auflage). Zu diesem Zweck umfasst das Buch einführende Darstellungen des aktuellen Diskussionsstandes und der Notwendigkeiten und Probleme schulischer Leistungsmessungen, Überblickskapitel über Methoden und Inhaltsbereiche, über

nationale und internationale Studien; abschließend wird versucht, die Notwendigkeit, die Problematik und den Nutzen vergleichbarer Leistungsmessungen in Schulen zu analysieren. Es ist mit Sicherheit dem herausragenden Renommee von Weinert zu verdanken, dass für dieses Buch die führenden Vertreter der deutschsprachigen Bildungsforschung gewonnen werden konnten. Es sind vielfach die Wissenschaftlerinnen und Wissenschaftler, die für das jeweilige Thema “stehen”, es also maßgeblich mitgeprägt haben. Und es spricht – was bei einem derartigen Projekt keinesfalls selbstverständlich ist – für das editorische Geschick des Herausgebers, dass ein Buch mit Beiträgen entstanden ist, die nicht nur thematisch repräsentativ und ausgewogen sowie wissenschaftlich und fachlich gehaltvoll, sondern auch gut verständlich sind. Dazu hat sicher auch der nicht unerhebliche redaktionelle Aufwand beigetragen, der bei der Konzeption und Produktion des Buches betrieben wurde. In den folgenden 13 Jahren hat sich im Bereich der Leistungsmessung im deutschen Sprachraum viel getan. Um nur einige Punkte zu nennen: • Entwicklung und fortlaufende Überprüfung der Zielerreichung von Bildungsstandards in Deutschland durch das IQB, inzwischen auch in Österreich (durch das bifie) und in der Schweiz (Stichworte: HarmoS, Lehrplan 21); • Ausdehnung der auf den Bildungsstandards basierenden, von der Landauer Forschungsgruppe initiierten Vergleichsarbeiten auf mehrere Klassenstufen und auf alle 16 Bundesländer; • Einrichtung von Qualitätsagenturen in verschiedenen Bundesländern; • Fortsetzung der internationalen Leistungsstudien der IEA und OECD, insbesondere TIMSS, PISA und IGLU (PIRLS); • Ausdehnung der Kompetenzmessung über die Schule hinaus, beispielhaft realisiert im “Programme for the International Assessment of Adult Competencies” (PIAAC-Studie, 2013); • Entwicklung von Ansätzen zur Vermittlung diagnostischer Kompetenzen durch das Projekt UDiKom der KMK mit Modulen zu Bildungsmonitoring,Vergleichsarbeiten, Individualdiagnostik und Unterrichtsdiagnostik. Dazu kommen zahlreiche Forschungsprojekte, einschlägige Schwerpunktprogramme der Deutschen Forschungsgemeinschaft (insbesondere “Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen”), Einrichtung universitärer Forschungsschwerpunkte und Programme zur Nachwuchsförderung (Graduiertenschulen wie das von der Deutschen Forschungsgemeinschaft geförderte Graduiertenkolleg “Unterrichtsprozesse” in Landau) und eine Vielzahl von Publikationen zu Themen der Leistungsmessung, die hier auch nicht annähernd skizziert werden können. Der Deutsche Bildungsserver sowie die Portale der Landesinstitute und Qualitätsagenturen informieren umfassend über aktuelle Projekte, Werkzeuge, Material und Publikationen.

Allerdings zeichnet sich inzwischen auch eine Trendwende ab. Es zeigt sich eine gewisse Sättigung, was die Information über Schulleistungen auf der Basis von Lernstandserhebungen und Vergleichsarbeiten anbelangt. Wir wissen immer besser und genauer Bescheid über die Leistungen unserer Schülerinnen und Schüler. Das Interesse der nationalen Bildungspolitik und Bildungsforschung richtet sich demzufolge zunehmend auf die Bedingungen und Prozesse, die für Leistungsunterschiede zwischen Schulen, Klassen sowie Schülerinnen und Schülern verantwortlich sind. Hier war die Hattie-Studie zweifellos ein starker Katalysator. Auch das im deutschsprachigen Raum inzwischen sehr verbreitete, im Auftrag der KMK für die Schulpraxis entwickelte Werkzeug EMU (Evidenzbasierte Methoden der Unterrichtsdiagnostik und -entwicklung, siehe www.unterrichtsdiagnostik.info) fokussiert auf die Lehr-Lern-Prozesse, nicht auf die Leistungen als Produkte. Auf der anderen Seite führt die zunehmende Fokussierung auf “Kompetenzorientierung” in vielen Bundesländern und in der Schweiz – auf dem Umweg über Fragen der Unterrichtsqualität – indirekt wiederum zu den in Weinerts Buch behandelten grundlegenden Fragen der Leistungsmessung. Obwohl die Akzeptanz von Leistungsmessungen und Kompetenzdiagnostik und vermutlich auch der entsprechende Informationsstand im letzten Jahrzehnt erheblich zugenommen haben, ja inzwischen Alltag geworden sind, stellen sich einige grundlegende Fragen immer wieder, sind gewissermaßen zeitlos. Auf viele dieser Fragen gibt das Buch Auskunft, und zwar aus Sicht der Personen, die die wissenschaftliche und fachliche Diskussion auf dem jeweiligen Gebiet wesentlich mitbestimmt, wenn nicht sogar entscheidend gestaltet haben. Weinert selbst steckt mit dem von ihm verfassten Anfangs- und Schlusskapitel den Rahmen für das Buch ab, wobei er Leistungsmessung als eine in ihren Anfängen (und sicher auch noch zum Zeitpunkt des erstmaligen Erscheinens dieses Buches) durchaus umstrittene, aber auf lange Sicht (und vielleicht schon heute) ganz unumstrittene Selbstverständlichkeit sieht. Dabei zeigt sich Weinerts Fähigkeit, wissenschaftlich und gesellschaftlich bedeutsame Themen und Trends zu erkennen und aufzugreifen, sie eingängig und gleichzeitig ausgewogen darzustellen, prägnant zu umreißen und einprägsam zu vermitteln. Aus unserer Sicht sind diese Qualitäten auch dem Buch als Ganzem zugutegekommen. Deshalb sehen wir es nach wie vor als eine hervorragende und in seiner Art einzigartige Quelle, wenn man sich fundiert mit Fragen der Leistungsmessung und ihren Hintergründen auseinandersetzen will. November 2013

Powered by TCPDF (www.tcpdf.org)

Andreas Helmke und Friedrich-Wilhelm Schrader

Verzeichnis thematisch relevanter Institutionen und Untersuchungen

Institutionen

BLK

Bund-Länder-Kommission

DFG

Deutsche Forschungsgemeinschaft

DIPF

Deutsches Institut für Internationale Pädagogische Forschung

ETS

Educational Testing Service

IAEP

International Assessment of Educational Progress

IBE

International Bureau of Education

IEA

International Association for the Evaluation of Educational Achievement

IPN

Institut der Pädagogik der Naturwissenschaften

KMK

Ständige Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (kurz: Kultusministerkonferenz)

MPIB

Max-Planck-Institut für Bildungsforschung

MPIPF

Max-Planck-Institut ftir Psychologische Forschung

OECD

Organisation for Economic Cooperation and Development (Organisation für wirtschaftliche Zusammenarbeit und Entwicklung)

UNESCO United Nations Educational, Scientific and Cultural Organisation

14

Verzeichnis thematisch relevanter Institutionen und

Untersuchungen

BIJU Bildungsverläufe und psychosoziale Entwicklung im Jugendalter 1991 begonnene Längsschnittuntersuchung ab Jahrgangsstufe 7, in der auch TIMSSAufgaben verwendet wurden; Durchfiihrung: Max-Planck-Institut für Bildungsforschung (MPIB), Berlin. CIVIC EDUCATION STUDY Studie der IEA zur politischen Bildung im Schuljahr 1998/99, Schüler der 8. Jahrgangsstufe betreffend, in insgesamt 23 Nationen. Verantwortlich für den nationalen Teil: MPIB Berlin, für die internationale Koordination: Humboldt-Universität zu Berlin. DESI Deutsch-Englisch-Schülerleistungen-International Als KMK-Projekt deutsche Ergänzungsstudie zu PISA, die die aktive Beherrschung der deutschen Sprache und des Englischen als Fremdsprache zum Gegenstand hat (Jahrgangsstufe 9). Datenerhebung 2003 und 2004; koordiniert vom Deutschen Institut für Internationale Pädagogische Forschung (DIPF). Hamburger Aufsatzstudie Deutscher Beitrag zur IEA-Written Composition Study; 1989 in allgemein- und berufsbildenden Hamburger Schulen als Stichprobenerhebung realisiert durch die Universität Hamburg. Hambuger Lesestudie Deutsche Teilstudie der IEA-Reading Literacy Study (IRLS =Internationale Lesestudie) bei 9- und 13jährigen, im Jahr 1991 durchgeführt in den alten und neuen Bundesländern von der Universität Hamburg; Ergänzungsuntersuchungen bei deutschsprachigen Minderheiten in Europa. IGLU Internationale Grundschul-Lese-Untersuchung Deutsche Teilstudie der IEA-PIRLS, ergänzt um Mathematik und einige naturwissenschaftliche Komponenten (IGLU/E); für 2001 geplante Erhebung in 4. Klassen (Stichproben) durch die Universität Hamburg. Alle 16 Bundesländer werden sich an IGLU beteiligen, 13 an IGLUIE. Internationale Lesestudie (siehe Hamburger Lesestudie)

Verzeichnis thematisch relevanter Institutionen und Untersuchungen

15

LAU Lern-Ausgangs Iagen-Untersuchung Längsschnittuntersuchung (Vollerhebung) in Harnburg zum Lernfortschritt in den Fächern Deutsch (Leseverständnis und Rechtschreibung), Mathematik, erste Fremdsprache und in flicherübergreifenden Kompetenzen; durchgeftihrt seit 1996 (Beginn 5. Klasse) in zweijährigem Abstand von der Humboldt-Universität zu Berlin. LER-Studie Lebensgestaltung-Ethik-Religion wurde 1996 als verbindliches Unterrichtsfach der Sekundarstufe I in Brandenburg eingeführt und wissenschaftlich begleitet. Untersuchung (Lehrer-, Schüler- und Schulleiterbefragungen) zur Praxis und Wirkung des Unterrichts im Lernbereich LER in Brandenburg; durchgeftihrt 1999 von der Humboldt-Universität zu Berlin. LOGIK Longitudinalstudie zur Genese individueller Kompetenzen Von 1984 bis 1993 wurde die kindliche Entwicklung (Einstiegsalter 3 bis 4 Jahre) in den Bereichen Intelligenz, Denken, Gedächtnis, Lese- und Rechtschreibleistung, mathematisch-naturwissenschaftliches Verständnis, Motivation, soziale Fähigkeiten und moralisches Urteil/moralische Motivation untersucht. In jedem Untersuchungsjahr wurden die Kinder dreimal beobachtet, befragt und getestet; zeitweise Verquickung mit der ebenfalls vom Max-Planck-Institut für Psychologische Forschung (MPIPF) in München durchgeftihrten SCHOLASTIK-Studie. MARKUS Mathematik-Gesamterhebung Rheinland-Pfalz: Kompetenzen, Unterrichtsmerkmale, Schulkontext Vollerhebung im Mai 2000 in Rheinland-Pfalz zu den Mathematikleistungen der Schüler in der 8. Jahrgangsstufe und zu Unterrichtsmerkmalen, Schulqualität sowie zu Lernvoraussetzungen und zum persönlichen Hintergrund der Schüler; durchgeftihrt von der Universität Koblenz-Landau und dem Zentrum für empirisch-pädagogische Forschung Landau. Münchner Hauptschulstudie Erhebung der Mathematikleistungen und leistungsrelevanter Motive und Einstellungen vom Beginn der 5. bis Ende der 6. Jahrgangsstufe; wesentlich erweiterter deutscher Beitrag zu "Classroom Environment Study" der IEA; vom Max-Planck-Institut für Psychologische Forschung München als Längsschnittuntersuchung 1983-1985 durchgeführt. PIRLS Progress in International Reading Literacy Study Weiterentwicklung der Internationalen Lesestudie der IEA (IRLS); deutsches Äquivalent: IGLU.

16

Verzeichnis thematisch relevanter Institutionen und Untersuchungen

PISA Programme for International Student Assessment (Programm zur Internationalen Bewertung von Schülerleistungen) Laufende OECD-Studie (1998-2007) zur Lesekompetenz, zur mathematisch/naturwissenschaftlichen Grundbildung und zu fächerübergreifenden Kompetenzen mit vielfältigen Indikatoren für Lernergebnisse und ihre Bedingungen bei 15jährigen Schülern; federführend für die wesentlich erweiterte deutsche Teilstudie: MPIB, Berlin. QUAS UM Qualitätsuntersuchung an Schulen zum Unterricht in Mathematik Eine 1999 in Brandenburg in den Jahrgangsstufen 5 und 9 erfolgte Untersuchung, die auch Merkmale des Unterrichts, den Schulalltag und die Lebens- und Lernumwelt der Schüler einbezog; durchgeführt von der Humboldt-Universität zu Berlin. SCHOLASTIK Schulorganisierte Lernangebote und Sozialisation von Talenten, Interessen und Kompetenzen Vom Max-Planck-Institut für Psychologische Forschung in München durchgeführte Untersuchung zur Entwicklung während der Grundschulzeit Mathematik- und Deutschleistungen und motivationale Schülermerkmale. (Ein wesentlicher Teil von SCHOLASTIK wurde in vietnamesischen Grundschulklassen wiederholt.)

TIMSS Third International Mathematics and Science Study (Dritte Internationale Mathematik- und Naturwissenschaftsstudie) In Deutschland Ende der Schuljahre 1994/95 und 1995/96 in der Sekundarstufe I und II durchgeführte Untersuchung analog der IEA-Studie. Unterricht, Lehrer, Schulen und außerschulische Lebensumwelt sowie psychosoziale und individuelle Schülermerkmale waren im Erhebungsdesign enthalten; Querschnittvergleich von 7. und/oder 8. Jahrgangsstufe sowie Federführung: MPIB, Berlin. WALZER Wirkungsanalyse der Leistungsevaluation: Zielerreichung, Ertrag for die Bildungsqualität der Schule und die Rückmeldung von Evaluationsergebnissen Eine im Anschluss an die MARKUS-Studie stattfindende Evaluationsstudie zur Wirkung von Ergebnisrückmeldungen an Lehrkräfte und Schulen und zu den Bedingungen, unter denen diese Rückmeldungen zur Verbesserung der Qualität von Schule und Unterricht genutzt werden. Projekt im Rahmen des auf sechs Jahre angelegten DFGSchwerpunktprogramms "Bildungsqualität von Schule". Durchführung: Universität Koblenz-Landau.

Powered by TCPDF (www.tcpdf.org)

Inhalt

Vorwort .......................................................... . 3 Vorwort zur 3. Auflage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Verzeichnis thematisch relevanter Institutionen und Untersuchungen . . . . . . . . . . 13 Kapitell Vergleichende Leistungsmessung in Schulen - eine umstrittene Selbstverständlichkeit

Franz E. Weinert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Kapitel2 Kontroversen um die Schulleistungsmessung in Deutschland. Eine fiktive Diskussion über Positionen und Perspektiven in verteilten Rollen

Hans Brügelmann .................................................. 33 Kapitel3 Alltägliche Leistungsbeurteilung durch Lehrer

Friedrich-Wilhelm Sehrader & Andreas Helmke .......................... 45 Kapitel4 Bezugsnormen und schulische Leistungsbeurteilung

Falko Rheinberg ................................................... 59 KapitelS Schulleistungen - Leistungen der Schule llikr der Schüler?

Franz E. Weinert ................................................... 73

10 Kapitel6 Standardisierte Schulleistungsmessungen

Kurt A. Heller & Ernst A. Hany . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Kapitel 7 Wie misst man Schulleistungen?

Kar/ Josef Klauer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 KapitelS Qualitätskriterien für die standardisierte Messung von Schulleistungen. Kann eine (vergleichende) Messung von Schulleistungen objektiv, repräsentativ und fair sein?

Karl-Heinz Arnold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Kapitel9 Messung von Schulleistungen im Primar- und Sekundarbereich

Rainer H. Lehmann

131

KapitellO Schulleistungen im Bereich der muttersprachlichen Bildung

Wolfgang Schneider ............................................... 143 Kapitell! Schulleistungen im Bereich der mathematischen Bildung

Elsbeth Stern & Ilonca Hardy ........................................ 153 Kapitel12 Schulleistungen im Bereich der naturwissenschaftlichen Bildung

Reinders Duit, Peter Häußler & Manfred Prenzel

169

Kapitel13 Schulleistungen im moralisch-wertbildenden Bereich. Das Beispiel Lebensgestaltung-Ethik-Religionskunde (LER) in Brandenburg

Sabine Gruehn & Kai Schnabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Kapitel14 Fächerübergreifende Kompetenzen: Konzepte und Indikatoren

Eckhard Klieme, Petra Stanat & Cordula Artelt . . . . . . . . . . . . . . . . . . . . . . . . . 203

Inhalt

11

KapitellS Leistungen im Bereich der beruflichen Bildung Gerald A. Straka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

Kapitell6 Jenseits von TIMSS: Messungen sprachlicher Kompetenzen, komplexe Längsschnittstudien und kulturvergleichende Analysen. Ergebnisse und Perspektiven ausgewählter Leistungsstudien Andreas Helmke & Friedrich-Wilhelm Sehrader ......................... 237

Kapitell? Internationale Schulleistungsforschung: Ihre Entwicklungen und Folgen fiir die deutsche Bildungslandschaft Wilfried Bos & T. Neville Postlethwaite

251

KapitellS TIMSS- Third International Mathematics and Science Study. Dritte internationale Mathematik- und Naturwissenschaftsstudie OlafKöller, Jürgen Baumert & Wilfried Bos

269

Kapitell9 PISA - Programme for International Student Assessment. Zielsetzung, theoretische Konzeption und Entwicklung von Messverfahren Jürgen Baumert, Cordula Artel!, Eckhard Klieme & Petra Stanat . . . . . . . . . . . 285

Kapitel20 Leistungsmessung und die Professionalität des Lehrerberufs Jörg Schlömerkemper

311

Kapitel21 Die Bedeutung vergleichender Schulleistungsmessungen fiir die Qualitätskontrolle und Qualitätsentwicklung von Schulen und Schulsystemen Rainer Peek

323

Kapitel22 Was bringt die vergleichende Leistungsmessung fiir die pädagogische Arbeit in Schulen? Hans-Günter Rolff ..................................... ............ 337

12 Kapitel23 Perspektiven der Schulleistungsmessung - mehrperspektivisch betrachtet Franz E. Weinert .................................................. 353

Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 Personenregister

383

Sachregister

387

Autoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395

Powered by TCPDF (www.tcpdf.org)

KAPITEL 1

Vergleichende Leistungsmessung in Schulen eine umstrittene Selbstverständlichkeit Franz E. Weinert

In bildungspolitischen Diskussionen werden pädagogische Konzepte, Modelle und Positionen oft mit Hilfe eines sehr globalen Maßstabes bewertet und dementsprechend pauschal etikettiert. Besonders prominent geworden ist die häufig nicht diskriminativ, sondern diskriminierend gemeinte Zuschreibung von bewertenden Kategorien wie "traditionell", "konservativ", ''veraltet" im Gegensatz zu "fortschrittlich", "progressiv" und "modern". Der Erwerb oder gar die Vermittlung von Wissen, die Steuerung und Kontrolle des Unterrichts durch den Lehrer, die automatisierende Einübung von Fertigkeiten, die extrinsische Lernmotivierung der Schüler und die meisten leistungsbezogenen Bildungsziele gelten vielen als konservativ, während die didaktische Moderation autonomer Lerngruppen, die selbständige (nicht selten spielerische) Beschäftigung mit interessanten Lerngegenständen, die intrinsische Motivation, jegliche Form von Gruppenarbeit und die grundlegenden reform-pädagogischen Bildungsziele wie persönliche Autonomie oder soziale Partizipation als modern angesehen werden. Gegen eine solche Klassifikation ist natürlich nichts einzuwenden, wenn mit der Bezeichnung "modern" gemeint wäre, dass ein didaktisches Konzept relativ neu ist, dass ein Bildungsziel aus den aktuellen Bedürfnissen einer sich wandelnden Gesellschaft herleitbar ist, dass sich neuere Unterrichtskonzepte gegenüber konkurrierenden älteren Modellen als überlegen erwiesen haben. Dem ist aber nicht so! "Traditionelles" wird von den einen als schlecht, als rückständig, als etwas zu Überwindendes und zu Ersetzendes betrachtet, von anderen aber als erhaltenswert, zeitgeistresistent und oft als besonders notwendig angesehen. Ähnliches geschieht mit neuen pädagogischen Ideen, die von vielen als fortschrittlich gefeiert, von anderen als modernistischer Firlefanz verteufelt werden. Was solchen pädagogischen Kontroversen häufig fehlt, ist das gemeinsame Bewusstsein, dass es für Schulen verschiedene Bildungsziele gibt, die durchjeweils unterschiedliche Lernprozesse, variable didaktische Bedingungskonstellationen und differierende Modi des Lehrer- wie des Schülerverhaltens am besten erreicht werden können. Die

18 ergebnisoffene Analyse allgemeiner oder spezifischer Zusammenhangsmuster und die Suche nach differentiellen Methoden erfolgreichen Unterrichtens werden nicht selten durch die Selbstgewissheit und den Ausschließlichkeitsanspruch der jeweiligen Anhänger einer bestimmten pädagogischen Position ersetzt, wenn nicht sogar verhindert. Dabei macht eine unvoreingenommene Analyse des empirischen Forschungsstandes mehr als deutlich, dass es kaum ein pädagogisches oder didaktisches Konzept gibt, das für die Erreichung unterschiedlicher Bildungsziele gleichermaßen gut geeignet wäre, dass es kaum eine Unterrichtsmethode oder eine Lehrstrategie gibt, die - einseitig und ausschließlich angewandt- neben den erwünschten Wirkungen nicht auch unerwünschte Nebeneffekte zeigt und dass sich kaum ein pädagogisch-psychologisches Werkzeug (z. B. ein diagnostisches Verfahren) finden lässt, das ohne theoriegeleitete, verfahrenssensible und kritische Interpretation "objektive", sich selbst auslegende Informationen liefern würde. Fatalerweise ist die vergleichende Leistungsmessung - mehr noch als das Leistungsprinzip als solches- in die bewertende und pauschalierende pädagogische "EntwederOder-Klassifikation" geraten. Für manche, die sich selbst als humanistisch und idealistisch oder aber als anti-bürgerlich und fortschritts-skeptisch verstehen, sind Leistungen, Leistungsanforderungen und Leistungsmessungen kinderfeindliche, antireformpädagogische, ökonomisch instrumentalisierbare Kontrollmechanismen zur Disziplinierung von Schulen, Lehrern und Schülern. Leistungen und ihre methodisch zuverlässige Erfassung werden entweder offen als konservative Relikte einer veralteten Pädagogik abgelehnt, oder es werden Leistungsmessungen gefordert, die weder Leistungen enthalten noch Messungen darstellen. Solche Behauptungen werden von leistungsorientiert eingestellten Pädagogen und Bürgern als romantisch, idealistisch oder ideologisch kritisiert. Für sie bedeutet Leistung die Manifestation eines menschlichen Grundbedürfnisses, eine Möglichkeit der individuellen Selbstverwirklichung durch Erfahrung eigener Selbstwirksamkeit; Leistungsanforderungen werden als individuelle Herausforderungen und als notwendige Bedingungen des sozio-kulturellen Fortschritts verstanden; Leistungsmessungen und die damit verbundenen Möglichkeiten des Leistungsvergleichs zwischen verschiedenen Schülern, Klassen, Schulen, Schulformen und Schulsystemen stellen fiir sie wichtige Bedingungen der Möglichkeit zur rationalen Begründung bildungspolitischer Entscheidungen, zur Steuerung der Schulentwicklung, zur Verbesserung der Schulqualität und zur reflexiven Vergewisserung des Verhältnisses von Anspruch und Wirklichkeit bei Politikern, Lehrern, Eltern und Schülern dar. Beide Positionen verfügen über hinreichend viele gesellschaftlich anerkannte Argumente zur Begründung, Rechtfertigung und auch Immunisierung der eigenen Auffassung und zur Infragestellung der jeweils anderen Perspektive. Der Streit kann deshalb mit Unterstellungen über die "eigentlichen Absichten", die ''unausgesprochenen Interessen" und die zu befiirchtenden langfristigen "pädagogischen Nebeneffekte" geführt werden. Hinter solchen Schwarz-Weiß-Diskussionsstrategienverflüchtigen sich leicht die tatsächlichen Ziele, der wahrscheinliche Nutzen und die möglichen Gefahren bestimmter Leistungsanforderungen und Leistungsmessungen.

Leistungsmessung - umstrittene Selbstverständlichkeit

19

Es gibt manche Anzeichen dafür, dass sich die unterschiedlichen Einschätzungen gegenüber vergleichenden Leistungsmessungen in Schulen seit kurzem sogar verstärkt haben. Betonen die einen immer nachdrücklicher die reformpädagogischen Ideen einer "guten entschulten Kindheit" (Gardner, 1993), die Vorteile einer stressfreien Persönlichkeitsentwicklung unter anregenden schulischen Bedingungen, die Autonomie des Lernensinkleinen Gemeinschaften von Lernenden als Grundlage einer "höheren" Form von Leistungstüchtigkeit (obwohl oder gerade weil bestimmte Leistungsdispositionen nicht erworben werden), so beschwören die anderen wachsende globale wirtschaftliche Konkurrenzkämpfe, die Notwendigkeit des schulischen Leistungsprinzips für das Leben in einer Wissensgesellschaft und die Rolle des kollektiven wie des individuellen Leistungsniveausfür das persönliche wie für das gesellschaftliche Wohlergehen. Es gibt also bereits seit einiger Zeit scharfe Konturen einer pädagogischen Auseinandersetzung zwischen denen, die Leistung als den primären Auftrag von Schule ansehen und jenen, die zwar auch Leistungen für mehr oder minder bedeutsam halten, ihnen aber keine Priorität im schulischen Aufgabenkatalog einräumen wollen. Auf diese gesellschaftliche und pädagogische Situation trafTIMSS in den späten neunziger Jahren.

Reaktionen auf TIMSS Die empirischen Ergebnisse der Third International Mathematics and Science Study (TIMSS) sowie die bildungspolitischen, pädagogischen und öffentlichen Diskussionen darüber stellen einen markanten Einschnitt in der kontinuierlichen Debatte über die Wirksamkeit von Schulen in der Bundesrepublik Deutschland dar. Natürlich gab es auch früher (genauer gesagt: immer) kontroverse Diskussionen über die Entwicklung des Schulwesens, insbesondere im Zusammenhang mit der äußeren oder inneren Gliederung der Sekundarstufe; es gab Diskussionen über das, was Schüler auf verschiedenen Schulstufen lernen sollen und können müssen; es gab häufig Streit über gute oder weniger gute Lehrmethoden; es gab regelmäßig Kritik von Wirtschaftsverbänden am Leistungsstand deutscher Schüler und Studenten; es gab stets die vielfaltigen Sorgen von Eltern und Schülern über Lern- und Leistungsschwierigkeiten, wobei die Lösung ihrer Probleme selten institutionalisiert, sondern vorwiegend privatisiert wurde. Im Mittelpunkt des öffentlichen Interesses stand über viele Jahrzehnte hinweg aber nur selten der Unterricht, sondern vorwiegend die Schulorganisation. So blieb weithin unstrittig, ja fast selbstverständlich, •

dass in vergleichbaren Klassen ähnliche Leistungsfortschritte erzielt werden; und



dass deutsche Schüler im internationalen Vergleich relativ gut abschneiden würden.

Systematisch geprüft wurden diese beiden Annahmen nicht. Weder die frühere Bundesrepublik Deutschland noch die ehemalige Deutsche Demokratische Republik beteiligten sich - von einigen wenigen Ausnahmen abgesehen - an den vergleichenden Leistungs-

20

Franz E. Weinert

studien, die von der International Association for the Evaluation ofEducational Achievement (IEA) in vielen Schulfächern und in zahlreichen Ländern durchgeführt wurden. Umso größer war der Schock, den die erste deutschsprachige Publikation über die TIMS-Studie verursachte (Baumert, Lehmann u. a., 1997). Wenigstens vier der für Bildungspolitik, Pädagogik und Öffentlichkeit selbstwertdienliche Überzeugungen wurden durch die Befunde in Frage gestellt: (a) Die Leistungsunterschiede innerhalb der gleichen Schulart sind in Mathematik und in den naturwissenschaftlichen Fächern Physik, Chemie, Biologie weitaus größer als bisher unterstellt wurde. Mit anderen Worten: Schulen und Lehrer bewirken bedeutsame Differenzen in den durchschnittlichen Leistungen und Leistungsfortschritten der Schüler. (b) Zwischen verschiedenen Bundesländern und zwischen unterschiedlichen, aber vergleichbaren Schulformen gibt es Leistungsdiskrepanzen, die auf Grund des Untersuchungsplanes von TIMSS zwar nicht präzise bestimmbar, wohl aber deutlich vermutbar sind. (c) Die Leistungen deutscher Schüler liegen im internationalen Vergleich nur im Mittelfeld. Sowohl im 8. Schülerjahrgang als auch in der 12. Klasse verfiigen die deutschen Schüler zum Beispiel über ein durchschnittliches Niveau mathematischer Kompetenzen zur Lösung anspruchsvoller Aufgaben, das weit unter dem Niveau in anderen Ländern, insbesondere in den ost- und südostasiatischen Staaten liegt. (d) Die Leistungs- und Kompetenzdefizite deutscher Schüler zeigen sich nicht nur bei den Durchschnittswerten, sondern auch bei ausschließlicher Berücksichtigung der besten fünf oder zehn Prozent der jeweiligen Jahrgangspopulation. An dieser Stelle braucht nicht detailliert auf die TIMS-Studie und ihre Resultate eingegangen zu werden, weil dieser Untersuchung im vorliegenden Band ein eigenes Kapitel gewidmet ist (vgl. Kap. 18 i. d. Bd.). Festzuhalten bleibt lediglich, dass durch die als spektakulär wahrgenommenen empirischen Befunde viele bildungspolitische, standespolitische, pädagogische und ökonomische Interessen berührt wurden. Das führte in kürzester Zeit zu einer Vielzahl und Vielfalt positiver wie negativer Stellungnahmen.

Die Kritik reicht von weitgehend unbegründeten methodischen Einwänden gegen internationale Vergleichsstudien im allgemeinen bis zur pauschalen Unterstellung, solche Untersuchungen dienten letztlich einer Revitalisierung engmaschiger Kontrollmechanismen über Schüler und Lehrer durch politische, bürokratische, wissenschaftliche oder ökonomische Instanzen. Befürchtungen dieser Art mögen objektiv unbegründet sein, sie signalisieren aber die Sorgen mancher Lehrer und Lehrerverbände über eine vergleichende Evaluation der Leistungen von Schulen durch Messung der Schülerleistungen. Weniger defensiv, sondern eher offensiv, gelegentlich sogar aggressiv sindjene Einwände gegen die TIMS-Studie, die an Stelle von Leistungsmessungen etwas "ganz

Leistungsmessung - umstrittene Selbstverständlichkeit

21

anderes", besonders Wichtiges und sehr Dringliches zu tun fordern. Statt die kognitive Entwicklung, das Lernen und die Leistungen von Schülern "zu vermessen" und auf dieser Basis Schulsysteme, Schulen und Lehrer zu beurteilen, sollte man sich lieber mit der pädagogischen Förderung von Kindem und Jugendlichen, mit der sozialen Atmosphäre und den außerschulisch verursachten Konflikten im Klassenzimmer, mit einer besseren Qualifizierung von Lehrern oder mit einer größeren Autonomie der einzelnen Schulen beschäftigen. Jede dieser Forderungen ist selbstverständlich berechtigt! Wenig sinnvoll erscheint allerdings die Ablehnung wichtiger Aufgaben durch Hinweise auf angeblich noch Wichtigeres. Natürlich wird ein Schwein durch häufiges Wiegen nicht fetter, um eine im Zusammenhang mit TIMSS oft verwendete Metapher zu zitieren, doch wird niemand auf den Gedanken kommen, das Fressen des Schweines durch Wiegen zu ersetzen. Man sollte das Eine tun, ohne das Andere deswegen zu lassen, wenn es von Nutzen ist. Das gilt auch flir die schulische Leistungsmessung, die im Dienste - nicht aber an Stelle - pädagogischer Bemühungen um eine Verbesserung der Schulqualität stehen muss. Derart grundlegende, aber argumentativ wenig begründete Einwände gegen TIMSS bliebenjedoch die Ausnahme. Insgesamt überwogen kritisch-konstruktive Reaktionen. Die Organisatoren und Autoren der deutschen TIMS-Studie resümieren drei Jahre nach der ersten Publikation ihre Erfahrungen und Eindrücke so: "Der unseres Erachtens wohl wichtigste bisherige Beitrag von TIMSS liegt in der Neustrukturierung der öffentlichen und professionellen Aufinerksamkeit. Nach TIMSS finden Bildungsthemen größeres Interesse, der Unterricht selbst ist als Kernaufgabe der Schule in das Zentrum gerückt. Dieser Aufinerksamkeitswandel ist nicht folgenlos geblieben. Auf politischer Ebene ist damit begonnen worden, Gräben einzuebnen und sich gemeinsam der Aufgabe der Qualitätsentwicklung und Qualitätssicherung zu widmen. Aufwissenschaftlicher Ebene ist anwendungsbezogene Anschlussforschung mit einem neuen Schwerpunktprogramm der Deutschen Forschungsgemeinschaft (DFG) zur Qualität von Schule und Unterricht auf den Weg gebracht. Sowohl in der Erziehungswissenschaft als auch in den Fachdidaktiken hat TIMSS der empirischen Forschung und der Entwicklung innovativer Lehr- und Lernformen Anregungen gegeben. Aufpraktischer Ebene- und hier liegt der entscheidende Prüfstein - sind die Wirkungen am vielfältigsten. In der Aus- und Weiterbildung von Lehrern haben die Fragestellungen und Befunde von TIMSS starken Widerhall gefunden. Prozesse und Inhalte des kumulativen fachlichen Lernens, der intelligente Umgang mit Aufgaben und die Verbindung von motivierenden und kognitiv aktivierenden Unterrichtsformen gehören zu den Themen, die Aufinerksamkeit gefunden haben. In fast allen Ländern und länderübergreifend sind Initiativen begonnen worden, um die Rolle der Einzelschule als Ausgangspunkt und Zentrum der Qualitätsentwicklung zu stärken und die Leistungen der die Schule unterstützenden Einrichtungen zu verbessern. Mit dieser Stoßrichtung gehen die Maßnahmen, auch wenn sie zunächst dem mathematisch-naturwissenschaftlichen Unterricht gewidmet sind, weit über diesen hinaus. In der Konzentration auf den Unterricht in der einzelnen Schule versprechen die Initiativen auch Nachhaltigkeit, da ein großes Entwicklungspotential unserer Schulen in der fachlichen Qualifikation der Lehrkörper und der schulinternen Zusammenarbeit liegt" (Baumert, Bos & Lehmann, 2000a, Bd. 1, S. 17 f.).

22

Franz E. Weinert

Die insgesamt positive Bewertung der Reaktionen aufTIMSS durch die Projektleiter entspricht dem Tenor des größten Teils der zahlreichen wissenschaftlichen, bildungspolitischen und schulpraktischen Publikationen, die in den letzten drei Jahren erschienen sind. Die allgemeine Wirksamkeit und die spezifischen Wirkungsweise der TIMSStudie wurden zusätzlich durch einige längerfristige internationale und nationale Entwicklungen in der Schulpädagogik begünstigt: (a) Die erziehungswissenschaftliche Forschung beschäftigt sich immer intensiver mit den Wirkungen der Schule auf die Entwicklung der Schüler und mit der Wirksamkeit bestimmter schulischer Faktoren auf das Erreichen unterschiedlicher Bildungsund Lernziele. Dabei hat sich das theoretische wie praktische Interesse zunehmend von der Ebene des Schulsystems und der Schulorganisation auf die Ebene der einzelnen Schule und des Unterrichts verlagert. Fachliche Leistungen, fächerübergreifende Kompetenzen, gelegentlich auch Merkmale der motivationalen, personalen, sozialen und moralischen Entwicklung dienen in den Studien zur Wirksamkeit von Schulen als häufig verwendete "Erfolgskriterien" (Creemers, im Druck; Fraser et al., 1987; Helmke & Weinert, 1997a; Scheerens, im Druck; Reynolds et al., 1994). Versucht man die kaum überschaubare Fülle relevanter Ergebnisse dieses Forschungsansatzes zusammenzufassen, so erscheint es zweckmäßig, zwischen wirkungsnahen, proximalen Einflussfaktoren (Merkmale der einzelnen Schüler; Zusammensetzung von Schulklassen; Quantität und Qualität von Lerngelegenheiten; unmittelbare Kontexte des Lernens in der Klasse und in der Schule etc.) und wirkungsfemen, distalen Einflussfaktoren (Schulsystem; außerschulische Bedingungen etc.) zu unterscheiden. Zu allen diesen Faktoren verfügen wir zur Zeit über sehr viele Einzelbefunde, doch mangelt es noch immer an wissenschaftlichen Erkenntnissen über das Zusammenspiel verschiedener Faktoren, über kumulative Effekte sowie über die begrenzten Möglichkeiten der Substitution oder Kompensation defizitärer Einflussvariablen. (b) In engem Zusammenhang mit der schulischen Wirkungs- und Wirksamkeitsforschung steht die Frage nach der pädagogischen Zurechenbarkeit und damit nach der Verantwortlichkeit für Erfolge und Misserfolge, für Defizite und Vorzüge, für Stärken und Schwächen in den Leistungen von Schulen und Schülern (vgl. Leithwood, Edge & Jantzi, 1999). Da Erfolge bekanntlich viele Väter haben, der Misserfolg aber in der Regel vaterlos ist, weil auch die Zuschreibung von Verantwortlichkeit bei unbefriedigenden Lernergebnissen der Schüler schnell zu wechselseitigen Schuldzuweisungen und vielfältigen Rechtfertigungen oder Immunisierungsreaktionen führt, wird dieser Forschungsansatz neuerdings in eine konstruktive Verbindung mit Fragen der qualitativen Schulentwicklung gebracht (Creemers, im Druck). (c) Schulentwicklung und Schulqualität, Qualitätsmanagement, Qualitätssicherung und Qualitätsentwicklung von Schulen stellen gegenwärtig große bildungspolitische und pädagogische Herausforderungen dar, die immer noch viele ungelöste Aufgaben und Probleme enthalten. Nichtsdestoweniger kann man den Eindruck gewinnen, dass diese Begriffe momentan in Gefahr sind, zu allgemein benutzten Schlagwörtern zu werden, weil jeder damit meint, was er ftir richtig und wichtig hält. Trotz-

Leistungsmessung - umstrittene Selbstverständlichkeit

23

dem: Ein gewisser Konsensus über Minimalstandards zur Charakterisierung "guter Schulen" hat sich inzwischen herausgebildet. Dazu gehören: • eine differenzierte Schulkultur im Sinne gemeinsamer Ziele, W ertorientierungen und sozialer Verhaltensregeln; • ein schulspezifisches Profil von curricularen und extracurricularen Ansprüchen und Aktivitäten; • ein positives soziales Klima und ein Verantwortungsstil, der dem Schulleiter, dem Lehrerkollegium, den einzelnen Lehrern, den Eltern und den Schülern bestimmte soziale Rollen mit individuellen Spielräumen zuweist; • eine ausreichende schulische Lerneffektivität und deren regelmäßige interne und gegebenenfalls externe Evaluation; • eine prospektive Schulentwicklungsplanung, welche die pädagogischen Qualitätsansprüche definiert und zu Verbesserungen auf der Ebene der Schule, der Schulklassen, des Unterrichts und zusätzlicher Lerngelegenheiten in Schulen fiihrt (Fend, 1988, 1995, 1998) 1• (d) In einer großen Anzahl empirischer Untersuchungen wurden in den letzten Jahrzehnten Zusammenhänge zwischen Merkmalen des Schulsystems, der Schule, des Unterrichts und der Schüler auf der einen Seite und Unterschieden bzw. Veränderungen in den fachlichen Leistungen, in fachübergreifenden Kompetenzen (z. B. Problemlösen, kritisches Denken, Teamfähigkeit, kooperatives und selbständiges Lernen, kompetente Mediennutzung) und einigen nicht-kognitiven Entwicklungsmerkmalen auf der anderen Seite analysiert. Die dabei gewonnenen wissenschaftlichen Erkenntnisse begünstigten eine sachgerechte Interpretation und Nutzung der TIMS-Studie wie auch anderer vergleichender Leistungsmessungen. Im Einzelnen: • Schulorganisatorische Bedingungen sind im Vergleich zu unterrichtlichen Faktoren weniger wichtig als lange Zeit geglaubt wurde. Solche Rahmenbedingungen wirken sich in erster Linie erschwerend oder erleichternd auf den Unterricht und das Lernen aus. • Der Qualifikation von Lehrern kommt fiir die Qualität des Unterrichts und fiir die Entwicklung der Schüler größere Bedeutung zu als dies einige modernistische Strömungen wahrhaben wollen. Lehrer spielen nicht nur als Lehrende eine wichtige, oft unterschätzte Rolle, sondern auch als Moderatoren von Lerngruppen, als Tutoren einzelner Schüler, als Gestalter anregender Lernumwelten, als Verhaltensmodelle und als verantwortliche Garanten fiir die simultane Erreichung unterschiedlicher Bildungsziele durch möglichst viele Schüler. • Anspruchsvolle Lernziele, kognitiv herausfordernde Lernaufgaben und "objektive", aber faire Leistungsbeurteilungen mit Hilfe verschiedener Maßstäbe (indi1

ln diesem Zusammenhang wird gegenwärtig häufig der Begriff "Benchmark(ing)" verwendet. Von der ursprünglichen englischen Wortbedeutung her ist er nicht sinnvoll ins Deutsche zu übersetzen. Gemeint ist damit ein in der Wirtschaft, in der Politik, in der Verwaltung, aber eben auch im Bildungsbereich von den Betroffenen selbst festgelegter oder mit anderen vereinbarter Vergleichsstandard zur Bestimmung der zu erreichenden Bildungsziele.

24

Franz E. Weinert

viduale, kriteriale und soziale Bezugssysteme; vgl. Rheinberg i. d. Bd.) begünstigen die Lernfortschritte aller Schüler, wenn der Unterricht effektiv, adaptiv und variabel gestaltet wird. • Gelernt wird im Prinzip nur, was Inhalt des aktiven Lemens der Schüler ist. Das gilt auf wenigstens drei Ebenen: Erstens handelt es sich dabei um die festgelegten Curricula. Welche Fächer :fiir wie viele Jahre mit welcher Stundenzahl und welchen Lerninhalten in einer bestimmten Schulart vorgesehen sind, ist von großer Wichtigkeit für das durchschnittlich erreichbare Leistungsniveau. Die Substitution oder Kompensation fehlender schulischer Lerngelegenheiten durch außerschulische Lernmöglichkeiten hat sich als relativ begrenzt erwiesen. Lehrpläne sind aber nur das eine, die Repräsentation der dafiir relevanten Aufgaben im Unterricht ist das andere. Diese zweite Ebene ist deshalb so bedeutsam, weil im Unterricht entschieden wird, was, wieviel und wie anspruchsvoll gelernt wird. Schließlich ist drittens fiir den individuellen Lernerfolg maßgebend, wieviel Zeit der einzelne Schüler mit der aktiven Bearbeitung welcher Aufgaben verbringt (aktive Lernzeit, "time on task"). • Die meisten kognitiven Leistungsziele werden durch kumulatives, aufeinander aufbauendes und miteinander verbundenes Lernen erreicht. Im Verlauf dieser Lernprozesse verstärkt sich der Einfluss inhaltsspezifischer Vorkenntnisse auf die Verarbeitung neuer Informationen und die Nutzung des bereits Gelernten, während die Rolle der allgemeinen Intelligenz als Lerndeterminante abnimmt. Dabei erweist sich nicht nur' die Menge, sondern vor allem die Qualität des Vorwissens (hierarchische Organisation, Vernetztheit der Wissenskomponenten innerhalb eines Inhaltsbereiches und zwischen verschiedenen Domänen, die Verbindung zwischen Wissen und Können, der leichte Zugriff auf das verfiigbare Wissen und die flexiblen Nutzungsmöglichkeiten) als wichtig. • Alles, was Schüler wissen und können (sollen), muss - unabhängig vom allgemeinen Fähigkeitsniveau - gelernt werden. Die Qualität der Schule und die Effektivität des Unterrichts spielen fiir die Lern- und Leistungsfortschritte eine wichtige, fiir den häufigen Fall, dass keine geeigneten außerschulischen Lerngelegenheiten verfiigbar sind, sogar die entscheidende Rolle. Völlig anders verhält es sich allerdings bei der Veränderung, vor allem bei der Verringerung fachlicher Kompetenzunterschiede und intellektueller Fähigkeitsdifferenzen auf hohem Niveau. Da Schüler mit besseren Lernvoraussetzungen im Vergleich zu solchen mit schlechteren Lernvoraussetzungen von vergleichbaren Lerngelegenheiten im Durchschnitt mehr oder mindestens gleich viel profitieren, ist die Egalisierung von individuellen Unterschieden bei anspruchsvollen Leistungen nur in sehr begrenztem Maße möglich. Egalisierungsbemühungen der Schule müssen sich deshalb auf elementare Lernziele beschränken. Da:fiir sind Methoden des zielerreichenden Lehrensund Lernens geeignet (vgl. Kap. 5 i. d. Bd.). • Geht es um den Erwerb fachübergreifender Kompetenzen und Handlungsbereitschaften, so hängt viel davon ab, dass Schüler und Schulklassen (oft durch den Lehrer angeregt, angeleitet und/oder unterstützt) tatsächlich das tun, was sie lernen sollen. In vielen Fällen überlappen sich also die Ziele und Methoden des Lernens (z. B. beim Erwerb von Problemlösekompetenz, beim "Lernen Lernen",

Leistungsmessung - umstrittene Selbstverständlichkeit

25

bei der Entwicklung sozialer Kompetenz). Lerninhalte, Lernziele und Lernmethoden verschmelzen. Die damit verbundenen didaktischen Aufgaben werden häufig unterschätzt und die erzielbaren Lernfortschritte werden ebenso oft überschätzt. • Erziehungswissenschaftler und pädagogische Psychologen sind als Forscher in der Regel Spezialisten. Ihre wissenschaftlichen Überzeugungen können deshalb in der Praxis einseitig sein und damit den Voreingenommenheiten vieler Laien entsprechen. Das führt nicht selten dazu, dass in der einschlägigen Literatur bestimmte Bedingungs- und Wirkungsfaktoren des Unterrichts über- oder untergewichtet werden. "Entscheidend ist doch letztlich die Motivation", "Nur wer sich im Klassenzimmer wohl fiihlt, kann unverkrampft lernen" oder "Am Ende zählt ausschließlich die Leistung", sind finale (oft triviale), sehr extreme Überzeugungen, die den komplexen Bedingungs-Wirkungsgefügen des Unterrichts und des Lernens nicht gerecht werden. Neuere Längsschnittstudien (z. B. Weinert & Helmke, 1997) bestätigen nämlich ältere Ergebnisse, die zum Beispiel Fend (1988) so zusammenfasst: "Selbstverständlich schließen sich eine hohe Motivation, ein hohes Wohlbefinden und eine hohe Leistungsbereitschaft sowie ein hohes Niveau der Lernleistungen nicht aus. Im Gegenteil, wir konnten in der großen Leistungsstudie ... nachweisen, dass die positiven Zusammenhänge überwiegen, also jene, dass gleichzeitig eine hohe Motivation und ein hohes Wohlbefinden sowie ein hohes Leistungsniveau in der gleichen Schule kumulieren" (S. 545 f.). • Im Vergleich zu diesen einflussreichen Bedingungskonstellationen erfolgreichen Lernens haben sich inderneueren Forschung andere, bisher ebenso hoch bewertete Faktoren als nicht ganz so bedeutsam herausgestellt, obwohl ihre Wirksamkeit in einem Teil der Literatur bis heute überschätzt wird. Dazu gehören zum Beispiel die intrinsische Motivation (thematischer Gleichklang von Lernmotiv und Lerninhalt) im Vergleich zu extrinsischer Motivierung (z. B. Hoffnung auf Erfolg und Belohnung; Furcht vor Misserfolg und negativen Sanktionen); erkundende, erfindende und entdeckende Tätigkeiten im Verhältnis zu didaktisch vorstrukturierten und strukturierten Lernprozessen; verschiedene Formen der sozialen Organisation des Lernens. Die verfiigbaren Resultate von theoretisch fundierten und praktisch nutzbaren Ergebnissen der Schul-, Unterrichts- und Lernforschung haben zweifellos dazu beigetragen, dass die bildungspolitisch unbefriedigenden und pädagogisch enttäuschenden Befunde der deutschen TIMS-Studie in der Regel weder resignativ-ignorierend noch aggressivabwehrend, sondern kritisch-konstruktiv aufgenommen wurden. Eine Welle neuer, zum Teil methodisch modifizierter Leistungsmessungen, eine große Anzahl didaktischer Reform-Vorhaben (vor allem, aber nicht nur im mathematisch-naturwissenschaftlichen Bereich), interessante wissenschaftliche Untersuchungsprogramme zur Verbesserung von Unterrichts- und Lernprozessen, neue Anstrengungen zu einer Veränderung der Lehrerbildung, ungezählte Initiativen von Lehrerorganisationen, Schulbehörden, Schulen und Lehrern zur Verbesserung der pädagogischen Expertise von Pädagogen waren und sind zu registrieren, - alles in allem sehr positiv einzuschätzende Folgen von TIMSS.

26

Franz E. Weinert

Warum muss die pädagogische Wirksamkeit von Schulen wissenschaftlich überprüft werden? So pädagogisch ermutigend viele der Reaktionen aufTIMSS waren und sind, so sorgfältig muss aber auch die Kritik am vergleichenden Untersuchungsansatz der Leistungsmessung geprüft werden. Zu klären ist vor allem, ob überhaupt eine Notwendigkeit besteht, solche Studien in Schulen durchzufiihren. Diese Frage lässt sich nur beantworten, wenn es eine minimale gesellschaftliche Übereinstimmung oder eine deutliche politische Mehrheitsentscheidung darüber gibt, welcher Stellenwert dem Leistungsprinzip im Allgemeinen und welche Rolle den Schulleistungen innerhalb des Kanons von Bildungszielen im Besonderen zukommen soll. Bei einigen aktuellen Diskussionen über die Leitungsmessung drängt sich nämlich der Eindruck auf, dass es den Kontrahenten weniger um die speziellen Evaluationsverfahren als um die Bedeutung der zu messenden Leistung geht. Geht man davon aus- und die öffentliche Diskussion auf die TIMSS-Ergebnisse enthält dafiir signifikante Hinweise - dass Leistung zwar nicht das einzige, aber ein unverzichtbar wichtiges Bildungsziel der Schule ist, dann braucht man über die Notwendigkeit ihrer methodisch soliden und pädagogisch begründeten Erfassung nicht mehr zu streiten. Auch wenn bei der Frage nach den Zusammenhängen zwischen dem durchschnittlichen Bildungsniveau eines Landes und seiner ökonomischen Prosperität im internationalen Vergleich noch große Empirie- und Theoriedefizite bestehen, so sprechen doch alle verlUgbaren Daten fiir einen starken Einfluss verschiedener Bildungsindikatoren auf die wirtschaftliche Entwicklung, - und zwar sowohl generell als auch segmental. Insofern spielt der Faktor ''Humankapital" in denneueren makroökonomischen wie mikroökonomischen Modellen eine wichtige Rolle (vgl. z. B. Gundlach, 2000; Weiß, 2000). Wurden in früheren Studien in erster Linie Investitionen in das nationale Bildungssystem berücksichtigt (z. B. Bildungsbudget, Größe von Schulklassen, Lehrerausstattung), so interessiert man sich jetzt mehr und mehr auch fiir die effektive Nutzung dieser Ressourcen und den damit verbundenen Bildungserträgen (häufig reduziert auf die Qualität von Schulleistungen). Internationale Vergleichsuntersuchungen sind dafiir wichtige Datenquellen. Selbstverständlich sind die Zusammenhänge zwischen Merkmalen des Bildungssystems und der wirtschaftlichen Prosperität nicht einfach und direkt, sondern werden durch wichtige zusätzliche Faktorenbündel beeinflusst (z. B. Kapitalausstattung, typische Farmen der Unternehmensverfassungen, Arbeitsrecht, internationale Verflechtungen, Konjunkturzyklen). Es erscheint deshalb wissenschaftlich völlig verfehlt, wenn zum Zwecke einer Bagatellisierurtg der TIMSS-Resultate daraufverwiesen wird, dass Japan und Südkorea trotz des hervorragenden Abschneidens ihrer Schüler bei den Mathematiktests von einer schweren Wirtschaftskrise heimgesucht wurden. Die empirischen Zusammenhangsmuster zwischen Bildung und Wirtschaft sind kompliziert; die verfiigbaren bildungsökonomischen Theorien entsprechen dieser Komplexität; die Bedeutung der Schule und der von ihr erbrachten Leistungen sind wissenschaftlich unstrittig.

Leistungsmessung - umstrittene Selbstverständlichkeit

27

Ähnliches gilt fiir den durchschnittlichen Einfluss der Schulleistungen auf die berufliche Entwicklung und das zu erwartende Lebenseinkommen auf der Individualebene. Auch auf dieser Analyseebene bedarf es allerdings komplexer Modelle zur Beschreibung der Realität. Die vorhandenen Resultate zeigen- zumindest in den industrialisierten Ländern - die große Bedeutung der Schulbildung ftir die berufliche Entwicklung, wobei es im Einzelfall allerdings zahlreiche Faktoren (z. B. sozialer Status des Elternhauses, Möglichkeiten eines schnellen Expertiseerwerbs im Beruf, Rolle bildungsunabhängiger persönlicher Merkmale fiir eine berufliche Karriere) zur Kompensation mangelnder Bildungsabschlüsse gibt (vgl. z. B. Weinert & Hany, 2000). Je wichtiger Schulleistungen als Bildungsindikatoren fiir die Gesellschaft wie für das Individuum werden, umso weniger können sie als eine Art "Privatgeschenk" von Schulen gelten, umso wichtiger wird ihr Informationswert fiir Politiker und Schuladministratoren, für die Lehrerschaft, die Lehrer, die Eltern und fiir alle, die öffentliche Verantwortung tragen oder übernehmen wollen. Ihren Informationswert erhalten Schulleistungen natürlich durch Maßstäbe, die Vergleiche erlauben. Leistungsmessungen in Schulen müssen diese Voraussetzung erfüllen. Um innerhalb von internationalen, nationalen und landesweiten Studien zu solchen objektiven Maßstäben und den dafiir geeigneten Messverfahren zu kommen, ist viel wissenschaftliche Kompetenz und harte Arbeit erforderlich. Was aber soll eigentlich gemessen werden? Fachliche oder fachübergreifende Leistungen, Wissen oder Können, kognitive Kompetenzen oder Handlungskompetenzen? An der Beantwortung dieser Frage hat sich in jüngster Zeit viel Streit entzündet. Dabei geht es vor allem um die Behauptung, dass fachlichen Leistungen in Zukunft eine immer geringere, fachübergreifenden Kompetenzen aber eine ständig wachsende Bedeutung zukommen wird. Diese These ignoriert die gut belegte Tatsache, dass Fächer nicht beliebige Wissenskonglomerate darstellen, sondern sachlogische Systeme, die Schüler aktiv und konstruktiv erwerben müssen, wollen sie schwierige inhaltliche Phänomene und Probleme tiefgründig verstehen und soll zukünftiges Lernen durch Transferprozesse erleichtert werden. Das gilt auch fiir die Bearbeitung von Aufgaben, die zwar in nicht-fachlichen Kontexten eingebettet, aber ihrem Wesen nach fachlicher Natur sind. Um ein mathematisches Problem, das in einem sozio-ökonornischen Kontext situiert ist, erfolgreich zu lösen, braucht man das notwendige mathematische Wissen und zugleich die fachübergreifenden Kompetenzen, um die Aufgabe aus dem übergeordneten sachlichen Zusammenhang überhaupt herauslösen und das Ergebnis sinnvoll ftir die Lösung des nicht-mathematischen Problems nutzen zu können. Daneben gibt es natürlich auch Probleme, die inhaltsunspezifisch und im engeren Sinne facheruhergreifend sind. Ihre Bewältigung hängt in erster Linie von der Verftigbarkeit allgemeiner Problemelösestrategien ab. Die OECD hat in diesem Zusammenhang mehrfach vorgeschlagen, den vieldeutigen Leistungsbegriff generell durch das Konzept der Kompetenz zu ersetzen (vgl. Rychen & Salganik, im Druck). Dabei versteht man unter Kompetenzen die bei Individuen verfügbaren oder durch sie erlernbaren kognitiven Fähigkeiten und Fertigkeiten, um bestimmte Probleme zu lösen, sowie die damit verbundenen motivationalen, volitionalen und sozialen Bereitschaften und Fähigkeiten um

28 die Problemlösungen in variablen Situationen erfolgreich und verantwortungsvoll nutzen zu können (Weinert, im Druck). Als Erträge des schulischen Unterrichts kann man zwischen folgenden Kompetenzen unterscheiden: •

fachliche Kompetenzen (z. B. physikalischer, fremdsprachlicher, musikalischer Art),



fachübergreifende Kompetenzen (z. B. Problemlösen, Teamfähigkeit),



Handlungskompetenzen, die neben kognitiven auch soziale, motivationale, volitionale und oft moralische Kompetenzen enthalten und es erlauben, erworbene Kenntnisse und Fertigkeiten in sehr unterschiedlichen Lebenssituationen erfolgreich, aber auch verantwortlich zu nutzen.

Es ist unbestritten, dass diese Klassen von Kompetenzen fiir ein gutes und erfolgreiches Leben innerhalb wie außerhalb der Schule notwendig sind. Prioritätssetzungen zwischen diesen Kompetenzen oder gar die Ablehnung einzelner Kompetenzbereiche (z. B. der fachlichen Kenntnisse) haben sich im Lichte des kognitionspsychologischen Erkenntnisstandes als höchst problematisch erwiesen. Insofern scheinen sich gegenwärtig alle in einer Art Minimalkonsens darüber einig zu sein, dass Schulen weder eine Generation von Fachidioten noch eine Generation geschwätziger Dilletanten ausbilden sollten. Was das genau heißt, bleibt umstritten. Die Notwendigkeiten und Aufgaben der vergleichenden Messung von Schulleistungen bleiben von diesem grundsätzlichen Streit allerdings unberührt. Es geht um die Entwicklung und ständige Verbesserung von objektiven Maßstäben und fairen Messinstrumenten zur Erfassung wichtiger fachlicher, fachübergreifender und handlungsrelevanter Kompetenzen. Dabei ist die Entwicklung fachspezifischer Tests auf curricularer Grundlage sehr viel weiter gediehen als der Entwicklungsstand von fachübergreifenden und handlungsrelevanten Kompetenzen. Schon PISA wird diese missliche Situation zumindest leicht verändern. Es wird allerdings national wie international noch großer Anstrengungen bedürfen, um die Messstandards unterschiedlicher Klassen von Kompetenzen nachhaltig zu verbessern. Die Differenzen im Entwicklungsstand verschiedener Kompetenzmessungen können allerdings kein Grund sein, um den Aussagewert der verfügbaren Messinstrumente fiir fachliche Leistungen zu negieren. Diese bieten schonjetzt solide Voraussetzungen fiir die Fundierung bildungspolitischer und pädagogischer Entscheidungen. Es muss stets die beabsichtigte Nutzung der Daten sein, d. h. welche Ziele mit der Leistungsmessung verfolgt werden, die darüber entscheidet, welche Verfahren eingesetzt werden müssen. Dabei sind verschiedene Ebenen des Schulsystems zu unterscheiden:

(a) Bildungspolitische Entscheidungen auf der Ebene des Staates oder eines Bundeslandes: Internationale (z. B. TIMSS und PISA), nationale (z. B. ebenfalls PISA) Vergleichsuntersuchungen schaffen Orientierungswissen, das viele praktisch relevante Informationen enthält, wichtige Vergleiche erlaubt und zur Bildung von Pla-

Leistungsmessung - umstrittene Selbstverständlichkeit

29

nungshypothesen beiträgt, in der Regel aber nicht geeignet ist, bildungspolitische Entscheidungen- seien sie schulorganisatorischer, curricularer oder schullautbahntypischer Art - direkt zu fundieren oder zu steuern (Trier, 1995). Dazu bedarf es spezifisch geplanter Untersuchungen, häufig in Form von evaluierten Modellversuchen (denen bisher allerdings oft die erforderliche Strenge der Untersuchungsplanung, die Qualität der Messverfahren und die notwendigen Vergleichsstichproben fehlen). Beobachtet man die Entwicklung in Ländern, die im Vergleich zu Deutschland über eine längere Tradition bei der Messung von Schulleistungen verfügen (z. B. England, Australien, USA) und berücksichtigt man die Reaktionen auf TIMSS in unserem Land, so darf man erwarten, dass sich die Begründungen bildungspolitischer Entscheidungen gegenüber der Öffentlichkeit künftig stark verändern werden. Populäre Ideen, erhoffte Bildungswirkungen und suggestive Behauptungen werden in künftigen Diskussionen über Veränderungen von Schulstrukturen nicht mehr reichen. Man wird zumindest eine Expertise über den empirischen Forschungsstand und den internationalen Erfahrungsbestand sowie Aussagen über die geplante Begleitforschung verlangen. Dafür muss das inzwischen erreichte methodische Niveau der vergleichenden Leistungsmessung obligatorisch sein. Darüber hinaus wird sich der interessierten Öffentlichkeit wie der Bildungspolitik mehr als bisher erschließen, dass es keine Patentrezepte zur Verbesserung des Schulwesens gibt, dass Schulen gewachsene Institutionen sind, die man von außen nicht beliebig beeinflussen kann, dass die meisten schulorganisatorischen Entscheidungen erwünschte Wirkungen und unerwünschte Nebenwirkungen haben, und dass Reformen nur dann die beabsichtigten Effekte erzielen, wenn Schulleiter und Lehrer dafür weitergebildet sowie Eltern und Schüler darauf eingestellt werden.

(b) Landesweite oder regionale Orientierungsstudien: Ziel dieser Art von Forschung ist es, allen am Bildungsgeschehen Beteiligten, den davon Betroffenen oder den daran Interessierten möglichst repräsentative (im Extremfall: vollständige) Informationen über den Entwicklungsstand bestimmter Kompetenzen in Schulen oder Schulsegmenten zu geben. Für die Nutzung solcher Daten ist es günstig, wenn die Leistungserhebungen nicht nur einmal (Ein-Punkt-Messung), sondern zwei- oder mehrfach (Mehr-Punkt-Messungen) in Form von Längsschnittuntersuchungen durchgeführt werden und/oder wenn möglichst viele leistungsrelevante Variablen der Schulen, der Schüler, der Schulklassen, des Unterrichts und der Unterrichtskontexte zusätzlich erhoben werden. Ein typisches Beispiel für diese Untersuchungsform ist MARKUS, eine flächendeckende Studie in den Schulen von RheinlandPfalz (Ministerium für Bildung, Wissenschaft und Weiterbildung des Landes Rheinland-Pfalz, 2000)2 • (c) Schulische und unterrichtliche Qualitätsentwicklung: Selbstverständlich kann in einer pädagogisch angemessenen Rückmeldung von schul- und klassenrelevanten Ergebnissen aus landesweiten Leistungsmessungen viel Potential zur Verbesserung der Schul- und Unterrichtsqualität stecken. Die Mehrzahl der Schulklassen in

2

Die Erläuterung von Abkürzungen entnehmen Sie bitte den Seiten 13 bis 16.

30 Deutschland verfügt bei Kompetenz- oder Leistungsanalysen kaum über zuverlässige Vergleichsdaten zur Beurteilung der eigenen Arbeit. Das ist ein notorischer Mangel des Systems, dessen Überwindung wettbewerbsfreie Vergleichsstudien auf Klassen- und Schulebene erfordert. Ziel solcher Untersuchungen ist nicht in erster Linie die Registrierung von Leistungen und Leistungsunterschieden, sondern die Beförderung des Unterrichts und des Lernens durch regelmäßige Überprüfung der Lernfortschritte (Veränderungsmessung) bei gleichzeitiger gezielter Veränderung der Lernbedingungen. Es geht also dabei nicht um spektakuläre Studien im grellen Licht der öffentlichen Aufinerksamkeit, sondern um kleine, möglichst häufig durchgeführte empirische Arbeiten auflokaler schulischer Ebene. In neuen Testmodellen werden dafür bestimmte traditionelle Gütekriterien der Leistungsmessung verändert, um der didaktischen Funktion solcher Studien besser gerecht werden zu können (Dochy, im Druck; Dochy & McDowell, 1997). Testverfahren für die Hand des Lehrers, diagnostische Ausbildung aller Pädagogen, hinreichend viele kleine Studienzentren in Verbindung mit Stätten der Lehrerbildung und der lokalen Lehrerweiterbildung sind mittelfristig dafür erforderlich. Um einer einseitigen Legendenbildung von vornherein vorzubeugen: Jede dieser Formen vergleichender schulischer Leistungsmessung ist notwendig und erfüllt spezifische Zielsetzungen. Deutschland braucht internationale Vergleichsstudien ebenso dringend wie nationale und regionale Untersuchungen über Indikatoren der Realisierung von Bildungszielen in den verschiedensten Schulfächern mit ihren fachlichen und fachübergreifenden Kompetenzsystemen. Dazu kommt der dringende Bedarf an kleiner, aber sorgfältiger diagnostischer Forschung für Reformen des Unterrichts und zur Verbesserung des Lernens.

Anforderungen an schulische Leistungsmessungen Kein Zweifel: Leistungsmessungen in Schulen werden künftig eine größere Rolle als bisher spielen. Ihren Ergebnissen kommt für die Fundierung und Überprüfung bildungspolitischer Entscheidungen wie für die Qualitätsentwicklung der einzelnen Schulen und des Unterrichts eine wachsende Bedeutung zu. Das gilt allerdings nur unter der Voraussetzung, dass die Studien wissenschaftlich und praktisch halten, was sie versprechen. Methodisch unzuverlässige, gegen variable Kontextbedingungen unsensible und die eigentlichen pädagogischen Fragestellungen verfehlende Untersuchungen können für die Entwicklung des Schulwesens eher schädlich sein und bei den interessierten Politikern und betroffenen Lehrern große Glaubwürdigkeitseinbußen in die Wissenschaft als einer neutralen und nützlichen Instanz verursachen. Insofern bedarf es stets eines erheblichen, je nach Fragestellung unterschiedlich großen Aufwandes, um zielspezifische, maßgeschneiderte und qualitativ anspruchsvolle Untersuchungsprogramme sowie die dafür erforderlichen Messverfahren zu erstellen. Dafür

Leistungsmessung - umstrittene Selbstverständlichkeit

31

ist sowohl testmethodische, statistische und untersuchungstechnische Kompetenz erforderlich als auch schulorganisatorische, pädagogische und didaktische Expertise. Teamarbeit ist also geboten. In vielen Kapiteln des vorliegenden Buches wird auf die Gütestandards der schulischen Leistungsmessung ausführlich eingegangen werden. Das von J. R. Sanders herausgegebene und in deutscher Übersetzung vorliegende "Handbuch der Evaluationsstandards" (2000) bietet einen guten Überblick über die verschiedenen Nützlichkeits-, Durchführbarkeits-, Korrektheits-und Genauigkeitsstandards, die bei vergleichenden Leistungsmessungen in Schulen zu beachten sind. An dieser Stelle genügt es deshalb, noch einmal daran zu erinnern und zu unterstreichen, dass einzelne gute Untersuchungen mit ihren öffentlichen Signalwirkungen und ihren zwar ausschnitthaften, aber wichtigen Informationen über den Stand des Bildungswesens schon jetzt für weiterführende bildungspolitische und pädagogische Überlegungen von großem Nutzen sind, dass diese Studien aber erst als Teil einer mittelfristig sich entwickelnden schulischen Evaluationskultur ihr volles Gewicht erhalten.

Powered by TCPDF (www.tcpdf.org)

KAPITEL2

Kontroversen um die Schulleistungsmessung in Deutschland Eine fiktive Diskussion über Positionen und Perspektiven in verteilten Rollen

Hans Brügelmann

Moderatorln: Kürzlich habe ich über die Medien folgenden Vorschlag der Krankenkassen mitbekommen: Ärzte sollten - ähnlich wie im alten China - danach bezahlt werden, wie gut und wie rasch sie Krankheiten heilen. Nur so könne die Qualität des Gesundheitswesens verbessert und der finanzielle Aufwand erfolgversprechend konzentriert werden. Dieses Beispiel wirft die Frage auf, wie eigentlich der Lehrerfolg des Schulsystems und einzelner Lehrerinnen erfasst werden kann und welche Rolle dabei landesweite Testprogramme wie LAU in Hamburg, aber auch internationale Leistungsvergleiche wie die IEA-Lesestudie, wie TIMSS, PISA und PIRLS bzw. IGLU spielen können.

Arbeitgeberln: Genau, als Steuerzahler habe ich ein Recht darauf zu wissen, was mit meinem Geld passiert und ob die Schulen ihren gesellschaftlichen Auftrag erfüllen. Lehrerin: Ich finde diese Testerei problematisch. Die Leistungen, vor allem die fachlichen Leistungen der Schülerlnnen, machen doch nur einen Teil des Auftrags der Schule aus? "Qualität" erweist sich nicht nur in kurzfristigen Ergebnissen, sondern auch in den langfristigen Wirkungen des persönlichen Umgangs der Lehrerinnen mit den Schülerinnen und des inhaltlichen Anspruchs von Aufgaben und Aktivitäten und im methodischen Niveau ihrer Bearbeitung. Prozesse haben einen Eigenwert. Es ist wichtig, wie junge Menschen in unserer Gesellschaft aufwachsen sollen, und es geht damit um langfristige Wirkungen, die sich messtechnisch kaum mehr erfassen lassen. Auch den Wert der Demokratie würde doch niemand nur an ökonomischen Indikatoren festmachen wollen, oder? Eltern: Ich verstehe gar nicht, warum in den Schulen so ein Wirbel um Tests gemacht wird. Leistungen werden doch überall bewertet. Wenn ich ein neues Auto oder auch nur einen neuen Toaster kaufen will, besorge ich mir einen aktuellen Warentest Und auch

34

Hans Brügelmann

Personen bewertet jedeR von uns tagtäglich, z. B. wenn wir den Friseur wechseln, weil wir unzufrieden sind, oder wenn wir Bekannten unsere Hausärztin empfehlen. Warum tun sich Pädagoglnnen so schwer mit der Forderung nach Leistungsmessung?

Lehrerin: Tun wir doch gar nicht! Leistungsmessung gehört auch zu unserem Alltag. Wir Lehrerinnen erfassen und bewerten Leistungen von Schü1erinnen, und unsere Vorgesetzten entscheiden nach einer Unterrichtsbeurteilung über die Verbeamtung junger Lehrerinnen und über die Besetzung von Funktionsstellen. Arbeitgeberln: Aber diese Vorgänge müssen transparenter werden! Warum reagieren Sie so empfindlich auf den Einsatz von standardisierten Instrumenten? Sie werden in Zukunft nicht mehr damit rechnen können, dass öffentliche Mittel einfach so fließen, ohne dass sich der Aufwand durch einen entsprechenden Ertrag rechtfertigen lässt. Die knappen Mittel müssen sparsam und effektiv eingesetzt werden- wie in der Industrie und wie in anderen Bereichen der öffentlichen Schulaufsicht auch. Schulen können sich zukünftig nicht mehr diffus auf "guten Unterricht" berufen, wenn ihre Schülerinnen nicht anständig lesen, schreiben und rechnen lernen. Schulaufsicht: Sie sehen das zu technisch. Die Bewertung von Lern- und Lehrerfolgen ist aber kein Warentest, und Unterricht ist auch kein Markt, auf dem Kunden zwischen Dienstleistungen wählen- wie bei Friseur und Ärztin. Schule ist auch kein Betrieb nur zur "Produktion" von Qualifikationen, die auf dem Arbeitsmarkt verwertbar sind, sondern ein Ort der Bildung. Die Qualität eines Theaters oder eines Krankenhauses können Sie ja auch nicht allein nach dem Verhältnis von finanziellem Input und Output bewerten. Bildung ist mehr als eine Addition von Kenntnissen und Fertigkeiten, die man isoliert abprüfen könnte. Tests erfassen doch nur ein Oberflächenverhalten und nicht, was eine Person denkt. Lehrerin: Genau. Denken Sie nur an die Evaluation der Programme kompensatorischer Vorschulerziehung in den 70er Jahren. Damals kamen unmittelbar nach Programmende von "Head Start" und anderen Projekten die großen Erfolgsmeldungen aus den Begleitstudien: höherer IQ, bessere Sprachfähigkeit und bessere Leistungen in den anderen trainierten Bereichen. Wenige Jahre später hieß es, die Überlegenheit der Versuchsgruppen gehe schon während der Grundschulzeit verloren, der Aufwand lohne nicht. Wieder einige Jahre später wurden sog. "sleeper"-Effekte festgestellt, d. h. diejenigen, die als Kinder an den Programmen teilgenommen hatten, erreichten bessere Schulabschlüsse, waren im Beruf erfolgreicher und hatten weniger Probleme im privaten und sozialen Umfeld. Meine Sorge: Kurzfristige Leistungsmessungen erfassen wie in einer Momentaufnahme nur einen kleinen Ausschnitt der Wirkungen, der sich ohne Kenntnis der Erfahrungen im Unterricht nicht sinnvoll interpretieren, wohl aber gut als Munition im politischen Tagesgeschäft verwenden lässt.

Bildungsforscherln: Ihre Skepsis gegenüber Tests als Instrument schulischer Leistungsmessung hat eine lange Geschichte. Seit jeher wehrt sich die Schule gegen Urteile von außen und verweist auf ihre ständigen eigenen Leistungsüberprüfungen. Dabei

Kontroversen um die Schulleistungsmessung

35

hätten gerade Lehrerinnen allen Grund, selbstkritisch gegenüber ihrer eigenen Urteilsfähigkeit zu sein. In den 60er und 70er Jahren wurden z. B. reihenweise Untersuchungen zur Notengebung in Klassenarbeiten publiziert. Dabei kam heraus: •

Verschiedene Lehrerinnen beurteilen dieselbe Arbeit sehr unterschiedlich, und zwar nicht nur Aufsätze, sondern auch Rechenarbeiten und Diktate.



Sogar dieselben Lehrerinnen beurteilen dieselbe Arbeit zu verschiedenen Terminen unterschiedlich.



Und: Urteile über (gleiche) Schülerleistungen hängen mit sozialen Faktoren wie Status der Eltern und persönlicher Beliebtheit der Schülerinnen zusammen.

Wenn man bedenkt, was alles von Noten abhängt, muss Leistungsmessung stärker objektiviert werden.

Lehrerin: Theoretisch klingt das plausibel, aber auch standardisierte Tests haben ihre Schwächen: Dieselbe Leistung kann Ergebnis angelernten Wissens oder selbstständigen Denkens sein. Und politisch ist es naiv zu glauben, in der Öffentlichkeit würden Daten aus Leistungsstudien so differenziert wahrgenommen, wie die Befunde es erfordern. Schulaufsicht: Vor allem: Auch quantitative Daten sprechen nicht für sich selbst. Sie müssen interpretiert werden. Man müsste die Ergebnisse gleich von verschiedenen Positionen aus kommentieren, um eine einseitige Verwertung zu erschweren, wie wir siez. B. bei TIMSS erlebt haben. So einfach ist das nicht mit der "Objektivität". Eltern: Die ist aber für uns Eltern ganz wichtig, um die Schullaufbahn unserer Kinder verlässlich planen, und auch, um die Arbeit ihrer Lehrerinnen einschätzen zu können. Insofern interessieren mich ganz konkret die Klagen der Betriebe über unzureichende, ja sinkende Leistungen der Schule. Was ist dran am sog. "Leistungsverfall"? Arbeitgeberln: Wir stützen uns dabei auf Ergebnisse von Tests bei den neu eingestellten Lehrlingen. Gewerkschaften, Erziehungswissenschaftlerinnen, aber auch die jeweils betroffenen Regierungsparteien stellen unsere Klagen immer gleich in Frage. Pädagogik und die Bildungspolitik verstehen sich wohl als unfehlbar. Aber ohne Bereitschaft, sich einer Außenkritik zu stellen, sind Fortschritte nicht denkbar. Bildungsforscherln: Das sehe ich auch so. Andererseits leiden die genannten Untersuchungen unter einer Reihe von Mängeln: •

Inhaltlich erfassen die Tests nur kleine Ausschnitte schulischer Ziele (meist nur die Rechtschreibung, und die nur im Diktat, und die Grundrechenarten).



Methodisch sind die Aufgaben oft problematisch (z. B. nicht selten exotische Wörter oder das alltagsferne und irritierende Angebot von mehreren falschen Schreibungen, unter denen die richtige auszuwählen ist).



Für Verallgemeinerungen sind die Stichproben nicht repräsentativ.

36 •

Für historische Vergleiche fehlen zudem vergleichbare Bezugsgruppen aus früheren Zeiten.

Lehrerin: Und Zeitungsberichte wie "Leistung zählt nicht mehr" oder gar "Neue MaxPlanck-Studie widerlegt die Reformpädagogik" haben die Aussagekraft der Daten oft weit überzogen, ihre methodischen Grenzen nicht beachtet und zum Teil die Grundsätze einer fairen Interpretation empirischer Daten verletzt. Schulaufsicht: Das ist aber doch Vergangenheit. Mit TIMSS, LAU usw. sind forschungsmethodisch versierte Institute in das Geschäft eingestiegen. Meine Sorge ist eher die Eigendynamik, die solche Testprogramme entfalten. Ob die Forscherinnen der Politik nicht doch zu viel versprechen? Um auf das Ärzte-Beispiel zurückzukommen: Wer kann eigentlich sagen, wann ein Patient "gesund" ist? Analog ist unser Problem: Kann man Bildung (und nicht nur Kenntnisse und Fertigkeiten) verlässlich messen? Und dann auch noch belegen, wo die Gründe für unterschiedliche Lernerfolge liegen? Arbeitgeberln: Wir haben doch dasselbe Problem bei der Beurteilung unserer Mitarbeiterinnen in den Betrieben. Warum wollen Sie sich vor dieser Anforderung drücken? Die zentrale Frage ist doch: Ist unser Bildungssystem international konkurrenzfähig? Und eine zweite: Investieren wir in den Bildungshaushalten an den richtigen Stellen? Ein Kollege von Ihnen hat es mal treffend mit dem schönen Satz gesagt, notwendig sei eine Haltung, "die die pädagogische Version der protestantischen Rechtfertigungslehre zu überwinden trachtet, wonach es für die Erlösung allein auf den Glauben ankommt, während die Werke keine Bedeutung haben." (Lange in VBE, 2000, s. 48) Lehrerin: Das klingt so einfach. Als ob man nur ein Metermaß oder ein Thermometer nehmen müsste und dann daran den Zustand des Bildungswesens ablesen könnte. Aber wir haben doch schon oft die Erfahrung gemacht, dass wissenschaftliche Untersuchungen nicht zu einem klaren Ergebnis führen. Ich erinnere nur an den Methodenstreit in der Lesedidaktik, der in den 60er Jahren in einem Patt endete. Oder an die Versuche mit Gesamtschulen in den 70er Jahren, die von Verfechtern und von Gegnern bis heute unterschiedlich ausgeschlachtet werden. In den letzten Jahren ist die Integration behinderter Schülerinnen umstritten, weil die Untersuchungen keine eindeutigen Ergebnisse erbringen. Mit der "Präzision" und "Objektivität" scheint es da nicht so weit her zu sein. Ich fürchte, mit Tests erwischt man nur ein paar kleine Zipfel von dem, worum es im Unterricht wirklich geht. Schlimmer noch: In den Händen der Messtheoretiker wird aus pädagogischen Konzepten wie "Selbstständigkeit" ein mechanisches System von Fähigkeitsmodulen, in dem ich meine Idee eines partnerschaftliehen Umgangs mit Kindem und Jugendlichen nicht mehr wiedererkenne. Bildungsforscherln: Zugegeben: Wir stecken da in einer Falle. Versuchen wir, komplexe Fähigkeiten zu erfassen, wirft man uns vor, ihr "Wesen" zu verfehlen; verzichten wir darauf, diese Fähigkeiten einzubeziehen, wird uns vorgehalten, wesentliche Ziele der Schule nicht zu berücksichtigen. JedeR von uns muss pragmatische Lösungen finden. Und wenn ich mir anschaue, mit was fiir primitiven Aufgaben immer noch viele Lehre-

Kontroversen um die Schulleistungsmessung

37

rinnen Leistungen überprüfen, dann wünschte ich mir, dass das von uns in der Testentwicklung erreichte Niveau auch nur halbwegs Standard im Unterrichtsalltag wäre. Eltern: Ich stimme Ihnen zu. Vom grünen Tisch aus kann man leicht immer neue Forderungen erheben, was ein "vernünftiges" Messinstrument alles zu leisten habe. Alles, was besser ist als der bisherige Schlendrian, ist einen Versuch wert. Heute können Lehrerinnen doch machen, was sie wollen. Und die faulen und unfähigen Kolleginnen bringen den ganzen Berufsstand in Verruf. Ich verstehe nicht, dass kompetente und engagierte Lehrerinnen diese Missstände decken. Sie sollten doch froh sein, wenn ihre Leistung anerkannt wird. Schulaufsicht: So einfach ist das nicht. Vor allem hinkt der Vergleich mit den Prüfaufgaben der Lehrerinnen. Landesweite Testprogramme haben eine ganz andere Funktion. Und die Nebenwirkungen falsch gewählter oder falsch verstandener Aufgaben können fatal sein. Testergebnisse haben eine hohe Suggestivkraft. Durch ihre scheinbar technische Präzision gewinnen sie das Image einer Unparteilichkeit, die in der öffentlichen Diskussion leicht überschätzt wird. Laien, und dazu zählen auch Bildungspolitikerinnen, Verbandsvertreterinnen und Journalistlnnen, können im Einzelfall die Annahmen, unter denen Aussagen von Tests gelten, und ihre konkrete Leistungsfähigkeit kaum einschätzen. Sie haben eine zu simple Alternative konstruiert: "objektive" Tests hier gegen "subjektive" (Vor-)Urteile da. Lehrerin: Zusätzlich sehe ich Probleme in der Passung von Test und Unterricht. Vor allem die Beteiligung an internationalen Vergleichen erzwingt oft problematische Kompromisse. Da wird der Lehrplan eines Bundeslandes (von 16!) und der Aufgabenpool eines Schulbuchs zum Maßstab fiir "das deutsche Curriculum". Und der Zeitdruck, unter dem die Testaufgaben entwickelt worden sind, erschwert es, solchen Schwächen auf die Spur zu kommen oder gar bessere Alternativen zu entwickeln. Wir haben ja schon bei TIMSS gesehen, dass eine Reihe von Aufgaben inhaltlich oder sprachlich problematisch war. Bildungsforscherln: Es ist sicher richtig, dass Papier-und-Bleistift- Aufgaben im Bereich Lesen und Schreiben näher an den untersuchten Fähigkeiten sind als etwa in den Naturwissenschaften. Aber in Zusatzstudien haben sich die Antworten in den Auswahlfragen der Tests als gute Annäherung an die Leistungen in Experimenten erwiesen. Die Tests sollen ja nur als Indikatoren dienen, sie müssen nicht die angezielten Fähigkeiten selbst erfassen. Lehrerin: In der Theorie mag das stimmen. Aber sie müssen wieder an die Wahrnehmung durch die Betroffenen denken. Schülerinnen oder Lehrerinnen, die in Tests gut abschneiden wollen, werden sich an den Indikatoren orientieren. Was bringt es z. B. noch, im Unterricht zeitlich aufwendige Experimente durchzufiihren, wenn Schülerinnen Tests auch bestehen können, indem man einfach solche Testaufgaben mit ihnen übt? Wir kennen das ja vom privaten Repetitor, den Studentinnen vor dem juristischen Staatsexamen besuchen, um Prüfungsaufgaben zu pauken, statt zu studieren. "Teaching to the test" lässt sich kaum vermeiden, wenn von den Ergebnissen der Tests persönliche Vor- und Nachteile fiir die Betroffenen abhängen. Denken Sie nur an die Nebenwirkun-

38

Hans Brügelmann

genvon erfolgsabhängigen Verträgen für Vertreterinnen in der Wirtschaft. Da wird auch ohne Rücksicht auflangfristige Folgen für die Firma oder gar für die Kunden auf rasche Erfolge gesetzt, um die Provision zu kassieren.

Bildungsforscherln: Ich finde, hier gehen verschiedene Dinge durcheinander. Wir müssen uns über den konkreten Zweck der Leistungsmessungen verständigen. Ich sehe da drei ganz verschiedene Funktionen: Landesweite Testprogramme können einmal dazu dienen, die Vergabe von Berechtigungen auf einen einheitlichen Maßstab zu beziehen. Das Zentralabitur in den süddeutschen Ländern, aber beispielsweise auch in Frankreich, hat diese Funktion. Ein anderes Ziel ist es, die Arbeit einzelner Schulen oder gar Lehrerinnen zu bewerten. Vor allem in den angelsächsischen Ländern werden standardisierte Tests zu diesem Zweck eingesetzt. Bei Veröffentlichung der Daten kommt es dann zu dem viel diskutierten "ranking", einer Rangliste von Schulen. In einigen Kantonen der Schweiz wird auch überlegt, die Bezahlung der Lehrerinnen an Ergebnisse in solchen Tests zu knüpfen. Eine ganz andere Funktion haben schließlich die aktuell diskutierten länderübergreifenden Stichprobenuntersuchungen, die lediglich auf einen Vergleich von Schulsystemen zielen. Eltern: Wieso das? Wir Eltern haben doch ein berechtigtes Interesse an Informationen über die Qualität des Unterrichts in der Klasse unseres Kindes. Bildungsforscherln: Wir müssen aktuell zwei Typen von Untersuchungen auseinanderhalten. Die KMK hat in ihren KonstanzerBeschlüssen vom Oktober 1997 einerseits länderübergreifende Untersuchungen wie TIMSS und PISA oder jetzt IGLU für die Grundschulen gefordert. Da geht es gar nicht um einzelne Lehrerinnen und Schulen, insofern greift der Vorwurf des Ranking hier nicht. Der zweite Ansatz zielt auf"qualitätsverbessernde Maßnahmen" innerhalb der einzelnen Bundesländer, und da gibt es unterschiedliche Ansätze. Landesweite Testprogramme wie LAU in Harnburg sind da die Ausnahme. Und auch dort werden keine Ranglisten veröffentlicht. Schulbezogene Daten erhalten nur die Schulen selbst, als Anstoß, intern über ihre Arbeit im Vergleich zu anderen Schulen nachzudenken. Wo liegt da die Gefahr? Lehrerin: Diese Unterscheidung kann man doch nur auf dem Papier so klar durchhalten. Wenn bei einem Systemvergleich herauskommt, dass bestimmte Schulformen - sagen wir mal Gymnasien mit Gruppierung nach Leistungsniveaus in den Hauptfächern - nach bestimmten Kriterien schlechter abschneiden, dann hat das Auswirkungen auf die Wahrnehmung der Eltern in Schulen, die nach diesem Ansatz arbeiten, und damit indirekt auch auf die Arbeit in diesen Schulen. Eltern: Aber das ist doch gut! Wo sollen die denn sonst die Information herbekommen, was dieses System taugt? Schulaufsicht: Na, so einfach ist das auch nicht. Wenn bei einer Studie wie TIMSS im internationalen Teil herauskommt dass Schulsysteme mit integrierten Sekundarschulen vergleichsweise gut abschneiden, im Deutschland-internen Ländervergleich aber, dass Gesamtschulen eher schlechter sind als dreigliedrige Systeme- was folgt daraus? Sol-

Kontroversen um die Schulleistungsmessung

39

len wir die Gesamtschule flächendeckend einfUhren, weil sie ihre Qualitäten nur voll entfalten kann, wenn Gymnasien ihnen nicht die besten Schülerinnen abziehen? Müssen wir die deutschen Gesamtschulen besser ausstatten, ihre Lehrerinnen besser aus- und fortbilden, damit sie das Potential der integrierten Schulform besser ausnutzen können? Oder sollten wir die Gesamtschulen ganz abschaffen, weil sie in unser gesellschaftliches Umfeld nicht so gut passen wie anderswo?

Bildungsforscherln: Möglicherweise werden hier die falschen Fragen gestellt. Die Organisationsform von Schule ist nach den vorliegenden Studien nicht der entscheidende Faktor fiir die Qualität des Unterrichts. Umso wichtiger ist es, dass wir die Wirkungen des Unterrichts erfassen- und dass wir unterschiedliche Leistungen aufkonkrete Bedingungen beziehen können, um diese dann zu verbessern. Lehrerin: Ich habe Probleme mit der Diskussion. Mal wird behauptet, die Programme zielten nur auf die Ebene des Gesamtsystems. Da frage ich mich, ob die Bildungspolitikerinnen überhaupt in der Lage sind, Konsequenzen aus den Befunden zu ziehen. Was machen die z. B., wenn sich ein Ergebnis aus neueren amerikanischen Studien bestätigt, nämlich dass kleinere Klassen am Schulanfang tOrderlieh sind und vor allem leistungsschwachen Schülerinnen zugute kommen? Werden die dann wirklich mehr Lehrerinnen einstellen? Andererseits wird gesagt, die Testprogramme sollten den Schulen helfen, ihre Arbeit vor Ort zu verbessern. Aber dann gibt es Konflikte mit dem Datenschutz und wegen der Anonymität und fehlenden Dichte der Daten sind diese dann nicht wirklich hilfreich. Eltern: Dazu habe auch ich noch eine Frage. Landesweite Testprogramme werden ja immer wieder mit dem Argument begründet, man müsse die Arbeit der Schulen besser erfassen, um ihre Qualität steigern zu können. Warum schneidet dann aber ein Land, in dem solche Programme schon lange an der Tagesordnung sind, nämlich die USA, in internationalen Studien nicht besser ab als z. B. Deutschland? Dort mehren sich meines Wissens sogar die Stimmen, die eher eine schulnahe Aufsicht und Beratung der Schulen fordern - wie wir sie schon lange haben. Drehen wir uns da nicht im Kreis? Lehrerin: Da möchte ich mich gleich anhängen: Bei TIMSS hat sich doch gezeigt, dass Länder mit zentralen Prüfungen nicht besser abschneiden als Bildungssysteme ohne. Woher rührt die Sicherheit, Tests seien besser als persönliche Beurteilungen und externe Leistungsmessungen fiihrten zu mehr Qualität als schulinterne Prüfungen? Schulaufsicht: Man muss doch sehen, dass kein System ohne Kontrolle auskommt. Manche Länder kontrollieren den "input" stärker, z. B. die Qualifikation von Lehrerinnen oder die Vorgaben der Lehrpläne (so die meisten kontinentaleuropäischen Staaten). Andere geben in diesem Bereich mehr Freiräume und kontrollieren dafiir den "output" stärker, z. B. durch zentrale Prüfungen (so traditionell die angelsächsischen Staaten). Das deutsche System hat sich in den letzten Jahren in Richtung auf mehr Schulautonomie bewegt, d. h. aber auch, die Aufsicht über "input" und Arbeitsabläufe verringert. Also müssen wir Rechenschaft und Kontrolle an anderer Stelle verstärken.

40 Lehrerin: Und dazu greifen Sie auflnstrumente zurück, deren Wert und Auswirkungen äußerst umstritten sind, ganz zu schweigen von dem Problem, dass nicht einmal die Kriterien ftir eine grundlegende Bildung klar sind. Arbeitgeberln: Über Ziele wie Lesen, Schreiben und Rechnen dürfte es aber doch keinen Streit geben. Eltern: Naja, die Frage ist doch, welches Niveau in diesen Bereichen angesetzt wird: Was soll als Ziel ftir das Ende der Pflichtschule oder der Grundschulzeit gelten? Geht es z. B. um sinnbetontes Vorlesen einer Geschichte oder um die Beantwortung von Auswahlfragen zu einem Sachtext? Arbeitgeberln: Zu den Anforderungen kann man z. B. unsere Betriebe befragen, welche Grundfähigkeiten und welches Niveau im Berufsalltag erforderlich sind. Eltern: Meines Wissens gibt es in dieser Hinsicht erhebliche Unterschiede zwischen verschiedenen Branchen, aber auch zwischen Betrieben innerhalb einer Branche. Lehrerin: Zudem setzen die staatlichen Vorgaben keine klaren Prioritäten. Während jeder Lehrplan seine fachlichen Ansprüche favorisiert, stehen in den allgemeinen Richtlinien fachunabhängige Schlüsselqualifikationen wie Kooperationsfähigkeit oder Selbständigkeit im Vordergrund. Für Lehrerinnen bedeutet das, sie müssen ihre begrenzten Ressourcen aufkonkurrierende Ziele verteilen. Da sind unterschiedliche Kompromisse denkbar und legitim. Die Testprogramme setzen ihrerseits eigene Prioritäten. Ich befUrchte als Folge eine Uniformierung des Unterrichts, die nicht mehr auf die Besonderheiten vor Ort Rücksicht nehmen kann. Bildungsforscherln: Ich muss noch einmal darauf hinweisen, dass es bei LAU, PISA usw. nicht um die Arbeit der einzelnen Schulen geht. Eine solche übergreifende Bestandsaufuahme kann aber erhellen, wo ein System insgesamt seine Stärken und seine Schwächen hat. Da geht es nicht um Lehrerin A oder Lehrerin B. Schulaufsicht: Indirekt doch. Und ich denke, das ist auch so gewollt. Durch eine solche Bestandsaufuahme wird ja ein öffentlicher Druck erzeugt. Die Begriffe "Stärken" und "Schwächen" machen das deutlich. Mit den Aufgaben werden bestimmte Maßstäbe gesetzt. Die geprüften Leistungen markieren, welche inhaltlichen Bereiche besonders wichtig sind, also auch, welches Niveau in diesen Bereichen erwartet wird. Es muss deutlich werden, dass dies eine politische Frage ist. Solche Entscheidungen kann man nicht Wissenschaftlerinnen überlassen. Lehrerin: Meine Sorge ist, dass grundlegende Anforderungen nicht nur ftir den Schulabschluss, sondern auch für Zwischenschritte festgelegt werden. In England gibt es ja einen nach Jahrgängen gestuften "nationalen Lehrplan". Nehmen Sie den aktuellen Fall der auch in Deutschland bekannten Reformschule "Summerhill": Die Schülerinnen haben dort die Freiheit, wann sie was lernen, sie würden also bei Zwischentests eher schwach abschneiden. Am Ende der Schulzeit aber gibt es externe Prüfungen, ftir die

Kontroversen um die Schulleistungsmessung

41

müssen sie arbeiten, und dann erreichen sie überdurchschnittliche Ergebnisse! Pädagogische Konzepte, die unterschiedliche Lernwege fördern und das individuelle Lerntempo respektieren, werden durch ein so gestuftes System gleich geschaltet. Und wenn sie dann noch an die unterschiedlichen Lernvoraussetzungen der Schülerinnen denken...

Bildungsforscherln: Wenn Sie sich Studien wie PISA, IGLU oder LAU ansehen, gilt dieser Einwand nicht mehr. Dort werden auch sozialstruktureile Daten erhoben, um den Einfluss unterschiedlicher Milieus einzuschätzen. Eltern: Aber selbst dieselbe Schule hat oft unterschiedliche Einzugsgebiete. So können zwei Parallelklassen in derselben Schule ganz unterschiedlich günstige Voraussetzungen haben. Auch aus demselben Einzugsbereich berichten Lehrerinnen für aufeinander folgende Jahrgänge ganz unterschiedliche Zusammensetzungen. Bildungsforscherln: Das Problem löst sich auf, wenn wir Längsschnitte anlegen, also dieselben Schülerinnen über mehrere Jahre begleiten, wie bei der LAU in Harnburg in der 5., in der 7. und in der 9. Klasse. Da vergleichen wir nicht nur die Leistung zu einem Punkt X, sondern messen Lernzuwächse. Eltern: Aber ein Test kann doch nie umfassend die Fähigkeiten einer Person messen, sondern nur ein Verhalten in einer bestimmten Situation, und das kann wechseln. Bildungsforscherln: Ihr Einwand ist grundsätzlich richtig. Darum werden ja auch Vertrauensintervalle angegeben, um mögliche Schwankungen bei der Interpretation zu bedenken. Man muss insofern zwischen Einzelfalldiagnose und Aussagen über Stichproben unterscheiden. Der Einfluss von Tagesform, von Missverständnissen einzelner Aufgaben usw. gleichen sich in größeren Gruppen aus. Es ist also etwas Anderes, ob wir die Leistung einzelner Schülerinnen oder die Leistung von Gruppen von Schülerinnen, z. B. eines Bundeslandes oder einer Schulform, miteinander vergleichen. Schulaufsicht: Hier haben die Verantwortlichen ja auch dazugelernt. Wie schon gesagt: Die Daten werden nicht genutzt, um Urteile über einzelne Schulen, Lehrerinnen oder gar Schülerinnen zu fallen. Moderatorln: Lassen Sie uns eine Zusammenfassung versuchen. Unsere Diskussion hat gezeigt, dass es sich bei Leistungsvergleichen um ein komplexes Problem handelt. Wir müssen m. E. drei Ebenen unterscheiden: •

die politische: Wer bestimmt die Kriterien, wer kontrolliert die Umsetzung -zentrale oder dezentrale Entscheidungsträger?

• dieforschungsmethodische: Welches Instrumentarium ist das aussagekräftigste und verlässlichste - die standardisierte Messung oder das personengebundene Urteil? • die reformstrategische: Auf welchen Wegen ist Schulentwicklung am ehesten in Gang zu bringen- durch eine interne oder durch eine externe Evaluation?

42

Hans Brügelmann

Außerdem gibt es je nach Standpunkt unterschiedliche Einschätzungen der Funktion und der Wirkungen des Instruments "Leistungstest". Können Sie dazu die Ihnen wichtigsten Punkte noch einmal kurz auf den Nenner bringen? Arbeitgeberln: Aus meiner Sicht sollten Leistungsmessungen in allen drei Funktionen eingesetzt werden:



zur Beurteilung einzelner SchülerInnen, - um Fortschritte, aber auch Schwierigkeiten genauer erkennen und entsprechend gezielt fördern zu können und - um die formelle Berechtigung fiir den Besuch weiterfUhrender Schulen vergleichbar und nachprüfbar zu erfassen und auszuweisen;

• zur Bewertung des Lehrerinerfolgs von Lehrerinnen, indem die Wirkungen verschiedener methodischer Ansätze unter vergleichbaren Bedingungen überprüft werden; • zur Einschätzung von Stärken und Schwächen des Systemsingesamt bzw. einzelner Teilsysteme, z. B. Schularten. Eltern: Ich wünsche mir, dass das Hintenherumreden über "gute" und "schlechte" Lehrerinnen durch verlässliche Daten ersetzt wird. Aber dazu müssten zunächst einmal die Ziele der Schule in Abstimmung aller beteiligten Gruppen geklärt und klarer umrissen werden: Wo liegen die Prioritäten fiir Allgemeinbildung heute? Wenn die Kriterien geklärt sind, dann könnten auch Zeugnisse aus verschiedenen Schulen und Bundesländern durch zentrale Tests vergleichbarer werden. Meine Sorge: Ich glaube nicht daran, dass eine genauere Information über den "Stand" des deutschen Bildungssystems politisch etwas bewirkt. Ein Beispiel: Seit Jahren berichtet die OECD, dass Deutschland flir die Grundschule, in der doch die Grundlagen fiir alles Weitere gelegt werden sollen, viel weniger ausgibt als andere Länder, fiir die Sekundarstufe dagegen mehr. Geändert hat sich bis heute nichts. Lehrerin: Ich glaube auch nicht an die Objektivität von Tests: Der eine löst die Aufgabe, weil er kurzfristig viel auswendig gelernt hat, der andere ist durch eigenes Denken zu der Lösung gekommen. Das sind verschiedene Qualitäten.

Aber auch fiir die Schulen liegt mir daran, dass die Ministerien jetzt nicht nur auf das Pferd "zentrale Leistungsmessung" setzen. Was nutzt es, wenn wir wissen, dass wir schlecht sind - oder jedenfalls schlechter als andere? Wie es heute so schön heißt: Vom wiederholten Wiegen wird die Sau auch nicht fetter ... Und eine schärfere Kontrolle mag helfen, einzelne Extremfälle zu verhindern, besser wird der Unterricht in der Breite dadurch nicht. Um die Qualität von Unterricht zu verbessern, wäre es viel wichtiger, Mittel und Unterstützung fiir schulinterne Bestandsaufnahmen und vor allem fiir die Verbesserung der alltäglichen Arbeit und ihrer Bedingungen bereit zu stellen. Und wir brauchen Fallstudien von erfolgreichen Schulen, vor allem von Schulen, die unter schwierigen Bedingungen, also wider Erwarten, erfolgreich sind. Von deren Praxis können wir eher lernen, was sie konkret besser machen können, als aus dürren Testergebnissen.

Kontroversen um die Schulleistungsmessung

43

Bildungsforscherln: Akzeptiert man, dass menschliche Erkenntnis immer beschränkt, dass menschliches Handeln immer unzulänglich ist, dann erreichen die neuen Leistungstests ein erfreulich hohes Niveau des Möglichen. Deshalb verdienen sie eine faire Chance - als V ersuch und als ein Element in einem größeren Verbund. Denn schon in der IEA-Studie, mehr noch aber in PISA und IGLU nähern wir uns Prüfungsformen, die im schulischen Alltag in der Breite und Differenziertheit oft nicht erreicht werden:

• ein großes Spektrum anspruchsvoller Leistungen; • offene neben geschlossenen Aufgaben; • zwei Bewerterinnen statt nur einer Person (wie meist im Unterricht). Ertragreich werden diese Studien aber nur sein, wenn die Programme langfristig angelegt sind, so dass Entwicklungen erkennbar werden. Und nur dann können die Forscherinnen auch aus den ersten Studien lernen und ihre Instrumente kontinuierlich verbessern. Deshalb würde ich jetzt nicht das Land mit einem Testprogramm nach dem anderen überziehen, sondern lieber verschiedene Maßnahmen in überschaubarem Maßstab erproben. So ist auch am ehesten das Vertrauen und die Mitarbeit der Betroffenen zu gewinnen. Schulaufsicht: Ich stimme dem zu, aber politisch ist das kaum zu machen. Der öffentliche Druck auf die Ministerien ist immens. Eigentlich bräuchten wir ein differenziertes Rechenschaftssystem, in dem Leistungsmessungen einen wichtigen, aber auch nur einen begrenzten Beitrag leisten können. Zudem ist zu bedenken, dass dieser Beitrag unterschiedlich ausfällt, je nachdem, ob sie den Lernerfolg von Schülerlnnen, den Lehrerfolg von Lehrerinnen oder die Wirksamkeit des Schulsystems insgesamt erfassen sollen. Mir kommt es darauf an, dass Fragen untersucht werden, zu denen es auch tatsächlich Handlungsoptionen gibt. Also müssten die Politikerinnen ihre Fragen vorweg formulieren.

Außerdem finde ich es wichtig, dass die Interpretation der Ergebnisse nicht in der Hand eines einzelnen Forscherteams liegt, sondern dass durch konkurrierende Interpretationen offen gelegt wird, wo die Daten in der Tat eindeutig und wo unterschiedliche Deutungen möglich sind. Es geht doch nicht an, dass die einen aus TIMSS folgern, Japan habe wegen seines problemlösenden Unterrichts so gut abgeschnitten und deshalb müsse eine anspruchsvollere "Lernkultur" entwickelt werden, während andere aus derselben Studie folgern, Japan habe so gut abgeschnitten, weil die privaten Nachhilfeschulen, die Jukus, nachmittags durch schlichtes Pauken den Lernerfolg gesichert hätten. Testprogramme sind keine Selbstläufer, und deshalb kommt der sozialen Kontrolle von Interpretationen und Entscheidungen eine Schlüsselfunktion zu. Moderatorln: Ich versuche einen Ausblick. Bei "Evaluation" geht es um mehr als um Tests. Vorhin war die Rede von der Pflicht zur "Rechenschaft". Die betrifft doch alle:

Schülerinnen sollten sich um Klarheit über die eigenen Ziele und über den Erfolg der eigenen Arbeit bemühen und in der Übernahme dieser Verantwortung gefordert und gefördert werden.

44

Hans Brügelmann

Lehrerinnen sollten Lernprozesse im Blick auf einzelne Schülerinnen und auf die Klasse insgesamt beobachten und auswerten, den eigenen Unterricht beobachten (lassen) und Erfahrungen im Gespräch mit Kolleginnen und Eltern durchdenken, um die Wirkungen der eigenen Arbeit zu überprüfen. Das Kollegium sollte gemeinsam - im Blick auf die Schule als ganze - ein Schulprogramm entwickeln und anhand fokussierter Bestandsaufnahmen (auch mit Hilfe von externen "critical friends") regelmäßig fortschreiben. Die Schulaufsicht sollte in den schulinternen Diskussionen den Fremdblick stärken, kritische Fragen stellen, Weiterentwicklung fordern, vor allem aber konstruktive Ansätze anerkennen und unterstützen. Das Ministerium sollte mit Blick auf das Gesamtsystem allgemeine Problemstellen ausmachen, politische Prioritäten überprüfen und Ressourcen ziel- und bedarfsorientiert orgarus1eren. Und noch eins: Vieles, was im Moment als "Evaluation" verkauft wird, ist eigentlich Grundlagenforschung. Zu den Zusammenhängen zwischen verschiedenen Faktoren im System gibt es doch schon eine Fülle von Publikationen und Daten, die man mit vergleichsweise geringerem Aufwand aufbereiten und gezielt auf aktuelle Fragen hin auswerten könnte, statt mit hohen Kosten Berge neuer Daten zu erheben. Wenn von Ökonomie die Rede ist, sollte dieser Anspruch auch fiir die Evaluation selbst gelten. Müsste man nicht stattdessen Schülerlnnen, Eltern, Lehrerinnen und die Öffentlichkeit differenzierter nach ihren Ansprüchen an die Schule, nach ihren unterschiedlichen Erfahrungen und Kritikpunkten befragen? Damit würden die Wertfragen und die konkurrierenden Perspektiven auf Unterricht deutlicher, und man könnte den Blick zugleich auf unzulängliche Bedingungen schulischer Arbeit erweitern. Es geht doch nicht nur darum, was ist, sondern auch darum, was sein soll.

Powered by TCPDF (www.tcpdf.org)

KAPITEL3

Alltägliche Leistungsbeurteilung durch Lehrer Friedrich-Wilhelm Sehrader und Andreas Helmke

Die Beurteilung von Schülerleistungen ist integraler Bestandteil der beruflichen Tätigkeit von Lehrkräften. Die Zensurenvergabe wird meistens als die prototypische Beurteilungsaufgabe von Lehrkräften angesehen. Leistungsbeurteilungen dienen aber auch dazu, die Unterrichtsgestaltung und das Lernen zu verbessern. Für beide Aufgaben spielen alltägliche Leistungsbeurteilungen im Klassenzimmer eine zentrale Rolle. Deshalb sollen diese im Folgenden genauer beleuchtet werden. Dass es dabei um Leistungsbeurteilungen geht, heißt nicht, dass die Einschätzung anderer Schülermerkmale, insbesondere affektiv-motivationaler Merkmale, unwichtig ftir das erzieherische Handeln wäre. Aber die Lehrziele und Lernergebnisse, die in der schulischen Praxis im Vordergrund stehen, betreffen primär die Leistung. In diesem Beitrag werden allgemeine Fragen des Diagnostizierens angesprochen, die Lehrkräfte aller Schulformen und Altersstufen betreffen. Auch wenn die grundlegenden Aufgaben und Funktionen auf einer abstrakten Ebene vergleichbar sind, unterscheidet sich die konkrete Ausgestaltung dieser Aufgaben - man vergleiche dazu etwa nur den Unterricht in der Grundschule mit dem in der gymnasialen Oberstufe - ganz erheblich.

Die Lehrkraft als Diagnostiker Zwei Arten der Leistungsbeurteilung Manche der Urteilsaufgaben von Lehrkräften ähneln denen professioneller Diagnostiker: Es wird ein explizites Urteil (sozusagen eine "Diagnose") abgegeben; die Lehrkraft stützt sich dabei auf geeignete Informationen ("Daten"), die eigens zum Zwecke der Beurteilung erhoben wurden (Klassenarbeiten; mündliche Prüfungen; informelle Tests usw.). Das diagnostische Urteil kommt dadurch zustande, dass die gewonnenen Informationen mit einer Norm, d. h. mit einem Vergleichmaßstab in Beziehung gesetzt werden (Ingenkamp, 1997a). Man unterscheidet gewöhnlich drei Bezugsnormen: Eine Leis-

46

Friedrich-Wilhelm Sehrader und Andreas Helmke

tung ist gut, wenn sie (a) besser ist als die der meisten anderen Lernenden bzw. des Durchschnitts (soziale Norm); (b) sich der Lernende im Vergleich zu früher verbessert hat (individuelle Norm); oder (c) ein angestrebtes Lehrziel oder Kriterium erreicht wurde (sachbezogene oder kriteriale Norm). Die Beurteilungen erfolgen hierbei in Situationen, in denen die Lehrkraft die Aufmerksamkeit gezielt (bei einer mündlichen Leistungsprüfung) und im Idealfall nahezu ungeteilt (bei der Korrektur schriftlicher Arbeiten) auf die diagnostische Aktivität richten kann. Die vorhandenen Informationen können (außerhalb der Unterrichtssituation) anschließend eingehend gesichtet, bewertet und gewichtet werden, und der gesamte Urteilsvorgang kann gründlich reflektiert werden. Andere Beurteilungsleistungen sind impliziter Natur, d. h. es wird kein ausdrückliches Urteil verlangt, sondern der Urteilsvorgang läuft stark verkürzt ab, ohne am Ende in eine sprachlich mitteilbare Aussage übersetzt zu werden: Schülerleistungen werden lediglich insoweit registriert und intuitiv eingeschätzt, wie es nötig ist, um Entscheidungen treffen zu können (die Behandlung eines Themas abschließen; eine neue Aufgabenstellung einfii.hren; eine bestimmte Frage stellen; einen bestimmten Schüler aufrufen). Solche Entscheidungen müssen während des Unterrichtens getroffen werden und daher meist sehr schnell erfolgen; sie können selten gründlich reflektiert werden, sondern erfolgen auf der Grundlage eingeübter Denkroutinen mit einem vergleichsweise geringen Grad an bewusster Aufmerksamkeit und Kontrolle. Solche "Mikrodiagnosen" kommen dadurch zustande, dass allgemeine Erwartungen an die Leistung der Klasse oder einzelner Schüler mit aktuellen Beobachtungen abgeglichen und verknüpft werden; sie erfolgen eher unsystematisch, ungezielt und beiläufig neben der eigentlichen Unterrichtstätigkeit. Die Aufmerksamkeit ist häufig auf andere Aspekte der Situation gerichtet. Es werden intuitive und subjektive Einschätzungen vorgenommen, die beim erfahrenen Lehrer eng mit bestimmten Handlungsentwürfen und -routinen verknüpft sind und bei störungsfreien Abläufen kaum über die Bewusstseinsschwelle gelangen. Das Unterrichten selbst ist eine hochkomplexe Tätigkeit; die Anforderungen, die dabei an den Lehrer gestellt werden, werden von Außenstehenden häufig unterschätzt: Es gibt eine Vielzahl von Informationen, die auf den Lehrer einströmen; vieles passiert gleich-: zeitig; es ist oft nicht genau vorhersagbar, was als nächstes passiert; es muss häufig sofort reagiert werden; und einmal gezeigte Lehrerreaktionen stellen für die Schüler/innen unter Umständen Präzedenzfälle dar, die die künftigen Verhaltensmöglichkeiten der Lehrkraft einengen können. Diese Anforderungen sind nur dadurch zu bewältigen, dass Unterrichtssituationen und -abläufe effizient organisiert und strukturiert werden (Shuell, 1996). Lehrkräfte unterscheiden sich erheblich darin, inwieweit ihnen das gelingt. Gleichzeitig stellt die so beschriebene Unterrichtssituation auch hohe Anforderungen an die Informationsaufnahme und -Verarbeitung des Lehrers.

Die Rolle von Leistungserwartungen und diagnostischen Kompetenzen Leistungsbeurteilungen von Lehrkräften werden von verschiedene Faktoren beeinflusst. Selbst außerhalb der Unterrichtssituation erfolgt die Beurteilung oft nicht völlig unvoreingenommen und neutral, sondern wird durch Erwartungen und Voreinstellungen

47

Alltägliche Leistungsbeurteilung

verzerrt. Untersuchungen zeigen, dass dies selbst bei der Beurteilung schriftlicher Leistungen (und zwar nicht etwa nur bei Aufsatzleistungen, sondern sogar bei Mathematikarbeiten; siehe etwa Ingenkamp, 1997a) der Fall sein kann. Vor allem aber das Handeln von Lehrkräften im Unterricht wird durch Erwartungen gesteuert und beeinflusst. Das in Abbildung 1 dargestellte Modell soll die dabei ablaufenden Prozesse und Einflussfaktoren verdeutlichen helfen (zum besseren Nachvollzug sind die einzelnen Kästchen mit Nummern versehen, auf die im nachfolgenden Text Bezug genommen wird). Dabei sind die wichtigsten Einflussrichtungen (natürlich sind noch andere denkbar) als Pfeile eingezeichnet.

I

1 0 Diagnostisches Urteil (z.B. Note) Allgemeine Ziele 4 Orientierungen Rollenverständnis Diagnosekompetenz 3 - Personenwissen - Aufgabenwissen

Unterrichtsgestaltung

5 - klassenbezogen

t

/

Klassenzusammensetzung 2 Klassen- und Schülermerkmale

- schülerspezifisch

9 Interpretation

t

1 Erwartungen -allgemein -spezifisch

/ 7 /

i\.

Leistungen -mündlich - schriftlich

-!l Beobachtung I

Leistungssituationen

6 -mündlich - schriftlich

Abbildung 1: Leistungserwartungen, Unterricht und diagnostisches Urteil

Erwartungen [1] sind Vorstellungen darüber, was sein wird (wie sich eine Situation weiterentwickeln oder welche Folgen eine Handlung nach sich ziehen wird). Sie sind oft mit einem hohen Grad subjektiver Gewissheit verbunden, was in der Regel die Handlungssicherheit erhöht. Von Hypothesen würde man sprechen, wenn die Erwartungen als vorläufig und überprüfungsbedürftig betrachtet werden. Erwartungen des Lehrers (''wie sich bestimmte Schüler oder Klassen im Unterricht verhalten, was sie zu leisten imstande sind, wieviel Lernangebote ihnen in einer bestimmten Zeitspanne zuzumuten sind, durch welche Mittel man sie am besten beeinflussen kann, welche Probleme sie bereiten können usw."; Wahl, Weinert & Huber, 1997, S. 54) bestimmen ganz maßgeblich, wie in einer bestimmten Situation gehandelt wird, und tragen somit dazu bei, allgemeine pädagogische Ziele in konkrete Unterrichtshandlungen umzusetzen. Weiche

48

Friedrich-Wilhelm Sehrader und Andreas Helmke

Leistungen von der Klasse insgesamt oder von individuellen Schülern erwartet werden, hängt sicher immer auch vom tatsächlichen Leistungsvermögen der Klasse und der jeweiligen Schüler- allgemein also von der Klassenzusammensetzung [2] - ab. Wie genau, flexibel und realitätsangemessen diese Leistungserwartungen sind und wie zutreffend sie also die realen Gegebenheiten widerspiegeln, hängt von der Diagnosekompetenz [3] der Lehrkraft ab, also ihrer Fähigkeit, Schülermerkmale und Aufgabenschwierigkeiten zutreffend einzuschätzen. Dazu sind diagnostisches Wissen (über Fähigkeiten und Leistungen von Schüler und die Schwierigkeit von Aufgaben) und diagnostische Fertigkeiten (Beobachtungsfähigkeiten, Beherrschung von Diagnoseinstrumenten) erforderlich. Die diagnostische Kompetenz stellt neben dem Fachwissen, den didaktisch-methodischen Fähigkeiten und der Fähigkeit zur Klassenführung einen von vier Kompetenzbereichen dar, die den erfolgreichen Lehrer auszeichnen (Weinert, Sehrader & Helmke, 1990). Das diagnostische Wissen hängt seinerseits von der Klassenzusammensetzung [2) ab. So ist es in einer sehr heterogenen Klasse leichter, Leistungsunterschiede zwischen Schülern zu erkennen. In die Erwartungen der Lehrkraft fließen außerdem allgemeine Ziele (Erziehungsziele wie Selbständigkeit, Fairness, Leistungsbereitschaft, Tüchtigkeit) und Orientierungen (z. B. die Tendenz, sich bei der Beurteilung eher an sozialen oder individuellen Bezugsnormen zu orientieren) [4] ein. Genaue, d. h. präzise und realitätsangepasste Erwartungen finden sich bevorzugt bei Lehrkräften mit einem professionellen Rollenverständnis [4] und einer damit verbundenen diagnostischen Haltung: der Bereitschaft, sich um Objektivität und Unvoreingenommenheit zu bemühen, Erwartungen und Interpretationen als vorläufige Hypothesen zu betrachten, zu hinterfragen und ggf. zu korrigieren und sich für die Lernerfolge der Schüler verantwortlich zu fühlen. Zu verzerrten Wahrnehmungen kommt es häufig dann, wenn starke Affekte und Beeinträchtigungen des Selbstwerts erlebt werden, was meist zur Folge hat, dass Informationen nur oberflächlich und unvollständig aufgenommen und verarbeitet werden. Natürlich stehen die genannten Merkmale untereinander in einem sehr viel komplexeren Beziehungsverhältnis als hier angedeutet ist. Darauf soll in diesem Beitrag aber nicht weiter eingegangen werden. Wie die Unterrichtsgestaltung [5] für die Klasse insgesamt und für einzelne Schüler aussieht, hängt sowohl von allgemeinen, auf das Leistungsniveau von Schülern einer bestimmten Jahrgangsstufe sowie der eigenen Klasse bezogenen, als auch von schülerspezifischen Erwartungen ab. Erstere bestimmen etwa, wie schwer der Unterricht, einzelne Lehrinhalte oder Aufgaben sind; letztere sind dafür maßgeblich, wie einzelne Schüler im Unterricht behandelt werden, etwa welche Fragen an sie gerichtet werden. Die Erwartungen der Lehrkraft (sowohl hinsichtlich der Leistungsfähigkeit der Klasse als auch einzelner Schüler) haben ferner Einfluss darauf, wie Leistungssituationen [6] -und zwar sowohl mündliche als auch schriftliche Prüfungssituationen- gestaltet werden (wie schwer etwa eine Klassenarbeit oder die mündliche Prüfung ftir einen bestimmten Schüler ist). Grundlage für die Beurteilung sind dann die schriftlichen und mündlichen Leistungen [7] der Schüler, die diese bei gezielten Überprüfungen, aber auch ganz allgemein im Unterricht zeigen.

Alltägliche Leistungsbeurteilung 49 ----------"'------'"------"'-------·-----·---·

Die Wahrnehmung und Beobachtung [8] der von den Schülerinnen und Schülern gezeigten Leistung wird ihrerseits von den Erwartungen, Voreinstellungen und Hypothesen der Lehrkraft beeinflusst. Man spricht auch von der Hypothesentheorie der Wahrnehmung. Laien sind häufig der Meinung, die Wahrnehmung liefere eine vollständige und getreue Abbildung (sozusagen eine Kopie) der Realität. Menschen können aber immer nur einen kleinen Ausschnitt des gesamten Wahrnehmungsfeldes verarbeiten. Abhängig von denjeweiligen Bedürfnissen und Interessen richtet sich die Wahrnehmung bevorzugt auf das, was die Person erwartet. Im günstigen Fall fiihrt dies zu einer gezielteren Beobachtung und damit zu einer genaueren Wahrnehmung des betrachteten Realitätsausschnitts; im ungünstigen Fall kommt es zu einer einseitigen, oberflächlichen und verzerrten Wahrnehmung. Weiche dieser Konsequenzen eintritt, hängt davon ab, wie genau und zutreffend die Erwartungen sind und wie reflektiert und flexibel der Wahrnehmende damit umgeht. In der Literatur findet sich eine ganze Reihe von Urteilsfehlern, etwa die Tendenz zur Milde oder Strenge im Urteil, zur Abschwächung oder Akzentuierung von Unterschieden; die Tendenz, von bestimmten Merkmalen auf andere zu schließen oder die Tendenz, sich bei der Beurteilung von einem globalen Gesamteindruck leiten zu lassen (vgl. etwa Ingenkamp, 1997a). Die wahrgenommenen Leistungen wirken schließlich auf die vorhandenen Erwartungen und Hypothesen zurück. Ob diese bestätigt oder korrigiert werden, hängt unter anderem von der Interpretation [9] der Beobachtungen durch die Lehrkraft ab. Hier spielt eine Rolle, wie die Leistungen erklärt, d. h. auf welche Ursachen sie zurückgeführt werden (Attribution). So können z. B. unerwartet gute Leistungen eines leistungsschwachen Schülers durch Glück oder besondere Anstrengung erklärt werden, die unerwartet schlechten Leistungen eines leistungsstarken Schülers dagegen durch Pech usw. Derartige Interpretationen können nicht nur die vorhandenen Erwartungen beeinflussen, sondern werden ihrerseits auch von diesen beeinflusst. Darüber hinaus werden die (modifizierten oder nicht-modifizierten) Einschätzungen und Erwartungen den Schülern im Zuge der Unterrichtsgestaltung oder in Leistungssituationen mehr oder weniger explizit zurückgemeldet. Die beobachteten und interpretierten Leistungen sind schließlich Grundlage fiir diagnostische Urteile [10], die von Lehrkräften zu bestimmten Anlässen (Versetzung, Schulübertritt) gefordert werden. Hier ist vor allem an Urteile gedacht, die nach Abschluss des Unterrichts abgegeben werden (z. B. die Note in einem Versetzungs- oder Übertrittszeugnis), so dass dieses Modell keine Rückwirkung des resultierenden diagnostischen Urteils auf die Erwartungen und den Unterricht vorsieht. Um die Darstellung nicht unnötig zu komplizieren, ist hier ebenfalls nicht berücksichtigt worden, dass Beurteilungen und Erwartungen längerfristig auch zu einer Veränderung des diagnostischen Wissens fUhren. Und schließlich ist die strikte Hintereinanderanordnung von Erwartungen, der Gestaltung des Unterrichts und von Leistungssituationen, daraus resultierenden Leistungen und davon abhängigen Beobachtungen auch eine sehr stark vereinfachte Darstellung von Abläufen, die in der Realität vielfaltig miteinander verflochten sind.

50

Friedrich-Wilhelm Sehrader und Andreas Helmke

Genauigkeit von Schülerbeurteilungen In einer Reihe von Untersuchungen zur Notengebung ist belegt worden, dass Lehrerurteile häufig nicht den Anforderungen genügen, die man an professionelle Diagnosen stellen muss (zusammenfassend Tent, 1998). Aussagen zur Güte von Lehrerurteilen werden häufig dadurch gewonnen, dass man diese mit den Testleistungen der Schüler vergleicht. Neuere Untersuchungen haben gezeigt, dass Lehrkräfte im Durchschnitt betrachtet die Rangreihe der Leistungen innerhalb ihrer Klasse recht gut einschätzen können, auch wenn man dabei mit nicht unerheblichen Unterschieden zwischen Lehrern rechnen muss (Schrader, 1998). Wenn man Lehrer bittet, die Leistungen ihrer Schüler in einem von ihnen bearbeiteten Test vorherzusagen, dann stellt manjedoch häufig fest, dass das allgemeine Niveau der Leistungsurteile (also die im Durchschnitt für die Klasse abgegebene Einschätzung) deutlich von dem der tatsächlichen Schülerleistungen abweicht. Dass Lehrkräfte Schwierigkeiten haben, das absolute Leistungsniveau ihrer Klasse zutreffend einzuschätzen, zeigt sich auch im Bereich der Notengebung: Während die Noten die innerhalb einer Klasse bestehenden Leistungsunterschiede meist recht zutreffend widerspiegeln, gibt es für vergleichbare Leistungen in verschiedenen Klassen oft ganz unterschiedliche Noten. Im Extremfall kann das bedeuten, dass Leistungen, die von der einen Lehrkraft als gut bewertet werden, von einer anderen als nicht ausreichend angesehen werden (vgl. Ingenkamp, 1997a). Auch wenn Lehrkräfte gut in der Lage sind, die Schüler ihrer eigenen Klasse nach ihren Leistungen in eine Rangordnung zu bringen, heißt dass also nicht unbedingt, dass gleichen Noten in unterschiedlichen Klassen auch vergleichbare Leistungen zu Grunde liegen. Lehrer orientieren sich vornehmlich an einem klasseninternen Bezugssystem, vergleichen also die Leistungen der Schüler mit denen anderer Schüler in der Klasse (soziale Bezugsnorm) und weniger mit einem absoluten Bezugsmaßstab. Eine sachgerechte und faire Beurteilung erfordert aber den Vergleich mit einem objektiven Kriterium, nämlich den vom Lehrplan geforderten Lehrzielen- unabhängig von den tatsächlich in der Klasse vorhandenen Leistungsunterschieden (kriteriale oder sachbezogene Bezugsnorm). Eine zutreffende Einschätzung des absoluten Leistungsstandes ist allerdings eine außerordentlich schwierige Aufgabe, die ohne den Einsatz von professionell entwickelten, am Lehrplan orientierten diagnostischen Instrumenten kaum zu erfüllen ist. Hinzu kommt, dass Lehrkräfte in inhaltlicher wie zeitlicher Hinsicht gewisse Spielräume bei der Realisierung der vom Lehrplan vorgegebenen Lehrziele haben und diese auch unterschiedlich ausnutzen, so dass verschiedene Klassen am Ende allein schon deshalb unterschiedliche Kenntnisse und Fertigkeiten besitzen können. Dies erschwert natürlich die Vergleichbarkeit. Schließlich ergibt sich ftir Lehrkräfte das psychologische Dilemma, dass sie mit der Beurteilung der Schülerleistungen immer auch ein Stück weit den Erfolg ihres eigenen Unterrichts bewerten. Dass Lehrkräfte Schwierigkeiten haben, den Leistungsstand klassenübergreifend zutreffend einzuschätzen, ist vor allem deshalb problematisch, weil Lehrerurteile die Grundlage von Schulabschlüssen darstellen, die ftir das weitere Leben von erheblicher Bedeu-

Alltägliche Leistungsbeurteilung

51

tung sind. In manchen Ländern versucht man dieses Problem durch klassenübergreifende Leistungsüberprüfungen mit Hilfe von Tests zu lösen, die den vom Lehrplan geforderten Lehrstoff abprüfen. Allerdings sind auch die Ergebnisse einer einmaligen Testuntersuchung, die anderen Einschränkungen (erhöhter Erfolgsdruck, Tagesform, ungewohnte Situation usw.) unterliegen, nicht unbedingt das beste Kriterium fiir die Bewertung von Schülerleistungen. Im Vergleich dazu basieren Lehrerurteile in der Regel aufvollständigeren und repräsentativeren Informationen (die Leistungen des Schülers in einem längeren Zeitraum in unterschiedlichen schriftlichen und mündlichen Leistungssituationen). Dies spricht dafiir, beide Informationsquellen zu kombinieren und die herkömmliche Urteilspraxis durch diagnostische Hilfsmittel abzusichern und zu ergänzen. Hieraus ergibt sich fiir die Wissenschaft die Forderung nach einer verstärkten Bereitstellung geeigneter diagnostischer Verfahren und ftir dieLehreraus-und -fortbildung die Forderung nach einer verbesserten Ausbildung in pädagogischer Diagnostik.

Leistungsbeurteilung im Rahmen des Unterrichts Unterrichtsform und Lehrerrolle Dass diagnostische Informationen das Handeln von Lehrkräften beeinflussen - wie dies in Abbildung 1 dargestellt wurde -, heißt natürlich nicht, dass sie nur fiir den ausschließlich lehrergesteuerten Unterricht wichtig wären. Unterrichtsformen, in denen Schüler selbständig und eigenverantwortlich tätig sind (Gruppen- und Projektarbeit oder andere Formen des offenen Unterrichts) stehen heute zu Recht sehr viel stärker im Vordergrund. Obwohl sich bei einem solchen Unterricht die traditionelle Lehrerrolle verändert, bedeutet das aber keinesfalls, dass die erzieherischen, didaktischen und organisatorischen Aufgaben von Lehrkräften an Bedeutung verlieren. Eine effektiver offener Unterricht erfordert vom Lehrer sogar in ganz besonderem Maße intensive vorbereitende, begleitende und nachbereitende Bemühungen: Es müssen geeignete Aufgabenstellungen ausgewählt und auf die Fähigkeiten, Vorkenntnisse und Bedürfnisse der Schüler zugeschnitten werden; die Schüler müssen bei der Bearbeitung dieser Aufgabenstellungen überwacht und unterstützt werden; und schließlich müssen die Arbeitsergebnisse aufgearbeitet, gesichert und vertieft werden. Die Forschung hat gezeigt, dass Lehrkräfte, die im Unterricht eine aktive Rolle übernehmen- und dies gilt auch für die wirkungsvolle Unterstützung von Lernvorgängen in offenen Unterrichtsphasen -, erfolgreicher sind. Darüber hinaus setzt die erfolgreiche Realisierung dieser auch im offenen Unterricht wichtigen didaktischen Maßnahmen bei den Lehrkräften ein hohes Maß an diagnostischer Sensibilität voraus.

Ziele und Erwartungen Erwartungen, was Schüler einer bestimmten Altersstufe und Schulform im allgemeinen und die Schüler der eigenen Klasse im besonderen leisten können und wo ihre Stärken

52

Friedrich-Wilhelm Sehrader und Andreas Helmke

und Schwächen liegen, beeinflussen die Unterrichtsgestaltung und das unterrichtliche Handeln der Lehrkraft. Dies betrifft vor allem die Auswahl und Schwierigkeit des Stoffs sowie das Tempo des Unterrichts. Erwartungen, die leicht über dem aktuellen Leistungsniveau der Schüler liegen und somit mit einiger Anstrengung gerade noch erfüllt werden können ("dosierte Diskrepanzen"), sind für den Lernerfolg und die Leistungsentwicklungbesonders günstig. Ungünstig ist es dagegen, wenn die Erwartungen die tatsächliche Leistungsfähigkeit entweder stark übersteigen oder zu niedrig sind (Schrader & Helmke, 1987). Viele Untersuchungen haben sich mit der Rolle von schülerspezifischen Erwartungen beschäftigt. Dass die unterschiedlichen Erwartungen, die Lehrkräfte gegenüber verschiedenen Schülern haben, deren Leistungen beeinflussen, ist seit langem bekannt. Schüler, von denen eine Leistungsverbesserung erwartet wird, verbessern sich häufig auch überzufällig (Erwartungs- oder Pygmalion-Effekt); umgekehrt- und in der Praxis sicher häufiger und pädagogisch problematischer- entwickeln sich die Leistungen von Schülern, von denen (zu) wenig erwartet wird, eher ungünstig. Der Grund für diese "sich-selbst-erfüllenden Prophezeiungen" ist, dass sich Lehrer ihren Erwartungen entsprechend gegenüber verschiedenen Schülern unterschiedlich verhalten und so ihre unterschiedlichen Erwartungen kommunizieren; die Schüler nehmen diese Verhaltensunterschiede wahr und ziehen daraus Rückschlüsse für ihre Selbsteinschätzung. Dies kann dazu führen, dass das Selbstkonzept der eigenen Fähigkeit, also das Vertrauen in die eigene Leistungsfähigkeit, und damit die Lemrnotivation, beeinträchtigt wird. Für erfolgreiche Lehrkräfte kennzeichnend ist die allgemeine Erwartung, dass die Schüler grundsätzlich in der Lage sind, die im Lehrplan vorgesehenen Lehrziele zu erreichen (Shuell, 1996). Für den Unterrichtserfolg ist nicht nur wichtig, dass die Erwartungen angemessen sind, sondern auch, dass sie vom Lehrer als verbindliche, im Unterricht zu realisierende Ziele betrachtet werden. Hierbei gibt es aber deutliche Unterschiede zwischen Lehrern: Manche von ihnen versuchen, ihre Zielvorstellungen konsequent zu realisieren und dabei insbesondere vorhandene Leistungsschwächen zu beseitigen (proaktiv); andere nehmen die vorhandenen Leistungsunterschiede als gegeben hin und stellen sich in ihrem Verhalten darauf ein, ohne sich gezielt um einen Ausgleich der Leistungsunterschiede zu bemühen (reaktiv); wiederum andere verstärken die Leistungsunterschiede sogar noch durch ihr Verhalten (überreaktiv). Unterrichtsgestaltung und unterrichtliches Handeln

Erfolgreicher Unterricht erfordert eine Abstimmung auf die Lernvoraussetzungen der Schüler/innen. Man bezeichnet dies auch als adaptiven Unterricht oder spricht von Passung. Dazu ist eine enge Verknüpfung von diagnostischen Informationen und didaktisch-methodischen Unterrichtsmaßnahmen erforderlich (Ingenkamp, 1997a). Von adaptivem Unterricht spricht man vor allem dann, wenn es darum geht, unterschiedliche Lernvoraussetzungen zwischen Schülern, die es in jeder Klasse gibt, zu berücksichtigen. Darüber hinaus ist es aber auch wichtig, den Unterricht an die sich fortlaufend

Leistungsbeurteilung

53

verändernde Leistungsfahigkeit der Schüler anzupassen. Dies kann auf unterschiedlichen Ebenen erfolgen. Wenn größere Unterrichtseinheiten betroffen sind, spricht man vonMakroadaptationen. Je nachdem, wie die Diagnose der Lernvoraussetzungen ausfällt, werden unterschiedliche Maßnahmen eingesetzt. In solchen Fällen bietet es sich an, die Lernvoraussetzungen mit Hilfe von Tests und anderen diagnostischen Hilfsmitteln genauer abzuklären. Dies betriffi: insbesondere die Ermittlung fehlender Vorkenntnisse, über deren Ausmaß und Beschaffenheit sich der Lehrer so ein besseres Bild machen kann. Vor allem lehrzielorientierte Tests, die eine differenzierte Diagnose auf der Feinzielebene ermöglichen, stellen ein geeignetes Hilfsmittel dar, um den nachfolgenden Unterricht genauer zu planen und auf die festgestellten Stärken und Schwächen der Klasse zuzuschneiden. Auch während des Unterrichtens muss für die ständige Anpassung einzelner Maßnahmen und Handlungen an das sich fortlaufend verändernde Wissen der Lernenden gesorgt werden. Man spricht bei diesen kurzfristig in der Situation erfolgenden Anpassungen von Mikroadaptationen. Während des Unterrichtens kann der Lehrer nur in sehr begrenztem Umfang auf diagnostische Hilfsmittel, etwa Tests, zurückgreifen. Er ist stattdessen auf Beobachtungen und subjektive Einschätzungen angewiesen. Der Lehrer muss insbesondere ständig Lernvoraussetzungen abschätzen, Lernerfolge einschätzen und darüber hinaus Ursachen für Lernschwierigkeiten abklären. Unterrichten wird gelegentlich als ein fortlaufendes Treffen von Entscheidungen beschrieben. Solche Entscheidungen können beim erfahrenen Lehrer mit einem relativ niedrigem Grad bewusster Aufmerksamkeit ablaufen. Dies fängt bereits vor dem Unterricht mit dem Aufstellen eines Unterrichtsplans an, der beim erfahrenen Lehrer meist nicht aus ausführlichen Aufzeichnungen besteht, sondern vielleicht nur einige wenige Stichpunkte umfasst. Entscheidend sind weniger die schriftlichen Aufzeichnungen, sondern der kognitive Plan, also das geistige Bild vom Verlauf einer Unterrichtsstunde. Die dabei zu treffenden Entscheidungen betreffen die Auswahl von Aufgaben, die Einleitung von Unterrichtsaktivitäten, den Übergang von einer Aktivität zur nächsten, das Einschieben von Überprüfungsphasen, das Stellen von Fragen, das Aufrufen bestimmter Schüler, das Reagieren auf Antworten oder den Einschub zusätzlicher Erklärungen oder Übungen. Erfahrene Lehrer greifen dabei auf Handlungsroutinen zurück, die im Laufe der Zeit entwickelt wurden. Untersuchungen deuten darauf hin, dass die diagnostische Kompetenz - und hier vor allem die Fähigkeit, Leistungsunterschiede einzuschätzen- eine Katalysatorfunktion für den Lern- und Unterrichtserfolg hat: Für sich allein genommen ist sie unwesentlich für den Lernerfolg der Schüler; ein hoher Lernerfolg ergibt sich erst dann, wenn hohe diagnostische Kompetenz mit bestimmten didaktischen Maßnahmen gekoppelt ist (vgl. Sehrader & Helmke, 1987; Weinert & Lingelbach, 1995). Dies konnte empirisch für zwei Unterrichtsmerkmale belegt werden: den Einsatz von Strukturierungshilfen und von individueller fachlicher Unterstützung. Der Umstand, dass ein Lehrer häufig strukturierende Hinweise gibt (Zusammenhänge deutlich macht, Wichtiges hervorhebt usw.) ist für sich genommen nicht ausschlaggebend für den Lernerfolg der Schüler, sondern

54

Friedrich-Wilhelm Sehrader und Andreas Helmke

nur dann, wenn die Lehrkraft gleichzeitig über eine überdurchschnittliche diagnostische Kompetenz verfugt. Dies deutet darauf hin, dass Strukturierungshilfen dann wirksam sind, wenn sie an die unterschiedlichen Lernvoraussetzungen der Schüler angepasst sind, wenn sie also in der richtigen Situation und gegenüber dem richtigen Schüler erfolgen. Ähnliches gilt fur individuelle fachliche Unterstützungsmaßnahmen, also Hilfen und Hinweise, die der Lehrer einzelnen Schülern während Stillarbeitsphasen gibt. Die Ergebnisse dieser Studien unterstreichen die Bedeutung einer engen Verflechtung von Diagnoseaktivitäten und Unterrichtsmaßnahmen. Das fortlaufende Diagnostizieren im Rahmen der Unterrichtstätigkeit könnte sich allerdings sogar ungünstig auswirken, wenn es nicht diskret erfolgt und sensibel gehandhabt wird, sondern wenn sich die Schüler dadurch ständigen Leistungsüberprüfungen und -bewertungen ausgesetzt fuhlen. Wie aus Abbildung 1 hervorgeht, stützen sich Lehrkräfte bei ihren Leistungsurteilen in der Regel nicht nur auf die Leistungen in speziell dafur vorgesehenen Prüfungssituationen, sondern auch auf die während des Unterrichts gewonnenen Eindrücke. In letzter Zeit wurde speziell am Unterricht in Deutschland kritisiert, dass Lern- und Leistungssituationen zu sehr vermischt würden (Weinert, 1999b): Während fur den Erwerb eines anspruchsvollen Wissens selbständige, aber häufig auch mit Fehlern verbundene Lernaktivitäten wichtig seien, gehe es in Leistungssituationen um die fehlerfreie Demonstration der erworbenen Fähigkeiten. Wenn aber bereits in der Lernsituation Leistungsbewertungen erfolgten, sei dies der Lernmotivation und dem Lernen abträglich. Um diese Überlegungen noch stärker zur Geltung zu bringen, ließe sich das in Abbildung 1 dargestellte Modell entsprechend erweitern: Die Tendenz von Lehrkräften, in die Unterrichtsgestaltung Leistungsbewertungen einfließen zu lassen und somit unterrichtliche Lernsituationen mit Leistungssituationen zu verknüpfen, könnte als eine allgemeine pädagogische Orientierung [4] angesehen werden, die über einen zusätzlichen Pfad mit der Unterrichtsgestaltung [5] in Verbindung zu bringen wäre.

Verbesserung von Leistungsbeurteilungen Der Nutzen objektiver Informationen

Das subjektive Lehrerurteil ist also in verschiedener Hinsicht korrektur- und ergänzungsbedürftig. Objektive, zuverlässige und gültige Informationen über Schülerleistungen, wie sie wissenschaftlich erprobte Testverfahren bieten, können dafur eine wertvolle Hilfe sein; sie dienen nicht zuletzt auch der Überprüfung und Korrektur der eigenen Erwartungen und Einschätzungen. Normorientierte Testverfahren können Lehrkräfte dabei unterstützen, die Leistungen ihrer Schüler über den Rahmen der eigenen Klasse hinaus zutreffend einzuschätzen. Schulleistungstests, bei denen der Schüler mit einer Alters- oder Jahrgangsnorm verglichen wird, geben dem Lehrer Informationen darüber, wie einzelne Schüler und die gesamte Klasse im Vergleich zum gesamten Altersjahrgang bzw. zur jeweiligen Klassenstufe einzustufen sind. Abgesehen davon,

Alltägliche Leistungsbeurteilung

55

dass Altersnormen irgendwann einmal veralten und der ständigen Aktualisierung bedürfen, haben die herkömmlichen normorientierten Schulleistungstests allerdings einen Nachteil: Sie sind meistens recht allgemeiner Natur, d. h. vornehmlich auf die Grobziele des Curriculums, aber nur wenig auf die Feinziele des Unterrichts abgestimmt (vgl. Ingenkamp, 1997a). Deshalb sind sie oft wenig instruktionssensitiv, d. h. nur begrenzt geeignet, den Erfolg einzelner Unterrichtseinheiten und -maßnahmen zu beurteilen. Lehrzielorientierte Tests geben dagegen direkt Aufschluss darüber, inwieweit ein Schüler bestimmte Lehrziele beherrscht. Ihnen liegt eine sachbezogene Bezugsnorm zugrunde. Um feststellen zu können, was ein Schüler oder eine Schülerin im Hinblick auf ein vorgegebenes Lehrziel bereits kann bzw. noch nicht kann, ist eine differenzierte Aufschlüsselung von Leistungen erforderlich. In vielen Sachgebieten ist dies aber entweder nicht möglich oder zu aufwendig, wohingegen soziale V ergleiehe praktisch immer möglich sind, so dass viele Lehrkräfte einen sozialen Vergleichsmaßstab fi.ir die Bewertung zu Grunde legen (lngenkamp, 1997a). Sofern der Test die im Unterricht behandelten Lehrziele abdeckt, ist er curricular valide. Lehrer haben oft Schwierigkeiten, spezifische Leistungen differenziert zu beurteilen, insbesondere wenn es sich um weniger offensichtliche oder weniger vertraute Leistungsaspekte handelt, z.B. die Fähigkeit zum Lösen bestimmter Probleme. Testinformationen stellen dafür eine Hilfe dar. Es ist seit langem bekannt, dass die Leistungsfähigkeit eines Lernenden nicht nur im aktuell erreichten Leistungsstand zum Ausdruck kommt, sondern auch in den bestehenden Entwicklungsmöglichkeiten, also dem durch Unterrichtsmaßnahmen oder bestimmte Hilfestellungen potentiell erreichbaren Leistungsniveau. Mit sogenannten Lerntests kann die Fähigkeit, vom Unterricht bzw. von Hilfen verschiedener Art zu profitieren, gemessen werden. Dabei wird im Grunde nichts weiter getan, als den Test zu zwei verschiedenen Zeitpunkten vorzugeben und eine Instruktions- oder Trainingsphase zwischen beiden Messungen einzuschieben. Entscheidend ist dann nicht, wieviel jemand bei der ersten oder zweiten Testung leistet, sondern wie effizient er die angebotenen Hilfen nutzen und sich dadurch verbessern kann. Ein solches Vorgehen, das der Logik der Förderdiagnostik verwandt ist, sensibilisiert die Lehrkraft für das Leistungspotential eines Schülers (vgl. etwa Schrader, 1997). Testergebnisse können nicht nur die Leistungsbeurteilung der Schüler verbessern, sondern erlauben auch eine vom subjektiven Urteil des Lehrers unabhängige Evaluation des Unterrichtserfolgs. Dieser lässt sich strenggenommen erst dann beurteilen, wenn die vom Lehrer vorgefundenen Eingangsvoraussetzungen der Schüler in Rechnung gestellt werden (ob es sich z. B. um eine besonders leistungsstarke oder leistungsschwache Klasse mit günstigen oder ungünstigen Bildungsvoraussetzungen handelt). Die Möglichkeit, unterschiedliche Eingangsbedingungen statistisch zu "bereinigen", bieten bislang vor allem die landesweit angelegten Leistungsstudien (wie LAU in Harnburg; QuaSUM in Brandenburg oder MARKUS in Rheinland-Pfalz). Zusätzlich zu den dort eingesetzten, auf den Lehrplan abgestimmten Tests werden z. B. mit Hilfe von Fragebögen verschiedene lernerleichtemde oder -erschwerende Kontextmerkmale (Klassengröße, soziale Schicht, muttersprachliche Kompetenz usw.) erfasst. Anschlie-

56

Friedrich-Wilhelm Sehrader und Andreas Helmke __ _____

ßend wird mit statistischen Techniken (Regressionsmethoden) berechnet, welche Leistungen bei bestimmten Ausprägungen der Kontextmerkmale zu erwarten sind. Mit Hilfe dieser Erwartungswerte kann man dann abschätzen, wie die Leistungen einzelner Klassen ausgesehen hätten, wenn der Kontext (z. B. die Klassengröße) in allen Klassen gleich gewesen wäre. Bei dieser Bereinigung bekommen Klassen mit ungünstigen Kontextbedingungen gewissermaßen einen Bonus, Klassen mit günstigen Ausgangsbedingungen dagegen einen Malus. Man bekommt auf diese Weise eine anschauliche Vorstellung davon, wie die Leistungsergebnisse vermutlich ausgefallen wären, wenn alle Klassen die gleichen Ausgangsbedingungen gehabt hätten. (Die statistisch bereinigten Ergebnisse haben den Charakter einer gut fundierten Hypothese. Um zu prüfen, ob die Ergebnisse in der realen Situation auch tatsächlich so ausfallen, wie durch die Bereinigung vorhergesagt, müsste man in allen Klassen tatsächlich die selben Ausgangsbedingungen herstellen, was in der Realsituation praktisch nicht möglich ist). Diese bereinigten Leistungsergebnisse werden den Lehrkräften ebenfalls zurückgemeldet. Weichen Wert dies für eine vergleichende Einschätzung des eigenen Unterrichtserfolgs hat, ist zur Zeit noch völlig ungeklärt und muss in entsprechenden Untersuchungen, etwa dem von uns gerade begonnenen Projekt WALZER, abgeklärt werden. Eine Einschränkung besteht jedoch darin, dass bei Studien, die lediglich im nationalen Rahmen durchgefiihrt werden, das Curriculum und die ihm zugrundeliegenden Lehrziele meistens nicht problematisiert, geschweige denn in Frage gestellt werden. Auch bestimmte in den Unterrichtstraditionen eines Landes verwurzelte Einseitigkeilen (z. B. der stark auf dieVermittlungvon Routineverfahren ausgerichtete deutsche Mathematikunterricht im Unterschied zum stärker aufVerständnisund Problemlösefähigkeit abzielenden Unterricht in Japan) können so nur schwer erkannt werden. International vergleichende Leistungsstudien wie TIMSS können insofern für bestimmte Leistungsaspekte (z. B. Problemlösefähigkeiten und Schlüsselqualifikationen), die im nationalen Rahmen nicht genügend beachtet werden, sensibilisieren. Sie bieten darüber hinaus Anhaltspunkte für eine vergleichende Einschätzung der Angemessenheit der Leistungsanforderungen und können so Einfluss auf die Bildung anspruchsvoller Unterrichtsziele haben.

Rückmeldung von Leistungen und ihre Nutzung Dass Lehrer als Folge externer Evaluationen Rückmeldungen über die Leistungen ihrer Schüler und den Erfolg ihres Unterrichts erhalten, stellt zur Zeit sicher noch eine Ausnahmesituation dar, obwohl der Trend eindeutig in diese Richtung geht. Es ist daher auch noch wenig darüber bekannt, welchen Wert solche Informationen für die Lehrkräfte tatsächlich haben, wie man die Rückmeldungen zur Erzielung höchstmöglicher Verständlichkeit und Brauchbarkeit gestalten müsste, wie die Lehrkräfte damit umgehen und welche Wirkungen sie zeitigen. In den seltensten Fällen kommt es allein schon deshalb zu Veränderungen, weil Lehrkräften ein schlechtes, durch ungünstige äußere Umstände nicht mehr erklärbares Leistungsergebnis ihrer Klasse mitgeteilt wird. Zwischen dem Erhalt einer solchen Leis-

Alltägliche Leistungsbeurteilung

57

tungsrückmeldung, einer dadurch veranlassten Verbesserung des Unterrichts und letztendlich effizienterem Lernen und besseren Leistungen liegt ein weiter Weg, der noch gezielter erforscht werden muss: Erforderlich ist unter anderem, dass die Rückmeldungen überhaupt zur Kenntnis genommen, verstanden und genauer analysiert werden. Dabei müssen genauere Vorstellungen über die Ursachen etwaiger Leistungsdefizite - auch was den eigenen Unterricht anbetrifft - entwickelt und überprüft werden; und es müssen dann tatsächlich auch geeignete Maßnahmen zur Verbesserung der Leistungen in Gang gesetzt werden. Von entscheidender Bedeutung ist vermutlich auch, wie in den Schulen mit derartigen Rückmeldungen umgegangen wird, welche Unterstützung Lehrkräfte bei der Nutzung und Umsetzung der vermittelten Informationen bekommen. Leistungsstudien könnten nicht nur allgemein für die Verbesserung des Unterrichts, sondern auch direkt für die Verbesserung diagnostischer Kompetenzen genutzt werden. So könnte man z. B. die beteiligten Lehrkräfte einschätzen lassen, wie die Leistungen ihrer Schüler aussehen, und ihnen später Rückmeldung über die Angemessenheit dieser Einschätzungen geben. Auf diese Weise würde man die Lehrkräfte dazu veranlassen, ihre Erwartungen und Einschätzungen explizit zu machen und zu reflektieren, um so Aufschluss über verschiedene Beurteilungstendenzen zu gewinnen (z. B. ob man dazu neigt, Leistungen zu überschätzen oder zu unterschätzen) (vgl. dazu Wahl, Weinert und Huber, 1997). Man könnte Lehrkräfte so auch anregen, dieses Vorgehen dann später selbständig zu praktizieren. Die Nutzung solcher Rückmeldungen für die Verbesserung des Unterrichts und der eigenen diagnostischen Kompetenzen verspricht vor allem dann Erfolg, wenn von verschiedenen Beteiligten gemeinsame Anstrengungen unternommen werden, die in ein schulisches Qualitätsmanagement eingebettet sind. Maßnahmen wie Fachkonferenzen, wechselseitige Unterrichtsbesuche, Team-Teaching oder Vergleichsarbeiten könnten dabei hilfreich sein. Unerlässliche Rahmenbedingungen dafür sind eine gute innerschulische Kommunikation und ein positives Evaluationsklima.

Fazit Alltägliche Leistungsbeurteilungen im Klassenzimmer spielen eine wichtige Rolle ftir die Unterrichtsgestaltung und den Lernerfolg. Sie so vorzunehmen, dass das Lernen verbessert wird, ohne dass sich Schüler einer fortgesetzten Bewertung ausgesetzt fühlen, dürfte ein Schlüssel für den Unterrichtserfolg sein. Die Beurteilung von Schülern ist eine schwierige und fehleranfällige Aufgabe für den Lehrer. Um sie nachhaltig zu verbessern, ist eine kontinuierliche Absicherung und Unterstützung der informellen Diagnoseleistungen des Lehrers nötig (Schrader, 1997). Dies kann durch objektive Leistungsmessungen mit Hilfe standardisierter Tests erfolgen. Der regelmäßige Einsatz derartiger Verfahren kann dem Lehrer gerade zu solchen Fragen Hinweise geben, die er selbst nur sehr schwer beurteilen kann: Wie die Leis-

58

Friedrich-Wilhelm Sehrader und Andreas Helmke

tungen der eigenen Schüler im Vergleich zu anderen Klassen beziehungsweise zum gesamten Altersjahrgang aussehen, und wie gut bestimmte Lehrziele von den einzelnen Schülern erreicht wurden. Dadurch bekommt sein Urteil nicht nur eine breitere und sicherere Basis, sondern er kann durch den gezielten Vergleich seiner subjektiven Einschätzungen mit den erzielten Testergebnissen auch sein Urteilsvermögen verbessern. Dazu müsste allerdings die Fähigkeit und Bereitschaft, solche Methoden anzuwenden und zu nutzen, in der Lehreraus- und -fortbildung stärker als bislang gefördert werden. Schließlich müssten die Leistungsbeurteilungen einzelner Lehrkräfte sowohl auf Schulebene als auch zwischen einzelnen Schulen stärker koordiniert werden. V ergleichende Leistungsstudien könnten hierfiir entscheidende Impulse geben.

Powered by TCPDF (www.tcpdf.org)

KAPITEL4

Bezugsnormen und schulische Leistungsbeurteilung Falke Rheinberg

Messen und Beurteilen Voraussetzung fiir jede Leistungsbeurteilung ist zunächst, dass man irgendein Ergebnis ermitteln kann, das sich nach Menge (z. B. Zahl heute richtig geschriebener Vokabeln) und/oder Güte (z. B. Qualität der Aussprache dieser Vokabeln) näher bestimmen lässt. Dieser Punkt betriffi die Leistungsmessung. Nun lässt sich leicht zeigen, dass die bloße Feststellung eines noch so exakt ermittelten Leistungspunktwertes fiir sich allein genommen noch wenig besagt. Die Mitteilung: "Sie haben bei einem Lerntest zum Inhalt des jetzigen Kapitels 28,5 Punkte erreicht" würde den Leser nicht sonderlich klüger machen. Er wüsste nämlich nicht, ob das viel oder wenig ist. Für solche Einschätzung würde er Vergleichsstandards benötigen. Diese Standards könnten nun verschieden hoch oder niedrig sein. Abhängig davon können 28,5 Punkte sehr viel oder sehr wenig, eine bessere oder schlechtere Leistung sein. Dies ist eine Frage der Leistungsbeurteilung. Beurteilung bedeutet hier: Vergleich eines ermittelten Ergebnisses mit einem Standard.

Eine kleine Beurteilungsaufgabe Interessanter als die bloße Höhe dieser Vergleichsstandards ist die Frage, woher ein jeweiliger Standard stammt. Überraschenderweise gibt es nämlich qualitativ scharf unterscheidbare Quellen, aus denen man solche Standards herleiten kann. Statt dies abstrakt abzuhandeln, ist es anschaulicher, vorweg einmal die nachfolgende Übung zu machen. Sie ist als "Kleine Beurteilungsaufgabe" 1 in vielen Untersuchungen bei Lehrern eingesetzt worden.

1

Diese Aufgabe kann auch im Internet mit einer Ergebnisrückmeldung bearbeitet werden. Adresse: http://www.phil.uni-sb.de/-jakobs/paedpsych/rheinberg/kleine Beurteilungsaufgabe.htm

60

Falko Rheinberg

Kleine Beurteilungsaufgabe

Eine durchschnittliche Schulklasse macht in monatlichen Abständen Schulleistungstests, in denen jeweils der Unterrichtsstoff des letzten Monats abgefragt wird. ln jedem Test kann man maximal 100 Punkte erreichen. Die Tests sind so aufgebaut, dass der Klassendurchschnitt bei ca. 50 Punkten liegt. Neun Schüler erreichten bei den letzten drei Tests die unten angeführten Punkte. Ihre Aufgabe besteht darin, bei jedem der neun Schaler das letzte Testergebnis zu beurteilen. Wenn Sie das Ergebnis eines Schülers für eine gute Leistung halten, so können Sie einen bis fünf Pluspunkte (++ ... ) geben. Halten Sie dieses Ergebnis für eine schlechte Leistung, so können Sie einen bis fünf Minuspunkte(-- ... ) geben. Bitte geben Sie pro Ergebnis entweder nur Plus- oder nur Minuspunkte, also nicht beides gleichzeitig! Wenn sie in eine Zeile weder Plus- noch Minuszeichen schreiben, so bedeutet das, dass Sie das Ergebnis weder für eine gute noch für eine schlechte Leistung halten. Beziehen Sie sich bei Ihrer Beurteilung bitte auf eines Ihrer Unterrichtsfächer. Erreichte Punkte 1. Test 2. Test 3. (letzter) Test

(j)

60

55

(l)

25

25

@

85

80

®

50

50

65

70

@

15

20

(J)

140

45

®

175

75

®

135

30

Beurteilung des letzten Testergebnisses (bitte Plus- bzw. Minuszeichen in die Kästchen schreiben)

Es kann sein, dass Sie bei einigen Schülern sich unsicher über die .,richtige" Beurteilungsweise sind. Entscheiden Sie sich dann bitte so, wie Sie persönlich das für angemessen halten.

Bezugsnormen und schulische Leistungsbeurteilung

61

Üblicherweise entsteht bei dieser Übung eine gewisse Unsicherheit. Womit soll man das letzte Resultat zwecks Beurteilung vergleichen? Mit den Resultaten der anderen Schüler? Das wird häufig (wenn auch nicht ganz "richtliniengetreu") bei der Benotung von Klassenarbeiten gemacht. Oder sollte man nicht auch mitberücksichtigen, ob sich der Schüler im Vergleich zu früher verbessert bzw. verschlechtert hat? Das wäre dann eine "ftir ihn" gute oder schlechte Leistung. Im ersten Fall würde man in der Tabelle senkrecht, im zweiten Fall waagerecht vergleichen. Das hätte bei einigen Schülern erhebliche Konsequenzen. Schüler 3 hätte je nach Vergleichsperspektiveeinmal Pluspunkte (weil überdurchschnittliches Niveau) und einmal Minuspunkte (weil abfallende Tendenz). Bei Schüler 6 wäre das genau umgekehrt. Solche Vergleichsperspektiven nennt man Bezugsnormen. Der Vergleich mit anderen ist ein sozialer Vergleich. Deshalb spricht man von einer sozialen Bezugsnorm. "Gut" ist das, was über dem Durchschnitt ist, "schlecht" ist das, was darunter liegt. Der Vergleich des Schülers mit sich selbst (ansteigende oder abfallende Tendenz) ist ein individueller Vergleich. Man spricht deshalb auch von einer individuellen Bezugsnorm. (Gleichbedeutend werden mitunter auch die Begriffe "autonome" oder "temporale" Bezugsnormen verwandt.) Diese beiden Bezugsnormen sind übrigens keineswegs eine Erfindung theoretisierender Psychologen. Sie finden sich in vielen alltäglichen Leistungsbeurteilungen wieder, wie sie z. B. in Sportsendungen vorgenommen werden: "Er ist eindeutig der Schnellste von allen. Sein Sieg ist eine hervorragende Leistung" (soziale Bezugsnorm). "Er ist über sich hinausgewachsen und ist Dritter geworden. Diese Steigerung hätte in dieser Saison niemand fiir möglich gehalten - eine hervorragende Leistung" (individuelle Bezugsnorm). Im übrigen ist die Unterscheidung der beiden Vergleichsperspektiven der Leistungsbeurteilungnicht neu. Sie findet sich mehr oder weniger implizit z. B. in Äußerungen von A. Fischer, J. F. Herbart oder J. H. Pestalozzi.

Genauere Klärung des Sachverhaltes Wenn auch als Vergleichsperspektiven also schon länger bekannt und im Alltag intuitiv angewendet, sind die genaueren Bedingungen und Folgen der verschiedenen Bezugsnormen erst in den letzten 25 Jahren genauer untersucht worden. Dass die Bezugsnormen trotz ihrer erheblichen Folgen fiir die Beurteilung so lange eher unbedeutend erschienen, liegt wohl daran, dass sie typische Hintergrundvariablen sind. Das ist genauso wie bei der Wahrnehmung. Das gleiche Objekt wirkt vor einem dunklen Hintergrund heller als vor einem hellen Hintergrund. Der Hintergrund hat also erheblichen Einfluss auf das, was man sieht. Trotzdem wird er selbst als wirksame Größe nicht erkannt. Er geht statt dessen als nicht weiter beachtete Konstante in den Wahrnehmungsprozess ein. Was bei der Wahrnehmung (meistens) Sinn macht, kann bei der Leistungsbeurteilung deshalb Unklarheiten schaffen, weil es -wie oben bei der kleinen Beurteilungsaufgabe

62

Falko Rheinberg

erlebt - qualitativ verschiedene Bezugsnormen gibt, die als Hintergrund ganz verschiedene Seiten desselben Resultates sichtbar machen. Die folgende Abbildung soll das verdeutlichen.

A

B

,.,·

,.-· .... .·

Lernzeit I = individuelle Bezugsnorm 2 = soziale Bezugsnorm 3 = sachliche Bezugsnorm

A, B, C

=

Schüler mit unterschiedIiehern Lerntempo

Abbildung 1: Vergleichsperspektiven bei drei Bezugsnormen zur Leistungsbewertung (nach Rheinberg & Krug, 1999, S. 41)

Die Abbildung zeigt die Kenntnisse und Fertigkeiten, die drei fiktive Schüler A, B und C in einer bestimmten Lernzeit (z. B. einem Schulhalbjahr) in einem bestimmten Bereich erworben haben. Dieser Bereich könnte z. B. der aktive Wortschatz in einer Fremdsprache sein oder die Qualität der Aussprache oder die Zahl richtig geschriebener Wörter oder die übersprungenen Zentimeter beim Hochsprung und anderes mehr. Da als Folge von Lernen Kenntnisse und Fertigkeiten in der Regel zunehmen, steigen alle drei Lernkurven an. Weiterhin haben Lernkurven üblicherweise Schwankungen. Das liegt z. T. an der wechselnden Tagesform oder an anderen Zufälligkeiten. Wichtiger ist in diesem Zusammenhang aber der Einfluss, den Anstrengung und Bemühen des Schülers sowie Art und Intensität des Übens auf den Lernzuwachs haben. Da dieser Lerneinsatz erheblich variieren kann, schwankt auch der jeweilige Lernzuwachs über die Lernzeit hinweg. Schließlich trägt die Abbildung realistischerweise noch der Tatsache Rechnung, dass nicht alle Schüler gleich schnell lernen. Die drei Lernkurven sind verschieden steil.

Bezugsnormen und schulische Leistungsbeurteilung

63

Üblicherweise gibt es nämlich individuelle Unterschiede in der Lernfahigkeit fiir bestimmte Dinge - worauf auch immer diese Unterschiede wiederum zurückzufUhren sind. Beim aktiven Wortschatz wird das sicher ganz andere Ursachen haben als beim Hochsprung. Das soll hier nicht weiter interessieren. Gemeinsam ist Fähigkeitsunterschieden, dass sie sich in der Regel nicht von einem Tag auf den anderen verändern. Die beiden Vergleichsarten, die in der "Kleinen Beurteilungsaufgabe" oben bereits praktisch demonstriert wurden, sind hier als Pfeile, d. h. als Vergleichsperspektiven 1 und 2 eingezeichnet. (Die dritte Vergleichsperspektive, nämlich die sachliche Bezugsnorm, wird anschließend behandelt). Die soziale Bezugsnorm, also der Vergleich mit anderen (Pfeil 2), macht sehr gut deutlich, wer auf einem jeweiligen Gebiet zu den besseren und wer zu den schlechteren Schülern gehört. Wenn die Schüler hier hinreichend verschieden sind, entsteht ein relativ konstantes Leistungsbild. Schüler A ist gleichbleibend besser als Schüler B und der wiederum besser als Schüler C. Da zeitstabile Leistungsunterschiede meist zeitkonstanten Ursachen, insbesondere Fähigkeiten zugeschrieben werden, hebt diese Vergleichsperspektive überdauernde Kompetenzunterschiede zwischen Schülern besonders deutlich hervor. Die Vergleichsperspektive der sozialen Bezugsnorm ist überall dort sinnvoll, wo es darum geht, die dauerhaft Besten herauszufinden. Wer beispielsweise aus einer Zahl von Bewerbern die oder den Besten auswählen will, weil etwa die zu besetzende Position so anspruchsvoll und wichtig ist, dass niemand überqualifiziert sein kann (z. B. Besetzung eines Lehrstuhls an der Universität), der tut gut daran, möglichst zuverlässig und genau die bislang erbrachte Leistung zwischen den Bewerbern zu vergleichen. Das erhöht die Chance, diejenige Person mit der Position zu betrauen, die nach erwiesener Leistungsfahigkeit auch fiir die Zukunft die besten Ergebnisse erwarten lässt. Ähnliches gilt, wenn man bei begrenzten Mitteln Talentförderung betreiben will. Auch wenn im Prinzip viele förderungswürdig wären, wird man bei begrenzten Mitteln diejenigen auswählen, die im Vergleich zu den anderen die besten Effekte erwarten lassen. Damit werden die knappen Mittel am wirksamsten eingesetzt. Im übrigen wird die Zuteilung nach bislang erwiesener Leistung als gerecht erlebt, gerechter jedenfalls als eine Zuteilung nach persönlichen Beziehungen, Parteizugehörigkeit, Herkunft, Geschlecht, Religion u. a. (Heckhausen, 1974). Die Anwendung der sozialen Bezugsnorm muss sich übrigens nicht auf die Ermittlung der (relativ) Besten beschränken. Sind beispielsweise Mittel zur besonderen Förderung der schwachen und langsamen Schüler vorhanden, so ist es natürlich sinnvoll, die (relativ) schwächsten auszuwählen, um sie zu fördern. Auch dieses würde einen sozialen Vergleich erfordern. Rationaler wäre es allerdings, sich hierbei an sachliche Bezugsnormen (s. unten) zu orientieren. Damit könnte man nämlich verhindern, dass unnötigerweise bei den relativ leistungsschwächsten einer Schülergruppe eine Förderungsnotwendigkeit festgestellt wird, obwohl vielleicht alle Schüler dieser Gruppe die hier erforderlichen Kompetenzen bereits in hinreichendem Maß erworben haben und deshalb die Fördermittel in andere Bereiche fließen könnten. Das setzt voraus, dass solche inhaltlich definierten Standards fiir hinreichende Kompetenzgrade vorliegen. So etwas ist aber eher die Ausnahme, weswegen hilfsweise soziale Bezugsnormen häufiger ver-

64

Falko Rheinberg

wandt werden, als es rational begründbar wäre. Im Schulalltag werden soziale Bezugsnormen wohl am häufigsten bei der Zensurengebung verwandt, obwohl das bei genauer Beachtung von Zensurendefinitionen eigentlich nicht zulässig ist. Jede Bezugsnorm hat ihre "blinden Flecken". Die soziale Bezugsnorm hat mindestens drei. Der erste ist, dass man ohne weitere Hilfsmittel immer nur innerhalb einer gegebenen Schülergruppe vergleichen kann. Der Lehrer vergleicht innerhalb einer Schulklasse, bestenfalls innerhalb seiner Schule, ohne zu wissen, wo beim Vergleich mit Schülern aus anderen Schulen seine Schüler liegen würden. Er verwendet ein sog. klasseninternes Bezugssystem. Das kann zu bizarren Fehlbeurteilungen führen, die in Deutschland schon von lngenkamp (1977) in alarmierender Weise empirisch nachgewiesen wurden: Die gleiche Leistung wird mit "gut" oder "mangelhaft" beurteilt, je nachdem, ob der Schüler in einer leistungsstarken oder leistungsschwachen Schulklasse ist. Wie aktuelle Daten (TIMSS) zeigen, hat sich an diesem Missstand nicht viel geändert. Das ist besonders dann kritisch, wenn von solchen (Zensuren-)Beurteilungen Berechtigungen wie Studienplätze, begehrte Ausbildungsplätze, Stipendien usw. abhängen. Dieser "blinde Fleck" der sozialen Bezugsnorm ist wegen seiner gravierenden Konsequenzen schon frühzeitig bemerkt worden (zusammenfassend Ingenkamp, 1977). Zwei weitere wurden erst später beschrieben (Rheinberg, 1980; zusammenfassend Rheinberg & Krug, 1999). Der zweite ''blinde Fleck" liegt darin, dass die soziale Bezugsnorm den gemeinsamen Lernzuwachs aller unsichtbar macht. Dass in Abbildung 1 alle drei Schüler im Verlauf der Lernzeit immer mehr können und dazulernen, wird ausgeblendet. Es zählen ja nur die Unterschiede zwischen den Schülern. So kommt es, dass der Schüler C gleichbleibend "schlechte Leistungen" hat obwohl auch er über die Zeit merklich besser wird. Von daher überrascht nicht, wenn mehr als die Hälfte der Schüler von Lehrern, die sich ausschließlich an sozialen Bezugsnormen orientierten, am Schuljahresende sagten, sie könnten jetzt nur gleichviel oder sogar weniger(!) als zu Schuljahresbeginn (Rheinberg, 1980). Der dritte ''blinde Fleck" betrifft die Schwankungen im Lernzuwachs. Wenn in Abbildung 1 der schwächere Schüler C eine Veränderung in den beurteilten Lernergebnissen sehen soll, so müsste er Schüler B leistungsmäßig überholen. Bei hinreichend leistungsverschiedenen Schülern ist das aber eher unwahrscheinlich. So kann es sein, dass dieser Schüler gleichbleibend "schlechte Leistungen" rückgemeldet bekommt, gleichgültig, ob er sich angestrengt hat und einen fiir ihn ungewöhnlichen Zuwachs erzielt hat oder ob er gar nichts tut und noch weiter zurückfällt. Dasselbe gilt analog auch für andere Leistungsniveaus. Die soziale Bezugsnorm zeigt nur in Ausnahmefällen, d. h. bei leistungsmäßigen "Überholmanövern", wie das eigene Lernbemühen sowie die Art des Übens Einfluss auf das Lernresultat haben. Der zweite und der dritte "blinde Fleck" der sozialen Bezugsnorm haben ungünstige Auswirkungen auf die Lern- und Leistungsmotivation (Rheinberg, 1980, 1982).

Individuelle Bezugsnorm. Gerade unter diesem Aspekt erscheinen individuelle Bezugsnormen günstiger. (Das ist der Pfeill in Abb. 1). Hier wird im zeitlichen Längsschnitt ein jetzt erzieltes Ergebnis daran gemessen, was der Schüler auf diesem Gebiet zuvor

Bezugsnormen und schulische Leistungsbeurteilung

65

erreicht hat. Damit geht der individuelle Lernzuwachs direkt in die Leistungsbeurteilung ein und wird besonders deutlich gemacht. Bei Lehrern, die sich nicht nur an sozialen, sondern zugleich auch an individuellen Bezugsnormen orientierten, gaben immerhin etwa zwei Drittel der Schüler an, sie könnten jetzt am Schuljahresende mehr als zu Schuljahresbeginn (Rheinberg, 1980). Auch die Schwankungen im Lernverlauf werden unter individueller Bezugsnorm wie unter einem Vergrößerungsglas sichtbar gemacht. Schließlich sind es ja gerade die Veränderungen der Kenntnisse und Fähigkeiten, die hier in der Leistungsbeurteilung direkt zum Ausdruck kommen. Auf jedem Leistungsniveau sind gute (=besser als zuvor) wie auch schlechte Leistungen(= schlechter als zuvor) möglich. Von daher bestehen fiir alle Schüler etwa gleich gute Voraussetzungen, den Zusammenhang zwischen eigenen Lernbemühungen und Lernerfolg wahrzunehmen. Es zeigte sich, dass leistungsschwächere Schüler von der individuellen Bezugsnorm besonders profitieren, ohne dass leistungsstärkere benachteiligt wären. Allerdings ist schon hier einschränkend zu beachten, dass in (fast) allen Untersuchungen die individuelle Bezugsnorm als zusätzliche Beurteilungsperspektive eingeführt war, d. h. in Kombination mit anderen Bezugsnormen auftrat (Rheinberg, 1998). Letzteres überrascht nicht. Bei allen motivationalen Vorzügen hat die individuelle Bezugsnorm natürlich auch ihre "blinden Flecke". Der wichtigste ist hier, dass überdauernde Leistungsunterschiede zwischen Schülern ausgeblendet werden. Das hat für schwache, aber auch durchschnittliche Schüler einerseits den Vorteil, nicht durch ständig leistungsstärkere Mitschüler entmutigt zu werden. Andererseits ergibt sich aber der Nachteil, dass der Schüler eine ausgesprochen wichtige Informationsquelle zu sich selbst verliert. Aus der Sozialpsychologie ist lange schon bekannt, dass Menschen soziale Vergleiche suchen, um sich ihrer Einschätzungen sicherer zu werden. Das gilt insbesondere auch fiir Einschätzungen der eigenen Fähigkeit (Meyer, 1984). Würde man ausschließlich die individuelle Bezugsnorm verwenden, würden vielleicht alle zurecht die Überzeugung gewinnen, dass sie dazulernen können, wenn sie sich anstrengen. Sie wären sich allerdings höchst unsicher, aufwelchem Gebiet sie besondere, vielleicht außergewöhnliche Kompetenzen haben und aufwelchem weniger. Das verletzt das Bedürfuis nach sicherer Selbsteinschätzung und kann zudem zu unsinnigen Entscheidungen und zu Enttäuschungen führen - etwa bei der Berufs- oder StudienwahL So überrascht nicht, wenn sich die Schüler im Rahmen eines etwas artifiziellen Unterrichtsexperiments wieder mehr Informationen zur sozialen Bezugsnorm wünschten, nachdem ihre Lehrer zur (fast) ausschließlichen Anwendung individueller Bezugsnormen gebracht worden waren (Rheinberg, 1998). Abgesehen davon würde die individuelle Bezugsnorm als alleinige Beurteilungsperspektive zu irrationalen Konsequenzen führen, sofern an Leistungsbeurteilungen irgendwelche Berechtigungengeknüpft wären. So würde der Schüler, der sich im letzten Jahr vom "mangelhaft" auf "ausreichend" hochgearbeitet hat, einen Studienplatz in einem anspruchsvollen Numerus-Clausus-Fach erhalten, der Schüler, der konstant bei "sehr gut" läge jedoch nicht. Von daher sind Beurteilungen unter individueller Bezugsnorm bestens geeignet, wenn es darum geht, möglichst veränderungssensible, detaillierte

66

Falko Rheinberg

Rückmeldungen innerhalb eines Ausbildungsabschnittes zu geben, die über günstige Motivationsauswirkungen den Lernerfolg fördern. Bei Leistungsbeurteilungen dagegen, die dauerhafte Berechtigungen außerhalb dieses Ausbildungsabschnittes vermitteln (z. B. Studienplätze oder andere Zugangsberechtigungen), können individuelle Bezugsnormen keine nennenswerte Rolle spielen. Man könnte sie allenfalls als "letzten Trend" mit berücksichtigen, der zu einer leichten Auf- oder Abwertung einer anders vorgenommenen Beurteilung ftihrt.

Sachliche Bezugsnorm. Muss dann die gerade angesprochene "andere" Beurteilung unter sozialer Bezugsnorm erfolgen? Nicht notwendigerweise. Gerade bei Beurteilungen, die bestimmte Kompetenzen ausweisen sollen, die auch Personen oder Instanzen außerhalb eines Ausbildungsabschnittes informieren, sind inhaltlich beschriebene Standards hilfreich. Solche inhaltlich verankerten Standards nennt man sachliche Bezugsnormen. Der Vergleichsstandard liegt hier nicht in bereits erbrachten eigenen oder fremden Leistungen, sondern in Anforderungen, die in der Sache selber liegen: Man schafft es, über einen bestimmten Wassergraben zu springen oder man fällt hinein. Sachliche Bezugsnormen werden überall dort verwandt, wo bestimmte Mindestkompetenzen, insbesondere wegen gravierender Folgen erreicht sein müssen und wo sich solche Mindestkompetenzen messen lassen. In solchen Fällen sind sachliche Bezugsnormen meist mit Alternativentscheidungen verbunden (z. B. Lernziel erreicht oder nicht?) Sie könnten im Prinzip aber auch bei abgestuften Urteilen (z. B. Zensuren, s. unten) herangezogen werden. So wurden im Rahmen der TIMS-und der PISA-Studie verschiedene Kompetenzstufen inhaltlich definiert und voneinander abgegrenzt. Typische Beispiele für Alternativentscheidungen auf der Basis von Mindeststandards wären dagegen die Führerschein- oder die Pilotenscheinprüfung. Hier sind die Mindeststandards inhaltlich festgeschrieben. Die Beurteilung ist unabhängig davon, ob ein Kandidat besser oder schlechter als die anderen Prüflinge abschneidet (soziale Bezugsnorm). Im Extremfall könnten sogar alle Kandidaten einer Prüfungsgruppe durchfallen. Gänzlich unerheblich ist auch, ob sich der Kandidat gesteigert hat oder nicht (individuelle Bezugsnorm), solange die Steigerung nicht dazu gefuhrt hat, das inhaltlich definierte Kompetenzniveau zu erreichen. Im schulischen Bereich ist meist der Lehrplan Anker fiir sachliche Bezugsnormen. Von daher werden sachliche Bezugsnormen auch als "curriculare", mitunter auch als "lehrzielorientierte" oder "kriteriale" Bezugsnormen bezeichnet (Klauer, 1987). Was solche lehrplangeforderten Kompetenzgrade betrifft, so haben sowohl soziale als auch individuelle Bezugsnormen einen weiteren "blinden Fleck". Ob alle Schüler einer Klasse viel mehr oder viel weniger können, als das vom Lehrplan gewünscht ist, bleibt sowohl beim sozialen Vergleich zwischen verschiedenen Schülern, als auch beim individuellen Vergleich mit vorherigen Resultaten desselben Schülers unsichtbar. Das kann man erst sehen, wenn man die vorliegenden Resultate mit klaren inhaltlich bestimmten Maßstäben, also mit sachlichen Bezugsnormen vergleicht.

Liest man amtliche Zensurendefinitionen, so erkennt man häufig den allerdings etwas halbherzigen Versuch, Zensuren über solche sachliche Bezugsnormen zu bestimmen.

Bezugsnormen und schulische Leistungsbeurteilung

67

Halbherzig ist der Versuch insofern, als meist die "durchschnittlichen Anforderungen" als inhaltlicher Anker genannt werden, ohne diese genauer zu bestimmen. Wollte man die Zensurengebung tatsächlich an sachliche Bezugsnormen knüpfen, so müsste man den beurteilenden Lehrern pro Fach, Jahrgangsstufe und Schulform sehr genau sagen, was jemand können muss, um ein "ausreichend" oder ein "gut" zu bekommen. Dabei würde es sicher nicht nur theoretisch, sondern auch tatsächlich geschehen können, dass ganze Schulklassen ein "gut" oder "sehr gut", aber auch ganze Schulklassen (vielleicht sogar ganze Schulen) nur "mangelhaft" oder "ungenügend" erhielten. Die erwähnten Untersuchungen zum klasseninternen Bezugssystem (Ingenkamp, 1977) lassen so etwas sogar für die Schulen innerhalb eines einzigen Schulbezirkes vermuten! Solche, über Lehrplaninhalte genau definierten Kompetenzgrade wären für die beurteilenden Lehrer sicher hilfreiche Ankerpunkte. Je mehr allerdings Schulen ihr eigenes Profil entwickeln sollen, um so aufwendiger wird eine solche inhaltliche Definition. Das sollte aber kein prinzipielles Hindernis sein. Die Kompetenzstufenanalysen der TIMS- und der PISA-Studien zeigen, dass schulübergreifende Kriteriendefinitionen durchaus möglich und sinnvoll sind. Man muss sich allerdings darüber klar sein, dass hinter solchen Kriterien bestimmte Vorstellungen darüber stehen, welche Kompetenzen Unterricht vermitteln soll. Insbesondere, wenn diese Kriterien nicht gänzlich mit den Lehrplänen übereinstimmen, ist man gut beraten, genau zu prüfen, inwieweit man diese Vorstellungen inhaltlich akzeptiert. Der Hinweis, dass bestimmte Inhaltskonzepte international anerkannt seien, ist zweifellos wichtig, kann aber für sich allein kein hinreichendes Argument sein. (In den deutschen TIMSS- bzw. PISA-Erhebungen beispielsweise wird über zusätzliche Aufgaben versucht, nationale Curriculumsbesonderheiten zu berücksichtigen.) Schwieriger ist es, wenn die Schulaufsicht die Konsequenzen ihrer eigenen Anweisungen nicht völlig überschaut. So gibt es in einigen Bundesländern den sog. Drittelerlass. Danach muss eine Klassenarbeit, bei der ein Drittel der Schüler die Note "mangelhaft" und ''ungenügend" hat, wiederholt werden, es sei denn, der Schulleiter erteilt nach genauer Prüfung eine Ausnahmegenehmigung. Diese Regelung drängt dem Lehrer im unteren Teil der Notenskala faktisch die soziale Bezugsnorm auf. In leistungsschwachen Schulklassen bringt ihn das zwangsläufig in Widerspruch zur Zensurendefinition, die den Anker ja bei den Anforderungen (sachliche Bezugsnorm) und nicht beim Klassendurchschnitt (soziale Bezugsnorm) vorsieht. Solche Inkonsistenzen werden in der Praxis deshalb kaum auffällig, weil die sachliche Bezugsnorm, wie schon erwähnt, nur halbherzig und vage vorgegeben ist. Wären die Zensurendefinitionen statt des Verweises auf "durchschnittliche Anforderungen" tatsächlich inhaltlich exakt beschrieben, würde dieser Widerspruch viel schärfer in Erscheinung treten und zu produktiven Kontroversen führen. Man darf allerdings nicht verkennen, dass die Erstellung solcher inhaltlich definierten Zensurenstandards für jedes Fach, jede Klassenstufe und jede Schulform nicht nur einen enormen Konstruktionsaufwand erfordert, sondern auch die Flexibilität und die Freiheitsgrade der didaktischen Gestaltung des Lehrers einengt. Schließlich werden über die Zensurenstandards notwendig bestimmte Inhalte festgelegt. Ob man solche stärkere

68

Falko Rheinberg

Standardisierung des Curriculums begrüßen oder bedauern sollte, kann hier nicht diskutiert werden. Sie würde jedenfalls eine wahrscheinliche Folge sein. Abgesehen von solchen praktischen Schwierigkeiten, hat auch die sachliche Bezugsnorm ihre "blinden Flecken". Sie informiert genau genommen nur über die jeweils umschriebenen Fertigkeiten oder Kenntnisse. Ob diese Fertigkeiten auch auf besondere Lernfähigkeiten auf diesem Bereich verweisen oder eher Selbstverständlichkeiten in demjeweiligen Ausbildungsgang sind, ist dem inhaltlichen Kriterium selbst nicht anzusehen. Die Tatsache, dass sichjemand z. B. im Zahlenraum von 100 ohne Hilfe frei bewegen kann, kann eine nützliche Information für den Lehrer sein, der wissen will, worauf er sich bei seiner Unterrichtsplanung stützen kann. Mit Blick auf das zu erwartende Lerntempo wäre es allerdings schon wichtig zu wissen, ob dieses Kriterium soeben von einem Erstklässler oder einem Zehntklässler erreicht wurde. Ohne den Vergleich mit anderen ist kaum zu beurteilen, wie schwer oder leicht es im allgemeinen ist, das fragliche Kriterium zu erreichen und ob man deshalb aufbesondere Fähigkeiten und/oder besonderen Lerneinsatz dieses Schülers rückschließen kann. Diese Einschränkung gilt übrigens auch für den Schüler selbst. Auch ihm fehlen bei alleiniger Verwendung sachlicher Bezugsnormen Hinweise, aufwelchem Gebiet er besondere Fähigkeiten besitzt und aufwelchen Gebieten er sich besser nicht spezialisieren sollte, weil es viele andere Personen gibt, die die dort erforderlichen Kompetenzen schneller und besser erwerben. Insbesondere, wenn sachliche Bezugsnormen als Mindeststandards alternativ formuliert sind (bestanden oder durchgefallen), haben sie als zweiten "blinden Fleck" die Unsensibilität gegenüber Lemfortschritten. Die Person, die zum fünften Mal durch die Führerscheinprüfung gefallen ist, weiß ohne Zusatzinformationen nicht, ob sie inzwischen schon etwas besser Auto fährt oder nicht. Sie weiß nur: Es reichte auch dieses Mal nicht. Dieses Ausblenden der Lernzuwachsinformation- die ja den Kern der individuellen Bezugsnorm ausmacht - dürfte motivational ungünstig sein.

Einige praktische Konsequenzen Wie gezeigt, hat also jede Bezugsnorm ihre "blinden Flecken" und kann nicht für alle Zwecke eingesetzt werden. Es wäre ohnehin ein Irrtum zu glauben, ein Lehrer müsse sich auf eine Bezugsnorm festlegen. Folgt man Heckhausen (1974, 1989), so kommt es darauf an, dass Schüler lernen, sich unter verschiedenen Bezugsnormen zu bewerten. Dabei soll für die Zufriedenheit mit der eigenen Leistung (die sog. Selbstbewertung) die individuelle Bezugsnorm die Leitfunktion übernehmen, ohne dass Informationen zu anderen Bezugsnormen ignoriert werden. Um es an einem Grenzfall zu verdeutlichen: Ein Schüler, der sich in Mathematik von "ungenügend" auf "mangelhaft" hochgearbeitet hat, sollte wegen dieser Steigerung ähnliche Freude und Stolzaffekte erleben wie jemand, der sich von "gut" auf "sehr gut" steigert (individuelle Bezugsnorm). Gleichwohl sollte er zur Selbsteinschätzung wissen, dass es z. Z. noch viele andere Schüler gibt, denen Mathematik offenbar leichter fällt (soziale Bezugsnorm) und dass

Bezugsnormen und schulische Leistungsbeurteilung

69

es noch viele Dinge gibt, die er zu lernen hat, um das versetzungssichemde "ausreichend" zu bekommen (sachliche Bezugsnorm). Entscheidend ist aber, dass es die Fortschritte unter individueller Bezugsnorm unübersehbar machen, dass auch er dazu lernt und dass sein bislang unbefriedigender Leistungsstand in Bewegung ist. Diese Wahrnehmung ist die Grundlage fiir den erwähnten positiven Affekt. Voraussetzung dafür ist allerdings, dass der Schüler solche Informationen über seine Lernzuwächse überhaupt bekommt. Trivialerweise werden es Schüler kaum lernen, sich unter verschiedenen Bezugsnormen zu bewerten, wenn Lehrer nur eine einzige Bezugsnorm verwenden. In der Praxis scheint die Beurteilungssituation, dass ein Lehrer vor vielen etwa gleich alten Schülern steht, die alle das gleiche Curriculum mit den gleichen Tests durchlaufen, die soziale Bezugsnorm aufzudrängen. Es fanden sich jedenfalls Lehrer, die diese Bezugsnorm durchgängig anlegten - gleichgültig, ob sie Übergangsempfehlungen zu geben hatten, ob sie Noten verteilten oder ob sie mit dem Schüler allein über seine Leistungen sprachen (Rheinberg, 1980). Damit sorgen sie zwar für eine unübersehbare Konsistenz ihrer Urteile. Sie machen ihren Schülern allerdings klar, dass es nur die eine gültige Weise gibt, gute Leistungen zu haben, nämlich besser zu sein als andere. Das wirkte sich, wie schon erwähnt, besonders ungünstig bei leistungsschwächeren Schülern aus. Letzteres überrascht um so weniger, als diese Lehrer gute oder schlechte Schulleistungen bevorzugt mit hoher oder niedriger Fähigkeit/Begabung erklären. Das liegt ja - wie eingangs erwähnt- bei sozialer Bezugsnorm recht nahe. Weiterhin bieten sie flir ihre Klassen einen möglichst gleichförmigen Unterricht an ohne für individuelle Abstimmungen wie z. B. Zusatzerklärungen oder besondere Übungen zu sorgen. Für leistungsschwächere Schüler ergibt sich damit die Situation, häufig vor Lernanforderungen zu stehen, die sie nicht schaffen, wobei der Leistungsvergleich mit anderen zeigt, dass andere ständig viel besser sind. Zudem geht aus den Reaktionen des Lehrers hervor, dass der desolate Leistungsstand auf einen Fähigkeitsmangel zurückgeht, der mithin kaum änderbar ist (Rheinberg, 1980, 1998). Lehrer, die sich dagegen (auch) an individuellen Bezugsnormen orientierten, erzielten sehr viel günstigere Motivationseffekte bei ihren Schülern. Allerdings wechseln sie je nach Beurteilungskontext die verwandte Bezugsnorm. Die individuelle Bezugsnorm wird von ihnen typischerweise bei Leistungsrückmeldungen im Unterricht oder im Gespräch mit dem Schüler allein verwandt. Sie selbst wie auch der Schüler sehen durch den Vergleich mit vorangegangenen Leistungen viel deutlicher, wie im Verlauf der Lernzeit die Kompetenzen wachsen und wie Lerngewinne vom eigenen Lerneinsatz abhängen (Rheinberg, 1980, 1998). Gleichwohl werden soziale (und sachliche) Bezugsnormen nicht ausgeblendet, weil (a) Zensuren zu vergeben oder Übergangsentscheidungen zu treffen sind und (b) die Situation des Klassenverbandes wie auch das Informationsbedürfnis der Schüler so etwas ohnehin kaum zulassen. Die dadurch erzeugte Bezugsnorm-Vielfalt fördert das Ziel, dass Schüler lernen, sich selbst mit Hilfe verschiedener Bezugsnormen zu bewerten. Dieses Ziel wäre allerdings gefährdet, wollte man versuchen, durch Benotungserlasse und besondere Unterrichtsformen die individuelle Bezugsnorm als alleinigen Bewertungsmaßstab durchzusetzen - was vernünftigerweise wohl niemand ernsthaft betreiben würde.

70

Falko Rheinberg

Bei den erwähnten Vorzügen einer zusätzlichen Berücksichtigung individueller Bezugsnormen darf man allerdings nicht übersehen, dass der Beurteilungsaufwand erhöht ist, weil der Lehrer ja viele individuelle Entwicklungen als Beurteilungsanker im Kopf haben muss. Zudem drängt diese Art der Beurteilung erfahrungsgemäß auch zu Versuchen, Unterrichtsanforderungen zumindest zeitweilig verschiedenen Lernständen der Schüler anzupassen. Die genauere Betrachtung individueller Lernverläufe macht nämlich unübersehbar, dass bestimmte Schüler von dem durchschnittsorientierten Unterrichtsangebat überfordert, andere hingegen gelangweilt sein werden. So etwas regt dazu an, bestimmte Zusatzangebote zu planen und anzuwenden. All das und anderes machen dem Lehrer bei der Verwendung individueller Bezugsnormen mehr Arbeit und erfordern zusätzliche Kompetenzen. In einer Reihe von Trainingsstudien wurden verschiedene Möglichkeiten erprobt, die Lehrern dieses Vorgehen unter Schulalltagsbedingungen ermöglichen sollen {Rheinberg & Krug, 1999). Erst wenig weiß man über die Kombination von sachlichen und individuellen Bezugsnormen. Diese Kombination würde in der Leistungsbewertung ausdrücken, wie sehr sich jemand in der Annäherung an das aktuelle Lehrziel verbessert hat. Gleichwohl würde ganz spezifisch deutlich, was auf dem Weg zur Lehrzielerreichung im Einzelnen noch zu tun bleibt. Sofern die Lehrziele nicht zu hoch sind oder zu weit in der Zukunft liegen, müsste diese Bezugsnorm-Kombination günstige Auswirkungen haben. Das ist aber erst wenig untersucht (Rheinberg, 1998). Erste laborexperimentelle Versuche führten zu ermutigenden Ergebnissen. Damit diese Kombination für Lehrer unter Schulalltagsbedingungen realisierbar wird, müssten sachliche Bezugsnormen in Form exakter lehrzielbeschreibender Kriterien vorliegen. Diese Voraussetzung scheint aber nur ausnahmsweise gegeben. Die Entwicklung solcher Kriterien wäre eine lohnende Aufgabe. Dies wäre zugleich auch eine notwendige Voraussetzung, um lehrzielorientierte Prüfverfahren zu entwickeln, die Iandes- oder gar bundesweit routinemäßig einsetzbar sind. Solche Verfahren wären fiir Lehrer eine große Hilfe. Testentwickler könnten dann nämlich relativ einfach ermitteln, welche Punktzahlen im jeweiligen Testverfahren durchschnittlich welchen Zensuren entsprechen. Lehrer hätten dann die Möglichkeit festzustellen, ob ihre eigene Zensurengebung in einem bestimmten Fach- verglichen mit dem Durchschnitt der Bundesrepublik - streng oder mild ist. Ob sie dann ihre Zensurengebung anpassen oder nicht, bliebe ihrer pädagogischen Entscheidung überlassen. Sie wüssten aber, dass es evtl. Abweichungen gibt und könnten daraus begründet Schlüsse ziehen. Diese Möglichkeit haben sie z. Z. nicht. Allerdings wurden, wie erwähnt, im Rahmen der TIMSund der PISA-Studie zunächst für Forschungszwecke Kompetenzstufen inhaltlich definiert, die eine Orientierung an sachlichen Bezugsnormen erlauben. Wie erste Projekte zeigen, lassen sich die daraus entwickelten Beurteilungsverfahren in der Praxis sinnvoll einsetzen. Wo im Schulalltag sachliche Bezugsnormen und darauf abgestimmte Messverfahren aber noch nicht vorliegen, wird man sich mit Provisorien behelfen - sofern man nicht alles so weiterlaufen lassen will, wie bisher. Um zumindest innerhalb derselben Schule gravierende Unterschiede in der Leistungsbeurteilung verschiedener Lehrer sichtbar zu

Bezugsnormen und schulische Leistungsbeurteilung

71

machen, kann man regelmäßig Parallelarbeiten in Klassen derselben Stufe schreiben, die dann von allen hier beteiligten Fachlehrern korrigiert werden. Welche Konsequenzen diese Lehrer dann aus den möglicherweise auffälligen Leistungs- und Beurteilungsunterschieden ziehen, sollte ihnen überlassen bleiben. Wichtig ist zunächst, dass solche Unterschiede überhaupt erkannt werden und dann vielleicht zu Diskussionen und vom Kollegium verantworteten Änderungen der Beurteilungspraxis fiihren. Dieses Verfahren zum Vergleich von Leistungsniveaus und Beurteilungsstandards ließe sich auch auf verschiedene Schulen ausdehnen. Man muss sich allerdings klar darüber sein, dass man damit lediglich Urteilsabweichungen unter sozialer Bezugsnorm sichtbar macht - was durchaus schon ein wichtiger Informationsgewinn sein kann. Ob jedoch ganze Schulen leistungsmäßig weit über dem Niveau liegen, das der Lehrplan vorsieht oder ob ganze Klassen oder Schulen diese Standards klar verfehlen, lässt sich damit nicht feststellen. Dazu bräuchte man, wie oben schon gesagt, sachliche Bezugsnormen. Aber auch wenn diese samt Messverfahren geliefert werden, bleibt es nach wie vor Sache des Lehrers, den Lernfortschritt des einzelnen Schülers unter individuellen Bezugsnormen sichtbar zu machen und bewertend hervorzuheben.

Powered by TCPDF (www.tcpdf.org)

KAPITELS

SchulleistungenLeistungen der Schule oder der Schüler? Franz E. Weinert

Rhetorische Fragen -wie jene in der Überschrift dieses Kapitels -brauchen keine argumentativen Antworten, weil durch die Frageform lediglich auf etwas Selbstverständliches mit Nachdruck hingewiesen oder für etwas Überraschendes aufbesondere Weise sensibilisiert werden soll. Beides ist hier beabsichtigt! Niemand wird daran zweifeln, dass Schulleistungen sowohl von der Qualität des Unterrichts als auch von den Kompetenzen der Schüler abhängen. Mit anderen Worten: Schulleistungen sind stets Leistungen der Schule und der Schüler! Und doch: Fragt man den berühmten Mann auf der Straße, unterhält man sich mit Lehrern verschiedener Schularten oder konsultiert man Erziehungswissenschaftler und Entwicklungspsychologen, so trifft man auf eine erstaunlich große Meinungsvielfalt, wenn es um die Gewichtung schulischer, außerschulischer und persönlicher Ursachen für die Lernfortschritte und die Leistungsunterschiede von Schülern geht. Während die meisten Experten und Laien einen kräftigen, wenn auch oft vagen Sowohl-Als-AuchStandpunkt einnehmen, kann man aus den wissenschaftlichen Extrempositionen die theoretischen und methodischen Probleme, aber auch die gravierenden Konsequenzen bei der Beantwortung dieser Frage erkennen. Das gilt nicht zuletzt für die Planung und Interpretation von empirischen Befunden aus vergleichenden nationalen und internationalen Leistungsmessungen in Schulen.

Pessimistische Fehleinschätzungen über die Wirksamkeit von Schulen Bedenkt man die Begeisterung, mit der die Entwicklung des Schulsystems, die Einführung der allgemeinen Schulpflicht und die Expansion des Bildungswesens in der Vergangenheit gefeiert wurden; macht man sich bewusst, wieviel Geld national und international für Schulen investiert wird; vergegenwärtigt man sich schließlich, welchen Teil ihrer Lebenszeit Menschen aus industrialisierten Ländern in Schulen oder schul-

74

Franz E. Weinert

ähnlichen Einrichtungen verbringen, dann ist man erstaunt, vielleicht sogar schockiert, wie groß die wissenschaftlichen Zweifel an der pädagogischen Wirksamkeit von Schulen sind. Noch 1975 fragten Good, Biddle und Brophy irritiert "Machen Schulen oder Lehrer eigentlich einen Unterschied aus? Es gibt keine sichere Antwort" (S. 3). Sollte es wirklich nichts ausmachen, ob, wie lange und welche Schulen jemand besucht; hätten gute oder schlechte Lehrer, große oder kleine Klassen, direkte Unterweisung oder offener Unterricht tatsächlich keine Auswirkungen auf die Qualität des Lernens und das Niveau der Lernleistungen von Schülern? Was sind die Gründe für eine so skeptische, ja pessimistische Erwartung gegenüber der Wirksamkeit von Schulen? Neben manchen theoretischen Überlegungen waren es vor allem die Befunde einiger empirischer Untersuchungen, die den Einfluss der Schule auf die Entwicklung und Bildung der Schüler in Frage stellten. So kamen zum Beispiel Jencks et al. (1973, S. 161f) zu folgenden bildungspolitisch brisanten Schlussfolgerungen: "•

Wenn wir Jedermanns Gene gleich machen könnten, würde die Ungleichheit der Testergebnisse (über Schulleistungen und kognitive Kompetenzen) wahrscheinlich um 33-50 Prozent fallen.



Wenn wir Jedermanns totale Umwelt gleich machen könnten, würde die Testergebnis-Ungleichheit um 25-40 Prozent fallen.



Wenn wir lediglich Jedermanns ökonomischen Status gleich machen könnten, würde die Testergebnis-Ungleichheit um 6 Prozent oder weniger fallen.



Wenn wir den Umfang der Schulbildung Aller gleich machen, könnte sich die kognitive Ungleichheit zwischen Erwachsenen um 5-15 Prozent verringern, was allerdings eine sehr grobe Schätzung ist.



Wenn wir die Qualität der Grundschulen gleich machen könnten, würde die kognitive Ungleichheit um 3 Prozent oder weniger verringert.



Wenn wir die Qualität der Sekundarschulen gleich machen könnten, würde die kognitive Ungleichheit um 1 Prozent oder weniger verringert."

Auch wenn die Darstellungsform bei der sprachlichen "Übersetzung" der statistischen Datenanalysen auf viele Leser sehr ungewohnt wirken dürfte, war der öffentliche Schock über die von Jencks et al. postulierte Wirkungsarmut des Schulsystems und seiner internen Qualitätsunterschiede groß. Dieser Schock wiederholte sich kürzlich, als Herrnstein und Murray (1994) in ihrem wissenschaftlich und gesellschaftspolitisch heftig umstrittenen Buch The Bell Curve zu ähnlichen Schlussfolgerungen kamen. Das umfangreiche, mit Statistiken überladene Werk enthält zwei grundlegende psychologische Aussagen und eine von den Autoren daraus abgeleitete, wissenschaftlich aber nicht ableitbare provokative bildungspolitische These: 1. Das Zusammenspiel von Unterschieden der genetischen Ausstattung und der sozioökonomischen Verhältnisse in den USA führt bei der Entwicklung von Kindem

Schulleistungen - Leistungen der Schule oder der Schüler?

75

schon sehr früh zu stabilen individuellen Unterschieden in den kognitiven Fähigkeiten, den motivationalen Tendenzen und den sozialen Verhaltensmustern. Dabei kommt nach Auffassung von Herrnstein und Murray der allgemeinen Intelligenz fiir die gesamte Lebensführung und für die persönlichen Entwicklungsperspektiven eine Schlüsselrolle zu. 2. Sozialpädagogische, schulorganisatorische, kompensatorische und didaktische Interventionen führten in der Vergangenheit zu keiner bedeutsamen Reduzierung der Intelligenzunterschiede zwischen verschiedenen Kindern und vor allem nicht zu einer Anhebung niedriger intellektueller Fähigkeiten. "Zusammenfassend lässt sich sagen, dass alle Versuche zur Steigerung der Intelligenz eine Geschichte ergeben, die durch große Hoflhungen, überzogene Behauptungen und enttäuschende Ergebnisse charakterisierbar ist" (Herrnstein & Murray, 1994, S. 389). 3. Nach der suggestiv vorgetragenen Schlussfolgerung der zwei Autoren sollte man künftig aufkompensatorische Förderprogramme, auf Maßnahmen zur Reduzierung kognitiver Ungleichheiten sowie auf das politische Prinzip der Gleichheit von Bildungschancen als eines wesentlichen gesellschaftlichen Wertes verzichten und die dadurch frei werdenden finanziellen Ressourcen in die Bildung und Ausbildung derjenigen Jugendlichen investieren, die über ein besonderes geistiges Potential verfügen und später den größten Teil des nationalen Bruttosozialprodukts erwirtschaften müssen. Wie kommt es, dass Extrempositionen, wie jene von Jencks et al. (1973) oder von Herrnstein und Murray (1994) in regelmäßigen Intervallen publiziert, heftig diskutiert und nach relativ kurzer Zeit wieder ignoriert werden? Es gibt gewiss viele Gründe fiir die periodische Wiederkehr dieses Phänomens, von denen wenigstens drei kurz erwähnt werden sollen. Zum ersten gibt es nicht nur die radikalen Zweifel an der Wirksamkeit von Schulen, sondern es finden sich bei vielen Menschen in abgeschwächter Form und vielfaltiger Meinungsschattierung ähnlich skeptische Einstellungen. Wie einige Untersuchungen zeigen, betrachtet sogar die Mehrzahl der Lehrer ihren eigenen Unterricht nicht als eine wichtige Quelle fiir die Lernfortschritte und die Leistungsunterschiede der Schüler. Von zahlreichen Pädagogen werden nämlich Begabungsdifferenzen, Motivationsunterschiede und außerschulische Einflüsse als entscheidende Lernfaktoren genannt. Zum zweiten spiegeln radikale bildungspolitische Thesen manche alltägliche Erfahrungen und traditionelle Überzeugungen wider. Wer entweder die Ohnmacht (oder die Allmacht) der Schule für die geistige Entwicklung, fiir die kulturelle Bildung und fiir die Vorbereitung auf das Erwachsenenleben in einer wissenschaftlich-technologisch geprägten Welt behauptet, gewinnt zwar in der Regel schnell einige ideologieanfallige Anhänger, ohne jedoch eine breite und anhaltende Zustimmung erfahren zu können. Zu unterschiedlich sind die Eindrücke, die Schulen bei ihren ehemaligen Schülern und in der Öffentlichkeit hinterlassen, um eine einheitliche und eindeutige Meinung über ihre Wirksamkeit zu erzeugen.

76

Franz E. Weinert

Schließlich erweisen sich drittens Thesen wie jene von Herrnstein und Murray auch dann als wissenschaftlich unhaltbar, wenn sie mit einer Fülle korrekt zitierter statistischer Belege scheinbar legitimiert sind. Ursache dieses Widerspruchs ist die Beschränkung der empirischen Analysen auf eine einzige Fragestellung, obwohl es mehrere gleichermaßen wichtige, aber unterschiedlich zu beantwortende Fragen gibt. In einem späteren Abschnitt dieses Kapitels wird noch ausfuhrlieh auf das Problem einzugehen sein, dass Schulen zwar das Lernen im Sinne des Erwerbs von Wissen und Können bei allen Schülern massiv beeinflussen, dass sie aber dadurch die individuellen Unterschiede der intellektuellen Fähigkeiten zwischen ihnen nicht bedeutsam verändern. Untersucht jemand nur die zweite Fragestellung, nämlich die Wirksamkeit der Schule bei der Egalisierung kognitiver Fähigkeitsdifferenzen und verallgemeinert stillschweigend seine Befunde auf die Wirksamkeit von Schulen im Ganzen, so muss er notwendigerweise zu wissenschaftlichen Fehlurteilen kommen. Das ist sowohl bei Jencks als auch bei Herrnstein und Murray und bei vielen anderen Wissenschaftlern der Fall.

Optimistische Fehleinschätzungen über die Wirksamkeit von Schulen Die Entwicklung der Erziehungswissenschaft wird plausiblerweise und erwiesenermaßen nicht nur durch wissenschaftsimmanente Faktoren, sondern auch durch Veränderungen allgemeiner Erkenntnisinteressen gesteuert, so dass mächtige gesellschaftspolitische Ideologien und Themen des Zeitgeistes eine erhebliche Bedeutung gewinnen können. Ein gutes Beispiel dafür ist die pädagogische Egalisierungstheorie, die in vielen westeuropäischen und amerikanischen Ländern just in der Zeit zwischen den Publikationen von Jencks et al. (1973) und Herrnstein und Murray (1994) die bildungspolitischen Diskussionen beherrschte. Schulen sollten - so die fundamentale Forderung nicht nur allen Schülern ein gleiches Maß an Wissen, Können und Bildung vermitteln, sondern auch - und sogar in erster Linie - die intellektuellen Unterschiede zwischen den Schülern abbauen. Der Begriff der "Chancengleichheit" im Sinne gleich-werdender und gleich-wertiger Bildungsabschlüsse wurde nicht nur zu einer pädagogischen, sondern auch zu einer gesellschaftspolitischen Forderung. Eine wichtige Grundlage fi.ir die damit verbundenen schulorganisatorischen und didaktischen Forderungen war eine Theorie von Benjamin S. Bloom, eines angesehenen amerikanischen Bildungsforschers: "Was irgendeine Person in der Welt lernen kann, kann fastjedes Individuum lernen, vorausgesetzt, dass das frühere und gegenwärtige Lernen unter angemessenen Bedingungen erfolgt ... Die Theorie bietet eine optimistische Perspektive auf das, was Bildung ftir den Menschen leisten kann" (Bloom, 1976, S. 7). Die aus dieser Überzeugung abgeleiteten pädagogischen Hoffnungen und Erwartungen standen in Übereinstimmung mit der politischen Zielsetzung einer egalitären demokratischen Gesellschaft. Sie stützten sich aber auch auf einige, oft einseitig interpretierte soziologische und psychologische Forschungsergebnisse. Dazu gehörten:

Schulleistungen - Leistungen der Schule oder der Schüler?

77

1. Bloom selbst hatte schon 1964 die hohe Stabilität von Intelligenz- und Bildungsunterschieden bei Menschen in industrialisierten Ländern weniger mit genetischen Faktoren in Verbindung gebracht, sondern in erster Linie durch sozio-ökonomische und pädagogisch verursachte Differenzen in den individuellen Lernbiographien erklärt. Bei der "außerordentlichen Bedeutung des frühen Lemens und der Resistenz gegen spätere Veränderungen" (Bloom, 1964, S. 216) rückten familiäre Sozialisationsbedingungen, die Möglichkeiten einer kompensatorisch wirkenden Vorschulerziehung und das egalisierende Potential der Schule in den Mittelpunkt des wissenschaftlichen und des bildungspolitischen Interesses. Auf dem Hintergrund ideologisch aufgeladener Erwartungen blieben aber die Ergebnisse ungezählter empirischer Studien eher bescheiden. Sie sind - um es pauschalierend zu formulieren ergiebiger als Herrnstein und Murray behaupten und enttäuschender als dies radikale Umwelttheoretiker erwartet hatten. 2. Traditionelle Schulen- insbesondere das in Deutschland vorherrschende dreigliedrige Schulsystem- wurden schon seit langem und in den 70er und 80er Jahren verstärkt als staatlich legitimierte Institutionen fiir die Erhaltung sozio-ökonomischer Klassenunterschiede kritisiert. Für viele war deshalb die Einrichtung von Gesamtschulen nicht in erster Linie eine institutionelle Möglichkeit der flexiblen Unterrichtsdifferenzierung und des sozialen Lemens, sondern es waren auch institutionelle Voraussetzungen zur Reduzierung von Lern- und Leistungsunterschieden auf einem generell hohen Niveau. Wiederum erwiesen sich die Ergebnisse vieler empirischer Vergleichsuntersuchungen als zwiespältig und desillusionierend. Gesamtschulen waren und sind im Durchschnitt besser als ihre Kritiker vorhergesagt haben, sie verfehlten aber das von vielen ihrer Anhänger erhoffte Egalisierungsziel total. Insgesamt hat sich bei den Vergleichsuntersuchungen zwischen verschiedenen Schulformen die theoretische Erwartung bestätigt, dass schulorganisatorische Maßnahmen im Vergleich zur Verbesserung der Unterrichtsqualität relativ unwirksam sind. 3. Der Optimismus in der egalitär orientierten Bildungsdiskussion der 70er und 80er Jahre wurde durch eine didaktische Konzeption gestützt, die als zielerreichendes Lernen und Lehren bezeichnet wird. Theoretische Grundlage ist das zum Teil empirisch bestätigte kompensatorische Verhältnis zwischen dem individuellen Niveau der Lernvoraussetzungen und der benötigten Lernzeit zur Erreichung eines anspruchsvollen Bildungszieles. Wer weniger kann und weniger weiß als andere, muss eben mehr Zeit fiir zusätzliche, nachholende und ergänzende Lernschritte investieren, um jene Aufgaben meistem zu können, die bessere Schüler schneller und mit geringerer Anstrengung beherrschen. Benjamin Bloom (1968) schlug deshalb vor, etwa 20 Prozent der verfiigbaren Unterrichtszeit fiir tutorielle, remediale und kompensatorische Bemühungen zu Gunsten der lernschwächeren Schüler zu verwenden, wobei er unterstellte, dass die zusätzlich benötigte Lernzeit als Folge der sich ständig verbessemden Lernvoraussetzungen kontinuierlich abnehmen würde. Eine wesentliche Komponente des zielerreichenden Lemens und Lehrens sollte nach Bloom auch die differentielle Optimierung der Lehrmethoden sein. Was ist darunter zu verstehen? Cronbach und Snow (1977) hatten vermutet, dass nicht alle

78

Franz E. Weinert

Lehrmethoden fiir alle Schüler gleichermaßen geeignet sind, sondern dass Lernende mit unterschiedlichen kognitiven und persönlichen Lernvoraussetzungen durch verschiedene Methoden besonders gut gefordert werden können. Die Autoren nannten diese Strategie "aptitude-treatment-interaction-Modell" (ATI). Erwartet und empirisch überprüft wurde zum Beispiel, ob die Unterschiede in den Schulleistungen von hoch- und niedrig intelligenten Schülern auf hohem Niveau ausgeglichen werden könnten, wenn die intelligenteren Kinder mit Hilfe einer deduktiven Methode, die weniger intelligenten aber aufinduktivem Wege unterrichtet werden. Vermutet wurde auch, dass die Leistungsdefizite ängstlicher Kinder durch ein lehrergesteuertes Verfahren verringert würden (was der Tendenz nach bestätigt werden konnte). Die hochgespannten theoretischen Erwartungen haben sich in den vielen, inzwischen vorliegenden empirischen Studien leider nicht bestätigen lassen. Das gilt im Grunde genommen, wenn auch weniger eindeutig und einheitlich, für das gesamte Modell des zielerreichenden Lernens. Zur Vermittlung einer begrenzten Menge grundlegender Kompetenzen an alle Schüler ist es erfolgreich, ja unverzichtbar. Der dafür erforderliche MehraufWand an Unterrichtszeit ist in heterogen zusammengesetzten Klassen allerdings groß, aber fiir die Gewährleistung fairer Lernchancen für alle Schüler unumgänglich. Unrealistisch erscheint die Nutzung des didaktischen Modells zielerreichenden Lernens bei umfangreichen und schwierigen Lernzielen, vor allem aber zur Egalisierung intellektueller Fähigkeitsdifferenzen. In diesen Fällen gilt: Zur Erreichung gleicher anspruchsvoller Ziele sind auch unter günstigen schulischen Bedingungen bei gravierenden Unterschieden in den Lernvoraussetzungen extrem große Zeitdifferenzen zu erwarten, wenn es überhaupt gelingt, dass alle Schüler das gleiche Leistungsniveau erreichen; hält man aber in heterogen zusammengesetzten Schulklassen die Lernzeiten konstant, so zeigen sich erhebliche individuelle Leistungsdifferenzen. Damit ist ein unterrichtliches Dilemma beschrieben, das durch allzu optimistische oder pessimistische Auffassungen über die Wirksamkeit der Schule nur kurzfristig verschleiert, aber nicht langfristig gelöst werden kann. Schüler und Schulen determinieren die Schulleistungen gemeinsam und beide sind auch an der Entwicklung von Schulleistungsunterschieden beteiligt. Wissenschaftlich wissen wir über diese Prozesse und über die ihnen zu Grunde liegenden Einflussfaktoren inzwischen zwar viel, aber immer noch viel zu wenig. "Lernen im Klassenzimmer ist eine multiplikative ... Funktion von vier wesentlichen Faktoren - Fähigkeit und Motivation der Schüler, sowie Qualität und Quantität des Unterrichts ... Jeder dieser wesentlichen Faktoren scheint als solcher notwendig, aber nicht hinreichend fiir das Lernen im Klassenzimmer zu sein. Mit anderen Worten: Alle vier Faktoren müssen wenigstens auf einem minimalen Niveau verfügbar sein, damit schulisches Lernen stattfinden kann. Es erscheint aber, ... dass sich die wesentlichen Faktoren darüber hinaus wechselseitig substituieren, kompensieren oder ausbalancieren können" (Haertel et al., 1983, S. 75).

Schulleistungen - Leistungen der Schule oder der Schüler?

79

Die große Bedeutung der Schule für die geistige Entwicklung und für den Erwerb kognitiver Kompetenzen der Schüler Die von manchen Wissenschaftlern offen ausgedrückte Skepsis gegen die Bedeutung der Schule für die kognitive Entwicklung der Schüler wurde in den letzten Jahren durch zahlreiche empirische Studien weitgehend (wenn auch nicht vollständig) überwunden. Der große Einfluss der Schule auf den Erwerb vielfaltigen, sowohl notwendigen als auch nützlichen Wissens und Könnens zeigt sich besonders in Ländern mit einem ungenügend entwickelten und deshalb defizitären Bildungssystem. Unter diesen Bedingungen konnte die zentrale Funktion des Schulbesuchs - was Dauer und Qualität angeht ftir die Wahrscheinlichkeit und das Niveau kollektiver und individueller Lebens-, Entwicklungs- und Berufschancen überzeugend nachgewiesen werden. In den hoch industrialisierten Ländern ist die entwicklungspsychologische und gesellschaftspolitische Bedeutung der Schule nicht so leicht erkennbar, weil fast alle Kinder mehr als neun Jahre ihrer Schulpflicht genügen, weil die nationalen Schulsysteme durch die Ausbildung und Professionalisierung der Lehrer, durch eine staatlich geregelte Schulorganisation, durch materielle Mindestausstattungen mit Lehr- und Lernmitteln sowie durch mehr oder minder verbindliche Lehrpläne und Prüfungsordnungen dafür gesorgt wird, dass im Prinzip mehr formale Ähnlichkeiten als spezifische Unterschiede zwischen den einzelnen Schulen und Schulklassen bestehen. Auf diese Weise verstärkt sich der Eindruck, dass es Unterschiede der Schüler und nicht Qualitätsdifferenzen der Schulen sind, welche die Stärken und Schwächen in den Schulleistungen bewirken.

Umso erstaunlicher und erschreckender waren für viele Laien, Lehrer und Politiker die Ergebnisse der sogenannten TIMS-Studie (Baumert et al., 1997). Die Mathematikleistungen durchschnittlicher wie überdurchschnittlicher Schüler hatten in Deutschland am Ende der 8. Jahrgangsstufe im Vergleich zu vielen europäischen Ländern einen Rückstand von zum Teil einem ganzen Schuljahr und repräsentierten damit lediglich ein mittelmäßiges Niveau. "Die Mathematikleistungen der internationalen Spitzengruppe, die von asiatischen Ländern gebildet wird, (waren) für deutsche Schüler und Schulen in unerreichbarer Höhe. Die Schülerleistungen in diesen Ländern stehen ftir ein qualitativ anderes Niveau mathematischen Verständnisses" (Baumert et al., 1997, S. 23). Unterstellt man, dass die Verteilung der intellektuellen Fähigkeiten und der speziellen Begabungen in allen untersuchten Ländern vergleichbar ist - und das muss man auf Grund der verfügbaren Daten tun-, so sind die international zu beobachtenden Leistungsunterschiede auch bei Berücksichtigung lokaler Sondereinflüsse (z. B. das außerschulische Förderungssystem in Japan) ein Beleg für den Einfluss des nationalen Schulsystems auf den Kompetenzerwerb der Schüler. Ist diese Feststellung nicht trivial, werden alljene fragen, die die Bedeutung und Wirksamkeit der Schule nie bezweifelt haben und ftir selbstverständlich halten. Vermutlich

80

Franz E. Weinert

nein. Denn mit dem wissenschaftlichen Nachweis der Bedeutung von Schulen für die Entwicklung des individuellen wie des kollektiven Wissens und Könnens muss es sich das Bildungswesen im Ganzen wie in allen seinen Teilen gefallen lassen, dass nach der Effektivität oder Ineffektivität des Unterrichts gefragt, dass Rechenschaft über Erfolge und Misserfolge der Schüler verlangt und dass Verantwortung für die Entwicklung der einzelnen Schüler wie für das Gemeinwesen zugeschrieben wird. Die Vermittlung von Wissen und Können ist aber nicht die einzige Funktion der Schule. Obwohl man Intelligenz und die allgemeinen intellektuellen Fähigkeiten (z. B. Gedächtnis, Denken und Problemlösen) weder gezielt lernen noch direkt lehren kann, gibt es Transferprozesse von unten nach oben, also vom Erwerb spezieller Kenntnisse, Fertigkeiten und Problemlösestrategien auf allgemeinere kognitive Kompetenzen (Klauer, 2000). Das ist vor allem dann der Fall und wird besonders dadurch gefördert, wenn mit der Vermittlung inhaltspezifischen Wissens auch metakognitive Kompetenzen aufgebaut werden. Darunter versteht man das wachsende Bewusstsein der Lernenden, dass und wie man lernt, verbunden mit der automatisierten Fertigkeit, eigenes Lernen zu planen, zu überwachen und zu steuern (Schneider, 1989). Es entspricht also den theoretischen Erwartungen, wenn in vielen empirischen Untersuchungen gezeigt werden konnte, dass es einen zwar mäßigen, aber signifikanten Einfluss des Unterrichts auf allgemeine Merkmale der kognitiven Entwicklung (z. B. der Intelligenz) gibt. Nach einem Überblick über die vorliegenden Studien fasst Ceci (1991) den bis heute immer noch gültigen Erkenntnisstand zu dieser Frage so zusammen: "Natürlich, die Beschulung schreibt nicht die vollständige Geschichte über die Bildung und Entwicklung der Intelligenzwerte und die mit der Intelligenz verbundenen kognitiven Prozesse .... Kinder unterscheiden sich schon vor dem Schuleintritt in ihrer Intelligenz ... und innerhalb eines jeden Klassenzimmers gibt es erhebliche individuelle Intelligenzunterschiede, trotz des gleichen Unterrichts. ... Trotzdem erscheint die Schlussfolgerung aber recht klar: Obwohl viele Faktoren für die Entstehung von individuellen und kollektiven Unterschieden in der intellektuellen Entwicklung von Kindem verantwortlich sind, erweist sich die Schule als eine extrem wichtige Ursache dieser Unterschiede. Daran ändert auch nichts, dass in der Vergangenheit und in der Gegenwart oft das Gegenteil behauptet wird" (Ceci, 1991, S. 719). Über die Bedeutung der Schule für den Wissenserwerb und für die kognitive Entwicklung hinaus muss nicht nur berücksichtigt, sondern ausdrücklich hervorgehoben werden, dass kognitive Kompetenzen auch eine wesentliche Funktion für die Verwirklichung "höher-wertiger" Bildungsziele spielen. Dazu gehören z. B. persönliche Autonomie und Selbstverantwortlichkeit, soziale Partizipation und Kooperation, moralische Urteils- und Handlungskompetenz, ästhetische Erlebnisfahigkeit und kulturelles Engagement. Dass der Leistungsaspekt gegenüber diesen "höheren Bildungszielen" nicht im Widerspruch steht und auch nicht marginalisiert werden darf, sollte sich eigentlich von selbst verstehen. Was sind nun die Charakteristika der Schulen und des Unterrichts, die erwiesenermaßen in einem besonders engen Zusammenhang mit den Lernleistungen stehen? Was sind vor

Schulleistungen - Leistungen der Schule oder der Schüler?

81

allem die qualitativen Merkmale des Unterrichts, die ftir die Vermittlung von Wissen und Können, ftir die Förderung der kognitiven Entwicklung, ftir die Genese des selbständigen Lernens und ftir den Aufbau wirkungsvoller Handlungskompetenzen wichtig sind? Im Rahmen dieses Kapitels können dazu natürlich nur einige Aspekte erwähnt, nicht aber in der wünschenswerten Vollständigkeit und Gründlichkeit erörtert werden (vgl. dazu Helmke & Weinert, 1997a). Im Einzelnen: 1. Lernen ist ein aktiver Vorgang, durch den neue Informationen aufgenommen, verarbeitet, in die verfügbare Wissensbasis integriert und damit flexibel nutzbar gemacht werden. Dazu bedarf es der geistigen Aktivität des Schülers, der Konzentration auf die zu bewältigende Aufgabe und in vielen Fällen der didaktischen Unterstützung zur besseren Erfassung des Wichtigen, zum leichteren Verständnis des Wesentlichen und zur intelligenteren Nutzung des Gelernten. Subjektive Befindlichkeiten, Motivationen und Aktivitäten der Lernenden besitzen in diesem Zusammenhang keinen Selbstzweck, sondern sind Bedingungen ftir die kognitive Auseinandersetzung mit den Lernaufgaben und ftir den davon abhängigen Lernerfolg. Rutter kam deshalb schon 1983 in einem gründlichen Überblicksreferat zu der Schlussfolgerung, dass "die entscheidende Komponente eines wirksamen Unterrichts in der starken Konzentration auf die Lernziele, in einer hierarchischen Strukturierung der Lerninhalte, in der Betonung einer aktiven Unterweisung, in einer aufgabenzentrierten Orientierung und in einer hohen Leistungserwartung liegt (Rutter, 1983, s. 20).

2. Je weniger es um den Erwerb von Wissen und Können geht, je stärker die praktische Anwendung des Gelernten, je mehr das Lernen das Lernen selbst und je mehr die Einübung von methodischen Schlüsselqualifikationen (z. B. kommunikative, muttersprachliche und fremdsprachliche Kompetenzen, Medienkompetenzen, Teamfähigkeiten) als Ziele des Unterrichts fungieren, umso geringer wird die Bedeutung des lehrergesteuerten, aber schülerzentrierten Unterrichts und umso wichtiger werden Formen der Projektarbeit, des Gruppenunterrichts, des selbstorganisierten Lernens, des offenen Klassenzimmers und der lehrlingsanalogen Praktika. 3. Der Geist einer Schule, die Atmosphäre im Klassenzimmer, die Persönlichkeit und der soziale Interaktionsstil des Lehrers stellen einflussreiche (bei extremer Ausprägung sogar sehr wirksame) Rahmenbedingungen des Lernens und der Leistungsfortschritte der Schüler dar. Trotzdem ist es zur Zeit modisch geworden, die Aufgaben, Funktionen und Rollen des Lehrers ftir das Lernen und Leisten der Schüler zu unterschätzen ("Moderator autonomer Lerngruppen"), obwohl alle aussagefähigen empirischen Studien das Gegenteil belegen. Die skizzierte Bedeutung der Schule ftir die kognitive Entwicklung der Kinder und ftir ihre geistig-kulturelle Bildung steht im Einklang mit der theoretischen Position von Geary (1995), einem prominenten Evolutionstheoretiker, Anthropologen und Entwicklungspsychologen. Er unterscheidet zwischen primären und sekundären kognitiven Fähigkeiten. Zu den primären Fähigkeiten zählt er die angeborenen Kompetenzen zum Erwerb der Muttersprache, des elementaren numerischen Verständnisses, der konkreten

82

Franz E. Weinert

intellektuellen Operationen und des ökologisch bedeutsamen Weltwissens. Diese Fähigkeiten sind offenbar genetisch und hirnorganisch bei allen gesunden Menschen so prädisponiert, dass sie auch unter minimalen, oft sehr ungünstigen Umwelt-, Entwicklungs- und Bildungsbedingungen erworben werden. Kleinkinder in den Slums von Rio, in den einsamen Berggegenden des Urals oder in den reichen Vororten europäischer Großstädte zeigen in universell übereinstimmender Weise die wesentlichen Merkmale der kognitiven Entwicklung,- es sei denn, es fehlen auch die minimalsten Formen der sozialen Fürsorge, der geistigen Anregung und der sozialen Kommunikation. Natürlich gibt es in Abhängigkeit von der jeweiligen Qualität der Umweltbedingungen beachtliche individuelle Entwicklungsunterschiede, doch überwiegen in den ersten Lebensjahren die universellen Ähnlichkeiten der kognitiven Entwicklung. Das ist nach dem 5. bis 7. Lebensjahr völlig anders. Ob es sich um Lesen und Schreiben, um höhere Formen des mathematischen Verständnisses oder um wissenschaftliche Kenntnisse und Kompetenzen handelt, stets ist der Erwerb dieser Kenntnisse und Fähigkeiten an die Verfügbarkeit von Schulen oder schulähnlichen Einrichtungen gebunden. Geary spricht deshalb von sekundären Fähigkeiten und geht davon aus, dass zu ihrer Entwicklung Formen eines organisierten Unterrichts eine notwendige kulturelle Voraussetzung darstellen. Diese theoretische Annahme wird durch viele kulturvergleichende Studien belegt (Geary et al., 1998). Auf dem Hintergrund dieser theoretischen Annahme erscheint es nicht unproblematisch, dass sich viele Reformpädagogen und manche Entwicklungspsychologen in ihrer Kritik an der traditionellen Schule am Modell des vorschulischen Lernens von Kindern orientieren: selbstmotiviert, allein von Neugier und Entdeckungslust getrieben, das Erleben eigener Wirksamkeit genießend, aus Erfolgen und Misserfolgen neue Einsichten schöpfend, ohne Lehrer, aber in einer Gemeinschaft von Erwachsenen und Gleichaltrigen agierend und doch im Erwerb vielfältiger Kompetenzen sehr erfolgreich. Ob das naturwüchsige Lernen im Vorschulalter wirklich als Modell für das gesamte Lernen in der späteren Kindheit und im Jugendalter als theoretische Basis dienen kann, ob der Erwerb jener Kompetenzen, die man in einer wissenschaftlichtechnologisch geprägten Welt braucht, ob die Entwicklung abstrakter Fähigkeiten, komplexer Fertigkeiten und spezialisierter Kenntnisse ohne qualitativ hochwertige Schulen überhaupt möglich ist, - das ist auf Grund der theoretischen Annahmen von Geary und der verfügbaren empirischen Befunde sehr zweifelhaft.

Die begrenzte Rolle der Schule bei der Veränderung kognitiver Kompetenzunterschiede zwischen Schülern Von den vier wesentlichen Bedingungen des Lernens im Klassenzimmer stehen nur zwei (Quantität und Qualität des Unterrichts) unter der autonomen Kontrolle der Bildungspolitik und der Schule; die zwei anderen Faktoren (Fähigkeit und Motivation der Lernenden) sind Merkmale der Schüler. Zwar werden auch sie und ihre Entwicklung

Schulleistungen - Leistungen der Schule oder der Schüler?

83

schulisch beeinflusst, doch zeigen Kinder (wie eben erwähnt) schon beim Eintritt in die Schule besonders im Bereich der kognitiven Kompetenzen (aber auch in den motivationalen Tendenzen) große individuelle Unterschiede. Diese Differenzen zwischen sehr leistungsfähigen, durchschnittlich leistungsfähigen und wenig leistungsfähigen Schülern weisen eine relativ hohe zeitliche Stabilität auf. Alle V ersuche, die Unterschiede in den intellektuellen Fähigkeiten zu nivellieren, sind im Prinzip gescheitert. Das gilt für die frühere Sowjetunion und die DDR ebenso wie für die ehemalige Bundesrepublik Deutschland oder die USA. Die bereits beschriebene Hoffnung auf das zielerreichende Lernen und Lehren ist - wenn überhaupt noch vorhanden- zu einem teils idealistischen, teils romantischen pädagogischen Traum geworden. Natürlich gibt es im späteren Kindes-, Jugend- und frühen Erwachsenenalter noch Veränderungen in den kognitiven Fähigkeitsunterschieden, aber die Rangreihe der individuellen Leistungen verändert sich bei vergleichbaren Lernmöglichkeiten nur noch relativ wenig. Die Egalisierung von Intelligenzunterschieden zu einem Ziel der Schule zu machen, heißt nichts anderes, als eine Utopie zur Wirklichkeit zu erklären. Wie kommt es zu dieser relativ hohen Stabilität der Fähigkeitsunterschiede und - eng damit verbunden - der differierenden Leistungsfortschritte bei vergleichbaren Lerngelegenheiten? Es gibt inzwischen keine wissenschaftlich begründeten Zweifel mehr an der Bedeutung von Erbfaktoren für die intellektuelle Entwicklung. Statistisch ausgedrückt determinieren sie etwa 50 Prozent der individuellen Intelligenzunterschiede. Aus diesem Wert ergibt sich eine gewisse Ideologieanfälligkeit fiir die Interpretation solcher Forschungsergebnisse. Die Tatsache, "dass ungefähr die Hälfte der Variation intellektueller Leistungen genetischen Differenzen zwischen den Individuen zuzuschreiben ist", bedeutet trivialerweise auch, "dass ungefähr die Hälfte der Variation in ihrem Ursprung nicht genetisch determiniert ist (Plomin, 1988, S. 9). Der gleiche Autor- einer derbedeutendsten Forscher auf dem Gebiet der Verhaltensgenetik- betont darüber hinaus, dass unabhängig von den genetischen Faktoren alle kognitiven Kompetenzen (von wenigen frühkindlichen Reifungsvorgängen abgesehen) gelernt werden müssen, dass aber die genetische Ausstattung der Individuen die Schnelligkeit und die Qualität des Lernens beeinflusst. Die meisten psychologischen und pädagogischen Darstellungen des sogenannten Anlage-Umwelt-Problems gehen davon aus, dass die genetische Ausstattung und die Lebens- und damit Lernumwelt der Kinder voneinander unabhängig sind. Das ist aber nur im Prinzip richtig, in der Praxis jedoch häufig falsch, denn die biologischen Eltern sind in der Regel auch die Gestalter der häuslichen Verhältnisse. Es kommt also durchwegs zu einer Übereinstimmung ("Kovariation") der genetischen und der umweltabhängigen Entwicklungsbedingungen. Die Wirkung ist allerdings nicht immer synchron, wie man bei manchen Hochbegabten beobachten kann, die aus sehr ärmlichen und kärglichen Verhältnissen stammen. Haben sich in der frühen Kindheit durch das Zusammenwirken von angeborenen Lernpotentialen und extern verfügbaren Lerngelegenheiten individuell unterschiedliche Leistungsdispositionen entwickelt, so stabilisieren sich diese Differenzen im weiteren

84

Franz E. Weinart

Verlauf der Entwicklung, weil Schüler mit besseren Lernvoraussetzungen von gleichen Lernangeboten mehr profitieren als Schüler mit schlechteren Lernvoraussetzungen. Eine gezielte und weitgehende Egalisierung der Fähigkeitsunterschiede erscheint deshalb wenig aussichtsreich und nur unter einigen speziellen Bedingungen möglich. •

Bei grundlegenden Lernzielen (z. B. Lesen) wird nach dem Modell des zielerreichenden Lemens unterrichtet, so dass schlechtere Schüler mehr Zeit zur V erfiigung haben als gute Schüler benötigen. Das führt zu einer Egalisierung der Leistungsunterschiede trotz differierender Lernfähigkeiten (Schrader, Helmke & Dotzler, 1997).



Manche Heranwachsende beschäftigen sich auf Grund persönlicher Talente und Interessen oder als Folge äußerer Anregungen mit einem spezifischen Inhaltsgebiet besonders intensiv und extensiv (z. B. Schach, Biologie, Geschichte, Computertechnologie). Sie erwerben durch diese Zeitinvestition mehr Kompetenzen als andere Individuen (allerdings oft aufKosten anderer inhaltlicher Domänen und Kompetenzen). Dieser Erwerb von Expertise verändert natürlich die ursprüngliche Rangreihe der individuellen Fähigkeiten und Leistungen.



Speziell im Kindesalter gibt es noch eine beachtliche Fehlerwahrscheinlichkeit bei der Verwendung von Intelligenz- und Schulleistungstests. Der in einer Untersuchung erzielte Wert kann schlechter oder natürlich auch besser als der "wahre" Wert sein. Das führt zu einer gewissen zeitlichen Instabilität bei der mehrfachen Erfassung individueller Fähigkeiten und interindividueller Fähigkeitsunterschiede.



Obwohl im allgemeinen das Fähigkeitsniveau und das Entwicklungstempo des gleichen Kindes eng zusammenhängen und über die Zeit hinweg relativ konstant bleiben, gibt es Kinder, bei denen im Verlauf der Entwicklung plötzliche Veränderungen in der Effektivität von Lernprozessen und den davon abhängigen Leistungen zu beobachten sind. Der Volksmund spricht von einem "geplatzten Knoten", von "Autblühern" oder von "Spätentwicklern". Die Zahl plötzlicher Veränderungen ist nach den Befunden vorliegender Längsschnittstudien aber nicht sehr groß; das Phänomen selbst ist wissenschaftlich bisher weder klärbar noch vorhersagbar.

Insofern müssen wir in der schulischen Realität vom 7. Lebensjahr an mit einer beachtlichen und vom 10. Lebensjahr an mit einer hohen Stabilität der individuellen Unterschiede in den intellektuellen Fähigkeiten und in den Lernleistungen rechnen.

Schulleistungen - Leistungen der Schule oder der Schüler?

85

Schlussfolgerungen für die vergleichenden Leistungsmessungen in Schulen Fasst man noch einmal die wesentlichen Aussagen des vorliegenden Kapitels zusammen, so ergibt sich dreierlei: 1. Unabhängig von den unterschiedlichen Fähigkeiten und Talenten der Schüler muss alles gelernt werden, was später gewusst und gekonnt wird. Lernen ist der mächtigste Mechanismus der kognitiven Entwicklung. Das gilt uneingeschränkt sowohl für hochbegabte Kinder als auch fiir schwächer begabte Schüler. In vielen Fällen ist dabei didaktische Unterstützung notwendig und wirksam. Noch so gut gemeinte motivationspsychologische oder sozialpädagogische Maßnahmen können fiir den eigentlichen Lernakt kein Ersatz, sondern nur eine oft sehr wirksame Voraussetzung sein. 2. Unter vergleichbaren schulischen Lernbedingungen ist es nicht möglich, die individuellen Lern- und Leistungsunterschiede generell aufzuheben. 3. Obwohl die individuellen Fähigkeits-, Lern- und Leistungsunterschiede über die Zeit hinweg relativ stabil bleiben, sind die (individuell variablen) Lern- und Leistungsfortschritte eine Funktion der Quantität und Qualität des Lernens und werden mehr oder minder stark von der Wirksamkeit des Unterrichts beeinflusst. Schulleistungen sind also stets Leistungen der Schüler, die durch die Schule begünstigt oder erschwert werden. Da es sich beim Erwerb von Wissen und Können in den meisten Schulfächern um kumulative, d. h. aufeinander aufbauende Lernvorgänge handelt, kann der mehr oder minder positive Einfluss der Schule auf die Lernleistungen nur abgeschätzt werden, wenn man die Lernvoraussetzungen zu Beginn des Unterrichts kennt. Obwohl die Intelligenz (auch auf Grund der Konstruktionsprinzipien von Intelligenztests) normal, also gemäß der Gaußsehen Glockenkurve verteilt ist, muss diese Annahme der Normalverteilung fiir einzelne Klassen und Schulen nicht gelten. Auch die Ergebnisse des voraus gehenden Unterrichts dürften in Abhängigkeit von der Qualität der jeweiligen Lehre variieren. Für vergleichende Leistungsmessungen in Schulen lassen sich aus diesen Tatsachen einige wichtige Schlussfolgerungen ziehen: (a) Schulleistungsvergleiche zwischen verschiedenen Ländern sind möglich und sinnvoll, wenn die Stichprobe von Schülern die gesamte Schülerpopulation korrekt repräsentiert, wenn die verwendeten Aufgaben den im Unterricht realisierten Lehrplänen gleichermaßen gerecht werden ("curriculare Validität") und wenn man die durchschnittlichen Leistungsunterschiede als Folge des gesamten Unterrichts bis zum jeweiligen Testzeitpunkt interpretiert. Mit anderen Worten: Im 8. Schuljahr festgestellte Leistungsdifferenzen können das Ergebnis der 8. Klassen, aber auch aller voraus gehenden Schuljahre sein.

86

Franz E. Weinert

(b) Wählt man bei vergleichenden Leistungsmessungen die Ebene der einzelnen Schule oder gar die der einzelnen Schulklasse, so sind stets Längsschnittstudien oder die Erfassung wichtiger Einflussvariablen erforderlich, um die erzielten Testergebnisse auf dem Hintergrund unterschiedlicher Eingangsvoraussetzungen interpretieren zu können. (c) Den Leistungen und Leistungsfortschritten einzelner Schüler kommt im Rahmen größerer Schulleistungsvergleiche nur ein sehr begrenzter, fehleranfälliger Informationswert zu. Pädagogische Konsequenzen sollten aus solchen Daten ohne spezielle individuelle Überprüfung nicht gezogen werden. (d) Geht es bei Vergleichsuntersuchungen nicht um fachliche Schulleistungen, sondern um fächerübergreifende Kompetenzen, so kommt neben den schulischen auch vielfaltigen außerschulischen Lerngelegenheiten eine große Bedeutung zu. In diesen Fällen (z. B. bei PISA) wird man nur begrenzte Zusammenhänge zwischen den gemessenen Kompetenzen auf der einen und den erfassten Schul- oder Unterrichtsmerkmalen auf der anderen Seite erwarten dürfen. Das ist bei der Erfassung von fachlichen Schulleistungen und Schulleistungsdifferenzen anders. Bei deren Erwerb spielt der Unterricht immer dann die entscheidende Rolle, wenn es keine hinreichenden außerschulischen Lerngelegenheiten gibt (was aber z. B. im Bereich der Muttersprache oder einer Fremdsprache durchaus der Fall sein kann). Die Determination der Schulleistungen durch Unterschiede der Schüler und der Schulen, durch schulische und außerschulische Einflussfaktoren, sowie durch Schulsystemische und unterrichtsspezifische Bedingungskonstellationen machen alles in allem regionale, nationale und internationale Leistungsvergleiche möglich und aus bildungspolitischen und pädagogischen Gründen auch notwendig. Sie erfordern aber eine kompetente Versuchsplanung und eine stets ihre Grenzen beachtende Interpretation der Ergebnisse.

Powered by TCPDF (www.tcpdf.org)

KAPITEL6

Standardisierte Schulleistungsmessungen Kurt A. Heller und Ernst A. Hany

Die ersten psychologischen Tests zur Erfassung geistiger Fähigkeiten und Leistungen wurden vor etwa 100 Jahren an der Schnittstelle von Psychologie und Schulpädagogik entwickelt. Damals wie heute fungieren sie als wichtiges diagnostisches Werkzeug bei problematischen Schuleintritts- bzw. Übertrittsentscheidungen sowie bei der Schullaufbahnberatung, in V erfahren also, bei denen Pädagogen und Psychologen meist einvernehmlich zusammenarbeiten. Standardisierte Verfahren zur Messung von Intelligenz, geistigen Teilfähigkeiten oder von Schulleistungen waren aber von jeher umstritten. Denn sie versuchen- besonders im Bereich der Schulleistung - etwas zu quantifizieren, was man letztlich als Teilbestand von Bildung ansieht. Und diese - so die allgemeine Überzeugung -lässt sich nicht so einfach in simple Skalen übertragen. Unbeeinträchtigt von dieser Kritik werden aber nach wie vor aufvielen Jahrgangsstufen in der Schule Zensuren vergeben, die zweifelsohne eine einfache Zahlenreihe bilden. Ferner werden aus diesen Zahlen Mittelwerte bis in den Hundertstelbereich bestimmt und fiir weitreichende Entscheidungen (z. B. die Zulassung zu bestimmten Studiengängen) herangezogen. Die Quantifizierung von Leistung hat also im Schulwesen eine gewisse Tradition - und wir wollen zeigen, welche Rolle Schulleistungsmessungen dabei spielen. Dieses Kapitel führt ein in die Entwicklung und Verwendung standardisierter Schulleistungsmessungen. Leserinnen und Leser sollen darüber informiert werden, wie Schulleistung aus der Perspektive von Tests und ihren Konstrukteuren definiert wird, was man unter standardisierten Schulleistungsmessungen versteht, für welche Zwecke diese verwendet werden und welchen Nutzen sie erbringen. Daneben sollen die Konstruktion von Schulleistungstests und Beispiele ftir diese Messverfahren vorgestellt werden.

Schulleistung aus psychometrischer Sicht Der folgende Abschnitt befasst sich mit dem theoretischen Konzept "Schulleistung" aus psychologischer Sicht, in der die psychometrische Perspektive einen Teilaspekt darstellt. Zunächst wird Schulleistung als Vorgang eingefiihrt, der jeden Schüler betrifft.

88

Kurt A. Heller und Ernst A. Hany

Anschließend werden Schulleistungsunterschiede behandelt. Diese Unterschiede sind der Grund ftir und der Ansatzpunkt von Messungen, mit denen geistige Prozesse und Kapazitäten erfasst werden sollen. Durch diese Vorgehensweise konstituiert sich der psychometrische Ansatz der Schulleistungsmessung.

Schulleistung aus allgemeinpsychologischer Sicht Im allgemeinen Sprachgebrauch versteht man unter schulischen Leistungen die von Lehrkräften beurteilten Leistungsnachweise, die ein Schüler schwarz (häufiger: rot) auf weiß "nach Hause bringt". Bevor der Schüler jedoch das Ergebnis der Leistungsbewertung vorzeigen kann, ist ein längerer Lern- und Leistungsprozess abgelaufen, bei dem das lernende Individuum nicht die einzige, aber eine wichtige Rolle spielt. Im Prozess des Lernens müssen Schüler- unter anderem - neuen Lernstoff erarbeiten und aufnehmen (Aufmerksamkeits- und Verarbeitungsleistung), ihn im Gedächtnis verankern (Übungs- und Gedächtnisleistung), ihn nach Aufforderung wiedergeben (Wiedergabebzw. Reproduktionsleistung) und gegebenenfalls aufneue Sachverhalte anwenden (Problemlöse- und Transferleistung). Die Lern- und Leistungsaktivitäten des Schülers sind dabei nicht nur von seinen Lernkompetenzen, sondern ebenso vom didaktischen und pädagogischen Geschick des Lehrers und verschiedenen Merkmalen des Lernumfeldes abhängig. Dennoch wird das Endprodukt der einzelnen Lern- und Teilleistungsprozesse in der Regel dem Schüler als individuelle Schulleistung mehr oder weniger ausschließlich zugeschrieben. Von Leistung kann deshalb gesprochen werden, weil Gütemaßstäbe vorliegen, mit denen die Durchftihrung der einzelnen geistigen Aktivitäten wie auch das Endprodukt als mehr oder weniger gelungen bewertet werden kann. Dabei sollte beachtet werden, dass schulische Leistung nicht nur aus denjenigen Verhaltensweisen besteht, die ein Schüler in einer vom Lehrer gestalteten Anforderungssituation zeigt. Die aktuelle Schulleistung ist immer das Ergebnis zahlreicher, langfristig wirksamer und hierarchisch organisierter mentaler Prozesse. Schulische Leistung lässt sich demnach als Produktionsvorgang beschreiben, der von allen Schülern vollzogen wird und sich nach einem - meist längeren - Prozess des Lernens, Übens und Vorbereitens in einem nachweisbaren Ergebnis zeigt. Da schulisches Lernen häufig kumulativ verläuft, d. h. aufbauend auf Wissensgrundlagen immer anspruchsvollere Inhalte erworben bzw. vermittelt werden, verändern sich Lerninhalte und Leistungsansprüche fortlaufend. Dieser Lernentwicklung trägt der kriteriumsorientierte Ansatz der Schulleistungsmessung Rechnung, der die Leistung eines Schülers mit den Ansprüchen von der Sache her vergleicht. Das V erhalten eines Schülers in einer Leistungssituation - also die Darbietung bei einer mündlichen Prüfung, die Ausftihrungen zu einem Aufsatzthema, die niedergeschriebenen Lösungen ftir Mathematikaufgaben usw.- hängt von weiteren Faktoren ab als nur vom erlernten Wissen und den gewonnenen Einsichten des Schülers. Müdigkeit, Missverständnisse bei den Aufgaben, Testangst, Ablenkung durch Störungen usw. können die Leistung beeinträchtigen, während die Zuarbeit durch hilfreiche Mitschüler oder intensive Vorbereitung die Leistung besser erscheinen lassen kann als sie im Grunde ist.

Standardisierte Schulleistungsmessungen

89

Deshalb unterscheidet man die manifeste Leistung in einer aktuellen Leistungssituation vom zu Grunde liegenden Leistungspotential, das sich nur unter geeigneten Umständen unverfälscht zeigt. Auf diese Unterscheidung legt vor allem der psychometrische Ansatz Wert.

Schulleistung aus differentialpsychologischer Sicht Nicht alle Schüler erbringen im Hinblick auf Niveau, Vielfalt und Beständigkeit dieselben schulischen Leistungen. Die Leistungsunterschiede zwischen Schülern, wie sie sich in Zensuren und objektiven Prüfungen zeigen, sind innerhalb einer Klasse oder Jahrgangsstufe beträchtlich. Trotz vieler Bemühungen von Lehrern, diese Unterschiede auszugleichen, erweisen sie sich als erstaunlich stabil: Viele Schüler, die in der zweiten Jahrgangsstufe in einem Schulfach besonders gut abschneiden, gehören auch in der fünften zu den Leistungsbesten. Wer hingegen in den unteren Klassen Leistungsschwächen zeigt, wird- nicht zuletzt wegen der kumulativen Natur des Wissenserwerbsauch in den höheren Klassen mit größerer Wahrscheinlichkeit diese Schwächen erneut zeigen. Allerdings verringern sich diese Zusammenhänge wesentlich, wenn Schüler den Schultyp wechseln (Weinert & Stefanek, 1997), was dann häufig als effekt zu interpretieren ist. Damit wird deutlich, dass Schulleistung ein persönliches Merkmal darstellt, das einerseits zwischen Schülern variiert und andererseits eine gewisse zeit-und situationsübergreifende Stabilität aufWeist. Man kann deshalb von einem individuellen Schulleistungspotential sprechen, das der Schüler bei Leistungsanforderungen aktiviert. Diese Auffassung äußert sich auch in der Konstruktion normorientierter Schulleistungstests, in denen die Leistung eines Schülers mit der anderer Schüler verglichen wird. Dass die individuelle Schulleistung vor allem von (wenigen) stabilen persönlichen Merkmalen des Schülers abhängt, belegen auch empirische Befunde, die deutlich machen, dass die fächerorientierte Zensurengebung eigentlich zu stark differenziert. Schüler, die in Deutsch gute Noten haben, erbringen häufig auch in Fremdsprachen und Mathematik ähnlich gute Leistungen, und umgekehrt. Dimensionsanalysen zu Schulleistungsunterschieden haben erbracht, dass sich in den verschiedenen schulischen Leistungsbeurteilungennur zwei Schülermerkmale widerspiegeln, nämlich allgemeine Lernkapazität und sozial angepasstes Verhalten (Langfeldt & Fingerhut, 1984). Man darf aus solchen Befunden- die man vor allem dann findet, wenn man Leistungsmaße wie die Jahreszensuren verwendet, in denen viele Arbeits- und Leistungsaspekte gemittelt zusammengefasst sind -jedoch nicht fälschlicherweise folgern, dass eine differenzierte Schulleistungsmessung überflüssig sei. Denn Schulleistungsmessungen sollen in erster Linie erfassen, welchen Umfang, welches Niveau und welche Qualität an Wissen, Fertigkeiten, Einsichten, Werthaltungen, Kompetenzen etc. ein Schüler in einem bestimmten Sach- oder Lebensbereich erworben hat. Wenn die unterschiedlichen sach- und fachspezifischen Leistungsstände bei dem einzelnen Schüler ähnlich, zwischen verschiedenen Schülernjedoch unterschiedlich ausfallen, so ist dies ein empiri-

90

Kurt A. Heller und Ernst A. Hany

scher Befund, der einiges über das Bedingungsgefiige von Schulleistung aussagt, aber natürlich nicht bedeutet, dass das in verschiedenen Schulfächern Gelernte inhaltlich identisch ist. Befunde dieser Art unterstreichenjedoch die Notwendigkeit, jenseits von inhaltsspezifischen Schulleistungsmessungen diejenigen grundlegenden Leistungsfaktoren zu ermitteln, die hinter den verschiedenen Leistungseinschätzungen stehen, wie sie in der Schule traditionellerweise getrennt nach Schulfach und Leistungsart (mündlich versus schriftlich) vorgenommen werden. Die Schulleistung eines Schülers kann insgesamt nicht als eine vorübergehende V erhaltensweise oder als flüchtiges Merkmal aufgefasst werden. Sie sollte vielmehr als eine im Schüler ''verborgene" Leistungsfähigkeit verstanden werden, die nur bei günstiger Gelegenheit vollständig "ans Licht kommt". Deshalb werden standardisierte Schulleistungsmessungen unter anderem mit dem Ziel entwickelt, dem Schüler eine optimale Leistungsgelegenheit zu bieten und dabei seine Leistungsfähigkeit unbeeinträchtigt zu zeigen.

Messung von Schulleistungen Voraussetzung fiir die Messung schulischer Leistungen ist, dass diese sich in beobachtbarem Verhalten (sprachlichen Äußerungen, Aufgabenbearbeitungen) manifestieren. Die Leistungssituation ist so zu gestalten, dass sich unterschiedliche Leistungspotentiale auch in unterschiedlichem Verhalten zeigen. Diese Verhaltensunterschiede bilden ein "empirisches Relativ" (eine strukturierte Sammlung von Verhaltensweisen), dem ein "numerisches Relativ" (eine Menge an Zahlenwerten mit definierten Relationen) zugeordnet werden kann (vgl. dazu und fiir die folgenden Ausfiihrungen Langfeldt, 1984; Perleth & Sierwald, 2000). Die Zuordnung zwischen empirischen Befunden und Zahlen konstituiert die Messung, die auf unterschiedlichem Skalenniveau erfolgen kann. Im Bereich der standardisierten Schulleistungsmessung versucht man Ordinal- oder Intervallskalenniveau zu erreichen, so dass die Unterschiede zwischen einzelnen Messwerten möglichst aussagekräftig sind. Messungen können sich in ihrer Qualität unterscheiden. Es gibt sorgfältigere und nachlässigere, genauere und grobere Messungen. Im Unterschied zu Alltagseinschätzungen von schulischen Leistungen versuchen standardisierte Schulleistungsmessungen die folgenden Kriterien zu optimieren: 1. Objektivität: Die Messungen sollen möglichst objektiv, d. h. von der Person des Untersuchers (z. B. der Lehrkraft) unabhängig sein. Zu diesem Zweck erhalten die Untersucher (Lehrkräfte) genaue Anweisungen, wie sie Schulleistungsmessungen vorzunehmen haben, im einzelnen, welche Aufgaben vorzugeben sind, welche Anweisungen die Schüler erhalten sollen und wie die Ergebnisse, die die Schüler liefern, ausgewertet und interpretiert werden. Da diese Vorschriften ein einheitliches Vorgehen und einen gültigen Vergleich mit übergeordneten Leistungsstandards garantieren sollen, nennt man solche Messverfahren standardisiert.

Standardisierte Schulleistungsmessungen

91

2. Reliabilität (Zuverlässigkeit): Die Messungen sollen möglichst präzise und fehlerfrei erfolgen, d. h. sie sollen nicht von Ort und Zeit der Messung oder vom verwendeten Messinstrument abhängen. Wenn sich ein Schülermerkmal über eine gewisse Zeit nicht verändert, so soll jede Messung dieses Merkmals dasselbe Ergebnis erbringen. Die klassische Testtheorie geht allerdings davon aus, dass praktisch jede Messung mit einem gewissen Messfehler behaftet ist. Bei Fähigkeits- und Leistungstests kann man durch statistische Verfahren jedoch abschätzen, wie stark der Einfluss von Messfehlern, d. h. wie groß die Zuverlässigkeit des Messverfahrens ist. 3. Validität (Gültigkeit): Ein Messverfahren soll genau dasjenige Schülermerkmal erfassen, das es zu erfassen beansprucht. Wenn ein Leistungstest so gestaltet ist, dass bei vielen Schülern Testangst ausgelöst wird, so misst der Test viel stärker die individuelle Stressbewältigungskompetenz als die eigentlich augezielte schulische Leistung. Die Messungen sind dann ungültig (invalide). 4. Normierung: Messergehnisse erlauben nur dann eine brauchbare Einschätzung der Schulleistung, wenn sie mit einem Standard (Maßstab) verglichen werden können. Die einzelne Leistung kann mit den früheren Leistungen desselben Schülers, mit einem sachlichen Kriterium oder mit den Leistungen einer Bezugsgruppe verglichen werden. Normorientierte Messverfahren sind geeicht, d. h. sie erlauben den Vergleich eines Schülers mit der Population der Gleichaltrigen, der Gleichaltrigen desselben Geschlechts oder der Schüler derselben Jahrgangsstufe einer bestimmten Schulart. Weitere Kriterien zur Bewertung der Qualität eines Messverfahrens betreffen seine Ökonomie (Verhältnis von Aufwand und Erkenntnisgewinn), seine Nützlichkeit für bestimmte diagnostische Zwecke, seine Fairness (gegenüber benachteiligten Bevölkerungsgruppen), seine ethischen Implikationen (mögliche Verletzung von Persönlichkeitsrechten) u. a. Die deutsche Gesellschaft für Psychologie hat eine umfangreiche Liste von Standards erarbeitet, die bei der Konstruktion und Durchführung von Fähigkeits- und Leistungstests zu beachten sind, um Schüler und andere Testpersonen vor fehlerhaften und nachlässigen Messungen zu schützen (Häcker, Leutner & Amelang, 1998).

Standardisierte Schulleistungsmessungen Definition und allgemeine Funktionen Der Begriff Standardisierte Schulleistungsmessungen bezieht sich auf- meist von Testexperten entwickelte - Messinstrumente zur Erfassung von Schulleistungen, die in Bezug auf die sog. Testgütekriterien (Objektivität, Zuverlässigkeit, Gültigkeit) kontrolliert und standardisiert (d. h. geeicht) worden sind. Standardisierte Schulleistungstests werden gewöhnlich zu den "objektiven" Verfahren gerechnet, in Abhebung von "subjektiven" Verfahren wie Lehrerurteile oder Ratingverfahren (z. B. mündliche und

92

Kurt A. Heller und Ernst A. Hany

schriftliche Prüfungen mit anschließender Benotung oder Punktevergabe, Beurteilung von Aufsätzen oder aufsatzähnlichen Klassenarbeiten usw.). Dabei kann der Grad der Objektivität in beiden Verfahrensgruppen durchaus variieren, wenngleich standardisierte Schulleistungstests in der Regel die objektiveren und zuverlässigeren Messinstrumente darstellen. Die häufig von Lehrkräften gestellte Frage nach der Gültigkeit objektiver Verfahren erfordert eine differenzierte Antwort. So hängt die Gültigkeitsbestimmung zunächst vom Verwendungszweck der Testergebnisse ab, der wiederum im Zusammenhang mit dem benutzten Vergleichsmaßstab zu sehen ist. Herkömmliche standardisierte Schulleistungstests sind normorientiert, d.h. die individuellen Testleistungen werden mit der Durchschnittsleistung (Norm) einer Bezugsgruppe (Lerngruppe bzw. Schulklasse, Schulform, Altersgruppe) verglichen. Durch die Abweichung von dieser Norm nach "oben" (zur rechten Verteilungshälfte in der Gauß'schen Glockenkurve) versus nach ''unten" (also links unter der Glockenkurve) lässt sich dann im Einzelfall die im Test erzielte Schulleistung bewerten. Normorientierte Messungen zielen also auf die Erfassung interindividueller (Leistungs-)Unterschiede und eignen sich sehr gut für Schulerfolgsprognosen, d. h. ihre prädiktive Validität (Gültigkeit) ist im allgemeinen hoch. Steht hingegen die inhaltliche Validität im Mittelpunkt des Interesses, wären kriteriumsorientierte Schulleistungstests die besseren Verfahren. Der Begriff"Kriterium" steht hier für (schulische) Lehr- oder Lernziele. Während normorientierte Tests an allgemeineren, durch Lehrpläne vorgegebenen und überregional gültigen (Grob-)Lernzielen ausgerichtet bzw. validiert sind, erfassen kriteriumsorientierte-eher an Feinlernzielen orientierte- Tests vor allem intraindividuelle Leistungsveränderungen im Hinblick auf ein bestimmtes Lehr-/Lernziel. Im kriterialen Bezugssystem können somit individuelle Lernfortschritte in der konkreten Lernumgebung erfasst werden, während normorientierte Tests Schulleistungen eher indirekt, d. h. außerhalb einer bestimmten Unterrichtssituation, messen. Beide Testtypen zielen auf die objektive Erfassung von Schülerleistungen. Sie unterscheiden sich weniger hinsichtlich des Anspruchs an die Testgütekriterien als vielmehr in einigen Konstruktionsprinzipien und vor allem in der mit dem Verwendungszweck verbundenen pädagogischen Funktion. Aus den Ergebnissen kriteriumsorientierter Schulleistungsmessungen erhalten Schüler wichtige Rückmeldungen über den eigenen Leistungsstand im Hinblick aufbestimmte Lehrplanziele. Lehrer gewinnen Aufschlüsse über den jeweiligen Lernstand der Klasse oder einzelner Gruppen und Individuen im Klassenverband, die zur weiteren Unterrichtsplanung bzw. Unterrichtsoptimierung für individuelle Fördermaßnahmen usw. genutzt werden können. Neben der prädiktiven und der inhaltlichen Validität kommt der sog. Konstruktvalidität in der neueren Unterrichtsforschung wachsende Bedeutung zu. Mit dem Konstruktbegriff wird auf die den manifesten (beobachtbaren) Schulleistungen zugrundeliegenden Lernstrukturen und -prozesse abgehoben, z. B. Komponenten der Leseleistung, Problemlösestrategien beim Rechnen oder Wissensstrukturen in der Physik. Diese sollen u. a. Aufschlüsse über das Zustandekommen (oder Verhindern) bereichsspezifischer Lernleistungen vermitteln. Soweit damit Aussagen über die Effektivität des Unterrichts gewonnen werden, verlagert sich hier der Akzent von der Schüler- auf die Lehrerseite

Standardisierte Schulleistungsmessungen

93

(als Beteiligte am Schulerfolg). Voraussetzung ftir solche Aussagen ist die curriculare Validität. Ein Schulleistungstest gilt als curricular valide, wenn er die im Curriculum definierten und im Unterricht tatsächlich vermittelten Lernleistungen zuverlässig und gültig erfasst. Die Aussagekraft von überregionalen nationalen und internationalen (z. B. TIMSS und PISA) Schulleistungsmessungen hängt nicht zuletzt von der gesicherten curricularen Validität der verwendeten Messinstrumente ab.

Verwendungszweck und Einsatzgebiete Der Begriff "standardisierter" Schulleistungstest wird in der neueren Literatur öfter durch die Bezeichnung "formeller" Test ersetzt. Dies hat vor allem historische Gründe und ist in Deutschland eng mit der Einfiihrung von Gesamtschulen in den 60er Jahren verbunden. Zur schulinternen Leistungskursdifferenzierung benötigte man curricular valide Leistungsmessverfahren für die einzelnen Fächer und Jahrgangsstufen, die in der benötigten Anzahl und Anforderungsqualität- damals wie heute -nur unzureichend zur VerfUgung standen. Deshalb war die Entwicklung von ''teacher-made" Tests erforderlich, die man- in Abhebung zu den von Testexperten konstruierten (standardisierten oder formellen) Schulleistungstests- als "informelle Tests" bezeichnete. Wie bereits Gaude und Teschner (1970) sowie Rosemann (1974, 1984) nachgewiesen haben, handelt es sich beim sorgfältig entwickelten informellen Test ebenfalls um eine "objektivierte" Leistungsmessung (Gaude/Teschner), die deutlich mehr Gemeinsamkeiten mit den formellen Testverfahren als mit Lehrerurteilen und anderen "subjektiven" Verfahren (z. B. Verhaltensbeobachtung, Lehrerchecklisten oder Kategoriensystem zur Unterrichtsbeurteilung) aufweist. Während formelle Tests fast immer als normorientierte Messverfahren vorliegen, lassen sich informelle Testverfahren sowohl normorientiert als auch kriteriumsorientiert konstruieren. Der ersten Gruppe wird gewöhnlich die Funktion der Lernleistungskontrolle, der zweiten stärker eine Modifikationsfunktion zugesprochen. Entsprechend können die Testergebnisse normorientiert (Lernkontrolltests) versus kriteriumsorientiert (Lernsteuerungstests) ausgewertet werden; ausfUhrlieher dazu vgl. Rosemann ( 1984). Allerdings ist die Bandbreite der Aufgabenformulierung (Testitems) bei informellen Testverfahren gewöhnlich größer als bei formellen Tests. Dies hat Vorteile im Hinblick auf eine größere Unterrichtsnähe, aber auch mitunter Nachteile in Bezug auf die Objektivierung solcher Leistungsmessungen. Die Entscheidung darüber, welchem Verfahrenstyp jeweils der Vorzug eingeräumt werden soll, hängt also nicht nur von der Verfiigbarkeit und der Messqualität standardisierter Tests ab, sondern eben auch von der damit verknüpften pädagogischen Funktion. Das für alle möglichen Verwendungszwecke optimale Messinstrument gibt es in der Schulleistungsdiagnostik ebenso wenig wie in anderen Messbereichen. Um die pädagogischen Funktionen in verschiedenen Anwendungskontexten (Unterrichtsplanung, Schülermotivierung, Schullaufbahnberatung usw.) diagnostisch zu unterstützen, können standardisierte (formelle und informelle) Schulleistungstests Lehrerurteile und andere subjektive Verfahren der Leistungsbeurteilung sinnvoll ergänzen. Die Kombination objektiver und subjektiver Verfahren ermöglicht vielfach erst eine Optimierung der Schüler- und Unterrichtsbeurteilung, insofern sich hierbei präzisere Schmalbandverfahren

94

Kurt A. Heller und Ernst A. Hany

{Tests) und weniger präzise Breitbandverfahren (Lehrerurteile) funktional ergänzen, d. h. bis zu einem gewissen Grad die methodischen Unzulänglichkeiten wechselseitig kompensieren. Während die didaktische Funktion der Schulleistungsmessung vor allem der Unterrichtsoptimierung dient, ist die Schülerrückmeldefunktion nicht selten mit individuellen Fördermaßnahmen und dem (Entwicklungs-)Ziel der Selbstevaluation des Jugendlichen gekoppelt. Am Schulerfolg orientierte Entscheidungsfunktionen werden vor allem in der Schullaufbahnberatung relevant. Im Hinblick auf alle drei Funktionsziele erscheint eine Urteilsoptimierung nur in der Kombination von (subjektiven) Lehrer- und (objektiven) Testurteilen erreichbar. Dabei dürfen interaktive Effekte auch zwischen den skizzierten drei Funktionszielen bei Schulleistungsmessungen nicht übersehen werden. Dies soll am Beispiel von Schulerfolgsprognosen kurz erläutert werden. Schulleistungsdiagnosen können die Grundlage ftir entwicklungsorientierte Schullaufbahnberatungen und/oder pädagogisch-psychologische Fördermaßnahmen bilden. Während im schuleignungsdiagnostischen Paradigma das Leistungskriterium einen mehr oder weniger generalisierten "Schulerfolg" (in einem bestimmten Kursprogramm oder Schultyp) repräsentiert, zielt die Schulleistungsprognose in der treatmentbezogenen Einzelfallhilfe auf Modifikationseffekte, etwa bei geplanten Nachhilfe- oder anderen Interventionsmaßnahmen. Beide Funktionen ergänzen sich vielfach in der schulpädagogischen Praxis. Letztlich geht es dabei immer um die Anpassung förderlicher schulischer Lernumgehungen an die individuellen Fähigkeiten und Lernbedürfnisse. Wegen der Komplexität unterrichtlicher bzw. schulischer Lernfelder empfiehlt Krapp (1986) "komparative" Schulerfolgsprognosen nur im Sinne einer heuristischen Orientierung. Auch hierbei wird man selten auf standardisierte Schulleistungsmessungen verzichten wollen, die ja Lehrerurteile niemals ersetzen können, wohl aber eine Überprüfung und erforderlichenfalls Korrektur "subjektiver" Einschätzungen ermöglichen.

Beispiel für einen Schulleistungstest In den Testverlagen sind zahlreiche Schulleistungstests verfiigbar. Die meisten sind fiir das Grundschulalter konzipiert. Alle diese Verfahren laufen Gefahr, nach wenigen Jahren - aufgrund von Änderungen in den Schülerpopulationen, den Lehrplänen und den Unterrichtsformen - zu veralten. Aktuelle Übersichten über die vorhandenen Leistungstests bieten Heller und Perleth (2000), Ingenkamp (1997b) sowie Langfeldt und Tent (1999, Kap. 5). Ein typisches Beispiel ftir einen aktuellen Schulleistungstest bietet die "Würzburger Leise Leseprobe (WLLP)" von Küspert und Schneider (1998). Dieses Verfahren misst die Leseleistung in der Grundschule ab dem Ende des ersten Schuljahrs über die Geschwindigkeit bei der Erfassung von Wortbedeutungen. Der Test besteht aus 140 Wörtern, die in Länge und Dekodieraufwand variieren (von "Affe" und "Mond" bis zu "Thermoskanne" und "Wäscheleine") und dem Grundwortschatz, wie er in der Grundschule vermittelt wird, entnommen sind. Die Schüler finden zu jedem Wort vier kleine

Standardisierte Schulleistungsmessungen

95

Bildehen (Strichzeichnungen), die denjeweils benannten Gegenstand zeigen. Die Schüler sollen die Wörter möglichst schnelllesen und jeweils den dazugehörigen Gegenstand aus den vier Bildehen heraussuchen und markieren. Die Bildehen sind so ausgewählt, dass die Vernachlässigung einzelner Buchstaben oder die reine Betrachtung der geschriebenen Wortgestalt zu Falschantworten fuhren kann (so sind neben dem Begriff "Brot" außer einem halben Laib Brot ein Boot, ein Bär und ein Buch abgebildet). Die WLLP kann im Gruppenversuch durchgefiihrt werden und benötigt fünf Minuten Bearbeitungszeit Da die Antworten nur in der Auswahl der richtigen Bildehen bestehen, kann das Verfahren als Multiple-Choice-Test bezeichnet werden. Testaufgaben, -instruktion und -auswertung sind standardisiert, so dass die Objektivität des Verfahrens gesichert ist. Die Zuverlässigkeit des Verfahrens kann als relativ hoch angesehen werden, da die Wiederholung des Verfahrens ähnliche Ergebnisse erbrachte. Die Validität des Verfahrens ist ebenfalls als gut zu bezeichnen; die Korrelationen mit anderen Lesetests und mit dem Lehrerurteil variieren zwischen 0,6 und 0,8 bzw. 0,4 und 0,75 und fallen somit erwartungsgemäß aus. Die Eichstichprobe des Tests besteht aus 2820 Kindern aus deutschen und Österreichischen Bundesländern. Somit können differenzierte Prozentrangnormen je nach Klassenstufe und Geschlecht bestimmt werden, d. h. fiir acht Schülerpopulationen, zu denenjeweils eine Normstichprobe zwischen 285 und 344 Personen vorliegt. Auf diese Weise erlaubt die WLLP einem Lehrer in der Grundschule die rasche Überprüfung der eigenen Leistungseinschätzung der Schüler mit Hilfe eines objektiven Verfahrens, in dessen Konstruktion Theorien zum Leselernprozess, empirische Untersuchungen zu den Leseleistungen von Grundschülern und die Daten von mehreren tausend Schülern eingeflossen sind.

Konstruktion von Schulleistungstests Wie wird eigentlich ein Schulleistungstest erstellt? Welche Kenntnisse braucht man dazu und welcher Aufwand ist erforderlich? Antworten auf diese komplexen Fragen bieten einschlägige Lehrtexte (Lienert & Raatz, 1998; Rosemann, 1984; Tent & Stelzl, 1993), so dass hier nur die Grundzüge des Konstruktionsprozesses angesprochen werden. Als erstes gilt es, Inhalt, Art und Umfang der Lernleistungen festzulegen, die mit dem zu konstruierenden Verfahren geprüft werden sollen. Schulfächer bzw. Lernfelder, Unterrichtsstunden bzw. Lerneinheiten konzentrieren sich aufbestimmte Themen, Methoden und Fertigkeiten, die sich die Schüler aneignen sollen. Inhaltlich bestimmte Lehrziele werden zusätzlich spezifiziert durch konkrete Lern- und Leistungsprozesse (wie Lernen von Fakten und Regeln, Erkennen von Beziehungen und Transformationen, Lösen von Problemen und Anwendungsaufgaben usw.). Leistungsmessungen müssen genau festlegen, welche dieser Lehrziele sie prüfen wollen, wie differenziert und um-

96

Kurt A. Heller und Ernst A. Hany

fangreich die Messung erfolgen soll, für welche Zielgruppe das Messverfahren gedacht ist und für welchen Zweck der Test später eingesetzt werden soll. Dieser Schritt ist wohl der schwierigste von allen. Es mag noch einfach sein festzulegen, welche Fakten (z. B. Vokabeln im Fremdsprachenunterricht) und Regeln (z. B. im Mathematik- und Physikunterricht) ein Schüler nach einer Unterrichtseinheit beherrschen soll. Probleme ergeben sich dann, wenn komplexere Lernziele und -ergebnisse, zum Beispiel Begriffsstrukturen, Einsichten oder Problemlösestrategien formuliert - und dann gemessen werden sollen. Außer wenigen Versuchen, Lernzieltaxonomien im kognitiven Bereich zu formulieren, gibt es zur Strukturierung von Lernzielen und Lernergebnissen noch keine allgemein anerkannten Konzeptionen. Sind diese Festlegungen erfolgt, gilt es, alle ins Auge gefassten Lehrziele so zu konkretisieren, dass daraus Aufgaben formuliert werden können. Man kann diese Testitems unterschiedlich gestalten, als Aufgaben mit Richtig-/Falsch-Antworten, mit Mehrfachwahlantworten, als Aufgaben, in denen frei formulierte Ausführungen und Stellungnahmen verlangt werden (Aufsatz oder Essay), oder als Aufgaben, die konkrete Darbietungen verlangen (Sport, Handarbeit). Nichtjeder ltemtyp eignet sich für jedes LehrzieL So gelten frei formulierte Kurztexte als besser geeignet, komplexere Einsichten und Problemlösungen zu erfassen, als multiple-choice-Aufgaben, wenngleich jene weniger eindeutig auszuwerten sind als diese. Mit der ersten Formulierung von Items sind die Vorarbeiten abgeschlossen. Jetzt beginnt der empirische Teil der Testkonstruktion. Die entwickelten Aufgaben müssen an einer Stichprobe deijenigen Personen, an denen das Verfahren letztlich eingesetzt werden soll, erprobt werden. Erst durch diese Erprobung wird offenkundig, welche ltems missverständlich sind, welche von zu wenigen oder zu vielen Probanden gelöst werden und ob die einzelnen Aufgaben dieselbe Art von Schulleistung erfassen oder nicht. Für die Prüfung der genannten Kriterien kann man statistische Programme einsetzen, die dem Testkonstrukteur viel Arbeit abnehmen. Aufgrund der erhaltenen Informationen können Aufgabenformulierungen verbessert, ungeeignete ltems gestrichen und neue formuliert werden. Mussten substantielle Änderungen vorgenommen werden, ist ein erneuter Probelauf des gesamten Verfahrens notwendig. Hat man schließlich ein geeignetes Set von Aufgaben gefunden, das die angestrebten Lehrziele in objektiver Weise genau und differenziert genug erfasst, gilt es, Informationen zur Validität und Reliabilität zu sammeln. Bei einem normorientierten Verfahren muss eine Eichstichprobe gewonnen werden, während es bei einem kriteriumsorientierten Verfahren wichtiger erscheint, von Experten festlegen zu lassen, welche Testwerte von einem Probanden erzielt werden müssen, damit die überprüfte Lernleistung erbracht ist oder nicht. Im übrigen ist die Methode, aus den verschiedenen Aufgabenlösungen eines Schülers auf den Kennwert für die erbrachte Leistung zu schließen, weder beliebig noch eindeutig vorgegeben. Verschiedenartige Testmodelle gehen von unterschiedlichen Annahmen darüber aus, wie sich das individuelle Leistungspotential je nach Aufgabentyp zeigt (Rost, 1996). Manche Modelle berücksichtigen die Ratewahrscheinlichkeit, manche

______________ 97 auch die Lernvorgänge, die noch während der Testbearbeitung stattfinden. Das zu Grunde gelegte Testmodell entscheidet auch darüber, welche Testitems als brauchbar und welche als unbrauchbar bewertet werden müssen. Deshalb können Konstruktion und Auswahl von Testaufgaben sowie die Festlegung des im Messverfahren erzielten Kennwerts ein sehr aufwendiger Prozess sein, der besonderes Fachwissen voraussetzt. Die Testkonstruktion findet ihren Abschluss in der Gestaltung eines Testhandbuchs und des Testmaterials, so dass auch andere Personen in der Lage sind, den Test durchzufiihren, das Verfahren auszuwerten und die besonderen Eigenschaften des Verfahrens, seine Stärken und Schwächen, kennen zu lernen. Seine Nützlichkeit in der Praxis muss das Verfahren dann anschließend in einer möglichst breiten Anwendung unter Beweis stellen.

Kritikpunkte und Probleme sowie praktischer Nutzen standardisierter Schulleistungsmessungen Zur Kritik Die von pädagogischer Seite am häufigsten vorgebrachten Einwände gegen standardisierte (formelle und informelle) Schulleistungstests lassen sich in folgenden Kritikpunkten zusammenfassen. 1. Hauptkritikpunkt ist zunächst die häufig bemängelte curriculare Validität. Damit ist sicher ein Schwachpunkt vieler der im Handel erhältlichen und damit für die Schulpraxis unmittelbar verfügbaren Schul(leistungs)tests getroffen, zumindest im Hinblick auf den deutschsprachigen Anwendungsraum. Die Ursachen hierfür sind meistens veraltete Testnormen und/oder substantielle Veränderungen schulischer Lehrpläne und Curricula in relativ kurzen Zeiträumen. Hinzu kommen länderspezifische Curriculumeinschnitte oder -erweiterungen sowie epochale Veränderungen der Schullaufbahnquoten, die zusätzlich noch zwischen einzelnen Bundesländern variieren können. Schließlich sehen viele Lehrer durch standardisierte Schultests ihre Lehrfreiheit bedroht und die Gefahr einer Überbetonung der "reinen" Wissensvermittlung im Hinblick auf schultestrelevante Lernanforderungen zulasten höherer Lernzieldimensionen wie Verstehen und Anwendung bzw. Transferleistungen. Solche und ähnliche Einwände sind sicherlich nicht von der Hand zu weisen, wenngleich sie eher für formelle Schultests berechtigt sein mögen, weniger für informelle (teacher-made) Tests. 2. Weiterhin wird an standardisierten Schultests von pädagogischer Seite kritisiert, dass sie nur Lernergebnisse (genauer: Lernleistungsunterschiede), nicht aber schüler- und unterrichtsrelevante Lernleistungsvoraussetzungen erfassen. Dies ist richtig. Aber (formelle) Schultests sollen eben "nur" denjeweiligen Lernleistungsstand im Hinblick aufbestimmte Bildungsziele erfassen. Zur Erfassung lernleistungsrelevan-

98

Kurt A. Heller und Ernst A. Hany

ter Voraussetzungen wie individueller Lernausgangslage (Vorwissen, Lernkompetenzen usw.) und/oder von Bedingungen des sozialen Lernumfeldes (vor allem Unterrichtsqualität, aber auch allgemeine schulische und familiäre Sozialisationsbedingungen) müssen andere Informationsquellen hinzugezogen werden, z. B. kognitive Fähigkeitstests, Lern- und Leistungsmotivationsskalen, Beobachtungstechniken usw. Analoge Probleme ergeben sich auch außerhalb des schulischen Kontextes, etwa in der Studien- und Berufseignungsermittlung oder in der medizinischen Diagnostik. Hier sind- natürlich abhängig vom Komplexitätsgrad der jeweiligen Fragestellungkombinierte Verfahrensansätze notwendig, deren Auswahl bzw. Zusammenstellung problemorientiert (und theoriebasiert) erfolgen muss. 3. Schließlich wird von schulischer Seite häufig darauf verwiesen, dass fiir praktische Zwecke hier zu Lande viel zu wenige fachspezifische (formelle) Schultests zur Verfiigung stehen, und wenn doch, deren Kosten die üblichen Schuletats sprengen. Dieser Einwand ist kaum zu widerlegen. Sofern man jedoch an standardisierten Schulleistungsmessungen ernsthaft interessiert ist, bieten sich hier informelle Tests an. Diese müssen in der Regel von Lehrern selbst entwickelt und erprobt werden, bevor sie mit erprobten Testaufgaben ftir den praktischen (Serien-)Einsatz zur Verfügung stehen. Um den Arbeitsaufwand zu reduzieren, empfiehlt sich zur Entwicklung informeller Tests die - möglichst schulübergreifende - Zusammenarbeit von Fachlehrern im Sekundarbereich bzw. Grundschullehrern im Primarbereich.

Nutzenaspekte Gegenüber diesen und weiteren Einwänden zum Einsatz standardisierter Schulleistungsmessungen dürfen folgende Vorzüge nicht außer Acht gelassen werden. Hier sei vor allem aufvier pädagogisch und bildungspolitisch relevante Aspekte hingewiesen. 1. Lehrerurteile sind- wie ähnliche Schätzurteile in anderen Bereichen (z. B. im Sport, in der Musik und Kunstszene, aber auch in psychologischen Praxisfeldern)- fehleranfallig. Diese Fehlerquellen sind seit langem bekannt und in der einschlägigen Literatur vielfach dokumentiert. Dazu gehören u. a. Erwartungse.ffekte, ausgelöst durch persönliche Vorlieben oder Abneigungen, soziale Vorurteile, implizite Persönlichkeitstheorien (sog. logische Fehler), sich selbsterfüllende Prophezeiungen oder auch der sog. Hof- bzw. Ausstrahlungseffekt (so erhält der/die Klassenbeste oft in verwandten oder auch in den "Neben"-Fächern ungerechtfertigt ebenfalls sehr gute Noten) u. a. mehr. Zur Reduzierung bzw. Kontrolle solcher Urteilsfehler sind standardisierte Messinstrumente unentbehrlich. Dass solche Fehlereinflüsse häufig völlig unbemerkt wirksam sind, soll am Beispiel pädagogisch und bildungspolitisch unerwünschter Geschlechtsunterschiede im Mathematik- und naturwissenschaftlichen Unterricht der Sekundarstufe kurz illustriert werden. Im Rahmen eines speziellen Motivationstrainings zum Abbau leistungshinderlicher Kognitionen und Motivationen in den genannten Unterrichtsfachern (in denen bekanntlich viele Mädchen begabungspsychologisch nicht erklärbare Minder-

Standardisierte Schulleistungsmessungen

99

Ieistungen zeigen) wurde die Schüler/innen-Leistung nach erfolgtem Training durch die Lehrer/innen einmal in Form der herkömmlichen Noten (Zeugniszensuren) und zum andern unabhängig davon mit Hilfe ausgewählter TIMSS-Skalen überprüft. Dabei traten Leistungsverbesserungen der Mädchen in den kritischen Fächern in den standardisierten Schulleistungstests (TIMSS-Skalen) doppelt so stark in Erscheinung wie in den subjektiven Lehrerurteilen (Noten). Vorher waren die Lehrer/innen über ihr Konzept der mathematisch-naturwissenschaftlichen Begabung bei Jungen und Mädchen befragt worden, wobei keine signifikanten Geschlechtsunterschiede zutage traten. Einstellungs- und Erwartungsfehler können also die subjektive Leistungsbeurteilung gravierend beeinflussen, ohne dass dies Beurteilern - im Beispielfall Lehrern und Lehrerinnen (zwischen deren Einschätzungen sich keine Unterschiede aufweisen ließen) - bewusst ist oder gar von ihnen intendiert wird. Standardisierte Leistungsmessungen dienen somit der Objektivierung von Lehrer- und anderen subjektiven Urteilen (natürlich auch bei Psychologen in vergleichbaren Situationen), woraufman im Hinblick auf Objektivitätsansprüche kaum verzichten kann. 2. Ein weiteres Beurteilungsproblem stellen schulinterne Referenzrahmeneffekte dar. Damit sind Urteilsbeeinträchtigungen durch im Hinblick auf den Verwendungszweck untaugliche Maßstäbe gemeint. Dieses Problem ist ebenfalls nicht neu, wenngleich noch immer virulent. So hat erstjüngst eine Arbeitsgruppe am Max-PlanckInstitut fiir Bildungsforschung in Berlin (Köller, Baumert & Schnabel, 1999) entsprechende Effekte nachgewiesen: Obwohl die Notenmittelwerte in den untersuchtenGesamtschul-und Gymnasialklassen in der 12. und 13. Jahrgangsstufe in Mathematik und anderen (Haupt-)Fächern sich nicht signifikant unterschieden, erwiesen sich die mit Hilfe standardisierter Schulleistungstests (TIMSS-Skalen) ermittelten Fachleistungsdifferenzen als bedeutsam. Die tatsächlichen Leistungsunterschiede betrugen eine ganze Standardabweichung und mehr, die übrigens nur teilweise auf unterschiedliche Eingangsleistungen zurückzufuhren waren. Referenzrahmeneffekte wurden auch bei der Evaluation des baden-württembergischen Schulmodellversuchs "Gymnasium mit achtjährigem Bildungsgang" beobachtet (vgl. Heller & Reimann, 1999; Heller, Reimann & Rindermann, 2000): Die in der Sekundarstufe I des Gymnasiums (G) in Spezialklassen fiir besonders befähigte Jugendliche unterrichteten Schüler/innen, die in den Jahrgangsstufen 5 bis 10 (G8) bzw. 5 bis 11 (G9) in den Hauptfächern durchschnittlich um eine halbe Notenstufe bessere Leistungen von den Lehrkräften testiert bekamen, erzielten bei gemeinsamer Beschulung beider Schülergruppen (G8 und G9) in der Kollegstufe (Jahrgangsstufen 11 und 12 bzw. 12 und 13) durchschnittliche "Leistungszuwächse" um eine ganze Notenstufe. In den (zentralen) Abiturprüfungen stieg diese Differenz noch einmal zugunsten der G8-Schüler/innen an, was einerseits auf die genannten Referenzrahmeneffekte und andererseits auf die standardisierten Abiturprüfungsaufgaben zurückzufuhren ist. Ähnliche Beobachtungen machten Lehmann, Gänsfuß und Peek (1997, 1999) im Rahmen der Hamburger LAU-Studien zur Lernausgangslage in der 5. und 7. Klassenstufe. Solche Referenzrahmeneffekte treten nicht nur im schulischen Kontext auf, sie können auch außerhalb der Schule beobachtet werden, etwa bei der Beurteilung im Eiskunstlauf. Offensichtlich fällt Beurteilern die Leistungsbewertung innerhalb einer

100

Kurt A. Heller und Ernst A. Hany

sozialen Bezugsgruppe wie bei Schulklassen oder Schülerwettbewerben durch den direkten Vergleich leichter, was man sich auch in der pädagogisch-psychologischen Diagnostik mitunter zu Nutze macht. So enthält der in der Schule häufiger verwendete Angstfragebogen for Schüler (AFS) von Wieczerkowski et al. (1981) eine sogenannte Standard-Schätzskala "man to man". Hierbei erfolgt die Beurteilung- im AFS-Beispiel die Einschätzung von manifester (allgemeiner) Angst, Prüfungsangst und Schulunlust - durch direkten Vergleich bekannter Personen, die als Maßstab dienen; ausführlicher vgl. Heller und Perleth (2000, S. 103f.). Entsprechend kann die Lehrkraft in einem bestimmten Unterrichtsfach beispielsweise drei Bezugspersonen als Vergleichsmaßstab heranziehen: den Klassenbesten, den Klassenschwächsten und einen Schüler mit mittleren Leistungen als Repräsentanten für den Klassendurchschnitt. Dadurch lässt sich im konkreten Fall die Einstufung innerhalb eines überschaubaren sozialen Referenzrahmens, etwa einer Lern- oder Klassengruppe, einigermaßen objektiv durchführen. Allerdings sichert dieses Vorgehen nicht die Objektivität der Leistungsbeurteilung im Vergleich verschiedener Schulklassen oder gar einzelner Schulen. Dazu bedarf es einer Erweiterung des sozialen Bezugrahmens auf schulischer bzw. überregionaler Ebene, sofern man nicht gleich kriteriale Bezugssysteme bevorzugen möchte. 3. Objektiv nicht gerechtfertigte Bewertungsunterschiede sind nicht nur für eine individuell angemessene Lernförderung hinderlich, wie das genannte LAU-Beispiel im Hinblick auf die Begabtenförderung besonders im oberen Leistungsviertel erneut belegte. Sie beeinträchtigen darüber hinaus die "Verteilungsgerechtigkeit" aufgrund von Schulnoten bzw. subjektiven Leistungsurteilen, etwa in der Schullaufbahn oder beim Hochschulzugang auf der Basis des Abiturzeugnisses (Numerus-ClaususProblematik). Spätestens hier stellt sich die Frage nach einem überregional verbindlichen - einheitlichen - Referenzrahmen. So sind zentrale Abiturprüfungen oder -falls diese Forderung bundesweit bildungspolitisch nicht realisierbar erscheintstandardisierte Leistungstests als Hochschuleingangsvoraussetzung ein taugliches Mittel zur Verbesserung individueller Ausbildungs- und somit letztlich auch Lebenschancen. Manche der aktuell diskutierten Probleme im tertiären Ausbildungssektor wie Studierfähigkeit, Drop-out-Problem oder Qualitätsverlust universitärer Ausbildungsgänge wären durch standardisierte, d. h. einheitlich festgelegte und verbindliche Schulabschlussqualifikationen in relativ kurzem Zeitraum zu entschärfen. Die Liberalisierung des Hochschulzugangs war bei einigermaßen vergleichbaren Abiturniveaus über die einzelnen Schulen und Ländergrenzen hinweg sowie ohne Engpässe im Studienplatzangebot einzelner Fächer (NC-Regelung) sinnvoll und auch unter dem Gesichtspunkt der Chancengerechtigkeit- insoweit- gerechtfertigt. Inzwischen haben sich jedoch diese Voraussetzungen gravierend verändert, ohne dass entsprechende Konsequenzen für den Hochschulzugang gezogen worden wären. Die zunehmende Globalisierung nicht nur des Arbeitsmarktes, sondern auch der internationale Wettbewerb der Ausbildungssysteme wird die Situation in der Bundesrepublik Deutschland künftig noch verschärfen, so dass ein Aufschub notwendiger Entscheidungen fatale Folgen hätte.

Standardisierte Schulleistungsmessungen

101

4. Standardisierte, curricular valide Schulleistungsmessungen gehören inzwischen zum von Experten kaum mehr ernsthaft in Frage gestellten Methodeninventar (vgl. Baumert et al., 1997, sowie die laufende OECD-Studie PISA). Dabei wird in der PISAStudie dem Einwand, dass mit formellen Schulleistungstests nur die Lernresultate und nicht auch relevante Lernleistungsvoraussetzungen erfasst werden, u. a. durch die Berücksichtigung von Antezedensbedingungen (Leistungsvoraussetzungen) Rechnung getragen, z. B. durch Skalen zur Erfassung sog. Schlüsselqualifikationen (Problemlösefähigkeit, Computererfahrung), von metakognitiven Kompetenzen, Testmotivation versus sozialen Kontextbedingungen wie sozialem Hintergrund, sozioökologischen Umweltmerkmalen und schulischen Ressourcen. Diese und andere flankierende Maßnahmen standardisierter Schulleistungsmessungen können die Aussagekraft der Befunde erweitern und kontextabhängige, komplexere Interpretationen unterstützen. Selbstverständlich wird man auch bei der konkreten Umsetzung der Testergebnisse (Befundinterpretation) im Einzelfall- z. B. fiir Förderzwecke- solche Antezedens- und Kontextbedingungen bzw. subjektiven Informationsquellen nicht ohne Not ausschließen. Deren Ergänzungsfunktion zu standardisierten Schulleistungsmessungen und vice versa wurde bereits betont.

Powered by TCPDF (www.tcpdf.org)

KAPITEL

7

Wie misst man Schulleistungen? Karl Josef Klauer

Lehrkräfte, die den Leistungsstand ihrer Klasse ermitteln wollen, haben einen unschlagbaren Vorteil: Sie können die Aufgaben unmittelbar auf den vorausgegangenen Unterricht beziehen. Das ist bei einer standardisierten Leistungsmessung unmöglich. Dafür hat diese aber den Vorteil, dass sie Messfehler minimieren und die individuellen Leistungen an Hand objektiver Kriterien bewerten kann. Bei der Leistungsbeurteilung unterscheidet man grundsätzlich zwischen Leistungsfeststellung und Leistungsbewertung. In der Leistungsfeststellung wird ermittelt, welche Leistungen die Lernenden tatsächlich beherrschen und welche nicht. Sie stellt den ersten Schritt in der Leistungsbeurteilung dar. Die Leistungsbewertung bringt im zweiten Schritt Aussagen darüber, wie die festgestellte Leistung im Blick auf das Lehrziel oder auf andere Kriterien einzustufen ist. Der vorliegende Beitrag thematisiert ausschließlich den Bereich der Leistungsfeststellung - und zwar auch nur die Möglichkeiten der Leistungsfeststellung durch entsprechende Tests. Dabei sind testtheoretische Gütekriterien implizit zu berücksichtigen, da die Aufgaben, die zu einem Test zusammenzustellen sind, in ihrer Gesamtheit die Voraussetzung dafür schaffen müssen, dass die Gütekriterien von Tests eingehalten werden.

Ausgangspunkt Lehrzielanalyse Im ersten Schritt zur Konstruktion eines Schulleistungstests wird in der Regel festgelegt, aus welchen Teilzielen das Lehrziel besteht, dessen Beherrschung geprüft werden soll. Das kann mittels einer Tabelle geschehen, die in den Zeilen die Inhaltskomplexe enthält, welche geprüft werden sollen, und in den Spalten das V erhalten, das die Lernenden an den jeweiligen Inhalten zeigen können sollen. Die Spalten von Tabelle 1 entsprechen den ersten drei Kategorien der kognitiven Lehrzieltaxonomie von Bloom und Mitarbeitern. Sie sind durch bestimmte Aufgabenformen erfassbar. Der Kategorie

104

Karl Josef Klauer

"Wissen" sind Multiple Choice-Aufgaben (MC-Aufgaben, Mehrfachwahlaufgaben) zugeordnet, der Kategorie "Verstehen" frei zu beantwortende Aufgaben und der Kategorie "Anwenden" Problemaufgaben.

Tabelle 1: Beispiel einer Lehrzielmatrix Inhalte

Wissen

Verstehen

Anwenden

Elektrischer Strom; Stromkreis

A

8

c

Stromstärke und Spannung

D

E

F

Das Ohmsehe Gesetz

G

H

I

Die Zellen A- I der Matrix enthalten die Teilziele, auf die noch kurz einzugehen sein wird. Selbstverständlich kann man die neun Teilziele auch nacheinander ordnen. Beide Möglichkeiten wurden in den Studien TIMSS und in PISA eingesetzt. In PISA werden für die mathematische Grundbildung acht Kompetenzen in einer Liste aufgeführt, während für die Analyse der Lesekompetenz eine Matrix von Lesesituationen erstellt wurde, die aus drei Zeilen und vier Spalten besteht, so dass 12 Teilkompetenzen resultieren. Soll ein Test konstruiert werden, der das gesamte Lehrziel erfasst, so wird man eine repräsentative Stichprobe von Aufgaben erzeugen. Anband der Tabelle 1 oder der Liste von Teilzielen ist das leicht möglich. Beispielsweise kann man eine stratifiziert-zufällige Stichprobe von Aufgaben herstellen. Sie entsteht, indem man vorher den Anteil von Aufgaben festlegt, mit dem die Teilziele im Test vertreten sein sollen. So kann man etwa festlegen, alle Teilziele gleichermaßen- zum Beispiel mit je vier Aufgaben- zu berücksichtigen. Technische Einzelheiten zur Zerlegung eines Lehrziels in Teilziele sowie zur Erzeugung zufälliger und repräsentativer Aufgabenstichproben findet man in Klauer (1987a). Erzeugt man auf diese Weise eine zufällige oder stratifiziert-zufällige Stichprobe von Testaufgaben, so gewährleistet man •

eine umfassende statt eingeengte Abdeckung aller Teilziele sowie



die Berücksichtigung der Schwerpunkte, die man für wichtig hält.

Mit diesem Vorgehen ist die inhaltliche Gültigkeit (Inhalts- oder Lehrzielvalidität) des Tests gewährleistet. Schließlich ist es auf diese Weise auch relativ leicht möglich, eine hinreichend große Zahl von Aufgaben zu erzeugen, damit der Test zuverlässig oder reliabel wird. Im Folgenden wenden wir uns dem Erzeugen von Testaufgaben zu.

Messung von Schulleistungen

105

Die Aufgabenformen Eine Übersicht über die gängigsten Formen von Testaufgaben bietet Abbildung 1. Sie ist bewusst unvollständig gehalten, weil es hier nur darum geht, die Grundformen aufzuzeigen. Beispielsweise sind im Interesse der besseren Übersichtlichkeit keine Zwischenformen in die Abbildung aufgenommen worden. Außerdem müssten die meisten der aufgefiihrten Formen noch in Untergruppen ausgegliedert werden. Eine vollständigere Übersicht findet man in Lienert und Raatz (1994).

Aufgabenformen

Aufforderung zu freier Äußerung

j

Mehrfachwahlaufgabe Umordnungs- und Zuordnungsaufgabe

Abbildung 1: Häufiger verwendete Aufgabenformentor kognitive Lehrziele

Die wichtigste Unterscheidung bezieht sich auffreie und auf gebundene Antwortformate. Freie Aufgabenformen erfordern stets selbst formulierte Antworten und werden deshalb herangezogen, wenn es um die Prüfung des Verständnisses geht. Gebundene Aufgabenformen sind entweder Wahlaufgaben oder Umordnungsaufgaben. Sie fordern das Ankreuzen von Antwortoptionen oder die Umsortierung beziehungsweise Zuordnung vorgegebener Elemente. Es gibt viele Vorurteile zu Lasten der Wahlaufgaben und zu Gunstender freien Aufgabenformate. Hauptvorteil der freien Aufgaben ist in der Tat, dass die Lernenden hier gefordert sind, selbst etwas zu formulieren. Ihr Hauptnachteil besteht darin, dass die Objektivität der Auswertung ein Problem sein kann. Um dennoch eine objektive Auswertung zu gewährleisten, wird deshalb auf Grund Jahrzehnte langer Erfahrung empfohlen, möglichst nur ein ganz bestimmtes Wort als Antwort zu erwarten. Nur in dem Fall hat man auch eine Chance, die Antworten mittels Computer auszuwerten, was bei überregionalen Leistungsvergleichen ohnehin unerlässlich ist. Hauptvorteil der gebundenen Antwortformate ist dagegen, dass sie gänzlich objektiv und mit Hilfe des Computers auswertbar sind. Ihr Hauptnachteil ergibt sich aus der Tatsache, dass man auch durch bloßes Raten die richtige Lösung finden kann. Testgeg-

106

Karl Josef Klauer

ner haben den Begriff des Orang-Utan-Scores gebildet. Das ist der Score oder Punktwert, den ein Orang Utan erreichen kann, wenn er darauf dressiert ist, auf eine der Wahlantworten zu tippen. Dabei wird unterstellt, der Orang Utan würde rein nach Zufall zwischen den Optionen wählen, was höchstwahrscheinlich nicht der Fall ist. Er würde wahrscheinlich bestimmte Positionen wie zum Beispiel die erste Option bevorzugen. Aber wie dem auch sei: Bei vier oder ftinf Antwortoptionen hat man auflange Sicht die Chance, ein Viertel beziehungsweise ein Fünftel Aufgaben durch Zufall zu lösen. Bei Tests mit solchen Aufgaben und üblicher Länge kann man durch bloßes Raten tatsächlich sogar mehr oder weniger als ein Viertel oder ein Fünftel rein durch Zufall richtig lösen, wie unten zu zeigen sein wird. Das Problem der Ratemöglichkeit wird heute auf zweierlei Weise gelöst. Zunächst wird allen Lernenden empfohlen, im Zweifelsfall zu raten, zumal sich die Ratewahrscheinlichkeit erhöht, wenn man dank partiellen Wissens einzelne Optionen als unwahrscheinlich ausschließen kann. Im Extrem wird durch Ausschluss von Optionen eine Mehrfachwahlaufgabe sogar zur Zweifachwahlaufgabe mit entsprechend erhöhter Ratewahrscheinlichkeit Wenn nun alle Lernenden im Zweifel raten, so erhält niemand dadurch unberechtigt Vorteile oder Nachteile. Der Ratewahrscheinlichkeit begegnen Testautoren weiterhin durch eine größere Anzahl von Testaufgaben. Beispiel: Am größten ist die Ratewahrscheinlichkeit bei Zweifachwahlaufgaben. Enthält ein Test 40 solcher Aufgaben, so kann man durch Zufall auch mehr als die Hälfte richtig raten, wenn man Glück hat sogar bis zu 25 Aufgaben. Die Wahrscheinlichkeit, 26 oder gar mehr Aufgaben durch Zufall richtig zu raten, ist aber mit 4 % sehr gering, wie sich gemäß der Binomialverteilung errechnen lässt. Erhöht man die Zahl der Optionen auf vier, das heißt gibt man 40 Vierfachwahlaufgaben, so ist schon die Wahrscheinlichkeit, 16 Aufgaben richtig zu raten, deutlich kleiner als 5 %. Tritt aber ein Ergebnis mit der Wahrscheinlichkeit von 5% oder weniger durch Zufall ein, so geht man nicht mehr davon aus, dass es tatsächlich auf Zufall zurückzufUhren ist. Hierbei handelt es sich um eine durch Konvention anerkannte Schranke, um die sogenannte Signifikanzschranke von 5 % . Sind die freien Aufgabenformen letztlich nicht doch vorzuziehen? Es gibt umfangreiche Forschungen über die Wirksamkeit von Aufgabenformaten. Insbesondere gibt es eine große Zahl von Untersuchungen, die gebundene und freie Aufgaben in ihrer Wirksamkeit vergleichen. Die Befunde sind außerordentlich komplex, zumal freie wie gebundene Aufgaben gut oder weniger gut konzipiert sein können. Überdies zeigen Forschungen, dass die Erwartungen der Adressaten ebenfalls eine Rolle spielen: Rechnet man mit frei zu beantwortenden Aufgaben und erhält Wahlaufgaben, so werden die Ergebnisse schlechter als wenn man die erwartete Aufgabenform erhalten hätte. Umgekehrt findet man geringere Leistungen, wenn W ablaufgaben erwartet werden, aber frei zu beantwortende kommen. All diese und viele andere Einflüsse spielen eine Rolle. Zieht man dennoch eine Summe aus dem Vergleich zwischen freier und gebundener Aufgabenform, so lässt sich keine Überlegenheit der einen oder der anderen Klasse von Aufgabenformen feststellen (vgl. zusammenfassend hierzu Traub & Rury, 1990).

Messung von Schulleistungen

107

Ausgewählte Beispiele zu Aufgabenformen Freie Aufgabenformen Unter denfreien Aufgabenformen (vgl. Abb. 1) bedarfweder die Frageform noch die Aufforderung zur freien Äußerung der Erläuterung, da beide Varianten im Schulalltag regelmäßig vorkommen. Hier zwei einfache Beispiele, die mit einem einzigen Wort beantwortet werden können.

Wie heißen die Bausteine der Zelle, die die Energie liefern? Die Hauptstadt von Afghanistan ist ............... . Bei der Auswertung mittels Computer kann aber schon dieses Format Probleme bereiten. Etwa wenn bei der Frage nach den speziellen Bausteinen der Zelle im Singular oder im Plural geantwortet wird, kann ein Computer nur richtig auswerten, falls beide Möglichkeiten vorher eingegeben wurden. Die Aufforderung zur freien A"ußerung kommt im Unterrichtsalltag regelmäßig vor, mündlich im Rahmen des Unterrichtsgesprächs, schriftlich beispielsweise beim Aufsatz. Aufsätze oder aufsatzartige schriftliche Äußerungen entziehen sich zweifellos der objektiven, möglichst computerisierten Auswertung, auch wenn es wertvolle Ansätze zur objektiven Aufsatzbeurteilung gibt (Lehmann, 1990). Die Ergänzungsaufgabe ist von Lückentexten her bekannt. Bei Rechtschreibtests wird diese Aufgabenform mit gutem Grund häufig eingesetzt. Sie fordert einerseits das aktive Schreiben und beschränkt sich andererseits nur auf ausgesuchte Wörter. Im klassischen Diktat, wie es in Schulen Verwendung findet, müssen die Lernenden aber viele Wörter schreiben, die ihnen ihrer besonderen Häufigkeit wegen sehr gut bekannt sind. Lückentexte können daher dem Leistungsniveau besser angepasst sein. Außerdem sind sie viel ökonomischer: Sie dauern nicht so lange und lassen sich schneller auswerten. Der erste Intelligenztest war offenbar ein Lückentext Er wurde von seinem Erfinder Ebbinghaus (1897) als Kombinationsmethode bezeichnet. Auch heute noch werden Lückentexte in verbesserter Form bei Intelligenztests eingesetzt, denn sie fordern nicht nur Sinnverständnis, sondern die Verknüpfung von Sinngehalten und die Berücksichtigung der syntaktischen Information, die der unvollständige Satz bietet. Im Rahmen des Fremdsprachenunterrichts hat sich eine spezielle Variante der Ergänzungsaufgabe bewährt. Die Cloze-Aufgabe nach Taylor stellt ebenfalls einen Lückentext dar, der zu ergänzen ist. Linguistisch gibt es gute Gründe fiir dieses Testverfahren, weil es die allgemeine Sprachkompetenz besser erfassen soll: Linguisten vermuten, dass während des Hör- oder Leseverstehens schon antizipiert wird, wie es weitergehen könnte, und dass die "Erwartungsgrammatik" des einzelnen eng mit seiner Sprachkompetenz zusammenhängt (Raatz, Voss & Klein-Braley, 1991). Nun hat der klassische Lückentext doch eine Reihe von Schwächen, was die Schwierigkeit der Aufgaben angeht, aber auch was die Reliabilität und Validität betrifft. Deshalb hat Raatz mit seinem C-Prinzip

108

Karl Josef Klauer

eine modifizierte Variante entwickelt und erprobt. Hierbei wird- abgesehen vom ersten und letzten Satz- jedes zweite Wort ersetzt, aber nicht komplett, sondern immer nur zur Hälfte. Um die Reliabilität zu sichern, soll der Test mindestens 100 Tilgungen aufweisen, aus verschiedenen kurzen Texten bestehen, exakt auswertbar und in der Muttersprache praktisch fehlerlos lösbar sein. In Abbildung 2 findet man ein Beispiel. Raatz und Klein-Braley (1983) konnten zeigen, dass Tests dieser Art eine gute Möglichkeit bieten, die Sprachkompetenz in einer Fremdsprache zu erfassen, genauer die globale Kompetenz im Gegensatz zu speziellen Kompetenzen in der Fremdsprache.

Ein König in Persien hatte einen Sohn, der verliebte sich in die Tochter eines Schafhirten. Eines Ta ......... ging d .... Jüngling z ...... seinem Va ......... und sa ......... : "Herr Va ........ , ich Ii.. ...... die Toc .......... eines Schaf.. ......... und möc........... siez ........ Weibe neh ..........." Der Kö ........ erwiderte: "1.. ....... bin d ....... König, d ........ bist me ........ .. Sohn, u ......... wenn i.. ..... sterbe, wi ......... du König sein. Wie kann das geschehen, wenn du die Tochter des Schafhirten heiratest?"

Abbildung 2: Beispiel für den C-Test in Deutsch als Fremdsprache. Aus Raatz & Klein-Braley (1983)

Zusammenfassend kann man also Folgendes feststellen. Für die freien Aufgabenformen gilt, dass sie grundsätzlich in Kollision mit der Forderung nach Auswerte-Objektivität geraten und außerdem Schwierigkeiten bereiten können, wenn sie durch Computer auswertbar sein sollen. Am ehesten dürfte letzteres noch bei dem C-Test nach Raatz und Klein-Braley gelingen, weil die Lösungen hier so stark vorstrukturiert sind, dass praktisch kein Spielraum mehr fiir abweichende Ergänzungen besteht. In allen anderen Fällen hat man nur dann eine Chance, die Objektivität der Auswertung zu sichern, wenn möglichst nur ein ganz bestimmtes Wort als Ergänzung oder Antwort in Frage kommt. Schon wenn es möglich ist, ein echtes Synonym oder ein weitgehend bedeutungsähnliches Wort einzusetzen, muss man mit Interpretationsspielraum bei der Auswertung rechnen. Ausall dem wird deutlich, dass durch Computer auswertbare Tests vorerst nicht in der Lage sind, die Leistungen repräsentativ zu erfassen, die in der Schule gefordert werden. Für das System Schule sind sie also nicht ökologisch valide - was nicht ausschließt, dass sie in anderer Hinsicht wertvolle Informationen liefern.

Gebundene Aufgabenformen Die Zweifach- Wahlaufgabe wird häufig in der Form eingesetzt, dass Aussagen formuliert sind, zu denen sich die Schülerinnen und Schüler zustimmend, ablehnend- mitunter auch noch neutral- äußern können. Zur Auswahl stehen dann Optionen wie

Messung von Schulleistungen

109

Richtig- falsch Stimmt- stimmt nicht- weiß nicht. Bewährt haben sich solche Varianten zum Beispiel, wenn Interpretationen gefordert sind, etwa die Interpretation eines Gedichts oder eines philosophischen Textes. Nun gibt es eine Antworttendenz, eher positiv als negativ zu reagieren, eher zustimmend als ablehnend. Aus diesem Grunde sollten die zurückzuweisenden Aussagen etwas überwiegen. Außerdem ist es wegen der hohen Ratewahrscheinlichkeit von 112 angezeigt, relativ viele Aussagen zu bringen. Die Wahrscheinlichkeit p, fünf Zweifach-Wahlaufgaben hintereinander durch Zufall richtig zu beantworten, ist p = (112) 5 = 0,03, also so gering, dass man nicht mehr von einem Zufallsergebnis ausgeht. Man sollte aber trotzdem erheblich mehr Aussagen vorgeben, damit man noch zwischen den Schülerinnen und Schülern differenzieren kann. Die neutrale Option ist gerade bei Zweifach-Wablaufgaben beliebt. Sie verhindert, dass man zu einer Entscheidung gezwungen wird, wenn man nicht sicher ist. Nach dem, was oben zum Raten ausgeführt wurde, ist die neutrale Option aber nicht unbedingt empfehlenswert. Beim Raten kann durchaus noch Teilwissen positiv zum Zug kommen. Außerdem ist wahrscheinlich, dass weniger selbstsichere und ängstlichere Kinder eher als andere die neutrale Option verwenden und sich so die Chance nehmen, durch Raten auf der Grundlage von partiellem Wissen Punkte zu sammeln. Von daher ist es durchaus sinnvoll, auf die neutrale Option zu verzichten. Die Mehrfachwahlaufgaben (auch Multiple Choice- oder MC-Aufgaben genannt) können zusammenfassend behandelt werden, da in den meisten Fällen vier oder fünf Antwortoptionen angeboten werden. Solche Aufgaben eignen sich dazu, um zu prüfen, ob die Lernenden über das Wissen abrufbar verfügen, das zum Lehrziel gehört. Es wäre aber verfehlt, die Möglichkeiten der MC-Aufgaben hierauf zu beschränken, zumal es durchaus üblich ist, das Problemlösen mittels solcher Aufgaben zu erfassen. Das Beispiel von Abbildung 3 stammt aus der dritten internationalen Studie zur Mathematik und den Naturwissenschaften (TIMSS). Es wurde in Deutschland von 40% der 7. Jahrgangsstufe und von 42 %der 8. Jahrgangsstufe richtig gelöst, war also relativ schwierig und eignete sich zur Differenzierung zwischen den Schülern unterschiedlicher Leistungsfähigkeit. Wer nicht raten will, muss bei der Aufgabe von Abbildung 3 gedanklich ein Experiment planen, das genau auf die Fragestellung zugeschnitten ist, eine Forderung, die Schülerinnen und Schülern dieses Alters bekanntlich nicht leicht fällt. Zweifellos ist hier von den Probanden Problemlösen gefordert. Es geht darum, selbständig ein Verfahren auszuwählen, wie es Wissenschaftler einsetzen würden, um das Problem experimentell anzugehen. Dabei wird erwartet, die einzelnen Vorschläge A - E darauf hin zu prüfen, welcher von ihnen wirklich die gesuchte Antwort finden lässt.

11 0

Karl Josef Klauer

NI. Eine Schülerin vennutet, daß Pflanzen zum gesunden Wachstum Mineralstoffe aus dem Boden brauchen. Sie stellt eine Pflanze in die Sonne, wie aus der Abbildung ersichtlich ist. Sonnenlicht

I

0: I \

Um ihre Vennutung zu kontrollieren, braucht sie noch eine weitere Pflanze. Welche der folgenden sollte sie nehmen? A. dunkler Schrank

B. dunkler Schrank

C. Sonnenlicht

I I \

Sand, Mineralstoffe und Wasser

Sand und Wasser

nur Sand

E. Sonnenlicht

Sand und Wasser

Sand und Mineralstoffe

Abbildung 3: MG-Aufgabe aus dem Bereich Biologie für die 7. und 8. Jahrgangsstufe. Beispiel aus TIMSS, siehe Baumert, Lehmann u. a., 1997, S. 75

Messung von Schulleistungen

111

Abbildung 4 bietet eine Aufgabe, die aus einer Originalversion des Tests fiir medizinische Studiengänge (TMS) stammt, jenes Tests, der fiir viele Jahre über die Aufnahme zum Medizinstudium mitentschied.

Die Aufnahme (Resorption) von Wasser und Kochsalz aus dem Darm ins Blut erfolgt über besondere Transportmechanismen durch die Darmwand hindurch. Bei fehlender Resorption kommt es zu Durchfällen; wird die ausgeschiedene Flüssigkeit nicht durch Infusion ersetzt, tritt innerhalb weniger Tage der Tod ein. Zucker kann große Wassermengen binden; bereits 100 bis 200 Gramm mit der Nahrung aufgenommener Zucker reichen aus, um einen großen Teil des Wassers im Darm zu binden. Einige Zuckerarten, wie z. B.. Traubenzucker, werden - zusammen mit dem gebundenen Wasser - weitgehend resorbiert. Andere Zuckerarten, wie z. B.. Xylose und Arabinose, werden kaum resorbiert, so dass sie zusammen mit dem gebundenen Wasser nahezu vollständig wieder ausgeschieden werden. Welche der nachfolgenden Aussagen lässt bzw. lassen sich aus diesen Informationen ableiten? 1.

Beschwerden, die infolge einer verringerten Resorption von Wasser und Kochsalz auftreten, lassen sich durch die Beimischung von Xylose zur Nahrung mildern.

2.

Die Auswirkungen eines blockierten Traubenzuckertransports vom Darm ins Blut lassen sich durch die Verabreichung von Arabinose mildern.

3.

Eine vermehrte Aufnahme von Xylose mit der Nahrung senkt den Wasserbedarf des Organismus.

(A) (B) (C) (D) (E)

Nur Aussage 1 lässt sich ableiten. Nur Aussage 21ässt sich ableiten. Nur Aussage 3 lässt sich ableiten. Nur die Aussagen 1 und 2 lassen sich ableiten. Keine dieser Aussagen lässt sich ableiten.

Abbildung 4: MG-Aufgabe aus dem Auswahltest Medizin. Aus Institut für Test- und Begabungsforschung, 1990, S. 14

Das Beispiel ist dessen Subtest zum medizinisch-naturwissenschaftlichen Grundverständnis entnommen. Bei dieser Aufgabe ist sicherlich kein Wissen aus dem Gedächtnis abzurufen, weil die erforderliche Information vollständig mitgeliefert wird. Es geht vielmehr darum, die gelieferte Information richtig zu durchdringen, um festzustellen, ob überhaupt eine und gegebenenfalls welche der drei Aussagen aus dem Text ableitbar ist und welche nicht. Um sicher zu sein, welche der fiinf zur Auswahl stehenden Optionen zutrifft, sind demnach komplexe Denkoperationen in Verbindung mit vollständiger Prüfung der gegebenen Information erforderlich. Eine andere Variante von MC-Aufgaben wurde im Frühjahr 1999 angehenden Ärzten im 2. klinischen Examen gestellt. Dabei wurde nicht die richtige oder beste Antwort erfragt, sondern die unwahrscheinlichste, beziehungsweise falsche (Abb. 5). Solche Aufgaben liegen nahe, wenn mehrere Antworten richtig sind.

112

Karl Josef Klauer

Nikotinabusus der Schwangeren stellt eine erhebliche Gefährdung für das Ungeborene dar. Welche Gefahr besteht am wenigsten? (A) (B) (C) (D) (E)

gehäuftes Auftreten einer pränatalen Dystrophie erhöhte Spontanabortrate erhöhte perinatale Sterblichkeit erhöhte Fehlbildungsrate (anzukreuzende Option) erhöhte Frühgeburtshäufigkeit

Abbildung 5: Auswahl einer unwahrscheinlichen Option. Aus Kinder- und Jugendarzt, 08/1999, S. 809

Was nun die Ratewahrscheinlichkeit bei MC-Aufgaben betrifft, so kann sie bei einer speziellen Variante, der n-aus-N-Aufgabe, noch deutlich heruntergeschraubt werden. Ein Test kann dann aus erheblich weniger Aufgaben bestehen und dennoch reliabel und valide sein. Bei diesem Typ von Aufgaben werden N Optionen vorgegeben, von denen 0 n N richtig sein können. Dabei wird also auch die Information genutzt, die im Nichtankreuzen einer Option steckt, denn immerhin hat sich ja der oder die Lernende entschlossen, eine bestimmte Option zu verwerfen. Außerdem wird partielles Wissen "belohnt", was sonst leicht unter den Tisch fallen kann. Friedrich, Klemt und Schubring (1980) haben allerdings gezeigt, dass bei dieser Art von Aufgabe relativ leicht Punkte gesammelt werden können, wennjede Option einzeln gezählt wird. Pro Aufgabe können dann maximal N Punkte erworben werden, nämlich wenn alle richtigen Optionen angekreuzt und alle falschen Optionen nicht angekreuzt werden. Allerdings sind die Optionen nicht wirklich unabhängig voneinander, auch wenn sie es logisch sind, denn sie beziehen sich alle auf denselben Informationskomplex. Vergibt man jedoch nur einen Punkt pro Aufgabe und zwar genau dann, wenn der Proband alle richtigen und keine falsche Antwort angekreuzt hat, so sinkt die Ratewahrscheinlichkeit drastisch (Abb. 6).

Mindestens 1, höchstens 3 Antworten sind anzukreuzen. Für die Konditionierbarkeit vegetativer Reaktionen gilt: (a) Vegetative Reaktionen sind nicht konditionierbar. Alle Versuche, die dies zu belegen versuchen, haben das Problem methodischer Fehler- wie z. B.. Muskelbewegungen- übersehen. (b)

(c)

Nervöse Kreislaufreaktionen sind u. U. konditionierbar. Alle anderen vegetativen Vorgänge im Organismus entziehen sich einer Beeinflussung durch Konditionierungsprozesse. Die Konditionierbarkeit vegetativer Reaktionen gilt sowohl für die Methode des "klassischen Konditionierens" als auch für die des "operanten Konditionierens".

Abbildung 6: Beispiel einer n-aus-N-Aufgabe. Aus Friedrich, 1987, S. 150

Messung von Schulleistungen

113

Theoretisch ist es nach den Vorgaben von Abbildung 6 möglich, die drei Optionen (a), (b) und (c) einzeln anzukreuzen, ferner die drei Paare [(a) und (b), (a) und (c), (b) und (c)] sowie alle drei Optionen zusammen. Insgesamt ergibt das sieben mögliche Varianten. Durch bloßes Raten nach der Orang-Utan-Methode hat man nur eine Chance von 1/7 = 0,14, die Aufgabe richtig zu lösen. Die Chance, zwei solcher Aufgaben hintereinander richtig zu lösen, sinkt schon auf(l/7)2 = 0,02, also unter die Grenze von 0,05. Wenn man nur wenige Aufgaben stellen kann und doch MC-Aufgaben wählt, empfiehlt sich diese Art von Aufgaben. Die falschen Auswahlantworten sollen gute Distraktoren darstellen. Gemeint ist damit, dass sie attraktive Optionen fiir diejenigen darstellen sollen, die die Lösung nicht kennen. Wenn etwa im Geschichtsunterricht die richtige Antwort "Bismarck" ist, so wäre "Alexander der Große" wohl kaum eine echte Alternative. Wenn aber eine Option praktisch nie gewählt würde, verlöre sie ihren Sinn. Abbildung 7 bietet ein Beispiel fiir ''verfiihrerische" Distraktoren bei einer Aufgabe aus der Wahrscheinlichkeitsrechnung. In der 7. und 8. Jahrgangsstufe war die Aufgabe sehr schwer. Sie wurde nur von 21% der deutschen Schülerinnen und Schüler gelöst. Haben die etwa geraten? Die Ratewahrscheinlichkeit liegt hier theoretisch bei 20 %.

Ein Warnsystem besteht aus zwei unabhängigen Warnanlagen, die bei einem Notfall mit den Wahrscheinlichkeilen 0,95 bzw. 0,90 ansprechen. Suchen Sie die Wahrscheinlichkeit, dass in einem Notfall mindestens eine der Alarmanlagen anspricht. A. 0,995* B. 0,975

c. 0,95

E. 0,885

D. 0,90

* richtige Lösung

Abbildung 7: AufgabeL 10 © TIMSS/111 Deutschland

Bei weniger attraktiven Distraktoren wäre vermutlich ein besseres Ergebnis herausgekommen. In der empirischen Erprobung von Tests wird deshalb auch die Attraktivität der Distraktoren ermittelt. Bei MC-Aufgaben empfiehlt es sich darüber hinaus, die Stellung der richtigen Antwort zu variieren. Angenommen, die richtige Antwort stünde überzufällig häufig auf der letzten Position. Manche Schülerinnen und Schüler werden das bemerken und die beim Testautor beliebtere Position dann eher wählen, wenn sie im Zweifel sind. Abbildung 8 enthält eine Übersicht über die Verteilung der richtigen Antworten auf fünf Optionen, wie sie fiir einen Subtest im Rahmen des Examens fiir Ärzte gemäß der Ärztlichen Approbationsordnung festgestellt wurde. Bei fünf Positionen wären die richtigen Antworten optimal verteilt, wenn jede Position genau in einem Fünftel der Fälle die richtige Antwort enthielte. Im Fall von Abbildung 8 war das nicht gewährleistet. Im Zweifel wäre man mit den Wahlen B oder C besser gefahren.

114

Karl Josef Klauer

A

B

c

D

E

Abbildung 8: Verteilung der richtigen Antworten bei 172 MC-Prüfungsfragen im Fach Geschichte der Medizin (Originalprüfungsfragen). Aus Wunderlich, 1995, S. 37

Man wird aber auch die Reihenfolge beachten, mit der die Optionen "drankommen". Beispielsweise wird kein Testautor die Optionen immer in der gleichen Reihenfolge berücksichtigen. Um aber eine echte Zufallsfolge zu realisieren, wird man ein Zufallsprogramm in Anspruch nehmen müssen. Das kann dann auch sicherstellen, dass die Optionen - anders als in Abbildung 8 - gleich häufig berücksichtigt werden. Umordnungs- und Zuordnungsaufgaben sind pädagogisch und diagnostisch durchaus empfehlenswert. Ein relativ schweres Beispiel aus der TIMSS-Untersuchung, das nur von 33 % der 8. Jahrgangsstufe und von 22 % der 7. Jahrgangsstufe gelöst wurde, bietet Abbildung 9.

Ordne die Gegenstände nach ihrer Dichte von 1 bis 4 Gegenstand

A B

c D

Masse des Gegenstands 11,0 Gramm 11,0 Gramm 5,5 Gramm 5,5 Gramm

Volumen des Gegenstands 24 12 4 11

Kubikzentimeter Kubikzentimeter Kubikzentimeter Kubikzentimeter

Abbildung 9: Umordnungsaufgabe. Leicht modifiziert aus Baumert, Lehmann u. a., 1997, S. 77

Messung von Schulleistungen

115

Für Zuordnungsaufgaben bieten sich viele Möglichkeiten: deutsche und englische Vokabeln, Geschichtszahlen und Ereignisse, Hauptstädte und Länder, Elemente und deren Abkürzungen und dergleichen mehr. Zuordnungsaufgaben können als ineinander verschachtelte Mehrfach-W ablaufgaben betrachtet werden, die allerdings nicht unabhängig voneinander sind. Zu beachten gilt, dass die beiden Mengen, deren Elemente einander zugeordnet werden, nicht gleich groß sein dürfen, sonst wird die letzte Zuordnung "geschenkt". Hat man eine hinreichend große Zahl von Aufgaben zusammengestellt, so werden sie einer umfangreichen empirischen Erprobung unterzogen. Im Ergebnis erweisen sich manche Aufgaben als ungeeignet, während andere durch eine Überarbeitung "gerettet" werden dürften. Im Allgemeinen ist danach eine weitere empirische Erprobung erforderlich. Testautoren sind daher gut beraten, deutlich mehr Aufgaben zu erzeugen als in die Endfassung eingehen sollen.

Ausblick Während für die empirische Aufgaben- und Testanalyse eine wissenschaftlich begründete und gut bewährte Technologie zur Verfügung steht, ist das Schreiben von Testaufgaben noch immer eine Art Kunstfertigkeit, die von der Erfahrung der Autoren abhängt. Deshalb gibt es in den letzten Jahrzehnten Bestrebungen, die Erzeugung von Testaufgaben so nach einem Regelsystem vorzunehmen, dass subjektive Einflüsse möglichst ganz entfallen. Als ideale Lösung wird dabei angestrebt, Algorithmen zu entwickeln, die - für Computer programmiert - die automatische Generierung guter Testaufgaben ermöglichen. Über kurz oder lang dürften gerade auch überregional einsetzbare Tests auf der Basis solcher Verfahren entwickelt werden. Einzelheiten zur regelgeleiteten Aufgabengenerierung findet man in Klauer (1987a, S. 17-57). Die unterschiedlichen Lehrpläne der verschiedenen Länder stellen heute noch ein ernstes Problem für die überregionale Leistungsmessung dar. Angepasste Tests müssen sich dann auf die allen Ländern gemeinsame Schnittmenge von Lehrzielen beschränken. Dieses Problem lässt sich grundsätzlich nur schulpolitisch lösen. Mindestens im zusammenwachsenden Buropa dürfte man aber längerfristig mit einer Entwicklung rechnen, die zu einer stärkeren Vereinheitlichung der Lehrziele fuhrt.

Powered by TCPDF (www.tcpdf.org)

KAPITELS

Qualitätskriterien für die standardisierte Messung von Schulleistungen Kann eine (vergleichende) Messung von Schulleistungen objektiv, repräsentativ und fair sein?

Kari-Heinz Arnold

Schulleistungsmessungen sind wie fast alle sozialwissenschaftliehen Messungen eine Domäne wissenschaftlichen Arbeitens und damit ein Aufgabenfeld professionell wissenschaftlicher Einrichtungen. Sie bilden eine spezielle Form von Untersuchungen im Schulsystem und gehören somit zum Bereich der empirischen Bildungsforschung, die wiederum ein Teilgebiet der Erziehungswissenschaft ist. Diese Zuordnung gilt insbesondere im angelsächsischen Sprachraum: "Educational Assessment" im Sinne von "Educational Evaluation" und "Educational Measurement" wird dort als zentrales Arbeitsgebiet der erziehungswissenschaftliehen Forschung angesehen. Die Entwicklung von Schulleistungsstudien geschieht jedoch in der Zusammenarbeit mehrerer Disziplinen: Empirische Bildungsforschung, Pädagogische Psychologie sowie Curriculumforschung, Fachdidaktik, zunehmend auch die empirische Unterrichtsforschung treten hier in enge Kooperation. Die Instrumente der Messungen werden als "Tests" bezeichnet, deren methodische Grundlagen im deutschsprachigen Raum ein zentrales Gebiet der Psychologischen Diagnostik sind und unter den Oberbegriffen "Testtheorie" bzw. "Testkonstruktion" rangieren. Im Folgenden werden jene zentralen Qualitätskriterien der Testdiagnostik erläutert, die die Entwicklung insbesondere internationaler Schulleistungsstudien leiten. Zugleich zeigen sich damit Antworten auf kritische Fragen, die gegen vergleichende Schulleistungsmessungen vorgebracht werden.

118

Kari-Heinz Arnold

Validität als übergreifendes Qualitätskriterium für Schulleistungsmessungen

Validität als testtheoretisches Gütekriterium

Leistungsmessungen sollen wie alle psychologischen Messungen drei sogenannten Hauptgütekriterien möglichst weitgehend entsprechen. 1. Objektivität: möglichst weit gehende Unabhängigkeit der Testergebnisse von situativen Aspekten der Testdurchführung sowie von individuellen Variationen der Testauswertung und -interpretation; 2. Reliabilität (Zuverlässigkeit; Messgenauigkeit): möglichst geringe Belastung der Testergebnisse durch Messfehler unabhängig davon, was der Test misst; 3. Validität (Gültigkeit): möglichst hohe Übereinstimmung mit dem, was der Test zu messen beansprucht. Die Bedeutung (und die empirische Anwendbarkeit) dieser Gütekriterien zeigt sich, wenn die Testung als ein naturwissenschaftliches Experiment aufgefasst wird, in der einzelnen Mitgliedern einer Personengruppe, d. h. den Testnehmern, die Testaufgaben ("Items") des entwickelten Tests zur Bearbeitung gegeben werden. Objektivität zielt auf die Beibehaltung spezifischer Nullhypothesen fiir das Experiment der Testvorgabe: Die als unabhängige Variablen aufzufassenden Merkmale der Testsituation sollen keinen bedeutsamen Einfluss auf die abhängigen Variablen, d. h. auf die Testleistung, zeitigen. Hingegen soll die Alternativhypothese gelten, dass nur die Merkmale der Testaufgaben und die Fähigkeiten der Testpersonen die Testergebnisse bestimmen. Hohe Reliabilität wird erreicht, wenn die Variabilität der Testwerte weitgehend mit der Variabilität der latenten, psychischen Merkmale der Testpersonen übereinstimmt und somit der Anteil der Fehlervarianz an den Testwerten minimal ausfällt. Validität bedeutet, dass die Variabilität der Testwerte so wenig wie möglich von anderen psychischen Merkmalen als den zu messenden bestimmt wird. Die Gütemerkmale beziehen sich nicht auf eine einzelne Testdurchfiihrung, sondern auf das Resultat vieler ähnlicher "Experimente", d. h. Testwiederholungen mit ähnlichen Personen und/oder ähnlichen Aufgaben. Für eine einzelne Testperson können durchaus abweichende Verhältnisse eintreten, ohne dass zugleich auf einen Test von geringer Qualität zu schließen ist; fiir identifizierbare Gruppen von Personen darf dies hingegen nicht der Fall sein. Wenden wir nun die testtheoretischen Gütemerkmale auf den Bereich der Schulleistungsmessungen an, die hier als summative Leistungsbewertungen aufgefasst werden. Schulleistungen sind Lernstände, die auf eine durch das Lernen bedingte personale Fachkompetenz hinweisen, welche wiederum eine gewisse Stabilität aufweist und insofern Schüler nicht nur zum Zeitpunkt der Messung, sondern über einen längeren Zeitraum unterscheidbar macht. Die psychologische Diagnostik behandelt "Kompetenzen" wie Persönlichkeitseigenschaften und betrachtet diese somit als "latente Personenmerkmale", die sich mehr oder minder direkt im beobacht- und deshalb testbaren Verhalten äußern.

Qualitätskriterien für die Messung von Schulleistungen

119

Gegen eine solche Sichtweise scheint das Faktum zu stehen, dass Lernstände durch Weiterlernen rasch verändert werden. Gleichwohl erbringen wiederholte Lernstandsmessungen- allerdings nur unter Wahrung einer Reihe von Nebenbedingungen wie z. B. der Erarbeitung eines hierarchisch organisierten Wissensgebietes und der V erwendung einer Paralleltestform (Testform identischer Validität, die jedoch andere Items enthält)- mit hoher Wahrscheinlichkeit eine ähnliche Rangreihenfolge der Schüler und bis auf geringfiigige numerische Unterschiede auch ähnliche Skalenwerte. Die theoretische Begründung von Schulleistungsmessungen hat deshalb die beiden Sichtweisen auszubalancieren: Inwieweit können und sollen schulische Lernprozesse als Veränderung grundlegender Kompetenzen aufgefasst werden und zugleich als dynamische Bilanzen von Lernzielerreichungen gelten? In den beiden zentralen und häufig als konkurrierend aufgefassten Ansätzen der Testtheorie spiegelt sich diese Alternative wider: Die sogenannte Klassische Testtheorie (KTT) unterstellt, dass einzelne Testaufgaben dann einen hochwertigen Test bilden, wenn sie insgesamt genau messen (hohe Reliabilität) und wenn die Summe der Testantworten hohe Übereinstimmung zeigt mit anderen Kriterien, die Gleiches zu messen beanspruchen (hohe Kriterienvalidität). Dies ist die Perspektive der Lernzielbilanzierung, was sich auch darin zeigt, dass die Prüfung zusätzlicher Lernziele einer entsprechenden Testverlängerung gleichkommt.- Probabilistische Testmodelle bzw. ItemResponse-Theorien (IRT) erklären hingegen einen Test dann fiir qualitativ hochwertig, wenn die Testaufgaben ein latentes Personenmerkmal abzubilden vermögen. In einem empirisch testbaren Modell wird der Einfluss einer nicht direkt messbaren "Personenfähigkeit" auf die Bewältigung der Testaufgaben beschrieben, deren "Schwierigkeit" in einem eigenständig, d. h. zusätzlich zur Personenfahigkeit schätzbaren Parameter ausgedrückt wird. Aufwendigere IRT -Modelle berücksichtigen weitere Itemparameter bzw. die Differenziertheit der Aufgabenantworten. Dies ist die Perspektive der Kompetenzmessung. Sollen mehrere Kompetenzen gemessen werden, sind entweder entsprechend viele Tests zu entwickeln oder ein Testverfahren, das die übergeordnete Kompetenz misst. Das der KTT zugehörige Gütemerkmal der Konstruktvalidität bildet eine der Verbindungsstellen zum alternativen Modell der IRT: Die Testaufgaben sollen ein psychologisches Konstrukt repräsentieren, das nicht direkt beobachtbar ist, sondern definiert wird als die relevante(n) "Dimension(en)" der Testaufgaben. Die Interpretation der zumeist über multivariate statistische V erfahren wie die Faktorenanalyse erhaltenen Testdimensionen stellt ähnliche Anforderungen an die theoretische Begründung des Tests wie die Interpretation der latenten Dimension, die ein IRT-konformer Test operationalisieren soll. Die Hauptgütekriterien ftir Testverfahren sind ergänzt worden um so genannte Nebengütekriterien wie Normierung (Bezug zu einer oder mehreren Populationen), Vergleichbarkeit (Existenz von Parallelformen oder validitätsähnlichen Tests), Ökonomie (Minimierung von Zeit- und Materialaufwand) und Nützlichkeit (Entscheidungsverbesserung gegenüber alternativen Methoden) sowie Fairness, die in ihrer Benennung bereits anzeigen, dass der Anwendungszusammenhang der Testverfahren stärker berücksichtigt wird.

120

Kari-Heinz Arnold

Schulleistungstests sollen wie auch alle anderen Testverfahren fair gegenüber sozialen Gruppen sein, d. h. soziale Gruppen sollen durch variabel gestaltbare Testeigenschaften wie z. B. das Antwortformat oder die sprachliche Einkleidung der Testaufgaben weder benachteiligt noch bevorzugt werden. Die Beantwortung der Frage, für welche sozialen Gruppen Testfairness bestehen soll, rekurriert üblicherweise auf Setzungen der politischen Moral demokratischer Gesellschaften, die Gleichheit und Gerechtigkeit als höchste Grundwerte anerkennen. Die politische Geschichte der abendländischen Gesellschaft wird somit Fairness auch als eine Emanzipation von Unterdrückung und Benachteiligung bestimmter sozialer Gruppen interpretieren, insbesondere von Mitgliedern bestimmter Religionsgruppen, von bestimmten ethnischen Gruppen, von Gruppierungen unterschiedlichen Besitzstandes, von Menschen anderer Staatsangehörigkeit, von Mitgliedern anderer kultureller Orientierung oder anderer Sprachgemeinschaften und von Personen weiblichen Geschlechts. So führt z. B. das Grundgesetz der Bundesrepublik in Artikel 3 fiinf soziale Gruppierungsmerkmale auf, die nicht systematisch mit Benachteiligungen verknüpft sein dürfen.

Validierung als umfassende Bewertung der Schlussfolgerungen aus Testwerten Validität bildet zunächst eines der Testgütemerkmale und rangiert somit neben den Kriterien der Reliabilität, Vergleichbarkeit und Fairness. In der testtheoretischen Methodologie werden üblicherweise drei Arten der im traditionellen Sinne definierten Validität unterschieden: 1. Inhaltsvalidität erfasst in Form von Expertenurteilen die Repräsentativität der Testinhalte für das gemessene Merkmal bzw. den abzudeckenden Inhaltsbereich; 2. Kriterienvalidität: erfasst als (a) Vorhersagevalidität (Prognose eines Kriteriums anband der Testleistung) und als (b) Übereinstimmungsvalidität (hohe Korrelation mit Tests ähnlichen Messanspruchs und niedrige Korrelation mit Tests unterschiedlichen Messanspruchs); 3. Konstruktvalidität abgeschätzt durch die psychologische Analyse der Komponenten des Testverhaltens (z. B. durch Faktoranalyse der Testitems). V ergleicht man diese drei Validitätsarten, so wird einerseits deren ergänzende Bedeutung sichtbar, andererseits jedoch auch die übergeordnete Funktion der Konstruktvalidierung, denn in dieser werden genuin theoretische und somit für empirische Analysen rahmensetzende Begründungen für die Messabsicht erarbeitet. Diese sachlogische Konstellation bildet den Ausgangspunkt für ein umfassendes Verständnis von Konstruktvalidität, das die übrigen Validitätsaspekte ebenso integriert wie weitere Testgütemerkmale: "In der Tat, in einer umfassenden Definition bedeutet Validität nichts weniger als die zusammenfassende Bewertung sowohl der empirischen Belege für als auch der gegenwärtigen wie künftig möglichen Konsequenzen von Testwertinterpretation und -nutzung" (Messick, 1995, S. 742). Tabelle 1 zeigt die sukzessive Erweiterung des Validitätskonzepts durch die Berücksichtigung der Konsequenzen für die Testwertinterpretation und die Testwertnutzung.

Qualitätskriterien für die Messung von Schulleistungen

121

Tabelle 1: Progressive Matrix der Validitätsfacetten (s. Messick, 1995, S. 746) i

I Testinterpretation Ebene der empirischen Nachweise

Konstruktvalidität (KV)

Ebene der Konsequenzen

KV + Wertsetzungsfolgen (WF)

i Testnutzung ' KV + Relevanz/Nützlichkeit (R/N) KV + RIN + WF + Soziale Konsequenzen

Für die optimale Entwicklung neuer, aber auch zur umfassenden Beurteilung bereits genutzter Testverfahren können sechs zentrale Aspekte der Konstruktvalidität (s. Tab. 2) herangezogen werden.

Tabelle 2: Aspekte der Konstruktvalidität (s. Messick, 1995, S. 745-746) (1) Relevanz und Repräsentativität der Testinhalte

(a) Sicherung der Relevanz durch Curriculum-, Aufgaben- oder Arbeitsplatzanalysen sowie durch Theorien zum Untersuchungsbereich ("domain theory'') (b) Sicherung der Repräsentativität durch ltemkonstruktion nach Lemzielmatrizen, Expertenrating zur Inhaltsvalidität etc.

(2) Substanzielle Theorien, Prozessmodelle und AnaIysen des Aufgabenbearbeitungsprozesses

(a) Theorien der kognitiven Informationsverarbeitung bei der Testaufgabenlösung (b) Erfassung der Denkprozesse durch Verbalisierungsprotokolle, Aufzeichnung von Blickbewegungen, Reaktionszeiten und Hilfsmittelnutzung (computerunterstütztes Testen)

(3) Anforderungsstrukturbezogene Aufgabenbewertungsmodelle

Testpunktvergabe ("scoring models") als Abbildung der kognitiven Teilprozesse der Aufgabenbearbeitung (z.B. durch Bewertung von Teillösungen)

(4) Generalisierbarkeit

Abschätzung des Ausmaßes der Generalisierbarkeit der Testwerte: auf andere Aufgaben und Aufgabenformen, spätere Untersuchungszeitpunkte, andere Untersuchungsumstände, andere Testauswerter

(5) Konvergente und diskriminative Korrelationen mit externen Merkmalen

Analyse der Zusammenhänge mit testnahen und testfernen Merkmalen sowie möglicher lnteraktionsbeziehungen (d.h. Identifikation von Moderatorvariablen, die die Korrelationen beeinflussen)

(6) Testkonsequenzen als Hinweise auf Konstruktvalidität

(a) Analyse positiver Konsequenzen: z.B. verbesserte bildungspolitische Maßnahmen (b) Analyse negativer Konsequenzen: z.B. Verzerrungstendenzen durch Testauswertungspraxis; Unfairness der Testnutzung für SelektionsentScheidungen

122

Kari-Heinz Arnold

Für die Testentwicklung sindjene Konstellationen besonders wichtig, die zu Einschränkungen der Konstruktvalidität fiihren und die deshalb möglichst vermieden werden sollen: 1. zu geringe Konstruktrepräsentation im Test ("construct underrepresentation"), 2. zu große Beeinflussung der Testwerte durch andere Merkmale ("construct irrelevant variance"), 3. zu geringe Berücksichtigung von Nebeneffekten bzw. unerwünschten Folgen der Testnutzung. Das Ziel eines hochgradig konstruktvaliden Testverfahrens wird immer "nur" unter Abwägungen erreicht, die Reduzierungen einzelner Gütemerkmale zugunsten anderer beinhalten. So können durchaus Konstellationen eintreten, in denen die Meßgenauigkeit nur um den Preis einer Einschränkung des Erfassungsbereichs des Tests, d. h. der Inhaltsvalidität, gesteigert werden kann, was gelegentlich kolportiert wird mit der Bemerkung, dass psychologische Testverfahren entweder etwas Wichtiges relativ ungenau oder etwas höchst Spezielles sehr genau zu messen vermögen. Durch den Einbezug von Wertsetzungen und Testkonsequenzen erhält das umfassende Konzept der Validität auch eine sozialwissenschaftliche Prägung: Validität ist abhängig von den sozialen und sich in stetiger, d. h. historischer Veränderung befindlichen Verhältnissen der Testnehmer, Testanwenderund Testwertnutzer, womit im Falle von Schulleistungsmessungen größte Teile der Gesellschaft gemeint sind. Einschätzungen der Validität haben deshalb eine zeitbeschränkte Geltung und sollten wiederholt überprüft werden.

Vergleichbarkeit der Untersuchungsgegenstände und der untersuchten Schülergruppen Eine logische Voraussetzung insbesondere von internationalen Schulleistungsmessungen besteht darin, dass die Messergehnisse inhaltlich sinnvolle Vergleiche ermöglichen. In der Terminologie der Testtheorie ist somit nachzuweisen, dass die Validität der Leistungstests fiir die beteiligten Nationen gleich ist. Ungleiche, d. h. differentielle Validität kann zugleich als mangelnde Fairness der Vergleiche interpretiert werden, weil in diesem Fall die Chance, hohe Leistungskennwerte zu erreichen, von teilweise unterschiedlichen Fähigkeiten abhängt. Diese Konstellation kannjedoch auch als ein nicht hinreichend gelöstes Problem der Testentwicklung aufgefasst werden: die Mehrdimensionalität dessen, was der Test erfasst, wird durch die eindimensionale Teststruktur nicht angemessen abgebildet. Zur Sicherung der Vergleichbarkeit der Untersuchungsgegenstände sind Rahmenbedingungen zu formulieren, die im Falle von Schulleistungen primär durch fachdidaktische Traditionen bestimmt werden, welche wiederum kulturspezifische Prägungen aufweisen. Hier zeigt sich eine kritische Begrenzung internationaler Schulleistungsstudien.

Qualitätskriterien für die Messung von Schulleistungen

123

Lösbar ist das Problem, wenn - wie in TIMSS (Third International Mathematics and Science Study)- ein hinreichend umfassendes, gemeinsames Curriculum ("internationales Kerncurriculum") herausgearbeitet werden kann, auf dessen Grundlage die Testaufgaben formuliert werden. Die Alternative besteht darin, die Orientierung an den Lehrtraditionen aufzugeben und psychologisch-diagnostisch zu argumentieren, indem Kompetenzen definiert werden, die in der Struktur der Testverfahren als einheitliche Fähigkeitsbereiche nachweisbar sind; diesen Ansatz nutzt das Programme for International Student Assessment (s. Deutsches PISA-Konsortium, 2000). Leistungsvergleiche zwischen Gruppen setzen nicht nur vergleichbare Messinhalte voraus, sondern auch vergleichbare Stichproben. Grundgesamtheiten können in Schulleistungsstudien nur sehr selten erfasst werden. Leistungsvergleiche zwischen Bundesländern und ebenso internationale Vergleichsstudien müssen das Ausmaß der Selektivität der Stichproben, die gezogen und deren Kennwerte in den Vergleich genommen werden, abschätzbar machen. Je nach Ausrichtung dieser Studien ergeben sich hier beträchtliche Probleme. Werden Untersuchungen in der Sekundarstufe platziert, müssen z. B. in Deutschland, in den Niederlanden oder in Österreich die unterschiedlichen Arten der Schulformgliederung berücksichtigt werden. Während in Ländern mit integrativen Systemen (z. B. England, USA, Japan oder die skandinavischen Länder) einfache Zufallsstichproben gezogen werden können, muss in den Staaten mit gegliederten Systemen diese Struktur durch eine so genannte Stratifizierung ( d. h. schulformbezogene Aufteilung der Stichprobe und anschließende Gewichtung der Kennwerte) sehr genau nachgebildet werden. Weitere Probleme ergeben sich, wenn Schulsysteme sehr unterschiedliche Quoten an externer Sonderbeschulung aufweisen und die Schülerschaft dieser Schulen nicht in die Untersuchungsstichprobe einbezogen wird.

Kriterienorientierte Leistungsmessung Internationale Schulleistungstests basieren auf dem Modell der lernzielorientierten Leistungsmessung und damit auf der zwar einfachen, zugleich aber auch sehr anspruchsvollen Voraussetzung, dass diese Lernziele expliziert sein müssen. Zumeist kann jedoch nicht auf ein kodifiziertes internationales Curriculum zurückgegriffen werden, da keine Verbindlichkeit und somit auch keine Institution vorhanden ist, die Integration vieler nationaler Lehrpläne, Curricula oder Unterrichtsprogramme vorzunehmen. Deshalb sind den großen internationalen Vergleichsstudien der International Association for the Evaluation ofEducational Achievement (IEA) mehr oder minder intensive Curriculumstudien vorgeschaltet worden, insbesondere bei der Entwicklung von TIMSS. Auf den so dargestellten internationalen Kerncurricula basieren die Entwürfe der Testaufgaben und die erwarteten Dimensionen des Leistungsverhaltens. Curriculumorientierung bildet eine Form der theoriegeleiteten Inhaltsvalidierung (s. Punkt 1 in Tab. 2). Ob der resultierende Test letztlich das Kerncurriculum hinreichend repräsentiert, stellt gleichwohl eine empirische Frage dar, die durch die Methoden der Konstruktvalidierung geklärt werden sollte. Im Sinne konvergenter und divergenter Validierung (s. Punkt 5 in Tab. 2) kann geprüft werden, ob der Test Ähnliches wie ähn-

124

Kari-Heinz Arnold

liehe nationale Schulleistungstests misst oder deutlich anderes als Schulleistungstests, die andere, jedoch benachbarte Leistungsbereiche abdecken. Eine weitere Möglichkeit der Validitätsprüfung fiir einen bereits konstruierten Test besteht in einer Einschätzung von Experten, die die Inhalte der Testaufgaben und die Inhaltsbereiche der Curricula vergleichen und das Ausmaß der Kongruenz beurteilen. Im Modell eines lernzielorientierten Tests repräsentieren die Testaufgaben die Operationalisierung des zu messenden Fachgebietes. Insofern triffi hier die Formulierung zu, dass die fachliche Leistungsfähigkeit dasjenige ist, was die Items des Fachleistungstests messen. Zwei unterschiedliche Sichtweisen auf die Beziehung zwischen den verfiigbaren Testaufgaben und dem Test sind möglich. Für Fähigkeiten, die mit einem sehr umfangreichen und sehr homogenen Wissensfundus verknüpft sind, kann unterstellt werden, dass eine Zufallsstichprobe von Testaufgaben aus dem Universum einer Vielzahl ähnlicher Testaufgaben das Wissensgebiet repräsentiert und somit einen validen Test bildet. Dies triffi insbesondere fiir die arithmetischen Fähigkeiten zu, ftir die eine kaum begrenzte Vielzahl von Beispielaufgaben konstruierbar ist. Viele Wissens- und Fähigkeitsgebiete sindjedoch anders strukturiert. So gibt es in den Naturwissenschaften keine unbegrenzte Vielfalt von Experimenten, und ebenso wenig gibt es im Literaturunterricht ein Universum vergleichbarer literarischer Texte, deren ästhetische Qualität analysiert und interpretiert werden kann. Noch stärker wird das Spektrum möglicher Testaufgaben eingeschränkt, wenn realitätsnahe Anwendungssituationen des Wissens und Könnens nachgebildet werden. Testkonstrukteure haben zumeist große Mühe, fiir kontextorientierte Aufgabenstellungen eine Vielzahl von vergleichbaren Beispielaufgaben zu entwickeln. Wenn zusätzlich noch die Forderung zu erfüllen ist, dass diese "kontextualisierten" Aufgaben wenig kulturspezifisch sind und deshalb in internationalen Schulleistungsstudien Verwendung finden können, verengt sich das Aufgabenspektrum sehr erheblich. Gleichwohl gelingt es immer wieder, auch unter diesen Anforderungen akzeptable Testaufgaben zu entwickeln. Diese stellen ein "rares Gut" dar, das durch Veröffentlichung seine Wiederverwendbarkeit verliert. Hier liegt ein zentraler pragmatischer und ökonomischer Grund fiir die Geheimhaltung von Testaufgaben, wie dies z. B. in der zyklisch organisierten PISA-Studie der Fall ist. Zugleich ergibt sich jedoch ein Rechtfertigungsprob lern: Die so entwickelten und geheim gehaltenen Testaufgaben können von einer kritischen Öffentlichkeit nicht analysiert und diskutiert werden. Die Repräsentativität kontextualisierter Testaufgaben kann fiir das untersuchte Wissensund Fähigkeitsgebiet nicht über einen formalen Auswahlprozess begründet werden, da das Aufgabenuniversum entweder sehr klein oder nicht bekannt ist. So bleibt kein anderer Weg, als zunächst die Aufgabenentwicklung sehr eng an den zu erfassenden Kompetenzbereichen zu orientieren, was keineswegs einfach ist, da sich die Anwendungssituationen dieser Kompetenzen erheblich unterscheiden können. Hier zeigt sich das klassische Dilemma der Persönlichkeitsforschung auf der Seite der Leistungsmessung: Wenn es fachliche Kompetenzen als generelle persönliche Merkmale geben sollte, kann dann zugleich behauptet werden, dass mit diesen Kompetenzen in unterschiedlichen Anwendungssituationen in gleicher Weise operiert wird? Und: Gibt es überhaupt trans-

Qualitätskriterien für die Messung von Schulleistungen

125

situativ wirksame, fachliche Kompetenz? Antworten auf die erste Frage geben die in Tabelle 2 unter Punkt 2 vorgeschlagenen Prozessanalysen, in denen das Testantwortverhalten in psychologische Teilkomponenten aufgeschlüsselt wird, für deren Zusammenwirken bereits Theorien vorliegen. Dazu werden u. a. experimentelle Untersuchungen in "cognitive labs" durchgeftihrt. Die zweite Frage kann nur durch aufwändige Generalisierbarkeitsstudien beantwortet werden (s. Punkt 4 in Tab. 2).

Strategien der Testaufgabenauswahl

Probabilistische Testmodelle betonen die parallele Betrachtungsweise von Testaufgaben und Testpersonen: Item- und Personenparameter werden separiert geschätzt und stehen als Operationsbereiche ftir die Testoptimierung gleichermaßen zur Verfügung. Üblicherweise werden aufgrund von Pretestergebnissen weniger passende Items identifiziert und aus dem Test herausgenommen. Während das Verfahren der Itemselektion aus pädagogischer Sicht unproblematisch erscheint, verstößt die komplementäre Strategie, jene Personen bzw. Personengruppen von der Testanwendung auszuschließen, bei denen die Qualitätskennwerte des Verfahrens ungünstig ausfallen, gegen die politische Moral und zeitigt unerwünschte soziale Konsequenzen. In der Theorie der Testmodelle ist jedoch keine Präferenz für eine ausschließlich itembezogene Testverbesserung vorgegeben. Möglicherweise würden einige Probleme der Testentwicklung sogar effizienter lösbar sein, wenn der Anspruch aufgehbar sein könnte, ein ftir jede unausgelesene Schülerschaft und für jedes Ensemble von Nationen passendes Messinstrument vorzulegen. Die Validität solcher Verfahren wäre dann begrenzt, was durch eine explizite Nennung der sozialen Geltungsbereichseinschränkung angezeigt werden muss und bei der Interpretation der Testergebnisse gleichermaßen mitzuteilen ist. Wenn ein IRT-modellkonformes Testverfahren bereits vorliegt, kann die itembezogene Seite der oben beschriebenen Parallelität für eine sehr effektive Teststrategie genutzt werden, die wiederum an das Konzept der ltemstichprobe anknüpft. Da - in gewissen Grenzen - ein solcher Test auch mit Teilstichproben seiner ltems dasselbe Merkmal misst, können Teilstichproben der Aufgaben als Teiltests (d. h. als test booklets) vorgegeben und diese Testhefte in optimierter Konstellation von zufällig ausgewählten Schülern einer Untersuchungseinheit (Schule oder Schulklasse) bearbeitet werden. Für die untersuchte Gesamtgruppe kann gleichwohl ein präziser Gesamttestwert berechnet werden. In Schulleistungsuntersuchungen wird das "ltem Sampling" und die Nutzung von "rotierten Testheften" sehr vorteilhaft eingesetzt, weil bei großer Messbreite und somit hoher Repräsentativität des Tests die Testzeitbeanspruchung für jeden Schüler relativ gering gehalten werden kann. Ein interessanter Nebeneffekt besteht darin, dass die Vielzahl der in einer Testgruppe genutzten Testhefte das Kopieren von Lösungen beträchtlich erschwert.

126

Kari-Heinz Arnold

Kompetenzmessung Schulleistungen können nicht nur erfasst werden, um während bzw. am Ende schulischer Lernphasen eine formative bzw. summative Evaluation vorzunehmen, d. h. Abstände von gewünschten Lernzielen zu bestimmen. Ein anderer Zugang zur Leistungsmessung ist bereits erwähnt und in dem Entwicklungskonzept für kontextualisierte Aufgaben angedeutet worden. Schulische Bildung kann auch als eine allgemeine Befähigung zum Bewältigen von lernbereichsbezogenen Anforderungen aufgefasst werden, die nicht nur in unterrichtsnahen Situationen zur Verfügung steht und die eine gewisse zeitliche Dauerhaftigkeit aufweist. Beide Aspekte - die Übertragbarkeit auf andere Leistungssituationen (Transfer bzw. situative Generalisierbarkeit) und mittelfristige Merkmalsstabilität - erschließen die Möglichkeit, erworbene Schulleistungen als psychologische Attribute der Persönlichkeit der Schüler aufzufassen. Die aus dieser Annahme resultierenden Konsequenzen sind sehr weitreichend. So wird die inhaltliche Voraussetzung erschlossen, moderne Testmodelle zur Testentwicklung heranzuziehen, die die Beziehung zwischen einer "latenten Dimension" ( d. h. einer das Verhalten bedingenden intrapsychischen Eigenschaft) und der "Testaufgabenbeantwortung" strukturieren. Eine weitere Konsequenz besteht darin, eine bestimmte Verteilungsannahme für die bereichspezifischen Kompetenzen rechtfertigen zu können. Wie auch bei Persönlichkeitsmerkmalen kann unterstellt werden, dass diese Kompetenzen in der Tendenz einer Normalverteilung entsprechen, d. h. die meisten Personen einer unausgelesenen Stichprobe erreichen mittlere Fähigkeitsausprägungen, wenige hohe und ebenso wenige niedrige. Leistungsverteilungen dieser Art stehenjedoch in einem gewissen Gegensatz zur curricularen Bindung schulischen Lernens, die vorsieht, dass das Curriculum allen Schülern einer Schulform und Schulstufe vermittelt werden soll. Curriculumorientiertes Lehren impliziert zielerreichendes Lernen und müsste deshalb zu anderen Verteilungen führen, als diese z. B. für Schulzensuren anzutreffen sind oder für Persönlichkeitsmerkmale wie z. B. Intelligenz unterstellt werden. Statt der Normalverteilung müssten curricular gebundene Lernprozesse eigentlich zu einer sehr hohen Quote von "Zielerreichern" führen, andernfalls würde das Curriculum seine Verbindlichkeit zumindest partiell verlieren bzw. zieldifferentes Unterrichten (d. h. dauerhafte Leistungsdifferenzierung) explizit vorsehen. In der PISA-Studie wird ein dezidiert kompetenzorientierter Ansatz gewählt: Untersucht werden die schulisch und außerschulisch erworbenen Fähigkeiten des Textverstehens sowie der mathematischen und der naturwissenschaftlichen Grundbildung im Hinblick auf die Bewältigung von schulischen, beruflichen, öffentlichen und privaten Anwendungssituationen des modernen Lebens. Im Unterschied zu TIMSS wird hier kein internationales Kerncurriculum vorausgesetzt, sondern - im Sinne einer kriterienorientierten V alidierung - eine internationale Übereinkunft über die Bedeutsamkeil der Anwendungssituationen. Unklar ist jedoch, welche Personen und Institutionen der 32 an PISA beteiligten Staaten hinreichend legitimiert sein können, diese wertorientierten Entscheidungen zu treffen. Pragmatisch wird dieses Problem gelöst, indem die Vertreter

Qualitätskriterien für die Messung von Schulleistungen

127

der höchsten Bildungsadministrationen im "Board ofParticipating Countries" entsprechende Voten abgeben zu Vorschlägen, die aus den fiihrenden nationalen Instituten der empirischen Bildungsforschung stammen. Die Begründung der Repräsentativität fiir die Aufgaben eines Grundbildungstests spiegelt eine solche Distanz zu den unmittelbaren unterrichtlichen Lernerfahrungen wider und illustriert damit in typischer Weise die logische Problematik, die sich bei jeder Voraussetzungsanalyse schulischer Lernprozesse ergibt. Grundbildung kann nicht nur aus "Einzelheiten, die gewusst oder gekonnt werden", bestehen, denn andernfalls handelte es sich um eine leichthin durch einfaches Hinzulernen steigerbare Kompetenz. Die pragmatische Seite dieses Problems zeigt sich in der Diskussion um Testvorbereitungsstrategien. Leistungstests müssen als unfair bezeichnet werden, wenn kurzfristiges Testtraining eine bedeutsame Testwertsteigerung ermöglicht. Im Falle von lernzielorientierten Leistungsmessungen kann diese Unfaimess nur dadurch vermieden werden, dass die Testaufgaben unzugänglich gehalten werden und somit aufgabenbezogene Testvorbereitung als "zielorientiertes Lernen" verhindert wird. Für kompetenzorientierte Leistungsmessungergibt sich eine tendenziell andere Konstellation. Falls die Testaufgaben tatsächlich einen weiten Kompetenzbereich abdecken, müssen letztlich die erfassten Kompetenzen selbst erworben werden, um den Test erfolgreich zu bestehen. Das isolierte Erlernen von Aufgabenlösungen fiihrt allenfalls dann zum Erfolg, wenn hinreichend viele Einzelaufgaben bekannt sind und vorbereitet werden können.

Fairness als instrumentelle Qualität internationaler Schulleistungsmessungen Minimierung von gruppenbezogener Verzerrung der Testergebnisse Insbesondere fiir internationale Schulleistungsmessungen gilt die Forderung, dass die eingesetzten Testverfahren faire Vergleiche ermöglichen (s. Amold, 1999). Weder dürfen die Testinhalte noch die Arten der Testaufgaben systematisch einzelne Nationen bevorzugen oder benachteiligen- der Test soll frei von Verzerrungen (bias) sein. Das Konzept der Lerngelegenheiten gilt auch hier: Falls die Testverfahren primär die Effekte von Beschulung messen sollen, so muss gesichert sein, dass die Testinhalte zum Curriculum der Länder gehören. Dieser Forderung kannjedenfalls in den Bereichen der Mathematik und Naturwissenschaften nie vollständig, aber durchaus weitgehend entsprochen werden, wie z. B. die TIMSS-Curriculumanalysen zeigen. Werden zudem Probabilistische Testmodelle genutzt, so können in einem gewissen Rahmen national optimierte Varianten des internationalen Tests entwickelt werden, die eine gewisse Menge von Aufgaben, die weniger zum nationalen Curriculum passen, nicht enthalten. Gleichwohl können die optimierten Testvarianten beanspruchen, dasselbe zu messen wie die vollständige Testform.

128

Kari-Heinz Arnold

Für Lernbereiche wie die primärsprachliche Leseflihigkeit oder die Fähigkeit zur Erstellung von Texten muss das Fairnesskriterium stark erweitert werden, da die nationale Kultur zentraler Gegenstand dieser schulischen Lernbereiche ist. Zugleich sind die in diesen Leistungsbereichen erreichten Lernstände deutlich weniger von unterrichtlichen Lerngelegenheiten abhängig, weil Schule keineswegs das Monopol der "Enkulturation" hat. Zur Effizienzbestimmung für schulisches Lernen sind diese Leistungsmaße weniger geeignet. Die Entwicklung fairer Testverfahren folgt einer doppelten Orientierung: Zum einen werden jene Testinhalte bevorzugt gewählt, die eine hohe interkulturelle Repräsentanz haben (diese Tendenz zeigt sich in den mathematisch-naturwissenschaftlichen Schwerpunktsetzungen von TIMSS und PISA sowie in der Erfassung der Informationsaufnahme aus Texten (PISA), zum anderen werden kulturelle Adaptationen für fachinhaltliche Aufgabenstellungen gesucht. Gerade die zweite Vorgehensweise verdeutlicht, dass eine Kompetenzorientierung der Leistungsmessung auch erhebliche theoretische Vorteile erschließt, denn wie anders könnten interkulturelle Testinhalte bestimmt werden als über eine Definition von grundlegenden und wenig kulturabhängigen Fähigkeiten? So bemüht sich seit Jahren eine Arbeitsgruppe innerhalb der OECD um die Definition von allgemeinen, durch Schulunterricht zu vermittelnden Kompetenzen. Pragmatische Vorschläge liegen vor, so z. B. die Erfassung von "cross curricular competencies" oder "life skills". Die Anforderung der kulturellen Adaptation kann auch als soziale W ertsetzung interpretiert werden und damit als eine Facette der Validität. Wenn Testfairness als Konsequenz der politischen Moral aufgefasst wird, dann stellt die Ausarbeitung eines gemeinsamen internationalen Kerncurriculums die Gleichheitskomponente des aristotelischen Gerechtigkeitsprinzips dar. Die kulturelle Adaptation der Testinhalte wiederum zeigt die Differenzierungskomponente der Gerechtigkeit: die spezifischen Traditionen jeder Nation sollen in der Testaufgabenformulierung berücksichtigt werden. Die statistische Analyse von Testbias ist auf die gleichen Verfahren angewiesen, die auch in der Differentiellen Psychologie zur Identifikation von Gruppenunterschieden verwendet werden. Dieser methodische Aspekt spiegelt das zentrale Theorieproblem wider: Ob - und wenn ja, unter welchen Bedingungen - Gruppenunterschiede als Artefakte gelten und somit eine Eigenschaft des Messinstruments zeigen wie z. B. die Unfairness gegenüber bestimmten Nationen, nationalen Minderheitengruppen oder einer Geschlechtergruppe, kann nur durch theoretische und zugleich wertsetzende soziale Entscheidungen bestimmt werden, nicht aber durch empirische Fakten allein. Denn Gruppenunterschiede können gleichermaßen mittlere Unterschiede in der Merkmalsausprägung repräsentieren, die aufrealen "Wirkungen" beruhen, was in anderer Formulierung bedeutet, dass das Kriterium der Fairness in einer theorielosen Nutzung auch reale Leistungsunterschiede zwischen Gruppen "verwischen" kann. Diese Position ist durchaus mit dem erweiterten Verständnis von Validität vereinbar, da darin von der Tatsache ausgegangen wird, dass es unterschiedliche Annahmen für die Entstehung von Gruppenunterschieden in der Gesellschaft gibt und dass sich diese sowohl in den gängigen sozialwissenschaftliehen und biologischen Theorien als auch in Stereotypen widerspiegeln.

Qualitätskriterien für die Messung von Schulleistungen

129

Minimierung von gruppenbezogener Verzerrung der Testaufgabenbeantwortung

Einfacher scheint das Problem der Verzerrung von Testleistungen behandelbar zu sein, wenn die Analyse unterhalb der Ebene des Gesamttestwertes angesetzt wird. Tests bestehen aus einzelnen Items. Somit kann in der Untersuchung von testaufgabenbezogener Verzerrung folgender Frage nachgegangen werden: Weisen einzelne Aufgaben für Personen gleicher Fähigkeit, aber unterschiedlicher sozialer Gruppenzugehörigkeit unterschiedliche Schwierigkeiten auf? Diese Umschreibung spiegelt recht genau eine neuere Bezeichnung für das hier zu untersuchende Phänomen wider: gruppenbezogen unterschiedliches "Funktionieren" von Testaufgaben (differential item functioning, DIF). Da insbesondere jene ltems inakzeptabel erscheinen, die soziale Minoritäten benachteiligen, weil die Aufgaben in diesen Gruppen als übermäßig schwer erscheinen, wird der Terminus "item bias" gleichermaßen verwendet. Die statistischen Verfahren zur Identifizierung von DIF sind aufwendig und führen nicht durchweg zu identischen Ergebnissen. Gleiches kannjedoch auch von der Expertenbeurteilung gesagt werden: Jede professionell entwickelte Testform, insbesondere alle ltemmengen, die für internationale Schulleistungsstudien zusammengestellt werden, enthält zumeist keine Aufgaben, die offenkundig soziale Benachteiligungen für deren Beantwortung zeitigen, denn Testentwickler achten sehr genau auf die kulturelle Fairness ihrer Aufgabenvorschläge. Dennoch erbringen die nach den Pretests vorgenommenen statistischen DIP-Analysen regelmäßig kleine Mengen von auffälligen Items. Das Expertenurteil zur Aufgabenqualität und die statistische Faktenlage sind in diesem Grenzbereich der Qualitätsbeurteilung von Tests nur bedingt kongruent. Eine bislang ungelöste Problematik wird hier sichtbar: Wie Testentwicklung bereits in der Entwicklungsphase der Aufgaben auch für Fairnessanforderungen optimiert werden kann, lässt sich eher als ein pragmatisches Vorgehen denn als eine streng theoriegeleitete Strategie beschreiben. Insgesamt kultur- bzw. sozialgruppenfaire Testverfahren können durchaus einzelne Aufgaben enthalten, die mehr oder minder verzerrt und somit unfair gegenüber einzelnen Gruppen messen. In diesem Sinne problematische ltems sollten identifiziert und gegen weniger verzerrende ausgetauscht werden; an der Fairnessqualität des Messverfahrens insgesamt ändert sich damit nur wenig. In dieser scheinbar paradoxen Formulierung spiegelt sich eine oftmals übersehene Prämisse: DIP-Analysen basieren auf der Annahme, dass der gesamte Test unverzerrt misst. Sofern diese Annahme hinreichend belegbar ist, betrifft die Eliminierung einzelner "unfairer" Testaufgaben eher die soziale Akzeptanz der Testanwendung (d. h. WF in Tab. 1) als die Nützlichkeit des Verfahrens (RJN in Tab. 1).

130

Kari-Heinz Arnold

Perspektiven Die Entwicklung internationaler Schulleistungsstudien zeigt besonders deutlich die diagnostischen Möglichkeiten von Schulleistungsmessungen: hohe Ansprüche werden sowohl an die pädagogisch-diagnostische Methodik als auch an die Begründung der Messinhalte gestellt und in beträchtlichem Maße erfüllt. Vermutlich konvergieren derzeit die nationalen Bemühungen v.a. in den mathematisch-naturwissenschaftlichen Fächern hin auf ein "Weltcurriculum", das jedoch mit national durchaus unterschiedlichen Methoden vermittelt und wahrscheinlich auch unterschiedlich effektiv gelehrt wird. Für die Inhaltsvalidierung vergleichender Schulleistungsmessung erscheint damit das Grundproblem weitgehend gelöst. Im Sinne der Konstruktvalidierung resultiert jedoch eine Hinwendung zu den zentralen Fragestellungen der Unterrichtsforschung - zum "Wie" des Unterrichtens und Lernens. Hier liegen neue und interessante Aufgaben für eine transnational konzipierte Didaktik bzw. für entsprechende "allgemeine" Fachdidaktiken sowie für eine "menschheitsumfassende" Lehr-Lernforschung.

Powered by TCPDF (www.tcpdf.org)

KAPITEL 9

Messung von Schulleistungen im Primar- und Sekundarbereich Rainer H. Lehmann

Zwischen der Messung von Schulleistungen im Primarbereich und derjenigen im Sekundarbereich gibt es weniger prinzipielle Unterschiede als vielmehr graduelle. Diese ergeben sich, aus der Perspektive der Sekundarstufe betrachtet, vor allem aus: • der allgemein höheren Schwierigkeit und Komplexität der zu überprüfenden Anforderungen einschließlich eines wachsenden Anteils produktiver Leistungen, • der zunehmend spezifischen Fachlichkeit der Unterrichtsziele sowie • der Gliederung der Schülerschaft in verschiedene Schulformen oder Kursniveaus. Dem entspricht eine von Klassenstufe zu Klassenstufe steigende Ausdifferenzierung der Curricula, der die schulische Leistungsmessung gerecht werden muss. Im Folgenden sollen deshalb Grundlagen der schulischen Leistungsmessung vor allem unter dem Aspekt dargestellt werden, wie mit dieser Ausdifferenzierung umgegangen werden kann. Nichtkognitive Bildungsziele, deren Wichtigkeit zwar unbestreitbar ist, deren Erreichung aber nicht unbedingt dem Begriff "Schulleistung" ein- bzw. untergeordnet werden sollte, bleiben dabei außer Betracht.

Zum Kontext schulischer Leistungsmessung Wenn man versucht, sich Rechenschaft über den aktuellen Stellenwert schulischer Leistungsmessung abzulegen, wird man bemerken, dass sich die meisten Diskussionen auf die Ebene des Bildungssystems insgesamt beziehen. Hierher gehören vor allem Positionen, in denen Bildung als gesellschaftliche Produktivkraft angesehen wird, als ein Bereich also, in den es um des Wohlergehens gegenwärtiger oder künftiger Generationen willen zu investieren gilt. Aus dem V erweis darauf, dass erfolgreiche Bildungsanstrengungen in engem Zusammenhang mit individuellem und kollektivem wirtschaftlichen Erfolg stehen, ergeben sich starke Argumente dafiir, auch im Bildungssystem ein effektives Qualitätsmanagement zu betreiben. Man wird dabei das Augenmerk vor allem auf solche Bereiche legen, die den Kernbereich der schulischen Bildungsarbeit ausmachen und zugleich Grundlagen fiir spätere berufliche Qualifikationen bereitstellen.

132

Rainer H. Lehmann

Diese Betrachtungsweise ist allerdings nicht die einzig mögliche oder sinnvolle. Selbst die basalen Kulturtechniken Lesen, Schreiben, Rechnen, deren Alleignung im Schwerpunkt der Grundschularbeit steht, besitzen ja nicht nur qualifikatorische Bedeutung, sondern sie bereiten auch die Teilhabe an nicht primär ökonomischen Prozessen vor: Die Gestaltung sozialer Beziehungen, der Nachvollzug und- wo möglich- die Fortentwicklung kultureller Entwürfe sowie die Mitwirkung an politischen Willensbildungsprozessen sind ohne schriftsprachliche und in vielen Fällen auch mathematische Kompetenzen schlechterdings undenkbar. Gerade weil es sich hierbei um einen wesentlich breiter ansetzenden Begründungszusammenhang handelt als bei der Beschränkung auf qualifikatorische Aspekte, wird dadurch das Problem der Optimierung der im Bildungssystem realisierten schulischen Arbeit nicht etwa aufgehoben, sondern um so dringender. Allerdings ist es auch wichtig zu beachten, dass eine solche Optimierung nicht auf die Systemebene begrenzt werden darf, sondern sich in erster Linie auf den institutionellen Ebenen darunter bewähren muss. Erfolgreiche Lernprozesse vollziehen sich in einzelnen Schulen und- wichtiger noch- in bestimmten Klassen bzw. im konkreten Unterricht. Insoweit sind die Probleme der schulischen Leistungsmessung auch und vielleicht vor allem in diesen Kontexten zu sehen. Zudem kann sich die schulische Leistungsmessung selbstverständlich auch auf den einzelnen Schüler oder die einzelne Schülerin beziehen, auch wenn dies in der Mehrzahl der großen Untersuchungen nicht primär beabsichtigt ist und gelegentlich sogar durch die Anlage der Studien verhindert wird. Prinzipiell ist jedenfalls eine Verwendung der Ergebnisse zur individuellen Rückmeldung von Lernerfolgen ebenso wenig ausgeschlossen wie deren fürderdiagnostische Nutzung. Einen besonderen Stellenwert gewinnen derzeit solche Anwendungen, die auf den leisstungsbezogenen Vergleich von Schulklassen, Schulen und letztlich auch Bildungssystemen ausgerichtet sind und unter dem Stichwort "Benchmarking" diskutiert werden. Hierbei geht es um den Versuch, besonders effiziente und/oder effektive Klassen, Schulen oder Systeme zu identifizieren, deren Besonderheiten (oft als "best practice" bezeichnet) Modellcharakter zugeschrieben wird. Insbesondere im Zusammenhang mit der vermehrt den Einzelschulen zugewiesenen Gestaltungsautonomie könnten solche Vergleiche dem Grundsatz nach an die Stelle zentraler Zielvorgaben treten oder diese zumindest ergänzen. Die Maßstäbe, nach denen Schulleistung beurteilt wird, werden im Allgemeinen durch Curricula vorgegeben, doch dieser Begriff ist nicht so eindeutig, wie es scheinen mag. Als nützlich hat sich eine Unterscheidung erwiesen, die gerade für die Aufsehen erregenden Schulleistungsuntersuchungen des letzten Jahrzehnts maßgeblich gewesen ist. Ihr zu Folge ist zu differenzieren zwischen: •

den intendierten Curricula, die auf Systemebene formuliert werden und gewöhnlich die Bezeichnung "Lehrpläne" oder "Rahmenrichtlinien" tragen,



den implementierten Curricula, also den durch die Gestaltung des Unterrichts tatsächlich umgesetzten Lernangeboten, und

Primar- und Sekundarbereich

133

• den bewältigten Curricula, d. h. den nachweislich erreichten Bildungszielen (vgl. Baumert et al., 1997). In der Regel umfassen die implementierten Curricula nur eine Teilmenge der intendierten, und die bewältigten Curricula stellen wiederum nur einen Ausschnitt aus den zumindest prinzipiell vorhandenen Lernangeboten dar. Demnach hat sich die schulische Leistungsmessung stets auf alle drei Ebenen zu beziehen, auch wenn ihr Gegenstand zunächst das jeweils bewältigte Curriculum ist.

Schulische Leistungsmessung im Primarbereich Obwohl der Unterricht im Primarbereich nach seinem zeitlichen Ablaufund hinsichtlich des Einsatzes von Lehrkräften vielfach weniger streng fachbezogen organisiert ist als im Sekundarbereich, haben sich hier, soweit bekannt, alle größeren Untersuchungen, in denen der Lernerfolg im Mittelpunkt stand, auf die Fachleistung bezogen: das Leseverständnis (vgl. z. B. Helmke & Weinert, 1997b; Lehmann et al., 1995; Klicpera, Gasteiger-Klicpera & Schabmann, 1993), die Rechtschreibung (Helmke & Weinert, 1997b; Klicpera, Gasteiger-Klicpera & Schabmann, 1993), Mathematik (Helmke & Weinert, 1997b) und Sachkunde I Naturwissenschaft (Helmke & Weinert, 1997b; Treinies & Einsiedler, 1991). Der wichtigste Grund hierfür dürfte in der Notwendigkeit liegen, den Lernerfolg curricular valide zu messen, also nur solche Lernstände und ggf. -fortschritte zu untersuchen, die im intendierten und implementierten Curriculum enthalten sind. Dies gilt unabhängig von der Unterscheidung zwischen Unterrichtsforschung, die sich auf Mikro-Zusammenhänge, insbesondere die Wirksamkeit pädagogisch-didaktischer Interventionen, konzentriert (z. B. Helmke & Weinert, 1997b; Treinies & Einsiedler, 1991), und empirischer Bildungsforschung, in der es stärker um Makro-Zusammenhänge geht (z. B. Lehmann et al., 1995). Dabei werden in wissenschaftlichen Untersuchungen kaum noch die traditionellen standardisierten Tests verwendet, bei denen lediglich die relative Position der Testergebnisse gegenüber der Werteverteilung in der Eichstichprobe bestimmt wird. Erheblich aussagekräftiger sind die sog. "kriteriumsorientierten" Tests, mit denen der Grad -technisch gesprochen: die Wahrscheinlichkeit- der Beherrschung bestimmter, meist gestufter, Lernziele ermittelt wird. Dabei geht es also um den Vergleich von Maßen für die Schulleistung mit der "Sachnorm", die auf die im Curriculum enthaltenen LehrLern-Ziele, nicht dagegen auf den Lernerfolg in einer Vergleichsgruppe ("Sozialnorm") oder die individuellen Lernvoraussetzungen ("Individualnorm") bezogen ist. Ein Beispiel hierfür liefert die deutsche Komponente der internationalen Lesestudie der IEA (Lehmann et al., 1995), in der auf der Grundlage der Aufgabenschwierigkeiten ein einfaches Stufenmodell des Leseverständnisses für Drittklässler entwickelt worden ist. Dieser Ansatz hat inzwischen auch Eingang in den Bereich der Schultests gefunden, die

134

Rainer H. Lehmann

fiir den diagnostischen Einsatz durch Lehrkräfte bestimmt sind (vgl. z. B. Lehmann, Peek & Poerschke, 1997). Sehr selten sind in Schulleistungsstudien zum Grundschulbereich bisher schulfachunabhängige kognitive Merkmale wie Kreativität oder die Fähigkeit zum Problemlösen untersucht worden, und zwar interessanterweise zumeist eher mit dem Ziel, Fachleistung zu erklären, als unter der Prämisse, dass darin Kriterien des Unterrichtserfolges aus eigenem Recht zu sehen wären (vgl. hierzu Heller, 1997). Eine gewisse Ausnahme stellt der Untertest "Informationsentnahme aus Tabellen, Karten und Digrammen" in der Studie zum Lernstand am Ende der Klassenstufe 4 bzw. zu Beginn der Klassenstufe 5 an Hamburger Schulen dar (Lehmann & Peek, 1997), womit eine am ehesten dem Leseverständnis verwandte, aber damit nicht identische und jedenfalls keinem Schulfach zuzuordnende Fähigkeit erfasst wurde. Es bleibt aber festzuhalten, dass bisher die häufig unter dem Sammelbegriff der "kognitiven Schlüsselqualifikationen" der Fachleistung bzw. den "Kulturtechniken" programmatisch entgegengesetzten Fähigkeiten kaum in die schulische Leistungsmessung einbezogen worden sind. Allerdings ist hierbei zu bedenken, dass zwar Möglichkeiten, die Kreativität, das Lernpotential (im Sinne eines "Lernens des Lernens") oder die Fähigkeit zum Lösen von Problemen günstig zu beeinflussen, empirisch belegt werden konnten, dass dabei aber immer wieder die fundamentale Bedeutung bereichsspezifischer Kenntnisse und Routinen deutlich wurde. So erweisen sich diese vermeintlich übergreifenden Fähigkeiten im konkreten Fall ihrerseits als abhängig von vorgängigen, oft unmittelbar unterrichtsgebundenen Lernerfahrungen und eignen sich deshalb wenig als eigenständiges, gar die Fachleistung ersetzendes Kriterium der Schulleistung. Vor diesem Hintergrund ist auch die Befiirchtung, der vermehrte Einsatz von Instrumenten der schulischen Leistungsmessung verschiebe unvermeidlich den Schwerpunkt grundschulpädagogischer Arbeit in Richtung aufbeschränkte Zielsetzungen des Wissenserwerbs und der Alleignung von starren Routinen, entschieden zu relativieren (vgl. hierzu Baumert, 1999). Zum einen erlauben die modernen Messverfahren, gerade solche - tendenziell anspruchsvollen- Aspekte der Schulleistung zu berücksichtigen, die sich nicht im Abrufvon Faktenwissen und in der Anwendung von Routineoperationen erschöpfen. Zum anderen wird eben dadurch dem Umstand Rechnung getragen, dass neue ("kreative") Problemlösungen um so wahrscheinlicher gelingen, je umfangreicher die bereichsspezifische Basis an Wissen, Fähigkeiten und Fertigkeiten ist. Ein gutes Beispiel fiir diese Sichtweise liefert die bereits erwähnte Studie von Treinies und Einsiedler (1991 ), deren auf ein biologisches Thema bezogenen Hauptkriterien "Begriffe bilden" und "Schlussfolgern und Verallgemeinern" heißen. Eine bereits mehrfach erwähnte Untersuchung - die deutsche Teilstudie zur internationalen Lesestudie der IEA (Lehmann et al., 1995) - soll in ihrem Primarschulteil hier noch einmal ausführlicher dargestellt werden, weil sich daran der an Sachnormen orientierte Einsatz standardisierter Leistungsmessungen besonders gut zeigen lässt. Die Datenerhebungen fiir diese Teilstudie fanden im Frühjahr 1991 in 150 vollständigen Klassen aus den 'alten Bundesländern' sowie in 100 Klassen aus den 'neuen' statt; die

Primar-und Sekundarbereich

135

Anzahl der in Deutschland beteiligten Drittklässler betrug 4.840. Ein solcher Stichprobenumfang war notwendig, um die in die internationalen Vergleiche eingehenden Durchschnittsleistungen entsprechend den von der IEA (International Association for the Evaluation ofEducational Achievement) festgelegten Präzisionsstandards schätzen und gleichzeitig aussagekräftige innerdeutsche Vergleiche vornehmen zu können. Im Hinblick auf die zu untersuchenden Lesefahigkeiten beinhaltete die Untersuchung zwei sehr verschiedene Komponenten: einen Worterkennungstest, der lediglich 90 Sekunden in Anspruch nahm, und einen Leseverständnistest, fiir den 120 Minuten Bearbeitungszeit angesetzt waren. Beim Worterkennungstest waren die Kinder aufgefordert, 40 vorgegebenen Wörternjeweils das richtige von vier Bildern durch eine einfache Markierung zuzuordnen. Im Leseverständnistest hingegen wurde bei den meisten Aufgaben zwar auch mit einer Aufforderung zur Auswahl der 'richtigen' (oder jedenfalls der 'besten') von vier Alternativen gearbeitet. Voraussetzung fiir die Auftindung der Lösung war jedoch- weit hinausgehend über die Erkennung der Bedeutung eines geschriebenen Worts- die Erschließung des Sinngehalts von Einzelinformationen, Textpassagen und ganzen Texten. Zudem wurde bei der Analyse der Ergebnisse zwischen den eingesetzten Textformen unterschieden: Erzähltexten, Sachtexten und Gebrauchstexten (einschließlich grafischer und schematischer Darstellungen). Beide Tests stellen in dem Sinne standardisierte Leistungsmessungen dar, dass alle Kinder unter nahezu gleichen - zumindest aber von den Zeitvorgaben her identischen - Bedingungen gearbeitet haben und dass die Auswertung nach identischen Regeln erfolgt ist. Hinsichtlich der Bedeutung der Ergebnisse unterscheiden sich die beiden Tests grundlegend. Die weitaus meisten Drittklässler waren zu der im Worterkennungstest überprüften Decodierung ganzer Wörter mit hoher Sicherheit prinzipiell in der Lage (96 Prozent 'Treffer' im Durchschnitt fiir die ersten fünf Wörter), und erst ab dem 18. Wort sank der Anteil richtiger Lösungen unter 90 Prozent. Damit wird deutlich, dass mit diesem zeitlich eng begrenzten Test in erster Linie die Lesegeschwindigkeit, genauer: die Arbeitsgeschwindigkeit, gemessen wurde. Dies wird besonders gut sichtbar, wenn man fiir jedes Wort im Test die Zahl richtiger Lösungen gegen die Position in der Aufgabensequenz aufträgt (vgl. Lebmannet al., 1995, S. 39). Der Sache nach, also als Ausgangspunkt pädagisch-didaktischer Reflexion, war es dabei durchaus von Belang, dass jedenfalls 1991 die ostdeutschen Kinder schneller und/oder konzentrierter zu arbeiten in der Lage waren als ihre westdeutschen Altersgenossen. Dagegen waren fiir den Leseverständnistest entsprechende 'Positionseffekte' in viel geringerem Maße ausgeprägt, obwohl er grundsätzlich ebenfalls unter zeitlicher Begrenzung zu bearbeiten war. Hier war es auch prinzipiell unerwünscht, die Messung der Fähigkeit zum sinnerschließenden Lesen durch eine Zeitkomponente zu beeinflussen. Vielmehr ging es darum, zwischen verschiedenen Fähigkeitsstufen (manchmal auch als "Performanzniveaus" bezeichnet) zu unterschieden und festzustellen, welcher Anteil der Schülerschaft ein bestimmtes Niveau jeweils mit hinreichender Sicherheit erreicht hat. Als einigermaßen begründbar erschien bei den Drittklässlern eine Unterscheidung von drei Fähigkeitsstufen, wenn auch diese Frage weiterer Bearbeitung bedarf. Auch aus diesen Angaben lassen sich wichtige Hinweise fiir die pädagogische Arbeit gewinnen:

136

Rainer H. Lehmann

Innerhalb bestimmter Fehlergrenzen lassen sichjedem Testwert Aussagen darüber zuordnen, welche Leistungen bereits beherrscht werden und welche (noch) nicht. Freilich ist der Hinweis wichtig, dass sich wegen der unvermeidlichen Messungenauigkeit solche Aussagen eher auf größere Schülergruppen beziehen lassen als auf einzelne Personen. Dass es dennoch Bemühungen gibt, auf der Grundlage standardisierter Leistungsmessungen auch individualdiagnostische Verfahren zu entwickeln, wurde bereits gesagt. In der internationalen Lesestudie der IEA ging es primär um die Bearbeitung von Fragestellungen, die sich auf die Leseerziehung an den Grundschulen insgesamt und auf die Lernerfolge bestimmter Schülergruppen bezogen. Viele der so gewonnenen Erkenntnisse, etwa zur Abhängigkeit der schulischen Leistung von außerschulischen Einflussfaktoren, haben Befunde aus früheren Untersuchungen bestätigt, zumal solche aus dem Umfeld der sog. "Systemvergleichsstudien", die im Zusammenhang mit der Einfiihrung der Gesamtschulen gewonnen worden waren. Andere sind ihrerseits durch nachfolgende Studien repliziert worden, vor allem durch die Dritte internationale Studie zum mathematisch-naturwissenschaftlichen Unterricht (TIMSS) der IEA, die zwar in Deutschland bisher nicht im Grundschulbereich durchgefiihrt worden ist, für die aber voraussichtlich in absehbarer Zeit ein deutscher Vergleichsdatensatz zur VerfUgung stehen wird. Es entsteht somit ein Korpus von Datensätzen, das in seiner Gesamtheit vergleichsweise verlässliche Grundlagen für richtungweisende Entscheidungen im Bildungssystem zur V erfiigung stellt.

Schulische Leistungsmessung im Sekundarbereich Auch im Sekundarbereich hat sich die schulische Leistungsmessung bisher ganz überwiegend auf die Fachleistung konzentriert, sofern man das Leseverständnis (vgl. Lehmann et al., 1995) hier nicht als eine fächerübergreifende Fähigkeit betrachten will. Entsprechende Studien liegen vor allem für die Mathematik (Baumert et al., 1997; Baumert, Bos & Watermann, 1998, Helmke, 1992; Treiber & Weinert, 1981) und die Naturwissenschaften (Baumert et al., 1997; Baumert, Bos & Watermann, 1998) vor. Auch Aufsatzleistungen sind in repräsentativen Stichproben und mit vergleichsweise hoher Zuverlässigkeit und Gültigkeit der Bewertungen untersucht worden (Lehmann, 1990). Ein deutlicher Nachholbedarf besteht hingegen noch für den Fremdsprachunterricht, sieht man einmal ab von den Vergleichsuntersuchungen im Zusammenhang mit den Gesamtschul-Modenversuchen bis etwa 1980. Erst in jüngster Zeit wird versucht, diese Lücke zu schließen, beispielsweise in der als Längsschnitt fortgefiihrten Hamburger Untersuchung zur Lernausgangslage und Lernentwicklung in der Sekundarstufe I (Lehmann, Gänsfuß & Peek, 1999). Die eingangs erwähnte zunehmende Ausdifferenzierung der Curricula in der Sekundarstufe bietet für die schulische Leistungsmessung im Vergleich mit Primarstufenuntersu-

Primar- und Sekundarbereich

137

chungen zusätzliche Erkenntnismöglichkeiten; zugleich stellt sie aber auch deutlich höhere Anforderungen an den methodischen Aufwand. So gliedert sich beispielsweise die Mathematik in der Sekundarstufe I in verschiedene Teilgebiete (z. B. Arithmetik, Algebra, Geometrie) auf. In diesem Zusammenhang entsteht die Frage, ob fiir die einzelnen Schulfächer entsprechend ihrer Binnengliederung separate Untertestergebnisse berichtet werden sollen - also fiir die Mathematik unterschiedliche Resultate fiir Arithmetik, Algebra, Geometrie usw. oder fiir eine Fremdsprache einzeln ausgewiesene Werte fiir das Hörverstehen und die schriftliche Kommunikation. Obwohl die entsprechenden Testleistungen zumeist hoch miteinander korreliert sind und oftmals die Bildung einer einzigen Skala erlauben, werden aus Gründen der Anschaulichkeit nicht selten auch die Befunde zu den Subtests dargestellt. Es soll aber nicht verschwiegen werden, dass diese Subskalen fast notwendig weniger zuverlässig sind als die entsprechende Gesamtskala. Vor allem ist im Sekundarschulbereich mit großen Leistungsunterschieden zwischen den verschiedenen Schulformen zu rechnen. Die durchaus unterschiedlichen Anspruchsniveaus in der Behandlung der Teilgebiete bleiben zwar manchmal- um der Programmatik einer hohen Durchlässigkeit des Schulsystems willen-hinter parallelen Formulierungen im Lehrplan verborgen; de facto aber werden offenkundig nicht überall die gleichen Inhalte bearbeitet, und erst recht sind nicht überall die Leistungserwartungen gleich. Dagegen steht in der standardisierten Leistungsmessung das Bemühen, das jeweils schulformspezifische Curriculum - nicht zuletzt das von den Lehrkräften implementierte Curriculum -möglichst präzise abzubilden und bei den Schülerinnen und Schülern vor allem Überforderungen durch Testaufgaben zu vermeiden, die als fremdartig oder als zu schwierig wahrgenommen werden. Rein technisch ergeben sich aus der Verwendung unterschiedlich schwieriger Testformen fiir die verschiedenen Schulformen keine unüberwindlichen Schwierigkeiten fiir die Herstellung einer gemeinsamen Skala als Vergleichsbasis, solange ein Teil der Aufgaben als sog. "Anker"- oder "Brückenitems" vorliegt. Auf pragmatischer Ebene ist es indessen nicht immer leicht, zwischen den hochgesteckten Zielproklamationen, den Ängsten um eine Überforderung der Schüler und den Erfordernissen der Testkonstruktion zu vermitteln. Innerhalb der bereits genannten IEA-Lesestudie gibt es auch eine Untersuchung an Sekundarschulen, an der 297 achte Klassen mit 6.221 Schülerinnen und Schülern aus Ost- und Westdeutschland teilgenommen haben. Im vorliegenden Zusammenhang ist daran bedeutsam, dass auch ein Vergleich zwischen den Lesefähigkeiten in der dritten und der achten Klassenstufe über die in dieser Studie vorhandenen Brückenitems möglich war (vgl. Lebmannet al., 1995, S. 46 f.). Grundsätzlich ermöglichen die hohen Leistungsunterschiede an den Sekundarschulen innerhalb einer Klassenstufe, die den Lemzuwächsen von mehreren Schuljahren entsprechen können, feiner abgestufte Interpretationen der Testergebnisse, als dies an den Primarschulen möglich ist. TIMSS, die internationale Studie zum mathematisch-naturwissenschaftlichen Unterricht (vgl. Baumert et al., 1997; Baumert, Bos & Watermann, 1998), arbeitet so bereits fiir die Klassenstufen 7 und 8 mit einer klaren Unterscheidung von fünf Fähigkeitsniveaus und fiir die Leistungen am Ende der Sekundarstufe II mit

138

Rainer H. Lehmann

jeweils vier Stufen für die Bereiche der mathematischen und naturwissenschaftlichen Grundbildung an allgemein- und berufsbildenden Schulen sowie der Mathematik in der gymnasialen Oberstufe bzw. mit fiinf Stufen für die Leistungen im Fach Physik der Oberstufe von Gymnasien. Solche Bandbreiten können mit modernen testtheoretischen Ansätzen prinzipiell ohne Schwierigkeit erfasst werden. Besonders hervorzuheben ist dabei die Möglichkeit, insbesondere anspruchsvolle Aufgaben, die jedenfalls für die Lernenden Problemlösungen im eigentlichen Sinne verlangen, in die Bestimmung des jeweils erreichten Fähigkeitsniveaus einzubeziehen. Für das Ziel, auch fächerübergreifende Fähigkeiten in die Leistungsmessung einzubeziehen, gibt es im Sekundarbereich einen vielversprechenden Ansatz, der zunächst von Klieme und Mitarbeitern für die Hamburger Studie entwickelt und mit guten Ergebnissen dort flächendeckend erprobt worden ist (vgl. Lehmann, Gänsfuß & Peek, 1999, S. 31 ff.). Inzwischen liegt eine Weiterentwicklung vor, die in der deutschen PISAStudie (Programme for International Student Assessment) eingesetzt wurde. Eine der Grundideen ist es dabei, im Anschluss an lebensweltliche Erfahrungsbestände der Schülerinnen und Schüler curricular bedingte Unterschiede in der Wissensbasis so weit als möglich zu umgehen. Dennoch ist der statistische Zusammenhang der entsprechenden Testergebnisse mit den Fachleistungen in den Fächern Mathematik, Deutsch (Ausnahme: Rechtschreibung) und Englisch offenbar höher als die Korrelation mit den kognitiven Grundfähigkeiten, die bereits zwei Jahre zuvor durch einen weitgehend sprachfreien Intelligenztest gemessenen worden waren (vgl. Lehmann, Gänsfuß & Peek, 1999, s. 31 ff.). Auch hier stellt sich die Frage nach der pädagogischen Berechtigung der Leitvorstellung, wegen der unvorhersagbaren Vielfalt künftiger Anforderungen an die Schülerinnen und Schüler und wegen des raschen Wachstums und Wandelsdisziplinären Wissens die Förderung fächerübergreifender Fähigkeiten besonders stark zu betonen. Abgesehen von der bereits erwähnten Schwierigkeit, dass die Beeinflussbarkeit solcher Fähigkeiten zwar als grundsätzlich nachgewiesen gelten darf, dass aber eine gut entwickelte Wissensbasis in jedem Falle die wichtigste Voraussetzung für die Lösung ungewohnter Probleme bleibt, muss auch betont werden, dass es gerade kumulative und nicht bloß assoziative Lernprozesse sind, die für die Reichhaltigkeit und Verlässlichkeit dieser Wissensbasis sorgen. So betrachtet behält die fachbezogene Überprüfung von erreichten Fähigkeitsniveaus eine durchaus eigenständige Legitimation.

Schulische Leistungsmessung am Übergang von der Primar- zur Sekundarstufe Bereits im Dezember 1995 hat die Ständige Konferenz der Kultusminister der Länder (KMK) einen Beschluss gefasst, dem zu Folge künftig die Überprüfung von Lernständen an den "Gelenkstellen" des Bildungssystems durch Repräsentativstudien erfolgen solle. Durch den sog. "Konstanzer Beschluss" vom Oktober 1997 ist dies noch einmal

Primar-und Sekundarbereich

139

bekräftigt worden. Dabei kommt dem Übergang der Schülerinnen und Schüler von der Primar- in die Sekundarstufe besondere Bedeutung zu. Trotz der in den letzten Jahrzehnten merklich erhöhten Durchlässigkeit des Bildungssystems fiir einen Schulformwechsel am Ende der Beobachtungs-, Förder- oder Orientierungsstufe bzw. vor allem am Ende der Sekundarstufe I hat der frühestmögliche Eintritt in eine möglichst anspruchsvolle, aber realistischerweise zu bewältigende Schullautbahn am Ende der Grundschule nach wie vor ein hohes Gewicht. Dies spiegelt sich zumal in der immer noch steigenden Nachfrage nach Gymnasialplätzen, die in solchen Bundesländern, in denen das Elternrecht entscheidet, teilweise 45 v. H. einer Jahrgangsgruppe erreicht oder überschritten hat. Sowohl im Hinblick auf eine angemessene Beratung der Eltern bei dieser Entscheidung als auch unter der Perspektive der Wahrung der Chancengerechtigkeit in der Empfehlungspraxis der Grundschulen ist zu fragen, welche Rolle in diesem Zusammenhang der schulischen Leistungsmessung zukommen kann. Methodisch sind hier über die bereits genannten Aspekte hinaus grundsätzlich kaum neue Fragen anzusprechen. Es ist prinzipiell möglich, Schulleistungstests sowohl zu der faktischen Elternentscheidung als auch zu den Grundschulempfehlungen in Beziehung zu setzen (vgl. z. B. Ditton, 1992, Lebmann & Peek, 1997). Dabei zeigt sich regelmäßig, dass sowohl die Entscheidungspraxis der Eltern als auch die Empfehlungspraxis der Grundschulen in vergleichsweise hohem Maße im Sinne der Benachteiligung von Unterschichtkindern sozial bedingt ist. Dies kann man nachweisen, indem man die Übergangschancen fiir Kinder gleicher Fähigkeitsstufe in Abhängigkeit etwa vom Bildungsabschluss der Eltern berechnet. Ebenso kann man zeigen, dass die Leistungsstandards, die fiir eine Empfehlung fiir die Realschule oder das Gymnasium erfüllt sein müssen, erheblich zwischen den Grundschulen und auch einzelnen Grundschulklassen variieren. So entsteht fast von selbst die Frage, ob der Einsatz von geeigneten Schulleistungstests und/oder die Lernstandsermittlung über sog "Vergleichsarbeiten" nicht zumindest im Sinne einer regulativen Zusatzinformation geboten erscheint. Im übrigen ist durchaus ungeklärt, wie sich die berücksichtigten Teilaspekte eines solchen Instruments zu einem aussagekräftigen Gesamtergebnis verbinden lassen. So ist z. B. bekannt, dass -vermutlich wegen der Sprachabhängigkeit der meisten schulischen Lernprozesse - die häufig gegebene Sprachlastigkeit allgemeiner Schulleistungstests oder entsprechend gebildeter Indizes relativ gute Voraussagen über den künftigen Schulerfolg erlaubt. Gleichzeitig scheinen aber speziell die mathematischen Fähigkeiten gegenüber den sprachlichen in engerem Zusammenhang mit einer günstigen Entwicklung des leistungsbezogenen Selbstbildes zu stehen. Es ist nicht ganz einfach, die prognostische Validität dieser Instrumente im Vergleich zur Grundschulempfehlung zu bestimmen, weil eine einmal gewählte Schule im Zweifelsfall häufig bestrebt ist, den Verbleib ihrer Schülerinnen und Schüler zu sichern. Für Realschulen etwa besteht wenig Anreiz, ihre besten Schülerinnen und Schüler zum Übertritt in ein Gymnasium zu bewegen, und letztere werden nur in extremen Fällen den Wechsel an eine Schulform mit weniger anspruchsvollem Curriculum durchsetzen. Insofern enthalten die Elternentscheidung und die Grundschulempfehlung Elemente einer sich selbst erfiillenden Prophezeiung. Umgekehrt ist der Lernstand (die "Lernausgangslage") bei Eintritt in die weiterfiihrende Schule aus naheliegenden Gründen der

140

Rainer H. Lehmann

beste Prädiktor für die später erreichten Lernstände, die allerdings deutlich von den dort gegebenen Lernangeboten beeinflusst sind. Da zwischen den weiterfiihrenden Schulen derselben Schulform, ebenso wie zwischen den Grundschulen, erhebliche Unterschiede in der dort stattfindenden Lernentwicklung bestehen können, entsteht ein zusätzliches Unsicherheitsmoment Hinsichtlich der bildungspolitischen Steuerung der Übergänge von der Grundschule in die weiterführenden Schulformen ist somit festzustellen, dass jedenfalls die Fragen, die sich im Kontext einer Verbesserung der herrschenden, nachgewiesenermaßen unbefriedigenden Praxis ergeben, ohne standardisierte Schulleistungsmessungen kaum gestellt, geschweige denn angemessen beantwortet werden können. Allerdings folgt daraus nicht notwendig, dass im konkreten Einzelfall über diese Übergänge vor allem oder gar einzig auf der Basis von Testergebnissen entschieden werden sollte. Allenfalls ließe sich argumentieren, dass damit- insbesondere im Falle unerkannt gebliebener Lernerfolgeeine zusätzliche Grundlage für die individuelle Entscheidungsfindung gegeben ist.

Weitergehende Fragen Die zuletzt, im Zusammenhang mit dem Übergang von der Primar- in die Sekundarstufe, erwähnten Probleme der prognostischen Validität von Schulleistungsmessungen verweisen auf tiefer liegende Fragen, auf die bisher kaum befriedigende Antworten gegeben werden können. Dies gilt sowohl für die Befiirworter eines besonnenen Einsatzes entsprechender Instrumente als auch für diejenigen, die von der Neubesinnung auf Kriterien der Fachleistung, die gegenwärtig in der Bildungs- und Schulforschung festzustellen ist, eher nachteilige Auswirkungen auf die Qualität des Bildungsangebots erwarten. Es gilt, daran zu erinnern, dass mit Fachleistungstests immer nur Momentaufnahmen von Lernständen gewonnen werden können, die zu einem bestimmten Zeitpunkt erreicht worden sind. Dies trifft auch für Zeitreihen zu, die in den wenigen bisher verfiigbaren Längsschnittstudien gewonnen worden sind: Stets werden die Ergebnisse relativ kurzfristiger Lernprozesse festgestellt, über deren Verhältnis zur prinzipiell unbekannten Zukunft der betroffenen Kinder und Jugendlichen sehr wenig bekannt ist. Zudem folgt aus der methodisch unvermeidlichen Beschränkung der Untersuchungsergebnisse auf eine oder einige wenige Dimensionen, dass aus pädagogischer Sicht grundsätzlich mehrere Kriterien gleichzeitig betrachtet werden müssten, und zwar wegen der von vornherein anzunehmenden Wechselwirkung zwischen kognitiven und psychosozialen Lernprozessen letztlich auch die hier bisher ausgeblendeten nichtkognitiven Bildungsziele. Im Zusammenhang der Qualifikationsforschung wird häufig unterschieden zwischen "outpuf' als dem unmittelbar feststellbaren Ergebnis eines Lernprozesses und "outcome" als der langfristigen, für die Bewältigung künftiger Aufgaben eigentlich entscheidenden

Primar- und Sekundarbereich

141

Prägung und Befähigung des Lernenden. In welchem Verhältnis diese beiden Aspekte zueinander stehen, bedarfweithin der Klärung. Dabei ist diese Frage ftir den Übergang von den Grund- an die Sekundarschulen relativ leichter zu beantworten als an der Schnittstelle zwischen der Sekundarschule und ihren Abnehmersystemen, seien dies die Hochschulen oder das System der beruflichen Ausbildung. Erst recht werden solche Probleme beim (endgültigen) Übergang vom Bildungssystem in das Beschäftigungssystem und in einem weiteren Sinne in gesellschaftliche Handlungszusammenhänge virulent. Hinzu kommt, dass besonders wichtige "outcomes" wie eine bleibende Lernbereitschaft oder die Fähigkeit zu sozial verträglichem Handeln vergleichsweise stabil, also schwer systematisch zu beeinflussen sind und Wurzeln im vor- und außerschulischen Bereich haben. Angesichts dessen ist es geboten, vor einer denkbaren Überschätzung der Bedeutung der schulischen Leistungsmessung zu warnen, gleichzeitig aber deren Potenzial realistisch zu nutzen. Sie eröffuet in den von ihr erfassten, eng auf die expliziten Unterrichtsziele abgestimmten Bereichen Möglichkeiten, sowohllokal als auch auf Systemebene bestimmte Fehlentwicklungen zu erkennen und den Prozess der Qualitätsentwicklung zielgerichtet zu steuern. Sie bleibt aber angewiesen darauf, bei der Spezifikation ihrer Kriterien den Zusammenhang mit tiefer liegenden und längerfristigen Bildungszielen zu wahren.

Powered by TCPDF (www.tcpdf.org)

KAPITEL

10

Schulleistungen im Bereich der muttersprachlichen Bildung Wolfgang Schneider

Wenn im Folgenden von Schulleistungen im Bereich der muttersprachlichen Bildung die Rede ist, sind im wesentlichen Lese- und Rechtschreibleistungen gemeint. Es steht außer Zweifel, dass beide Aspekte schriftsprachlicher Kompetenz fiir den Erfolg in der Schule und auch fiir die beruflichen Chancen äußerst bedeutsam sind. Sicherlich sind auch andere schriftsprachliche Leistungen wie etwa die Gestaltung von Aufsätzen sowie mündliche Leistungen im Fach Deutsch von Belang. Über die Bedeutung individueller Unterschiede in diesen Kompetenzen und ihre Auswirkung auf die schulische Entwicklung ist jedoch vergleichsweise wenig bekannt. Für Lese- und Rechtschreibkompetenzen stellt sich die Situation anders dar. Wir wissen aus zahlreichen Untersuchungen, dass Schülerinnen und Schüler mit überdurchschnittlichen Kompetenzen im Bereich des Lesens und Rechtschreibens sehr gute Chancen dafiir haben, in unserem Schulsystem erfolgreich zu sein. Auf der anderen Seite kann es als ebenso sicher gelten, dass Kinder mit gravierenden Problemen im schriftsprachlichen Bereich in der Folge relativ große Schwierigkeiten erleben und häufig den Übertritt auf weiterfUhrende Schulen nicht schaffen. Es gibt deshalb kaum jemanden, der die Bedeutung von Lese- und Rechtschreibkompetenzen ernsthaft in Frage stellt, wenn auch der Bildungswert insbesondere des Rechtschreibens von einigen Forschern bezweifelt wird.

Vorläufermerkmale des Schriftspracherwerbs Was wissen wir über das Zustandekommen von Schriftsprachkompetenzen und den dafiir relevanten Einflussgrößen? Lange Zeit hat die Forschung den Schuleintritt als "Stunde Null" angenommen, also implizit unterstellt, dass alle Schüler mit annähernd gleichen Startvoraussetzungen mit dem Lesen und Schreiben in der Schule beginnen. Inzwischen wissen wir, dass dem nicht so ist. Schon im Vorschulalter werden wichtige Vorläufer-Kompetenzen aufgebaut, die bei verschiedenen Kindern unterschiedlich gut ausgeprägt sind und den späteren Erfolg im Lesen und Schreiben wesentlich mitbestimmen. Die nationale und internationale Forschung der letzten Jahre hat deutlich gemacht, dass es insbesondere Merkmale der phonologischen Informationsverarbeitung sind, die

144

Wolfgang Schneider

spätere Schriftsprachleistungen beeinflussen. Die wichtigste Komponente wird als phonologische Bewusstheit bezeichnet und meint die Fähigkeit von Kindern, die Lautstruktur der gesprochenen Sprache korrekt erfassen zu können. Im Lauf der Kindergartenzeit erwerben die meisten Kindem auf'natürliche' Weise die Kompetenz, Wörter in Sätzen sowie Silben in Wörtern zu unterscheiden. Sie sind auch dazu in der Lage, die Ähnlichkeit von größeren Worteinheiten zu erkennen, also sich reimende von sich nicht reimenden Wörtern zu unterscheiden. Alle diese Komponenten bezeichnen Merkmale phonologischer Bewusstheit. Als zweites wichtiges Merkmal phonologischer Informationsverarbeitung wird die sprachgebundene Informationsverarbeitungsgeschwindigkeit angenommen. Damit ist die Fähigkeit gemeint, möglichst schnell auf das 'semantisches Lexikon' zuzugreifen, also beispielsweise die Namen von dargebotenen Objekten oder Bildern rasch zu erinnern. In enger Verbindung zur Geschwindigkeit steht das dritte Merkmal der phonologischen Informationsverarbeitung, nämlich die Kapazität des sprachlichen Arbeitsgedächtnisses. Diese Fähigkeit wird dann bedeutsam, wenn es darum geht, neu aufzunehmende Informationen möglichst lange im Kurzzeitgedächtnis halten zu können. Die Kapazität des Arbeitsgedächtnisses wird z.B. in solchen Situationen des Erstleseunterrichts relevant, in denen der Leseanfanger längere Wörter entschlüsseln soll. Werden also den Buchstaben in langsamem Tempo Laute zugeordnet, ist es fiir den Erfolg der Übung wesentlich, dass der beginnende Leser am Ende des Wortes noch weiß, was zu Beginn entschlüsselt worden ist. Individuelle Unterschiede in der Arbeitsgedächtniskapazität bilden sich schon vor Schulbeginn heraus und sind über die Zeit hinweg relativ stabil. Als letztes relevantes Vorhersagemerkmal fiir das Erlernen des Lesens und Rechtschreibens ist die frühe Schriftsprachkenntnis anzufiihren. Ein relativ kleiner Prozentsatz von Vorschul- und Kindergartenkindern kann schon vor Schuleintritt lesen und verfUgt damit schon zu Beginn des Leselehrgangs über einen StartvorteiL In der Regel behalten diese Kinder ihren spezifischen Vorsprung auch über die Schulzeit hinweg bei. Interessanterweise scheinen aber auch schon geringere Unterschiede in der Buchstabenkenntnis bedeutsam zu sein. In mehreren Längsschnittstudien hat sich zeigen lassen, dass im Kindergartenatter festgestellte individuelle Unterschiede in der Buchstabenkenntnis spätere Schriftsprachkenntnisse in der Schule bedeutsam vorhersagten (vgl. z. B. Weinert, 1997). Dies erscheint insofern erstaunlich, als man eigentlich annehmen sollte, dass im Anfangsunterricht der Grundschule diese frühen Unterschiede bald ausgeglichen und Unterschiede in den resultierenden Leseleistungen der Eingangsstufe in erheblichem Umfang auf Aktivitäten im Rahmen des Erstklassunterrichts zurückzufUhren sind.

Zur Erfassung von Schriftsprachkompetenzen in der Schule Nach wie vor ist die Unterrichtspraxis dadurch geprägt, dass sich Lehrerinnen und Lehrer einen mehr oder weniger subjektiven Eindruck von den Schriftsprachkompetenzen ihrer Schüler verschaffen. Dies kann im Bereich des Lesens über Vorlese-Aktivitäten

Muttersprachliche Bildung

145

oder über nachträgliche Befragungen zum Verständnis vorgegebener Texte geschehen, während fiir die Registrierung und Bewertung von Rechtschreibkompetenzen in der Regel selbstkonstruierte Diktate herangezogen werden, die möglichst auch die Vorgaben des jeweiligen Lehrplans berücksichtigen. Welche Probleme weisen solche Vorgehensweisen auf? Allgemein haben Lehrer mit der Schwierigkeit zu kämpfen, dass sich ihr Bewertungssystem auf die gerade anvertraute Klasse beziehen muss. Die Evaluation ist damit kontextabhängig, so dass nicht ausgeschlossen werden kann, dass direkt vergleichbare, ja identische Leistungen von Schülern der gleichen Altersstufe bei unterschiedlicher Klassenzugehörigkeit unterschiedlich bewertet werden. Gerade bei der Erfassung der Lesekompetenz, aber auch bei der Bewertung von Rechtschreibleistungen sind Effekte des durchschnittlichen Leistungsniveaus der betreffenden Klasse nicht auszuschließen. Bei der üblichen Erfassung der Lesekompetenz handelt es sich zudem um recht globale Einschätzungen, deren Zuverlässigkeit und Gültigkeit mitunter problematisch sein dürften. Der zusätzliche Einsatz standardisierter Testverfahren scheint in mehrfacher Hinsicht zusätzlich sinnvoll. Zum einen erlauben diese Verfahren den Lehrern eine Einschätzung darüber, welche Position die Schülerinnen und Schüler ihrer Klasse in Relation zu einer fiir die deutschsprachigen Verhältnisse meist repräsentativen Stichprobe von Schülern einnehmen; sie gehen also über die Beschränkungen des jeweiligen Klassenkontextes hinaus. Sie sind weiterhin üblicherweise so konstruiert, dass sie Lese- und/oder Rechtschreibkompetenzen zuverlässig und valide erfassen und eine objektive Auswertung garantieren. Nachdem gerade im Schriftsprachbereich längere Zeit großer Bedarf nach neu geeichten und ökonomisch durchfUhrbaren Verfahren bestand, der nur unzureichend erfiillt wurde, existieren inzwischen fiir den Bereich der Lese- und Rechtschreibkompetenzeine Vielzahl relativ neuer Verfahren, die sich teilweise gut ergänzen und fiir unterschiedliche Fragestellungen (z. B. Erfassung der Lesegeschwindigkeit versus Überprüfung des Leseverständnisses) gut geeignet zu sein scheinen (fiir einen neueren Überblick vgl. Hasselhorn, Schneider & Marx, 2000). Das fiir standardisierte Testverfahren immer wieder konstatierte Problem mangelnder Lehrplangültigkeit spielt beim Lesen (insbesondere beim Leseverständnis) im Vergleich zu den Bereichen Mathematik oder Naturwissenschaften insofern eine geringere Rolle, als fiir die Kompetenzentwicklung außerschulischen Einflüssen eine vergleichsweise bedeutsame Rolle zugeschrieben wird. Die Entwicklung der Lesekompetenz wird also in beträchtlichem Ausmaß von Lesegewohnheiten im häuslichen Bereich beeinflusst und kann nicht kausal mit Merkmalen des Unterrichtsgeschehens verknüpft werden.

Zur Relevanz von Vergleichsuntersuchungen im muttersprachlichen Bildungsbereich Testverfahren können den Lehrern bei der genaueren Einschätzung der Schriftsprachkompetenzen ihrer eigenen Schüler nützlich sein. Sie eignen sich prinzipiell aber auch

146

Wolfgang Schneider

gut fiir V ergleiehe zwischen verschiedenen Klassen der gleichen Stufe und sind ftir Lehrer dann interessant, wenn diese herausfinden wollen, in welcher Relation die Durchschnittsleistungen der eigenen Klasse mit der von Parallelklassen der eigenen Schule oder Klassen anderer Schulen stehen. Üblicherweise gehen Impulse fiir den Vergleich von Schulklassen und Schulenjedoch von Wissenschaftlern und von Bildungspolitikern aus, wobei meist nach zuverlässigen Informationen zu momentanen mittleren Leistungsniveaus sowie zu den Bandbreiten und zu Entwicklungstrends in bestimmten Leistungsbereichen gesucht wird.

Primär wissenschaftlich motivierte Vergleichsstudien Als typisches Beispiel fiir wissenschaftlich motivierte Leistungsvergleiche im Bereich des Schriftspracherwerbs kann die Diskussion um unterschiedliche Leselernmethoden gelten, die gegen Ende der sechziger und zu Beginn der siebziger Jahre einen Höhepunkt erlebte. Es ging dabei insbesondere um die Frage, ob sich die Ganzwortmethode der synthetischen Leselernmethode gegenüber als überlegen erweisen würde, oder ob die empirischen Befunde den gegenteiligen Schluss nahelegen. Fragestellungen dieser Art sind nur über Längsschnittstudien zu beantworten, die zu Schulbeginn einsetzen und die Entwicklung der Lesekompetenz über einen längeren Zeitraum hinweg verfolgen. In den verschiedenen Studien zu diesem Thema wurden Gruppen von ganzheitlich und analytisch unterrichteter Schüler vergleichend gegenübergestellt, wobei meist die gegen Ende der Grundschulzeit und über standardisierte Tests erhobene Leseleistung als Entscheidungskriterium diente. Die Befunde dieser Studien stimmten darin überein, dass die Leseleistungen der Schüler aus den beiden unterschiedlichen Methoden-Gruppen in der vierten Klassenstufe kaum differierten. Letztendlich fuhren also beide Ansätze zu vergleichbaren Resultaten. Allerdings schienen die synthetisch unterrichteten Kinder zu Beginn des Leselehrgangs Vorteile aufzuweisen, weil bei der Ganzwortmethode anfangs häufiger Schwierigkeiten auftraten. Als praktische Folgerung läßt sich aus diesen Studien ableiten, dass leistungsschwächere und weniger intelligentere Schüler möglichst mit der leichteren synthetischen Leselern-Methode beginnen sollten, um nicht gleich schon in der Startphase des schulischen Lebens in große Schwierigkeiten zu geraten. Ein weiteres Beispiel primär wissenschaftlich inspirierter Leistungsvergleiche kann die im Rahmen der Münchner SCHOLASTIK-Studie vorgenommene Untersuchung der Entwicklung von Rechtschreibkompetenzen im Grundschulalter gelten (vgl. Schneider, Stefanek & Dotzler, 1997). In dieser großangelegten, vom Max-Planck-Institut fiir psychologische Forschung organisierten Längsschnittstudie wurde die schulische Leistungsentwicklung von mehr als 1100 Schülerinnen und Schülern von der ersten bis zur vierten Grundschulklasse überprüft. Zur Erfassung der Rechtschreibleistungen wurden Testverfahren konstruiert, die sowohl auf dem Grundwortschatz des betreffenden Schuljahres aufbauten als auch relativ unbekanntes, schwierigeres Wortmaterial enthielten. Ein wesentlicher Befund dieser Studie ist darin zu sehen, dass frühe Unterschiede in den Rechtschreibkompetenzen bis zum Ende der Grundschulzeit sehr stabil blieben. Dies impliziert auch, dass anfangs bestehende Unterschiede zwischen Schulklassen und Schulen über die Zeit hinweg Bestand haben. Interessanterweise (und durchaus im Ge-

Muttersprachliche Bildung

147

gensatz zu den Erwartungen) hatte der in Bayern übliche Lehrerwechsel beim Übergang von der zweiten zur dritten Klassenstufe keinerlei Einfluss auf diesen Trend. Ganz im Gegenteil: die Stabilität der Ende des zweiten und Ende des dritten Schuljahrs erfassten Rechtschreibleistungen lag mit r=.88 extrem hoch und deutlich höher als die zwischen den zu Beginn und Ende des zweiten Schuljahrs erhobenen Stabilitätswerten (r=.59). Dies lässt sich so interpretieren, dass die gegen Ende des zweiten Schuljahrs erreichte Rangordnung der Rechtschreibleistungen in den einzelnen Klassen auch nach dem Lehrerwechsel ein Jahr später nahezu unverändert erhalten geblieben war. In diesem Zusammenhang scheint der Hinweis wichtig, dass sich aus den berichteten Korrelationsbefunden keine Aussagen über die unterschiedliche Effektivität von Lehrern ableiten lassen. So konnte bestätigt werden, dass sich in vielen Klassen mit dem Lehrerwechsel auch die Zuwachsraten an Rechtschreibkompetenz veränderten. Die hohen Langzeitstabilitäten belegen lediglich, dass unabhängig von dem aktuellen Leistungszuwachs in einzelnen Klassen die Rangordnung der Schüler bei den Rechtschreibkompetenzen nahezu unverändert erhalten blieb. Betrachtete man sich die jährlichen Zuwachsraten etwas genauer, so wurde ab dem dritten Schuljahr eine beschleunigte Kompetenzsteigerung beobachtet. Erfreulicherweise vergrößerte sich im gesamten Untersuchungszeitraum die Bandbreite des Leistungsspektrums nur unwesentlich, was darauf hindeutet, dass es den Lehrern im großen und ganzen gelang, die befürchteten "Schereneffekte", also ein kontinuierliches Auseinanderdriften der Rechtschreibleistungen anfangs guter und schwacher Schüler zu verhindern.

Bildungspolitisch inspirierte Vergleiche Bildungspolitisch inspirierte Leistungsvergleiche sind in der Literatur vergleichsweise häufiger anzutreffen. Es lassen sich nationale und internationale Vergleichsstudien unterscheiden. Im nationalen Rahmen kann es beispielsweise darum gehen, Informationen über Veränderungen der Leistungsentwicklung in schulischen Kernkompetenzen über festgelegte Zeiträume hinweg zu erhalten, wobei ganze Regionen oder Bundesländer als Vergleichsgrößen dienen. Demgegenüber sind internationale Schulleistungsvergleiche Beispiele für eine politiknahe kulturvergleichende Bildungsforschung. Im Folgenden wird ein Überblick über wichtige internationale und nationale Erhebungen gegeben, der mögliche Schwierigkeiten und das Erkenntnispotential solcher Ansätze genauer beleuchtet.

Internationale Vergleichsstudien: Überblick über einige einschlägige Arbeiten Im Vergleich zu den bekannten Studien zu mathematischen und naturwissenschaftlichen Kompetenzen {TIMSS) sind internationale Vergleiche zu schriftsprachlichen

148

Wolfgang Schneider

Leistungen eher rar. Leseverständnis wurde zuerst Anfang der siebziger Jahre in der "Six-Subjects-Study" der IEA (allerdings ohne deutsche Beteiligung) erfasst. Ebenfalls ohne deutsche Beteiligung fand Mitte der achtziger Jahre in 14 Ländern eine internationale Vergleichsstudie zur Schreibkompetenz von Schülern (Aufsätze) statt. Nur wenige Jahre später wurde dann eine IEA-Studie zu "Reading Literacy" durchgeilihrt, die die Lesekompetenzen von Dritt- und Achtklässlern in etwa 30 Ländern erfasste und die beiden damals noch nicht wiedervereinigten deutschen Staaten einschloss (vgl. Lehmann, Peek, Pieper & von Stritzky, 1995). Nachdem es zwischen 1970 und 1990 kaum repräsentative deutsche Beteiligungen an internationalen Vergleichsstudien gegeben hatte, war mit der 'Reading Literacy' -Studie der Bann endgültig gebrochen. Aus deutscher Sicht war an dieser Studie besonders interessant, dass Daten aus beiden deutschen Staaten verfügbar waren. Wie lassen sich die wesentlichen Befunde der 'Reading-Literacy-Studie' zusammenfassen? Sowohl bei den Dritt- als auch bei den Achtklässlern schnitten skandinavische Länder wie etwa Finnland und Schweden deutlich besser ab als beide deutschen Teilnehmerländer, für die zwischenstaatlich keinerlei Leistungsunterschiede gefunden wurden. Den deutschen Dritt- und Achtklässlern wurden im internationalen Vergleich lediglich mittelmäßige Leistungen bescheinigt. Interessanterweise ergaben sich auch weder zwischen den Dritt- noch zwischen den Achtklässlern beider deutscher Staaten nennenswerte Leistungsunterschiede. Da sich die Deutsch-Curricula und die formale Unterrichtsorganisation in beiden deutschen Staaten deutlich unterschieden, kann der fehlende Leistungsunterschied als Beleg dafür gewertet werden, dass für die Entwicklung von Lesekompetenz (im wesentlichen Leseverständnis) Unterschiede in den nationalen Lehrplänen weniger entscheidend waren als vielfach angenommen. Andererseits geben die Befunde der 'Reading-Literacy-Studie' aber auch keinen Anlass dazu, das relativ ungünstige Abschneiden der deutschen Schüler auf Eigenheiten der Orthographie zurückzuführen, da die (deutschsprachigen) Schweizer Schüler in beiden Altersgruppen signifikant bessere Leistungen als die ost- und westdeutschen Schüler erzielten.

Nationale Vergleichsstudien Überregionale Lernerfolgsmessungen im Ausland In den USA gibt es schon seit etwa 30 Jahren die Tradition der überregionalen Leistungs- und Lernfortschrittmessung. Im Rahmen des National Assessment ofEducational Progress (NAEP) sind seit 1969 etwajährlich Untersuchungen in den Altersgruppen der 9-, 13- und 17-Jährigen sowie junger Erwachsener durchgeilihrt worden, wobei pro Erhebung etwa 60.000 Teilnehmer einbezogen wurden. Die Untersuchungsbereiche erfassen weitgehend das Spektrum der Unterrichtsfächer im Schulsystem, wobei Leistungen in den Grundlagenfächern Lesen, Rechtschreiben, Mathematik und Naturwissenschaften besonders häufig berücksichtigt wurden. Im Hinblick auf schriftsprachliche Leistungen konnten wiederholt ähnliche Konstellationen festgestellt werden: Mädchen

Muttersprachliche Bildung

149

schnitten insbesondere in den unteren Klassenstufen besser ab als Jungen. Erwartungsgemäß fielen auch die Ergebnisse fiir Schülerinnen und Schüler aus 'bildungsferneren' Elternhäusern vergleichsweise ungünstiger aus. Was die Langzeit-Befunde der NAEP angeht, so lässt sich neuerdings eine leicht positive Tendenz in den Leistungskennwerten feststellen, während zwischenzeitlich auch negative Verläufe sichtbar wurden. Über die Jahrzehnte hinweg hat sich keine Reduzierung in den Schulleistungsunterschieden zwischen den verschiedenen ethnischen Gruppen ergeben, was darauf hinweist, dass das zentrale bildungspolitische Ziel der amerikanischen Zentralregierung, soziale Ungleichheiten im Bildungswesen zu reduzieren, sich noch nicht einmal in Teilaspekten erfiillt hat. Die amerikanischen Untersuchungsprogramme sind Vorbild für ähnliche Projekte in verschiedenen europäischen Ländern geworden (vgl. Flor, Iogenkamp & Schreiber, 1992). Die Tradition in Schweden reicht dabei noch länger zurück als in den USA: Seit mehr als 40 Jahren werden hier sog. zentrale 'Standardprüfungen' in Grundschulen, seit ca. 30 Jahren auch in Gymnasien durchgeführt. Bei diesen an repräsentativen Stichproben realisierten Untersuchungen werden fiir die erfassten Inhaltsbereiche nationale Leistungskurven ermittelt, um den Lehrern einen Maßstab zu liefern, der über den Rahmen der eigenen Klasse hinausgeht. Weitere klassische Beispiele fiir die Akzeptanz überregionaler Lernüberwachungen sind die Niederlande und Großbritannien. Herausragendes Prinzip der niederländischen Evaluationen ist die enge Zusammenarbeit mit allen Betroffenen, die eine zentralistische Steuerung durch die Verwaltung ausschließt. Die Teilnahme an den von einem nationalen Testinstitut vorgenommenen Lernerfolgsmessungen ist freiwillig. Das Evaluationsprogramm selbst ist unabhängig von Weisungen der Behörden. Großbritannien nahm lange Zeit in der Aufsatzbeurteilung eine führende Rolle ein und ftihrte umfassende Analysen insbesondere fiir den Bereich Lesen durch. Wie Flor et al. (1992) fiir den damaligen Zeitpunkt zutreffend konstatieren, hatte die Bundesrepublik Deutschland bis dahin keine Versuche in dieser Richtung unternommen und auch die ausländischen Erfahrungen kaum zur Kenntnis genommen. Diese Situation hat sich inzwischen verändert, was im Folgenden Überblick gezeigt werden soll.

Vergleichsstudien in Deutschland Schulleistungsvergleiche in Deutschland sind bisher unregelmäßig und aus unterschiedlichen Motiven heraus durchgeführt worden. Ein (älteres) Motiv ist darin zu sehen, dass in der Öffentlichkeit immer wieder darüber spekuliert wird, ob die Schulleistungen gerade im Bereich der sprachlichen Kompetenzen früher besser gewesen sind als heute. Leider sind viele der zu diesem Thema durchgeführten Arbeiten methodisch problematisch und deshalb wissenschaftlich kaum aussagekräftig. Die wenigen methodisch angemessenen Studien lassen darauf schließen, dass die These eines generellen Leistungsverfalls nicht haltbar ist. Wenn es überhaupt einigermaßen gesicherte Befunde zu Veränderungen von Leistungskennwerten gibt, dann stammen diese aus Normierungsstudien mit Rechtschreibtests (vgl. etwa Kühn, 1995). Demnach kann davon ausgegangen werden, dass die Rechtschreibkompetenzen deutscher Schüler von der Zeit nach dem zweiten Weltkrieg bis Mitte der sechziger Jahre zugenommen, danach aber wieder bis zum heutigen Tag etwas abgenommen haben. Für die langfristige Ent-

150

Wolfgang Schneider

wicklung der Lesegeschwindigkeit, des Leseverständnisses und der mathematischen Fertigkeiten lassen sich entsprechende Tendenzen nicht absichern.

Vergleiche zwischen Schulleistungen in den "alten" Bundesländern Eine Möglichkeit, die Schriftsprachkompetenzen von Schülern unterschiedlichen Alters über verschiedene Bundesländer hinweg zu vergleichen, besteht darin, sich die Daten zu den Standardisierungen von national genutzten Schulleistungstests genauer anzusehen. Entsprechende Sekundäranalysen sind vor allem vom Zentrum fiir empirische pädagogische Forschung in Landau durchgefiihrt worden (vgl. etwa Flor et al., 1992). Die von Karlheinz lngenkamp und seinen Mitarbeitern berichteten Vergleiche hinsichtlich muttersprachlicher Kompetenzen beziehen sich zum einen auf Lese- und Rechtschreibleistungen von Zweitklässlern, die 1971 über den Allgemeinen Schulleistungstest 2 (AST 2) sowie die Schulleistungsbatterie fiir Lernbehinderte und schulleistungsschwache Grundschüler (SBL II) erhoben worden waren, zum anderen auf 1990 und 1991 in den alten Bundesländern durchgefiihrte Testeichungen, die sich auf die Klassenstufen 2-4 bezogen und folgerichtig die ASTs 2-4 einschlossen. Für die Eichungen im Jahr 1971lagen mit Ausnahme von Berlin Daten fiir alle 'alten' Bundesländern vor; die zwanzig Jahre später durchgefiihrten Erhebungen erfassten alle 'alten' Bundesländer mit Ausnahme von Berlin und Hamburg. Die Auswertungen fiir die Deutschleistungen im Jahr 1971 ergaben, dass Baden-Württemberg, Bayern und Bremen eine Spitzengruppe bildeten, während sich fiir alle anderen beteiligten Länder keine substantiellen Mittelwertsunterschiede ergaben. Die differenzierteren Auswertungen zu den 1990/91 erfassten Testleistungen machten deutlich, dass sich je nach Altersstufe und Test unterschiedliche Länderrangplätze ergaben. Bei den Zweitklässlern schnitten die bayerischen Schüler hinsichtlich des Leseverständnisses am besten ab, unterschieden sich aber nicht signifikant von den nächstplazierten Teilnehmern aus Niedersachsen und Schleswig-Holstein. Im Rechtschreiben erzielten die Schüler aus dem Saarland die besten Werte, gefolgt von denen aus Bayern und Schleswig-Holstein. Im Hinblick auf die Rechtschreibleistungen der Drittklässler sind es nunmehr die Niedersachsen, die den höchsten Wert erzielen, gefolgt von BadenWürttemberg und Bayern. Bei den vierten Klassen fiihren Bremen und Bayern die Rangliste der Rechtschreiber an. Wenn auch aufgrund der in einigen Bundesländer recht kleinen Stichproben nur vorsichtige Schlussfolgerungen erlaubt sind, so fällt bei diesen Vergleichen, die immerhin einen Zeitraum von 20 Jahren umfassen, insgesamt doch eine gewisse Konsistenz auf. Flor et al. (1992) konstatieren zu Recht, dass es deshalb systematische Leistungsunterschiede zwischen den Bundesländern gibt. Bezieht man sich auf die durchschnittlichen Deutschleistungen, finden sich zu beiden Zeitpunkten die bayerischen Schüler in der Spitzengruppe, während die hessischen Schüler jeweils aufhinteren Rangplätzen landeten. Die relativ hohe Korrelation zwischen den im Abstand von 20 Jahren erhobenen Leistungsrangreihen lässt vermuten, dass die Länderunterschiede in den muttersprachlichen Leistungen (wie auch im Bereich Mathematik) insgesamt relativ zeitstabil sind.

Muttersprachliche Bildung

151

Allerdings sollten solche Rangplatz-Analysennur als Hilfsmittel vereinfachender Veranschaulichung aufgefasst werden, die nichts über das Ausmaß der tatsächlichen Leistungsunterschiede aussagen können.

Vergleich der Rechtschreibleistungen in alten und neuen Bundesländern Seit Beginn der neunziger Jahre- also unmittelbar im Anschluss an die Wiedervereinigung - hat es eine Reihe von Rechtschreibvergleichen gegeben. Sowohl in den Bremer als auch in den Hamburger Studien wurden Rechtschreibleistungen in ersten bis vierten Grundschulklassen erfaßt und gegenübergestellt. Die Vergleiche fielen insgesamt zugunsten der ostdeutschen Stichproben aus, wobei für die jüngeren Altersgruppen insgesamt größere Unterschiede registriert wurden als für die fortgeschrittenen Grundschüler. Diese Unterschiede kamen nicht unerwartet, da der Sprachunterricht in der ehemaligen DDR fast doppelt so viel Raum einnahm wie in der Bundesrepublik, und auch der Rechtschreibunterricht einen deutlich höheren Stellenwert hatte. Anschließende Vergleiche der Normierungsdaten zum AST4 bestätigten zwar die Befunde in ihrer zentralen Tendenz, konnten aber auch zeigen, dass die Vorteile der Schüler aus den neuen Bundesländern nur teilweise signifikant und insgesamt praktisch unbedeutsam waren. Flor et al. (1992) merkten in diesem Zusammenhang kritisch an, dass den Befunden insofern nur beschränkte Gültigkeit zukommt, als die Stichproben nicht repräsentativ waren und die verwendeten (meist selbstkonstruierten) Untersuchungsinstrumente den üblichen Gütekriterien nicht voll entsprachen. Ungeachtet dieser Restriktionen kann allerdings kein Zweifel daran bestehen, dass diese Studien wichtige Vergleichsdaten lieferten und gerade auch im Hinblick auf fachdidaktische Aspekte interessante Perspektiven aufzeigten.

Neuere Entwicklungen: Die Hamburger Studie zu Aspekten der Lernausgangslage und der Lernentwicklung (LAU) Sehr viel Aufsehen hat die Hamburger Längsschnittstudie LAU erregt, die Mitte der neunziger Jahre begonnen wurde (vgl. z. B. Lehmann, Gänsfuß & Peek, 1999). In dieser Studie geht es darum, erreichte Lernstände, Lernentwicklungen und schulbezogene Einstellungen vom Ende der Grundschulzeit bis in die neunte Klassenstufe zu erfassen. Repräsentativitätsprobleme bestehen nicht, da flächendeckend alle Hamburger Schülerinnen und Schüler, die im Schuljahr 1996/97 die fünfte Klasse einer staatlichen Schule besuchten und nach allgemeinbildenden Lehrplänen unterrichtet wurden, an dieser Studie teilnehmen. Zwei Erhebungen in den Klassenstufen 5 und 7 haben bereits stattgefunden. Für September 2000 ist eine dritte Erhebung in Klassenstufe 9 geplant. Wenn auch eine umfassende Übersicht über die zahlreichen Befunde dieser Studie nicht gegeben werden kann (vgl. dazuLebmannet al., 1999), so sollen doch die wichtigsten Ergebnisse für den muttersprachlichen Bereich kurz skizziert werden. Es überrascht nicht sonderlich, dass in den drei untersuchten Fachleistungen im Bereich des Deutschunterrichts (Sprache, Leseverständnis und Rechtschreibung) verschiedene Schulformen

152

Wolfgang Schneider

(insbesondere Gymnasium versus Hauptschule) einen beträchtlichen Anteil der Varianz an den in der 5. Klasse registrierten Schulleistungsunterschieden aufklärten. Unabhängig von der Schulform spielte auch die Zugehörigkeit der Schule zu bestimmten Stadtregionen eine bedeutsame Rolle und konnte fiir sprachliche Leistungen (z. B. grammatikalisches Wissen) und Leseverständnis weitere Anteile an der Leistungsvarianz erklären. Besonders interessant (weil bislang kaum verfügbar) erscheinen die Auswertungen zum Lernzuwachs zwischen 1996 und 1998. Die Autoren berichten als wesentliches Ergebnis, dass sich die Lehr-Lernprozesse in den einzelnen Schulen als unterschiedlich effektiv und effizient herausstellten. Schülerinnen und Schüler mit gleicher Lernausgangslage machten in Schulen der gleichen Schulform unterschiedliche Lernfortschritte. Für die Leistungen im Fach Deutsch waren die durchschnittlichen Lernzuwächse fiir die Beobachtungsstufe der Haupt- und Realschulen einerseits und der Gymnasien andererseits gleich. Zugleich zeigte sich auch innerhalb der Schulformen eine Homogenisierung der Leistungen. Dieser Befund wurde von den Autoren aufkompensatorische Bemühungen der Lehrkräfte zurückgeführt, die das Ziel verfolgten, die grundschulbedingten Unterschiede in der Schülerschaft auszugleichen. Diese Bemühungen scheinen zu Lasten der fähigeren Schüler zu gehen, die nicht in dem Maße vom Unterricht profitieren, wie es aufgrund ihrer Ausgangsfähigkeit zu erwarten gewesen wäre. Im Hinblick auf Übergangsentscheidungen wurde registriert, dass diese offenbar in hohem Maße durch die eigenen Standards der jeweiligen Schulen bestimmt sind, was die Frage aufwirft, ob nicht allgemein verbindliche Grundlagen fiir die Entscheidungsfindung geschaffen werden können. Die LAU-Studie kann die Restriktionen vieler nationaler und internationaler Vorläuferstudien dadurch überwinden, dass Veränderungen in den Lernleistungen fiir eine genau umschriebene Population von Schülern beschreib- und interpretierbar werden. Es ist sicherlich nicht ohne weiteres möglich, die Befunde fiir den Stadtstaat Harnburg auf Trends in größeren Flächenstaaten zu verallgemeinern. Andererseits wird durch diese Studie die Möglichkeit geschaffen, potentielle Ursachenfaktoren fiir unterschiedliche Leistungsentwicklungen gezielter zu analysieren und damit den Lehrern, Bildungsforschern und -politikern wichtige Hinweise fiir Maßnahmen zu geben, die die zukünftige Schulentwicklung positiv beeinflussen können. Dies gilt in ähnlicher Weise fiir die von der OECD initiierte PISA-Studie (Programme for International Student Assessment), die neben einer international verbindlichen Vorgabe auch nationale Untersuchungsoptionen erlaubt und von daher gut dazu geeignet scheint, das Potential solchermaßen kombinierter Ansätze für die Evaluation von Schulleistungen und deren Erklärungsmöglichkeiten zu verdeutlichen. (da diese Studie schon in anderen Beiträgen zu diesem Band genauer dargestellt ist, wird auf eine detailliertere Darstellung an dieser Stelle verzichtet). National betrachtet sollte das Hauptziel dieser neueren vergleichenden Erhebungen fiir den Schriftsprachbereich darin liegen, empirisch gesicherte und differenzierte Informationen zum Leistungsvermögen von Schülern und seiner Entwicklung zu liefern und damit als Basis für Schulentwicklungs-Maßnahmen und die Qualitätssicherung in ausgewählten Bereichen des Unterrichtssystems zu dienen.

Powered by TCPDF (www.tcpdf.org)

KAPITEL 11

Schulleistungen im Bereich der mathematischen Bildung Elsbeth Stern und llonca Hardy

Aufgabe 1: Es gibt 4 Wege von Ort A nach Ort B. Es gibt 3 Wege von Ort B nach Ort C. Wie viele mögliche Wege gibt es insgesamt von A nach C, wenn alle Wege von A nach C über B führen?

Aufgabel wurde im Rahmen der am Münchener Max-Planck-Institut fiir psychologische Forschung durchgeführten Längsschnittstudien LOGIK und SCHOLASTIK Kindem der sechsten Klasse vorgegeben. Nur 17% der Kinder, die das Gymnasium besuchten, gaben "12" als richtige Antwort an. Die Mehrheit der Kinder gab falschlieherweise "7" an, hatte also addiert statt zu multiplizieren. Aufgabe 2: Die Beschleunigung eines sich geradlinig bewegenden Objektes kann bestimmt werden aus A. der Steigung des Weg-Zeit-Graphen B. der Fläche unter dem Weg-Zeit-Graphen C. der Steigung des Geschwindigkeits-Zeit-Graphen D. der Fläche unter dem Geschwindigkeits-Zeit-Graphen

Aufgabe 2 wurde im Rahmen der TIMS/111-Studie (Baumert et al., 1999) Schülern der gymnasialen Oberstufe vorgegeben. Exakt 50% der Schüler, die Mathematik als Leistungskurs gewählt hatten, gaben die korrekte Antwort "C" an. Bei Schülern mit Mathematik als Grundkurs lag die Lösungsrate immerhin bei 44%. Aufgaben 1 und 2 ist gemeinsam, dass zu ihrer Lösung einfache mathematische Konzepte benötigt werden, die Jahre zuvor im Unterricht behandelt wurden und seitdem immer wieder vorkamen: die Multiplikation bei Aufgabe 1 und der Graph einer linearen Funktion bei Aufgabe 2. Woran liegt es, dass beide Aufgaben selbst einer bereits sehr positiv ausgelesenen Gruppe von Schülern so große Schwierigkeiten bereiteten? In beiden Fällen müssen komplexe Situationen, die sich die Schüler in der vorgegebenen Form zuvor nicht vergegenwärtigt hatten, mathematisch modelliert werden. Es geht nicht darum, bekannte Prozeduren anzuwenden oder Regeln zu benennen, sondern es

154

Elsbeth Stern und llonca Hardy

geht darum, konkrete Situationen auf ihre mathematische Struktur zu reduzieren und aus dieser Struktur Schlussfolgerungen zu ziehen, die die Beantwortung der gestellten Frage ermöglichen. Um Aufgabe 1 zu lösen, muss man über ein Modell zur Bildung des kartesischen Produktes (jedes Element einer Menge wird mit jedem Element der anderen Menge verknüpft) verfugen. In der Grundschule hingegen wird die Multiplikation eher anband von Situationen vermittelt, die auch durch wiederholte Addition verstanden werden können, wie z. B. "Es gibt 4 Kinder. Jedes Kind soll5 Kekse bekommen. Wie viele Kekse werden benötigt?" Warum haben selbst die Teilnehmer eines Mathematik-Leistungskurses Schwierigkeiten, Aufgabe 2 zu lösen? Dass Beschleunigung die Geschwindigkeitsänderung pro Zeiteinheit ist, ist Gegenstand des Physikunterrichtes der achten Klasse. Vertraut dürften die meisten Schüler auch mit graphischen Darstellungen sein, in denen die Steigung des Graphen einer linearen Funktion die Veränderungsrate der auf der Ordinate abgetragenen Größe in Abhängigkeit von der auf der Abszisse abgetragenen Größe angibt. Dass dennoch die Hälfte der Schüler Schwierigkeiten hatte, Beschleunigung als eine lineare Funktion in einem Graphen zu interpretieren, spricht dafiir, dass auch Schüler mit besonderem Interesse an Mathematik nicht systematisch über die Beziehung zwischen den an den Achsen abgetragenen Größen und dem Verlauf des Graphen einer Funktion nachgedacht haben. Die mit Abstand am häufigsten genannte falsche Antwort war "a", das heißt die Schüler haben den ihnen sehr vertrauten Weg-Zeit-Graphen als Lösung gewählt. Das Antwortverhalten bei dieser aus mathematischer Sicht eigentlich sehr einfachen Aufgabe spiegelt ein Grundproblem des Mathematikunterrichtes wider: Die Schüler sind zu wenig explorativ im Umgang mit ihrem mathematischen Wissen. Sie wenden ihr im Unterricht erworbenes Wissen mehr oder weniger korrekt an, aber sie zeigen kaum Flexibilität in der Nutzung ihres Wissens zur Bewältigung neuer Situationen. Den Schülern mangelt es an Problemlösekompetenz. Dies zu ändern gilt in allen Klassenstufen als die Herausforderung fiir den Mathematikunterricht

Problemlösekompetenz als Ziel des Mathematikunterrichts Als Schulfach wird Mathematik von Allen geachtet, von Vielen gefiirchtet und - zumindest in der westlichen Welt - von Wenigen geliebt. Letzteres ist eine paradoxe Erscheinung, wurde doch der technische Fortschritt, der insbesondere von diesem Teil der Erde ausging, maßgeblich erst durch die Mathematik ermöglicht. Auch wenn früher wie heute nur eine Minderheit der Bevölkerung berufliche Positionen einnimmt, in denen fundierte mathematische Kenntnisse in technische und wissenschaftliche Innovationen umgesetzt werden, konnte und kann der Bedarf an derartig hochqualifizierten Arbeitskräften nur gedeckt werden, wenn bereits bei einem größeren Teil der Schüler frühzeitig Interesse und Kompetenzen gefördert werden. Angesichts des zur Zeit nicht zu erfiillenden Bedarfs an qualifizierten Arbeitskräften insbesondere im Bereich der Informationstechnologie herrscht Übereinstimmung darüber, dass der schulische Mathematikunter-

Mathematische Bildung

155

richt mehr Schüler ansprechen und zu besseren Leistungen motivieren sollte, als dies gegenwärtig der Fall ist. Einig sind sich Bildungsforscher darin, dass dieses Ziel nicht allein durch eine quantitative Verstärkung des bisherigen Mathematikunterrichts erreicht werden kann, sondern dass es grundlegender qualitativer Veränderungen bedarf. Zunächst müssen bei Schülern wie auch bei Erwachsenen Einstellungen und Überzeugungen hinsichtlich des Stellenwertes und der Bedeutung von Mathematik verändert werden. Nicht nur in den Natur- und Ingenieurwissenschaften war die Mathematik ursächlich an Fortschritten beteiligt, sondern auch in den empirischen Sozialwissenschaften war sie ein Wegbereiter. Zentrale Konzepte wie das der Intelligenz in der Psychologie konnten nur entwickelt werden, weil Mathematiker zuvor Konzepte wie Häufigkeitsverteilung, Dichtefunktion und Normalverteilung zur Verfugung gestellt hatten. Dessen ungeachtet gehen die meisten Menschen davon aus, dass zumindest die sogenannte höhere Mathematik sehr wenig mit der "wirklichen" Welt zu tun hat. Dass Mathematikein Handwerkszeug sein kann, mit dessen Hilfe sich komplexe Vorgänge und Situationen in der Welt modellieren und vorhersagen lassen, und dass bestimmte Inhaltsbereiche erst durch die Mathematik Bedeutung erhalten, ist kaum im Bewusstsein von Schülern verankert, wie Untersuchungen in mehreren westlichen Ländern zeigten. Derartige Untersuchungen förderten auch weitere unangemessene und eingeschränkte Vorstellungen zutage, unter anderem die, wonach es für Mathematikaufgaben nur einen einzigen korrekten Lösungsweg gibt. Derartige Annahmen werden durch einen traditionellen Mathematikunterricht, in dem der Erwerb von Faktenwissen und die Anwendung von Standardprozeduren im Mittelpunkt steht, gefördert. Es gab immer wieder Ansätze, den Mathematikunterricht lebensnäher zu gestalten, indem mathematische Prinzipien an alltäglichen Erlebnissen der Schüler verdeutlicht wurden. In den USA wurden in den vergangenen Jahren Ansätze propagiert, die unter anderem bereits in den zwanziger Jahren in der deutschen Reformpädagogik entwickelt worden waren. Kinder sollen lernen, ihre Alltagsprobleme mit Hilfe der Mathematik zu lösen. Diese Einbindung des persönlichen Erfahrungshintergrundes der Schüler kann kurzfristig hilfreich sein, weil Schüler Analogieschlüsse aus Alltagssituationen auf die Mathematik übertragen. Langfristig kann eine zu starke Einbindung der Erfahrungswelt jedoch dazu fiihren, dass das mathematische Verständnis auf Bereiche beschränkt bleibt, welche sich an den Alltag anlehnen. In dem - wie wir spätestens seit der TIMSStudie wissen - sehr erfolgreichen ostasiatischen Mathematikunterricht werden zwar manchmal Probleme in Geschichten eingekleidet, aber grundsätzlich geht es weniger um die Anhindung an den Alltag als um die Anregung zur Konstruktion anspruchsvoller mathematischer Problemlöseschemata. Eine im japanischen Unterricht für die achte Klasse typische Übungsaufgabe ist Aufgabe 3. Bei dieser Aufgabe wurde eine realistische Rahmenbedingung gewählt, aber die Randbedingungen wurden artifiziell konstruiert. Es dürfte kaum jemals zwei Kinder gegeben haben, die exakt diese Situation erlebt haben. Die Aufgabe bietet jedoch ein vielfältiges Potenzial für die Anwendungen mathematischer Denkwerkzeuge: Bildliehe Darstellungen (mit Münzen im Geldbeutel), linearer Graph einer Funktion, Tabellen oder algebraische Ungleichungen. Insbesondere diese Vielfalt an Lösungswegen lässt

156

Elsbeth Stern und llonca Hardy

die Aufgabe zur Vermittlung mathematischer Problemlösekompetenzen geeignet erscheinen. Dass insbesondere die Betonung der Variabilität von Lösungszugängen das mathematische Verständnis fördert, wird inzwischen in der Mathematikdidaktik weltweit anerkannt. Aufgabe 3: Vor einem Monat kam die Mutter von lchiros ins Krankenhaus. lchiros hatte sich entschlossen, zusammen mit seinem kleineren Bruder jeden Morgen in einem nahegelegenen Tempel für die Gesundheit der Mutter zu beten und dabei jedes Mal etwas Geld zu spenden. Es gab achtzehn Zehn-Yen Münzen in lchiros Geldbeutel und zweiundzwanzig Fünf-Yen Münzen im Geldbeutel des kleinen Bruders. Jeder der beiden Jungen nahm nach dem Gebet im Tempel eine Münze aus seinem Geldbeutel und legte sie in den Opferkasten. Beide Jungen wollten so lange beten, bis ihre Geldbeutelleer waren. Eines Tages, nachdem sie ihr Gebet beendet hatten, schauten sich die Brüder gegenseitig in ihre Geldbeutel und sahen, dass die Geldmenge im Geldbeutel des kleineren Bruders größer war als die im Geldbeutel von lchiros. Vor wie vielen Tagen hatten die beiden Jungen angefangen zu beten?

Für den Erwerb von Problemlösekompetenzen reicht es nicht aus, dass Schüler Fakten, Prozeduren und Strategien erwerben, sie müssen auch lernen, diese an den richtigen Stellen anzuwenden. Schüler sollen deshalb nicht nur wissen, wie eine bestimmte Operation auszuführen ist, sondern auch, warum sie in einer bestimmten Situation angemessen ist. Mit anderen Worten: Die Schüler müssen lernen, das Repertoire an mathematischen Werkzeugen angemessen zur Lösung von Problemen, welche sich formal abbilden lassen, zu nutzen. Sie müssen verstehen, welche Möglichkeiten Zahlen, Operationssymbole oder geometrische Figuren zur Modeliierung von realen und hypothetischen Situationen bieten. Die Eutersehe Zahl "e", obwohl im mathematischen Kontext entstanden, kann beispielsweise herangezogen werden, wenn man herausfinden möchte, wie viel Geld man bei stetiger Verzinsung maximal verdienen könnte. Stetige Verzinsung bedeutet, dass der Jahreszinssatz nicht erst am Ende eines Jahres gutgeschrieben wird, sondern in unendlich kleinen (also stetigen) Zeitabständen. Bei einer Laufzeit von einem Jahr und einem (unrealistisch hohen) Zinssatz von 100% würde das Anfangskapital a beispielsweise zu einem Guthaben von a•e, also a•2, 7182 anwachsen. Da bei einmaliger Auszahlung der Zinsen bei einem Satz von 100% immerhin der Betrag a•2 am Ende des Jahres herauskäme, wird deutlich, dass stetige Verzinsung nicht der angemessene Weg zu unendlichem Reichtum ist. Eine ausführlichere und äußerst lesenswerte Darstellung zur Bedeutung der Eutersehen Zahl, welche für Mathematikdidaktiker geschrieben wurde, ist bei Krauss (1999) zu finden. Gleichzeitig müssen die Schüler verstehen, welche Einschränkungen zu beachten sind, wenn mathematische Symbole genutzt werden sollen, um bestimmte Inhalte abzubilden. Zu diesen Einschränkungen gehören neben rein mathematischen Regeln auch Konventionen bei der Darstellung, welche die inhaltliche Interpretation vereinfachen. So bietet beispielsweise der Graph einer linearen Funktion die Möglichkeit, die Veränderungsrate einer Variablen in Abhängigkeit von einer anderen Variablen nach dem Prinzip ')e steiler, desto schneller" abzubilden, wenn bei der Zuweisung der Variablen zu den Achsen bestimmte Einschränkungen beachtet werden.

Mathematische Bildung

157

Bereits im Grundschulalter kann unter anderem mit Hilfe von Textaufgaben vermittelt werden, welche Möglichkeiten Zahlen und mathematische Operationen bieten. Teilweise bringen die Schüler dieses Wissen bereits aus der Vorschulzeit mit. Ergebnisse der Entwicklungspsychologie und der kulturvergleichenden Forschung sprechen beispielsweise dafür, dass die Nutzung von Zahlen als Zählinstrumente sowie die Beschreibung der Vergrößerung und der Verkleinerung von Mengen durch Addition und Subtraktion zu den universell verfiigbaren Kompetenzen gehören. Darunter versteht man eine angeborene, Disposition, die durch minimale Lernanstöße aus der Umwelt entfaltet wird. So beherrschen alle Kinder die Prinzipien des Zählens, des Addierens und des Subtrahierens, bevor sie in die Schule kommen. Dort müssen sie "nur" noch die entsprechenden Symbole lernen. Obwohl dies mühsam und zeitaufwendig ist, stellt es doch nicht die einzige Herausforderung des Mathematikunterrichtes in der Grundschule dar. Die Kinder müssen über die Nutzung mathematischer Symbolsysteme hinaus ein erweitertes Verständnis von Mathematik entwickeln. Sie müssen beispielsweise lernen, dass Zahlen nicht nur zum Zählen genutzt werden, sondern auch zur Abbildung von Vergleichen zwischen Mengen. So können über 95% aller Zweitklässler die Textaufgabe lösen: "5 Vögel haben Hunger. Sie finden 3 Würmer. Wie viele Vögel bekommen keinen Wurm?" Endet die Aufgabe hingegen mit der Frage: "Wieviel mehr Vögel als Würmer gibt es?", sinkt die Lösungsrate aufunter 30%. Diese Diskrepanz in der Lösungsrate ist nicht auf mangelndes Sprachverständnis zurückzuführen, sondern drückt vielmehr Defizite im Zahlverständnis aus. In der ersten Version wird nach einer konkreten, wahrnehmbaren, zählbaren Menge gefragt, während in der zweiten Version die Relation zwischen zwei Mengen ermittelt werden muss. Eine ähnliche Verständniserweiterung muss fiir die Multiplikation und Division vorgenommen werden. Hier ist bereits sehr jungen Kindern intuitiv klar, dass Situationen, in denen Mengen verteilt oder aufgeteilt werden (z. B. Es gibt 5 Kinder, von denenjedes 4 Kekse bekommen soll. Wie viele Kekse werden benötigt?), mit Hilfe der Multiplikation modelliert werden können. Dass mit Hilfe der Multiplikation zwei Mengen vollständig miteinander verknüpft werden können (kartesisches Produkt), wie dies in Aufgabe 1 verlangt wird, erfordert ein erweitertes Verständnis, auf dem später die Matrizenrechnung aufbauen könnte. Ganz generell sollte es in jeder Klassenstufe das Ziel des Mathematikunterrichtes sein, den Schülern zu vermitteln, welche Möglichkeiten die behandelten Symbole, Formeln oder graphisch-visuellen Darstellungsformen als Werkzeug beim Lösen von neuen Problemen bieten. Diese Probleme können entweder vollständig in der Mathematik angesiedelt sein oder aber die Formalisierung von komplexen Inhaltsbereichen wie in der Physik oder in der Ökonomie betreffen.

Die Berücksichtigung interindividueller Unterschiede bei der Leistungsmessung Leistungsvergleiche werden im allgemeinen auf der Ebene von Mittelwertsvergleichen, also der Durchschnittsleistung, vorgenommen. Eine derartige Aggregation von Leis-

158

Elsbeth Stern und llonca Hardy

tungsdaten bringt natürlich Informationsverlust mit sich. Ein bestimmter Mittelwert kann unter anderem zustande kommen, weil alle Teilnehmer einer Gruppe mittelmäßige Leistung erbringen, oder weil eine Hälfte der Teilnehmer sehr schlechte und die andere sehr gute Leistung erbringt. Beide Fälle wären unerwünscht. Eine arbeitsteilige Gesellschaft lebt von der Vielfalt der Interessen und Kompetenzen ihrer Mitglieder. Es kann deshalb nicht das Ziel des Mathematikunterrichtes sein, womöglich auf Kosten anderer Bereiche alle Schüler zu Mathematikern auszubilden. Leistungsunterschiede zwischen Schülern müssen nicht nur in Kauf genommen werden, sondern sind auch unvermeidbar. Schüler sollen im Laufe der Schulzeit ihre speziellen Interessen und Begabungen entdecken und ausbauen, so dass sie am Ende der Schulzeit eine ihnen angemessene Ausbildungs- und Berufswahl treffen können. Andererseits kann es nicht weiter hingenommen werden, dass der Mathematikunterricht spätestens ab der Mittelstufe an einem nicht geringen Teil der Schüler vorbeigeht, ohne dass sie wirklich etwas verstanden haben. Es muss generell Ziel des Schulunterrichtes bleiben, allen Schülern Mindestkompetenzen zu vermitteln und den Schülern, die besonders gute Voraussetzungen mitbringen, entsprechende Entwicklungsmöglichkeiten zur Perfektion zu geben. Neuere Studien aus der Grundschule und der Sekundarstufe zeigen, dass in Klassen, in denen ein anspruchsvoller, auf Problemlösekompetenz ausgerichteter Unterricht durchgeführt wurde, sowohl die schwächeren als auch die stärkeren Schüler profitierten. Natürlich blieben Leistungsunterschiede auch nach dem Unterricht bestehen, aber es gab keine Belege dafür, dass problemorientierter Unterricht zu Lasten der Schwächeren ging. Eine vergleichende Leistungsmessung sollte sich nicht auf die Ermittlung von Durchschnittsleistungen einer getesteten Schülergruppe (Klasse, Schule, Land, Staat) beschränken, sondern auch Aussagen darüber machen, welcher Anteil der Schüler über eine Mindestkompetenz verfügt, und welcher Anteil erweiterbare Kompetenzen erworben hat, die eine spätere berufliche Spezialisierung im mathematischen Bereich sinnvoll erscheinen lassen. Als Mindestkompetenz für Abiturienten könnte man beispielsweise definieren, dass zentrale Elemente des Mittelstufenunterrichtes, wie z. B. lineare Funktionen, zur Lösung neuer Probleme herangezogen werden können. Aufgabe 2 sollte eine typische Aufgabe zur Messung der Mindestkompetenz für Personen mit Hochschulzugangsberechtigung sein. Die Festlegung von Kriterien für Mindestkompetenzen und erweiterbare Kompetenzen stellt eine zentrale Herausforderung aller an der Konstruktion von Leistungstests beteiligten Personen dar und muss zwischen Lehrpersonen, Bildungspolitikern und Wissenschaftlern diskutiert werden.

Jenseits der Bildungsolympiade: Wissensdiagnose als ein Ziel von Leistungsmessung Das vergleichsweise große öffentliche Interesse an Studien zum Leistungsvergleich zwischen Schulen, Ländern und Staaten entspringt unter anderem dem menschlichen

Mathematische Bildung

159

Bedürfuis nach Wettbewerb und Konkurrenz. Sinnvoll werden Leistungsvergleiche aber erst dann, wenn sie über die Veröffentlichung von Ranglisten hinaus Erkenntnisse darüber liefern, warum Schüler unter bestimmten Randbedingungen den Anforderungen genügen und unter anderen nicht. Es interessiert deshalb nicht nur die in der erreichten Punktzahl ausgedrückte Leistung von Schülern, sondern auch die zugrundeliegende Kompetenz. Ein und dieselbe Leistung kann auf der Grundlage von unterschiedlichem Wissen zustande kommen. Insbesondere wenn man die längerfristige Kompetenzentwicklung der Schüler im Auge hat, sollte man sich nicht allein auf die Leistung konzentrieren, sondern auch die Frage stellen, ob das der Leistung zugrundeliegende Wissen längerfristig ausbaubar ist. Für derartige Entscheidungen werden Klassifikationssysteme zur Bestimmung und Einordnung von Wissen benötigt. Die in den Kognitionswissenschaften entwickelten Klassifikationen lassen sich auf mathematisches Wissen anwenden. Insbesondere drei Arten von Wissen sind relevant: Fakten-, Anwendungs- und Problemlösewissen. Man könnte auch von Wissen, dass, wie und warum sprechen.

Faktenwissen kann als "Wissen, dass" bezeichnet werden. Wird die Lösung der Aufgabe 7•8= aus dem Gedächtnis abgerufen, handelt es sich um Faktenwissen. Faktenwissen liegt auch vor, wenn eine Definition wiedergegeben werden kann, z. B.: "Zwei Dreiecke sind kongruent, wenn man sie so aufeinander abbilden kann, dass die Länge ihrer Seiten und ihre Winkel erhalten bleiben." Faktenwissen ist ein wichtiger Bestandteil mathematischer Kompetenzen. Wenn Information als Faktum verfiigbar ist, erfordert der Zugriffweniger geistige Ressourcen, als wenn diese Information erst konstruiert werden muss. Bei Faktenwissen handelt es sich deshalb keinesfalls um minderwertiges Wissen. Allerdings kann man aus dem Vorliegen von Faktenwissen allein noch nicht auf mathematisches Verständnis schließen. Definitionen oder Ergebnisse von Rechenaufgaben können auswendig gelernt sein, ohne dass sie verstanden wurden. Anwendungswissen ist "Wissen, wie". Es liegt in Form von Prozeduren vor und wird herangezogen, wenn bereits zu einem früheren Zeitpunkt Aufgaben mit gleicher Grundstruktur gelöst wurden. Die schriftliche Subtraktion oder das Auflösen einer algebraischen Gleichung sind Beispiele fiir Anwendungswissen. In der Kognitionswissenschaft nennt man die Übertragung von Anwendungswissen auf neue Aufgaben auch Analogietransfer. Die Mathematik bietet wie kein anderes Fach die Möglichkeit, Aufgaben mit identischer formaler Struktur in ihren Oberflächenmerkmalen zu variieren und damit Anwendungswissen zu messen. Jeder arithmetische oder algebraische Aufgabentyp erlaubt unendlich viele Variationen mit konkreten Zahlen. Text- und Sachaufgaben bieten zusätzlich die Möglichkeit, den inhaltlichen Kontext unter Beibehaltung der Struktur zu verändern. Problemlösewissen ist "Wissen, warum" und wird benötigt, wenn nicht nur die Oberflächenmerkmale, sondern auch die Struktur der Aufgabe neu sind. Bestehendes Wissen muss in diesem Falle so umstrukturiert werden, dass es zum neuen Kontext passt. Diese Wissensform kommt dem Alltagsbegriff des Verstehens am nächsten. Für den erfolgreichen Umgang mit neuen Problemen reicht es nicht aus, zu wissen, wie eine bestimmte Operation ausgefiihrt wird, vielmehr muss man auch wissen, warum diese Operation in einer bestimmten Problemlösesituation herangezogen werden kann. Der Einsatz einer

160

Elsbeth Stern und llonca Hardy

der Situation angemessenen Operation ergibt sich aus der adäquaten Modellierung ihrer Zusammenhänge. Hier unterscheiden sich Anfänger von Experten, da sich erstere bei ihren Situationsmodellen stark von Oberflächenmerkmalen der Aufgabe beeinflussen lassen und dementsprechend unzureichende Lösungsprozeduren einsetzen. Das Verfügen von Fakten- und Anwendungswissen ist hierbei eine notwendige, aber noch nicht hinreichende Voraussetzung für das Vorliegen von Problemlösewissen. Letzteres setzt voraus, dass einzelne Wissenselemente einerseits intelligent vernetzt sind und andererseits separat und flexibel abgerufen werden können. Ein typisches Beispiel für die Messung von Problemlösewissen ist Aufgabe 4. Aufgabe 4: Eine Schnur ist symmetrisch um einen zylindrischen Stab gewickelt. Die Schnur windet sich genau 4-mal um den Stab. Der Umfang des Stabs beträgt 4 cm und seine Länge 12 cm.

Bestimmen Sie die Länge der Schnur.

Diese Aufgabe, wurde im Rahmen der TIMS/III-Studie in der gymnasialen Oberstufe vorgegeben. 12% der Schüler, die Mathematik als Leistungskurs gewählt hatten, und 3% der Schüler mit Mathematik als Grundkurs lösten sie. Die Aufgabe erfordert die Anwendung von Wissen, das in der Sekundarstufe I erworben wurde: 1) Die Oberfläche eines Zylinders besteht aus einem Rechteck und zwei Kreisen, und 2) Der Satz des Pythagoras besagt, dass in einem rechtwinkligen Dreieck die Summe der Quadrate von Kathete und Ankathete das Quadrat der Hypotenuse ergibt. Um Ursachen für fehlendes oder unzureichendes Problemlösewissen zu finden, sollten Leistungstests nicht nur Aufgaben enthalten, die neu sind, sondern auch curricular valide Aufgaben, die Fakten- und Anwendungswissen verlangen. Auf diese Weise kann man herausfinden, ob es "nur" mangelnde Problemlösekompetenzen sind, die einen Schüler davon abhalten, eine neue Aufgaben zu lösen, oder ob das benötigte Faktenund Anwendungswissen nicht erworben wurde. Im Falle der Aufgabe 4 ist davon auszugehen, dass alle Teilnehmer eines Leistungskurses der gymnasialen Oberstufe das erforderliche Faktenwissen besitzen. Auch das Anwendungswissen, das in der Durchführung von Multiplikation, Addition und Division im kleinen Zahlenbereich besteht, dürfte keine Probleme bereiten. Wenn dennoch die Aufgabe nicht gelöst wird, liegt dies daran, dass nicht erkannt wird, dass man die Fläche des Zylinders in vier gleiche Rechtecke aufteilen muss und die Diagonale jedes Rechteckes als einen Teil der Schnur verstehen sollte. Die richtige Antwort ist also "20".

Mathematische Bildung

161

Dass diese eigentlich so einfache Aufgabe so massive Schwierigkeiten bereitet, liegt daran, dass mathematische Wissenselemente sehr stark an bestimmte Aufgabenstrukturen gebunden sind und nicht als eigenständige Einheiten auf neue Strukturen übertragen werden können. Wie eine Aufgabe gelöst wird und ob angemessene Lösungsprozeduren eingesetzt werden, hängt also davon ab, ob eine gegebene Situation so modelliert wird, dass bestimmte Verfahren zur Lösung sinnvoll werden. Die Identifikation von Inflexibilitäten beim Einsatz von Fakten- und Anwendungswissen bzw. von unangemessenen Aufgabenmodeliierungen ist Aufgabe der Leistungsmessung in Mathematik. Dank der Vielfalt an mathematischem Wissen und der Vielfalt an potenziellen Problemsituationen bieten sich in jeder Jahrgangsstufe unendlich viele Möglichkeiten, neue Aufgaben zu konstruieren, um die mathematische Problemlösekompetenz zu messen. In Mathematiktests kann man die Vorteile von Multiple-Choice-Aufgaben gezielt zur Wissensdiagnose nutzen. In Inhaltsbereichen mit starken verbalen Anteilen sind Multiple-Choice-Tests häufig eine Notlösung, weil sie die einzige Möglichkeit darstellen, die Kriterien der Objektivität und Reliabilität einzuhalten. In Mathematik können Multiple-Choice-Aufgaben hingegen gezielt eingesetzt werden, um die Verfiigbarkeit bestimmter mathematischer Regeln und Prinzipien zu testen. So könnte man in Tests, die unter Zeitbegrenzung vorgegeben werden, Multiplikationsaufgaben mit zwei geraden zweistelligen Zahlen einmal mit einem geraden und einmal mit einem ungeraden Ergebnis vorgeben, z. B. 16•18="288" oder "289". Wer die Regel abrufen kann, dass das Produkt zweier gerader Zahlen wiederum eine gerade Zahl ergeben muss, wird die richtige Lösung auch ohne Rechenprozeduren finden. Auch die Ergebnisse aus Fehleranalysen können gezielt in Multiple-Choice-Aufgaben eingesetzt werden, um auf diese Weise eine Wissensdiagnose zu betreiben. Es ist hinreichend bekannt, dass Fehler nicht nur aus Nachlässigkeit oder nicht vorhandenem Wissen entstehen, sondern dass hartnäckige unangemessene Überzeugungen der Schüler häufig resistent gegen angemessene Erklärungen sind. Beispielsweise wurde auf die Frage: "Sarah hatte neun Äpfel. Sie gab ein Drittel davon weg. Wie viele Äpfel sind übrig?", nicht nur wie erwartet "3" und "6" geantwortet, sondern auch "8•%". Diese Antworten sprechen fiir ein unvollständiges Verständnis von Brüchen und können als falsche Alternativen in Multiple-Choice-Aufgaben vorgesehen werden. Durch gezielte Gegenüberstellung von Testleistungen zu verschiedenen Wissensarten lassen sich Stärken und Schwächen in bestimmten Einheiten des Bildungssystems (Klassen, Schulen, Länder, Staaten) abbilden.

Leistungsmessung als Spiegel der Schul- und Unterrichtskultur Ganz allgemein wird die Interpretation von Ergebnissen einer vergleichenden Leistungsmessung häufig durch Effekte von unkontrollierbaren außerschulischen Randbedingungen erschwert, die sich unter anderem aus dem kulturellen Umfeld ergeben kön-

162

Elsbeth Stern und llonca Hardy

nen. So erlauben beispielsweise interkulturelle Leistungsvergleiche der Lesekompetenz von deutschen, englischen und chinesischen Zweitklässlern keine Schlussfolgerungen über die Unterrichtsqualität Die deutsche Schriftsprache ist leichter zu erlernen als die Englische (wegen der vielen nicht ausgesprochenen Buchstaben bei letzterer), und diese ist wiederum einfacher als die chinesische Symbolschrifl:. Auch internationale Vergleiche in Fremdsprachenkompetenzen, z. B. im Englischen, lassen keine eindeutige schulbezogene Interpretation zu, unter anderem weil die Ähnlichkeit der jeweiligen Muttersprache mit der Fremdsprache variieren kann. Ostasiatischen Schülern fällt natürlich das Erlernen der englischen Sprache schwerer als deutschen oder gar niederländischen Schülern. Derartige kulturelle Einflüsse sind in Mathematik nur am Rande zu erwarten. So wird deutschsprachigen Schülern zu Beginn der Schulzeit das Schreiben zweistelliger Zahlen erschwert, weil die sprachlichen Zahlenwörter und die Ziffernschreibweise abweichen (z. B. für 23: "dreiundzwanzig" im Deutschen und "twentythree" im Englischen). Interkulturelle Unterschiede gibt es auch bezüglich der Hilfsmittel, die in der Schule verwendet werden. So ist der in östlichen Ländern gebräuchliche Abakus nicht nur eine Rechenhilfe, sondern fördert auch das Verständnis von Zahlensystemen. Insgesamt gilt jedoch für die Mathematik, dass diese in geringerem Maße vom kulturellen Umfeld beeinflusst ist als sprachliche Fächer. Deshalb können Leistungsunterschiede eindeutiger auf schulische Faktoren und häufig sogar direkt auf die Unterrichtsqualität zurückgefiihrt werden. Da sich schulische Faktoren im allgemeinen trotz aller Unwägbarkeiten leichter verändern lassen als die meisten außerschulischen Bedingungen, lassen sich Schlussfolgerungen aus den Ergebnissen der Leistungsmessung in Mathematik und in naturwissenschaftlichen Fächern leichter in die Praxis umsetzen als in sprachlichen Fächern. Leistungstests, in denen schulbezogene Kompetenzen erfasst werden, sind nur sinnvoll interpretierbar, wenn Informationen über Lerngelegenheiten einbezogen werden. Wenn ein 15-jähriger Schüler die binomischen Formeln nicht auflösen kann, weil dies im Mathematikunterricht nie behandelt wurde, zieht man andere Schlussfolgerungen, als wenn ein Schüler dies trotz ausgiebiger Übung im Unterricht nicht kann. Möchte man mathematisches Problemlösewissen und nicht Fakten- und Anwendungswissen messen, muss sichergestellt sein, dass Aufgaben mit vergleichbarer Struktur nicht bereits im Unterricht behandelt wurden. Für das Fach Mathematik gelingt es leichter als für andere Fächer, die curriculare Validität von Aufgaben zu bestimmen. Kein anderes Schulfach ist so klar nach international anerkannten Kriterien strukturiert wie die Mathematik. Einige Aspekte der Strukturierung ergeben sich aus der Logik der Inhalte (z. B. dass additive Verknüpfungen vor multiplikativen Verknüpfungen gelernt werden), während andere sich aus der Konvention entwickelt haben. Aus diesen Gründen ist die internationale Übereinstimmung des schulischen Curriculums in Mathematik viel größer, als dies in anderen Fächern der Fall ist. Abweichungen gibt es insbesondere auf internationaler Ebene vorwiegend in angewandten Bereichen wie z. B. Statistik/Stochastik oder in analytischer Geometrie. Diese Bereiche sind in manchen Ländern bereits in der Mittelstufe Bestandteil des schulischen Pflichtcurriculums, während sie in anderen Ländern gar nicht unterrichtet werden. Curriculare Validität kann sich aber auch auf den "pädagogischen Wert" derjenigen Lösungsaktivitäten beziehen, die die Schüler bei der Bearbeitung von Leistungstests ausführen. Aufgaben sollten also Aktivitäten ermögli-

Mathematische Bildung

163

chen, die den Zielen eines problemlöseorientierten Unterrichts gerecht werden. Diese Forderung ist besonders unter dem Gesichtspunkt wichtig, dass die Inhalte der Leistungsmessungihrerseits Einfluss darauf haben, was und wie unterrichtet wird. Selbst ein aus der Sicht der Lehr-Lern-Forschung optimaler Unterricht kann nicht seine volle Wirkung entfalten, wenn in einem hierarchisch aufgebauten Inhaltsbereich wie Mathematik in den vorhergehenden Jahren das Lernpotenzial der Schüler nicht optimal genutzt wurde. Globale Leistungsvergleiche zwischen Ländern oder Staaten erlauben zunächst einmal nur Schlussfolgerungen über Unterschiede in der gesamten Schullrultur und nicht über den Unterricht des speziellen Stoffes. Ein Leistungstest mit Aufgaben zu unterschiedlichen Wissensarten und mit unterschiedlichen Schwierigkeitsstufen kannjedoch detaillierte Auskunft über eventuelle Schwachstellen des jeweiligen Unterrichts geben.

Mögliche Schwachstellen einer Leistungsmessung in Mathematik Die im vorangegangenen Abschnitt erörterten Erkenntnisgewinne durch eine Leistungsmessung in Mathematik sollten jedoch nicht über die Probleme hinwegtäuschen, die als Folge von regelmäßig durchgefiihrten Leistungsvergleichen entstehen können. In den USA werden seit 1969 in dem sogenannten National Assessment of Educational Progress (NAEP)-Projekt, das vom zentralen Ministerium fiir Bildung finanziert wird, an repräsentativen Stichproben von 9-, 13- und 17-jährigen Schülern in vierjährigem Abstand Leistungsmessungen in Mathematik durchgefiihrt. Auf deren Grundlage werden Vergleiche zwischen einzelnen Klassen, Schulen, Regionen und Bundesländern vorgenommen und Ranglisten erstellt. Obwohl diese Art von Testung nach wie vor betrieben wird, ist sie doch in den letzten Jahren massiv unter Druck geraten, da sich viele Schwachstellen zeigten. Zudem hatte die seit mehreren Jahrzehnten regelmäßig stattfindende Leistungsmessung offensichtlich keinen positiven Einfluss auf das Leistungsniveau in den USA: Die Leistungen dieses Landes liegen zum Beispiel in der TIMS-Studie geringfiigig unter denen Deutschlands und damit im unteren Mittelfeld. Bei der Erhebung und Interpretation von Leistungsdaten sind einige wichtige Punkte zu bedenken, die im Folgenden erörtert werden:

Mathematiktests aus psychometrischer Sicht Auf den ersten Blick scheinen Mathematiktests den drei Kriterien der psychometrischen Leistungsmessung, nämlich Objektivität, Zuverlässigkeit und Gültigkeit, besser zu genügen, als dies bei Tests in anderen Fächern der Fall ist. Dies ist zwar im Prinzip richtig, sollte aber nicht über die Tatsache hinwegtäuschen, dass auch die Messung der

164

Elsbeth Stern und llonca Hardy

Mathematikleistung ihre Schwachstellen hat. Die Objektivität macht Aussagen darüber, ob das Ergebnis einer getesteten Person unabhängig von Testleitern und Auswertern zustande kommt. Auf der Ebene der Schulmathematik kann immer Übereinstimmung zwischen zwei Experten (Lehrern) hinsichtlich der Frage hergestellt werden, ob eine Aufgabe von einem Schüler richtig gelöst wurde oder nicht. Dennoch ist die Auswertungsobjektivität von Mathematiktests nicht zwangsläufig perfekt. Insbesondere wenn Lösungswege in die Auswertung einbezogen werden, kann es zu abweichenden Bewertungen kommen. Die Einbeziehung des Lösungsweges ist aber wichtig, wenn man nicht nur die Leistung, sondern auch die Kompetenz im Auge hat. Während die alleinige Betrachtung der richtigen Lösung im Mathematiktest den Eindruck entstehen lässt, dass sich der Erwerb mathematischer Kompetenzen als ein Alles-oder-Nichts-Prozess abbilden lässt, zeigt die Berücksichtigung von Lösungswegen und anderen Prozessindikatoren, dass sich auch mathematisches Verständnis kontinuierlich entwickelt. Dieser Aspekt wird später noch vertieft. An dieser Stelle bleibt festzuhalten, dass die Einigung auf eine Klassifikation von Lösungswegen ein wichtiger Bestandteil der mathematischen Leistungsmessung ist. Die Zuverlässigkeit (Reliabilität) eines Tests gibt an, ob das Testergebnis als Ausdruck einer weitgehend stabilen Fähigkeit gesehen werden kann oder ob es durch Zufallseinflüsse zustande gekommen ist. Ein Test ist reliabel, wenn Wiederholungsmessungen oder Messungen mit unterschiedlichen Aufgaben aus dem gleichen Inhaltsgebiet zu weitgehend übereinstimmenden Ergebnissen fUhren. Generell gilt, dass Tests um so reliabler sind, je tiefer verankert und besser automatisiert das zugrundeliegende Wissen ist. Damit sind- man könnte fast sagen per definitionem- Tests, die die Nutzung von Wissen in neuen Situationen messen, weniger reliabel als Tests, die den Abrufund die Verfiigbarkeit bestehenden Wissens in gewohnten Situationen beinhalten. Dieser Tatsache muss man beispielsweise durch die Vorgabe einer größeren Anzahl von Problernlöseaufgaben Rechnung tragen. Die Gültigkeit (Validität) von Tests macht Aussagen darüber, ob der Test wirklich die Fähigkeit misst, die der Testautor zu messen beabsichtigte. Ein Test ist nicht per se valide oder nicht, sondern immer nur bezogen auf ein angegebenes Kriterium. Wie bereits erörtert wurde, sollte bei der Testung der Mathematikleistung die Frage nach dem zugrundeliegenden Wissen im Mittelpunkt stehen. Dies setzt jedoch die Berücksichtigung der Lerngeschichte, das heißt die Erfassung der im Unterricht behandelten Themen voraus. Auch wenn dies in Mathematik einfacher ist als in anderen Fächern, muss sichergestellt werden, dass ein und derselbe Test nicht in einer Klasse Fakten- oder Anwendungswissen erfasst, weil die Aufgabe bereits behandelt wurde, während er in einer anderen Klasse Problemlösewissen misst.

Viele Aufgaben können ohne ein tiefgehendes Verständnis mathematischer Konzepte gelöst werden

Für viele Schüler aller Jahrgangsstufen stellt sich Mathematik als eine Ansammlung von Regeln und Prozeduren dar. Um eine Aufgabe zu lösen, muss man die richtige

Mathematische Bildung

165

Prozedur abrufen, wobei sich Schüler bei deren Auswahl häufig von Oberflächenmerkmalen leiten lassen. Dies lässt sich bei mathematischen Textaufgaben im Grundschulalter demonstrieren, zu deren Lösung Kinder häufig sogenannte Schlüsselwortstrategien anwenden, das heißt die Entscheidung, ob die Zahlen addiert oder subtrahiert werden, hängt von bestimmten Wörtern ab. Kommt beispielsweise das Wort "zusammen" ("together" im Englischen) vor, wird addiert, kommt "bleiben übrig" ("are left") vor, wird subtrahiert. Wie sinnlos solche Schlüsselwortstrategien angewendet werden, konnte demonstriert werden, als eine Textaufgabe vorgegeben wurde, in der ein "Mr. Left" vorkam: Die meisten Kinder subtrahierten die Zahlen. Die in Deutschland häufig zitierte sinngemäße Äußerung einer Schülerin: "Wenn zwei kleine Zahlen vorkommen, muss ich multiplizieren, wenn eine große und eine kleine Zahl vorkommen, muss ich dividieren", geht in eine ähnliche Richtung. Solche sogenannten Überlebensstrategien sind keinesfalls auf das Grundschulalter beschränkt. Bei der Auflösung algebraischer Gleichungen in der Sekundarstufe wenden Schüler mitunter lediglich oberflächlich verstandene Prozeduren an, die aber durchaus weiterhelfen können. Verfügen Schüler beispielsweise über eine Reihe von Prozeduren wie das Auflösen von binomischen Formeln, das Ausmultiplizieren von Gleichungen und das Kürzen von Brüchen, können sie zumindest eine als befriedigend oder ausreichend eingestufte Leistung erreichen. Natürlich können Schüler, die lediglich Überlebensstrategien verfügbar haben, keine Spitzenleistungen in einem Test erzielen. Überlebensstrategien können aber durchaus einen Mangel an konzeptuellem Verständnis kaschieren. Kennen Testkonstrukteure die Überlebensstrategien der Schüler, können sie deren Erfolgschancen durch geschickte Aufgabenkonstruktion mindern. In Textaufgaben können für die Ermittlung des Ergebnisses nicht benötigte numerische Informationen eingefügt werden. Viele Schüler, die den Flächeninhalt von Dreiecken berechnen können, wenn sich die Spitze über der Grundseite befindet, versagen, wenn die Spitze über die Grundseite hinaus verschoben ist.

Kompetenzen werden übersehen Aus der retrospektiven Betrachtung stellt sich das Verstehen mathematischer Prinzipien für alle Lernenden als ein Alles-oder-Nichts-Vorgang dar. Entweder man hat ein Prinzip verstanden oder nicht. Diese Einschätzung trifft aus der Sicht der neueren Lehr-LernForschung aber nicht zu. Das Verstehen von mathematischen Prinzipien und Gesetzen lässt sich nicht durch ein Stufenmodell erklären, sondern eher durch ein sogenanntes überlappendes WellenmodelL Der Pittsburgher Lern- und Entwicklungspsychologe Robert Siegier hat für unterschiedliche mathematische Strategien im Kindesalter zeigen können, dass sich bestimmte anspruchsvolle Regeln und Prozeduren erst allmählich gegen weniger elegante und weniger angemessene, dafür aber vertrautere Vorgehensweisen durchsetzen. Wider Erwarten zeigte sich sogar, dass es um so unwahrscheinlicher war, dass eine neue Strategie zur Lösung einer Aufgabe eingesetzt wurde, je komplexer diese ist. So wurde bei Aufgaben vom Typ "a+b-b=" mit größerer W ahrscheinlichkeit erkannt, dass man mit einer sogenannten Abkürzungsstrategie ohne Rechnen zur Lösung kommen kann, wenn es sich bei "a" und "b" um kleine Zahlen handelte. Dieses Ergebnis ist auf den ersten Blick kontraintuitiv, da die Vorteile der Abkürzungsstrategie gerade bei Aufgaben mit großen Zahlen zum Tragen kommen. Plausibel ist das

166

Elsbeth Stern und llonca Hardy

Ergebnis jedoch, wenn man sich die gut belegte Einschränkung in der Informationsverarbeitungskapazität des Menschen vergegenwärtigt. Das in einer bestimmten Zeiteinheit aktivierbare Wissen - in der Kognitionswissenschaft spricht man auch von Arbeitsspeicherkapazität- ist begrenzt. Gleichzeitig ist gut belegt, dass die Aktivierung hoch vertrauter und automatisierter Wissensinhalte weniger Arbeitsspeicherkapazität in Anspruch nimmt als die Aktivierung weniger vertrauter Inhalte. Wird demnach bereits durch die großen Zahlen einer Aufgabe ein beachtlicher Teil der Arbeitsspeicherkapazität gebunden, reicht die verbleibende Kapazität nur noch fiir die Aktivierung einer vertrauten, hochautomatisierten Strategie. Durch die Vorgabe mehrerer Aufgaben, die sich in ihrer Komplexität (z. B. Größe der Zahlen oder Anzahl der zu verrechnenden Einheiten) unterscheiden, aber mit der gleichen Strategie gelöst werden können, lässt sich herausfinden, ob eine Strategie zwar bereits vorhanden, aber noch unsicher verfügbar ist. Wird lediglich registriert, ob eine Aufgabe richtig oder falsch gelöst wird, können die Kompetenzen von Schülern unterschätzt werden. Fehleranalysen lassen nämlich oft erkennen, dass bereits Kompetenzen vorliegen, aber ein fehlendes Glied in der Wissenskette das Finden der richtigen Antwort verhindert. Insbesondere Ergebnisse zur schriftlichen Subtraktion zeigen, dass Fehler nicht auf Unachtsamkeit oder Raten zurückzufiihren sind, sondern auf systematische - wenn auch unangemessene - Algorithmen, das heißt eine unangemessene Aufgabenmodellierung. Auch beim Lösen von Textaufgaben wurde eine kontinuierliche Kompetenzentwicklung beobachtet, die sich durch eine Richtig-Falsch-Einordnung nur unzureichend abbilden läßt (Stern, 1997). So zeigte sich, dass bestimmte falsche Rechenwege ein guter Hinweis fiir Lernfortschritte sind. Auch eine unangemessene Erwartungshaltung von Seiten der Testautoren kann zu einer inkorrekten Einschätzung der Schülerleistung fiihren, wie am Beispiel der Aufgabe 5 demonstriert wird. Aufgabe 5: Eine Zahl wird auf 5,8 gerundet. Welche Zahl könnte es sein? Gib eine so vollständige Antwort wie möglich. Antworten auf diese Frage werden wie folgt bewertet: 2 Punkte: vollständige Antwort, wie "Jede Zahl wie z. B. 5,819, die größer oder gleich 5,75 und kleiner als 5,85 ist." 1 Punkt: ein richtiges Beispiel, wie "5,81" (ohne Erklärung). 0 Punkte: ein unzutreffendes Beispiel, z. B. "5,88" .

Die Nennung eines richtigen Beispiels, also die Antwort "5,81 ", kann aber nicht einfach als Beleg dafiir gelten, dass der Schüler nicht zu einer vollständigeren Antwort in der Lage ist. Die Art der Antwort hängt nämlich auch davon ab, was Schüler unter einer vollständigen Antwort verstehen. Der "didaktische Vertrag", der implizit oder explizit mit der Lehrperson in Mathematik geschlossen wird, kann diesbezüglich von den Erwartungen der Testkonstrukteure abweichen.

Mathematische Bildung

167

Einfluss der Leistungsmessung auf die Unterrichtsgestaltung (Backwash-Effekt) Der sogenannte "Backwash-Effekt" der Leistungsmessung muss besonders ernst genommen werden. Dieser Effekt bedeutet, dass Inhalte und Art der Vermittlung im Mathematikunterricht auf die Tests abgestimmt werden, damit die Klasse möglichst gut bei der nächsten Leistungsmessung abschneidet. Es wurde tatsächlich beobachtet, dass in amerikanischen Grundschulen die oben erwähnten Schlüsselwortstrategien gelehrt werden. In der Lehr-Lern-Forschung würde man sagen, dass der Unterricht eher leistungsorientiert als kompetenzorientiert ist. Dies bedeutet, dass die Steigerung der Leistung notfalls aufKosten eines tiefergehenden Verständnisses in Kauf genommen wird. Wenn Leistungsmessung und Leistungsvergleiche zu einer Art Olympiade werden, bleiben deren negative Auswirkungen nicht aus. Bestimmte Einzelpersonen oder Gruppen werden versuchen, sich gute Rangplätze zu sichern, indem sie durch gezielte Anpassung an die Testsituation Leistungen ihrer Schüler vortäuschen, die nicht unbedingt ein gleiches Maß an Kompetenz widerspiegeln. Aber auch ehrliche Versuche der Lehrpersonen, die Schüler auf einen möglichst hohen Leistungsstandard zu bringen, können sich längerfristig negativ auswirken. Wenn sich eine Kultur der Leistungsmessung etabliert hat, besteht die Gefahr, dass bevorzugt Lehrmethoden eingesetzt werden, die kurzfristig schnelle Erfolge bringen, aber auf längere Sicht suboptimal sind. Die bloße Konzentration auf Inhalte, die in Leistungstests erfasst werden, wird Lehrpersonen möglicherweise auch davon abhalten, Unterrichtszeit auf Übungen zu verwenden, die sich erst langfristig auszahlen. Beispielsweise lässt sich der Graph einer Funktion bereits im Zusammenhang mit Aufgaben zum proportionalen Denken am Ende der Grundschulzeit und zu Beginn der Sekundarstufe ein:fiihren. Allerdings lassen sich beide Inhaltsgebiete auch ohne den Graphen vermitteln. In einem Leistungstest, der nur numerische Aufgaben enthält, werden sich möglicherweise die Bemühungen des Lehrers um die Vermittlung graphischer Kompetenzen gar nicht niederschlagen oder sich sogar leistungsmindernd auswirken, weil weniger numerische Aufgaben geübt wurden. Mit dem Backwash-Effekt muss insbesondere gerechnet werden, wenn die Leistungen aufKlassenebene an Lehrpersonen, Schulleitung, Behörden oder sogar die Öffentlichkeit nach dem Motto "blame and shame" rückgemeldet werden.

Rahmenbedingungen für eine sinnvolle vergleichende Leistungsmessung in Mathematik Es sollte deutlich geworden sein, dass das Fach Mathematik im Prinzip gute Voraussetzungen ftir die Messung und den Vergleich von Leistungen bietet, insbesondere auch, weil Probleme, die mit der Leistungsmessung einhergehen, bekannt und eingrenzbar sind. Um die Messung und den Vergleich von Leistungen gezielt durchfUhren zu können, bedarf es jedoch eines Minimalkonsenses zwischen allen beteiligten Personen in folgenden Punkten:

168

Elsbeth Stern und llonca Hardy

1. Problemlösewissen ist die entscheidende mathematische Kompetenz. Mathematikunterricht kann nur als erfolgreich bezeichnet werden, wenn die Schüler befähigt werden, ihr Wissen auf neue Situationen anzuwenden. 2. Aufgaben zur Messung von Problemlösewissen müssen immer wieder neu entwickelt werden. Sobald Aufgaben im Unterricht als Lösungsbeispiele behandelt werden, messen sie Fakten- oder Anwendungswissen. Aus diesem Grunde müssen von Experten immer wieder strukturell neue Aufgaben entwickelt und in Tests integriert werden. 3. Die Förderung mathematischer Kompetenzen muss langfristig über die gesamte Schullaufbahn hinweg angelegt sein. Dies muss bei der Leistungsmessung berücksichtigt werden. Es muss sichergestellt werden, dass nicht nur zu dem Zeitpunkt der Schullaufbahn, zu dem eine Leistungsmessung vorgesehen ist, ein Leistungsoptimum erreicht wird, sondern dass auch die am Ende der Schulzeit erreichte Mindestund Expertenkompetenz angemessen erfasst wird. 4. Ziel der Messung und des Vergleichs von Leistung ist es, Aspekte des guten Unterrichts zu identifizieren. Leistungsmessung darf nicht in eine Olympiade ausarten. Deshalb sollte nicht der Vergleich von aggregierten Testmittelwerten zwischen Schulen, Ländern etc. im Mittelpunkt stehen, sondern es sollten verschiedene Wissenskomponenten miteinander verglichen werden. Zeigt sich beispielsweise, dass zwar Fakten- und Anwendungswissen vorliegen, aber kein Problemlösewissen verfügbar ist, müssen andere Konsequenzen für den Mathematikunterricht gezogen werden, als wenn auch Fakten- und Anwendungswissen fehlen.

Powered by TCPDF (www.tcpdf.org)

KAPITEL 12

Schulleistungen im Bereich der naturwissenschaftlichen Bildung Reinders Duit, Peter Häußler und Manfred Prenzel

Naturwissenschaften und Technik besitzen eine herausragende Stellung fiir den gesellschaftlichen Wandel und für die Sicherung der Lebensgrundlagen. Die wachsende Bedeutung und die rapide Entwicklung der Naturwissenschaften führen zu veränderten Anforderungen an die naturwissenschaftliche Bildung. Sie geben Anlass, herkömmliche Vorstellungen von naturwissenschaftlicher Bildung zu überdenken und neu zu bestimmen. Leitfragen sind zum Beispiel: Was sollten Schülerinnen und Schüler wissen und können, was sollten sie verstanden haben, damit sie naturwissenschaftliche und technische Entwicklungen wahrnehmen, beurteilen und vielleicht beeinflussen können? Was sollten alle Mitglieder der Gesellschaft wissen, weil sie gleichermaßen von Veränderungen betroffen sind, und was müssen die Spezialisten wissen, die in diesen Feldern mitarbeiten? Über welches Wissen und über welche Kompetenzen muss man verfügen, damit man über die gesamte Lebensspanne an die dynamische Entwicklung Anschluss halten, also lebenslang weiterlernen kann? Fragen dieser Art werden derzeit auf nationaler wie internationaler Ebene intensiv diskutiert. Die Überlegungen konzentrieren sich dabei auf den Beitrag, den die Schule zur naturwissenschaftlichen Bildung leisten sollte. Grundlegende Anforderungen werden hierzulande unter dem Stichwort "naturwissenschaftliche Grundbildung" beschrieben; im englischsprachigen Raum hat sich der Begriff "Scientific Literacy" durchgesetzt. Obwohl diese Bezeichnungen unterschiedliche Perspektiven erkennen lassen, stimmen die Vorschläge fiir eine zeitgemäße Ausrichtung der naturwissenschaftlichen Bildung in vieler Hinsicht überein. Die aktuelle Diskussion über naturwissenschaftliche Grundbildung bzw. Scientific Literacy wirkt sich nicht nur auf die Ausrichtung von Lehrplänen und auf die Unterrichtsgestaltung aus, sondern auch auf die Erhebung von Schulleistungen. Wenn man nämlich Vorstellungen von naturwissenschaftlicher Bildung neu bestimmt und inhaltlich fasst, dann müssen auch Lernvoraussetzungen, Fortschritte und Lernergebnisse auf entsprechende Weise erhoben und beschrieben werden. Es ist also fiir ein Instrumentarium zu sorgen, mit dem Lehrkräfte naturwissenschaftliche Kompetenzen und Schulleistungen, die mit einer zeitgemäßen Vorstellung naturwissenschaftlicher Bildung verbunden sind, angemessen erfassen können.

170

Reinders Duit, Peter Häußler und Manfred Prenzel

Die Diskussion über naturwissenschaftliche Bildung fiihrt aber auch zu Fragen der Erhebung von Schulleistungen, die über den unmittelbaren Unterrichtszusammenhang hinaus weisen. Wenn naturwissenschaftliche Bildung ein wichtiger Faktor fiir die Sicherung der individuellen und allgemeinen Lebensgrundlagen ist, dann bleibt zu klären, inwieweit das erforderliche Niveau naturwissenschaftlicher Kompetenz erreicht wird und unter welchen Bedingungen diese Kompetenzentwicklung möglich ist. Der vorliegende Beitrag über die Messung von Schulleistungen im naturwissenschaftlichen Bereich beginnt deshalb mit einer Übersicht über die aktuelle Diskussion zur naturwissenschaftlichen Bildung. Dieser erste Abschnitt fiihrt aus, was mit Begriffen wie naturwissenschaftliche Grundbildung und Scientific Literacy gemeint ist und skizziert damit verbundene Ansprüche an Unterricht und Leistungsmessung. Der zweite, ausfUhrliehe Abschnitt behandelt dann die wichtigsten Verfahren zur Messung naturwissenschaftlicher Kompetenzen und Leistungen. Anschließend wird zusammenfassend heraus gearbeitet, welche Rolle Testverfahren bei der Leistungsmessung durch die Lehrkraft im Unterricht bzw. bei nationalen und internationalen Erhebungen des Leistungsstandes spielen.

Konzeptionen naturwissenschaftlicher Bildung Die aktuelle Diskussion über die Anforderungen an den naturwissenschaftlichen Unterricht wird von den Traditionen des naturwissenschaftlichen Unterrichts in den verschiedenen Ländern bestimmt. Allerdings zeichnet sich dennoch international ein breiter Konsens ab. Die Herausforderungen des 21. Jahrhunderts bilden in den Diskussionen den zentralen Bezugspunkt. Es gilt, die Erde als Lebensraum fiir den Menschen und alle anderen Lebewesen zu erhalten. In Bezug auf den Menschen stehen die Aspekte der Ernährung einer immer noch wachsenden Weltbevölkerung, Fragen der Gesundheit, der Energieversorgung und der Bildung im Mittelpunkt. Als Schlüsseltechnologien werden die Biotechnologie und die Informationstechnologie angesehen.

Naturwissenschaftliche Grundbildung Naturwissenschaftliche Bildung ist ein wichtiger Aspekt von Allgemeinbildung. Im Verlauf der Schulzeit muss eine naturwissenschaftliche Grundbildung angestrebt werden, die als Basis fiir eine lebenslange Auseinandersetzung mit Naturwissenschaften dient. In der Schule soll deshalb ein grundlegendes naturwissenschaftliches Verständnis aufgebaut werden, • das den Zugang zu einem wichtigen kulturellen Erbe der Menschheit ermöglicht, • das im Zusammenhang vieler (insbesondere auch technischer) Berufe bzw. Berufsausbildungen als wichtige Voraussetzung gilt,

Naturwissenschaftliche Bildung



171

das dazu befähigt, sich in einer natürlichen und durch den Menschen gestalteten Umwelt zurechtzufinden und an Entscheidungen in einer von Naturwissenschaft und Technik bestimmten Welt teilzunehmen.

Dieses Grundverständnis beruht weniger auf einem Detailwissen, sondern auf dem über die Schulzeit ausdifferenzierten Verständnis basaler Konzepte (Begriffe und Prinzipien) und Prozesse (Arbeits- und Denkweisen) der Naturwissenschaften. Naturwissenschaftliche Grundbildung umfasst auch eine Aufgeschlossenheit gegenüber naturwissenschaftlichen Fragen. Während diese Aufgeschlossenheit ilir alle gefordert wird, ist die Entwicklung eines ausgeprägten Interesses ilir Naturwissenschaft ein Anliegen der schulischen Bildung, das letztlich nur von einem Teil der Schülerinnen und Schüler verwirklicht wird. Allerdings gewinnt die Entwicklung eines ausgeprägten Interesses an Naturwissenschaften, das die Entscheidung über die Berufsausbildung oder ein Studium bestimmt, einen großen Stellenwert in modernen Gesellschaften mit einem hohen Bedarf an naturwissenschaftlichem und technischem Nachwuchs. In den vergangenen Jahren ist zunehmend klar geworden, dass die Vermittlung der Naturwissenschaften, gewissermaßen um ihrer selbst willen, ilir die meisten Schülerinnen und Schüler wenig attraktiv ist. Naturwissenschaftliches Wissen muss einerseits so vermittelt werden, dass es in Kontexte eingebettet ist, die den Anschluss an Erfahrungen und Interessen der Schülerinnen und Schüler erlauben. Man spricht hier von bedeutungsvollen Kontexten. Andererseits muss das vermittelte Wissen anschlussfähig, d. h. bei der Erschließung neuer Einsichten nützlich und anwendbar sein. Im englischsprachigen Raum wird die Diskussion über die naturwissenschaftliche Grundbildung unter dem Terminus "Scientific Literacy" geilihrt. Das Wort "Literacy" bedeutet dem Wortsinn nach die Fähigkeit, Lesen und Schreiben zu können. Allerdings schließt es im weiteren Sinne auch Aspekte einer umfassenden Bildung ein. Wenn von "Scientific Literacy" die Rede ist, geht es also nicht allein um die Beherrschung grundlegenden naturwissenschaftlichen Faktenwissens und grundlegender Fertigkeiten, sondern vor allem um die Nutzung dieses Wissens und dieser Fertigkeiten zum Verstehen und Erklären der naturwissenschaftlich geprägten Welt und der Teilnahme an Entscheidungen im gesellschaftlichen Raum. Im englischsprachigen Raum ist im Zusammenhang mit der Diskussion um die naturwissenschaftliche Bildung auch von "Public Understanding of Science" (PUS) oder "Public Understanding of Science and Humanities" (PUSH) die Rede. Dabei geht es ebenfalls um Aspekte eines naturwissenschaftlichen Grundverständnisses, das eben skizziert worden ist. Allerdings liegt der Schwerpunkt auf dem Verständnis von bzw. ilir Naturwissenschaften bei Erwachsenen und nicht der Schülerinnen und Schüler. Hinter diesen Ansätzen steht häufig das Bemühen der Fachwissenschaften und der Wirtschaft, ilir mehr Akzeptanz naturwissenschaftlicher Forschung und Technologie zu werben. Dies ist zum Beispiel bei einer deutschen Initiative zur Verstärkung des Dialogs zwischen Wissenschaft und Gesellschaft der Fall. Allerdings beruhen die Konzep-

172

Reinders Duit, Peter Häußler und Manfred Prenzel

tionen von PUS bzw. PUSH bisher nicht auf elaborierten und naturwissenschaftsdidaktisch begründeten Vorstellungen einer naturwissenschaftlichen Grundbildung.

Wissensbereiche und Stufen naturwissenschaftlicher Grundbildung Konzeptionen von naturwissenschaftlicher Grundbildung bzw. von Scientific Literacy unterscheiden die folgenden naturwissenschaftlichen Wissensbereiche: • Naturwissenschaftliche Begriffe und Prinzipien (Konzepte), • Naturwissenschaftliche Untersuchungsmethoden und Denkweisen (Prozesse), • Vorstellungen zur Natur der Naturwissenschaften, •

Vorstellungen und Einstellungen zur Relevanz der Naturwissenschaften in Gesellschaft und Technik.

Im deutschen naturwissenschaftlichen Unterricht hat bisher die Konzeptorientierung dominiert; die Vermittlung der tragenden Begriffe und Prinzipien stand im Zentrum. Die anderen Wissensbereiche kamen zwar ebenfalls zum Zuge, aber in der Regel weniger stark, als es dem Konzept der skizzierten naturwissenschaftlichen Grundbildung und den damit verbundenen Zielen entspricht. Die Konzeption einer naturwissenschaftlichen Grundbildung schließt eine große Anzahl von Kompetenzen auf sehr unterschiedlichen Anspruchsniveaus ein. Im kognitiven Bereich unterscheiden wir die folgenden Facetten von Leistungen: (A)

Wissen von Fakten, Konventionen und Benennungen,

(B)

Wissen von Begriffen und Prinzipien,

(C)

Verstehen von Zusammenhängen zwischen Begriffen und Prinzipien,

(D)

Verstehen von Zusammenhängen im gesellschaftlichen Raum,

(E)

Anwenden von naturwissenschaftlichen Begriffen und Prinzipien in einer problemhaltigen Situation,

(F)

Anwenden von naturwissenschaftlichen Untersuchungsmethoden und Denkweisen in einer problemhaltigen Situation,

(G)

Partizipation an Entscheidungen im gesellschaftlichen Raum sowie dem Wissen entsprechendes Handeln.

Prägnant zusammengefasst sind die vorstehend genannten Facetten und Aspekte in den folgenden vier Stufen von "Scientific Literacy", die Bybee (1997a) vorgeschlagen hat: Stufe (1) Fakten, Termini, Formeln sind bekannt; das Verstehen einer bestimmten Situation ist auf das Niveau naiver Theorien (von Schülervorstellungen) beschränkt. Stufe (2) Das naturwissenschaftliche Vokabular kann verwendet werden, dies ist aber nur bei bestimmten Aktivitäten oder zu bestimmten Zwecken möglich.

Naturwissenschaftliche Bildung

173

Stufe (3) Verstehen von Begriffen und Prozessen, Anwenden der Begriffe und Prozesse. Stufe (4) Verstehen der Natur der Naturwissenschaften, der Geschichte der Natmwissenschaften und der Bedeutung der Naturwissenschaften im gesellschaftlichen Raum (multidimensionales Verstehen). Die ersten beiden Stufen von Bybee beziehen sich ausschließlich aufnaturwissenschaftliche Begriffe und Prinzipien (Konzepte), auf der dritten Stufe treten naturwissenschaftliche Untersuchungsmethoden und Arbeitsweisen (Prozesse) hinzu. Erst die vierte Stufe schließt alle oben aufgefiihrten Wissensbereiche ein. In ähnlicher Weise treten von Stufe zu Stufe anspruchsvollere Facetten vom Wissen, über das Verstehen, zum Problemlösen und Anwenden sowie schließlich zum Handeln im gesellschaftlichen Raum hinzu. Dieses Stufenmodell stellt einen ersten theoretischen Entwurf für den Entwicklungsverlauf naturwissenschaftlicher Grundbildung dar, das empirisch noch geprüft werden muss. Betrachtet man die Ergebnisse von TIMSS und anderen Forschungsarbeiten, dann gelangt die in der Schule üblicherweise erreichte naturwissenschaftliche Bildung, vor allem in der Sekundarstufe I, kaum über die zweite Stufe von Bybee hinaus. Es sind also besondere Anstrengungen nötig, um die höheren Stufen naturwissenschaftlicher Grundbildung zu erreichen.

Kognitive und affektive Aspekte Zwar betonen Konzeptionen einer naturwissenschaftlichen Grundbildung vor allem kognitive Aspekte. Allerdings wird auch hervorgehoben, der naturwissenschaftliche Unterricht solle das Interesse an den Naturwissenschaften entwickeln, Neugier wecken und Freude bereiten. Weiterhin sollen die Schülerinnen und Schüler das Selbstvertrauen erwerben, Naturwissenschaften verstehen zu können. Nur auf dieser Grundlage kann sich die Bereitschaft entwickeln, sich über die gesamte Lebensspanne immer wieder ernsthaft mit naturwissenschaftlichen Fragen zu beschäftigen. Dies aber ist Voraussetzung, die naturwissenschaftlich-technisch geprägte Kultur zu verstehen und an ihr aktiv teilzunehmen.

Wie kann man die Vielfalt an naturwissenschaftlichen Kompetenzen und Leistungen messen? Im vorangehenden Abschnitt wurde verdeutlicht, dass naturwissenschaftliche Kompetenzen im Rahmenneuerer Vorstellungen naturwissenschaftlicher Grundbildung vielfaltige Facetten aufweisen. Diese Vielfalt setzt eine Palette von Erhebungsverfahren voraus. Die Forschung in der Naturwissenschaftsdidaktik und in der Pädagogischen Psy-

174

Reinders Duit, Peter Häußler und Manfred Prenzel

chologie hat in den letzten Jahren erheblich dazu beigetragen, das Spektrum von Testverfahren zu erweitern. Zum Teil wurden im Rahmen von empirischen Studien neue Erhebungstechniken entwickelt, zum Teil resultieren sie aus gezielten Untersuchungen zur Diagnostik von naturwissenschaftlichen Kompetenzen. In diesem Abschnitt werden die wichtigsten Testverfahren vorgestellt, die bei Untersuchungen zu Schülerleistungen oder im naturwissenschaftlichen Unterricht zur Lernfortschritts- und Leistungsbeurteilung eingesetzt werden können. Es liegt auf der Hand, dass bei einem wissenschaftlichen Einsatz sehr viel bessere Möglichkeiten fiir die Entwicklung objektiver, reliabler und valider Tests gegeben sind, im Vergleich zur Testentwicklung im Zusammenhang des alltäglichen Schulunterrichts. Auch wenn in der Schule den Gütekriterien der wissenschaftlichen Testentwicklung nur bedingt entsprochen werden kann, sollte doch die Besonderheit der zu erfassenden Kompetenz berücksichtigt werden, um den geeigneten Typ von Messverfahren auszuwählen. Dieser Abschnitt stellt fiinf solcher Erhebungszugänge vor. Betrachtet man die gerade angesprochenen Facetten naturwissenschaftlicher Leistungen, dann ist klar, dass insbesondere die höheren Kompetenzen (Stufen F/G) mit Leistungsmessungen in der Schule nicht einfach zu überprüfen sind. Hier können nur speziell arrangierte empirische Studien weiterhelfen - um zum Beispiel zu erkunden, welchen Nutzen die im Unterricht erworbenen Kompetenzen "im täglichen Leben" und im gesellschaftlichen Raum tatsächlich haben. Allerdings kann man sich bemühen, solche Situationen in den Aufgaben, die man vorlegt, zu simulieren. Die PISA-Tests gehen diesen Weg, indem "authentische" Texte oder Situationen vorgegeben werden und die Schülerinnen und Schüler aufgefordert werden, die Texte und Situationen zu erklären und zu interpretieren.

Aufgaben mit offenem Antwortformat Die im Unterricht nach wie vor gebräuchlichste Form der Lernfortschritts- und Leistungsmessung verwendet Aufgaben, die zu einer frei formulierten Antwort auffordern. Dieses sog. "offene" Antwortformat kann von einer nur aus einem Wort oder einem Symbol bestehenden Antwort bis zur freien Formulierung einer längeren Gedankenfiihrung oder der Ausarbeitung eines Lösungsweges reichen. Je nach der in der Aufgabe formulierten kognitiven Anforderung kann (mit gewissen Abstrichen) das ganze Kompetenz- und Leistungsspektrum der oben genannten Stufen A bis F erfasst werden. Für den Bereich G gelten allerdings die bereits erwähnten Einschränkungen. Aufgaben, in denen nur eine Kurzantwort verlangt wird, sind in ihrer Bandbreite natürlich eingeschränkter. Beispiele fiir entsprechende Aufgaben aus dem naturwissenschaftlichen Bereich sind in der nachfolgenden Abbildung dargestellt. Die Aufstellung gliedert sich nach Facetten von Leistungen. Abbildung 1 zeigt ein Beispiel aus der Mechanik und verdeutlicht die Unterschiede in den erwarteten Leistungen. Die Stufe G ist nicht berücksichtigt, allerdings enthält die

Naturwissenschaftliche Bildung

175

Aufgabe zur Stufe D Aspekte, die Hinweise auf mögliches Handeln im gesellschaftlichen Raum gibt.

A

Wissen von Fakten, Konventionen und Benennungen Gib eine Einheit an, in der Geschwindigkeiten gemessen werden können! (Erwartet wird eine Kurzantwort wie etwa cm/s oder Kilometer pro Stunde.)

B

Wissen von Begriffen und Prinzipien Beschreibe, was es bedeutet, wenn man sagt, dass sich ein Fahrzeug beschleunigt bewegt! (Erwartet wird eine kurze Aussage der Art, dass sich ein beschleunigtes Fahrzeug mit veränderlicher Geschwindigkeit bewegt.)

C

Verstehen von Zusammenhängen zwischen Begriffen und Prinzipien Erläutere und begründe, wovon die Verletzungsgefahr des Fahrers eines PKW hauptsächlich abhängt, wenn sein Wagen frontal gegen eine feste Mauer prallt! (Erwartet wird eine Darlegung, welche Bedeutung die Geschwindigkeit (Bewegungsenergie) des PKW für die Unfallfolgen hat und welche Rolle verschiedene Sicherheitsmaßnahmen (Knautschzone, Sitzgurt, Airbag) spielen, um die Kräfte auf den Körper des Fahrers zu reduzieren.)

D

Verstehen von Zusammenhängen im gesellschaftlichen Raum ln eurer Schule ist eine Kampagne zur Benutzung des Fahrradhelms gestartet worden. Mit welchen Mitteln und Aktionen würdest du deine Mit· schüler überzeugen wollen, einen Helm zu tragen? (Erwartet werden Vorschläge wie: ein Poster mit einer Statistik Ober Fahrradunfälle; Experimente zur Trägheit bewegter Körper; die Demonstration einer aus geringer Höhe auf den Asphalt fallenden Wassermelone und einer anderen durch einen Fahrradheim geschützten Melone, die heil bleibt.)

E

Anwenden von naturwissenschaftlichen Begriffen und Prizipien in einer problemhaltigen Situation Ein hart gekochtes Ei mit einer Masse von 60 g fällt aus einer Höhe von 50 cm auf eine Unterlage und hinterlässt auf dieser eine 2 mm tiefe Delle. Wie groß ist die auf das Ei im Moment des Eindellens wirkende Kraft? (Nimm an, dass die Abbremsung des Eis ganz gleichmäßig erfolgt!) (Die Antwort verlangt die Anwendung verschiedener Prinzipien der Mechanik, um zunächst die Geschwindigkeit kurz vor dem Aufprall, dann die als konstant anzunehmende Beschleunigung und schließlich die Kraft zu berechnen.)

F

Anwenden von naturwissenschaftlichen Untersuchungsmethoden und Denkweisen in einer problemhaltigen Situation Denke dir verschiedene Testreihen aus, in denen systematisch untersucht werden soll, unter welchen Bedingungen ein Ei zerbricht, wenn es auf eine Unterlage fällt! (Erwartet wird ein Plan in dem von den drei maßgeblichen Einflussgrößen - Fallhöhe, Material und Dicke der Unterlage- jeweils nur eine variiert wird.)

Abbildung 1: Verschiedene Aufgaben vom Typ "Freie Antwort", zu deren Lösung unterschiedliche Leistungen und Kompetenzen erforderlich sind

176

Reinders Duit, Peter Häußler und Manfred Prenzel

Die Aufgaben, die in Abbildung 1 gestellt werden, bedienen sich ausschließlich der Textform. Man kann aber auch Bilder oder Cartoons vorgeben bzw. Experimente vorfuhren und zu den dort dargestellten Situationen bzw. ablaufenden Vorgängen Erklärungen und Interpretationen verlangen. Gut geeignet ist dieses Format auch, die Schülerinnen und Schüler mit authentischen Problemen zu konfrontieren, um Anhaltspunkte dafiir zu gewinnen, wie sie im täglichen Leben naturwissenschaftlich-technische Phänomene oder Probleme erklären bzw. lösen. Schließlich sei erwähnt, dass sich auch die Antworten nicht auf die schriftliche Form beschränken müssen. Zeichnungen, Diagramme oder Skizzen können wichtige Einsichten in das Kompetenzspektrum der Lernenden geben. Die Auswerteobjektivität ist bei Aufgaben mit einem offenen Antwortformat naturgemäß geringer als bei Aufgaben mit vorformulierten Antworten. Um akzeptable Werte zu erhalten, ist zu empfehlen, vor der abschließenden Bewertung einen Erwartungshorizont in Form einer Musterlösung festzulegen (vgl. Abb. 1). Eine Variante der Aufgaben mit offenem Antwortformat sind mündliche Prüfungen. Wichtige Anregungen zu mündlichen Prüfungsaufgaben bietet die außerordentlich reichhaltige Forschungsliteratur zu Interviews über Schülervorstellungen (White & Gunstone, 1992). Dort gibt es Anregungen, wie über vorgegebene Bilder und Diagramme, über vorgefiihrte Experimente und Computersimulationen oder über im Unterricht behandelte Begriffe und Prinzipien so gesprochen werden kann, dass sich Einsichten in das Verständnis des Gesprächspartners ergeben.

Multiple-Choice- und Zuordnungsaufgaben Multiple-Choice-Aufgaben bestehen aus einem "Stamm", in dem die Aufgabenstellung beschrieben wird, und einer Reihe von vorformulierten Auswahlantworten, von denen in der Regel nur eine einzige zutreffend ist, während alle anderen falsch sind. Multiple-Choice-Aufgaben werden oft in ihrem Potenzial, kognitive Leistungen zu erfassen, unterschätzt. So könnten zum Beispiel die meisten Aufgaben in Abbildung 1 auch in diesem Antwortformat gestellt werden. In internationalen Vergleichsstudien (wie TIMSS) spielen Multiple-Choice-Aufgaben in der Regel eine wichtige Rolle, weil es mit ihnen möglich ist, effektiv Wissen und die Fähigkeit, es anzuwenden zu überprüfen. In der Schulpraxis werden sie bei uns seltener verwendet. Das liegt sicher daran, dass es fiir die Lehrkraft schwierig ist, gute Multiple-Choice-Aufgaben zu konstruieren und dass brauchbare Sammlungen erprobter Aufgaben nur sehr eingeschränkt zur Verfügung stehen. Da bei der Auswertung allenfalls Flüchtigkeitsfehler vorkommen, ist die Auswerteobjektivität im Allgemeinen sehr gut. Die Schwierigkeit, eine gute Multiple-ChoiceAufgabe zu konstruieren, liegt darin, Auswahlantworten zu finden, die sich nicht schon dadurch verraten, dass sie entweder absurd sind oder auf Grund eines anderen als naturwissenschaftlichen Wissens ausgeschlossen werden können. Die Zuverlässigkeit eines Multiple-Choice-Tests leidet darunter, dass die richtigen Antworten geraten werden

Naturwissenschaftliche Bildung

177

können. Sie kann durch Hinzumgen weiterer Antwortmöglichkeiten, durch den Zusatz "Begründe deine Wahl" und durch Hinzunahme weiterer Aufgaben verbessert werden. Letzteres kann besonders ökonomisch geschehen, wenn man fiir den gleichen Stammtext mehrere Items formuliert. Bei Zuordnungsaufgaben muss beurteilt werden, welche Begriffe zu einem Satz von Aussagen passen. Dieser Aufgabentyp ist deshalb besonders geeignet, Wissen und Verstehen von Begriffen und Prinzipien (Leistungen B und C) zu messen.

Begriffsnetze (Concept Map) Ein Begriffsnetz (concept map) ist eine graphische Darstellung mit Knoten, die Begriffe darstellen, Verbindungen zwischen den Knoten, die Beziehungen zwischen einem Begriffspaar repräsentieren, und Beschriftungen der Verbindungslinien, die die Art dieser Beziehung spezifizieren. Ein Beispiel zeigt Abbildung 2. Die in den Ellipsen stehenden Begriffe (wie Atome, Plastik, Metalle) wurden vorgegeben; die Schüler wurden gebeten, diese Begriffe sinnvoll zu einem Netz zu ergänzen. Ist aufden Verbindungslinien kein Verb angegeben, so sind die angedeuteten Zusammenhänge durch das Verb "sind" zu ergänzen. Die Verbindung zwischen "Atome" und "Metalle" ist also so zu lesen: Atome sind in Metallen. Dieses Begriffsnetz gibt nahezu perfekt die physikalischen Zusammenhänge wieder. Es wurde in Anlehnung an real entwickelte Netze von Schülerinnen und Schüler konstruiert. Ist Schülerinnen und Schülern die Technik der Begriffsnetze erst einmal geläufig, sind sie ein gutes Mittel, die Begriffsstruktur in einem bestimmten thematischen Bereich zu erfassen. Unterschiedliche pädagogische Absichten können damit verfolgt werden, z. B. etwas darüber herauszufinden, • wie die Begriffsstruktur vor dem Unterricht ist (dann wird man sich damit begnügen, nur wenige, nach Möglichkeit zumindest umgangsprachlich vertraute Begriffe vorzugeben), • ob Begriffe, um deren Unterscheidung man sich im Unterricht bemüht hat, hinreichend diskriminiert werden (diese Begriffe werden dann vorgegeben), • welche Begriffe als Schlüsselbegriffe eines größeren inhaltlichen Bereichs identifiziert werden (dann wird man natürlich überhaupt keine Begriffe oder einen unvollständigen Satz an Begriffen vorgeben und die Aufgabe besteht in der Identifizierung der Schlüsselbegriffe und ihrer Beziehungen zueinander), •

wie eine Gruppe von Schülern einen inhaltlichen Bereich strukturiert (dann lässt man das Netz von einer Schülergruppe entwickeln, was erfahrungsgemäß ein guter Anlass ist, über Unklarheiten zu diskutieren).

Anzahl und Allgemessenheit der in einem Begriffsnetz enthaltenen Begriffe und Vernetzungen können als Maß fiir die erreichte Komplexität dieser Struktur angesehen werden. Wenn man in einem Auswerteschlüssel vorab festlegt, was man als zufrieden stellende Formulierung akzeptiert, ist das Verfahren auch ausreichend objektiv.

178

Reinders Duit, Peter Häußler und Manfred Prenzel

/

l

.lß/

'"

;. ortsfest in

ermöglicht keinen

\

I

beweglich in ermö&lichen keme

ermöglicht

ermöglichen

unterscheiden sich in der Beweglichkeit ihrer Elektronen Abbildung 2: Ein Begriffsnetz zum Thema "Elektrostatik" (aus Häußler et al., 1998, S. 80)

Begriffsnetze sind gewissermaßen maßgeschneidert für die Untersuchung des V erstehens von Zusammenhängen zwischen Begriffen und Prinzipien, also für die oben genannte Stufe C von Kompetenzen. Die Methode liefert aber auch Informationen zum Verstehen von Zusammenhängen im gesellschaftlichen Raum (Stufe D), wenn über die Naturwissenschaften im engeren Sinn hinausgehende Begriffe vorgegeben werden oder wenn die Lernenden aufgefordert werden, in ihren Netzen auch die Bedeutung der Begriffe und Prinzipien für die Erklärung des "Alltags" zu berücksichtigen. Darüber hinaus haben sich die Netze sehr bewährt, Wissen über Begriffe und Prinzipien (Stufe 3) zu untersuchen. Ein Begriffsnetz gibt der Lehrkraft in aller Regel einen guten Überblick über die Vorstellungen der Lernenden in einem Inhaltsbereich. Während sich Konstruktionen von Begriffsnetzen als effektives Verfahren für die Diagnostik im Unterricht erwiesen haben, sind sie für nationale wie internationale Vergleichsstudien weniger geeignet, weil die Auswertung der Netze für diese Zwecke sehr aufwendig ist.

Sammeln von Leistungsnachweisen (Portfoliomethode) Wie junge Künstler auch heute noch ihr "Portfolio" (ihre "Mappe") mit ihren überzeugendsten Arbeiten zusammenstellen und damit z. B. gegenüber dem Aufnahmegremium einer Kunstakademie ihr künstlerisches Können dokumentieren, so sollen die Lernenden bei dieser Methode überzeugende Nachweise beibringen, dass sie das zu Lernende beherrschen. Sie sammeln im Laufe der Zeit kleinere oder größere Arbeiten zu den im

Naturwissenschaftliche Bildung

179

Unterricht behandelten naturwissenschaftlichen Themen in einem Ordner. Das setzt zweierlei voraus: Den Lernenden müssen die Lernziele bekannt sein, und sie müssen Klarheit darüber haben, was als Nachweis dafür angesehen wird, dass sie ein Lernziel erreicht haben. Was sie dann an Material zusammentragen, ist ihnen weitgehend freigestellt und hängt von ihren individuellen Neigungen, ihrer Kreativität und ihrem Vermögen ab, das Gelernte in einer Form zu präsentieren, die originell, authentisch und überzeugend ist. Ausschlaggebend ist die Qualität der Beiträge, nicht die Menge. Da die Lernenden eine gewisse Freiheit in der Auswahl der Leistungsnachweise haben, ist die Portfoliomethode in besonderer Weise geeignet, Hinweise aufihre Fähigkeit zu erhalten, im Unterricht erworbene Kompetenzen auch in außerschulischen Situationen anzuwenden. Die Portfoliomethode ist also bestens geeignet, Informationen zu den "höheren" kognitiven Leistungen auf den genannten Stufen D bis G zu erhalten. Für die in Abbildung 1 angesprochene Thematik könnte die Anregung zu einem entsprechenden Portfolio etwa so wie in Abbildung 3 aussehen.

Wir werden uns in den nächsten Wochen ausführlich mit folgenden Themen beschäftigen: ( 1)

Maßnahmen zur Verminderung der bei einem Unfall auf den Körper wirkenden Kräfte (Schutzhelm, Knautschzonen, Airbag),

(2)

Maßnahmen zum Festhalten der Fahrgäste auf ihren Sitzen (Sitzgurte, Kopfstützen),

(3)

Verhaltensregeln zur Verminderung des Unfallrisikos (Bremsweg richtig einschätzen, Fahren bei Nässe und in der Kurve).

Für alle drei Themen sollt ihr in eurem Portfolio nach und nach Belegstücke sammeln. Ihr könntet z. B. zu Hause Crashtests mit hart gekochten Eiern durchführen, die Zeit berechnen, die bei einer bestimmten Geschwindigkeit zwischen Aufprall und Airbagentfaltung höchstens vergehen darf, Situationen beschreiben, bei denen Trägheit eine Rolle spielt, erörtern, wozu Sitzgurte und Kopfstützen gut sind, eure "Schrecksekunde" messen, Bremsversuche mit dem eigenen Fahrrad durchführen, euch überlegen, was alles anders wäre, wenn es keine Reibung gäbe, und alles andere, was zu den drei Themen einen sinnvollen Beitrag macht. Als Belege gelten: Eure Erklärungen, was physikalisch los ist, Berechnungen, Zeichnungen, Fotografien und alles andere, was in eure Mappe passt. Viel Spaß dabei!

Abbildung 3: Skizze für das Anlegen eines Portfolios zum Thema "Verkehrssicherheit"

180

Reinders Duit, Peter Häußler und Manfred Prenzel

In der Literatur werden folgende Vorzüge der Portfoliomethode hervorgehoben: Die Bewertung .... • fußt auf Beiträgen, die über einen längeren Zeitraum entstanden sind, so dass Entwicklungen sichtbar werden können, • ist weniger punktuell als andere Verfahren, indem sie sich auf über viele Einzeldokumente gestreute Leistungsnachweise gründet, • lässt dem Bewerteten viel Freiraum zur individuellen Gestaltung und gibt ihm eine faire Chance, seine Stärken zu zeigen, • minimiert Prüfungsangst Erfahrungen mit der Portfoliomethode liegen vor allem aus den USA vor, wo sie viele Anhänger in allen Schulstufen gefunden hat. Forschungsergebnisse deuten daraufhin, dass Schülerinnen und Schüler diese Methode mögen und mehr Zeit als üblich außerhalb der Schule verbringen, in der sie sich mit naturwissenschaftlichen Fragestellungen beschäftigen. Viele erfasst ein ausgesprochener "Sammler- und Jägertrieb", wobei ihre Beiträge eine Tendenz haben, naturwissenschaftliche Prinzipien aufpersönliche Erfahrungen aus ihrem Alltagsleben anzuwenden. Die Portfolio-Methode ist auch geeignet, die Eigenverantwortung für den Lernprozess zu stärken. Befürchtungen, dass sie darüber den "harten Kern" der Naturwissenschaften weniger ernst nehmen könnten, sind offenbar unbegründet. Ein Vergleich mit anderen Lerngruppen, die mit traditionellen Testaufgaben bewertet wurden, ergab keine signifikanten Unterschiede in einem abschließenden "harten" Test. Einschränkend soll angemerkt werden, dass auch dieses Verfahren anfällig gegenüber einer verzerrten Wahrnehmung seitens der Lehrkraft sein kann. Hat sich erst einmal die Meinung gebildet, dass Schüler X ein Ass ist, dann könnte sogar ein schludrig geführtes Portfolio als weiteres Indiz für seine Begabung gewertet werden, hat er es doch einfach nicht nötig, durch Fleiß zu glänzen; und umgekehrt liefert Schülerin Y ein reichhaltiges Portfolio ab, so könnte das u.U. gerade als Beweis ausgelegt werden, dass sie mangelnde Begabung durch Fleiß und Sorgfalt auszugleichen sucht. Um solche Fehlurteile zu vermeiden, könnte die Bewertung eines Portfolios den Schülerinnen und Schülern selbst übertragen werden. In den meisten Fällen haben sie nämlich ein ausgezeichnetes Sensorium für die eigene Leistung im Vergleich zu den Leistungen anderer.

Experimentaltests In den oben beschriebenen Ansätzen einer naturwissenschaftlichen Grundbildung wird betont, dass es nicht so sehr darauf ankommt, was eine Person weiß, sondern vielmehr darauf, was sie mit diesem Wissen in einer bestimmten Situation anfangen kann. Nicht das Wissen, wie etwas ist, sondern das Wissen, wie etwas anzuwenden ist, sei das Entscheidende. Bei einer darauf Bezug nehmenden Leistungsmessung wird dazu aufgefordert, eigenständig die Planung, Durchfiihrung, Protokollierung und Interpretation

Naturwissenschaftliche

181

einer Untersuchung durchzuführen, um eine Hypothese zu prüfen oder ein Problem zu lösen. Im englischsprachigen Raum wird das hier "Experimentaltest" genannte V erfahren "performance test" genannt. In der Psychologie ist es üblich, diesen Terminus in die deutsche Sprache zu übernehmen und von einem "Performanztest" zu sprechen. Ein solcher Test besteht aus: (a) (b)

(c)

Der Problemstellung, deren Lösung den Umgang mit konkreten (ersatzweise computersimulierten) Materialien erfordert, einem Antwortformat, in dem bestimmte Anforderungen (z. B. den Lösungsplan darzulegen, die Untersuchung zu protokollieren, die Ergebnisse in einem Graphen darzustellen o. Ä.) festgelegt sind und aus einem Auswerteschlüssel, mit dem z. B. die Plausibilität und wissenschaftliche Haltbarkeit des Lösungswegs oder die Genauigkeit der erzielten Ergebnisse bewertet werden kann.

Shavelson und Ruiz-Primo (1999) beschreiben mehrere solcher Tests. Sie weisen darauf hin, dass ein relativ großer Aufwand erforderlich ist, um eine befriedigende Objektivität und Zuverlässigkeit zu erzielen: Die Beurteiler müssen trainiert werden und die Anzahl der Aufgaben muss relativ hoch sein. Sie geben eine Testzeit von mindestens zwei Stunden pro Schüler an. Im Rahmen von TIMSS hat es in einigen Ländern (allerdings nicht in Deutschland) einen solchen Test gegeben, um die Vertrautheit der Schülerinnen und Schüler mit naturwissenschaftlichen Untersuchungsmethoden zu untersuchen (Ergebnisse aus der Deutschschweiz s. in Labudde & Stehler, 1999). Angesichts des hohen Aufwands weisen einige Autoren daraufhin, dass ein Experimentaltest mit Realobjekten oft keine zusätzlichen Informationen gegenüber einem sorgfältig konstruierten Papier- und Bleistifttest liefert. Dem ist allerdings entgegen zu halten, dass der tatsächliche Umgang mit Geräten und Experimenten nur mit einem solchen Test geprüft werden kann. Er hat also seinen Schwerpunkt und seine Vorzüge im Bereich der Anwendung naturwissenschaftlicher Untersuchungsmethoden und Denkweisen (Kompetenzen auf der Stufe F). Er gibt dadurch auch Auskunft über Problemlösen und Anwenden von naturwissenschaftlichen Begriffen und Prinzipien (Stufe E).

Zusammenfassung und Bandbreite der Messverfahren für den kognitiven Bereich Eine detaillierte Übersicht über diejeweilige Bandbreite der einzelnen V erfahren gibt Tabelle 1. Die in den vorangegangenen Abschnitten vorgestellten Verfahren erlauben die Messung unterschiedlicher naturwissenschaftlicher Kompetenzen und Leistungen, die für eine naturwissenschaftliche Grundbildung zentral sind. Während Aufgaben mit offenem Antwortformat und Multiple-Choice-Aufgaben ein relativ breites Spektrum abdecken, ist die Domäne der übrigen Verfahren eingeschränkter: Begriffsnetze sind maßgeschnei-

182

Reinders Duit, Peter Häußler und Manfred Prenzel

dert ftir die Erfassung des Verstehens von Zusammenhängen. Die Portfolio-Methode gibt Auskunft darüber, inwiefern die Lernziele erreicht wurden und das Gelernte auf neue Situationen angewandt werden kann. Experimentaltests schließlich beziehen sich auf die Fähigkeit, ein gegebenes Problem mit Realobjekten zu lösen.

Tabelle 1: Bandbreite der verschiedenen Messverfahren. ! Wissen

A

Kurzantwort geben

Fakten

B Begriffe Prinzipien

+

0

c

zwischen Begriffen

D im gesell. Raum

E Begriffe und Prinzipien

+

Freie Antwort entwickeln

+

i

Partizipationim gesellsch. Raum

F Methoden Denkweisen

G Partizipaüon Handeln

0

0

I

!

Multiple Choice, Zuordnen

i

+

0

0

0

!

+

+

+

+

+

0

i

0

+

0

0

0

+

+

+

+

+

+

! ;

Begriffsnetz erzeugen Portfoliomethode Experimentaltest

I

Problemlösen und Anwenden

Verstehen von Zusammenhängen

0 j i

+: geeignet; 0 : bedingt geeignet; freie Felder: ungeeignet.

Messverfahren im affektiven Bereich Um die anspruchsvollen Ziele der skizzierten naturwissenschaftlichen Grundbildung zu erreichen, spielen affektive Aspekte eine entscheidende Rolle. Dabei geht es vor allem um Einstellungen zu bestimmten Objekten und Themen, um das Vertrauen in das eigene Leistungsvermögen sowie um Interessen und Emotionen. Die Messung affektiver Aspekte erweist sich im Vergleich zu der kognitiver Leistungen insofern als schwieriger, als sich diese einer direkten Beobachtung entziehen und aus beobachtbarem Verhalten erst erschlossen werden müssen. Die Ergebnisse solcher Verfahren müssen deshalb mit Vorsicht interpretiert werden. Sie geben der Lehrkraft Hinweise zu bestimmten affektiven Aspekten, nicht mehr. Man sollte sie im Allgemeinen nur ftir die Bewertung des Unterrichts, nicht aber fUr die Beurteilung des Erreichens affektiver Lernziele beim einzelnen Schüler einsetzen.

183

Naturwissenschaftliche Bildung

Messverfahren im affektiven Bereich können danach unterschieden werden, welchen Grad an Freiheit sie dem Befragten in seiner Reaktion auf eine bestimmte Vorgabe zugestehen. Am weitesten verbreitet sind geschlossene Verfahren, in denen die Reaktion auf das Ankreuzen einer mehrstufigen Skala eingeschränkt ist. Tabelle 2 zeigt ein typisches Beispiel. Auch die meisten Interessenskalen (großes bis geringes Interesse an einem spezifizierten Interessengegenstand) und Einstellungsskalen (Aussagen zu einem spezifizierten Einstellungsobjekt kann man zustimmen oder ablehnen) sind so aufgebaut. Eine Reihe von Beispielen findet man bei Häußler et al. (1998).

Tabelle 2: Skala zur Erfassung des Vertrauens, im Fach Physik etwas leisten zu können gut

sehr gut

Ich verstehe den Stoff in Physik .... Ich behalte den Stoff in Physik ....

i

i !

i

! schlecht

I

j

' schlecht

i

i

sehr

i

!

Meine Leistungen in Physik sind nach meiner eigenen Einschätzung ....

:

Ich beteilige mich am Physikunterricht

;I

Ich glaube, dass mich die anderen in

!

______ Ich glaube, dass mein Physiklehrer I :neine mei_ne Leistungen 1n Physik als ....... einschätzt . 1 1

Ich erwarte, dass in Zukunft meine Leistungen in Physik ....... sein werden

i

mittel

!

! ;

i I

,

i

·

i

.

!-------·

i,i

1

;

Verfahren mit offenem Antwortformat sind so genannte projektive Tests, bei denen die Befragten, ihre Gefühle, Meinungen oder auch Kenntnisse auf eine in einem Bild oder einer Geschichte vorgestellten Person projizieren können. Es wird zum Beispiel eine Geschichte angefangen und mit der Aufforderung abgebrochen, sie zu Ende zu erzählen. Dabei können dann sowohl affektive als auch kognitive Aspekte zum Ausdruck gebracht sowie Handlungen beschrieben werden, die in der geschilderten Situation ftir angemessen gehalten werden. Das ist ein Vorteil gegenüber den geschlossenen Antwortformaten. Es ist aber auch nicht zu übersehen, worin die Schwächen liegen. Aus dem Weglassen von Sachinformationen zu der beschriebenen Situation kann ebenso wenig auf Unkenntnis geschlossen werden, wie aus dem Nichterwähnen einer konkreten Handlung gefolgert werden kann, dass die befragte Person sich nicht angemessen

184

Reinders Duit, Peter Häußler und Manfred Prenzel

verhalten würde. Trotzdem erhält man u.U. wertvolle Informationen darüber, woran die Schülerinnen und Schüler einer Klasse hauptsächlich denken, wenn ihnen nach einem bestimmten Unterrichtsabschnitt ein auf den Unterricht bezogener Test dieser Art vorgelegt wird.

Leistungsmessung im naturwissenschaftlichen Unterricht - vielfältige Möglichkeiten und Zwecke Um das vorgestellte Konzept naturwissenschaftlicher Grundbildung bzw. von Scientific Literacy in die Tat umzusetzen, gibt es weltweit eine Reihe von Projekten zur Revision und Weiterentwicklung des bisherigen naturwissenschaftlichen Unterrichts. In Deutschland ist hier das BLK-Modellversuchsprogramm "Steigerung der Effizienz des mathematisch-naturwissenschaftlichen Unterrichts" zu nennen, an dem 180 Schulen teilnehmen (Prenzel, 2000). In allen diesen Vorhaben spielt die Leistungsmessung eine zentrale Rolle. Dabei knüpft man an Forschungsergebnisse an, die besagen, dass nur das den Schülerinnen und Schüler als lernenswert erscheint, das auch im Unterricht geprüft wird. Eine zusammenfassende Analyse von über 200 Studien zum Einfluss von Prüfungsaufgaben zeigte nämlich einen deutlichen Zusammenhang zwischen der Art von Aufgaben, mit denen der Lernerfolg überprüft wurde und dem Lernverhalten: Wenn überwiegend Tatsachenwissen abgefragt wurde, lernte man bevorzugt auswendig, ging es aber um eine problemorientierte Anwendung des Wissens, provozierte das eine ganz andere, nämlich um Verständnis der Zusammenhänge bemühte Art der Vorbereitung. Die Vielfalt der Ziele des naturwissenschaftlichen Unterrichts für die Zukunft erfordert also eine entsprechende Vielfalt auf Seiten der Leistungsmessung. Sollen Anhaltspunkte dafür gewonnen werden, ob die Schülerinnen und Schüler das im Unterricht erworbene Wissen tatsächlich anwenden können, um zum Beispiel an der gesellschaftlichen Diskussion über Naturwissenschaften und Technik teilzunehmen, so muss dies in Aufgaben und Tests vorkommen. Selbstverständlich lassen sich mit solchen "authentischen" Aufgaben, Fragestellungen und Handlungsmöglichkeiten lediglich Anhaltspunkte für im "richtigen Leben" stattfindende Anwendungen und Handlungen (z. B. umweltgerechtes Verhalten) gewinnen. Die beschriebene Portfoliomethode erscheint im besonderen Maße geeignet, darüber Auskunft zu geben. Insgesamt gesehen, bieten die beschriebenen Verfahren Möglichkeiten fiir die Beurteilung der einzelnen Schülerinnen und Schüler, die auch anspruchsvollen Zielen des Unterrichts gerecht wird. In den Programmen zur Weiterentwicklung des naturwissenschaftlichen Unterrichts spielt die Leistungsmessung im Dienste der Unterstützung der Lernprozesse ebenfalls eine wichtige Rolle. Die Unterrichtsforschung hat klar gezeigt, dass erfolgreiches Lernen von den vorunterrichtlichen Vorstellungen, Erfahrungen und Interessen der Lernenden ausgehen muss und dass die weiteren Lernprozesse nachhaltig unterstützt werden

Naturwissenschaftliche Bildung

185

müssen. Die von uns vorgestellten oder erwähnten Methoden erlauben es, die Eingangsvoraussetzungen effektiv zu bestimmen und die sich anschließenden Fortschritte des Lernens zu begleiten. In der Regellässt sich die Leistungsmessung zum Zwecke der Unterstützung des Lernens zwanglos in den Unterricht integrieren. Das Lösen einer Aufgabe, das Zeichnen eines Begriffsnetzes, das Beantworten einer Frage und dgl. sind Lerngelegenheiten. Verfahren, die zur Leistungsmessung entwickelt worden sind, lassen sich- mit gewissen Veränderungen- auch als Lernmethoden einsetzen. Die Vielfalt der vorgestellten V erfahren erlaubt also auch einen vielfaltigen Unterricht. Begriffsnetze geben Einsicht, wie ein bestimmter Begriff oder ein Phänomen von den Lernenden gesehen wird. Die Entwicklung der Netze im Verlaufe des Unterrichts lässt den Lernfortschritt einfach und effektiv erkennen. Damit wird es möglich, das Lernen individuell zu fördern. Portfolios sind in geradezu idealer Weise geeignet, Lernfortschritte über längere Zeit deutlich zu machen. Experimentaltests, also Tests, in denen Untersuchungen geplant und durchgeführt werden, geben Auskunft über das begriffliche Wissen und über die Einsicht der Lernenden in naturwissenschaftliche Untersuchungsmethoden und Denkweisen. Ein wichtiger Gesichtspunkt, der auch im oben genannten BLK-Modellversuchsprogramm "Steigerung der Effizienz des mathematisch-naturwissenschaftlichen Unterrichts" eine zentrale Rolle spielt, soll abschließend hervorgehoben werden. Fehler, die beim Lösen von Aufgaben im Unterricht, beim Erklären eines Versuchs und dgl. gemacht werden, sind Lerngelegenheiten. Sie geben der Lehrkraft zugleich Informationen zu den Lernprozessen der Schülerinnen und Schüler.

Leistungsmessung im Dienste der Qualitätsentwicklung Vielfaltige Kompetenzen sind nötig, wenn die Anforderungen einer durch Naturwissenschaften und Technik bestimmten Zukunft bewältigt werden sollen. Der heutige naturwissenschaftliche Unterricht in der Schule scheint nur in eingeschränktem Maße in der Lage zu sein, eine naturwissenschaftliche Grundbildung zu vermitteln, die diesen Anforderungen gerecht wird. Dieser Unterricht muss also revidiert und weiter entwickelt werden. Forschungsarbeiten zu den vielfältigen Aspekten von "Schulleistung" im naturwissenschaftlichen Bereich stellen einen Wissenstand bereit, der es erlaubt, solchen effektiveren naturwissenschaftlichen Unterricht zu entwickeln und zu evaluieren (s. Häußler et. al., 1998). In den neuen Ansätzen wiederum hat die fortlaufende Erfassung von kognitiven und affektiven Kompetenzen eine Schlüsselrolle. Nur so ist es möglich, die Lernprozesse der Schülerinnen und Schüler nachhaltig zu unterstützen. Groß angelegte Vergleichsstudien im nationalen wie internationalen Raum, wie TIMSS und PISA, erlauben es, das Erreichte über das enge Blickfeld des betreffenden Landes hinaus zu bewerten. In einem Satz zusammengefasst: Die Erfassung vielfältiger Kompetenzen unserer Schülerinnen und Schüler im naturwissenschaftlichen Unterricht ist der Dreh- und Angelpunkt von Bemühungen zur Verbesserung des bisherigen Unterrichts.

Powered by TCPDF (www.tcpdf.org)

KAPITEL 13

Schulleistungen im moralisch-wertbildenden Lernbereich Das Beispiel Lebensgestaltung-Ethik-Religionskunde (LER) in Brandenburg

Sabine Gruehn und Kai Schnabel

Eine gängige Kritik an Schulleistungsstudien wie TIMSS lautet, dass in solchen Untersuchungen der Begriff "Schulleistung" zu einseitig auf den Aspekt des Erwerbs von Fachwissen eingeengt sei und damit den vielfältigen Zielen von Schule nicht gerecht werde. Schule habe nicht nur die Aufgabe, Fachwissen zu vermitteln, sondern solle auch zum Erwerb von Kompetenzen wie Urteils- und Kritikfähigkeit, Toleranz oder Kooperationsbereitschaft beitragen, die die Heranwachsenden zu einer verantwortungsbewussten und mündigen Auseinandersetzung mit den Anforderungen des sozialen und kulturellen Lebens befähigen. Nicht zuletzt in den Rahmenrichtlinien und Schulgesetzen der einzelnen Bundesländer ist dieses Aufgabenverständnis von Schule verankert und entspricht zudem der von der Mehrheit der Deutschen geteilten Erwartungen an diese Institution. Auch wenn sich dieser umfassende Erziehungs- und Bildungsauftrag der Schule prinzipiell fächerübergreifend versteht, so besteht doch fiir einige Fächer eine besonders herausgehobene Verpflichtung aufdiesen Erziehungsauftrag. Zu diesen Fächern gehören etwa die Bereiche der politischen und historischen Bildung, die Religion und ihr säkulares Äquivalent Ethik, aber auch Fächer des musisch-ästhetischen Lernbereichs. Diesen Fächern gerneinsam ist, dass sie weniger an den korrespondierenden wissenschaftlichen Disziplinen - sofern eine solche Zuordnung möglich ist - ausgerichtet sind, wie dies beispielsweise für die mathematisch-naturwissenschaftlichen Fächer gilt. Vielmehr orientieren sie sich an Fragen der Alltagsbewältigung sowie zukünftigen Lebensgestaltung von Kindern und Jugendlichen, deren Bearbeitung zu einer vertieften Reflexion über Wertvorstellungen und Normen sowie Traditionen der Welt- und Sinndeutung beiträgt und Handlungsoptionen für moralisch-ethische Entscheidungssituationen eröffnet. Damit dienen diese Lernbereiche in viel stärkerem Maße der Wertebildung und Werteintegration als die wissenschaftsbezogenen Fächer, in denen primär das Erlernen der Wissenschaften selbst, ihrer grundlegenden Prinzipien und Wissensbestände den Unterrichtsgegenstand bilden.

188

Sabine Gruehn und Kai Schnabel

Die lebensweltliche Orientierung führt notwendigerweise zu einer anderen Gewichtung der Lernziele. In den wertebildenden Fächern steht weniger der fachliche Wissenserwerb im Zentrum- obwohl auch dieser dort einen wichtigen Ort hat-, als vielmehr Lernprozesse, die zur Entwicklung von argumentativen Fähigkeiten, von Empathie, von Kompetenz zur Perspektivenübernah.me, emotionaler Ausdrucksfahigkeit, sozio-moralischer Urteilskompetenz sowie prosozialen und toleranten Verhaltens beitragen. Wie diese Lernprozesse im Einzelnen aussehen können, soll anhand des brandenburgischen Unterrichtsfachs Lebensgestaltung-Ethik-Religionskunde (LER) aufgezeigt werden, das durch seine programmatische Konzeption als wertebildendes Fach in besonderer Weise diesen Lernzielen verpflichtet ist (für eine umfassende Darstellung zu LER vgl. Edelstein u. a., in Vorb.).

Rechtlicher Status und Konzeption von LER Im Jahr 1996 wurde vom Brandenburgischen Landtag beschlossen, das Fach LER als verpflichtendes Schulfach für die Jahrgangsstufen 7 bis 10 schrittweise, d. h. in Abhängigkeit von der Verfügbarkeit qualifizierter Lehrkräfte, an den allgemeinbildenden Schulen des Landes einzuführen. Dieser gesetzlichen Verankerung eines neuen Schulfachs ging eine dreijährige Erprobungsphase im Rahmen eines Modellversuchs voraus, an dem 44 Sekundarschulen beteiligt waren (Leschinsky, 1996; Leschinsky & Schnabel, 1996). Seither ist die Zahl der Schulen, die LER eingeführt haben, auf 340 im Schuljahr 1999/2000 angestiegen und entspricht damit 68% aller brandenburgischen Sekundarschulen. Die schrittweise Einführung sieht jedoch vor, dass mit dem Unterricht zunächst nur in der 7. Jahrgangsstufe einer Schule begonnen wird. Mit dem Fortschreiten dieses Jahrgangs in die höheren Klassenstufen wird der LER-Unterricht entsprechend auf die anderen Jahrgänge ausgedehnt. Frühestens im vierten Jahr nach der Einführung erhalten alle Jahrgangsstufen einer Schule den Unterricht im Fach LER. An zahlreichen Schulen findet jedoch eine Ausweitung des Fachs auf die Jahrgangsstufen 9 und 10 mangels qualifizierter Lehrkräfte nicht statt. In diesen Fällen bleibt der LERUnterricht auf die Jahrgangsstufen 7 und 8 beschränkt. Die Einführung eines allein vom Staat verantworteten, moralisch-wertbildenden Pflichtfachs stellt eine schulpolitische Antwort auf die besondere Situation Brandenburgs dar, in der nur etwa 20 % der Jugendlichen einer Religionsgemeinschaft angehören, d. h. nur noch eine Minderheit der Schüler durch den schulischen (konfessionellen) Religionsunterricht erreicht wird. Auf die in den anderen Bundesländern übliche Wahlpflichtlösung mit einem verbindlichen Lehrfach Religion, das in der Regel von den beiden Kirchen angeboten wird, und einem staatlichen Ersatzfach Ethik wurde daher verzichtet, wenngleich hierfür auch noch andere Gründe maßgeblich waren. Um dennoch dem Phänomen Religion und seiner Bedeutung im menschlichen Leben im schulischem Fächerkanon einen festen Platz zu geben, wurden religionskundliehe Inhalte zum konstitutiven Bestandteil des Unterrichtskonzepts von LER. Mit dem parallelen fakultativen Angebot eines konfessionellen Religionsunterrichts in der Schule wurde LER von dem Anspruch befreit, den Religionsunterricht ersetzen zu sollen - eine Entlastung, die auch eine stärker religionswissenschaftliche Fundierung religiöser Themen erlaubte.

Moralisch-wertbildender Bereich

189

Die Kombination dreier unterschiedlicher Elemente im Namen des neuen Schulfachs definiert auch sein Programm: Die Verbindung der Komponenten Lebensgestaltung, Ethik und Religionskunde in einem fiir alle Schüler verbindlichen Schulfach verfolgt ein doppelt integratives Konzept, da es a) alle Schüler ungeachtet ihrer konfessionellen (Nicht-)Bindung einbezieht und b) ausgehend von jugendtypischen Grundproblemen lebensgestalterische, ethische und religionskundliehe Fragestellungen innerhalb eines Faches behandelt. Im Mittelpunkt stehenjugendspezifische soziale und psychologische Probleme, an denen Sinnfragen erschlossen, Werte geklärt oder die moralische Urteilskraft entwickelt werden sollen. Je nach Verlauf der Diskussion und den inhaltlichen Präferenzen der beteiligten Diskussionspartner können Themen wie Freundschaft und Liebe, Glück und Leid, Sucht und Gewalt sowohl am Beispiel der eigenen Lebensformen und -erfahrungen (L), unter dem Aspekt normativ wünschenswerter Verhaltensweisen und der Frage nach dem "guten Leben" (E) als auch unter existentiellen Gesichtspunkten hinsichtlich ihrer religiös/weltanschaulichen Bedeutungsinhalte (R) bearbeitet werden. Je nach thematischer Schwerpunktsetzung stehen unterschiedliche Lernziele im Vordergrund: In dem einen Fall dient der Unterricht dem Erwerb von Wissen über Bräuche, Riten und grundlegende Denkfiguren in einzelnen Religionen, im anderen Fall der Wertklärung sowie der Entwicklung der moralischen Urteilskraft oder sozialer Kompetenzen wie Empathie- und Rollenübemahmefahigkeit.

Die Dilemmadiskussion als Ansatz zur Förderung der moralischen Urteilsfähigkeit Neben den üblichen Formen der Wissensvermittlung durch direkte Instruktion, situiertes sowie forschendes, projektorientiertes Lernen sind fiir den Bereich der Ethik vor allem Verfahren der Wertklärung und Dilemmadiskussion von Bedeutung (vgl. Edelstein, in Vorb.; Oser & Althof, 1992). In beiden Verfahren geht es darum, durch diskursive Auseinandersetzung mit den eigenen und fremden Wertvorstellungen die Schüler für moralische Probleme zu sensibilisieren, die eigenen Wertpräferenzen zu erkennen und durch moralisch kontroverse Sachverhalte Begründung und Geltungsanspruch von Werten zu klären. Die Wertklärung dient hierbei der Herausarbeitung und Präsentation der Vielfalt vorhandener W ertorientierungen unter den Schülern. Mit Hilfe der Dilemmamethode kann daran anschließend deutlich gemacht werden, wodurch sich diese Werte und Normen rechtfertigen lassen und welche Geltung (allgemeiner oder partikularer Art) sie beanspruchen. Ein moralisches Dilemma enthält ein hypothetisches oder reales Handlungsproblem, das zwei gleichwertige Entscheidungsoptionen eröffnet (Bsp.: Soll eine Jugendliche der Polizei den Namen ihrer Freundin sagen, die bei einem Kaufhausdiebstahl beobachtet wurde?) - eine Entscheidung zugunsten einer der beiden Handlungsalternativen zieht immer die Verletzung geltender moralischer Normen bzw. Verpflichtungen nach sich (im Beispiel: Freundschaftsnorm versus gesellschaftliche Ordnung). Die Diskussion über die Rechtfertigung einer Option, den Grad der Verpflichtung, die Allgemeinheit der Geltung sowie die Folgen der Unterlassung dieser Handlung soll zur Sensibilisie-

190

Sabine Gruehn und Kai Schnabel

rung fiir den Wertkonflikt fiihren, fordert den Widerspruch heraus und trägt damit zur weiteren Entwicklung und Differenzierung des moralischen Urteils bei. Mit der Dilemmadiskussion können zwei unterschiedliche Ziele verfolgt werden: Unter Ausschluss von pragmatischen Kompromissen oder Verhandlungen dient sie ausschließlich der Entwicklung der moralischen Urteilskompetenz. Unter Zulassung solcher Kompromisse, die den Wertkonflikt entschärfen (z. B. Sharon überredet ihre Freundin, sich selbst anzuzeigen), dient sie der Entwicklung sozialer Problemlösekompetenzen. Diskussionen moralischer Konflikte lassen sich im Prinzip in jedem Unterrichtsfach fiihren, da moralisch kontroverse Fragen in nahezu allen Wissensbereichen vorkommen. Dennoch wird die Dilemmadiskussion im Zusammenhang mit den explizit wertebildenden Fächern wie Ethik oder Politische Bildung besonders thematisiert, da sie dort zumindest teilweise als Methode in den Lehrplänen dieser Fächer verankert ist (dies gilt zumindest fiir das Fach LER und Politische Bildung in Brandenburg).

Zur Messung von "Schulleistungen" im moralisch-wertbildenden Lernbereich Wenn im vorangegangenen Abschnitt vor allem die Entwicklung moralischer Diskursfahigkeit als Ziel schulischer Werterziehung im Mittelpunkt stand, so deshalb, weil Werte als handlungsleitende Überzeugungen gelten und die kognitive Reflexion über Folgen des Handeins und Urteilens tolerantes und sozialkompetentes Verhalten stimulieren kann. Wie die bisherige Diskussion gezeigt hat, entwickelt sich die moralische Urteilsfähigkeit in der diskursiven Auseinandersetzung mit aktuellen oder hypothetischen moralischen Problemen. Im Zentrum eines solchen diskursiven Unterrichts steht folglich nicht das Endprodukt dieses Lernprozesses, sondern der Lernprozess selbst, das Ringen um die besseren Argumente, das kommunikative Aushandeln und Verstehen. Eine Form der Messung solcher Lernprozesse ist die Erfassung des Entwicklungsniveaus des moralischen Urteils. Die meisten Erhebungsverfahren gehen auf die Arbeiten von Lawrence Kohlberg und seine Theorie der kognitiven Entwicklung des moralischen Urteils zurück, die an dieser Stelle kurz skizziert werden soll (zur ausfUhrliehen Darstellungs. Colby & Kohlberg, 1987). Nach dieser Theorie erfolgt die Entwicklung in sechs moralkognitiven Stufen, wobei jeweils zwei Stufen einer gemeinsamen Ebene zugeordnet werden. Nach Beendigung der prämoralischen Phase im Alter von etwa vier Jahren werden diese Stufen nacheinander durchlaufen, wobei keine übersprungen werden kann. Die Stufenfolge ist in Tabelle 1 dargestellt. Die Entwicklung verläuft von der egozentrischen Ebene des präkonventionellen Urteils, auf der sich das moralische Denken am eigenen Wohlergehen bzw. an individuellen Interessen (die nicht notwendigerweise die eigenen sein müssen) orientiert. Auf der soziozentrischen Ebene des konventionellen Urteils definiert sich das moralisch Richtige über die Rollenerwartungen wichtiger Bezugspersonen wie etwa der Eltern oder guter Freunde bzw. über die systemische Einsicht in die Notwendigkeit allgemein anerkannter Regeln oder Gesetze. Dieser Stufe folgt

Moralisch-wertbildender Bereich

191

die universalistische Ebene des postkonventionellen Urteils, auf der das moralische Denken an allgemeinen Menschenrechten bzw. universellen Prinzipien orientiert ist. Tabelle 1: Stufen der moralischen Entwicklung sensu Kohlberg (nach Beck, 2000, S. 351) Pr:imoralische Phase (etwa bis zum 4. Lebensjahr) Egozentrische Ebene ("präkonventione/1'? Stufe 1: Orientierung am eigenen Wohlergehen (LusVSchmerz; Belohnung/Bestrafung) Stufe 2: Orientierung an strategischer Tauschgerechtigkeit ("Wie Du mir, so ich Dir.") Soziozentrische Ebene ("konventionell'? Stufe 3: Orientierung an Erwartungen von Bezugspersonen (Rollenkonformität; "good boy, nice girl"} Stufe 4: Orientierung an Grundgesetz und Verfassung (Recht und Ordnung; Systemperspektive) Universalistische Ebene ("postkonventione/1'? Stufe 5: Orientierung am Sozialvertragsdenken (Legitimität des positiven Rechts; Menschenrechte) Stufe 6: Orientierung an universalen Prinzipien (Gerechtigkeitsidee; Kategorischer Imperativ)

Die Erfassung des moralischen Urteils erfolgt üblicherweise durch Interviews, in denen die Befragten mit Dilemmasituationen konfrontiert werden und anband von Standardfragen ihre Entscheidung fiir eine der beiden Handlungsoptionen sowie den Geltungsanspruch von Normen und Werten begründen müssen. Da Interviews in der Regel äußerst aufwändige Erhebungsverfahren darstellen, wurden verschiedene schriftliche Messinstrumente entwickelt, die entweder eine Fragebogenfassung des Interviews mit Dilemmapräsentation oder eine Kurzform der Fragebogenfassung nur mit den Standardfragen des Interviews darstellen, die aber jeweils- wie im Interview- eine freie Produktion der Antworten verlangen. Dies ist insofern wichtig, als eine adäquate Bestimmung der moralischen Urteilsfähigkeit nicht auf der Basis vorgegebener Antwortkategorien möglich ist, da diese systematisch Antworten aufhöherem Argumentationsniveau provozieren. Erst in der freien Produktion von Argumenten ftir oder gegen eine Handlungsoption zeigt sich die tatsächliche Zugehörigkeit zu einer bestimmten Entwicklungsstufe. Psychometrische Untersuchungen von Gibbs et al. (1992) belegen, dass nicht nur das moralkognitive Interview, sondern sowohl seine schriftliche Langfassung als auch seine Kurzform (ohne Dilemmapräsentation) zuverlässige und valide Angaben zum Entwicklungsniveau des moralischen Urteils erfassen können. Neben der Erfassung des moralischen Urteils bieten sich auch weitere Fragebogeninstrumente an, die der Erhebung anderer Lernziele wie sozio-moralischer Einstellun-

192

Sabine Gruehn und Kai Schnabel

gen und Verhaltensweisen, selbstbezogener Kognitionen und in Grenzen auch sozialer Kompetenzen dienen. Den letztgenannten Kompetenzen kommt - weil sie tatsächliches Verhalten thematisieren- besonderes Gewicht in den moralisch-wertbildenden Fächern zu. Aber gerade fiir sie sind fragebogenbasierte Erhebungstechniken nur bedingt geeignet: So lässt sich mit schriftlichen Verfahren die soziale Fähigkeit hinreichend gut erfassen, verschiedene Lösungsmöglichkeiten in interpersonalen Problemsituationen zu konstruieren und ihre Handlungsfolgen zuverlässig abzuschätzen. Die Fähigkeit aber, Handlungsentwürfe in sozial adäquates Handeln zu übersetzen oder die Perspektive anderer einzunehmen, ist auf diese Weise kaum zu ermitteln. Für letztere wären entweder Beurteilungen durch Dritte (z. B. Lehrer) oder Verhaltensstichproben in natürlichen sozialen Situationen notwendig. Soziale Kompetenzen spiegeln sichjedoch auch in der subjektiven (Selbst-)Einschätzung bezüglich dieser Kompetenzen. Solche selbstbezogenen Kognitionen, zum Beispiel über die eigene Fähigkeit zur Rollenübernahme, zur sozialen Akzeptanz, zur Empathie etc. lassen sich mit Hilfe von Fragebogen in forschungsökonomisch vertretbarer Form erheben. Nicht übersehen werden darfbei der Messung von Schulleistung im moralisch-wertbildenden Bereich, dass auch hier ein erheblicher Anteil der Vermittlung von kognitiven Wissensbeständen gewidmet ist, beispielsweise im Bereich der Traditionen von Sinn- und Weltdeutungen, die sich über entsprechende Leistungstests analog zu anderen Unterrichtsfächern messen lassen.

Ergebnisse aus der Untersuchung zum Fach Lebensgestaltung-Ethik-Religionskunde (LER) in Brandenburg Im Folgenden wird aus einer Studie berichtet, die als wissenschaftliche Begleituntersuchung zum neuen Unterrichtsfach LER Informationen zum erreichten Stand der Entwicklung sowie der Erfolge und Probleme auf Seiten von Schulen, Lehrkräften und Schülern erfasst und vom brandenburgischen Ministerium für Bildung, Jugend und Sport finanziert wird. Die Fragebogenuntersuchung, an der etwa 3000 Schülerinnen und Schüler der 8. und 10. Jahrgangsstufe aus 58 Gymnasien und Gesamtschulen, 250 LERLehrkräfte sowie 52 Schulleitungen teilnahmen, fand im Mai/Juni 1999 statt. Eine wesentliche Fragestellung der Studie bezog sich auf die Untersuchung potentieller Lerneffekte dieses Faches bei den Schülern im Bereich des Wissenserwerbs sowie der soziamoralischen Einstellungen und Kompetenzen. Aus methodologischer Sicht müsste dieser Fragestellung ein längsschnittliebes Untersuchungsdesign zugrunde gelegt werden, das die Abbildung von Lernverläufen erlaubt. Nur so ließe sich unter Kontrolle des individuellen Lernniveaus von Schülern zu einem gegebenen Zeitpunkt gezielt nach Erklärungsvariablen fiir nachfolgende unterschiedliche Entwicklungstrends suchen. Aus zeitlichen und finanziellen Gründen ließ sich ein

Moralisch-wertbildender Bereich

193

solches Design in der vorliegenden Untersuchung nicht verwirklichen. Um dennoch auch im Rahmen einer Querschnittstudie Unterrichtseffekte approximativ abschätzen zu können, wurde zumindest ein quasiexperimentelles Stichprobendesign realisiert, das den Vergleich von Schülern mit und ohne LER-Unterricht erlaubt. Dies war möglich, da in Brandenburg zum Zeitpunkt der Erhebung nur etwa die Hälfte der Sekundarschulen LER-Unterricht in den relevanten Jahrgangsstufen erteilte. Ein Problem solcher Untersuchungspläne liegt jedoch darin, dass potentielle Unterschiede zwischen Vergleichs- und LER-Gruppe nicht nur durch die Teilnahme bzw. Nichtteilnahme am LERUnterricht bedingt sein können, sondern auch durch andere Faktoren, in denen sich LER-Schulen von den Vergleichsschulen systematisch unterscheiden, wie Personmerkmale der Schüler, Engagement der Lehrkräfte, Innovationsbereitschaft der Schule, Zusammensetzung der Schülerschaft etc. Der Einfluss solcher Faktoren, die nicht in unmittelbaren Zusammenhang mit dem LER-Unterricht selbst stehen, lässt sich nur durch die Hinzunahme zusätzlicher Informationen über die beteiligten Schüler und Schulen abzuschätzen, ohne sie jedoch vollständig kontrollieren zu können. In der vorliegenden Untersuchung wurde daher ein breiter Kranz zusätzlicher Informationen über die Schüler und Schulen erhoben.

Fragestellung Aus den vielen möglichen Lernaspekten moralisch-wertbildenden Unterrichts soll im Folgenden der Frage nach den schulischen Förderungsmöglichkeiten der moralischen Urteilskompetenz nachgegangen werden, die ein wichtiges Lernziel im LER-Curriculum darstellt. Erhoben wurde das Entwicklungsniveau des moralischen Urteils mit Hilfe des von Gibbs, Basinger und Fuller (1992) entwickelten Kurzfragebogens "Sociomoral Reflection Measure-Short Form (SRM-SF)", der von ursprünglich 11 auf 8 Items gekürzt wurde. Der Fragebogen enthält kurze moralische Stimuli (z. B. "Wenn Du an ein Versprechen denkst, das Du einem Freund gegeben hast:''), an die sich Fragen nach der Wichtigkeit der darin thematisierten Werte ("Wie wichtig ist es, Versprechen gegenüber Freunden zu halten?") und nach der Begründung dieser Wichtigkeitseinstufung anschließen.

Stichprobe Da die Kodierung aller freien Antworten der 3000 befragten Schülerinnen und Schüler auf die acht Vorgaben des SRM-SF nur im Rahmen einer langfristigen Auswertungsperspektive finanzierbar ist (hierfiir sind insgesamt etwa 1000 Arbeitsstunden nötig), wurde mit der Analyse von 400 zufällig ausgewählten Schülerantworten begonnen, wobei die Auswahl der Substichprobe nach der Zugehörigkeit zu Jahrgangsstufe, Schulform und LER- bzw. Vergleichsschule differenziert wurde. Antworten von 60% Achtklässlern und 40% Zehntklässlern gingen in die Analyse ein, jeweils zur Hälfte Gymnasien bzw. Gesamtschulen. Zwei Drittel der Stichprobe wird in LER unterrichtet. Um Schul- bzw. Klasseneffekte prüfen zu können, wurden pro Klasse 5 Schüler zufällig ausgewählt.

194

Sabine Gruehn und Kai Schnabel

Ergebnisse Die aus dem SRM-SF-Fragebogen übernommenen acht Items entstammen insgesamt sechs verschiedenen Situationskontexten, in denen Normen und Werte thematisiert werden: Versprechen (mündliche Verträge), Wahrheit, Rettung von Leben, Respektierung von Eigentum und Gesetz sowie Bestrafung von Gesetzesbrechern. In zwei der sechs Kontexte - Versprechen und Rettung von Leben - wurde zudem zwischen Personengruppen unterschieden, auf die sich die thematisierten Handlungen beziehen: Im einen Fall richteten sie sich an nahestehende Freunde, im anderen an Fremde. So wurde beispielsweise das bereits genannte Item "Wenn Du an ein Versprechen denkst, das Du einem Freund gegeben hast ... " in der nächsten Frage entsprechend verändert in "Wie wichtig ist es, Versprechen gegenüber jemandem einzuhalten, den man kaum kennt?". Den von den Schülern angeführten Begründungen fiir die Wichtigkeit der acht vorgegebenen Items wurden Stufenwerte sensu Kohlberg zugeordnet (vgl. Krettenauer & Becker, 2000}, die anschließend zu einem Gesamtwert (arithm. Mittel) verrechnet wurden. Aus diesem Gesamtwert lässt sich schließlich ein globaler Stufenindikator bilden, der durch die Einfii.hrung von Zwischenstufen 10 Ausprägungen erhält (A. Stufe 1 (Gesamtscore von 1,00-1,25); B. Übergang 1 (2), wobei die Argumente noch näher an Stufe 1liegen (Gesamtscore von 1,26-1,49); C. Übergang 2 (1), wobei die Argumente nun eher bei Stufe 2 liegen (Gesamtscore von 1,50-1,74); D. Stufe 2 (Gesamtscore von 1,75-2,25) usw.). Um zu prüfen, inwieweit dieser Stufenindikator tatsächlich Unterschiede im moralischen Urteilsniveau erfasst, d.h. wie valide er das Konstrukt "moralisches Urteil" misst, wurden die Daten zunächst im Hinblick auf Alters- und Geschlechtseffekte sowie Schulformunterschiede untersucht. Da mit zunehmendem Alter auf einem höheren Stufenniveau argumentiert wird, sollten die Zehntklässler deutlich höhere Werte aufweisen als die Achtklässler. Darüber hinaus sollten auch die Urteile von Gymnasiasten und Mädchen auf einem höheren Niveau liegen, da die ersteren einen allgemeinen kognitiven, die letzteren in diesem Alter vor allem einen sozialkognitiven Entwicklungsvorsprung gegenüber ihrer Vergleichsgruppe haben. Von den ursprünglich 400 Schülern konnten fiir die weiteren Auswertungen Daten von 377 Schülern (94%) berücksichtigt werden, die eine ausreichende Anzahl kodierbarer Antworten gegeben hatten. In den Abbildungen 1, 2 und 3 sind die Ergebnisse dieser Vergleichsanalysen dargestellt. Abbildung 1 zeigt zunächst die Verteilung von Acht- und Zehntklässlem auf die verschiedenen Stufen des Globalindikators. Es bestehen deutliche Unterschiede zwischen den beiden Jahrgangsstufen, die sich vor allem im unteren und oberen Entwicklungsbereich zeigen: AufStufe 2 und niedriger argumentieren doppelt so viele Acht- wie Zehntklässler, auf Stufe 3 und höher hingegen scoren 20 % mehr Zehntklässler. Auch in den beiden anderen Merkmalen Geschlecht und Schulform (hier wurden nur die Schüler der 8. Jahrgangsstufe berücksichtigt, um Einflüsse des Alters auf Geschlechts- und Schulformunterschiede auszuschließen) ergeben sich erwartungskonforme Ergebnisse (s. Abb. 2 und 3): Sowohl Mädchen als auch Gymnasiasten argumentieren auf einem höheren Niveau als Jungen bzw. Gesamtschüler, wobei die Effekte fiir das Geschlecht am niedrigsten ausfallen. Die Ergebnisse bestätigen damit die Konstruktvalidität des Fragebogens.

195

Moralisch-wertbildender Bereich

50

.m 0

40

00

30+-------------------------

-5

'#. 20 10

0 Stufe 2 u. niedriger

Übergang 2(3)

Übergang 3(2)

Stufe 3 u. höher

Stufe des moralischen Urteils

Abbildung 1: Entwicklungsniveau des moralischen Urteils nach Jahrgangsstufe

50

.m•:::J 40 -5

...GI

00

30

" 20 '#. 10 0 Stufe 2 u. niedriger

Übergang 2(3)

Übergang 3(2)

Stufe 3 u.höher

Stufe des moralischen Urteils

Abbildung 2: Entwicklungsniveau des moralischen Urteils nach Schulform

50

10

0 Stufe 2 u. niedriger

Übergang 2(3)

Übergang 3(2)

Stufe 3 u. höher

Stufe des moralischen Urteils

Abbildung 3: Entwicklungsniveau des moralischen Urteils nach Geschlecht

196

Sabine Gruehn und Kai Schnabel

Bevor der Frage nach dem schulischen Einfluss auf die Entwicklung der Urteilskompetenz nachgegangen wird, soll zunächst geprüft werden, inwieweit diese in erkennbarem Zusammenhang mit anderen sozio-moralischen Einstellungen steht, denen ebenfalls handlungsleitende Funktionen zugeschrieben werden, d. h. mit sozialen Kompetenzüberzeugungen, die als Voraussetzung für die Entwicklung höherer Stufen der Urteilsfähigkeit gelten, sowie mit selbstberichteten sozialen Verhaltensweisen. In der vorliegenden Studie wurde u. a. eine Skala zu fremdenfeindlichen Einstellungen, zu schulischen Normverletzungen sowie zur selbsteingeschätzten Empathiefähigkeit eingesetzt. Die zwei zuletzt genannten Merkmale wurden über die Vorgabe einzelner Aussagen erhoben, die auf einer vierstufigen Antwortskala bewertet werden sollte (s. Tab. 2). Tabelle 2: Eingesetzte Skalen zu Empathie und sozialem Verhalten (Beispiele) Skala (Anzahl der ltems)

schulische Normverletzungen (6)

' Beispiele Frage: Wie oft kommen folgende Dinge bei Dir vor?

Antwortbeispiele: Absichtlich Sachen kaputtmachen, die der Schule gehören; andere laut verspotten. Empathie (3)

i Ich merke immer gleich, wenn mein Tischnachbar gekränkt ist.

Für die Erhebung fremdenfeindlicher Einstellungen wurde ein anderes Verfahren gewählt (vgl. Leschinsky, 1996): Es wurden drei alltagsnahe Situationsbeschreibungen vorgelegt, die einen Diebstahl oder Raub schildern. Daran anschließend sollten die Jugendlichen vorgegebene Rechtfertigungen für die Tat oder Kriterien für ihre Bewertung einschätzen. Neben einer Reihe "unverfänglicher" Rechtfertigungen wie zum Beispiel "Heutzutage machen doch viele so etwas. Das ist doch nichts Besonderes mehr" wurden vier Begründungen angeboten, die die ethnische Zugehörigkeit der Täter zum Ausgangspunkt der Beurteilung machen (Bsp.: "Er {das Opfer] ist ein Ausländer. Was hat er hier zu suchen?"). Mit diesen Items wird die Bereitschaft der Jugendlichen gemessen, den Grundsatz einer moralisch-rechtlichen Gleichbehandlung aller auf Nationalität und ethnische Herkunft einzuschränken. Im Vergleich zu anderen Einstellungs-Fragebögen hat dieses Verfahren den Vorteil der indirekten Erfassung fremdenfeindlicher Orientierungen, so dass entsprechende Einstellungsmuster prägnanter hervortreten. Auch wenn mit diesem Instrument ebenso wenig wie mit anderen Fragebogenformen soziale Erwünschtheitstendenzen ausgeschlossen werden können, ist seine Verwendung dennoch sinnvoll, wenn es nicht zur Analyse des Niveaus von, sondern zur Analyse der Unterschiede in ausländerfeindlichen Einstellungsmustern herangezogen werden soll. Für alle folgenden Auswertungen wurden ausschließlich die Daten der Achtklässler verwendet, um die Darstellung möglichst einfach zu halten und Einflüsse des Alters auf

197

Moralisch-wertbildender Bereich

Zusammenhänge des moralischem Urteils mit sozia-moralischen Einstellungs- und V erhaltensaspekten zu vermeiden. In Abbildung 4 sind die Mittelwerte in den drei Merkmalen in Abhängigkeit von der Entwicklungsstufe des moralischen Urteils dargestellt. Es ist deutlich zu erkennen, dass sowohl fremdenfeindliche Einstellungen als auch schulische Normverletzungen sowie die Einschätzung der eigenen Empathiefahigkeit substantiell mit dem Entwicklungsniveau des moralischen Urteils zusammenhängen. Am stärksten ausgeprägt und statistisch signifikant sind die Unterschiede zwischen der niedrigsten und höchsten Stufe. Etwas abweichend von diesem Muster ist der Zusammenhang mit schulischen Normverletzungen: Dort werden die häufigsten Verstöße gegen schulische Normen und Regeln von Schülern berichtet, die auf dem zweitniedrigsten Niveau der vorkommenden Moralstufen argumentieren. Sie unterscheiden sich signifikant von der Gruppe mit dem höchsten Argumentationsniveau. Dennoch besteht auch hier im Prinzip ein ähnliches Zusammenhangsmuster wie bei den anderen beiden Merkmalen.

3,5 t::

3

jCD

2,5

::::!!!

2 1,5

Fremdenfeindlichkeit

schul. Normverletzungen

subjektive Empathiefähigkeit

Abbildung 4: Ausgewählte sozia-moralische Merkmale in Abhängigkeit von der moralischen Urteilsfähigkeit (Jugendliche der 8. Jahrgangsstufe)

In welchem Ausmaß wird nun das moralische Urteil durch schulische Faktoren beeinflusst? Zur Untersuchung der Frage wurde die Daten zunächst dahingehend analysiert, inwieweit Differenzen im moralischen Argumentationsniveau auf Unterschiede zwischen Schülern derselben Schule, aufUnterschiede zwischen Schulen innerhalb einer Schulform oder auf Unterschiede zwischen den beiden Schulformen zurückgehen (s. Tab. 3). Als Maß für das moralische Urteil wurde hierbei nicht die globale Stufenvariable, sondern der dieser Variable zugrundeliegende Mittelwert verwendet. Wie nicht anders zu erwarten, bestehen die größten Unterschiede in der moralischen Urteilsfahigkeit zwischen Schülern innerhalb einer Schule: 75 % aller Unterschiede lassen sich auf dieser Ebene verorten. Dies verwundert insofern nicht, als die Entwicklung und Förderung sozia-moralischer Orientierungen und Kompetenzen in erheblichem

198

Sabine Gruehn und Kai Schnabel

Maße durch familiäre Einflüsse und kognitiv bedingte Entwicklungsunterschiede bestimmt wird. Dennoch ist ein substantieller Teil der Unterschiede auf Differenzen zwischen Schulen derselben Schulform zurückzufiihren. Die Unterschiede zwischen Schulformen sind demgegenüber vergleichsweise klein.

Tabelle 3: Varianzquellen des moralischen Urteils Varianz im moral. Urteil

Quelle Schüler innerhalb von Schulen Schulen innerhalb von Schulformen Schulformen

75,0% 18,2% 6,8%

-

100,0%

Gesamt

Die gefundenen Schulunterschiede berechtigen zu der Annahme, dass es auf der Ebene der Schule günstige und ungünstige Entwicklungsbedingungen fur das moralische Urteil gibt, denen im nächsten Schritt nachgegangen wurde. Zu diesem Zweck wurden die Schülerdaten auf Schulebene gemittelt 1• Auf dieser Ebene wurde zunächst geprüft, inwieweit das Fach LER einen Einfluss auf die Ausprägung des moralischen Urteils hat. Die Ergebnisse sind in Abbildung 5 dargestellt. !!l

::::> c

Q)

1i

2,5

t- -----

.!!! 0

E

J!

.a

(J)

1,5

.!!

kein LER

LER

Abbildung 5: Mittleres Moralisches Urteil in Abhängigkeit von LER- versus kein LER-Unterricht (N=35 Schulen)

11 % der Varianz zwischen Schulen in der durchschnittlichen Urteilskompetenz gehen darauf zurück, ob LER an denjeweiligen Schulen als Fach erteilt wird oder nicht. Auch wenn der in der Abbildung dargestellte Unterschied von 0,11 Punkten auf der Stufenskala zum moralischen Urteil zunächst klein erscheinen mag, handelt es sich hier um 1

Der Schulmittelwert basiert auf den Angaben von mindestens 4 bis maximal 12 Schülern (im Schnitt gingen etwa 7 Schülerangaben in die Mittelwertbildung ein).

199

Moralisch-wertbildender Bereich

ein praktisch äußerst bedeutsames Ergebnis, denn man muss in Rechung stellen, dass die Entwicklung im moralischen Urteil nur langsam voranschreitet und die Mittelwertdifferenz selbst zwischen der 8. und 10. Jahrgangsstufe "nur" 0,16 Punkte beträgt. Insofern handelt es sich hier, anders ausgedrückt, um eine Differenz von fast 1,5 Jahren. Um den schulisch bedingten Unterschieden im moralischen Urteil weiter nachgehen zu können, wurden im Folgenden zwei Extremgruppen mit je 12 Schulen gebildet, in die jeweils die 6 Gesamtschulen und Gymnasien mit den höchsten bzw. niedrigsten Werten im moralischen Urteil eingingen. Zwischen den so entstandenen Extremgruppen lassen sich keine Unterschiede im familiären Bildungshintergrund der Schüler feststellen, so dass von einer Vergleichbarkeit der beiden Gruppen ausgegangen werden kann. Betrachtet man nun, inwieweit der Besuch des LER-Unterrichts einen Einfluss auf die Zuordnung zur positiven oder negativen Extremgruppe hat, so zeigt sich ein deutlicher Zusammenhang, der die im vorangegangenen Absatz vorgenommene Interpretation besonders anschaulich bestätigt: von den 12 Schulen, deren Schüler im Mittel die höchsten Werte im moralischen Urteil aufweisen, erteilen 11 Schulen LER-Unterricht. Allerdings befinden sich auch unter den 35 Schulen der Negativgruppe 18 LER-Schulen

(54%). Dieser Befund deutet daraufhin, dass der LER-Unterricht nicht per se einen fördernden Einfluss auf die Entwicklung des moralischen Urteils ausübt, sondern die Qualität des durchgeführten Unterrichts von entscheidender Bedeutung ist. Eine klare Bestätigung findet diese Vermutung in den Angaben der Schüler zum LER-Unterricht (s. Abb. 6). In den LER-Schulen der Negativgruppe wird ein signifikant höheres Ausmaß an Zeitverschwendung und Unterrichtsstörungen berichtet sowie ein geringeres Schülerengagement, zum Beispiel beim Vorschlagen von Unterrichtsthemen, wahrgenommen. Besonders markant wird das in diesen Merkmalen bereits angedeutete Qualitätsproblem des Unterrichts in der globalen Zufriedenheitsbewertung der Lehrkraft durch die Schüler.

Schülerengagement Unterrichtsstörungen Zeitverschwendung Zufriedenheit mit Lehrkraft

1,5

2

2,5

3

3,5

Mittelwert

Abbildung 6: Merkmale des Unterrichts und des sozialen Klimas in Abhängigkeit von positiven (N=11) und negativen LER-Schulen (N=7)

200

Sabine Gruehn und Kai Schnabel

Die Unterschiede zwischen positiven und negativen LER-Schulen lassen sich nur zu einem geringen Ausmaß auf schulspezifische Ausgangsbedingungen wie die Zusammensetzung der Schülerschaft zurückführen. Betrachtet man den familiären Bildungshintergrund der Schüler, so bestehen im Mittel keine Unterschiede zwischen den beiden Gruppen. Allerdings sehen die Schulleitungen der Negativschulen ihre Unterrichtsarbeit tendenziell stärker durch die große Leistungs- und soziale Heterogenität der Schülerschaft sowie durch uninteressierte Schüler belastet. Auch im institutionellen Kontext ergeben sich keine Hinweise aufUnterschiede zwischen Positiv- und Negativschulen. Weder in der Qualität des Schullebens, noch im Hinblick auf das Engagement des Kollegiums ergeben sich Unterschiede zwischen beiden Extremgruppen. Bei der Interpretation dieses Befundmusters muss allerdings berücksichtigt werden, dass für die hier vorgenommene Gegenüberstellung von Positivund Negativschulen nur ein Zielkriterium des LER-Unterrichts betrachtet wurde. Möglicherweise ergeben sich bei der Berücksichtigung anderer Zielkriterien wie dem Erwerb von Fachwissen oder sozio-moralischen Orientierungen andere Zusammenhangsmuster.

Diskussion Die Ergebnisse der vorgelegten Studie machen zweierlei deutlich. Zum einen belegen sie, dass V erfahren zur Messung psychosozialer Entwicklungsaspekte wie das hier vorgestellte trotz ihrer nicht unumstrittenen ökologischen Validität als heuristische Werkzeuge in der Evaluationsforschung sinnvoll eingesetzt werden können. Es bleibt allerdings ein Desiderat der empirisch-pädagogischen Forschung, methodisch zufriedenstellende Erhebungsinstrumente auch für andere Aspekte der psychosozialen Entwicklung zu konstruieren, um Effekte von Veränderungen im Schulalltag in der notwendigen Breite dokumentieren zu können. Zum anderen stützen die Befunde die Annahme, dass im moralisch-wertbildenden Lernbereich, dem das Fach LER zugerechnet werden kann, die Entwicklung moralischer Urteilskompetenzen durch den Unterricht gefördert werden kann. Das Befundmuster unterstreicht aber die Notwendigkeit, Qualitätsstandards für den erteilten Unterricht zu sichern. Auch wenn sich dies in diesem Lernbereich deutlich schwieriger gestalten dürfte als in stark kanonisierten Fächern (wie z. B. Mathematik), weisen die Ergebnisse sowohl des eingesetzten Testinventars als auch die Einschätzung durch die Schülerinnen und Schüler darauf hin, dass eine nachhaltige Wirksamkeit eines solchen Schulfachs nur dann erwartet werden kann, wenn der Unterricht in kompetenter Weise erteilt wird. Dieser scheinbar triviale Sachverhalt hat wichtige Implikationen für den Stellenwert der Aus- und Weiterbildung von Lehrkräften, die Fächer wie LER unterrichten. Die bloße Einrichtung eines obligatorischen Lehrfachs alleine läuft ins Leere, wenn sie nicht mit

Moralisch-wertbildender Bereich

201

einer Professionalisierung der Lehrkräfte einhergeht, die nicht zuletzt auch die Evaluation des Unterrichts einschließt. Es ist ein weit verbreitetes Vorurteil zu glauben, dass ein bestenfalls intuitives Verständnis vom Gegenstand moralisch-wertbildender Fächer zu deren wirksamer Unterrichtung hinreichend sei. Dieser Auffassung widersprechen die hier vorgestellten Ergebnisse, auch wenn es für weitergehende Analysen notwendig wäre, die Unterrichtswirklichkeit in den untersuchten Klassen systematischer und detaillierter zu beleuchten, als es im Rahmen dieser Studie möglich war. Dann würde sich möglichetweise zeigen, welche konkreten Unterrichtsinhalte und -praktiken tatsächlich die intendierten Wirkungen erzielen. Eine solch kritisch-rationale Beurteilung von Unterrichtspraxis setzt allerdings voraus, dass die Zielkriterien für den Unterricht präziser definiert werden, als dies bisher die Regel ist. Nicht die pädagogisch gewünschten Endzustände ( wie "kritische Urteilsfahigkeit") sind es, auf die sich Wirksamkeit von Unterricht beziehen, sondern die auf Basis eines Gesamtcurriculums realistisch definierten Lernziele. Weder die Schwierigkeiten in der normativen Festlegung der Inhalte, noch die vergleichsweise gering entwickelten Erhebungsinstrumente für die Evaluation legitimieren einen Dispens von dieser Forderung, wenn moralisch-wertbildende Fächer wie LER auf Dauer im Fächerkanon der Schule Bestand haben sollen und die Ausbildung der Lehrkräfte professionalisiert werden soll. Aber gerade der letztgenannte Aspekt setzt auch voraus, dass sich Schule und Lehrkräfte einer kritisch-konstruktiven Evaluation von außen stärker öffhen als bisher.

Powered by TCPDF (www.tcpdf.org)

KAPITEL 14

Fächerübergreifende Kompetenzen: Konzepte und Indikatoren Eckhard Klieme, Cordula Artelt und Petra Stanat

Der Erziehungs- und Bildungsauftrag der Schule geht über die Vermittlung fachlichen Wissens und Könnens hinaus. In Schulgesetzen oder Präambeln von Lebtplänen spielen allgemeinere Ziele wie die Erziehung zum kritischen Denken, zur Mündigkeit und zur Übernahme sozialer Verantwortung eine zentrale Rolle. Auch wenn man sich aufZiele beschränkt, die den Kern von Bildung ausmachen, nämlich die Aneignung kultureller Inhalte und den Erwerb von Kompetenzen fiir eigenständiges Handeln, wird man überfachliche Leitvorstellungen zu berücksichtigen haben. Befragt man beispielsweise Arbeitgeber, Hochschullehrer oder auch Eltern, welchen Ertrag schulische Bildung erbringen sollte, werden Problemlösefähigkeiten, Lernkompetenz oder Team- und Kornmunikationsfähigkeit an vorderer Stelle genannt. Viele Schulprogramme fiihren das soziale Lernen oder den Erwerb allgemeiner Arbeitstechniken als zentrale pädagogische Anliegen an. Inwieweit können Untersuchungen, wie sie in diesem Band diskutiert werden, solche facheruhergreifende Kompetenzen einbeziehen? Sicherlich decken Schulleistungsstudien nicht die gesamte Breite der pädagogischen Leitideen ab. Viele übergreifende Fähigkeiten wie das Verstehen von Texten und graphischen Darstellungen, sprachliche Ausdrucksfähigkeit oder logisches Denken sind aber gefordert und werden zumindest implizit mit erfasst, wenn Schüler entsprechende Aufgaben in fachbezogenen Leistungstests bearbeiten. In Fachleistungen spiegeln sich auch die Erträge von Lern- und Arbeitstechniken. Die besondere Herausforderung besteht nun darin, facheruhergreifende Kompetenzen explizit zu messen und zu bewerten. Zudem möchte man die facheruhergreifenden Kompetenzen nicht nur als rein kognitive Fähigkeiten und Wissenskomponenten verstehen, sondern prüfen, inwieweit Schülerinnen und Schülern in komplexen Situationen - beispielsweise in der Gruppenarbeit - erfolgreich zu handeln vermögen. Neue, psychologisch fundierte Ansätze zur Beschreibung und Messung facheruhergreifender Kompetenzen, die bereits in Schulleistungsstudien wie etwa die internationale PISA-Untersuchung eingeflossen sind, könnten hier weiterhelfen. Im Folgenden werden wir diese Ansätze kurz allgemein darstellen und dann exemplarisch auf Problemlösefähigkeiten, selbstreguliertes Lernen und soziale Kompetenzen eingehen.

204

Eckhard Klieme, Cordula Artelt und Petra Stanat

Fächerübergreifende Kompetenzen: Konzepte und Probleme Wissen und Können werden in unseren Schulen im Rahmen von Fächern vermittelt, die jeweils spezifische Bereiche von Kultur und Lebenswelt abbilden und durch ihren Bezug zu wissenschaftlichen Disziplinen geformt sind. Das fach- und stoffgebundene Lernen ist aber stets mit dem Erwerb allgemeiner Kompetenzen verknüpft. Diese Verbindung von "materialer" und "formaler" Bildung ist in der Geschichte der deutschsprachigen Pädagogik vielfach diskutiert worden und hat in den letzten Jahren neue Aktualität gewonnen. Angesichts schneller Veränderungen in der Lebens- und Arbeitswelt erscheint es zunehmend schwieriger, einen Kanon von Bildungsinhalten festzuschreiben. Ausgehend von der Arbeitsmarkt- und Qualifikationsforschung hat daher zunächst im berufsbildenden und dann auch im allgemeinbildenden Schulwesen die Idee an Popularität gewonnen, sogenannte "Schlüsselqualifikationen" seien die eigentlich wichtigen Resultate von Bildung und Ausbildung. Gemeint sind Wissen, Fähigkeiten und Fertigkeiten, die auf neue Situationen übertragen werden können und somit sicherstellen, dass im späteren Privat- und Berufsleben immer neue, noch unbekannte Herausforderungen gemeistert werden können. Wenn Schule und Ausbildung sich auf die Förderung von Schlüsselqualifikationen konzentrieren, bleibt das Wissen und Können der Schüler nicht mehr "träge", sondern wird auch außerhalb der Schulwelt aktiv nutzbar. Dies ist zumindest die Hoffnung vieler Pädagogen, die häufig mit reformpädagogischen Vorstellungen eines lebensnahen und ganzheitliches Lernens verbunden wird. Aus psychologischer Sicht kommt hinzu, dass man von einer allgemeinen Kompetenz nur sprechen sollte, wenn man tatsächlich den Erfolg bei einer breiten Palette von Aufgabenstellungen aus unterschiedlichen Inhaltsbereichen auf eine gemeinsame Fähigkeitsdimension zurückführen kann. Das Konzept der fächerübergreifenden Kompetenzen (im Englischen zumeist CrossCurricular Competencies) ist also eine Leitidee der aktuellen bildungswissenschaftlichen und -politischen Diskussion, in der sehr unterschiedliche theoretische und normative Vorstellungen verknüpft werden. Man kann sie zu der folgenden ersten Umschreibung bündeln: Fächerübergreifende Kompetenzen • werden in verschiedenen Fächern bzw. Lerngebieten gefordert und/oder gefördert, • helfen bei der Bewältigung komplexer, ganzheitlicher Aufgaben in realistischen Kontexten, • können auf neuartige, nicht explizit im Lehrplan enthaltene Anforderungssituationen transferiert werden und • lassen sich als allgemeine Fähigkeitsdimensionen identifizieren. Diese Umschreibung illustriert, mit welchen hohen Erwartungen das pädagogische und bildungspolitische Konzept der fächerübergreifenden Kompetenzen bzw. Schlüsselqualifikationen immer wieder belegt wird. Viele der in bildungstheoretischen, reformpädagogischen oder arbeitsmarktpolitischen Darstellungen genannten Schlüsselqualifikationen sind aber- wie vor allem Weinert (1998a, 1999b) verdeutlicht hat- theoretisch

Fächerübergreifende Kompetenzen

205

unscharf und mehrdeutig beschrieben. Die Übertragbarkeit auf neue Situationen wird häufig überschätzt oder einfach ungeprüft unterstellt. Mit Konzepten wie Problemlösen, Kommunikation und Kooperation oder selbstreguliertes Lernen, wie sie in den folgenden Abschnitten dargestellt werden, greifen neuere Schulleistungsstudien Begriffe auf, die in der Psychologie relativ präzise definiert und breit erforscht sind. Im Unterschied zur traditionellen psychologischen Diagnostik wird aber nicht mit abstrakten Aufgaben und Beschreibungsmerkmalen gearbeitet, sondern mit komplexen, realistischen Anforderungen. Fächerübergreifende Kompetenzen werden hier als komplexe Handlungskompetenzen verstanden und nicht nur als kognitive Funktionen. Dies bedeutet, dass neben kognitiven Leistungen auch die Motivation (d. h. die Interessen, Selbstbewertungen und Zielorientierungen der Schüler) und sogenannte volitionale Faktoren (Bereitschaft, Handlungsabsichten in konkrete Handlungen umzusetzen) berücksichtigt werden.

Problemlösen als fächerübergreifende Kompetenz Konzept und psychologische Grundlagen Problemlösen ist zielorientiertes Denken und Handeln in Situationen, fiir deren Bewältigung keine Routinen verfiigbar sind (Mayer & Wittrock, 1996; vgl. auch Klieme et al., im Druck). Der Problemlöser hat ein mehr oder weniger gut definiertes Ziel, weiß aber nicht unmittelbar, wie es zu erreichen ist. Er muss die Problemsituation verstehen und, gestützt auf planendes und schlussfolgerndes Denken, in Richtung auf das Ziel verändern. Für den Erfolg sind neben kognitiven Prozessen auch Metakognitionen (z. B. das kontinuierliche Überwachen und Bewerten des eigenen Lösungsprozesses), motivationale und volitionale Faktoren (z. B. thematisches Interesse und Aufgabenorientierung) wichtig. Problemlöseprozesse werden häufig durch Auflistung von Phasen beschrieben, etwa in folgender Weise: • Bestimmung des Zieles, • Analyse der Ausgangssituation und Aufbau einer mentalen Repräsentation, eines Situationsmodells, • Bestimmung der Lösungsstrategie und Planung von Lösungsschritten, • Ausführen des Lösungsplans, begleitende Kontrolle und ggf. Modifizierung der Lösung sowie • Evaluation der Lösung. Wie systematisch jemand vorgeht - ob er beispielsweise einzelne Komponenten der Problemsituation in kontrollierter Weise untersucht, ob er den Lösungsprozess "global"

206

Eckhard Klieme, Cordula Artelt und Petra Stanat

oder nur "lokal" plant, ob er alternative Lösungsschritte gezielt ausprobiert, ob er Rückmeldung sucht und nutzt -, sind wichtige Unterscheidungsmerkmale zwischen Personen, d. h. Aspekte ihrer Problemlösekompetenz. Während in der psychologischen Forschung eine umfangreiche Literatur zu Problemen und Lösungsprozessen vorliegt, ist das Konzept einer Problemlösekompetenz weniger verankert. Manche Autoren setzen es mit einem sehr breit verstandenen Begriff von "Intelligenz" gleich. Sternberg und Kaufmann (1998) etwa unterscheiden drei Teilkomponenten der Intelligenz, die alle mit Problemlösekompetenzen zu tun haben: (a) analytische Fähigkeiten, die man nutzt, um Problemsituationen zu verstehen oder Lösungsstrategien zu bewerten, (b) kreative Fähigkeiten, die gebraucht werden, um unterschiedliche Lösungswege zu entwickeln, und (c) praktische Fähigkeiten, die helfen, Problemlösungen in realen Kontexten anzuwenden. Vorwiegend in der deutschsprachigen Psychologie wurden in den vergangenen Jahren sogenannte komplexe Problemlöseleistungen untersucht (vgl. Frensch & Funke, 1995). Beispielsweise simuliert man am Computer ein Ökosystem oder die kaufmännischen und technischen Zusammenhänge einer Fabrik; der Bearbeiter muss diese Simulation erkunden und möglichst erfolgreich steuern. Problemlösekompetenz gemessen am erfolgreichen "Überleben" in solchen Szenarien ist durchaus mit Intelligenz korreliert, geht aber nicht vollständig darin auf.

Diagnostische Ansätze Die gewählte Definition des Problemlösens umschließt einen sehr breiten Bereich von Problemen und Prozessen. Bei der Diagnose von Problemlösekompetenzen muss daher eine Auswahl und Systematisierung vorgenommen werden. Prinzipielllassen sich zwei Ansätze unterscheiden:

"Analytisches Problemlösen ": Informationsverarbeitung und schlussfolgerndes Denken

Dieser eher "klassische" Ansatz konfrontiert die Probanden mit der Darstellung einer Problemsituation und mehr oder weniger wohldefinierten Zielen. Untersucht wird, wie der Bearbeiter die Problemsituation versteht und welche Schlussfolgerungen und Handlungsplanungen er vornimmt. Ähnlich wie bei anspruchsvollen Aufgaben in fachbezogenen Tests steht das Suchen, Erfassen, Systematisieren, Ordnen, Evaluieren, schlussfolgemde Verarbeiten und Kombinieren von Informationen und das Planen im Vordergrund. Hierzu kann mit "statischen" Problemstellungen gearbeitet werden, die schriftlich zu bearbeiten sind. In jüngerer Zeit wurde in Schulleistungsstudien wie der Hamburger Studie zur Lernausgangstage in Sekundarschulen und der deutschen Ergänzung der PISA-Studie (Klieme et al., im Druck) das Konzept der sogenannten Projektaufgaben verwendet. Ein

FächerObergreifende Kompetenzen

207

"Projekt" wie z. B. die Organisation eines Klassenfestes, die Herstellung einer Schülerzeitung oder ein Vorhaben zur Energieeinsparung an der Schule wird in mehrere Arbeitschritte aufgegliedert (Ziele klären- Informationen beschaffen - Planen - Entscheiden und Ausführen- Bewerten), zu denen jeweils einzelne Aufgaben gestellt werden (vgl. Abb. 1, die den Schritt "Arbeitsplanung" im Projekt "Energiesparen" wiedergibt). Die Begrenzung solcher schriftlichen Verfahren liegt darin, dass sie nur das "Produkt" der Problembearbeitung erfassen, d. h. den Problemlöseerfolg, gemessen als Anzahl korrekt bearbeiteter Aufgabenstellungen. Sie weisen zudem eine hohe Überschneidung mit traditionellen Tests zum "schlussfolgernden Denken" auf. Der hier erfasste Aspekt von Problemlösekompetenz wird daher zurecht einschränkend als "analytisches Problemlösen" bezeichnet.

Temperatur messen Ihr habt Euch entschieden, mit dem Energiesparen bei der Heizung zu beginnen. Ihr wollt deshalb in allen Schulrliumen die Temperatur messen. Dafar muss einiges vorbereitet und ausgewertet werden.

A) B) C) D) E)

Ausreichend Thermometer besorgen. Die Ergebnisse an der Infowand in der Pausenhalle aufhängen. Protokollbögen auswerten. Temperatur-Protokollbögen vorbereiten. Temperatur messen.

ln welcher der folgenden Reihenfolgen könnt ihr die notwendigen Dinge tun? Markiere alle sinnvollen Möglichkeiten!

a)

D-A-E-C-8

b)

A-D-E-8-C

c)

D-E-A-C-8

d)

D-A-C-E-8

Abbildung 1: Beispielaufgabe aus dem Projekt "Energiesparen"

"Dynamisches Problemlösen ": Handeln in komplexen simulierten Situationen Seit langem werden von Experten für die Diagnostik des Problemlösens komplexe, authentische Testaufgaben gefordert, deren Charakter sich dynamisch mit dem Verhalten des Bearbeiters verändert, so dass neben "fertigen Produkten" (Lösungen) auch Prozessmerkmale und Strategien erfasst werden können. Auf der Basis der oben erwähnten Arbeiten zum "komplexen Problemlösen" (Frensch & Funke, 1995) kann diese Forderung weitgehend eingelöst werden. Es geht um die Qualität der Interaktion mit einer sich verändernden, auf Eingriffe reagierenden Umwelt. Derartige Prozesse können am besten mit Hilfe eines Computers erfasst werden.

208

Eckhard Klieme, Cordula Artelt und Petra Stanat

Die "Umwelt" besteht dann aus der Simulation eines dynamischen Systems, in die der Proband eingreifen kann. Das System kann beispielweise die chemischen Reaktionen in einem Laborexperiment beinhalten, die Bedingungen des Überlebens in einem bestimmten Ökosystem oder die Funktionsmechanismen eines technischen Apparates. (Die drei genannten Szenarien wurden im deutschen PISA-Projekt erprobt.). Der Schüler muss jeweils • in einer explorativen Phase Informationen über dessen Struktur und Wirkungszusammenhänge erschließen, • in einem Test Kenntnisse über die Systemstruktur unter Beweis stellen und schließlich • in einer Steuerungsphase einen vorgegebenen Zielzustand zu erreichen versuchen. Diese Gliederung macht es möglich, drei Indikatoren der Problemlösekompetenz zu erfassen: • Prozesskontrolle (strategisches Verhalten/ Systematik beim Explorieren des Systems), • Wissenserwerb (Kenntnisse über das System, die beim Explorieren erworben werden), • Handlungserfolg (Steuerungsleistung/Zielerreichung). Eine erste Erprobung im deutschen PISA-Programm zeigte, dass die drei Indikatoren eine gemeinsame Fähigkeit zum "dynamischen Problemlösen" widerspiegeln (Klieme et al., im Druck). Zudem erwiesen sich die computergestützten Tests auch in einer größeren Stichprobe (30 Schulen mit insgesamt 900 Getesteten) als einsetzbar und zuverlässig. Offen ist, inwieweit diese Art von Problemlösekompetenz über verschiedene dynamische Systeme hinweg generalisierbar ist.

Generalisierbarkeit und Transferierbarkeit Eine der wichtigsten Erkenntnisse der kognitionspsychologischen Forschungen der letzten Jahre ist der Befund, dass anspruchsvolle Problemlöseleistungen nicht ohne einen Fundus von Wissen in der jeweiligen Domäne erbracht werden können. Problemlösen setzt Wissen über Konzepte und Sachverhalte (deklaratives Wissen) und Wissen über Regeln und Strategien (prozedurales Wissen) im jeweiligen Gegenstandsbereich voraus. Für die Erfassung von Problemlösekompetenzen stellt sich damit folgende Alternative: Zum einen kann man Aufgaben verwenden, die möglichst wenig spezifisches Wissen voraussetzen, sondern relevante Kontextinformation in leicht verständlicher Form vorgeben und darauf aufbauend mit formalen Strategien des schlussfolgernden Denkens lösbar sind. Damit kommt man der traditionellen Intelligenzdiagnostik sehr nahe. Zum

Fächerübergreifende Kompetenzen

209

anderen kann man auf die Vorstellung von einer hoch generalisierten, bereichsübergreifenden Problemlösefahigk:eit verzichten und statt dessen ein Profil von Kompetenzen bestimmen. Innerhalb der PISA-Studie wurden in Deutschland verschiedene Problemlöseinstrumente erprobt. Die Ergebnisse deuten daraufhin, dass schriftliche Aufgaben wie etwa die oben beschriebenen "Projekte", die möglichst wenig spezifisches Wissen voraussetzen, in der Tat primär schlussfolgerndes Denken erfassen. Die computergestützten Szenarios, vor allem die daraus gewonnenen Prozess- und Strategiemaße, bilden hingegen eigenständige Kompetenzen ab. Insgesamt ergibt sich Problemlösekompetenz als Profil, zu dem das analytische Problemlösen ebenso gehört wie dynamisches Problemlösen in verschiedenen Kontexten. Transfer, d. h. die Übertragung von Lösungswegen auf analoge Aufgaben oder (allgemeiner) die Verbesserung von Problemlöseleistungen durch Vorerfahrungen in verwandten Situationen, findet nur selten spontan statt; er muss im allgemeinen bewusst gemacht, motiviert und geübt sein (Mayer & Wittrock, 1996).

Möglichkeiten zur schulischen Förderung Bereichsspezifische Problemlösefahigk:eiten werden im schulischen Unterricht allenthalben gefOrdert. Dies ist möglich, weil innerhalb von Fächern inhaltsbezogenes Wissen und Problemlösestrategien verknüpft und in unterschiedlichen Kontexten durchgearbeitet werden, - eine Konstellation, die den Erwerb und die Nutzung von Kompetenzen erleichtert. Bereichsunspezifische Problemlösekompetenzen versuchte man vor allem in den 70er Jahren durch spezielle Intelligenz- und Denktrainings zu schulen. Dieser Ansatz hat nicht zu den erhofften Erfolgen gefiihrt - nicht zuletzt, weil die Voraussetzungen fiir die Nutzung und den erfolgreichen Transfer des Gelernten nicht gesichert wurden (Mayer & Wittrock, 1996). Aus heutiger Sicht erscheint es kaum realistisch, Problemlösekompetenz ganz allgemein trainieren zu wollen. Realistisch ist es hingegen, bestimmte Strategien wie etwa Analogiebildung und kombinatorisches Denken, die Nutzung von kognitiven Werkzeugen (z. B. Diagrammen) oder Techniken der Seihsteuerung dadurch zu fordern, dass man sie immer wieder, an konkrete Inhalte geknüpft, in Unterrichtssituationen thematisiert (vgl. auch Weinert, 1998b). Inwieweit flicherübergreifende Problemlösekompetenzen überhaupt auf Maßnahmen und unterschiedliche Lernumgehungen an einzelnen Schulen zurückgefiihrt werden können, lässt sich im Rahmen der PISA-Studie abschätzen. Ergebnisse des Erprobungsdurchgangs (Klieme et al., im Druck) zeigten, dass Kompetenzen, die unterrichtsnah sind, d. h. durch den Lehrplan und seine Umsetzung an der Einzelschule stark beeinflusst werden, wie etwa mathematische Kompetenzen, zu großen Teilen durch Schuleffekte erklärbar sind. Fächerübergreifende Problemlösekompetenzen hingegen werden stärker durch außerschulische Faktoren determiniert. Der gezielten schulischen Förderung des Problemlösens aufüberfachlicher Ebene scheinen demnach Grenzen gesetzt

210

Eckhard Klieme, Cordula Artelt und Petra Stanat

zu sein. Eine systematische Prüfung des Einflusses von Schulmerkmalen wie z. B. Art und Umfang extra-curricularer Aktivitäten steht jedoch noch aus. Außerdem muss man berücksichtigen, dass groß angelegte Studien immer nur die Einflüsse aufdecken, in denen sich unsere Schulen unter alltäglichen Bedingungen unterscheiden. Was spezifische Förderprogramme bewirken, kann nur im kontrollierten Experiment festgestellt werden.

Selbstreguliertes Lernen Konzept und psychologische Grundlagen Selbstreguliertes Lernen ist kein einheitlich definiertes Konzept. Es lässt sich jedoch sehr wohl angeben, welche Voraussetzungen fiir die gelingende Selbstregulation gegeben sein müssen bzw. wie sich die Selbstregulation beim Lernen äußert: Lernende, die ihr eigenes Lernen regulieren, sind in der Lage, sich selbständig Lernziele zu setzen, dem Inhalt angemessene Techniken und Strategien zur Erreichung des jeweiligen Zieles auszuwählen und sie auch einzusetzen. Ferner halten sie ihre Motivation aufrecht, bewerten die Zielerreichung während und nach Abschluss des Lernprozesses und korrigieren - wenn notwendig - die Lernstrategie. Selbstreguliertes Lernen beruht auf einem flexibel einsetzbaren Repertoire von Strategien zur Wissensaufuahme und Wissensverarbeitung sowie zur Überwachung der am Lernen beteiligten Prozesse. Ergänzt werden diese Formen der Informationsverarbeitung durch motivationale Prozesse wie beispielsweise Techniken der Selbstmotivierung und der Zielsetzung. In der konkreten Auseinandersetzung mit Lernanforderungen kann die Regulation mehr oder weniger gut gelingen. Entscheidend scheint zu sein, dass es sich beim selbstregulierten Lernen nicht um eine Fähigkeit handelt, die- einmal erworben - in allen potentiellen Situationen und bezogen auf verschiedene Inhaltsbereiche zur Anwendung kommt. Boekaerts (1999) kennzeichnet das selbstregulierte Lernen, indem sie drei Regulationsebenen unterscheidet, die eng miteinander in Beziehung stehen (vgl. Abb. 2). Auf der erste Ebene geht es um kognitive Strategien, auf der zweiten um sogenannte metakognitive Strategien und metakognitives Wissen (d. h. Wissen über das eigene Lernen), auf der dritten Ebene schließlich wird die Motivation reguliert. Das Modell stellt also selbstreguliertes Lernen als ein dynamisches Wechselspiel kognitiver, metakognitiver und motivationaler Aspekte des Lernens dar. Die drei Ebenen sollen im Folgenden genauer gekennzeichnet werden.

211

Fächerübergreifende Kompetenzen

Regulation des Selbst Regulation des Lemprozesses \

\

'\

l i

I

I

Wahl von Zielen und Ressourcen

Abbildung 2: Das Drei-Schichten-Modell des selbstregulierten Lernens nach Boekarts (1999, S. 449)

Wahl kognitiver Strategien (Regulation des Verarbeitungsmodus) Ohne die Kenntnis von Strategien der Informationsverarbeitung, verbunden mit Wissen um deren Wert und Nutzen, ist selbstreguliertes Lernen kaum denkbar, da diese Kenntnis Lernende erst in die Lage versetzt, ihr eigenes Lernen aktiv zu gestalten. Strategien können dabei bereichsspezifisch oder allgemein sein und sie müssen den Lernenden nicht unbedingt bewusst sein. Beispiele fur Lernstrategien sind Memorierstrategien (Einprägen durch wiederholtes lautes Vorlesen, Auswendiglernen von Schlüsselbegriffen) und Elaborationsstrategien (Konstruktion, Integration, Transfer).

Gebrauch metakognitiven Wissens zur Steuerung des Lernprozesses (Regulation des Lernprozesses) Ein Kernbereich selbstregulierten Lernens ist die Fähigkeit der Schüler, Lernstrategien auszuwählen, zu kombinieren und zu koordinieren. Damit kommen Strategien höherer Ordnung, sogenannte metakognitive Strategien, ins Spiel. Hierzu zählen Planung (z. B. des Lernziels und der Mittel, die zur Zielerreichung notwendig sind), Überwachung (z. B. des Lernfortschritts), Steuerung (z. B. durch Veränderung der Mittel) und Evaluation (Bewertung der Zielerreichung). Zur adäquaten Steuerung des Lernprozesses bzw. zum effektiven Gebrauch von Strategien ist es weiterhin notwendig, Wissen darüber zu haben, was effektive Lernprozesse kennzeichnet, und die eigenen Stärken und Schwächen beim Lernen zu kennen.

212

Eckhard Klieme, Cordula Artelt und Petra Stanat

Wahl von Zielen und Ressourcen (Regulation des Selbst) Im motivationalen Bereich zeichnen sich selbstreguliert Lernende durch ihre Bereitschaft zur selbständigen Zielsetzung, zur Selbstaktivierung und zur angemessenen Verarbeitung von Erfolgen und Misserfolgen aus. Als willensgesteuerte Regulationstechniken werden z. B. die Umsetzung von Wünschen in Absichten sowie die Abschirmung der Lernvorgänge gegenüber konkurrierenden Handlungswünschen gesehen.

Diagnostische Ansätze Insgesamt stellt das komplexe Konzept des selbstregulierten Lemens hohe Anforderungen an die Diagnostik. Wenn die tatsächliche Regulation beim Lernen untersucht werden soll ist eine prozessnahe Diagnostik angemessen. Nur so kann die Komplexität und Variation in den Bemühungen der Schüler, eigenständig zu lernen, abgebildet werden. Die Palette der hierzu eingesetzten Verfahren ist sehr breit; sie umfasst u. a. Beobachtungen, lautes Denken, Interviewverfahren und computergestützte Prozessmessungen.

Im Rahmen von Schulleistungsstudien werdenjedoch-wie im Großteil der Forschung zum selbstregulierten Lernen - im Wesentlichen Fragebögen eingesetzt. Sie können nicht das selbstregulierte Lernen selbst (im Sinne einer komplexen Handlungskompetenz) erfassen, wohl aber diagnostizieren, inwieweit beim Schüler die Voraussetzungen selbstregulierten Lemens gegeben sind: Neben der Erfassung motivationaler Präferenzen und Interessen ist es mit Hilfe eines Fragebogens möglich, Auskünfte über bevorzugte Lernmethoden und über das Strategiewissen sowie über die relative Stärken und Schwächen der Lernenden zu bekommen. Besonders bei jüngeren Kindem ist eine solche Art der Messungjedoch problematisch, da sie oft noch wenig verallgemeinerbare Erfahrungen mit dem Einsatz von Lernstrategien gemacht haben. Alternativ zu Selbstangaben über das allgemeine Vorgehen beim Lernen besteht die Möglichkeit, das Wissen über die Effektivität von Strategien bereichsspezifisch zu erfragen. Hierzu werden Lernende beispielsweise aufgefordert, verschiedene Strategien für den Umgang mit spezifischen Problemen hinsichtlich ihrer Nützlichkeit zu ordnen. So scheint es möglich, das Wissen über Lemstrategien, das eine Voraussetzung für deren Anwendung darstellt, präzise zu erfassen.

Generalisierbarkeit und Transferierbarkeit Prinzipiell handelt es sich beim selbstregulierten Lernen um eine Kompetenz, die in verschiedenen Inhaltsbereichen angewendet werden kann. Dies gilt besonders für die motivationale und metakognitive Regulation und Steuerung des Lernprozesses. Im Bereich der kognitiven Strategien ist die Übertragbarkeit allerdings oft mit eingeschränkter Effektivität verbunden. So können hochspezifische Strategien, die im jeweiligen Bereich besonders effektiv sind, nicht auf andere Bereiche übertragen werden. Bei allgemeinen Strategien hingegen ist die größere Bandbreite ihrer Anwendungsmöglich-

Fächerübergreifende Kompetenzen

213

keiten oft damit verbunden, dass sie zur Bewältigung konkreter Aufgaben nicht spezifisch genug sind und daher nur begrenzten Nutzen haben. Darüber hinaus zeigt sich oft, dass der spontane Transfer effektiver Lernstrategien auf prinzipiell geeignete Inhalts- und Anwendungsbereiche bei Lernenden keine Selbstverständlichkeit ist. Der Transferprozess bedarf oft äußerer Unterstützung. Wissen über Lernstrategien ist kein Garant für die Anwendung von Strategien. Vielmehr hat sich gezeigt, dass Strategiewissen oft träge ist, was bedeutet, dass die Lernenden in entsprechenden Situationen den Zugang dazu nicht finden können. Die Nichtanwendung von Strategien kann aber auch gute Gründe haben kann. Lernformen, die aufVerstehen ausgerichtet sind, erfordern nämlich oft anstrengende und zeitintensive Aktivitäten. Im Vergleich zu einer eher schemabasierten und damit automatisierten kognitiven Informationsverarbeitung ist es für verstehensorientiertes Lernen beispielsweise notwendig, Beziehungen zwischen dem Vorwissen und dem neuen Lernstoff explizit zu prüfen sowie Hypothesen über mögliche Zusammenhänge aufzustellen und diese vor dem Hintergrund des bearbeiteten Materials zu überprüfen. Der Nutzen dieser zeitintensiven Lernform zeigt sich oft in besseren Leistungen, die Bereitschaft zum verstehensorientierten Lernen besteht aber nur dann, wenn die subjektiv eingeschätzten Vorteile der Verwendung derartiger Methoden größer sind als die damit verbundenen Nachteile. Zusätzlich kann auch bei noch so günstigen Voraussetzungen für die Selbstregulation des Lernens die effektive Anwendung von Strategien allein daran scheitern, dass im jeweiligen Bereich nicht genügend inhaltliches Vorwissen vorhanden ist. Durch die wiederholte effektive Selbstregulation beim Lernen entwickeln sich jedoch Wissen, Fertigkeiten und Einstellungen, die zukünftiges Lernen fordern und erleichtern und die - vom ursprünglichen Lernkontext abstrahiert - auf andere Lernsituationen übertragen werden können. Neben einem flexibel einsetzbaren Repertoire an Strategien und spezifischen Techniken der Zielsetzung und Selbstmotivierung stellen solche Einstellungen, die sich z. B. in hohen Selbstwirksamkeitserwartungen äußern können, ein fächerübergreifendes Merkmal selbstregulierten Lernens dar.

Möglichkeiten zur schulischen Förderung Hinsichtlich selbstregulierter Lernprozesse besteht erheblicher schulischer Förderbedarf. So finden sich in der Forschung immer wieder Belege dafiir, dass Schüler für ihr eigenes Lernen zu wenig Verantwortung übernehmen und kaum strategisch vorgehen. Besonders in der Grundschule wird oft vorrangig fiir den Lehrer gelernt; der Sinn und Zweck einzelner Lernschritte bleibt den Schülern dabei oft verborgen. Mit zunehmendem Alter und wachsender Komplexität schulischer Lernanforderungen steigt allerdings die Notwendigkeit, die eigenen Lernprozesse kompetent zu steuern. Es spricht viel dafür, die Unterstützung selbstregulierter Lernprozesse in den Unterricht zu integrieren. Kurzfristige Trainingskurse zeigen nur selten die gewünschten Effekte, da im Rahmen solcher Interventionen die Wirksamkeit einer neu gelernten Strategie noch nicht ausreichend erfahren werden kann. Sie bewirken dadurch oft nur eine Irrita-

214

Eckhard Klieme, Cordula Artelt und Petra Stanat

tion auf Seiten des Schülers, da einerseits die vormals automatisierte Verwendung von sub-optimalen Strategien durch die Intervention in Frage gestellt wurde, andererseits die neu gelernte Strategie noch nicht in das Strategierepertoire integriert werden konnte. Auch ist die Entdeckung einerneuen Strategie fiir die Schüler selten ein Heureka-Erlebnis, sondern ein größtenteils unspektakulärer Vorgang. Die Effektivität einer neuen Strategie muss überzeugend undvielfältig erfahren und in die persönlichen Theorien über das Lernen integriert werden, bevor sie selbständig angewendet wird. Gerade in den letzten Jahrzehnten sind in der pädagogischen und pädagogisch-psychologischen Forschung Ansätze entstanden, aus denen sich fiir die schulische Förderung selbstregulierter Lernprozesse Empfehlungen ableiten lassen, auch wenn noch nicht völlig geklärt ist, wie diese Verfahren im Schulalltag funktionieren. Hierbei handelt es sich beispielsweise um das Programm des reziproken Lehrens und Lernens. Der Lehrer stellt hier einen Vermittler fiir den Prozess des Lernens dar, indem er die Fähigkeit zur Selbststeuerung bei seinen Schülern fördert, das Entstehen eigenständigen Planens unterstützt und im Laufe der Zeit immer weniger direktiv auftritt. Den Kindern werden dabei fortwährend Fragen gestellt, um sie dadurch zu ermuntern, ihre eigenen Tätigkeiten zu planen und zu überwachen. Beim reziproken Lehren kommt es immer wieder zu einem Tausch der Rollen zwischen Lehrern und Schülern. Zum einen initiieren die Schüler in der Rolle des Lehrenden Strategieanwendungen, zum anderen wenden sie in der Rolle des Lernenden die Strategie selber an. Gerade hierdurch wird der Prozess der Handlungsregulation beim Lernen bewusst (weil ausgesprochen) und kann vom Schüler allmählich verinnerlicht werden. Die Aneignung selbstregulierter und effektiver Lernstrategien geschieht über die Vermittlung durch kompetente Partner (Mitschüler und/ oder Lehrer), die sich Stück fiir Stück aus einem gemeinsam strukturierten Lernprozess zurückziehen und somit eine allmähliche Übernahme der Verantwortung fiir das Gelingen des Lernens beim Lernenden bewirken. Erst dadurch, dass sich Lehrende sukzessive aus dem Geschehen zurückziehen, kann es zu einer tatsächlichen Selbstregulation des Lernenden kommen. Auf der Basis dieser und anderer Förderprogramme und -studien lässt sich ableiten, dass das modellgeleitete Einüben der richtigen Anwendung geeigneter Strategien, das ausfUhrliehe Informieren der Kinder über den Wert und Nutzen der gelernten Strategien (metakognitives Strategiewissen) und das systematische Einüben des Transfers auf andere Aufgabenbereiche durch Variationen in der Aufgabenstellung sehr effektiv sind. Eine problemlöseorientierte Lernhaltung bei Schülern und Lehrern ist hierbei sehr förderlich. Darüber hinaus sollten Schülerinnen und Schüler die Resultate ihrer Handlungen beobachten und bewerten lernen und über die direkte Erfahrung der Konsequenzen ihrer Handlungen eine "subjektive Theorie des Lernens" entwickeln, die sie an die Wirksamkeit ihrer Handlungen glauben lässt (Selbstwirksamkeitserwartungen). Lernende müssen erfahren, was gelingende und misslingende Lernprozesse charakterisiert und wie sie den Einsatz einzelner Strategien sinnvoll steuern können. Hierzu hat sich das Lernen von einem kompetenten Partner als effektiv erwiesen, weil so ein gelingender Regulationsprozess explizit gemacht wird und vom Lernenden allmählich verinnerlicht werden kann.

Fächerübergreifende Kompetenzen

215

Soziale Kompetenz Konzept und diagnostische Ansätze Ein weiterer fächerübergreifender Kompetenzbereich, dem in der aktuellen Diskussion über Schlüsselqualifikationen ein hoher Stellenwert beigemessen wird, ist der Bereich der sozialen Kompetenz. So wird beispielsweise angenommen, dass durch die zunehmende Verbreitung von Teamarbeit und die wachsende Bedeutung des Dienstleistungszweiges soziale Kompetenz fiir beruflichen Erfolg immer wichtiger wird. Auch in Diskussionen über schulische Probleme wie mangelnde Disziplin im Unterricht oder Gewalt in Schulen wird immer wieder die Bedeutung sozialen Lemens betont. Soziale Kompetenz lässt sichjedoch nicht als ein einheitliches Persönlichkeitsmerkmal fassen. Soziale Kompetenz ist vielmehr eine facettenreiche und vielschichtige Handlungskompetenz, die durch verschiedene Fähigkeiten, Fertigkeiten, Wissensstrukturen, motivationale Tendenzen, Einstellungen, Präferenzen usw. bestimmt wird. Sie resultiert aus dem erfolgreichen Zusammenspiel dieser Faktoren in sozialen Situationen, wobei als "erfolgreich" solche Konstellationen bezeichnet werden, die es einer Person erlauben, ihre persönlichen Ziele zu erreichen und dabei gleichzeitig positive soziale Beziehungen zu erhalten. Eine grundlegende kognitive Voraussetzung sozial kompetenten Verhaltens, die in nahezu jeder Interaktionssituation eine wichtige Rolle spielt, ist die Fähigkeit, Perspektiven anderer Personen zu übernehmen. Damit ist die Fähigkeit gemeint, Situationen aus der Sicht einer anderen Person zu sehen und die mit dieser Situation zusammenhängenden Reaktionen dieser Person (Handlungen, Gedanken, Gefiihle usw.) zu verstehen. Als wichtiger emotionaler Aspekt sozialer Kompetenz, der vor allem fiir prosoziales V erhalten relevant ist, wird häufig Empathie untersucht, also das Mitempfinden affektiver Reaktionen anderer Personen. Auch das derzeit populäre, aber empirisch nur unzulänglich belegte Konzept der "emotionalen Intelligenz" (als Fähigkeit, Emotionen angemessen wahrzunehmen, zu verstehen, selbst auszudrücken, zu nutzen und zu regulieren) wäre in diesem Zusammenhang zu nennen. Motivationale Faktoren schließlich umfassen beispielsweise Tendenzen, in sozialen Situationen bestimmte Ziele zu verfolgen, wobei häufig zwischen altruistischen, kooperativen, individualistischen, konkurrenzorientierten und aggressiven Tendenzen unterschieden wird. Diese kognitiven, emotionalen und motivationalen Voraussetzungen lassen sich auch in großen Untersuchungen gut mittels Fragebögen erfassen. Selbstauskünfte geben bei Jugendlichen und Erwachsenen durchaus ein gültiges Bild über zentrale Aspekte ihrer sozialen Kompetenz. Fasst man die Antworten der Schüler einer Klasse bzw. Schule zusammen, lässt sich die Qualität der sozialen Interaktion in der Institution erfassen. Schülerangaben über aggressives und regelwidriges Verhalten gelten ebenfalls als (negative) Indikatoren der Qualität des sozialen Verhaltens auf Schul- oder Klassenebene.

216

Eckhard Klieme, Cordula Artelt und Petra Stanat

Weniger erfolgreich waren hingegen Versuche, die individuelle "soziale Intelligenz" mittels schriftlicher Testaufgaben zu messen, z. B. mit Testaufgaben, in denen Fotos von Teilen einer Interaktionssequenz in die richtige Reihenfolge gebracht werden müssen. Die mit solchen Verfahren ermittelten Werte hängen oft relativ stark mit Maßen allgemeiner Intelligenz bzw. akademischer Fähigkeiten zusammen, und es ist fraglich, inwieweit sie tatsächlich soziale Kompetenz messen. Außerdem sind solche Aufgaben zu statisch, d. h. sie erfassen nicht, ob jemand in der Lage ist, aufVeränderungen in der sozialen Umwelt rasch und flexibel zu reagieren. Im Rahmen des PISA-Projekts wurde daher angestrebt, ein verhaltensbasiertes Messverfahren einzusetzen, das die Dynamik sozialer Prozesse berücksichtigt. Da Verhaltensbeobachtungen in Studien mit großen Stichproben nicht möglich sind, wurde eine Problemlöseaufgabe entwickelt, die nur kooperativ, in Dreiergruppen gelöst werden kann. Jedes Gruppenmitglied erhält nur einen Teil der zur Lösung notwendigen Informationen und eine Zielvorgabe, die es mit den anderen Mitgliedern in Konflikt bringt. Die Güte und die Ausgewogenheit der gemeinsamen Lösung hängen, wie Voruntersuchungen zeigten, von der im Lehrerurteil erfassten Kooperationsfähigkeit der Teilnehmer ab.

Zur Bedeutung von Schule für soziales Lernen Unbestritten ist, dass die Schule fiir die Entwicklung sozialer Kompetenz eine wichtige Rolle spielt. Zunächst einmal stellt sie einen Lebensraum, der Gelegenheiten fiir vielfaltige soziale Erfahrungen bietet. Interaktionen von Schülern untereinander sowie zwischen Schülern und Lehrkräften finden sowohl im formalisierten Kontext des Unterrichts als auch in informellen Zusammenhängen, wie z. B. in den Pausen oder aufKlassenfahrten, statt. Eine Besonderheit dieser Kontakte besteht darin, dass sie innerhalb eines leistungsthematischen Rahmens ablaufen, der die Institution Schule grundsätzlich charakterisiert. Damit bietet Schule die einzigartige Gelegenheit, die Integration des Bedürfhisses, Leistungen zu erbringen und sich kompetent zu fühlen, mit dem Bedürfnis nach positiven sozialen Beziehungen zu erlernen. Zu dieser Art von Effekten, die ganz generell durch die Eigenheiten der Institution Schule bedingt sind, kommen spezifische Rahmenbedingungen und pädagogische Maßnahmen der Einzelschule. Die Reformpädagogik des frühen 20. Jahrhunderts hat- im Bemühen, Schule als soziale Gemeinschaft zu gestalten und die Persönlichkeitsbildung der Schüler zu unterstützen - vielfältige Anregungen fiir ein lebendiges "Schulleben" gegeben, die bis heute die Leitideen vieler Schulentwicklungsprojekte prägen. Zu den reformpädagogischen Anliegen gehört unter anderem das Bereitstellen von Situationen und Freiräumen, die es Schülerinnen und Schülern ermöglichen, soziale Fertigkeiten zu entwickeln und einzuüben und Verantwortung fiir die "Schulgemeinschaft" zu übernehmen. So stammt u. a. die Idee der "Schülermitverwaltung" aus diesem Kontext. Ein weiteres zentrales Thema ist die Rolle klarer Regeln fiir den Umgang miteinander auf der Ebene der Schule, der Klasse und des Unterrichts, an deren Definition und Umsetzung die Schülerinnen und Schüler aktiv beteiligt sind.

FächerObergreifende Kompetenzen

217

So überzeugend viele Reformprojekte sind, so ungenügend istjedoch die systematische empirische Prüfung der Wirkungen auf soziale und andere Kompetenzen von Schülern. In großen Schulstudien der 70er Jahre konnte Fend immerhin zeigen, dass in Schulen, deren Lehrer sich für ihre Beziehungen zu den Schülern engagieren und Verantwortung für das soziale Klima übernehmen, besonders wenig abweichendes Verhalten berichtet wird. Andere Schulmerkmale wie z. B. die Reichhaltigkeit des Schullebens oder die Kooperation im Kollegium schienen das Sozialverhalten der Schüler hingegen nicht zu beeinflussen (Fend, 1998, S. 80 und S. 113). Neuere Untersuchungen zu Gewalt in der Schule weisen daraufhin, dass negative Schüler-Lehrer Beziehungen bzw. restriktives Lehrerverhalten mit Aggression von Schülern einhergeht (vgl. Holtappels, Heitmeyer, Melzer & Tillmann, 1997). AufSchulebene besteht also ein Zusammenhang zwischen sozial unerwünschtem Schülerverhalten und Gleichgültigkeit bzw. Restriktivität der Lehrer. Die Querschnittstudien lassen indes offen, wer hier wen beeinflusst, und sie geben keine Hinweise auf die individuelle Entwicklung sozialer Kompetenzen. Die Längsschnittstudie "Bildungsverläufe und soziale Entwicklung im Jugendalter (BIJU)" des Max-Planck-Instituts für Bildungsforschung konnte jedoch zeigen, dass einzelne Schulen und auch Schulformen spezifische Entwicklungschancen bieten: Selbst wenn man die psychosozialen und intellektuellen Ausgangsbedingungen der Schüler berücksichtigt, entwickeln sich Aspekte ihrer sozialen Kompetenz wie z. B. Perspektivenübernahme und motivationale Orientierungen im Verlauf der Sekundarstufe I unterschiedlich günstig (Baumert, Köller & Schnabel, 2000). Was kann die einzelne Lehrerin oder der einzelne Lehrer tun, um die soziale Kompetenz von Schülern zu fördern? Eine- ebenfalls in der Reformpädagogik wurzelndeEmpfehlung ist, Schüler im (Gruppen-) Unterricht kooperieren zu lassen. Verschiedene Studien haben gezeigt, dass kooperatives Lernen die sozialen Fertigkeiten von Schülerinnen und Schülern fördern kann. Allerdings weisen die Befunde auch darauf hin, dass solche Gruppenaktivitäten aktiv und gezielt gestaltet werden müssen, damit sie ihre positiven Effekte entfalten können. Die Aufgabe muss die Mitglieder der Gruppe dazu zwingen, sich tatsächlich auszutauschen und jeweils Verantwortung für bestimmte Teile des Gesamtergebnisses zu übernehmen. Schließlich können soziale Kompetenzen durch gezielte Trainingsmaßnahmen gerordert werden. Ein gut erprobter Ansatz zur Reduktion und Prävention von Gewalt in der Schule ist beispielsweise das Interventionsprogramm von Olweus (1995), das auf der Ebene der Schule, der Klasse und des Individuums ansetzt. Als weiteres Beispiel ist das -von Petermann und Mitarbeitern (1999) entwickelte- Training sozialer Fertigkeiten zu nennen. Dieses Training umfasst eine Reihe von Komponenten (z. B. Rollenspiele, Entspannungsübungen, Vereinbarung und gemeinsame Überwachung von Verhaltensregeln), die folgende Aspekte von Sozialverhalten fördern sollen: differenzierte soziale Wahrnehmung, Erkennen und Äußern von Gefühlen, angemessene Selbstbehauptung, Kooperation und Einfühlungsvermögen. Eine umfassende Evaluation dieses Programms steht allerdings noch aus. Neue Messverfahren für soziale Kompetenzen, wie sie jetzt in Schulleistungsstudien entwickelt werden, können bei der Überprüfung der Wirksamkeit von Verfahren zur Förderung sozialer Kompetenz, aufdie allzu oft verzichtet wird, weiterhelfen.

218

Eckhard Klieme, Cordula Artelt und Petra Stanat

Fazit Die Darstellungen zu den drei Kompetenzbereichen haben illustriert, dass Schlüsselqualifikationen wie Problemlösekompetenz, Lernkompetenz und soziale Kompetenz tatsächlich relativ präzise beschrieben und sogar in Messinstrumenten konkretisiert werden können, wenn man geeignete psychologische Forschungen heranzieht. Allerdings sind die konzeptionellen, diagnostischen und pädagogischen Fragen, die mit fächerübergreifenden Kompetenzen verbunden sind, keineswegs gelöst. Wunsch und Wirklichkeit klaffen in der Diskussion weiterhin auseinander. So ist deutlich geworden, dass keine der genannten Kompetenzen durch einen einzigen, universellen Indikator erfasst werden kann. Die Qualität des Problemlösens, der Selbstregulation und des sozialen Verhaltens ist jeweils nur durch ein Profil darstellbar. Immerhin lässt sich jedoch recht gut beschreiben, welche Komponenten zu diesen Profilen gehören. Zurückhaltung ist angezeigt, wenn nach Möglichkeiten des Kompetenztransfers und der schulischen Förderung gesucht wird. Unbestreitbar hat Schule in unserer Kultur einen großen Einfluss auf die Entwicklung allgemeiner Kompetenzen. Es ist jedoch schwer, konkrete Rahmenbedingungen oder Maßnahmen zu nennen, die direkt und explizit auf solche Kompetenzen wirken. Einfache Botschaften- etwa, dass fächerübergreifende Kompetenzen am besten durch fächerübergreifende Projektarbeit zu fördern seienentbehrenjeder empirischen Basis. Weinert (1998b, S. 41) spricht vorsichtig vom ''beständigen Ausbalancieren zwischen inhaltlichem Wissenserwerb und der Vermittlung formaler Schlüsselqualifikationen auf unterschiedlichen Allgemeinheitsebenen". Er setzt vor allem auf die gezielte Förderung von metakognitiver Regulation und Metawissen im Kontext fachlichen Lemens. Die Einbeziehung fächerübergreifender Kompetenzen in Schulleistungsstudien hat somit folgende Funktionen: (1) Sie trägt dazu bei, Zielvorstellungen in diesem Bereich zu präzisieren. (2) Sie stellt Modelle und Methoden zur Verfiigung, die es leichter machen, Aspekte bereichübergreifender Kompetenzen zu erkennen und zu prüfen. (3) Sie ermöglicht- im Rahmen des komplexen Gesamtdesigns einer solchen Studie-, Wechselwirkungen zwischen fachlichem und fächerübergreifendem Lernen sowie kognitiven und motivationalen Faktoren zu untersuchen, die in der Lehr-Lern-Forschung bislang nicht genügend berücksichtigt worden sind. (4) Sie verhilft zu einem realistischen Bild der Beeinflussbarkeit von Schlüsselqualifikationen durch schulische Maßnahmen. (5) Sie liefert an einzelnen Punkten, vor allem bei der Selbstregulation des Lernverhaltens, konkrete Hinweise fiir Förderungsbemühungen.

Powered by TCPDF (www.tcpdf.org)

KAPITEL 15

Leistungen im Bereich der beruflichen Bildung Gerald A. Straka

Derzeit befindet sich die Mehrheit, also über die Hälfte der 17jährigen Jugendlichen in den beruflichen Bildungsgängen der Sekundarstufe li, welche innerhalb des gesamten Bildungssystems den direktesten Bezug zur Arbeitswelt aufweisen. Die funktionaldifferenzierte Gesellschaft als globalisierte Informations- und Marktgemeinschaft wirkt sich mit steigender Komplexität insbesondere auf Bildungsaufträge und Strukturen des beruflichen Bildungssystems aus. In der industriellen Produktion führte der Übergang von der tayloristischen zur "schlanken" Produktion dazu, dass selbständige Planung, Durchfiihrung und Kontrolle zunehmend einfache repetitive Arbeitstätigkeiten ersetzen. Darüber hinaus verlieren ältere, handwerkliche und ganzheitliche Berufe- wie Sattler, Geigenbauer, Korbmacher - mehr und mehr an Bedeutung. Andere, anerkannte und zahlenmäßig bedeutsame Berufe erhalten eine neue Ausrichtung: Bei den neugeordneten Ausbildungsberufen im Bank- und Versicherungswesen findet eine Verlagerung vom "back-office zum front-office" statt, die mit höherer Gewichtung kommunikativer Kompetenzen einhergeht. Hinzu kommen neue exponentiell wachsende "Zukunftsberufe" im Bereich der Informations- und Telekommunikationstechnik - kurz IT-Berufe. Sie umfassen nicht nur neue Qualifikationen, sondern beinhalten auch eine Aufhebung der klassischen Trennung zwischen gewerblichen und kaufmännischen Funktionen. Eine Folge dieser skizzierten Entwicklungen ist der Übergang von einer "statischen" zur "offenen und dynamischen Beruflichkeit", die ihrerseits schrittweise eine fortlaufende Veränderung des Ausbildungsauftrags in der Berufsbildung bewirkt. Durch den steigenden Einsatz von Technik werden Ausbildungsinhalte hinfallig- z. B. Feilen von Metall- oder erhalten ein anderes Gewicht - z. B. eine ausschließlich buchhalterische Bearbeitung von Geschäftsvorgängen. Neue Ausbildungsinhalte kommen hinzu, z. B. "Denken und Handeln" in komplexen Zusammenhängen als eine Folge der Orientierung an Geschäfts- und Arbeitsprozessen. Diese Entwicklungen blieben nicht ohne Wirkung auf die Erfassung und Beurteilung von beruflichen Leistungen. Es herrscht hinsichtlich der Forderung nach einer Veränderung des Prüfungswesens Konsens. In welche Richtung es allerdings dabei gehen soll, wird derzeit kontrovers diskutiert, wobei das Niveau sehr allgemein und die zugrundeliegende Begrifflichkeit sehr verschieden ist.

220

Gerald A. Straka

Vor diesem Hintergrund sollen im Folgenden einige Besonderheiten der beruflichen Bildung herausgearbeitet, Veränderungen des Bildungsauftrags von Schule und Betrieb aufgezeigt, daraus sich abzeichnende Tendenzen im Prüfungswesen skizziert und schließlich Desiderate über die Erfassung und Beurteilung beruflicher Leistungen genannt werden.

Konstitutive Merkmale der beruflichen Bildung Das berufliche Schulwesen setzt sich zusammen aus Berufsfachschulen als einer Vielzahl berufsvorbereitender und berufsqualifizierender Bildungsgänge, Berufsschulen als Teilzeitschulen zur Ergänzung der betrieblichen Berufsausbildung, Berufsaufbauschulen als Teil des zweiten Bildungswegs, Fachoberschulen zum Erwerb einer Fachhochschulreife als berufsbezogene Hochschulberechtigung und Fachschulen fiir die berufliche Weiterbildung bereits Ausgebildeter. Zu Beginn der 50er Jahre gab es fast 1000 Ausbildungsberufe, die entsprechende Bildungsgänge erforderten und dem beruflichen Bildungswesen den Vorwurf eines "organisierten Chaos" einbrachten. Die Reduktion der Ausbildungsberufe auf inzwischen unter 400 Berufe zeigt jedoch, dass sich das berufliche Bildungswesen hinsichtlich sozialer, technischer und ökonomischer Anforderungen als sehr anpassungsfähig erwiesen hat. Kennzeichnend fiir die berufliche Bildung in Deutschland sind drei konstitutive Merkmale: duale Berufsausbildung, der staatlich anerkannte Ausbildungsberuf und das Konsensprinzip. Innerhalb des beruflichen Bildungswesens nimmt die Berufsschule eine herausragende Stellung ein. Die Ausbildungsorte Berufsschule und Betrieb und damit das Arbeiten und Lernen in Betrieb und Schule sind kennzeichnend und grundlegend fiir die duale Berufsausbildung, der hierzulande vorherrschenden Ausbildungsform. Etwa zwei Drittel aller Erwerbstätigen in Deutschland haben im Verlaufihres Bildungsweges einmal eine Berufsausbildung in dualer Form abgeschlossen. Die Berufsschule wurde 1999 von weit mehr als 1,6 Millionen Jugendlichen besucht. Der staatlich anerkannte Ausbildungsberuf ist ein zweites Kennzeichen der Berufsbildung in Deutschland. Das ihm zugrunde liegende Berufskonzept geht davon aus, dass eine Befähigung zu qualifizierter beruflicher Tätigkeit einen mehrjährigen, zeitlich zusammenhängenden Bildungsgang erfordert, der über die Qualifikationserfordernisse einzelner Betriebe hinausgeht und die tarif- und sozialrechtliche Absicherung über den Berufsabschluss sichert. Durch Vorgabe einzuhaltender Mindeststandards werden mit staatlich anerkannten Ausbildungsberufen bundesweit geltende und anerkannte Berufsabschlüsse festgelegt, womit Transparenz und Mobilität gesichert werden sollen. Ein Ausbildungsberuf wird in der Regel vom Bundesministerium fiir Wirtschaft in Einvernehmen mit dem Bundesministerium fiir Bildung und Forschung durch eine Ausbildungsordnung geschaffen. Die Erarbeitung neuer oder die Modemisierung bestehender Ausbildungsberufe und ihre Abstimmung mit den Rahmenlehrplänen fiir die Länder über die Kultusministerkonferenz (KMK) erfolgt in einem mehrstufigen, auf

Berufliche Bildung

221

Konsens beruhenden Verfahren - dem dritten konstitutiven Merkmal der Berufsbildung in Deutschland - in das Arbeitgeber, Gewerkschaften, Bund und Länder maßgeblich einbezogen sind. Das auf den ersten Blick bestechende Konsensprinzip hat jedoch auch Nachteile. Es kann sehr langwierig sein, bis sich die Vertreter der Arbeitgeber, Arbeitnehmer und des Bundes auf die Eckwerte, die zu erwerbenden Kenntnisse und Fertigkeiten sowie ihre Überprüfung geeinigt haben. Die Neuordnung der industriellen Elektro- und Metallberufe zog sich über neun Jahre hin. Um einen bildungspolitischen Konsens aller Beteiligten herzustellen, können zentrale Konzepte wie Schlüsselqualifikation und berufliche Handlungskompetenz absichtlich unscharfund sehr offen gehalten sein.

Bildungsauftrag von Betrieb und Schule Bei der Bestimmung der Bildungsaufträge von Betrieb und Schule sind unterschiedliche Institutionen zuständig. Was den Bildungsauftrag der Betriebe betrifft, sind daran die Regelungsinstanz Bundesregierung und die Sozialparteien beteiligt. Aufgrund der Kulturhoheit der Länder obliegt es in letzter Konsequenz jedem der 16 Bundesländer selber den Bildungsauftrag der Schule zu bestimmen.

Zum betrieblichen Bildungsauftrag Zunächst scheint die Bestimmung des Bildungsauftrags des Betriebs unproblematischer zu sein, als die der Schule, zumal dafiir der Konsens zwischen der Regierung und den jeweiligen Spitzenverbänden der Arbeitgeber und Arbeitnehmer ausreicht. Bei näherer Betrachtung ergeben sich allerdings ähnliche Schwierigkeiten wie bei der Formulierung des schulischen Bildungsauftrags. Die einzelnen Ausbildungsberufe variieren hinsichtlich ihres Selbstverständnisses und sind durch verschiedene Traditionen geprägt. Sie reichen von den jungen "Zukunftsberufen" der Informationstechnik über den Industriekaufinann/-frau, Kraftfahrzeugmechaniker/in, Industriemechaniker/in bis hin zum Handwerk gehörende Berufe wie Vergolder/in bzw. Zupfinstrumentenmacher/in. Die Zahl der Auszubildenden kann im ein- bis vierstelligen Bereich liegen. Die Ausbildungsbetriebe können höchst unterschiedliche Produkte herstellen sowie Dienstleistungen anbieten - von einfachen Schrauben bis zu komplexen Anlagen mit Personalschulung und Wartung. So werden Industriekaufleute in Klein-, Mittel- und Großbetrieben mit höchst unterschiedlichen Organisationen und Arbeitsanforderungen ausgebildet. Hinter dem Ausbildungsberuf Industriekaufinann/-frau verbirgt sich daher eine große Spannweite von Inhalten, Lehrformen und Lernchancen. Sie reichen von einer schulförmigen Vermittlung beruflicher Kenntnisse und Fertigkeiten in eigens dafiir eingerichteten betrieblichen Ausbildungseinrichtungen, der Nutzung von Bildungsangeboten aus dem betrieblichen Intranet, dem

222

Gerald A. Straka

Arbeiten und Lernen in Lerninseln in unmittelbarer Anhindung an den Produktionsprozess unterstützt durch hauptamtliche Ausbilder, dem Lernen am Arbeitsplatz unterstützt durch die ausbildungsbegleitende Fachkraft bis zum Lernen außerhalb der Arbeitszeit zu Hause. Diese große Spannweite in Inhalt, Bedeutung, Tradition, Art und Größe der Betriebe hat zur Folge, dass zur Wahrung der Bundeseinheitlichkeit, Vergleichbarkeit und Anerkennung der Ausbildungsberufe die Bundesregierung sich als Ordnungsgeber auf allgemeine und formale Mindestbedingungen beschränkt. Der rechtliche Rahmen dafür ist im Berufsbildungsgesetz (BBiB) von 1969 niedergelegt. Demnach hat die Berufsbildung eine breit angelegte berufliche Grundbildung und die für die Ausübung einer qualifizierten beruflichen Tätigkeit notwendigenfachlichen Fertigkeiten und Kenntnisse in einem geordneten Ausbildungsgang zu vermitteln und den Erwerb der erforderlichen Berufserfahrungen zu ermöglichen. Was unter einer beruflichen Grundbildung zu verstehen ist und welche fachlichen Fertigkeiten und Kenntnisse in einem Ausbildungsberuf anzueignen sind, obliegt den Sozialparteien unter Federfiihrung des Bundesinstituts für Berufsbildung, einer bundesunmittelbaren Körperschaft öffentlichen Rechts, und der Beteiligung des Bundes.

Zum Wandel des betrieblichen Bildungsauftrags Lange Zeit war das Leitbild qualifizierter beruflicher Tätigkeit anweisungs-, Verrichtungs- oder ausführungsorientiert. Dafür wurden die entsprechenden Kenntnisse und Fertigkeiten mit unterschiedlicher Tiefe der Ausarbeitung bestimmt. Beispielsweise hatte der Ausbildungsrahmenplan für den anerkannten "LehrberufBankkaufinann" im Jahr 1961 den Umfang von einer Seite Text. Durch die in der Folge einsetzende Lehrzieldiskussion erstreckte sich dieser Rahmenplan in seiner modernisierten Fassung von 1973 bereits auf sechs Seiten. Gesellschaftlicher und technisch-organisatorischer Wandel in der Arbeitswelt haben dazu geführt, dass neben neuen Kenntnissen und Fertigkeiten berufliches Handeln ganzheitlicher gefasst werden musste. Die Weichenstellung erfolgte mit der Neuordnung der industriellen Metall- und Elektroberufe im Jahr 1987, wonach die Auszubildenden in der Weise auf Ausübung qualifizierter beruflicher Tätigkeit zu befähigen sind, dass diese insbesondere selbständiges Planen, Durchführen und Kontrollieren umfasst. Mit dieser Ergänzung wurde eine breite Diskussion über Handlungsorientierung und Schlüsselqualifikationen in der Berufsbildung ausgelöst. In deren Folge wurden unterschiedlich weit untergliederte Kataloge von Schlüsselqualifikationen ausgearbeitet und neue Unterweisungsformen, insbesondere die Leittextmethode, entwickelt. In Anlehnung an handlungstheoretische Überlegungen ist für diese Methode das Bearbeiten der Phasen Informieren, Planen, Entscheiden, Durchführen, Kontrollieren und Bewerten (vollständige Handlung) kennzeichnend. Schüsselqualifikationen, Handlungsorientierung und Leittextmethode bildeten darüber hinaus den Auslöser für zahlreiche Modellversuche in namhaften deutschen Unternehmen, die überwiegend dokumentiert, aber kaum empirisch begleitet wurden.

Berufliche Bildung

223

Spätestens seit der Ermittlung von über 600 verschiedenen Auslegungen dessen, was Schlüsselqualifikationen denn eigentlich seien, und der Feststellung, dass die Leittextmethode nicht flexibel genug sei und seit den Ergebnissen aus Fallstudien, die zeigen, dass Facharbeiter, die nach der Leittextmethode ausgebildet worden waren, in ihrem beruflichen Handeln keinesfalls die sechs Stufen einer vollständigen Handlung linear durchliefen, ist es um diese Konzepte ruhiger geworden. Darüber hinaus traten andere Inhalte und Ausrichtungen der Ausbildung in den Vordergrund, wie die Erziehung zur unternehmerischen Selbständigkeit, Kundenorientierung oder die Ausrichtung der Ausbildung auf Geschäfts- und Arbeitsprozesse in Unternehmen. Diese Diskussion fand ihren ersten Niederschlag in der Ausbildungsordnung für die IT-Berufe von 1997, in der der Bildungsauftrag um das Handeln im betrieblichen Gesamtzusammenhang ergänzt wurde.

Zum schulischen Bildungsauftrag Im Laufe der Zeit haben sich für den Bildungsauftrag der Berufsschule vier Bereiche herauskristallisiert Fortführung der Allgemeinbildung, Stätte der Erziehung, der ergänzenden Bildungfiir den Beruf und der zweckfreien Bildung durch den Beruf (Schelten, 1994). Sichtbare Zeichen für die Fortführung der Allgemeinbildung sind Fächer wie Deutsch, Fremdsprache, Sozialkunde, Religion und Sport. In den Stundentafeln umfassen diese vier der insgesamt 12 Unterrichtsstunden. Die Berufsschule als Stätte der Allgemeinbildung kann an den Funktionen der Verstärkungen, des Ausgleichs, des Ersatzes oder einer Kombination aus diesen ausgerichtet sein. Bei der Verstärkungsfunktion wird der allgemeinbildende Unterricht in den Dienst des berufsbezogenen Unterrichts gestellt. Für den Deutschunterricht kann das heißen, dass Gebrauchsanweisungen verstehend gelesen oder geschrieben werden, Kundenberatungsgespräche gefiihrt und kriteriengeleitet ausgewertet und beurteilt werden. Demgegenüber wird mit der Ausgleichsfunktion einer vereinseitigenden Ausrichtung der beruflichen Bildung entgegengewirkt. Im Deutschunterricht steht Literatur und deren Interpretation im Vordergrund. Im Religionsunterricht soll zur Sinnklärung der jugendlichen Erwachsenen beigetragen werden. Eine Ersatzfunktion wird verfolgt, wenn die Berufsschule Bildungsaufgaben übernimmt, die andere, wie Betrieb oder häusliches Umfeld, nicht mehr hinreichend erfüllen. Die Berufsschule als Stätte der Erziehung hat die Arbeitstugenden im Blickfeld. Dazu zählen Genauigkeit, Zuverlässigkeit, Qualitäts- und Verantwortungsbewusstsein, Selbstkonzept, Selbstvertrauen, Identität, ethisch-moralische Prinzipien, ökologische Verantwortung, Kooperationsbereitschaft und -fähigkeit, Kommunikationsfähigkeit oder friedfertiges und tolerantes Konfliktmanagement Allgemeines Ziel ist die Mitgestaltung in Arbeitwelt und Gesellschaft in sozialer und ökologischer Verantwortung. Als Ort der ergänzenden Bildungfiir den Berufgeht es der Berufsschule um die Ergänzung der betrieblichen Bildungsarbeit vornehmlich im kognitiven und teilweise auch im psychomotorischen Bereich. Sichtbare Zeichen dafür sind Fächer wie Fachtheorie,

224

Gerald A. Straka

praktische Fachkunde, Fachrechnen und Fachzeichnen fiir das Berufsfeld Metall oder Industriebetriebslehre und Rechnungswesen fiir Industriekaufleute. Es handelt sich dabei überwiegend um verschiedene Formen des Wissens, das fiir die Ausübung eines Berufs erforderlich ist. Demgegenüber geht es bei der zweckfreien Bildung durch den Berufum den Bereichjenseits der beruflichen Nützlichkeit. Das im Betrieb aufHandeln und Vollzug ausgerichtete Erlernte soll in der Schule begründet, erläutert, vertieft, erweitert und geordnet werden. Überblicke, Zusammenhänge, Wesentliches, Fundamentales und Systematik versus Kasuistik stehen im Vordergrund. Die Leitidee ist der im Idealfall allseitig gebildete Facharbeiter bzw. Angestellte oder, wie eine in diesem Zusammenhang gebrauchte Formulierung ausdrückt: nicht Menschen zu Tischlern (Bildung fiir den Beruf), sondern Tischler zu Menschen bilden (Bildung durch den Beruf).

Zum Wandel des schulischen Bildungsauftrags Neben der Fortfiihrung der Allgemeinbildung und der Erziehung hatte die Berufsschule mit der Bildung durch den Beruf ein Feld besetzt, welches sie allein beanspruchte. Dies wurde von Seiten der Betriebe als notwendig angesehen und kaum in Frage gestellt. Durch den technisch-organisatorischen Wandel gerät diese Arbeitsteilung verstärkt ins Wanken. Eine zunehmend qualifizierte berufliche Tätigkeit im Betrieb ohne klares, stabiles, strukturiertes Begriffs- und Verfahrenswissen, theoretische Begründungen und V erstehen systematischer Zusammenhänge ist im heutigen Arbeitsleben kaum mehr möglich. Durch diese Entwicklung wird Bildung durch den Beruf zunehmend zur Bildung für den Beruf. Letztere wird aber auch in den Betrieben teilweise selbst durchgefiihrt, womit genuine Felder der schulischen Berufsbildung betrieblich besetzt werden. Berufspraktische Ausbildung im Betrieb und berufstheoretische Ausbildung in der Berufsschule überlappen sich, so dass eine Konvergenz der Bildungsinhalte und Bildungsformen zwischen Berufsschule und Betrieb festzustellen ist (Schelten, 1994). Ein besonderes Zeichen dieser Entwicklung stellt das in den frühen 70er Jahren durch Dieter Mertens in die Diskussion eingebrachte Konzept der Schlüsselqualifikationen dar. Ausgehend von der Frage, wie die Menschen der modernen, sich stetig weiter differenzierenden Gesellschaft künftig zu schulen seien, stellt er fest, dass der Bildungskanon nicht mehr Angelegenheit zweckfreier Bildungstheorien sein kann, sondern eine Aufgabe der Arbeitsmarkt- und Berufsanalyse ist. Unter Schlüsselqualifikationen versteht er übergeordnete Bildungsziele und Bildungselemente, die den Schlüssel zur raschen und reibungslosen Erschließung von wechselndem Spezialwissen bilden. Sie übergreifen Fächer und Berufe und umfassen Fähigkeiten und Eigenschaften wie Denken in Zusammenhängen, Flexibilität, Kommunikationsfahigkeit, Kreativität, Problemlösefahigkeit, Selbständigkeit, Transferfahigkeit und Zuverlässigkeit - allesamt durchaus Bestandteile des schulischen Bildungsauftrags. Dieser markt-und verwertungsbezogenen Bestimmung des Bildungsauftrags setzte die Schule mit dem Kompetenzbegriff eine personenbezogene Sichtweise entgegen. Wurde anfänglich Berufsfahigkeit mit Fachkompetenz umschrieben, die allgemeine Fähigkeiten humaner und sozialer Art miteinander verbindet, verständigte sich die KMK

Berufliche Bildung

225

1996 darauf, den Aufbau von Handlungskompetenz zum Bildungsauftrag der Berufsschule zu machen. Handlungskompetenz geht vom Individuum aus und umfasst die Bereitschaft und Fähigkeit des Einzelnen, sich in beruflichen, gesellschaftlichen und privaten Situationen sachgerecht, durchdacht sowie individuell und sozial verantwortlich zu verhalten. Sie entfaltet sich in den Dimensionen Fach-, Personal- und Sozialkompetenz. Dabei bezeichnet Fachkompetenz die Bereitschaft und Fähigkeit, auf der Grundlage fachlichen Wissens und Könnens Aufgaben und Probleme zielorientiert, sachgerecht, methodengeleitet und selbständig zu lösen und das Ergebnis zu beurteilen. Personalkompetenz bezeichnet die Bereitschaft und Fähigkeit, als individuelle Persönlichkeit die Entwicklungschancen, Anforderungen und Einschränkungen in Familie, Berufund öffentlichem Leben zu klären, zu durchdenken und zu beurteilen, eigene Begabungen zu entfalten sowie Lebenspläne zu fassen und fortzuentwickeln. Sie umfasst personale Eigenschaften wie Selbständigkeit, Kritikfähigkeit, Selbstvertrauen, Zuverlässigkeit, Verantwortungs- und Pflichtbewusstsein. Zu ihr gehören insbesondere auch die Entwicklung durchdachter Wertvorstellungen und die selbstbestimmte Bindung an Werte. Sozialkompetenz bezeichnet die Bereitschaft und Fähigkeit, soziale Beziehungen zu leben und zu gestalten, Zuwendungen und Spannungen zu erfassen, zu verstehen sowie sich mit anderen rational und verantwortungsbewusst auseinander zu setzen und zu verständigen. Hierzu gehört insbesondere auch die Entwicklung sozialer Verantwortung und Solidarität. Infolge der Ausrichtung des Bildungsauftrags auf Handlungsorientierung wird das bislang vorherrschende Fächerprinzip relativiert. Ausgangspunkt sind nicht mehr Begriffe und Prinzipien eines Fachs, sondern Situationen in unterschiedlichen gesellschaftlichen Bereichen. Insofern ist es nur folgerichtig, dass sich die KMK auf das Lernfeldkonzept verständigt hat, das die Grundlage fiir den Unterricht an Berufsschulen bildet. Lernfelder sind durch Zielformulierung, Inhalte und Zeitrichtwerte beschriebene thematische Einheiten, die an beruflichen Aufgabenstellungen und Handlungsabläufen orientiert sind. Bedingt durch das Konsensprinzip, das lediglich einen weiten Rahmen mit offener Begrifflichkeit flir die Berufsbildung konstituiert und durch die Kulturhoheit der Länder, werden die Lernfelder von Bundesland zu Bundesland verschieden umgesetzt. Sie reichen von einer radikalen Auflösung der Fächer bis zur Beibehaltung der Fächer mit fächerübergreifenden Themen und handlungsorientierter Bearbeitungsweise.

Unterschiede und Gemeinsamkeiten des betrieblichen und schulischen Bildungsauftrags Ziel betrieblicher Ausbildung ist der Aufbau von Kenntnissen und Fertigkeiten bzw. die Befähigung zur Ausübung beruflicher Tätigkeit. Im Unterschied dazu besteht der Bildungsauftrag der Schule im Aufbau der Bereitschaft und Fähigkeit in beruflichen, gesellschaftlichen und privaten Situationen angemessen handeln zu können. Die Schnittmenge beider Bildungsaufträge bilden berufliche Situationen. Hier münden beide Bil-

226

Gerald A. Straka

dungsau:fträge in ein Gemeinsames ein. Schule hat aber darüber hinausgehende Situationen ausdrücklich im Blickpunkt, was sich nicht zuletzt aus ihrem allgemeinbildenden Auftrag ergibt. Eine weitere Gemeinsamkeit besteht darin, dass die Bereitschaften, Fähigkeiten und Kenntnisse durch selbständiges Planen, Durchführen und Kontrollieren des eigenen Handeins und Lernens aufgebaut werden sollen. Während diese Art des Handeins und Lernens immer schon explizit oder implizit zu:m Bildungsauftrag der Schule gehört, ist diese Ausrichtung fiir den Betrieb relativ neu. Deutliche Unterschiede ergeben sich aus denjeweiligen Umgebungsbedingungen. Die Umsetzung des betrieblichen Bildungsauftrags vollzieht sich im Idealfall durch Einbindung in den Prozess der Leistungserstellung. Die dort zu bearbeitenden Aufgaben ergeben sich aus dem Zweck und der Organisation des jeweiligen Betriebs und weniger aus pädagogischer Absicht heraus, die ggf. dann zu:m Zuge kommt, wenn beim Vorliegen von Alternativen diejenige gewählt wird, die das höchste Lernpotential enthält. Insofern ist es nachvollziehbar, wenn die betriebliche Seite den Aufgaben und Situationen relativ wenig Beachtung zukommen lässt - sie sind einfach da - und das Hauptaugenmerk auf die Art und Weise ihrer Bearbeitung richtet. Demgegenüber konzentriert sich die Schule auf die Bildungs- und Lehrziele, mit denen angestrebte Veränderungen von Persönlichkeitsmerkmalen beschrieben werden. Da sich die Schule nicht dem Diktat des Betriebszwecks beugen muss, steht es ihr offen, Aufgaben aus lehr-lern-theoretischer Sicht zu konstruieren, damit sie ihren Bildungsauftrag realisieren kann. Dieser Spielraum scheint jedoch mit der Einführung der Lernfelder, die sich an beruflichen Aufgabenstellungen und Handlungsabläufen zu orientieren haben, eingegrenzt zu werden. Insofern scheint das Lernfeld in einem weiteren Schritt zur Konvergenz der Bildungsaufträge zu führen, deren Auslotung sich in aktuell stattfindenden Diskussionen widerspiegelt.

Entwicklungstendenzen im Prüfungswesen Die Dualität der Berufsausbildung in Deutschland gilt als das Markenzeichen der Qualität unseres Bildungswesens. Im Vergleich zu anderen Ländern findet ein weit reibungsloserer Übergang von der Schule in die Arbeitswelt statt. Die Jugendarbeitslosigkeit ist verhältnismäßig niedrig. Wird jedoch ergänzend zu diesen grobkörnigen Indikatoren danach gefragt, welche Kenntnisse, Fertigkeiten, Qualifikationen und neuerdings Kompetenzen im Rahmen der Berufsausbildung erworben werden, wird ein "weißer Fleck" offenbar. Es liegen so gut wie keine internationalen Leistungsvergleiche vor, die denen von TIMSS oder PISA nahe kommen. Gründe dafiir sind, dass das Berufskonzept überwiegend im deutschsprachigen Kulturraum verbreitet ist sowie unterschiedliche Organisationsformen von Arbeit und kulturelle Eigenheiten bestehen. Darüber hinaus sind die zu erzielenden Qualifikationen der Auszubildenden anders beschaffen und geschnitten,

Berufliche Bildung

227

das berufliche Bildungswesen anders strukturiert (beispielsweise Modularisierung) und schließlich sind andere Konzepte ftir die Qualifizierung zur Erwerbstätigkeit leitend (beispielsweise "human resource development" (HRD)). Auf nationaler Ebene gibt es -wenn von den Abschlussprüfungen und den Schulzeugnissen einmal abgesehen wird - kaum darüber hinausgehende und zugängliche Leistungsmessungen. Ergebnisse der Abschlussprüfungen werden beispielsweise zusammengefasst im jährlichen Berufsbildungsbericht der Bundesregierung veröffentlicht. Dort ist nachzulesen, dass bei den 1998 abgenommen 577 584 Prüfungen die Erfolgsquote bei 94,6% (ohne Wiederholer 84,3 %) lag. Eine weitere Differenzierung erfolgt vermutlich auch deshalb nicht, weil Prüfungsaufgaben nicht selten wegen offensichtlicher Fehler oder juristischer Einsprüche mit der gesamten erreichbaren Punktzahl in das Prüfungsergebnis aller Prüflinge eingehen. Außerdem gibt es so gut wie keine öffentlich zugänglichen und standardisierten Instrumente zur Erfassung beruflicher Kompetenzen. Eine Ausnahme ist der "Wirtschaftskundliche Bildungs-Test (WBT)", eine deutschsprachige Adaption des "Test ofEconomic Literacy (TEL)" aus den USA. Eine Querschnittstudie ergab, dass sich die Messwerte von Schülern aus Allgemeinen Gymnasien, Wirtschaftsgymnasien und Industrie-, Bank- und Versicherungsklassen - Ausbildungsberufe, die überwiegend von Abiturienten gewählt werden- mit 53 %bis 55 %richtigen Lösungen nicht unterscheiden. Deutlich niedriger lag der Anteil der richtigen Bearbeitungen bei Schülern in Realschulen, Berufsfachschulen und aus Einzelhandelsklassen (33 %bis 35 %). Die Autoren ziehen daraus den Schluss, dass in Bezug auf Wirtschaftsfragen von einem "ökonomischen Analphabetismus" weiter Schülerkreise gesprochen werden kann (Sczesny & Lüdecke, 1998). Andererseits spricht das Ergebnis auch dafur, dass mit diesem Instrument wirtschaftskundliehe Grundbildung und die berufs- bzw. berufsfeldspezifischen Kompetenzen nicht erhoben werden, da sich keine bedeutsamen Unterschiede zwischen schulischen und dualen Bildungsgängen zeigten. Aufgrund der ausgesprochen dürftigen empirischen Befundlage soll daher auf die praktizierten Methoden der Erfassung beruflicher Qualifikationen und Kompetenzen eingegangen werden. Aber auch hier stellen sich, der besonderen Struktur der Berufsbildung und der Datenlage wegen, Probleme. Zu den beiden Ausbildungsorten Betrieb und Schule gesellt sich eine weitere Einrichtung. Es sind die Kammern als private Körperschaften öffentlichen Rechts, denen die Durchführung der gesetzlich vorgeschriebenen Zwischenprüfungen und Berufsabschlussprüfungen obliegt. Ein Problem besteht auch darin, dass die Leistungen der Betriebe und der Berufsschule - ausgenommen Baden Württemberg - nicht direkt in das Prüfungsergebnis eingehen. Die Leistungen der Schule sollen darüber hinaus nur insofern berücksichtigt werden, als dass in der Abschlussprüfung gezeigt werden soll, dass der Prüfling mit dem im Beruftschulunterricht vermittelten, für die Beruftausbildung wesentlichen Lehrstoff vertraut ist. Der Garant fur die Einhaltung dieser Vorgabe dürfte die Lehrkraft sein, die laut Gesetz Mitglied des Prüfungsausschusses sein muss. Die Betriebe üben sich auf dem Gebiet der Prüfungen bislang in Zurückhaltung, nicht zuletzt deshalb, weil ihre Interessen über die Kammern vertreten werden und die Ergeh-

228

Gerald A. Straka

nisse ihrer Leistungsbeurteilungen nicht wie bei der Schule in das Berufsabschlusszeugnis- das von den Kammern ausgestellt wird- eingehen. Hinzu kommt, dass Entscheidungen hinsichtlich der Übernahme von Auszubildenden nach der Ausbildung aufgrund tarifrechtlicher Bestimmungen schon vor Kenntnis des Ergebnisses der Abschlussprüfung zu treffen sind. Nach welchen Kriterien diese Entscheidungen erfolgen, wie Betriebe die erworbenen beruflichen Qualifikationen erfassen und beurteilen, ist in der Regel nicht transparent und zugänglich. Insofern überrascht es nicht, wenn sich die derzeitige Diskussion und Kritik bezogen auf die Ermittlung und Bewertung beruflicher Leistungen auf die Abschlussprüfung der Kammern konzentriert. Tendenzen in dieser Diskussion, die noch keinesfalls abgeschlossen ist, die jedoch schon zu veränderten Prüfungsformen geführt hat, sollen im Folgenden skizziert werden.

Herkömmliche Berufsabschlussprüfungen bzw. Folgen der Vereinheitlichungsempfehlung

Unter Zugrundelegung der Ausbildungsordnung ist in der Berufsabschlussprüfung festzustellen, ob der Prüfling die erforderlichen Fertigkeiten, die notwendigen praktischen und theoretischen Kenntnisse beherrscht, und ob er mit dem, im Berufsschulunterricht vermittelten, fiir die Berufausbildung wesentlichen Lehrstoffvertraut ist. Das vorherrschende Fächerprinzip, d. h. die Fiktion einer Trennung zwischen Kenntnissen, die vorwiegend in der Schule, und praktischen Fertigkeiten, die im Betrieb vermittelt wurden, mündete in die Vereinheitlichungsempfehlung des Hauptausschusses des Bundesinstituts fiir Berufsbildung von 1980. Sie unterscheidet nach gewerblichen und kaufmännisch verwaltenden Berufen und empfiehlt, die in ihr niedergelegte Struktur bei allen anderen Ausbildungsberufen entsprechend anzuwenden. Im gewerblichen Bereich besteht die schriftliche Kenntnisprüfung aus den Fächern Technologie, Technische Mathematik, Technisches Zeichnen sowie Wirtschafts- und Sozialkunde (insgesamt drei Stunden). Die Prüfung praktischer Fertigkeiten sollte in der Regel14 Stunden nicht überschreiten. Sie umfasst die Anfertigung mehrerer Prüfungstücke und Arbeitsproben. Zusätzlich kann bei Bedarf eine mündliche Ergänzungsprüfung durchgeführt werden.

Im kaufmännisch-verwaltenden Bereich sind es in der Regel drei Fächer, und zwar die Betriebswirtschaftslehre des jeweiligen Berufs (z. B. Bankbetriebslehre), Rechnungswesen sowie Wirtschafts- und Sozialkunde, die geprüft werden. Der mündliche Teil der Prüfung besteht aus sogenannten "praktischen Übungen" von höchstens 30 Minuten Dauer, meist in Form eines Prüfungsgesprächs beispielsweise über praktische Fälle oder Aufgaben. Bei Bedarf kann eine mündliche Ergänzungsprüfung_ durchgeführt werden. In den handwerklichen und gewerblich-technischen Ausbildungsberufen bildet die praktische Prüfung den zentralen Teil der Abschlussprüfung. Arbeitsproben und Prüfungs- bzw. Gesellenstücke sollen den Nachweis erbringen, dass berufsrelevante Fertigkeiten während der Ausbildung erworben wurden. In den beruflichen Abschlussprüfungen bestehen Arbeitsproben aus standardisierten Aufgaben, in denen typische

Berufliche Bildung

229

berufliche Arbeitsaufträge oder Teilaspekte unter Aufsicht zu bewältigen sind. Beurteilt wird sowohl das Arbeitsergebnis als auch die Arbeitsdurchftihrung. Ein Prüfungsstück besteht aus einem typischen Produkt des Ausbildungsberufs, das vom Prüfungsteilnehmer nach Vorgaben teilweise über einen längeren Zeitraum angefertigt wird. Für die bundesweiten schriftlichen Abschlussprüfungen werden überwiegend die Prüfungsaufgaben ftir den gewerblichen Bereich von der "Prüfungsaufgaben- und Lehrmittelentwicklungsstelle der Industrie- und Handelskammer Stuttgart (PAL)" und ftir den kaufinännisch-verwaltenden Bereich von der "Aufgabenstelle ftir kaufinännische Zwischen- und Abschlussprüfungen bei der IHK Nümberg (AkA)" erstellt. Diese schriftlichen Prüfungen bestehen weitgehend aus geschlossenen bzw. "programmierten" Aufgaben. Das fUhrt dazu, dass ftir etwa 100 gewerblich-technische Berufe mit einem inhaltlich und strukturell einheitlichen Frageinstrument geprüft werden kann (Schmidt, 1998). Die hier beschriebene Praxis der schriftlichen Berufsabschlussprüfung hat zur Standardisierung und Objektivität, zur Vergleichbarkeit und- was nicht zu vernachlässigen ist- zur Ökonomie der jährlich mehreren hunderttausend Prüfungen in der dualen Berufsbildung beigetragen. Im Zuge der Präferenz von Handlungsorientierung, wie sie mit der Reform der industriellen Metall- und Elektroberufe eingeleitet und von anderen Berufen übernommen wurde, kam zunehmend Kritik an dieser Art von Prüfung auf. Bemängelt wurde vor allem das punktuelle Wissensabfragen, die als wenig handlungsorientiert galt. Gefordert wurden praxisnahe Prüfungen, wie die Erfassung von Handlungskompetenz mit veränderten schriftlichen Aufgaben, die Aufhebung der Trennung zwischen Kenntnissen und Fertigkeiten durch "integrierte Prüfungen", die Einftihrung "ganzheitlicher Aufgaben" oder "betrieblicher Projekte".

Veränderungen im schriftlichen Prüfungsteil Die Kritik richtete sich im Wesentlichen an den Deutschen Industrie- und Handelstag (DIHT), den Dachverband der Industrie- und Handelskammern und Verfechter der "programmierten" Aufgaben. Dieser selbst initiierte ein Forschungsprojekt mit der zentralen Frage, inwieweit mit geschlossenen bzw. "programmierten" Aufgaben Aspekte beruflicher Handlungskompetenz erfasst werden können (Blum, Hensgen, Kloft & Maichle, 1995). Auf der Grundlage einer Aufarbeitung der verschiedenen Definitionen von Handlungskompetenz wird zwischen Prozess- und Dispositionsorientierung unterschieden. Der dispositionsorientierte Ansatz fragt danach, welche Kompetenzen (Fachwissen, Fertigkeiten, Schlüsselqualifikationen) eine Person benötigt, um in beruflichen Situationen erfolgreich handeln zu können. Der prozessorientierte Ansatz konzentriert sich demgegenüber auf die Handlungen bei der Bearbeitung der Lösung berufstypischer Aufgaben bzw. Situationen. Ausgehend von der in den Ausbildungsordnungen vorgegebenen vollständigen Handlung, die durch das selbständige Planen, DurchfUhren und Kontrollieren gekennzeichnet ist, entwickeln die Projektnehmer ein erweitertes HandlungsmodelL Es besteht idealtypisch aus den Schritten Ziel verstehen und setzen (1), Ausgangssituation analysieren (2), Arbeitsschritte bestimmen (Handlungsablauf

230

Gerald A. Straka

planen) (3), Handlungspläne bewerten/Entscheidungentreffen (4), AusfUhren (5), Kontrollieren/Handlungen bewerten (6). Auf der Grundlage dieses Prozessmodells des Handeins wurde ein Leitfaden zur Erstellung handlungsorientierter Aufgaben fiir die schriftliche Abschlussprüfung von Bürokaufleuten und Industriemechanikerlinnen der Fachrichtung Betriebstechnik entwickelt, erprobt und evaluiert. Das in ihm enthaltene allgemeine Schema einer handlungsorientierten, programmierten Aufgabe unterscheidet Situationsbeschreibung, Fragen und Antwortalternativen. Mit der Situationsbeschreibung wird eine konkrete berufliche Situation bzw. ein Arbeitsauftrag einschließlich aller notwendigen Arbeitsunterlagen (z. B. Auszug aus Wartungsplänen, Zeichnungen, Stücklisten, Prüfprotokollen) beschrieben. Die Fragen beziehen sich auf einzelne der sechs Schritte der beruflichen Handlung, wobei immer danach gefragt wird, wie die einzelnen Arbeitschritte bewältigt _werden können. Die Antwortalternativen bestehen aus richtigen und falschen Vorschlägen über Maßnahmen zur Bewältigung des betreffenden Arbeitsschritts. Bei Beachtung dieser Vorgaben ließen sich Aufgaben entwickeln, die obwohl geschlossen, einen deutlicheren Bezug zum beruflichen Handeln haben als die "herkömmlichen" Aufgaben, die nach allgemeiner Einschätzung isoliert Wissen abfragen. Mit der Neuordnung der Büroberufe im Jahr 1991 fand das Modell der vollständigen Handlung aus dem gewerblich-technischen in den kaufinännisch-verwaltenden Bereich Einzug. Im Rahmen eines Modellversuchs in Kooperation mit der Handwerkskammer Osnabrück-Emsland und den Berufsbildenden Schulen der Stadt Osnabrück am Pottgraben wurden vom Institut fiir Berufsbildungsforschung komplexe Prüfungsaufgaben fiir Bürokaufleute (KoPrA) entwickelt (KoPrA, 1999). Grundlage bildete der eben dargestellte prozessorientierte Ansatz der Handlungsorientierung. Allerdings wurde das Handlungsmodell auf fiinf Schritte vereinfacht und die Begrenzung auf geschlossene Aufgaben aufgehoben. Entsprechend wurden Bewertungsrichtlinien fiir offene bzw. "konventionelle" Aufgaben entwickelt. Berücksichtigt wurden typische berufliche Handlungen von Bürokaufleuten im Handwerk. Ein Novum bei der Entwicklung von Ausbildungsberufen war, dass bereits während der Neuordnung des Ausbildungsberufs Versicherungskaufinann/-frau neue Modalitäten der Prüfung beruflicher Leistungen erprobt wurden. Ein entsprechender Modellversuch fiir diesen zahlenmäßig großen Ausbildungsberuf verfolgte den dispositionsorientierten Ansatz. Demzufolge wurde Handlungskompetenz als Einheit fundierten Sachwissens und entsprechender Fähigkeiten verstanden, die kompetentes und effizientes Agieren bei alltäglichen und neuen beruflichen Anforderungen ermöglicht. Beim Sachwissen wurde nach deklarativem Wissen (Wissen "Was"), prozeduralem Wissen (Wissen "Wie") und kontextbezogenem Wissen (Wissen "Wann" und "Wozu") unterschieden. Die Erfassung dieser Kompetenzen erfolgt mittels handlungsorientierter Aufgaben. Sie bestehen aus einem Sachverhalt aus dem Handlungsfeld von Versicherungskaufleuten (Situationsteil), Fragestellungen zum Sachverhalt (Frageteil), Antwortmöglichkeiten (Antwortteil) und einer begründeten Bewertungsvorgabe (BIBB, 1997).

Berufliche Bildung

231

Veränderungen im praktischen Prüfungsteil Mit der Neuordnung der Ausbildung fiir Versicherungskaufleute vollzog sich auch eine Ausrichtung vom Produkt-(= Versicherungsarten) zum Kundendenken. Damit sollte nicht nur Fachwissen fiir den Innendienst, sondern auch und vor allem fiir den Außendienst erworben werden. In diesem Zusammenhang spielte die Kundenorientierung eine zentrale Rolle, insbesondere eine umfassendere und bessere Beratung der Privatkunden. Die Folge davon war, dass die bereits genannten "praktischen Übungen", die nicht selten in Wissensabfragen abglitten, durch das Kundenberatungsgespräch ersetzt wurden. In diesem Prüfungsteil wird ein Gespräch mit einem Kunden simuliert. Einer der Prüfer übernimmt die Rolle des Versicherungsnehmers, der zu Prüfende die des Versicherungskaufmanns. In einem solchen Beratungsgespräch von höchstens 20 Minuten Dauer soll der Prüfling auf der Grundlage einer von zwei ihm zur Wahl gestellten Aufgaben zeigen, dass er in der Lage ist, Gespräche mit Kunden systematisch und situationsorientiert vorzubereiten und zu fiihren. Um eine gewisse Standardisierung zu sichern, wurden in dem bereits genannten Modellversuch Fallvorgaben entwickelt und ein Beurteilungsbogen mit Bewertungsvorschlägen ausgearbeitet. Kriterien der Beurteilung sind Gesprächsfiihrung, Kunden- und Vertriebsorientierung sowie die fachspezifischen Gesprächsinhalte (BIDB, 1997). Mit diesem Prüfungsteil übernahm die Versicherungswirtschaft Vorreiterfunktion: Im Bankwesen und im Hotel- und Gastgewerbe wurde dieser praktische Prüfungsteil als "Beratungs-" oder "gastorientiertes Gespräch" übernommen. Die strikte Trennung zwischen schriftlicher und ''praktischer" Ermittlung und Bewertung beruflicher Leistung wurde aber im Prinzip beibehalten.

Integrierte Prüfungen Mit der Einfiihrung der integrierten Prüfung fiir den Ausbildungsberuf Technische/r Zeichner/in im Jahr 1994 wurde erstmals die Trennung zwischen Kenntnis- und Fertigkeitsprüfung sowie zwischen einzelnen Prüfungsfächern aufgehoben. Die Prüfung orientiert sich an Arbeitsaufträgen und Arbeitsabläufen aus der Berufspraxis. Im Rahmen der Prüfung sind neben Wirtschafts- und Sozialkunde, die konventionell geprüft werden sowie der Möglichkeit einer mündlichen Ergänzungsprüfung, drei komplexe Aufträge zu bearbeiten. Sie bestehen aus dem Anfertigen von technischen Unterlagen. Zwei Aufträge werden durch Prüfungsfragen ergänzt. Ein Auftrag enthält einen Aufgabenteil, der computerunterstütztes Zeichnen (CAD) abverlangt, um damit den Praxisbezug zu erhöhen. Da diese integrierte Prüfung ein Novum in der Prüfungslandschaft ist, wird sie evaluiert. Erste Ergebnisse deuten darauf hin, dass auf diese Weise praxisnähere und damit ökologisch gültigere Prüfungen stattfinden. Allerdings sind die Prüfungsverfahren erheblich aufwendiger. Wird zudem berücksichtigt, dass es sich beim Beruf des Technischen Zeichners/der Technischen Zeichnetin um einen sehr speziellen Beruf handelt,

232

A. Straka

ist fraglich, ob die Form der integrierten Prüfung auf gewerblich-technische oder kaufmännisch-verwaltende Berufe übertragen werden kann (Schmidt, 1998).

Betriebliche Projektarbeit und ganzheitliche Aufgaben Für die IT-Berufe wurde 1997 ein völlig neuer Weg eingeschlagen. Bis auf Wirtschaftsund Sozialkunde wurde das Fächerprinzip aufgehoben. Stattdessen sind aus festgelegten Bereichen zwei ganzheitliche Aufgaben in jeweils höchstens 90 Minuten zu bearbeiten. Der ehemals praktische Teil der Prüfung wurde durch eine betriebliche Projektarbeit abgelöst. In ihr soll ein im Betrieb anfallender Auftrag oder eine abgrenzbare Teilaufgabe in höchstens 35 bis 70 Stunden durchgeführt und dokumentiert werden. Die Projektarbeitist vor einem Prüfungsausschuss zu präsentieren, der mit dem Prüfling darüber ein Fachgespräch zu führen hat. Die Prüfungsform der betrieblichen Projektarbeit hat viele Vorteile: wirtschaftlichen Nutzen für die Betriebe, Authentizität für den Auszubildenden und verringerte Kosten der Prüfung, da keine "künstliche" Prüfsituation hergestellt wird. Da sich die anfallenden Aufgaben von Betrieb zu Betrieb unterscheiden, wurde ein Projekt in Auftrag gegeben, das Qualitätskriterien für diese neue Form der Abschlussprüfung erarbeiteten soll. Auf der Grundlage betrieblicher Standards flir branchentypisches Arbeiten wurden Hilfen für die Betriebe, Aufgabenersteller und Prüfer entwickelt. Sie umfassen beispielsweise Kriterien für die Auswahl und Genehmigung eines Projekts und Bewertungskriterien für die Dokumentation des betrieblichen Projekts.

Erfassung bereichsübergreifender Kompetenzen Mit den bislang vorgestellten Formen der Erfassung und Beurteilung von Leistungen in der beruflichen Bildung sollen von der Zielsetzung her primär Fachkompetenzen erfasst werden. Bei der Anfertigung eines Prüfungsstücks oder der Simulation eines Kundenberatungsgesprächs kommen aber auch fach- bzw. bereichsübergreifende Kompetenzen zum Tragen. Darüber hinaus werden in dem, von der KMK verabschiedeten Bildungsauftrag der Berufsschule, Werthaltungen wie "individuelle und soziale Verantwortung", "Pflichtbewusstsein", "Zuverlässigkeit" und "Solidarität" angesprochen, deren Nachweis durch die Wiedereinführung von "Kopfuoten" in der Schule und der sich daran anschließenden kontrovers geführten Diskussion im aktuellen Interesse steht. Diese allgemein gehaltene Offenheit der Vorgaben könnte in Anbetracht der Kulturhoheit der Länder, der sich abzeichnenden Entwicklung, den Schulen größere Autonomie einzuräumen und den unterschiedlichen Unternehmens- und Betriebskulturen als Chance und Herausforderung angesehen werden, die bereichsübergreifenden Kompetenzen landes-, schul-, branchen-und betriebsspezifisch zu konkretisieren. Diesen Weg hat die DaimlerChrysler AG mit dem Konzept "Ausbildung im Dialog" (AiD) eingeschlagen, das sowohl für gewerblich-technische als auch für kaufmännische Berufe eingesetzt

Berufliche Bildung

233

werden kann (Ripper & Weisschuh, 1999). Es wird als ganzheitliches Beurteilungsverfahren fiir die betriebliche Berufsausbildung betrachtet. Bis zum flächendeckenden Einsatz im Konzern ging eine dreijährige, wissenschaftlich begleitete Erprobungsphase voraus. Dieses Konzept ist das derzeit am besten dokumentierte und begründete. Da es standardisierte Verfahren zur Erfassung und Beurteilung von Kompetenzen vor allem jenseits des Fachlichen umfasst, könnten von ihm aus auch Anregungen fiir die "Kopfnotendiskussion" gewonnen werden. Daher soll dieser Teil von AiD exemplarisch fiir andere derartige Erhebungsverfahren -beispielsweise der Kultusministerien in Sachsen und Thüringen oder das Modell "Entwicklung und Förderung in der Berufsausbildung" (EVA) der Volkswagen AG - ausfiihrlicher dargestellt werden. Bei den fachübergreifenden Kompetenzen bzw. den Schlüsselqualifikationen bei AiD werden Arbeitsmethodik, Eigeninitiative/Selbstständigkeit, Kommunikations-, Kooperations-, Problem/öse- und Verantwortungsfähigkeit unterschieden. Diese Kompetenzen werden weiter konkretisiert, was am Beispiel von Kooperationsfähigkeit veranschaulicht wird: Respektieren der Meinung anderer, wie • Meinungen anderer ernst nehmen, • Überprüfung des eigenen Standpunktes im Gespräch, • gemeinsame Entscheidungen mittragen, • offen und fair mit anderen umgehen. Kontaktverhalten und Unterstützung anderer, wie • Kontakte zu anderen herstellen und unterstützen, • Interesse gegenüber Anliegen anderer zeigen, • eigenes Wissen weitergeben, • andere unterstützen, • Außenseiter in die Ausbildungsgruppe einbinden. AiD geht davon aus, dass sich die fachübergreifenden Kompetenzen nur indirekt über beobachtbares Verhalten erschließen. Um die damit verbundenen Beurteilungsfehler zu begrenzen, wurden folgende Wege eingeschlagen: • Die Beurteilung erfolgt systematisch, indem sie sich über einen längeren Ausbildungszeitraum erstreckt. • Es soll nur tatsächlich beobachtbares Verhalten erfasst und in konkreter Form notiert werden, ohne dass zunächst eine wertende Interpretation vorgenommen wird. Die Beobachtungen werden zum einen schriftlich in den eigens dafiir entwickelten Beobachtungsbogen festgehalten. Zum anderen sollen diese den zuvor beschriebenen Schlüsselkompetenzen zugeordnet werden. • Die Beobachtung erfolgt mit standardisierten Beurteilungsbögen.

234

Gerald A. Straka

• Die Einschätzung des erschlossenen Kompetenzstandes erfolgt mit Hilfe einer einheitlichen Skala von 0 bis 70. • Mit der zuvor beispielhaft dargestellten Operationalisierung der Kompetenzen soll das gemeinsame Verständnis und damit auch die Vergleichbarkeit erhöht werden. • Die Ausbildungskräfte beurteilen die Auszubildenden und die Auszubildenden sich selbst mit den selben Instrumenten (Fremd- und Selbstbeurteilung), um eine möglichst hohe Transparenz zu erreichen. • Auf der Grundlage dieser Einschätzungen findet eine Rückmeldung zwischen Ausbildungskraft und Auszubildenden mittels eines Dialogbogens statt, die ausbildungsbezogene Zielvereinbarungen als Ergebnis haben kann, die in einem Bogen fiir Fördennaßnahmen niedergelegt werden.

Desiderate Bei den Prüfungsformen ist eine Distanzierung von geschlossenen bzw. "programmierten" zu Gunsten offener bzw. "konventioneller" Aufgaben sowie Schätzverfahren festzustellen. Dabei ist zu beachten, dass unabhängig von der Aufgabenform, Leistungsmessungen vorgenommen werden, die bestimmte Gütekriterien zu erfiillen haben. Dieses sind die Gültigkeit, Zuverlässigkeit und Objektivität sowie Fairness, Ökonomie und im Zusammenhang mit der Berufsabschlussprüfung die Vergleichbarkeit der Abschlusszeugnisse. Bei geschlossenen Aufgaben dürfte Objektivität in der Durchfiihrung, Auswertung und Interpretation im Vergleich zu offenen Aufgaben in einem weit höheren Ausmaß gewährleistet sein. Das bestätigen auch die wenigen veröffentlichten Untersuchungen über Berufsabschlussprüfungen. Das gleiche gilt fiir die Zuverlässigkeit, wobei bei den derzeit praktizierten und diskutierten neuen Prüfungsformen - insbesondere bei der betrieblichen Projektarbeit-dieZuverlässigkeit auf absehbare Zeit- es handelt sich im Idealfall um Unikate - nicht zu berechnen sein wird. Bislang vorliegende Werte zu offenen Aufgaben aus dem Modellversuch KoPrA erreichen nicht durchgängig die geforderten Standards (Schmidt & Straka, 2000). Mit den neuen Prüfungsformen steht auch die Vergleichbarkeit der Abschlüsse auf dem Prüfstand. Aufgrund der großen Spannweite unterschiedlicher Betriebe werden qualitativ und quantitativ differierende betriebliche Projekte in Prüfungen zu bearbeiten sein, insbesondere dann, wenn diese - wie es der Intention entspricht - aus der jeweiligen betrieblichen Leistungserstellung stammen. Kriterienkataloge fiir die Auswahl derartiger Aufgaben dürften die Spannweite eingrenzen, nicht jedoch beheben. Vergleichbares gilt auch fiir die Auswertung und Bewertung komplexer und offener Aufgaben. Und selbst, wenn die Aufgaben vom Anforderungsniveau und von den Lösungen her vergleichbar sind, dürften die Anforderungen flir ihre Bearbeitung von Betrieb zu Betrieb verschieden sein. Beispielsweise ist die Einstellung eines neuen Mitarbeiters in

Berufliche Bildung

235

einem Großbetrieb eine Routineangelegenheit Dazu tragen auch einschlägige Erfahrungen, Stellenbeschreibungen und Formulare bei. Die strukturell gleiche Arbeitsaufgabe stellt demgegenüber an den Auszubildenden einer "Garagenfirma" andere Anforderungen, insbesondere dann, wenn eine solche Einstellung zum ersten Mal vorgenommen wird. Einerseits ist zu begrüßen, dass nach der Konzentration auf Objektivität, Standardisierung, Vergleichbarkeit und Ökonomie bei Berufsabschlussprüfungen der Gültigkeit verstärkt Beachtung geschenkt wird. Andererseits reicht es nicht aus, Kompetenzen auf sehr allgemeinen Niveau zu definieren. Stattdessen sollten diese Kompetenzen unter explizitem Bezug auf starke und bewährte Theorien wie die des Lernens, Handelns, Wissens bereichsspezifisch präzisiert werden. Voraussichtlich wird durch die Übertragung dieses Auftrags an die Kooperation von Lehrkräften und Betrieben vor Ort oder an Lehrplankommission diese professionell anspruchsvolle Aufgabe nur bedingt gelöst werden können. Mit der Ausrichtung des Bildungsauftrags aufHandlungskompetenz, die sich in der erfolgreichen Bewältigung von beruflichen und nicht-beruflichen Situationen manifestiert, folgt die Berufsschule einemfunktionalistischen Bildungsverständnis. Diese Orientierung hat Gemeinsamkeiten mit dem Grundbildungsverständnis der PISAStudie, wonach die Anwendung - oder vorsichtiger - die Anschlussfähigkeit erworbener Kompetenzen in authentischen Situationen das Prüfkriterium ist. Mit einer derartigen Kompetenzorientierung werden Vergleiche innerhalb und jenseits des Berufsbildungswesens möglich. Für einen Vergleich der Leistungen unterschiedlicher Berufe eines Berufsfeldes spricht beispielsweise die Praxis, Prüfungsaufgaben bei bis zu hundert gewerblich-technischen Berufen zu verwenden. Über die Personal- und Sozialkompetenz dürften darüber hinaus Schnittmengen mit unterschiedlichen Berufsfeldern auszumachen sein. Von dort ist es nur ein kleiner Schritt zu den fachübergreifenden Kompetenzen. Darüber hinaus dürften in Anbetracht der zunehmenden Globalisierung der Leistungserstellung, der Internationalisierung beispielsweise von Bank- und Versicherungsleistungen, die technische Normierung in der IT-Branche Situationen und Kompetenzen ausfindig zu machen sein, die internationale Vergleiche ermöglichen. Die sich abzeichnende Konvergenz der Bildungsaufträge von Schule und Betrieb hat zur Folge, dass sowohl von schulischer als auch von betrieblicher Seite der Anspruch besteht, diesen vollständig ausfiillen zu können. Vertreter der Arbeitgeber bieten an, Schulen zu übernehmen, um auf diese Weise den Bildungsauftrag praxisnäher und vor allem kostengünstiger zu erfiillen. Der Mangel an betrieblichen Ausbildungsplätzen in den neuen Bundesländern fiihrt dazu, dass die Berufausbildung unter der Regie der Schule vorgenommen wird. Soll diesen Tendenzen entgegenwirkt werden und die "Dualität" als Markenzeichen der Berufsbildung in Deutschland auf die Dauer aufrecht erhalten werden, sind die Gemeinsamkeiten und institutionenbegründenden Unterschiede der beiden Ausbildungsorte klar herauszuarbeiten. Diese Auslotung von Konvergenz und Differenz der Bildungsaufträge sowie der empirische Nachweis ihrer Einlösung ist die Aufgabe auf dem Weg ins dritte Jahrtausend.

Powered by TCPDF (www.tcpdf.org)

KAPITEL

16

Jenseits von TIMSS: Messungen sprachlicher Kompetenzen, komplexe Längsschnittstudien und kulturvergleichende Analysen Ergebnisse und Perspektiven ausgewählter Leistungsstudien

Andreas Helmke und Friedrich-Wilhelm Sehrader

Leistungsmessungen mit Hilfe standardisierter Tests waren ebenso wie empirische Leistungsstudien in deutschen Schulen lange Zeit wenig gefragt; sie wurden oft geradezu tabuisiert und galten als pädagogisch nutzlos oder gar gefabrlich. Zu Beginn des neuen Jahrhunderts erleben wir jedoch auch in Deutschland einen wahren Boom an Leistungsstudien aller Art: von Leistungsmessungen auf regionaler und Bundeslandebene über nationale Projekte bis hin zu großen internationalen Leistungsstudien wie TIMSS und PISA. Wie ist dies zu erklären? Ausgelöst wurde dieser Wandel durch zwei Ereignisse, die Mitte der 80er Jahre die Bildungslandschaft in den USA in Bewegung brachten: die Publikation des einflussreichen Berichts "A Nation at Risk: The Imperative for Educational Reform" der US National Commission on Excellence in Education (1983) und die Veröffentlichung der Ergebnisse der Zweiten Internationalen Mathematikstudie (SIMSS). Bei dieser Vorläuferstudie von TIMSS lagen die japanischen Schüler bei den Mathematikleistungen einsam an der Spitze, die amerikanischen Schüler jedoch lediglich im Mittelfeld. Eine ähnliche Bestürzung löste 15 Jahre später in Deutschland der TIMSS-Schock aus: Das unerwartet mäßige Abschneiden der deutschen Schülerinnen und Schüler bei TIMSS (bei SIMSS hatte Deutschland nicht teilgenommen) im internationalen Vergleich fand in der Öffentlichkeit große Beachtung und fiihrte zu einer bemerkenswerten bildungspolitischen Wende: Die Erwartung, dass ein vermehrter Einsatz von Ressourcen (Steuerung des Inputs) automatisch zu Verbesserungen im Bildungssystem fiihrt, wurde zunehmend in Frage gestellt. Stattdessen wird vermehrt eine Überprüfung und Kontrolle des messbaren Ertrages der getätigten Aufwendungen (Output-Steuerung) gefordert. Diese Entwicklung hat dazu geftihrt, dass eine Reihe von Evaluationsstudien auf den Weg gebracht worden ist.

238

Andreas Helmke und Friedrich-Wilhelm Sehrader

In der Diskussion istjedoch noch eine allzu starke Fixierung aufTIMSS und auf Leistungen im Bereich Mathematik und Naturwissenschaften anzutreffen. Es wird dabei oft übersehen, dass auch im Bereich sprachlicher Leistungen bemerkenswerte empirische Untersuchungen durchgeführt worden sind. Darüber hinaus haben auch im Bereich mathematischer Leistungen lange vor TIMSS profunde internationale Vergleichsstudien stattgefunden, die infolge ihrer Anlage ein wesentlich stärkeres Erklärungspotential für die "rätselhafte" Überlegenheit asiatischer Länder (wie China, Taiwan oder Japan) bieten. Ziel dieses Kapitels ist es deshalb - basierend auf einem Überblick über verschiedene Typen von Leistungsuntersuchungen -, Anlage, Ergebnisse und Bedeutung einiger ausgewählter Leistungsstudien zu skizzieren, die sich in charakteristischer Weise von TIMSS abheben oder über TIMSS hinausgehen.

Leistungsstudien: Ein Überblick Schulische Leistungsstudien werden mit unterschiedlichen Zielsetzungen durchgefiihrt. Dementsprechend gibt es verschiedene Varianten: Kernstück ist immer die Erfassung der Schülerleistungen, in der Regel mit Hilfe von eigens dafür entwickelten Leistungstests. Darüber hinaus versucht man häufig, mit Hilfe von Schüler- und Lehrerbefragungen das Umfeld der erbrachten Leistungen zu beleuchten. Ziel solcher Studien kann eine evaluative Standortbestimmung des Schulsystems sein, bei der geprüft wird, ob die angestrebten Bildungs- und Lehrziele erreicht werden. In manchen Ländern wird vom Schulsystem eine Rechenschaftslegung über die eingesetzten Mittel verlangt. Eine solche Standortbestimmung des aktuellen Leistungsstandes ist möglich, wenn eine hinreichend große und repräsentative Stichprobe von Schülern erfasst wird und der Test die im Unterricht behandelten Lerninhalte hinreichend widerspiegelt (curriculare Validität). Eine grundlegend andere Zielsetzung sind Fragen der Schulentwicklung und Maßnahmen des Qualitätsmanagements. Daneben gibt es auch Studien, die rein wissenschaftliche Ziele verfolgen. In vielen Untersuchungen geht es darum, das Zustandekommen der Leistungen und der Leistungsunterschiede zwischen Schulen, Klassen und einzelnen Schülern aufzuhellen. In diesem Fall wird die Leistung in der Regel nicht nur einmal zu einem bestimmten Zeitpunkt (Einpunktmessung), sondern mehrfach, mindestens aber zweimal (z. B. zu Beginn und am Ende eines Schuljahres) erfasst (Mehrpunktmessung). Auf diese Weise können Aussagen über die Leistungsentwicklung, also den Leistungszuwachs im Laufe eines Schuljahres gemacht werden. In vielen Studien werden darüber hinaus mögliche Bedingungsfaktoren der Leistung einbezogen, um die Gründe für Leistungsunterschiede und unterschiedliche Leistungsentwicklungen aufzuklären (siehe dazu im Einzelnen Helmke & Weinert, 1997a). Entscheidend dafür sind zunächst einmal individuelle Schülermerkmale. Insbesondere Intelligenz und Vorkenntnisse (die ja mit der Leistungsmessung zu Beginn einer Lern-

Jenseits von TIMSS: Ausgewählte Leistungsstudien

239

periode erfasst werden) haben sich dabei als wichtig erwiesen, während die Zusammenhänge mit motivationalen und affektiven Merkmalen ungleich komplexer und vom Vorliegen unterschiedlicher Bedingungen abhängig sind. Häufig einbezogen werden auch Statusmerkmale wie die soziale Schicht der Eltern, die allerdings nur indirekt mit der Leistung und den sie beeinflussenden Faktoren in Zusammenhang stehen. Ein wichtiger Erklärungsfaktor ist schließlich die Schule und hier insbesondere der Unterricht, dessen Einfluss in älteren Studien interessanterweise häufig unterschätzt wurde. Erst neuere Untersuchungen kommen zu einer realistischen Einschätzung. Neben Zielsetzung (Standortbestimmung, Qualitätsmanagement, wissenschaftliches Interesse) und Untersuchungsform (Einpunkt- vs. Mehrpunktmessungen) lassen sich Leistungsstudien hinsichtlich folgender Merkmale klassifizieren:

Messinstrumente. Anstelle standardisierter Testverfahren, denen ein großer Entwicklungsaufwand zugrunde liegt, werden gelegentlich auch methodisch anspruchslosere, aber kostengünstigere und weniger aufwändige Instrumente eingesetzt: z. B. Klassenarbeiten, in Gestalt von landeseinheitlichen Vergleichsarbeiten (z. B. im Saarland, in Hessen und in Bayern), teilweise auch normorientierte Tests. Inhaltsbereiche. Neben TIMSS gab und gibt es eine Reihe von Leistungsstudien auch in anderen Inhaltsbereichen als Mathematik und Naturwissenschaften (z. B. Fremdsprachen, Lesen, Schreiben, Staatsbürgerliche Erziehung). Adressatengruppen. Die überwiegende Zahl der Leistungsstudien betriffi die Sekundarstufe I, eine Minderheit das Grundschulalter und die Sekundarstufe II. Lässt man Untersuchungen, die sich an Erwachsene oder an Kinder im Vorschulalter richten, außer Betracht, dann lassen sich die unterschiedlichen Leistungsstudien grob in fünf Gruppen einteilen: •

Die großen internationalen und nationalen Vergleichsstudien, finanziert und organisiert zumeist von der IEA, die IAEP-Studien, des ETS, der OECD und der DeutschenKMK;



Dieschulform-und systemvergleichenden Studien der 80er Jahre, unter denen insbesondere die Konstanzer Leistungsstudien (zusammenfassend F end, 1998) zu nennen sind;



Leistungsmessungen auf Bundeslandebene, sei es in Form umfangreicher wissenschaftlicher Studien oder landeseinheitlicher Vergleichsklassenarbeiten;



Längsschnittstudien mit dem Ziel der Beschreibung und Erklärung von Leistungsunterschieden sowie

• Kulturvergleichende Studien, insbesondere zu Unterschieden zwischen westlichen und fernöstlichen Ländern.

Im Folgenden werden einige Studien etwas ausführlicher analysiert. Dabei soll es sich um Studien handeln, die bezüglich ihrer Anlage, ihrer Ziele und Inhalte andere Akzente setzen als TIMSS.

240

Andreas Helmke und

Sehrader

Die folgenden vier Untersuchungen sollen kurz charakterisiert werden: (1) eine Englischstudieund (2) die sogenannte IEA-Aufsatzstudie, als Beispiele fiir Untersuchungen sprachlicher Leistungen; (3) die Münchner Hauptschulstudie als Beispiel einer Untersuchung zur Bedingungsanalyse schulischer Leistungen sowie (4) eine der bekannten kulturvergleichenden Arbeiten (USA - Taiwan- Japan) der Michigan-Gruppe um Stevenson.

Leistungsstudien im sprachlichen Bereich Sinnverstehendes Lesen ist eine Schlüsselkompetenz, eine entscheidende Voraussetzung fiir den Wissenserwerb und damit eine wichtige Grundlage fiir die Aus- und Weiterbildung; deshalb stellt dieser Kompetenzbereich auch einen der Schwerpunkte in der PISA-Studie (1998-2006) dar. Trotz der unbestrittenen Bedeutung sprachlicher Kompetenzen hat man sich in Deutschland erst kürzlich dazu entschlossen, das Projekt PISA (mit den Schwerpunkten Lesen I Mathematik I Naturwissenschaften) durch ein Projekt zu ergänzen, das die aktive Beherrschung der deutschen Sprache und des Englischen als Fremdsprache zum Gegenstand hat: Projekt DESI (Deutsch Englisch Studie International) der KMK, das von 2001-2005 stattfindet (Helrnke et al., 2000). Angesichts dessen erscheint uns ein Rückblick auf die beiden großen Vorläuferstudien, an denen auch Deutschland teilnahm, angebracht.

Die Hamburger Aufsatzstudie Die Hamburger Aufsatzstudie (Hartmann & Lehmann, 1989) war Bestandteil der internationalen IEA Study ofWritten Composition, an der insgesamt 14 Länder (in Deutschland nur Hamburg) teilnahmen. Ziel der Studie war es, ein repräsentatives Bild über die Situation des Aufsatzunterrichts in einem Bundesland zu gewinnen und die dabei gewonnenen Ergebnisse im internationalen Rahmen zu vergleichen. Die deutsche Stichprobe bestand aus Schülern in 71 Klassen der elften Klassenstufe allgemeinbildender und berufsbildender Schulen mit Vollzeitunterricht (Berufsschulen als Teilzeitschulen wurden ausgeschlossen). Die Schreibleistung wurde durch mehrere Aufgaben erfasst, bei denen es um die Produktion von verschiedenen Arten von Texten ging (Beschreibung eines Gegenstandes sowie einer Person; Schreiben einer Nachricht sowie eines Briefes; persönliche Erzählung; argumentativer Text; Problemerörterung; Brief mit Ratschlag; Textanalyse und Stellungnahme). Jeder Schüler bearbeitete vier dieser Aufgaben (Ratschlag und Textanalyse wurden von allen bearbeitet). Darüber hinaus wurde mit Hilfe von Schüler- und Lehrerfragebögen das persönliche und schulische Umfeld beleuchtet. Die Aufsätze wurden von geschulten Beurteilern sowohl hinsichtlich ihres globalen Eindrucks als auch im Hinblick aufverschiedene Kriterien (Qualität und Breite des Inhalts, Organisation und Darstellung des Inhalts, Stil und Ton, aber auch Grammatik, Rechtschreibung, Zeichensetzung, Handschrift) beurteilt. Als Indikator ftir die Schreibleistung wurde die Summe aus globalem Eindruck, Inhalt, Organisation und Stil

Jenseits von TIMSS: Ausgewählte Leistungsstudien

241

gebildet, was insofern gerechtfertigt ist, als diese Kategorien sehr stark miteinander zusammenhängen: Dieser Indikator, der die eigentliche Schreibqualität betrifft, musste aus technischen Gründen fiir jede Aufgabe separat gebildet werden, so dass sich insgesamt 9 Summenwerte ergaben; fiir mechanische Schreibfertigkeit (Grammatik, Rechtschreibung usw.) und Handschrift konnten dagegen aufgabenübergreifende Scores gebildet werden. Um Aufschluss über Faktoren zu bekommen, die die Schreibleistung beeinflussen, wurde diese sowohl mit Schülermerkmalen (biografischer Hintergrund; Bildungsnähe des Elternhauses; eigene Schreibaktivitäten und Einstellung zum Schreiben) als auch mit Iehrer- und klassenbezogenen Merkmalen (biografischer Hintergrund; berufliches Engagement; Klassengröße; auf den muttersprachlichen Unterricht bezogene Charakteristika) in Beziehung gesetzt. Zu den Merkmalen, die am stärksten mit der Schreibleistung zusammenhängen, gehört die Anzahl der Bücher im elterlichen Haushalt; - diese ist natürlich nur ein Stellvertretermerkmal fiir übergreifende Einflussfaktoren wie "Anregungsgehalt der familiären Lernumwelt" und "bildungsrelevanter Besitz". Deutliche Zusammenhänge mit der Schreibleistung weist insbesondere die von den Schülern berichtete Lektürezeit fiir das Lesen literarischer Werke auf. Die Schreibleistung hängt auch mit dem Wert zusammen, den Schüler aufkorrektes Sprechen und Schreiben legen, ferner mit dem Spaß am Schreiben und den außerschulischen Schreibaktivitäten. Negative Zusammenhänge mit der Schreibleistung gibt es dagegen fiir die Häufigkeit von Comic-Lektüre und TV-Konsum. Die meisten der gefundenen Zusammenhänge gehen in die erwartete Richtung, sind aber von der Größenordnung her relativ bescheiden. Noch geringer fallen die Zusammenhänge der Schreibleistung mit Iehrer- und klassenbezogenen Merkmalen aus. Eines der interessanten Ergebnisse betrifft die Rolle des Feedback: Eine Rückmeldung während des Schreibens scheint der Leistung abträglich zu sein, während eine Rückmeldung unmittelbar nach dem Schreiben eher positive Wirkungen hat. Es wäre allerdings verfehlt, aus den relativ niedrigen Zusammenhängen zu schließen, dass Unterrichtsmerkmale keinen Einfluss auf die Schreibleistung haben, denn der Unterricht wurde hier nur sehr kursorisch durch Angaben im Lehrerfragebogen erfasst; fiir den Lernerfolg bedeutsame, allerdings auch sehr aufwändig zu erfassende Merkmale der Unterrichtsqualität wurden in dieser Studie nicht erhoben. Auch ist zu berücksichtigen, dass bei den Schülermerkmalen so wichtige individuelle Merkmale wie Intelligenz oder Vorkenntnisse der Schüler nicht einbezogen worden sind. Aus inhaltlicher Sicht interessant sind auch die Ergebnisse zu der Aufgabe, bei der jüngeren Schülern Ratschläge fiir erfolgreiches Aufsatzschreiben gegeben werden sollten. Auffallend war, dass am häufigsten Merkmale der äußeren Erscheinungsform (Rechtschreibung, Zeichensetzung, Sauberkeit, grammatische Richtigkeit) thematisiert wurden. Die häufigste inhaltliche Kategorie war die Empfehlung, so zu schreiben, wie es der Meinung des Lehrers entspreche und sich auf Autoritäten zu berufen; übrigens ein Ergebnis, das deutlich von den internationalen Befunden abweicht, bei denen vor allem auf Originalität, Kreativität und Einfallsreichtum abgehoben wurde.

242

Andreas Helmke und Friedrich-Wilhelm Sehrader

Insgesamt gesehen kann die Qualität der Leistungsmessung in der Hamburger Aufsatzstudie, was Differenziertheit und Facettenreichtum anbelangt, noch heute als hervorragend eingeschätzt werden. Der Ertrag der Studie fiir die Verbesserung des Lehrens und Lernens leidet dagegen unter der Restriktion einer nur bruchstückhaften und suboptionalen Erhebung unterrichtlicher Bedingungsfaktoren. Für das aktuelle Projekt der KMK zur Erfassung der Deutsch- und Englischleistungen (DESI, Helmke et al., 2000) wurde daraus die Konsequenz gezogen, der videogestützten Beobachtung des Unterrichts und seiner Wahrnehmung durch die Schüler/innen besonderes Gewicht einzuräumen und außerdem eine Zweipunktmessung der Leistungen und zentraler Bedingungsvariablen vorzusehen, so dass es möglich ist, Leistungsentwicklungen auf Schulklassenebene in Abhängigkeit von Faktoren des Unterrichts und der Klassenzusammensetzung zu analysieren.

Die IEA-Studie "Teaching English as a Foreign Language" Die Beherrschung von Fremdsprachen, und hier besonders des Englischen als lingua franca der modernen Welt, ist im Zeichen zunehmender Globalisierung und Internationalisierung ebenfalls von überragender Bedeutung. Die IEA hat im Rahmen der Six Subjects Study die Leistungen in Französisch und Englisch als Fremdsprache erfasst; die letztgenannte Studie wird im Folgenden kurz beschrieben. Angesichts der unumstrittenen Bedeutung des Englischen ist es auf den ersten Blick erstaunlich, dass dieser Bereich von der IEA bisher erst ein einziges Mal systematisch untersucht worden ist. Dies könnte vor allem daran liegen, dass Englisch in vielen Ländern erste Sprache ist und somit als "Foreign Language" nicht in Frage kommt (obwohl der prozentuale Anteil beispielsweise der hispanischen und asiatischen Minderheiten in den USA erheblich ist). Eine ganz allgemeine Erklärung dafiir, dass es so wenige Untersuchungen zum Erwerb von Fremdsprachen gibt, könnte in der Schwierigkeit liegen, Sprachkompetenz breit und überzeugend zu erfassen. Ein Beleg dafiir ist die hier berichtete Englischstudie, an der insgesamt zehn Länder (darunter auch Deutschland) teilnahmen und die zwischen 1971 und 1973 durchgefiihrt wurde. Anders als in Mathematik, wo man durchweg Papier-und-Bleistift-Tests einsetzen kann, umfasst die Sprachkompetenz zum einen Bereiche, die sich nur mündlich erfassen lassen und somit individuelle Tests unter Einsatz von Tonbandgeräten erfordern, was wissenschaftliche Untersuchungen im Klassenverband weitgehend ausschließt. Zum anderen sind bei sprachlichen Leistungen häufig keine einfachen Richtig/Falsch-Urteile möglich, sondern aufwändige und teure Qualitätsbeurteilungen der Leistung (sog. "Ratings" durch mehrere unabhängige Einschätzer) erforderlich. Obwohl die Englischstudie vor mehr als einem Vierteljahrhundert durchgefiihrt wurde, erscheint die Breite und Präzision der Darstellung aus heutiger Sicht bemerkenswert; auf neuere Konzeptionen des Englischunterrichts und ihre Konsequenzen fiir eine anspruchsvolle Leistungsdiagnostik wird später noch eingegangen. Zu den vier großen Testbereichen der Studie gehörten (1) das Hörverstehen, (2) das Leseverständnis ("verständiges Lesen"), (3) das Sprechen und (4) das Schreiben. Bedauerlicherweise waren die Bereiche (3) und (4) jedoch lediglich als internationale

Jenseits von TIMSS: Ausgewählte Leistungsstudien

243

Option vorgesehen, und Deutschland beteiligte sich daran nicht; darüber hinaus erfiillten die fiir die deutsche Studie entwickelten Maße fiir das Hörverständnis nicht die internationalen psychometrischen Standards, so dass sich die Auswertungen auf das Leseverständnis - immerhin aber den zentralen Bereich der gesamten Studie - beschränkten. Leseverständnis wurde in viererleiWeise erfasst: (1) Auswahl eines Antonyms zu einem gegebenen Wort aus vorgegebenen Wörtern, (2) Erkennen der Aussprache (Lautbedeutung) eines Wortes, (3) Erkennen der grammatischen Struktur, (4) Erfassen von Wortbedeutungen und (5) Prüfung des Leseverständnisses. Neben phonologischer Lesefertigkeit ging es also auch um grundlegende grammatische Fähigkeiten und um den Wortschatz. An der Studie nahmen zwei Altersgruppen teil: 1110 Schüler/innen der 9. Klassenstufe (aus 248 Klassen und 47 Schulen) sowie 1339 Schüler/innen der 13.Klassenstufe (aus 360 Klassen und 59 Schulen). Die Schulen bestanden aus Hauptschulen, Realschulen und Gymnasien. Zu beachten ist, dass sich die Curricula und Lernkontexte der verschiedenen Länder, insbesondere im Hinblick auf die Zahl der Unterrichtsjahre in Englisch, erheblich voneinander unterscheiden. Berücksichtigt man diese wichtige Kontextvariable, dann kann sich das Leistungsniveau der deutschen Schüler/innen im internationalen Vergleich durchaus sehen lassen; in der Sekundarstufe I bildete Deutschland gemeinsam mit Schweden und den Niederlanden die Spitzengruppe, und in der Sekundarstufe II liegen die Mittelwerte der deutschen Schüler - gemeinsam mit den Niederlanden - ebenfalls an der Spitze. Relative Stärken der deutschen Schüler/innen zeigen sich beim Leseverständnis und Schwächen bei Grammatik und Wortbedeutung. Allerdings, und dies stimmt nachdenklich: Die Niederländer und Belgier erreichen in nur 3 Jahren Englischunterriebt in etwa das gleiche Leistungsniveau wie die deutschen Schüler nach 5 Jahren. Woraufsind die Unterschiede im Niveau der Englischleistungen zurückzufiihren? Hier erscheinen folgende Punkte besonders bemerkenswert: • Die Bedeutung von Schule und Unterricht ist weitaus größer als die Rolle familiärer Einflüsse. • Je höher Lehrkräfte ihre eigene Kompetenz und Expertise in den Bereichen "mündliche Darstellung" (speaking), "Leseverständnis" (reading), "schriftlicher Ausdruck" (writing) und "Aussprache" (pronounciation) einschätzen, desto besser sind die Schülerleistungen im Englischen; daneben spielen bei der Lehrkraft auch die Dauer der Ausbildung sowie die Dauer der Vorbereitung auf den Unterricht eine positive Rolle. • Obwohl das allgemeine Interesse am Schulfach Englisch in Deutschland international gesehen am zweitniedrigsten ist (noch niedriger war es nur in Finnland), gibt es sehr enge Zusammenhänge mit der Leistung: je höher das Interesse, umso besser die Leistung. Englisch-relevante Aktivitäten und die eingeschätzte Nützlichkeit von Englisch hängen zwar ebenfalls positiv mit der Leistung zusammen, jedoch in einem wesentlich geringeren Maße. Und schließlich: In Deutschland zeigt sich das erwartete Leistungsgefalle zwischen den Schularten des dreigliedrigen Schulsystems. Schaut man sichjedoch die mittleren Leis-

244

Andreas Helmke und Friedrich-Wilhelm Sehrader

tungeneinzelner Schulen an, dann zeigen sich eklatante Unterschiede zwischen verschiedenen Schulen der jeweiligen Schulform. So gibt es beispielsweise einige Hauptschulen, deren mittlerer Wert über dem Mittelwert der Realschule liegt und dem des Gymnasiums gleichkommt. Dies könnte ein Indiz für die großen Unterschiede im Einzugsgebiet der Schulen und den damit einhergehenden Bildungsvoraussetzungen der entsprechenden Schüler sein. Aus heutiger Sicht ist der bereits damals erreichte Stand der Instrumentenentwicklung und der Differenziertheit in der Aufgliederung verschiedener Teilleistungsbereiche beachtlich. Fortschritte sind seitdem vor allem in zweierlei Hinsicht zu verzeichnen: Zum einen gab es in der Fremdsprachendidaktik der letzten 20 Jahre eine "kommunikative Wende". Der Gebrauch der Fremdsprache als Verständigungsmittel in authentischen Situationen wird - zu Lasten der grammatikalischen und lexikalischen Komponenten - als zunehmend wichtiger eingeschätzt. Zum anderen ist das Interesse heute wesentlich stärker auf die eigentlichen Unterrichtsaktivitäten und deren Rahmenbedingungen gerichtet. Diesen Schwerpunktsetzungen trägt das bereits erwähnte, von der KMK beschlossene Projekt DESI Rechnung.

Leistungsentwicklung und Determinanten der Schulleistung Classroom Environment Study (Münchner Hauptschulstudie) In der Münchner Hauptschulstudie, die in ihrem Kern den deutschen Beitrag zur internationalen Classroom Environment Study der IEA repräsentierte, wurde die Leistungsentwicklung im Fach Mathematik und die Entwicklung leistungsrelevanter Motive und Einstellungen vom Beginn der fünften bis zum Ende der sechsten Klassenstufe untersucht. Die Kernstichprobe bestand aus 39 Klassen und deren Lehrern. Eingesetzt wurden Mathematiktests (Arithmetik, Textaufgaben in der 5., Bruch- und Dezimalrechnen in der 6. Klasse) und Fragebögen für Schüler und Lehrkräfte. Ein Charakteristikum der Studie war die mehrperspektivische Erfassung des Unterrichts, mit der Einseitigkeiten einzelner Erhebungsformen vermieden werden sollten. Sie erfolgte (1) mit Hilfe eines Beobachtungssystems, mit dem trainierte Beobachter den Unterrichtsverlauf und die Lehrer-Schüler-Interaktionen aufzeichneten; (2) mittels Unterrichtsbeurteilung durch Experten, die verschiedene Qualitätsaspekte des Unterrichts aus ganzheitlicher Sicht (z. B. Klarheit, Aspekte der Klassenfiihrung) bewerteten; (3) durch ausführliche Schülerangaben zum Unterricht, die zu Klassenmittelwerten zusammengefasst wurden; und schließlich (4) durch Befragung der Lehrkräfte selbst. Dabei zeigte sich übrigens ein typisches, mehrfach auch in anderen Studien gefundenes Ergebnismuster: Alle Sichtweisen des Unterrichts- mit Ausnahme der Lehrerperspektive - hängen eng miteinander zusammen und bestätigen sich damit wechselseitig. Dies

Jenseits von TIMSS: Ausgewählte Leistungsstudien

245

bedeutet: Wenn es um die objektive und zuverlässige Bewertung des Unterrichts geht, sind Angaben der Lehrkräfte wenig hilfreich. Angesichts des Fehlens geeigneter Vergleichsmaßstäbe- anders als etwa in Japan gibt es hierzulande kaum gemeinsame Unterrichtsvorbereitungen und wechselseitige Unterrichtsbesuche- ist dies eigentlich auch keine große Überraschung. Über die Ergebnisse der Münchner Hauptschulstudie ist in einer Vielzahl von Publikationen berichtet worden (für eine Übersicht vgl. Helmke & Weinert, 1997b). Die folgenden Ergebnisse scheinen von besonderer Bedeutung zu sein: 1. Die günstigste Leistungsentwicklung war in Klassen zu finden, deren Unterricht durch Klarheit, ausgeprägte Lehrstofforientierung, häufige individuelle fachliche Unterstützung, Effizienz der Klassenfiihrung und ein hohes Anforderungsniveau charakterisiert ist. 2. Viele Auswertungen gingen über diese einfachen Unterrichtseffekte hinaus. So kann man die gewohnte Betrachtungsperspektive, der zufolge der Unterricht die Schülerleistungen beeinflusst, auch umkehren und den Unterricht selbst als Ergebnis der vom Lehrer vorgefundenen Bedingungen (Klassenkontext und -Zusammensetzung) betrachten: Dabei zeigte sich etwa, dass Klarheit und Zeitnutzung in erheblichem Umfang vom Niveau der fachlichen Vorkenntnisse der Schüler abhingen. 3. Darüber hinaus sind manche Unterrichtsmerkmale lediglich unter ganz bestimmten Bedingungen ("konditionaf') wirksam. So zeigte sich beispielsweise: Häufige strukturierende Hinweise bzw. individuelle fachliche Unterstützungsmaßnahmen sind nur dann leistungsrorderlich, wenn die Lehrkraft über eine überdurchschnittlich hohe diagnostische Kompetenz verfügt, also besonders gut in der Lage ist, die Schülerleistungen und Aufgabenschwierigkeiten einzuschätzen. Der Erfolg solcher Unterrichtsmaßnahmenhängt also davon ab, wie gut diese auf die unterschiedlichen und sich fortlaufend verändernden Lernvoraussetzungen der Schüler abgestimmt werden 4. Unterricht kann auch kompensatorische Effekte haben: In Klassen, in denen der Lehrer das Lernen stark kontrolliert und unterstützt, ist der Einfluss der Motivation auf die Schülerleistung schwach; in Klassen, in denen der Lehrer wenig Kontrolle ausübt und Unterstützung gibt, ist dieser Einfluss vergleichsweise stark. Lehrkräfte können also durch ihre Unterrichtsaktivitäten Schülerdefizite im Bereich des selbstregulierten Lernens dadurch kompensieren, dass sie gewissermaßen diese Funktionen selbst übernehmen. Sie fiihren Aktivitäten ein, die der Schüler beim selbstregulierten Lernen selbst ausfiihren müsste (etwa Ziele setzen, Lernfortschritte kontrollieren usw.). Die meisten dieser Ergebnisse lassen sich im Sinne des Modells der Direkten Instruktion (vgl. Helmke, 1999) interpretieren: Insbesondere für leistungsschwächere Schüler erweist sich ein lehrergesteuerter, direktiver, gut organisierter und strukturierter Unterricht als günstig für den Lernerfolg der Schüler. 5. Eng damit verbunden ist die Frage, ob und inwieweit ein solcher Unterricht auf Kosten anderer Unterrichtsziele (etwa Verbesserung der Lernfreude oder des Selbst-

246

Andreas Helmke und Friedrich-Wilhelm Sehrader

vertrauens) geht. So zeigte sich etwa, dass eine ausgeprägte Zeitnutzung- eine der wichtigsten Bedingungen einer positiven Leistungsentwicklung - die Lernfreude langfristig verringert. Dies macht deutlich, dass es "den" effektiven Unterricht schon deshalb nicht geben kann, weil verschiedene Zielkriterien (zu denen z. B. auch selbstreguliertes Lernen oder soziale Kompetenzen wie Kooperation, Fairness und Rücksichtnahme gehören) in ganz unterschiedlicher Weise gefordert werden. Dazu kommt, dass in ein und derselben Klasse verschiedene Schüler, je nach ihren Lernvoraussetzungen, von unterschiedlichen Unterrichtsstilen profitieren.

Kulturvergleichende Leistungsstudien: USA versus Asiatische Länder Lange vor Publikwerden der TIMS-Studie, bei der die Schüler aus asiatischen Ländern Spitzenleistungen erbracht haben, gab es bereits eine Reihe profunder kulturvergleichender Leistungsstudien, die allerdings hierzulande kaum rezipiert, geschweige denn diskutiert worden sind. Es handelt sich dabei vor allem um die Studien der von Harold W. Stevenson geleiteten Michigan-Gruppe, in denen die Schulleistungen in den USA mit denen in Taiwan, Japan und China verglichen wurden. Die wichtigsten Ergebnisse des gesamten Forschungsprogramms dieser Gruppe sind sehr anschaulich in den beiden Büchern mit den bezeichnenden Titeln ''The learning gap" (Stevenson & Stigler, 1992) und "The teaching gap" (Stigler & Hiebert, 1999) dargestellt. Dieser Forschungsansatz soll exemplarisch anhand einer der bekanntesten Untersuchungen vorgestellt werden, nämlich der 1986 publizierten Studie "Mathematics achievement ofChinese, Japanese, and American children" (Stevenson, Lee & Stigler, 1986). Nicht anders als bei den meisten Studien von IEA und IAEP handelt es sich zwar auch hier um einen Querschnitt, und auch das Verfahren der Stichprobengewinnung ist nicht optimal (Auswahl von drei vergleichbar "erscheinenden" Städten in den drei Ländern, und dort Ziehung von Zufallsstichproben von jeweils 240 Kindergartenkindern, Erstund Fünftklässlern aus zehn verschiedenen Schulen pro Stadt). Was die Studie jedoch so aussagekräftig macht, ist die reichhaltige Instrumentierung: Neben den Leistungstests in Mathematik und einem Lesetest wird auch ein allgemeiner Fähigkeitstest eingesetzt, der Unterricht wird beobachtet und protokolliert, und die Mütter werden ausfUhrlieh befragt. Es resultiert ein äußerst facettenreiches Bild, das eine Reihe von Erklärungsmöglichkeiten ftir die Überlegenheit der asiatischen Schüler bei mathematischen Leistungen anbietet. Hier einige der wichtigsten Ergebnisse: Die japanischen Kinder sind ihren US-Klassenkameraden in Mathematik bereits im Kindergartenalter deutlich überlegen; in der 5. Klasse ist ihr Vorsprung noch wesentlich größer. Dagegen unterscheiden sich die Mathematikleistungen der Kinder aus Taiwan im Kindergarten noch nicht von denen der US-Kinder, während es dann in der 1. Klasse bereits einen großen Leistungsvorsprung der Taiwanesen gibt. In der fünften Klasse sind die Unterschiede zwischen Taiwan und Japan einerseits und den US andererseits

Jenseits von TIMSS: Ausgewählte Leistungsstudien

247

so eklatant, dass die beste der zwanzig US-Klassen immer noch schlechter ist als die schlechteste asiatische Klasse. Das Intelligenzniveau (Wahrnehmungsgeschwindigkeit, räumliches Vorstellungsvermögen), unterscheidet sich dagegen in den verschiedenen Gruppen bemerkenswerterweise nicht, scheidet also als Erklärungsvariable für Kulturunterschiede im Leistungsniveau aus; und beim Lesen ("reading vocabulary") schnitten die japanischen Schüler sogar in allen Altersstufen signifikant schlechter ab als die amerikanischen. Enorme Unterschiede zeigten sich hinsichtlich der Unterrichtszeit und der Zeitnutzung. Im Durchschnitt waren die US-Erstklässler in 69.8% der Unterrichtszeit ''bei der Sache" (time-on-task); die Vergleichswerte für Taiwan und Japan sind 85.1% und 79.2%. In der fünften Klasse sieht das Muster nicht anders aus: USA 64.5% time-on-task, Taiwan 91.5% und Japan 87.4%. Rechnet man dies auf die Zahl der Unterrichtsstunden hoch, dann ergibt sich für die US-Schüler der 5. Klassenstufe eine Netto-Zeit von 19.6 Stunden genutzter Unterrichtszeit pro Woche, denen 32.6 Stunden in Taiwan und sogar 40.4 Stunden in Japan gegenüberstehen. Kumuliert man diesen Effekt für die gesamte Schulzeit, dann wird ersichtlich, dass die Lerngelegenheiten in den asiatischen Ländern in einer völlig anderen Größenordnung liegen. Der Unterricht erfolgt in den USA in wesentlich geringerem Maße lehrerzentriert (knapp 50% aller Aktivitäten gehen vom Lehrer aus bzw. sind an ihn gerichtet), verglichen mit 70% in Japan und 90% in Taiwan. Ähnlich sind die Proportionen hinsichtlich der vom Lehrer gegebenen Information: Der Anteil am Gesamtunterricht beträgt in den US-Schulen 21%, in Japan 33% und in Taiwan 58%; anders ausgedrückt: Pro Woche erhalten US-Kinder vom Lehrer 6 Stunden Informationen, in Japan 12 und in Taiwan 26 Stunden. Ähnlich eklatant sind die Unterschiede hinsichtlich der Hausaufgaben bereits in der 1. Klasse: US-Kinder sitzen im Schnitt 14 Minuten werktags an den Hausaufgaben, japanische Erstklässler 37 und Taiwanesen 77 Minuten; samstags/sonntags sind es 7111 Minuten (USA), 37/29 Minuten (Japan) und 83/73 Minuten (Taiwan). Neben diesen gewiss beeindruckenden schulischen Differenzen fand die StevensonGruppe jedoch auch einige wichtige Unterschiede im Elternhaus, die man wie folgt zusammenfassen kann: Die Mütter asiatischer Schüler haben deutlich höhere Leistungserwartungen und -standards und üben mehr Leistungsdruck aus; Misserfolg bei schulischen Leistungen fiihren sie eher auf mangelnde Anstrengung zurück - in wesentlich höherem Maße als aufmangelnde Fähigkeit. Bei den US-Müttem halten sich dagegen beide Erklärungsquellen in etwa die Waage. Asiatischen Kindem wird also in sehr viel höherem Maße nahe gelegt, auf Leistungsdefizite mit vermehrter Anstrengung und erhöhtem Einsatz zu reagieren. Unterricht und Lemaktivitäten, aber auch die Autorität von Lehrkräften und der Einfluss von Eltern und Familie haben in den asiatischen Ländern einen wesentlich höheren Stellenwert. Da sich diese hohe Wertschätzung im Einklang mit grundlegenden kulturellen Werten (Stichworte: Konfuzianische Prägung von Moral, Leistungsstreben, Hierarchiedenken; Kollektivismus) befindet, scheint es auch ein niedriges Konflikt-

248

Andreas Helmke und Friedrich-Wilhelm Sehrader

potential zwischen Leistungsanforderungen und individuellen Wünschen und Bedürfnissen zu geben. Trotzdem muss man fragen- und durch weitere Untersuchungen abzuklären versuchen -, ob der massive und anhaltende Leistungsdruck und der hohe schulische Einsatz nicht langfristig auch negative Folgen haben könnten. In Anbetracht der großen kulturellen Unterschiede zwischen den asiatischen und den westlichen Ländern wäre eine schematische Übertragung des "Erfolgsgeheirnnisses" dieser Länder zudem naiv und unangebracht. Dies schließt allerdings keineswegs aus, spezifische didaktische und unterrichtsmethodische Stärken zum Anlass für eine kritische Reflexion der hiesigen Unterrichtspraxis zu nehmen.

Ausblick und Perspektiven Abschließend sollen einige übergreifende Trends aufgezeigt werden, die für die Bewertung der bereits verfiigbaren und vor allem für die Bedarfsplanung künftiger Leistungsstudien wichtig erscheinen.

Ertrag für Schul- und Unterrichtsentwicklung Seitens der Schulpraxis und der Bildungspolitik besteht gegenüber Leistungsstudien die berechtigte Erwartung, neben einer Diagnose des Ist-Standes auch nützliche Empfehlungen und Hinweise für Verbesserungen zu erhalten. Dafür ist erforderlich, dass nicht nur Leistungen, sondern auch solche Faktoren differenziert erhoben werden, die für die Erklärung von Leistungsunterschieden von Bedeutung sind, und die prinzipiell beeinfluss-, änder- oder trainierbar erscheinen. Damit kommt neben individuellen Lernbedingungen und familiärer Lernumwelten vor allem der Unterricht ins Spiel.

Schülerwahrnehmung des Unterrichts Nur in Ausnahmefallen können zur Erfassung und Beurteilung des Unterrichts so aufwändige Verfahren wie die Videografie eingesetzt werden, und Angaben der Lehrkräfte zu ihrem eigenen Unterricht haben sich vielfach als wenig aussagekräftig erwiesen. Eine naheliegende und zugleich ökonomischere Alternative ist die Befragung der Schüler zu ihrer Wahrnehmung des Unterrichts (Unterrichtswahrnehmung). Im Vergleich zur studentischen Evaluation von Lehrveranstaltungen sind wir von einer Evaluationskultur des schulischen Unterrichts allerdings noch weit entfernt. In der Entwicklung von sensiblen Instrumenten zur Unterrichtswahrnehmung und in der Nutzung der so gewonnenen Ergebnisse in einer Weise, die von den Lehrkräften nicht als Bedrohung, sondern als Hilfestellung und Unterstützung wahrgenommen wird, sehen wir aber eine besonders wichtige und zukunftsträchtige Aufgabe. In den Längsschnittstudien zu Schulleistungen und in etlichen anderen Leistungsstudien sind hierzu bereits wichtige Vorarbeiten geleistet worden, und es sind einige vielversprechende schulische Pilotprojekte gestartet worden.

Jenseits von TIMSS: Ausgewählte Leistungsstudien

249

Rückmeldung von Ergebnissen an die Beteiligten Es zeichnet sich ab, dass die an Leistungsstudien beteiligten Schulen und Lehrkräfte (und gelegentlich auch die Eltern, was die Sache nicht einfacher macht) sehr gerne erfahren möchten, wie denn "ihre" Klasse oder Schule abgeschnitten hat. Vielfach ist die Zusicherung einer differenzierten Ergebnisrückmeldung inzwischen geradezu eine Bedingung fiir die Teilnahme an der Untersuchung. Nun lassen sich mit einem gewissen methodischen Aufwand Klassen-Leistungsprofile durchaus anschaulich grafisch darstellen und kommentieren. Die Probleme liegen woanders: zum einen im Bereich des Daten- und Persönlichkeitsschutzes der betroffenen Lehrkräfte, die sorgfältig gegen die Interessen der Schulaufsicht, der Eltern und der Öffentlichkeit abgewogen werden müssen. Hier ist mit einem erheblichen Konfliktpotential zu rechnen- und einfache Patentlösungen sind nicht in Sicht. Ein weiteres Problem ist der bei komplexen und umfangreichen Studien unvermeidbare zeitliche Abstand zwischen Erhebung und Ergebnisrückmeldung. Angesichts der hohen (oft zu hohen) Erwartungen an den Gebrauchswert von Rückmeldungen fiir die jeweiligen Adressaten ergibt sich fiir künftige Leistungsstudien ein weites Feld fiir die Erprobung verschiedener Techniken der Gestaltung, Übermittlung und Kommentierung rückzurneidender Untersuchungsergebnisse. Das dritte Problem- was soll zurückgemeldet werden- fiihrt zum letzten Punkt. Überfachliche Wirkungen und Klassenkontext Hier hat sich im letzten Jahrzehnt zunehmend die Einsicht durchgesetzt, dass eine bloße Leistungserhebung allein nicht ausreicht, will man den Erfolg von Schule und Unterricht angemessen bewerten. Aus einer ganzheitlichen Perspektive sind überfachliche (oder erzieherische ) Wirkungen nicht weniger wichtig. Dabei ist etwa an Merkmale wie Lemmotivation, Leistungsangst, Einstellung zur Schule und zum Lernen gedacht. Hinzu kommen Schlüsselqualifikationen, etwa im Bereich sozialer Kompetenzen (z. B. Teamfähigkeit) oder des selbstregulierten Lernens. Eine ausgewogene Rückmeldung sollte darauf bedacht sein, dass Leistungs- und überfachliche Aspekte gleichermaßen thematisiert werden. Hinzu kommt: Um Rückmeldungen überhaupt interpretieren zu können, bedarf es eines Ankers oder eines Maßstabes, z. B. der Mitteilung des Leistungsmittelwertes einer Klasse - verglichen mit dem Durchschnitt der anderen Klassen des jeweiligen Bildungsganges bzw. der jeweiligen Schulform. Es liegt auf der Hand, dass man Äpfel mit Birnen vergleichen würde, wenn man eine Klasse aus einer Schule im "sozialen Brennpunkt" mit der gleichen Latte wie eine Klasse aus einer privilegierten Region - mit hohem Vorkenntnisniveau, homogener Leistung, engagierten Eltern etc.- messen würde. Mit anderen Worten: Das Gebot der Fairness verlangt, den Kontext des Unterrichtens - also Aspekte wie das Intelligenz- und Vorkenntnisniveau zu Beginn des Unterrichts, die Homogenität vs. Heterogenität der Klasse und andere Schlüsselaspekte der Klassenzusammensetzung in geeigneter Weise zu berücksichtigen. Dies ist in den Projekten LAU und QuaSUM erfolgt, und es steht im Mittelpunkt der rheinland-pfälzischen Leistungsstudie MARKUS (geleitet von A. Helrnke und R. Jäger; vgl. Ministerium für Bildung, Wissenschaft und Weiterbildung Rheinland-Pfalz, 2000),

250

Andreas Helmke und Friedrich-Wilhelm Sehrader

in der erstmals Leistungen und Lernbedingungen eines gesamten Schületjahrgangs (d. h. bei ca. 44.000 Schüler/innen in 1.900 Klassen) in einem Flächenstaat mit dem ausdrücklichen Ziel erhoben wurden, die Ergebnisse zum Ausgangspunkt eines systematischen und flächendeckenden Qualitätsmanagements zu machen. Dazu gehören differenzierte, d. h. den Klassen- und Schulkontext berücksichtigende Ergebnisrückmeldungen (übrigens, in geeigneter Form auch an die Schüler/innen), die sowohl fachliche Leistungen als auch überfachliche Wirkungen und Lernbedingungen umfassen, aber auch gezielte und umfassende Angebote in der Lehreraus- und -Weiterbildung des Landes. Dies soll gewährleisten, dass die Lehrer mit den ihnen zurückgemeldeten Ergebnissen nicht allein gelassen werden, sondern sie als Chance und Auftrag fiir Selbstreflexion und Verbesserungen nutzen können. Wie man solche Ergebnisrückmeldungen indes gestaltet und kommentiert, in welcher Weise man Unterschiede des Schulkontextes und der Klassenzusammensetzung so in Rechnung stellt, damit faire, verständliche und praktisch verwertbare Informationen resultieren - dies ist noch weitgehend ungeklärt und erfordert zusätzliche empirische Untersuchungen.

Powered by TCPDF (www.tcpdf.org)

KAPITEL

17

Internationale Schulleistungsforschung Ihre Entwicklungen und Folgen für die deutsche Bildungslandschaft

Wilfried Bos und T. Neville Postlethwaite

Ergebnisse und Bedingungen von Schule und Unterricht werden in einer Reihe von Ländern unter der Fragestellung, welche Bildungsziele unter welchen Randbedingungen von welchen Altersgruppen auf welchem Niveau in verschiedenen Fächergruppen erreicht werden, regelmäßig und systematisch - oft jährlich - empirisch erfasst, um Grundlagen fiir die Diskussion um Quantität und Qualität im entsprechenden Bildungswesen zu erhalten. In den USA wurde diese Aufgabe z. B. vom "Educational Testing Service" übernommen, in Großbritannien vom "Schools Examinations and Assessment Council", in Frankreich vom Erziehungsministerium, in Schweden von der nationalen Schulverwaltung (Postlethwaite, 1993), in Australien vom "Australian Council for Educational Research", in den Niederlanden schon seit 1968 vom "Institut voor Toetsontwikkeling". Einzelne Länder, insbesondere Länder mit einem einheitlichen nationalen Curriculum, gehen dabei so weit, dass sie Ergebnisse nationaler Schulleistungstests zu einem Ranking von Schulen benutzen und diese Ranglisten veröffentlichen, sei es im World Wide Web, wie das "Department for Education and Employment" in Großbritannien, in Buchform, oder als jährliche Sonderbeilage einer renommierten Zeitung in Frankreich. Systematische Forschungen zu den Folgen, die sowohl positiver als auch negativer Art sein können, dieser Öffentlichmachung stehen allerdings noch aus. Darüber hinaus ist international und in neuester Zeit auch national ein steigendes Interesse an supranationalen Schulleistungsuntersuchungen zu beobachten. Seit Jahrzehnten sammelt das "International Bureau of Education" (IBE) bildungsrelevante Daten und veröffentlicht die "United Nations Educational, Scientific and Cultural Organisation" (UNESCO) bildungsstatistische Jahrbücher. Die "International Association for the Evaluation of Educational Achievement" (IEA) - wohl die bedeutendste und renommierteste Organisation auf diesem Gebiet - ist eine internationale Vereinigung von Wissenschaftlern aus Universitäten sowie Forschungseinrichtungen und Vertretern von Ministerien der teilnehmenden Länder, die seit Ende der fiinfziger Jahre regelmäßig internationale Vergleichsdaten zu spezifischen Unterrichtsfächern bei unterschiedlichen

252

Wilfried Bos und T. Neville Postlethwaite

Alterskohorten erhebt und analysiert; die Organisation für "International Assessment of Educational Progress" (IAEP) fiihrte Leistungsvergleiche in Mathematik und naturwissenschaftlichen Fächern bei dreizehnjährigen Schülern durch. Die "Organisation for Economic Co-operation and Development" (OECD) gibt Bildungsindikatoren heraus und führt in Zukunft mit dem Progamm PISA (Programme for International Student Assessment) in den nächsten zehn Jahren regelmäßig Schulleistungsuntersuchungen mit dem Schwerpunkt Lesen, Mathematik und Naturwissenschaften bei Fünfzehnjährigen, also am Ende der Sekundarstufe I, in den Mitgliedsstaaten - also auch in Deutschland und weiteren interessierten Ländern durch. Aber nicht nur wohlhabende westliche Industrieländer haben die Notwendigkeit einer Beteiligung an internationalen Schulleistungsuntersuchungen erkannt, auch sogenannte "Dritte Welt Staaten" beteiligen sich an den erwähnten Studien. Darüber hinaus haben diese Länder begonnen, unter der Federführung des "Southern Africa Consortium for Monitaring Educational Quality" (SACMEQ), selbst international vergleichende Schulleistungsuntersuchungen auf angemessenem Niveau in relevanten Klassenstufen zu organisieren. Der internationale Vergleich der Ergebnisse soll eine nationale Standortbestimmung erlauben, eine vielleicht zwingende Notwendigkeit im Prozess zunehmender Europäisierung und Globalisierung, in dessen Folge auch die Qualität von Bildung und Ausbildung einem internationalen Wettbewerb ausgesetzt ist. Weiterhin werden dem nationalen Bildungssystem Diskussionsgrundlagen zur VerfUgung gestellt. Fragen, warum vergleichbare Bedingungen im eigenen Land zu anderen Ergebnissen fUhren oder welche im eigenen Land nicht vorhandenen Faktoren die Ergebnisse in anderen Ländern beeinflussen, können nur auf der Basis international vergleichender Untersuchungen und Analysen gestellt und beantwortet werden. Internationale Schulleistungsuntersuchungen sind ein potentielles Instrument zum normativen Vergleich (Benchmarking). Ziel dieses Kapitels ist es, am Beispiel der Studien der IEA und einiger nationaler Studien einen Überblick über wichtige gerade durchgefiihrte und geplante Untersuchungen zu geben und die Möglichkeiten, den Nutzen, aber auch die Grenzen einer solchen internationalen Schulleistungsforschung für das nationale Bildungssystem aufzuzeigen.

Internationale und nationale Schulleistungsuntersuchungen In den fiinfziger Jahren, einer Zeit in der nur wenige Länder über genügend Ressourcen und Fachkräfte verfUgten, um die erforderlichen Aufgaben für den notwendigen Ausbau der Bildungssysteme zu erfiillen, begannen internationale Organisationen wie die UNESCO, das IBE und die OECD damit, systematisch bildungsrelevante Informationen über Curricula, Lehr-Lemmethoden, Bildungssysteme etc. in verschiedenen Ländern zu sammeln und deren Auswirkungen auf die sozioökonomische Entwicklung zu interpretieren. Anfänglich versuchte man, so etwas wie "nationale Bildungsproduktivitäten" daran festzumachen, welcher Prozentsatz einer Alterskohorte bestimmte Bildungsabschlüsse erreichte. Dabei stellte man jedoch schnell fest, dass sich das, was

Internationale Schulleistungsforschung

253

beim Erreichen der einzelnen Bildungsabschlüsse tatsächlich gelernt worden war, von Land zu Land erheblich unterscheiden konnte. Anderson (1961) machte als erster deutlich, dass man für solche Ländervergleiche, für die Messung von Ergebnissen nationaler Bildungsbemühungen auf quantitative Methoden, wie sie in der pädagogischen Psychologie entwickelt wurden, zurückgreifen müsse. Eine Gruppe von Bildungsforschern traf sich deshalb 1958, um die Möglichkeit der Durchführung einer international vergleichenden Messung von Schulleistungen zu beraten (vgl. Postlethwaite, 1999). Dies führte zu der sogenannten "pilot-study", mit der versucht wurde, erstens die prinzipielle Möglichkeit, mit standardisierten Tests sprach-, kultur- und länderübergreifend Persönlichkeitsmerkmale und kognitive Fähigkeiten adäquat zu erfassen und zweitens die methodischen und organisatorischen Möglichkeiten bzw. Schwierigkeiten einer solchen internationalen "large-scale" Untersuchung zu eruieren. Die Ergebnisse dieser Pilotstudie machten deutlich, dass solche Untersuchungen organisatorisch und methodisch zu bewältigen sind und zu wichtigen Resultaten für die Bildungspolitik führen würden. Auf Grundlage der Erfahrungen mit dieser Pilotstudie entschied sich die Forschergruppe zur Durchführung der ersten Hauptuntersuchung, der "First International Mathematics Study" (FIMS), in der mathematische Kompetenzen von Schülerinnen und Schülern in zwölf Ländern gemessen wurden (vgl. Husen, 1967). Im Anschluss daran wurde zwischen 1967 und 1975 die sogenannte "Six-Subjects" Studie durchgeführt, bei der verschiedene Klassenstufen- allerdings nicht simultan - in den Fremdsprachen Englisch und Französisch und in den Naturwissenschaften, in Literatur, in Lesefähigkeit und in politischer Bildung getestet wurden. In den achtziger Jahren wurde die "Second International Mathematics Study" (SIMS) und die "Second International Science Study" (SISS) durchgeführt. Weitere Studien in den achtziger bzw. Anfang der neunziger Jahre waren die "Classroom Environment Study", die "Computers in Education Study", die "Written Composition Study", die "Pre-primary Education" und die "International Reading Literacy Study". Die wohl ambitionierteste internationale Schulleistungsuntersuchung, die zum Ende des vergangeneo Jahrzehnts durchgeführt wurde, war die "Third International Mathematics and Science Study" (TIMSS), in der erstmalig die Kompetenzen in Mathematik und den Naturwissenschaften simultan bei drei Klassenstufen- zum Ende der Primarstufe, zum Ende der Sekundarstufe I und zum Ende der Sekundarstufe II - in mehr als vierzig Ländern erfasst wurden. Die deskriptiven Ergebnisse wurden je nach Klassenstufe und Fach getrennt publiziert. Auch auf Grund der eher geisteswissenschaftlichen Tradition deutscher Pädagogik ist in Deutschland eine empirieorientierte erziehungswissenschaftliche und bildungspolitische Denkweise, die eher an einer Überprüfung von Sachverhalten als an philosophisch orientierten Normendebatten interessiert ist, nur schwach entwickelt. Deutschland hatte sich, nach halbherziger Teilnahme- nur zwei Bundesländer beteiligten sichan FIMS, der ersten internationalen Mathematikstudie Anfang der sechziger Jahre (vgl. Hirzel, 1969; Schultze & Riemenschneider, 1967) und der Beteiligung an Teilen der "Sechs-Fächer-Studie", die Ende der sechzigerund Anfang der siebziger Jahre durchgeführt wurde (vgl. Schultze, 1974, 1975) für nahezu zwanzig Jahre- von der Beteili-

254

Wilfried Bos und T. Neville Postlethwaite

gung an der Classroom Environment Study, bei der es aber vorrangig um Prozessdaten zum Unterrichtsgeschehen ging (vgl. Helmke, Schneider & Weinert, 1986), einmal abgesehen - von allen internationalen Schulleistungsvergleichen verabschiedet (vgl. auch Baumert, 1998; Ingenkamp & Schreiber, 1989). Erst in den neunziger Jahren beteiligte sich Deutschland wieder an internationalen Schulleistungsuntersuchungen. So wurde die "Reading Literacy Study" der IEA durchgeführt (vgl. Lehmann, Peek, Pieper, v. Stritzky, 1995) und Ende der neunziger Jahre die IEA Studie zur politischen Bildung "CIVIC"- in Anlehnung an das amerikanische Unterrichtsfach civic education, dass gelegentlich mit "Staatsbürgerkunde" übersetzt wird- (vgl. Rändle, Oesterreich & Trommer, 1999), die europäische Studie zum historisch-politischen Bewusstsein von Schülerinnen und Schülern am Ende der Sekundarstufe I (vgl. Borries, 1999) und die TIMS-Studie. An der "Progress in International Reading Literacy Study" (PIRLS) der IEA, bei der die Tests in der vierten Klassenstufe im Jahr 2001 durchgeführt werden, beteiligt sich Deutschland unter dem Akronym IGLU (lnternationale-Grundschul-Lese-Untersuchung) ebenfalls; dies hat die KMK am 25.05.2000 einstimmig beschlossen. Dreizehn Bundesländer werden darüber hinaus im Rahmen dieser Studie die Kompetenzen der entsprechenden Schülerpopulation in Mathematik und Naturwissenschaften erfassen. Ausgeschrieben hat die KMK zur Abrundung von PISA eine Vergleichsuntersuchung zum Leistungsstand von Schülerinnen und Schülern am Ende der Sekundarstufe I im Englischen und in der aktiven Beherrschung der deutschen Sprache die unter dem Akronym DESI (Deutsch-Englisch-Schülerleistungen-International) schwerpunktmäßig in Deutschland mit internationaler Beteiligung relevanter Länder in den Jahren 2003 bzw. 2004 durchgeführt werden soll. Nicht vergessen sei hier, dass die nationale Stichprobe für die PISA-Studie in Deutschland so ausgeweitet wurde, dass auch die einzelnen Bundesländer repräsentativ erfasst wurden. Das heißt, Vergleiche zwischen und innerhalb der Bundesländer sowie Schulformvergleiche werden möglich sein. Darüber hinaus soll auch bei PISA den Schulen, die das wünschen, eine qualifizierte Rückmeldung über den Leistungsstand gegeben werden. Innerhalb der deutschen Bildungsforschung findet sich ebenfalls eine nahezu zwanzigjährige Abstinenz an größerer Schulleistungsforschung. Auch als Folge der Ergebnisse einiger empirischer pädagogischer Schulleistungsuntersuchungen aus den siebziger Jahren (vgl. z. B. Fend, 1982, 1998) wandten sich die universitäre Schulforschung und die Bildungsverwaltungen Deutschlands verstärkt Fragen der Qualitätsverbesserung durch Veränderung der Schulorganisation und die Entwicklung auf Einzelschulebene zu, unter Vernachlässigung einer systematischen und kontinuierlichen nationalen Schulleistungsforschung. Obwohl Ende der achtziger und Anfang der neunziger Jahre die Einseitigkeit dieser Perspektive und dieses Vorgehens deutlich wurden, hing die systematische empirische Schulleistungsforschung größeren Stils innerhalb Deutschlands noch Anfang der neunziger Jahre eher vom Engagement weniger einzelner Wissenschaftler oder Forschungsinstitutionen wie z. B. den Max-Planck-Instituten für Bildungsforschung in Berlin und für psychologische Forschung in München (vgl. z. B. Baumert et al., 1996; Weinert & Helmke, 1997) ab. Erst in jüngster Zeit- auch als

Internationale Schulleistungsforschung

255

Folge der Ergebnisseneuester internationaler Schulleistungsforschungen, insbesondere der TIMS-Studie -beauftragen Bildungsverwaltungen einzelner Bundesländer Wissenschaftler mit der systematischen und repräsentativen Erfassung von Schulleistungen und deren Bedingungsfaktoren fiir ausgewählte Fächer und Jahrgangsstufen. Vorreiter war hier der Stadtstaat Hamburg, der im Rahmen einer "Vollerhebung" aller Schülerinnen und Schüler der fünften Klassenstufe mit einem kombinierten Schulleistungstest für die Kompetenzerfassung des Lesens und Schreibens, aber auch in Mathematik und in Informationsverarbeitung untersuchen ließ. Darüber hinaus wurden Hintergrundvariablen zur Schülerpersönlichkeit und Einstellungen zu Schule und Unterricht erfasst (vgl. Lehmann, Peek & Gänsfuß, 1997). Neben einer Bilanzierung der Lernausgangslage von Schülerinnen und Schülern beim Eintritt in die Sekundarstufe I, stand dabei die Gewinnung von Steuerungswissen fiir die Schulbehörde fiir eine verbesserte Beratung und Unterstützung von Schulen und deren gezielter Weiterentwicklung im Hinblick auf einen verbesserten Unterricht im Vordergrund. Entsprechend wurden die Ergebnisse der Einzelschulen zwar nicht zu einem Ranking benutzt und auch nicht veröffentlicht, aber neben den Lehrern und der Schulleitung auch der Schulbehörde fiir ihre Arbeit zur Verftigung gestellt. Die gleichen Schülerinnen und Schüler wurden zwei Jahre später in der siebten Klassenstufe erneut getestet (vgl. Lehmann, Gänsfuß & Peek, 1999); Datenerhebungen in der Klassenstufe neun wurden im September 2000 durchgeführt, weitere Tests sind geplant. Harnburg werden so detaillierte Daten über Kompetenzen und wesentliche Bedingungsfaktoren der Schülerinnen und Schüler in verschiedenen Schulformen und Klassenstufen und deren Verläufe und Veränderungen zur Verfügung stehen. Auch alle Schülerinnen und Schüler der achten Klassenstufe in Rheinland-Pfalz wurden im Mai 2000 in Mathematik getestet. Darüber hinaus wurden Daten zur Schulqualität, zu Unterrichtsmerkmalen, zu Lernvoraussetzungen und zu dem persönlichen Hintergrund der Schüler erhoben. Auch bei dieser Studie sollen die Daten den Lehrern, der Schulleitung und der Schulaufsicht rückgemeldet werden, um eine gezielte Schulentwicklung in Gang zu setzen (vgl. Ministerium fiir Bildung, Wissenschaft und Weiterbildung, 2000). Nicht in Form einer "Vollerhebung", sondern im Rahmen von Zufallsstichproben fiir ausgewählte Fächer bestimmter Klassenstufen in ausgesuchten Schulformen hat Brandenburg ebenfalls in allerjüngster Zeit Studien zur Erfassung von Lernständen in Auftrag gegeben. Die Schülerinnen und Schüler der Klassenstufen ftinf und neun wurden 1999 im Rahmen der "Qualitätsuntersuchung an Schulen zum Unterricht in Mathematik" (QuaSUM) einem Mathematiktest unterzogen. Darüber hinaus wurden Merkmale des Unterrichts und zum Schulalltag erfasst und Informationen zur Lebens- und Lernwelt der Schüler erhoben. Die Leistungsstände sollen den jeweiligen Lehrern und der Schulleitung rückgemeldet werden, nicht jedoch der Schulaufsicht (vgl. Lehmann, 1999). Eine eigenständige Begleituntersuchung über den Umgang mit diesen schulbzw. klassenbezogenen Rückmeldungen von Leistungsständen und deren evtl. Beitrag zur Schulentwicklung ist vorgesehen, entsprechende nachträgliche Befragungen der Kollegien bzw. Schulleitungen wurden durchgeführt. Ebenfalls in Brandenburg wurden

256

Wilfried Bos und T. Neville Postlethwaite

im Rahmen der wissenschaftlichen Begleitung des Modellversuchs LER (Lebensgestaltung-Ethik-Religion) in der Sekundarstufe I an 44 brandenburgischen Schulen u. a. auch "Leistungsstände" erhoben. Allerdings handelt es sich bei dieser wissenschaftlichen Begleitung nicht um eine Schulleistungsuntersuchung im engeren Sinne. Die Ergebnisse des Modellversuchs sollen bei der Entscheidung Berücksichtigung finden, ob dieses Fach an allen brandenburgischen Schulen eingeflihrt wird.

Der Beitrag der Schulleistungsmessung zur Bildungplanung Jedes Bildungsministerium, gleich ob aufnationaler oder regionaler Ebene, ist verantwortlich fiir die adäquate materielle Ausstattung der Schulen, fiir eine ausreichende Anzahl qualifizierter Lehrer, fiir ein angemessenes Curriculum und dafiir, dass die Schülerinnen und Schüler das lernen was sie lernen sollen. Dies bedarf neben umsichtiger Planung auch vieler Informationen über die Lernwirksamkeit von Schule, denn nur wenn dieses Wissen verfiigbar ist, können Bildungsplaner bei Bedarfkorrigierend standardsichernd eingreifen. Die notwendigen Informationen können aus nationalen Datenerhebungen aber auch aus internationalen Vergleichen resultieren (vgl. Postlethwaite, 1995). Bei internationalen Schulleistungsuntersuchungen gibt es neben den Testinstrumenten stets auch mehr oder weniger ausfiihrliche Hintergrundfragebögen, die in allen teilnehmenden Ländern eingesetzt werden. Für jedes einzelne Land ist es möglich, diese Fragebögen um national relevante Zusatzfragen zu erweitern. Diese nationalen Analysen sind im Prinzip fiir alle beteiligten Länder von Interesse. In den IEA Studien, die vor TIMSS durchgefiihrt wurden, sind diese zusätzlichen nationalen Ergänzungen und Analysen koordiniert und allgemein zugänglich publiziert. Im Rahmen von TIMSS wurden bis jetzt erst die aggregierten Länderwerte international miteinander verglichen. Der übergreifende Bericht über nationale Zusatzanalysen steht noch aus, ebenso Analysen, in denen die Daten aller beteiligten Länder und Schulen in nichtaggregierter Form systematisch nach bestimmten Fragestellungen ausgewertet werden. In reicheren Ländern kann man davon ausgehen, dass die Schulen zumindest materiell adäquat ausgestattet sind. Dies gilt nicht fiir viele sogenannte Entwicklungsländer. Deshalb werden in internationalen Schulleistungsstudien die materiellen Ressourcen systematisch miterfasst, um Unterschiede und Variationen zwischen Schulen und zwischen Regionen beschreiben zu können.

In gewisser Abhängigkeit von der Organisationsform eines Bildungssystems soll, zumindest in allen Schulen einer Schulform, fiir vergleichbare Lernmöglichkeiten gesorgt werden. Die IEA Studien unterscheiden deswegen zwischen intendiertem, implementiertem und realisiertem Curriculum. Das intendierte Curriculum wird in der Regel von

Internationale Schulleistungsforschung

257

Curriculumexperten in Ministerien oder beauftragten Behörden festgelegt. Das implementierte Curriculum ist das, was den Schülern durch Lehrer und Unterrichtsmaterialien tatsächlich geboten wird. Hier unterscheiden sich Bildungssysteme bezüglich der Freiheit von Schulleitungen bzw. Lehrern in der Auswahl von Materialien bis zur Umsetzung im Unterricht erheblich. Schließlich finden wir im realisierten Curriculum das, was tatsächlich von den Schülern gelernt worden ist. Auch auf dieser Ebene finden wir eine große Variationsbreite zwischen Schülern, Klassen und Schulen, aber auch das Ausmaß der Variationsbreite zwischen verschiedenen Ländern variiert erheblich. Bildungsplaner können im Prinzip auch hier nicht auf gesichertes Wissen über die Umsetzung von intendiertem und implementiertem Curriculum verzichten, ist bei einem defizitär realisierten Curriculum doch dringender Handlungsbedarf gegeben. In den internationalen Schulleistungsuntersuchungen werden die notwendigen Daten auch für diese Fragestellungen erfasst. Mittels internationaler Schulleistungsuntersuchungen ist es möglich, systematisch zu erfassen, welche Inhalte in verschiedenen Schulformen aufwelchem Niveau unterrichtet und gelernt werden. Warum z. B. werden in einem Land negative Brüche in der fünften Klassenstufe unterrichtet und in anderen Ländern in der siebten, und beeinflusst dies die Fachleistung der Schüler kurz- oder langfristig? Die Curricula der Länder sind voller Vermutungen darüber, was Schüler in bestimmten Klassenstufen tatsächlich lernen können und was nicht. Nur durch international vergleichende Schulleistungsforschung kann aber eine realistische Sichtweise gewonnen werden. Die Teilnahme an internationalen Schulleistungsforschungen gibt Bildungsplanem Einblick in Inhalt und Aufbau der Curricula und der Bildungsergebnisse anderer Länder, die zur Überprüfung und Weiterentwicklung eigener Curricula genutzt werden können. Darüber hinaus können Bildungsplaner erfahren, welche Stoffgebiete in anderen Ländern unterrichtet werden, im eigenen Land aber nicht. Dies können, unter den Bedingungen eines internationalen Wettbewerbs, wichtige Informationen sein (vgl. Beaton, Postlethwaite, Ross, Spearritt & Wolf, 1999). Eine Reihe von Bildungsfragen lassen sich schließlich nur auf der Grundlage international vergleichender Schulleistungsuntersuchungen beantworten bzw. ernsthaft diskutieren. Welches ist z. B. das ideale Einschulungsalter? Einige Länder beginnen mit vier Jahren, in anderen beginnt die Schule mit fünf oder sechs, in manchen erst mit sieben Jahren. In jedem Land wird es gute Gründe für die jeweilige Festsetzung geben. Für Bildungsplaner sollte es deshalb von Interesse sein zu wissen, welche Auswirkungen dies auf den Lernerfolg hat, wenn die Schüler dreizehn oder vierzehn Jahre alt sind. Gleiches gilt für die Länge der Schulzeit. Es war schon im Rahmen von SISS interessant festzustellen, dass Schüler in Hongkong bei einem Ausschöpfungsgrad der Alterskohorte von zwanzig Prozent - also bei relativ geringer Selektivität des Systems in der zwölften Klassenstufe vergleichbare Testergebnisse in Physik vorwiesen wie Schüler der dreizehnten Klassenstufe bei einem Ausschöpfungsgrad von nur fünf Prozent einer Alterskohorte - also bei relativ hoher Selektivität - in England. Ähnliche Befunde wurden mit TIMSS festgestellt. Ein dreizehnjähriges Schulsystem ist sicherlich kostspieliger als ein zwölfjähriges. Ob ein dreizehnjähriges System unter den Gesichtspunkten der Schulleistung tatsächlich zu rechtfertigen ist, wurde intensiv dis-

258

Wilfried Bos und T. Neville Postlethwaite

kutiert. Eine ähnliche Diskussion wurde durch die TIMSS-Ergebnisse in Deutschland ausgelöst. Durch internationale Vergleiche wurde in Deutschland darauf hingewiesen, dass eine Reihe von bildungspolitischen Auseinandersetzungen der letzten Jahrzehnte möglicherweise nicht die besonders wichtigen Problembereiche des Bildungswesens betrafen. So scheint die Frage nach der Schulorganisation im Hinblick auf die Schülerleistung nicht so relevant zu sein wie manchmal angenommen wird. Wir finden Länder mit gegliedertem Schulsystem ebenso wie Länder mit nichtgegliederter Schulorganisation- z. B. Schweiz und Schweden- in der Ländergruppe mit den höchsten Testleistungen. Eine Reihe internationaler Schulleistungsvergleiche weist darauf hin, dass die Klassengröße - von sehr kleinen Klassen und sehr großen Klassen vielleicht einmal abgesehen (Moser, Ramseier, Keller & Huber, 1997, S. 203ff.)- nicht den Einfluss auf die gemessenen Testleistungen hat, wie vielfach vermutet wurde. Es finden sich Belege, dass hohe, nominelle Unterrichtszeiten nicht zwangsläufig zu besseren Schulleistungen führen und dass die Organisationsform von Abschlussprüfungen - zentral vs. dezentral - in ihren Beziehungen zur Schulleistung überschätzt wird (vgl. Baumert, Bos & Watermann, 1998). Erkenntnisse dieser Art sind nur durch internationale Schulleistungsforschung zu gewinnen, da nationale Schulleistungsuntersuchungen keine vergleichbare "Systemvarianz" vorfinden. Hinweise fiir eine direkte Verbesserung von Unterricht und eine unmittelbare Hilfestellung bei der Entwicklung der einzelnen Schule dürfen allerdings von internationalen Schulleistungsforschungen allein nicht erwartet werden. Hierzu bedarf es ergänzender und weiterreichender Forschung.

Der Beitrag der Schulleistungsmessung zur Grundlagenforschung Internationale Schulleistungsforschungen können neben der Gewinnung von Steuerungswissen zur Bildungplanung aber auch einen erheblichen Beitrag zur Grundlagenforschung leisten. Fragen von System- und Kulturabhängigkeit von Effekten lassen sich generell nur im Rahmen internationaler vergleichender Forschung beantworten, denn nur hier wird die notwendige Varianz fiir entsprechende vergleichende Analysen erzeugt. Immer hängt der Aussagewert der Ergebnisse internationaler Schulleistungsuntersuchungen von der Qualität des verwandten Tests ab. Die Vertrauenswürdigkeit von Schulleistungstests steht und fällt mit deren Objektivität, Reliabilität und der- wenn angestrebt - Lehrplan- und Unterrichtsvalidität der Testaufgaben (Baumert & Köller, 1998; Ingenkamp, 1995), der ordnungsgemäßen Durchführung der Tests und deren angemessener Auswertung. Sind diese Kriterien aber erfiillt, ist ihr Einsatz im Bildungswesen zur Erfolgskontrolle des Systems und zur Optimierung von Lernerfolg kaum wegzudenken. Im Folgenden soll der Prozess einer solchen Testkonstruktion kurz skizziert werden. Bei internationalen und nationalen Schulleistungstests sind im Wesent-

Internationale Schulleistungsforschung

259

liehen "Curricular orientierte Test" und "Grundbildungstests" zu unterscheiden. Der Mathematik- und Physiktest der TIMS-Studie ftir die gymnasiale Oberstufe, hier aus Raumgründen auf den Mathematiktest begrenzt, kann als Beispiel für einen curricular orientierten Test herangezogen werden. Im Vorfeld der Testerstellung wurde in den teilnehmenden Staaten eine ausführliche Curriculum- und Lehrbuchanalyse durchgeführt (vgl. Robitaille et al., 1993; Schmidt, McK.night, V alverde & Wiley, 1997), bei der deutlich wurde, dass die vorakademische Ausbildung in Mathematik und Physik zur Vorbereitung auftertiäre Bildungsgänge bei den teilnehmenden Ländern hochstandardisiert ist. Dies ist auch nicht verwunderlich, sind die mathematischen Anforderungen an einen Studienanfänger für Wirtschaftswissenschaften in Paris doch ähnlich wie fiir den in New York. Nationale Expertengruppen stellten Testaufgaben zusammen, die dem jeweiligen nationalen Curriculum besonders gut entsprachen. Mittels einer sogenannten "Test-Curriculum-Matching-Analysis" wurden so Testleistungen von Schülern anderer Staaten bei national zusammengestellten Testaufgaben international ausgewertet. In Tabelle 1 ist die jeweilige nationale Testleistung in den verschiedenen Subtests anderer Länder im nationalen Subtest abgebildet. In den Zeilen ist die jeweilige nationale Testleistung in den verschiedenen Subtests wiedergegeben. In den Spalten werden die Testleistungen anderer Länder im nationalen Subtest ab lesbar. Aus der Diagonalen geht die jeweilige Testleistung im eigenen nationalen Subtest hervor. Deutlich wurde bei diesem Verfahren, dass Schüler aus Ländern, die unterdurchschnittliche Ergebnisse erzielten, immer unterdurchschnittliche Ergebnisse erzielten, gleich welchen nationalen Subtest sie bearbeiteten. Schüler aus Ländern, die besonders gute Resultate erzielten, erreichten immer gute Resultate, gleich welcher nationale Test ihnen vorlag. Analog verhielten sich die Schüler, die mit ihren Testleistungen im mittleren Bereich lagen. Aus den national zusammengestellten Aufgaben wurden von international zusammengesetzten Expertengruppen die Aufgaben ftir Pretests und eine endgültige Testversion zusammengestellt. Dabei wurde durch Homogenitätsüberprüfung im Rahmen der ItemResponse-Theorie darauf geachtet, dass die Aufgaben möglichst eindimensional, aber aufverschiedenen Schwierigkeitsstufen die spezifische Fähigkeit zum Lösen von Mathematikaufgaben, möglichst unabhängig vom Sachgebiet und Antwortformat, erfassen. Ebenfalls wurde gewährleistet, dass nur solche Aufgaben verwendet wurden, deren transkulturelle Äquivalenz erwiesen war, die also keine, die Gesamtergebnisse verzerrenden starken differentiellen Itemfunktionen aufwiesen. Nach Durchfiihrung dieser entsprechenden Prüfverfahren wurde, wie aus den Tabellen 2 und 3 hervorgeht, darauf geachtet, dass Anforderungsarten und Aufgabenformate relativ gleichmäßig auf die Sachgebiete der zu testenden voruniversitären Mathematik verteilt wurden. Nach Durchfiihrung der Tests bei repräsentativen Stichproben aus 16 Ländern wurden die Tests weiteren Prüfungen unterzogen. In Deutschland wurden darüber hinaus, zur Feststellung der Unterrichtsvalidität, die Fachleiter an den Schulen, an denen die Tests durchgeführt wurden, befragt, ob die

260

Wilfried Bos und T. Neville Postlethwaite

Stoffgebiete und Verhaltenserwartungen, die die Aufgaben repräsentierten, tatsächlich auch unterrichtet worden waren. Wir finden in Deutschland eine beachtliche Übereinstimmung zwischen intendiertem und implementiertem Curriculum, mehr als achtzig Prozent der Aufgaben wurden als unterrichtsvalide eingeschätzt. Eine Befragung deutscher Curriculumexperten aus Landesinstituten bzw. Ministerien - alle Bundesländer außer dem Saarland waren vertreten - bestätigte das Bild: Über neunzig Prozent der Aufgaben zur voruniversitären Mathematik wurden als lehrplanvalide eingeschätzt (vgl. Baumert et al., 1999).

Tabelle 1: Test-Curriculum Matehing Analyse: Ergebnisse für voruniversitäre Mathematik -Durchschnitt der relativen Lösungshäufigkeifen der Testaufgaben basierend auf länderspezifischen Subtests

.

!

!

c;l 2c: "Q)

I

I

-o ""'

= .s::'CO

"i:

.s::

0

0

.s:: 0

0

0>

f:!

0

""'c:

Land

0

..J

Frankreich

58 (1,1)

Australien

52 (2,2)

.s:: c: :::J :::J

'0

c:

"0

c: CO

-u;

u;

0

49 (1 ,2)

Q)

.s::

LL.

:::J

Internationale Schulleistungsforschung

263

Ein weiterer Beitrag zur Grundlagenforschung liegt in den nationalen Ergänzungen. Abbildung 1 gibt einen Überblick über das Forschungsdesign der TIMS-Studie in Deutschland. In der Waagerechten ist die Testchronologie wiedergegeben, in der Senkrechten die getesteten Klassenstufen. Deutschland hatte im Gegensatz zu vielen anderen Ländern die Primarstufe nicht getestet. Die grauen Felder repräsentieren die internationalen Vorgaben, die weißen Felder die nationalen- deutschen- Ergänzungen. So wurden z. B. bei den Schülern der Oberstufe das Zeitbudget erfasst, schulische und außerschulische Interessensgebiete erfragt und fachspezifische Selbstkonzepte, Wertorientierungen, Berufswahlpläne und Merkmale der Unterrichtsfuhrung aus Schülersicht ermittelt. Darüber hinaus wurden Fragen zur Geschlechtsrollendefinition, motivationalen Orientierungen, fachspezifischen Lernstrategien etc. gestellt. International wurden Schülerinnen und Schüler in der siebten, achten und letzten Klassenstufe zu einem Testzeitpunkt getestet. In Deutschland wurde darüber hinaus im Rahmen eines Längsschnitts eine Teilpopulation sowohl in der siebten als auch in der achten Klassenstufe getestet. So konnten Aussagen über den Lernfortschritt und dessen Bedingungen binnen eines Jahres gewonnen werden. Hier wurden die internationalen Testaufgaben um deutsche Testaufgaben aus einem anderen Test ergänzt, so dass eine weitere Validierung erfolgen konnte. In Deutschland erfolgte zusätzlich noch eine Fachleiterbefragung zur V alidierung der Tests. Schüler- und Lehrerfragebögen wurden ergänzt, um tiefergehende Analysen zu ermöglichen. In der gymnasialen Oberstufe wurden in den Bundesländern, in denen dreizehn Jahre bis zum Abitur unterrichtet wird, auch zwölfte Klassen getestet, so dass vorsichtige Vergleiche über Leistungsstände zwischen zwölfter und dreizehnter Klassenstufe im dreizehnjährigen System möglich sind. Methodisch ergänzend wurden auch qualitative Verfahren eingesetzt. Neben Fallstudien zu den unterschiedlichen Klassenstufen führte man mit Forschergruppen aus den USA und Japan eine vergleichende Videostudie von Unterricht durch. International wurden dabei zu einem Messzeitpunkt je rund fiinfzig Unterrichtsstunden an den Schulen, an denen auch die Tests durchgeführt wurden, videografiert, in Deutschland darüber hinaus zusätzliche Stunden zu zwei weiteren Messzeitpunkten. So konnten durch Verbindung qualitativer und quantitativer Daten im Rahmen von Methodenkombinationen Einsichten gewonnen werden, die über den Vergleich der Testergebnisse hinausgehen (vgl. Klieme & Bos, 2000). Durch ein so erweitertes Forschungsdesign sind, neben den internationalen Leistungsvergleichen, Fragestellungen wie nach dem Stand der mathematisch-naturwissenschaftlichen Grundbildung beim Übergang von der Schule zum Berufbzw. in die gymnasiale Oberstufe und schichtspezifische Einflüsse hierauf bearbeitbar, aber auch Fragen zur Unterrichtsgestaltung, zu Studienfachwünschen und Berufsorientierungen der Schüler, zur Situation von Schulabgängern nicht-deutseher Muttersprache ebenso wie Analysen zu epistemologischen Überzeugungen und dem Fachverständnis im Mathematik- und Physikunterricht etc. Noch über Jahre werden eine Reihe weiterer Forschungsarbeiten zu anwendungsbezogenen Fragestellungen und Qualifikationsarbeiten zu Grundlagenfragestellungen aus dem Datensatz von TIMSS entstehen, die ohne die Beteiligung an dieser internationalen Schulleistungsforschung gar nicht denkbar wären.

264

Wilfried Bos und T. Neville Postlethwaite

Aber auch hier muss deutlich darauf hingewiesen werden, dass ein unmittelbarer und direkter Nutzen ftir den einzelnen Lehrer und die einzelne Schule allein von der internationalen Schulleistungsforschung nicht zu erwarten ist. Der skizzierte zusätzliche Erkenntnisgewinn ist langwierig, die Umsetzung bedarfintensiver Diskussion und weiterer ergänzender und den Umsetzungsprozess begleitende Forschung. Schließlich soll an dieser Stelle auf den Fortschritt bei der Weiterentwicklung von Forschungsmethoden durch die Kooperation bei internationalen Schulleistungsuntersuchungen hingewiesen werden (vgl. Martin & Kelly, 1996, 1998; Martin & Mullis, 1996). Verfahren der Stichprobenziehung, Erhebungsverfahren, Skalierungstechniken und Prüfverfahren ebenso wie die Standards zur Qualitätssicherung bei der Durchfiihrung, sind durch diese Studien erheblich verbessert worden, auf nationaler Ebene allein wären diese Entwicklungen nicht möglich gewesen.

Der Beitrag der Schulleistungsmessung zur externen Evaluation und Schulentwicklung Bei allen neueren durchgefiihrten und geplanten internationalen bzw. nationalen Schulleistungsuntersuchungenist die Rückmeldung von Ergebnissen an Lehrer, Schulleiter, teilweise an die Schulbehörden, fester Bestandteil des nationalen Untersuchungsdesigns. Dies gilt fiir PISA, QuaSUM, die Hamburger Studien, aber auch fiir die in der Planung befindlichen, aber noch nicht durchgefiihrten Untersuchungen DESI und IGLU. Damit zeichnet sich in Deutschland der Versuch ab, systematischer die Ergebnisse von Leistungstests auch ftir eine externe Evaluation eines Teilsystems des Bildungswesens zu benutzen, also die vermeintlichen Gegensätze von "Messen" und "Entwickeln" zusammenzufiihren. Dass Evaluation, im Sinne eines Prozesses des Sammelns und Analysierens von Informationen mit dem Ziel, zu begründeten Bewertungsurteilen zu kommen (Rolff, 1996), die notwendige Basis fiir eine Qualitätsentwicklung darstellt, ist auch fiir das deutsche Bildungswesen unstrittig. Gemeinhin wird aber in Deutschland unter Evaluation von Schule eine interne Evaluation verstanden. Bei diesem Verfahren geht man davon aus, dass die Schule die Kriterien und Prozesse ihrer Entwicklung und Bewertung selbst definiert und so ihr eigenes pädagogisches Konzept entwickelt, modifiziert und optimiert. Die Definition des Qualitätskriteriums fiir das Bildungsangebot obliegt dabei im Wesentlichen der einzelnen Schule. Relativ neu und nicht unstrittig ist in Deutschland dagegen die Vorstellung einer externen Evaluation von Schule und Bildungswesen (Rolff, 1997). Die Arbeit der Lehrer- die ja ständig Schüler beurteilen - kann durch externe Evaluation aus einem nahezu privaten Rahmen des Unterrichtens in ein öffentliches Verfahren der "Rechenschaftslegung" verlagert werden. Dass ein Teil der Standesvertretungen der Lehrerschaft dies mit gewisser Skepsis betrachtet, scheint verständlich. Externe Evaluation kann durch Expertenkommissionen, Schulaufsicht, Kollegen, Schulentwicklungsberater etc. mit unterschiedlichen Methoden und Zielsetzungen durchgefUhrt werden. Externe Evaluation auf der Basis von Leistungsuntersuchungen ver-

265

Internationale Schulleistungsforschung

sucht, durch standardisierte Leistungstests Lehr- und Lernerfolge zu erfassen und somit systematisch das Bildungswesen zu bilanzieren. Die Qualitätskriterien für den Unterricht werden dabei von außen angelegt und wesentlich durch den verwandten Leistungstest definiert. Entsprechend hohe Qualifikationsanforderungen sind an die Tests zu stellen. Bei internationalen Schulleistungsvergleichen sind die entsprechenden Qualitätsstandards gesichert, deswegen werden in den meisten neuen nationalen Schulleistungsforschungen auch Aufgaben bzw. ganze Aufgabenbatterien aus den internationalen Untersuchungen mitverwandt Eine Rückmeldung an die Schulen bietet hier die Möglichkeit, nicht nur unterschiedliche Rückmeldeformen zu erproben, sondern auch systematisch die Verknüpfungsmöglichkeiten von externer und interner Evaluation zu erforschen. Dies ist dringend notwendig, gibt es doch kaum Forschungsergebnisse zu diesem Bereich (vgl. Fidler, Earley, Ouston & Davies, 1998; Hargreaves, Liebermann, Fullan & Hopkins, 1998; Millmann, 1997).

EVA-Ergebnis

'

Rechenschaft

/L___

\

Intern

Extern

Beratung

/

__j

t

Einsatz von Tests '-----------'

Abbildung 2: Verknüpfung externer und interner Evaluation

In Abbildung 2 wird das von Rolff entwickelte Modell externer und interner Evaluation (Kempfert & Rolff, 1999) modifiziert und um den Einsatz von Tests erweitert. Zwar verlegt Rolff in seinem ursprünglichen Modell den Beginn der Evaluation auf den Zeitpunkt der Entscheidung einer Schule zu einer internen Evaluation, dies ist aber normativ und nicht empirisch begründet. Wir wissen zur Zeit einfach nicht genau, ob ein optimaler Evaluationsprozess mit der Entscheidung der Schule zur Evaluation, gefolgt von der Planung, Durchfiihrung und Ergebnisdebatte, die dann- wenn die Schule dies will-

266

Wilfried Bos und T. Neville Postlethwaite

zu einer externen Evaluation :fiihrt, in deren Rahmen dann evtl. eine Kommission geladen wird, die berät, evtl. Tests durch:fiihrt und die Ergebnisse rückmeldet, der optimale Weg ist. Vielleicht ist der Einsatz von Tests im Rahmen einer externen Evaluation bei entsprechender Rückmeldung, der so einen Evaluationprozess in der Schule initiiert, ebenfalls erfolgreich. Wir wissen auch nicht, inwieweit im Rahmen von Rechenschaftslegung eingesetzte Tests von Seiten einer Schulbehörde bei entsprechender Rückmeldung und qualifizierter Beratung nicht einen positiv verlaufenden Schulentwicklungsprozess in die Wege leiten können und wie eine solche qualifizierte Beratung auszusehen hat. Wir wissen erst recht nichts darüber, was in den Schulen passiert, wenn diese sich Aufgaben aus internationalen Schulleistungsuntersuchungen aus dem Internet oder einschlägigen Dokumentationen (vgl. Baumert et al., 1999) holen, unter der Gefahr des "Dilettantismus" selbst Tests durch:fiihren und die Ergebnisse- z. B. Anteile prozentual richtig gelöster Aufgaben mit nationalen bzw. internationalen Kennwerten vergleichen- im Rahmen ihrer internen Evaluation verwenden. Vielleicht ist es sinnvoller, diesen Service qualifiziert den Schulen unter Wahrung der schulischen Datenhoheit als Dienstleistung anzubieten. Hier ist dringend Forschung geboten, um die Möglichkeiten von qualitativ hochwertigen Testmaterialien, die im Rahmen internationaler Schulleistungsuntersuchungen entwickelt und häufig national modifiziert wurden, voll ausschöpfen zu können.

Ausblick Internationale Schulleistungstests als potentielle Instrumente externer Evaluation des Bildungswesens könnten mit ihren Ergebnissen sicherlich auch in Deutschland einen Beitrag im Sinne eines "Benchmarkings" leisten. Deutsche Schülerleistungen liegen nach den Ergebnissen neuerer Schulleistungsvergleiche :fiir die jeweils untersuchten Fächer und Klassenstufen im internationalen Vergleich im Mittelfeld. Dies gilt sowohl :fiir die beruflichen Schulen, die Sekundarstufe I, als auch :fiir die gymnasiale Oberstufe. Was sich in der Sekundarstufe I abgezeichnet hatte, setzt sich in der Sekundarstufe II fort; die Leistungsabstände werden eher größer als kleiner. Im Bereich der Spitzenleistungen treten die Unterschiede besonders hervor, der Anteil sehr leistungsschwacher Schüler ist in Deutschland im Vergleich zu einigen Nachbarländern überproportional groß. Der Vergleich mit Nachbarländern, mit Ländern der EU und mit anderen wirtschaftlich wichtigen Ländern, scheint bei zunehmender Globalisierung der Märkte zwingend notwendig. Dem nationalen Bildungssystem - den Bildungsplanem - können darüber hinaus durch die Ergebnisse von internationalen Schulleistungstests eine Reihe von Hinweisen gegeben werden. Zumindest :fiir Deutschland lag und liegt der Nutzen einer solchen externen Evaluation unseres Bildungswesens durch internationale Schulleistungsforschung u. a. darin, die

Internationale Schulleistungsforschung

267

relevanten Sachverhalte in den Vordergrund der Diskussion zu rücken - wie dies Roth bereits 1963 forderte - und auf die Bedeutung der Unterrichtsebene hinzuweisen. Zur Verbesserung von Unterricht ist diese Fonn externer Evaluation allerdings nur mittelbar nützlich, es bedarf hierzu weiterführender Untersuchungen und Programme. Für den mathematisch-naturwissenschaftlichen Unterricht wurde- auch in Folge von TIMSS z. B. ein mehnnodulares Fünfjahresprogramm zur Verbesserung des entsprechenden Unterrichts eingerichtet (Bund-Länder-Kommission fiir Bildungsplanung und Forschungsf